Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge4 [2021/02/24 10:41] Ivo Blöchliger [Einführungsbeispiel] |
lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge4 [2021/02/25 10:36] Ivo Blöchliger [Real-Life Example] |
||
---|---|---|---|
Line 3: | Line 3: | ||
Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel: | Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel: | ||
<code html> | <code html> | ||
- | <a href=" | + | <a href=" |
</ | </ | ||
Der HTML-Tag ''< | Der HTML-Tag ''< | ||
Line 14: | Line 14: | ||
Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen. | Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen. | ||
<WRAP todo> | <WRAP todo> | ||
- | * Wir folgende HTML-Datei: {{lehrkraefte: | + | * Wir verwenden |
* Löschen Sie bitte alle Zeilen, die die Zeichenkette ''< | * Löschen Sie bitte alle Zeilen, die die Zeichenkette ''< | ||
- | * Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum ''< | + | * Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum ''< |
* Löschen Sie abermals die Zeilen, die ''< | * Löschen Sie abermals die Zeilen, die ''< | ||
- | * | + | * Führen Sie nun folgende Ersetzung durch, wobei der " |
+ | * Ersetzen Sie ''< | ||
+ | * Man stellt fest, dass im Text noch Strichpunkte vorkommen. Diese stehen aber beim ''& | ||
+ | * Ersetzen Sie ''& | ||
+ | * Als letztes vervollständigen sie die Links durch ''< | ||
+ | * Speichern Sie die Datei als '' | ||
+ | * Schliessen Sie Excel wieder (sonst kann die Datei '' | ||
+ | * In Notepad++ kann die Codierung angepasst werden. Im Menu Encoding -> Convert to ANSI. Speichern Sie wieder mit **Ctrl-S**. | ||
+ | * Öffnen Sie die Datei noch einmal mit Excel und überprüfen Sie, ob das Problem jetzt behoben ist. | ||
</ | </ | ||
<hidden Lösungsvorschläge> | <hidden Lösungsvorschläge> | ||
- | * Eine Suche nach '' | + | * Eine Suche nach '' |
</ | </ | ||
+ | |||
+ | |||
+ | <WRAP info> | ||
+ | * Das **Encoding** gibt an, wie Buchstaben (insbesondere Sonderzeichen wie ä, é etc.) codiert, d.h. binär dargestellt werden. | ||
+ | * Praktisch alle Webseiten und Computersysteme verwenden heute (und schon seit langem) das universelle Encoding UTF-8, ausser natürlich Microsoft Windows :-/ | ||
+ | </ | ||
+ | |||
+ | ===== Regular Expressions ===== | ||
+ | * {{lehrkraefte: | ||
+ | |||
+ | |||
+ | ===== HTML-Tabelle nach CSV konvertieren ===== | ||
+ | <WRAP todo> | ||
+ | * Erstellen Sie eine von Excel lesbare CSV-Datei aus folgender HTML-Tabelle: | ||
+ | * Berechnen Sie die Summe aller Einträge. | ||
+ | Hinweis: Es gibt viele Möglichkeiten, | ||
+ | </ | ||
+ | |||
+ | <hidden Lösungshilfen> | ||
+ | * Oft ist ein Copy-Paste aus dem Browser einfacher, als die Analyse des HTML-Codes. | ||
+ | * Es gibt online-Tools, | ||
+ | * Das " | ||
+ | </ | ||
+ | |||
+ | ===== Oh no, pdf ===== | ||
+ | <WRAP todo> | ||
+ | * Übertragen Sie folgende Tabelle in Excel und überprüfen Sie die Summe: {{lehrkraefte: | ||
+ | * Für diejenigen, die es so richtig mühsam wollen, gleiche Aufgabe aber mit einem " | ||
+ | </ | ||
+ | |||