This is an old revision of the document!
Regular Expressions und HTML-Dateien
Einführungsbeispiel
Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel:
<a href="https://fginfo.ksbg.ch/">Fachgruppe Informatik</a>
Der HTML-Tag <a>
definiert einen Link. Im Attribut href
steht die URL (Web-Adresse). Der verlinkte Text steht danach (beendet durch ein </a>).
Das gewünschte CSV-Format ist folgendes:
Fachgruppe Informatik;https://fginfo.ksbg.ch/
Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen.
- Wir folgende HTML-Datei: page.html, die Sie bitte herunterladen und in NotePad++ öffnen.
- Löschen Sie bitte alle Zeilen, die die Zeichenkette
<a href=
nicht enthalten. Machen Sie eine Internetsuche (am besten auf Englisch), wie Sie vorgehen können. - Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum
<a href
durch\n<a href
. Dazu muss im “Search Mode” “Extended” oder “Regular Expression” aktiviert sein. - Löschen Sie abermals die Zeilen, die
<a href
nicht enthalten.