Regular Expressions und HTML-Dateien

This is an old revision of the document!

Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel:

<a href="https://fginfo.ksbg.ch/">Fachgruppe Informatik</a>

Der HTML-Tag <a> definiert einen Link. Im Attribut href steht die URL (Web-Adresse). Der verlinkte Text steht danach (beendet durch ein </a>).

Das gewünschte CSV-Format ist folgendes:

Fachgruppe Informatik;https://fginfo.ksbg.ch/

Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen.

Wir folgende HTML-Datei: page.html, die Sie bitte herunterladen und in NotePad++ öffnen.
Löschen Sie bitte alle Zeilen, die die Zeichenkette <a href= nicht enthalten. Machen Sie eine Internetsuche (am besten auf Englisch), wie Sie vorgehen können.
Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum <a href durch \n<a href. Dazu muss im “Search Mode” “Extended” oder “Regular Expression” aktiviert sein.
Löschen Sie abermals die Zeilen, die <a href nicht enthalten.

Lösungsvorschläge

Eine Suche nach notepad++ delete all lines not containing a pattern hat als ersten Treffer fogende Seite ergeben: https://superuser.com/questions/290247/delete-all-lines-in-notepad-except-lines-containing-a-word-i-need/292677 wobei wieder der erste Lösungsvorschlag zum Erfolg führt.

Einführungsbeispiel