lehrkraefte:blc:informatik:glf4-20:umgang-mit-dateien:challenge4

This is an old revision of the document!


Regular Expressions und HTML-Dateien

Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel:

<a href="https://fginfo.ksbg.ch/">Fachgruppe Informatik</a>

Der HTML-Tag <a> definiert einen Link. Im Attribut href steht die URL (Web-Adresse). Der verlinkte Text steht danach (beendet durch ein </a>).

Das gewünschte CSV-Format ist folgendes:

Fachgruppe Informatik;https://fginfo.ksbg.ch/

Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen.

  • Wir folgende HTML-Datei: page.html, die Sie bitte herunterladen und in NotePad++ öffnen.
  • Löschen Sie bitte alle Zeilen, die die Zeichenkette <a href= nicht enthalten. Machen Sie eine Internetsuche (am besten auf Englisch), wie Sie vorgehen können.
  • Man stellt fest, dass es Zeilen gibt, die noch mehr als einen Link enthalten. Wir werden darum <a href durch \n<a href. Dazu muss im “Search Mode” “Extended” oder “Regular Expression” aktiviert sein.
  • Löschen Sie abermals die Zeilen, die <a href nicht enthalten.

Lösungsvorschläge

Lösungsvorschläge

  • lehrkraefte/blc/informatik/glf4-20/umgang-mit-dateien/challenge4.1614159669.txt.gz
  • Last modified: 2021/02/24 10:41
  • by Ivo Blöchliger