Aus einer HTML-Datei sollen die Links mit verlinktem Text extrahiert werden. Beispiel:
<a href="https://fginfo.ksbg.ch/" class="bla">Fachgruppe Informatik</a>
Der HTML-Tag <a>
definiert einen Link. Im Attribut href
steht die URL (Web-Adresse). Der verlinkte Text steht danach (beendet durch ein </a>).
Das gewünschte CSV-Format ist folgendes:
Fachgruppe Informatik;https://fginfo.ksbg.ch/
Die Idee ist natürlich, die Umwandlung in einem Aufwasch für die ganze Datei zu erledigen.
<a href=
nicht enthalten. Machen Sie eine Internetsuche (am besten auf Englisch), wie Sie vorgehen können.<a href
durch \n<a href
(d.h. wir fügen einen Zeilenumbruch vor jedem link ein). Dazu muss im “Search Mode” “Extended” oder “Regular Expression” aktiviert sein.<a href
nicht enthalten.<a href="(.*?)".*?>(.*?)</a.*
durch $2;$1
. Das ist eine Regular Expression, mehr dazu später"
, was für Anführungszeichen steht."
durch "
https://fginfo.ksbg.ch
durch eine geeignete Ersetzung.links.csv
und öffnen Sie diese mit Excel. Welches Problem gibt es noch?links.csv
mit Notepad++ nicht wieder gespeichert werden).Bestimmen Sie die Summe der Zahlen in folgender Datei: zahlen.txt.
Beachten Sie, dass alle Zahlen Ganzzahlen sind, d.h. das Komma steht als Trennzeichen für Tausender (amerikanisches Format). Beachten Sie ebenfalls, dass die Anzahl Leerschläge zwischen den Zahlen variabel sind.
Die Summe ist 55'061'026.
Hinweis: Es gibt viele Möglichkeiten, diese Aufgabe zu lösen.