====== Regular Expressions ======
Beschreibung von Text-Mustern. Zum Suchen, Extrahieren und Ersetzen von Text.
Gibt es in (fast) allen Programmiersprachen und jedem besseren Text-Editor (z.B. Notepad++, VisualCode, vim, etc.)
Je nach Implementation gibt es kleine Unterschiede zwischen Programmiersprachen oder Text-Editoren.
===== Wichtigste Spezialzeichen =====
Wenn nicht speziell, steht ein Zeichen für sich selbst in einer regular Expression. Z.B. matcht /hallo/ nur genau "hallo"
* ''.'' steht für genau ein beliebiges Zeichen (ausser Zeilenumbruch)
* ''\.'' steht für einen Punkt
* ''[abc246]'' steht für genau ein beliebiges Zeichen in der Klammer
* ''[5-9e-k]'' steht für genau ein Zeichen '5' bis '9' oder 'e' bis 'k'
* ''\d'' Digit, Abkürzung für ''[0-9]''.
* ''\['' steht für die öffnende Klammer
* ''^'' Start der Zeile (oder String)
* ''$'' Ende der Zeile (oder String)
Quantoren:
* ''*'' beliebig viele der Expression davor (auch Null), **greedy**, d.h. match't so viel wie irgend möglich
* ''+'' ein oder mehrere der Expression davor, **greedy**
* ''?'' Null oder eins
* ''{7}'' genau 7
* ''{4,7}'' zwischen 4 und 7, **greedy**
* ''*?'' beliebig viele, aber **lazy** (d.h. match't so wenig wie möglich). Ebenso ''??'', ''+?'' und ''{4,7}?''.
Gruppen:
* ''(''expr'')'' «speichert» den Match zur späteren Verwendung mit ''\1'' oder ''$1'', je nach Engine. Es wird nach öffnender Klammer nummeriert.
Alternativen:
* ''|'' Die Expression davor, oder jene danach.
===== Ausprobieren =====
* https://regex101.com/ Verwenden Sie ECMAScript (JavaScript)
==== Links extrahieren ====
* Extrahieren Sie alle Links von folgendem Code-Schnipsel:
./68ac1106/spaceadventure.html
* Vervollständigen Sie obige Links mit der vollständigen Adresse: https://ofi.tech-lab.ch/2022/EF05a/
* Im angezeigten Text soll die Pfadangabe und das .html verschwinden (also nur noch wordle anstatt ./05c7c22f/wordle.html)
./0475c543/mouseEffect.html
./76163dbd/Taschenrechner.html
./4b29d86a/index.html
./05c7c22f/wordle.html
./4d4f79fa/index.html
./2750fa3e/index.html
./projects.html
search for
'(.*?)'
search for
'.\/(.*?)'
replace by
'https://ofi.tech-lab.ch/2022/EF05a/$1'
search for
>\.\/.*?\/(.*?)\.html<
replace by
>$1<
cat utf8.txt | sed -e s/ß/ss/g | sed -e s/ä/ae/g | sed -e s/ö/oe/g | sed -e s/ü/ue/g | grep -E '^[ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvxzy][abcdefghijklmnopqrstuvxzy]{4}$' | grep -E '[AEIOUaeiou]' | tr 'a-z' 'A-Z' | sort | uniq | wc
[^OENICHKAGL\n]{3}LT
^NRA[^BOTULKGZA]S|^[^BOTULKGZA]RANS
^S[^INDZGERPT]O[^INDZGERPT]{2}
^NE[^KATJOLSHR]R[^KATJOLSHRN]|^[^KATJOLSHR]ENR[^KATJOLSHRN]
==== Alternativen für HTML, JSON, XML und allg. maschinenlesabare Formate ====
Um Daten aus HTML, JSON oder XML nachhaltig zu extrahieren/manipulieren, ist es ratsam, Werkzeuge zu verwenden, die das entsprechende Format verstehen, z.B. für
* HTML: direkt mit JavaScript und z.B. [[https://developer.mozilla.org/en-US/docs/Web/API/Document/querySelector|document.querySelector]] arbeiten.
* JSON: Daten parsen (in irgendeiner Programmiersprache) und direkt dort manipulieren.
* XML: dafür gibt es ebenfalls Parser
Das Problem mit «selbstgestrickten» regular Expressions ist, dass diese halt schnell an ihre Grenzen stossen und zu wenige oder zu viele Resultate liefern.
===== Weiterführende Links =====
* Advanced stuff: http://rexegg.com/regex-best-trick.html