lehrkraefte:blc:informatik:glf4-20:regex-start

This is an old revision of the document!


Analyse der YouTube-Daten

  • Laden Sie folgendes Python-Programm herunter youtube-date-extractor.py und speichern Sie diese in einem neuen Ordner.
  • Kopieren Sie Ihre Datei watch-history.html in den selben Ordner.
    • Wenn Sie keine eigene YouTube-Daten haben, können Sie die Datei jan14-history.html verwenden.
  • Starten Sie TigerJython und öffnen Sie in Tigerjython die Datei youtube-date-extractor.py.
  • Passen Sie nötigenfalls den Dateinamen in Zeile 12 an.
  • Führen Sie das Python-Programm aus. Dabei wir im selben Ordner eine Datei resultat.csv generiert.
  • Öffnen Sie diese mit Excel und testen Sie, ob diese Datumsangaben auch als Datumsangaben interpretiert werden.
  • Schauen Sie sich das Video mit den Erklärungen zum Code an (siehe Zeilen 4 bis 7 im Python-Programm).
  • Falls Excel die Datumsangaben nicht korrekt interpretieren kann, passen andernfalls das Ausgabeformat im Python-Programm in der Zeile 62 so an, dass Excel die Datumsangabe korrekt interpretiert.

Die Frage ist: Wie viele Videos wurden pro Wochentag geschaut? Können Sie das mit Excel ermitteln?

Gehen sollte es schon, in Python ist es aber schneller, flexibler und auch mit neuen Daten sofort anwendbar.

  • Schauen Sie sich dazu folgendes Video an und modifizieren Sie den Python-Code entsprechend (pausieren Sie wenn nötig): Aggregation nach Wochentagen, auch auf Microsoft Stream.
  • Stellen Sie das Resultat dann grafisch in Excel dar.
  • Ändern Sie dann das Python-Programm so ab, dass Sie nach der Tageszeit (auf Stunden genau) aggregieren. Die Stunde einer Datumzeit-Angabe erhalten Sie mit datum.hour (wenn datum ein datetime-Objekt ist).
  • Stellen Sie wiederum das Resultat grafisch in Excel dar.

Wir können annehmen, die Daten seien chronologisch sortiert. D.h. immer, wenn ein neues Datum angetroffen wird, wird das letzte Datum mit der Anzahl Aufrufen ausgegeben. So erhält man eine Timeline.

  • lehrkraefte/blc/informatik/glf4-20/regex-start.1613420103.txt.gz
  • Last modified: 2021/02/15 21:15
  • by Ivo Blöchliger