Differences

This shows you the differences between two versions of the page.

--- lehrkraefte:ks:ffstat1819:start [2019/05/03 15:24]
Simon Knaus
+++ lehrkraefte:ks:ffstat1819:start [2019/05/17 15:51] (current)
Simon Knaus
@@ Line 9: / Line 9: @@
 .6.19 Mündliche Matura
 ==== Lektion 13 ====
-.6.19
+.6.19 Mündliche Matura / 1. Lektion
-Test
 ==== Lektion 12 ====
 .5.19
-Test
+Erhebung und Auswertung
 ==== Lektion 11 ====
 .5.19
@@ Line 22: / Line 21: @@
     * Multivariate Regresion
 -->
+==== Lektion 12 ====
+Ziele:
+  * Jede/r hat die erhobenen Daten gesichtet und erste Auswertungen durchgeführt.
+  * Jede/r hat eine Hypothese formuliert und diese nach Möglichkeit mit den Daten getestet / analysiert.
+  * Jede/r hat die wichtigen Konzepte repetiert und nochmals angwendet.
+Auftrag
+  * Fertige ein Histogramm und einen Boxplot der Daten an. Gibt es Ausreisser? Wie ist mit diesen zu verfahren?
+  * Berechne die Durchschnitte und Standbardbweichungen nach Alter resp. Altersklassen oder Geschlecht. Altersklassen können in Excel mit ''=RUNDEN(A1/5;0)*5'' erstellt werden.
+  * Welche Grössen / Variablen sollen wie analysiert werden? Könnte man noch Grössen miteinander verrechnen? Bespreche deinen Vorschlag mit der LP.
+  * Standardisiere die Daten (welche?) und stelle Fest, welches wirklich gute Leistungen sind. Man nennt dies auch [[https://de.wikipedia.org/wiki/Standardisierung_(Statistik)|Z-Score]].
+  * Halte deinen Auswertuggsprozess wie auch die Auswertungen (Tabellen, Graphen, etc.) in einem Dokument (Powerpoint / Word) fest.
+{{lehrkraefte:ks:ffstat1819:alle_daten_final.xlsx|Link zu den Daten}} {{lehrkraefte:ks:ffstat1819:alle_daten_final_v2.xlsx|Link zu den Daten, Version 2}}.
+==== Lektion 11 ====
+=== Ziele ===
+  * Jede/r kennt das [[https://fginfo.ksbg.ch/ffstat/stroop3.html|Tool]] für unser Experiment, kann es anwenden und die {{lehrkraefte:ks:ffstat1819:formular.xlsx|Daten erheben}}. Siehe Lektion 10
+  * Multivariate Regression
+    * Jede/r kann eine multivariate Regression mit Excel oder R durchführen.
+    * Jede/r kann die Koeffizienten von kardinalen und optional Dummy-Variablen einer multivariaten Regression interpretieren.
+  * Jede/r kann die Regression von vorletzten Mal mit und ohne Logarithmus des Preis korrekt interpretieren
+=== Autrag ===
+  * Gefahrene Kilometer für ein BMW Model auf Alter regressieren. Wie ist der Koeffizient ($m$) vom Alter zu interpretieren?
+  * [[#Teil 1|Theorie Teil I]] unten durcharbeiten und [[#Durchführung|durchlesen]]
+  * Multivariate Regression des Preises mit Kilometer und Alter durchführen für ein Auto-Modell
+  * [[#Teil 2|Theorie Teil II]] unten durcharbeiten.
+  * Multivariate Regression mit Kilometer, Alter und einem beliebigen Dummy (Farbe Rot, Unfall, Getriebe-Art, etc.) durchführen.
+  * Plausibilität der erhaltenen Modelle / Koeffizienten mit dem Partner besprechen und auf Plausibilität überprüfen.
+  * Modell vom vorletzten Mal in normaler (Variante 1) und logarithmischer Spielweise (Variante 2) nochmals durchrechnen. Die Koeffizienten in beiden Modellen interpretieren und als Satz (!!!) festhalten.
+=== Daten Lektion 11 ===
+Für diese Lektion sind den ursprünglichen Daten mehrere Kolonnen (Alter in Tagen, Alter in Jahren, Diesel Ja) hinzugefügt worden, die in dieser Lektion zu verwenden sind. Diese finden sich hier als {{lehrkraefte:ks:ffstat17:bmw_data_alter.xlsx| Excel-Datei}}.
+=== Theorie ===
+== Teil 1 ==
+Beim vorletzten Mal haben wir die univariate Regression besprochen. Dabei geht es darum eine Variable ($Y$, Preis) auf eine andere Variable ($X$, Kilometer) zu regressieren. Zum Schluss haben wir ein Modell erhalten, dass einen Zusammenhang der Form
+\[
+Y=q+m\cdot X
+\]
+beschreibt. Man sagt auch $Y$ ist die **abhängige Variable**, $X$ die **erklärende Variable**.
+<hidden Mathematisch genau>
+Dabei ist zu beachten, dass $Y$ und $X$ die Variablen sind. Das Modell müsste eigentlich lauten:
+\[
+Y_i=q+m\cdot X_i+\varepsilon_i.
+\]
+Dabei ist $X_i$ und $Y_i$ die $i$-te Beobachtung und $\varepsilon_i$ ein Fehler, der die Ungenauigkeit oder eben die Abweichung vom Modell beschreibt. $m$ und $q$ sind nun so bestimmt worden, dass eben die Summe dieser beobachten quadrierten Fehlern minimal ist.
+</hidden>
+Man könnte jetzt noch weiter gehen und eine Variable ($Y$, Preis) auf mehrere andere Variablen ($X_1$, Kilometer; $X_2$, Alter) regressieren. Das Modell in diesem Fall würde dann lauten:
+\[
+Y=q+m_1\cdot X_1 + m_2\cdot X_2.
+\]
+Der Preis ($Y$) ist dann also eine lineare Funktion der gefahrenen Kilometern ($X_1$) sowie des Alters ($X_2$).
+Man kann diese Überlegung nun auf beliebig viele erklärende Variablen ausweiten um ein allgemeines Modell mit $k$ Variablen der Form
+\[
+Y=q+m_1\cdot X_1 + \cdots+m_k\cdot X_k
+\]
+zu erhalten. Die Idee ist dabei dieselbe wie bei der univariaten Regression ([[#Lektion 09|Lektion 09]]): $q$, $m_1\ldots,m_k$ werden so bestimmt, dass die Summe der quadratischen Abweichungen der Modellvorhersage vom beobachteten Wert minimal ist. Die Werte $q$, $m_1\ldots,m_k$ heissen auch **Koeffizienten**. In statistischen Kontext verwendet man dafür auch oft die Buchstaben $\beta$: Es ist dann $\beta_0=q$ und $\beta_i=m_i$.
+<hidden Mathematisch genau>
+Das Problem der [[#Lektion 09|Lektion 09]] konnten wir uns im zweidimensionalen Fall $\mathbb{R}^2$ vorstellen: Wir suchen eine Gerade, welche optimal durch die Punktewolke läuft. Das Problem dieser Lektion ist analog: Wir haben nun einen dreidimensionalen Fall in $\mathbb{R}^2$, wenn wir zwei Variablen verwenden, um den Preis zu erklären. Entsprechend könnte man $Y=q+m_1\cdot X_1 +m_2\cdot X_2\Leftrightarrow 0=q+m_1\cdot X_1 +m_2\cdot X_2-Y$ als Koordinatenform einer Ebene verstehen ($0=Ax+By+Cz+D$ wobei $x=X_1$, $y=X_2$ und $z=Y$), welche eben wiederum optimal durch die Punktewolke verläuft. $q$, $m_1$ und $m_2$ werden nun so bestimmt, dass diese Optimalität eben erfüllt ist.
+Das Kriterium für die Optimalität ist in beiden Fällen die minimale Summe der quadrierten Abweichungen.
+Das Problem kann nun generalisiert werden ist aber dann kaum mehr schwer vorstellbar. Möchte man eine Variable (Preis) mit anderen $n$ Variablen erklären, kann man das im $n+1$-dimensionalen Raum machen und sich eine sogenannte {{https://de.wikipedia.org/wiki/Hyperebene|Hyperebene}} suchen, welche eben die Summe der quadrierten Abweichungen minimiert.
+</hidden>
+== Teil 2 ==
+Alle bisher betrachteten Variablen waren kardinaler Natur (Preis, Kilometer, Verbrauch, etc.). Möchte man nun nominale Variablen als erklärende Variablen verwenden (z.B. Farbe, Getriebeart, Treibstoff etc.) so muss man diese erst in sogenannte **Dummy-Variablen** umwandeln.
+Für den Treibstoff könnte man unterscheiden zwischen <<Diesel>> und <<Nicht Diesel>>: Man kreiert also eine neue Variable ''diesel_ja'' welche den Wert $1$ annimmt, wenn das Fahrzeug mit Diesel ist und $0$ sonst. Damit ist dann der Wert des zur Variable ''diesel_ja'' gehörenden Koeffizienten, eben genau dieser Betrag, um welcher der Preis erhöht wird, wenn das Auto mit Diesel fährt. Genau gleich kann man mit allen nominalen Variablen verfahren, die zwei Ausprägungen haben (z.B. Schaltung/Manuell, Unfall/kein Unfall, etc.)
+Für Variablen, die mehr als zwei Ausprägungen haben. Man erstellt in diesem Fall einfach mehrere Dummy-Variablen. Z.B. könnte man um die Farben rot, grün, blau in einer Regression folgende zwei Dummy-Variablen berüchichtigen um dann die ursprünglichen Farben zu codieren
+|                    ^ ''rot_ja''           ^ ''grün_ja''         ^
+^ rot     | 1          | 0        |
+^ grün    | 0          | 1        |
+^ blau    | 0          | 0        |
+Der Koeffizient von ''rot_ja'' ist dann die Preisdifferenz eines roten Autos; der Koeffizient von ''grün_ja'' ist die Preisdiffernez eines grünen Autos. Offensichtlich wird dabei immer die Preisdifferenz zu einem Basisauto angenommen, welches im Fall der obigen Codierung blau ist.
+Um eine Nominale-Variable mit $n$ Ausprägungen zu codieren, braucht man also $n-1$ Dummy-Variablen.
+=== Durchführung ===
+Excel kann genau gleich wie univariate Regression auch multivariate Regression durchführen. Für die {{lehrkraefte:ks:ffstat17:bmw_data_alter.xlsx|Beispieldaten}} könnte ein Modell, welches Preis auf die Variablen Alter, Kilometer, Alter (Jahren) und Verbrauch regressiert, wie folgt über den Assistenten eingegeben werden:
+{{ :lehrkraefte:ks:ffstat17:regression_dialogue.png?direct |}}
+Wichtig dabei ist, dass alle erklärenden Variablen in nebeneinanderliegen Spalten sind (Oben: In den Spalten Z bis AC, für die Zeilen 1 [Titel] bis 3931).
+**Caveat**: Excel ist nicht die optimale Lösung für solche Probleme. Dies äussert sich auch in z.T. ungenauen / falschen Berechnungen. Für weiterführende Zwecke, sollte ein [[https://de.wikipedia.org/wiki/Liste_von_Statistik-Software|Statistikprogramm]] verwendet werden.
+<hidden R-Lösung>
+<code R-Code>
+bmwdata <- read.table(file("clipboard"), sep = "\t", header = T)
+head(bmwdata)
+regressionsmodell <- lm(preis ~ kilometer + alter_jahre + verbrauch + diesel_ja, data = bmwdata)
+summary(regressionsmodell)
+</code>
+</hidden>
 ==== Lektion 10 ====
@@ Line 27: / Line 125: @@
   * Jede/r ist sich im Klaren, wie unsere Forschungsfrage umgesetzt wird.
   * Jede/r kennt den Zeitplan unserer <<Forschung>>
+  * Jede/r weiss, wie viele Daten und welche Variablen er/sie in welcher Stichprobe erheben möchte.
 === Aufträge ===
   * Abschnitt Forschungsdesign unten durchlesen und {{lehrkraefte:ks:ffstat1819:ressearchdesign.pdf|PDF}} dazu durcharbeiten
   * Zu jedem Punkt des Abschnitts Forschungsdesign Gedanken zu unserer Fragestellung notieren / erarbeiten. Notiert zu jedem der Punkte Stichworte, was in diesen Bereich gehört. Abschnitt 2bc kann ausgelassen werden.
-  * Alle haben mit unserem [[newtab>thttps://fginfo.ksbg.ch/ffstat/stroop2.html|Instrument]] gespielt und haben Vorschläge, wie dieses eingesetzt wird.
+  * Alle haben mit unserem [[https://fginfo.ksbg.ch/ffstat/stroop2.html|Instrument]] oder [[https://fginfo.ksbg.ch/ffstat/stroop3.html|Instrument alternativ]] gespielt und haben Vorschläge, wie dieses eingesetzt wird.
 Forschungsdesign
   - Einleitung
-    - Problemstellung
+    - **Problemstellung**: Zusammenhang Stunden Schlaf, Wachstunden (Zeit seit Aufstehen) und Konzentration.
-    - Inhaltliche Ziele und Absichten der Forschung
+    - **Inhaltliche Ziele und Absichten der Forschung**:Beantwortung der Frage, wie stark die Konzentration unter Schlafmangel leidet.
     - Bedeutung der Untersuchung und ev. Umsetzbarkeit
   - Theorie und Empirie der Forschung
     - Definitionen
@@ Line 42: / Line 141: @@
     - Forschungsstand
     - Fragestellung
-    - Hypohtesen
+    - **Hypothesen**:
+       * Längere Schlafdauer führt zu besserer Konzentration.
+       * Konzentationsfähigkeit (wie gemessen) hängt linear mit der Schlafdauer zusammen.
   - Methoden
-    - Operationalisierung
+    - [[https://de.wikipedia.org/wiki/Operationalisierung|Operationalisierung]]
-    - Variablen
+    - **Variablen**: Reaktionszeiten, Geschlecht, Alter, Schlafdauer, Wachzeit, Anzahl Richtige/Falsche, Wochentag, Tageszeit, Subjektive Fitnesseinschätzung (1-5, 5 hoch), Subjektive Movationseinschätzung (1-5, 5 hoch), Testgerät
-    - Instrumente
+    - **Instrumente**: Hausgemachter Stroop Test
-    - Stichprobe
+    - **Stichprobe**: (Gross-)Familie und Freunde
   - Auswertungsplan
-  - Zeitplan
+  - **Zeitplan**:
 ==== Lektion 09 ====