Differences

This shows you the differences between two versions of the page.

--- lehrkraefte:ks:ffstat17:start [2018/06/15 11:21]
Simon Knaus [Lektion 13]
+++ lehrkraefte:ks:ffstat17:start [2021/03/25 23:03] (current)
Simon Knaus
@@ Line 9: / Line 9: @@
 Ziele der Lektion:
   * Einführung Freifach
-  * Unterlagen kennenlernen
+  * Unterlagen erstellen: Eigenes Dossier anlegen
   * Geräte und Tools kennenlernen
   * Erste Berechnungen anstellen
-==== Lektion 02/03 ====
+=== Auftrag ===
+  * Einführungsvideo schauen.
+  * Mittlerer Verkaufspreis (Durchschnitt) aller Autos berechnen
+  * Mittlerer Verkaufspreis aller weissen Autos berechnen
+  * Anzahl grüne Autos berechnen
+  * Welches Modell ist am teuersten?
+  * Welche Farbe oder Energieeffizienz ist am günstigsten? Ist das für alle Modelle und Farben oder Energieeffizienz identisch?
+==== Lektion 02/03a ====
 Ziele der Lektion
   * {{lehrkraefte:ks:ffstat17:dossier_v0.1.pdf|Unterlagen}} durcharbeiten.
@@ Line 54: / Line 62: @@
 </code>
 ==== Lektion 04 ====
-{{ :lehrkraefte:ks:ffstat17:histogramme.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:histogramme.png?direct |}}
 === Ziele ===
   * Jede/r kann ein Histogramm erklären.
@@ Line 131: / Line 139: @@
 === Boxplot ===
-{{:lehrkraefte:ks:ffstat17:boxplot.png?direct&400|}} Ein Boxplot besteht aus einer Box, welche durch das erste und dritte Quartil ($Q_{25\%}$ und $Q_{75\%}$) begrenzt ist. Damit liegen $50\%$ der Daten in der Box. Der mittige Strich ist der Median ($q_{50\%}$), die Whiskers (Antennen oder Schnäuze) sind $w_1=Q_{50\%}-1.5\cdot IQA$ und $w_2=Q_{50\%}+1.5\cdot IQA$. $w_1$ und $w_2$ sind dabei zum Teil auch durch den grössten (resp. kleinsten für $w_1$) Wert eines Datenpunktes ersetzt, welcher gerade noch kleiner (resp. grösser für $w_1$) ist als $w_2$. Die Whiskers sind dann nicht symmetrisch. Die Punkte, die ausserhalb der Whiskers liegen, nennt man **Outlier** oder **Ausreisser**. Man kann zeigen, dass bei [[https://de.wikipedia.org/wiki/Normalverteilung|normalverteilten]] Daten, ca. $95\%$ der Beobachtungen innerhalb der beiden Whiskers zu liegen kommen.
+{{:lehrkraefte:ks:ffstat17:boxplot.png?direct|}} Ein Boxplot besteht aus einer Box, welche durch das erste und dritte Quartil ($Q_{25\%}$ und $Q_{75\%}$) begrenzt ist. Damit liegen $50\%$ der Daten in der Box. Der mittige Strich ist der Median ($q_{50\%}$), die Whiskers (Antennen oder Schnäuze) sind $w_1=Q_{50\%}-1.5\cdot IQA$ und $w_2=Q_{50\%}+1.5\cdot IQA$. $w_1$ und $w_2$ sind dabei zum Teil auch durch den grössten (resp. kleinsten für $w_1$) Wert eines Datenpunktes ersetzt, welcher gerade noch kleiner (resp. grösser für $w_1$) ist als $w_2$. Die Whiskers sind dann nicht symmetrisch. Die Punkte, die ausserhalb der Whiskers liegen, nennt man **Outlier** oder **Ausreisser**. Man kann zeigen, dass bei [[https://de.wikipedia.org/wiki/Normalverteilung|normalverteilten]] Daten, ca. $95\%$ der Beobachtungen innerhalb der beiden Whiskers zu liegen kommen.
 Geogebra kann mit Hilfe von Ansicht -> Tabelle -> Daten eingeben -> Analyse einer Variable -> Boxplot Boxplot-Grafiken erstellen. In Excel ist es auch möglich, allerdings etwas mühsamer.
 === Boxplot der Preise nach Modell ===
-{{ :lehrkraefte:ks:ffstat17:box_preis_model.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:box_preis_model.png?direct |}}
-{{ :lehrkraefte:ks:ffstat17:histograms.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:histograms.png?direct |}}
 === Interpretation Boxplot ===
-{{ :lehrkraefte:ks:ffstat17:enereff.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:enereff.png?direct |}}
@@ Line 175: / Line 183: @@
 Zeichnet man nun die Punkte $(\text{Kumulierte relative Anzahl},\text{Kumulierte relative Einkommenssumme})=(x,y)$ und verindet diese, erhält man die **Lorenzkurve**:
-{{ :lehrkraefte:ks:ffstat17:l06_lorenzkurve.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:l06_lorenzkurve.png?direct |}}
 Würden alle gleich viel verdienen, lägen die Punkte auf der Winkelhalbierenden.
 Als Mass der Ungleichverteilung verwendet nun die Fläche, welche die Lorenzkurve mit der Winkelhalbierenden einschliesst. Diese Fläche nennt man auch **Gini--Koeffizient**
-{{ :lehrkraefte:ks:ffstat17:theorem_lorenzkurve_13.12._pm-600x490_1_.jpg?direct&400 |Gini-Koeffizient. Quelle: https://www.fuw.ch/wp-content/uploads/2015/01/}}
+{{ :lehrkraefte:ks:ffstat17:theorem_lorenzkurve_13.12._pm-600x490_1_.jpg?direct |Gini-Koeffizient. Quelle: https://www.fuw.ch/wp-content/uploads/2015/01/}}
 Als Beispiel für die Lorenzkurve wiederum die 5 BMW Modelle und ihre Preise. Achtung: Es handelt sich dabei nicht um ein Einkommen!
-{{ :lehrkraefte:ks:ffstat17:lorenz_bmw.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:lorenz_bmw.png?direct |}}
 Die Lorenzkurve macht im Allgemeinen nur Sinn für Merkmale, mit positiven Werten (Preis, Einkommen, etc.)
@@ Line 413: / Line 421: @@
 === Lösungen ===
-{{ :lehrkraefte:ks:ffstat17:regbmw01.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:regbmw01.png?direct |}}
-{{ :lehrkraefte:ks:ffstat17:regbmw02.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:regbmw02.png?direct |}}
 Berechnet man für die normalen Preise (nicht $\log$) die Regressiongerade, erhält man:
   * x1:  $y = -0.3029\cdot x+47132$
@@ Line 604: / Line 612: @@
   * Jede/r kann einen $t$-Test rechnen
   * Jede/r hat für sich ein Mini-Projekt gewählt, welches er/sie über die nächsten beiden Male bearbeitet.
 === Auträge ===
+  * [[https://docs.google.com/forms/d/e/1FAIpQLSev6QfriaoW5ng4L6LCrRtMQdnH9dI9gnmlqYAAwnFk0dhczw/viewform?usp=sf_link|Feedbackbogen]] ausfüllen
   * Theorie unten durcharbeiten
-  * Unterscheiden sich die Preise von weissen und silbernen BMW (für ein Modell) signifikant? Zu welchem Niveau?
+  * {{lehrkraefte:ks:ffstat17:daten_ttest.xlsx|IQ-Daten}}
+    * Erstelle ein Histogramm für die vier Fälle
+    * Berechne jeweils den Mittelwert und die Varianz für die vier Fälle
+    * Führ einen $t$-Test durch um die Mittelwerte in beiden Fällen zu vergleichen. Wie gross ist der $p$-Wert?
+  * Unterscheidet sich der Preis von schwarz-metallisierten (schwarz mt) und weissen X5er BMWs signifikant?
   * Projekt auswählen / kreieren
+=== Mögliche Projektfragen ===
+  * Welche Farbe hat den höchsten Wiederverkaufswert?
+  * Bei welchem Modell ist der Zusammenhang zwischen gefahrenen Kilometern und Preis am stärksten?
+  * Welches ist die beliebeste Farbe? Ist die Modellabhängig?
+  * Kann von Hubraum auf die Energieeffizient geschlossen werden?
+  * Haben geschaltete Autos einen tieferen/höheren Verbrauch als Automatik Autos? Bei allen Modellen?
+  * Bestimme ein einfaches Modell um den Preis eines beliebigen Occassionsauto zu bestimmen.
 === Theorie ===
 Bei der <<tea tasting lady>> war die Fragestellung, ob sie in Tat und Wahrheit bennenen konnte, ob denn nun die Milch vor dem Tee in der Tasse war oder umgekehrt. Statistisch hat sich das wie folgt formulieren lassen
   * $H_0$: $p=0.5$ (heisst: die Lady kann es nicht, ihr Erfolg ist zufällig)
@@ Line 619: / Line 638: @@
 Man sagt $H_0$ auch **Nullhypothese**; $H_A$ ist dann die **Alternative**. Beschränkt man nun den Fehler erster Art (z.B. auf 5%) und sucht sich die entsprechende Anzahl Tassen, die richtig erkennt werden müssen hat man einen Test geschaffen, der überprüft zu, ob die Lady es zufällig kann.
-Häufig funktionieren Tests aber auch umgekehrt: Das heisst, man formuliert die Nullhypothese ($p=0.5$) und übergibt die Anzahl der richtig erkannten Tassen. Als Resultat (von Hand für uns noch unmöglich; aus Excel oder R) erhält man dann, die Irrtumswahrscheinlichkeit oder den $p$-Wert. Das ist die Wahrscheinlichkeit, mit welcher eben ein Fehler erster Art begangen wird.
+Häufig funktionieren Tests aber auch umgekehrt: Das heisst, man formuliert die Nullhypothese ($p=0.5$) und übergibt die Anzahl der richtig erkannten Tassen. Als Resultat (von Hand für uns noch unmöglich; aus Excel oder R) erhält man dann, die Irrtumswahrscheinlichkeit oder den $p$-Wert. Das ist die Wahrscheinlichkeit, mit welcher eben ein Fehler erster Art begangen wird. Die Nullhypothese wird verworfen, wenn der $p$-Wert kleiner als ein bestimmtes Signifikanzniveau ist (z.B. $p$-Wert kleiner als 5%).
 Das Problem der <<tea tasting lady>> ist nur ein stellvertretendes Problem für die statistische Testproblematik. Man stelle sich vor, man möchte die kognitive Leistung (gemessen in IQ Punkten in einem Test) zweier Gruppen vergleichen. Die eine Gruppe erhält ein koffeinhaltiges Getränke, die andere Gruppe nur ein Getränk ohne Koffein.
-Die Frage ist nun offesnichtlich, ob die mittleren IQ-Werte der beiden Gruppen ($\mu_1$ und $\mu_2$) identisch oder verschieden sind. Klar ist, dass man diese Mittelwerte einfach berechnen könnte, diese vergleichen und dann schliessen, dass die eine Gruppe besser ist als die andere. Das Problem dabei ist aber, dass die erbobenen IQ-Werte auch einer gewissen Schankung unterliegen, resp. Zufall beinhalten. Das heisst, es könnte sein, dass ein Unterschied in den Mittelwerten beobachtet wird, dieser aber rein zufällig zu Stande gekommen ist und nicht <<struktureller>> Natur ist. Zufällige Unterschiede sind aber nicht von Interesse.
+Die Frage ist nun offesnichtlich, ob die mittleren IQ-Werte der beiden Gruppen ($\mu_1$ und $\mu_2$) identisch oder verschieden sind.
+Klar ist, dass man diese Mittelwerte einfach berechnen könnte, diese vergleichen und dann schliessen, dass die eine Gruppe besser ist als die andere. Das Problem dabei ist aber, dass die erbobenen IQ-Werte auch einer gewissen Schankung unterliegen, resp. Zufall beinhalten. Das heisst, es könnte sein, dass ein Unterschied in den Mittelwerten beobachtet wird, dieser aber rein zufällig zu Stande gekommen ist und nicht <<struktureller>> Natur ist. Zufällige Unterschiede sind aber nicht von Interesse.
+{{ :lehrkraefte:ks:ffstat17:distr_intelligenz.png?direct |}}
+In der Graphik oben sind zwei Situation illustriert: Beide haben Verteilungen haben den gleichen Mittelwert von IQ-Punkten in der "Koffein" resp. "Placebo" Gruppe. Die Wahrscheinlichkeit, dass Resultat in der linken Spalte zufällig zu Stande gekommen ist, scheint aber ungleich grösser.
+Das heisst, man formuliert also die Hypothesen $H_0:\mu_1=\mu_2$ und $H_A:\mu_1\neq \mu_2$. Analog zur <<tea tasting lady>> geht man davon aus, dass kein Unterschied besteht und versucht einen Test dafür zu schaffen.
+Diese Idee wird nun durch den $t$-Test formalisiert: Dieser testet (unter gewissen Annahmen), ob ein Unterschied zufällig ist oder nicht. Berichtet wird dann ein $p$-Wert. Ist dieser denn kleiner als das vorgegeben Signifikanziveau, kann man die Nullhypothese von gleichen Mittelwerten ($\mu_1=\mu_2$) verwerfen und es liegt ein Unterschied vor.
+Die zentrale Annahme des $t$-Tests ist, dass die beiden zu vergleichenden Grössen normalverteilt sind. Weiter gibt es noch folgende Annahmen, die man spezifieren muss:
+  * Gepaarter Test: Die beiden Beobachtungen in den Gruppen stammen vom gleichen Subjekt (vorher/nachher Tests)
+  * Homogene Varianzen: Die Varianz in beiden Gruppen ist gleich gross.
+Beide Annahmen müssen spezifiert werden, da die Berechnung anders ausfällt.
+  * Excel: ''=T.TEST(daten1;daten2;typ)'' der ''typ'' ist $1$ für gepaart, $2$ für gleiche Varianzen, $3$ für ungleiche Varianzen
+  * R: ''t.test(daten1,daten2,paired=TRUE|FALSE,var.equal=TRUE|FALSE)'' wobei ''paired'' eben für gepaarte Stichproben steht und ''var.equal'' für gleiche Varianzen.
@@ Line 645: / Line 683: @@
 |Standardabweichung| Wurzel der mittleren quadratischen Abweichung $\sigma=\sqrt{\frac1{n-1}\sum_{i=1}^n (x_i-\bar x)^2}$ | ''STABWA()'' | ''sd()''|
 |Median| Wert der mittig in der Verteilung aller sortierten Werte ist, resp. zum 50% Prozentrang gehöriger Wert | ''MEDIAN()'' | ''median()''|
-|Signifikanz | Prozentzahl welche den Fehler erster Art beschränkt. | | |
+|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | |
+|Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | |
+|Nullhypothese| Eine Hypothese,  die überprüft wird und ggf. zu Gunsten der Alternativhypothese verworfen wird.| | |
+|Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | |
 |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | |
 |$\alpha$-Quantil| Zum Prozentrang $\alpha$ gehöriger Wert | ''QUANTIL.INKL()'' | ''quantile(,,type=2)''|