Differences

This shows you the differences between two versions of the page.

--- lehrkraefte:ks:ffstat17:start [2018/06/15 13:06]
Simon Knaus
+++ lehrkraefte:ks:ffstat17:start [2021/03/25 23:03] (current)
Simon Knaus
@@ Line 9: / Line 9: @@
 Ziele der Lektion:
   * Einführung Freifach
-  * Unterlagen kennenlernen
+  * Unterlagen erstellen: Eigenes Dossier anlegen
   * Geräte und Tools kennenlernen
   * Erste Berechnungen anstellen
-==== Lektion 02/03 ====
+=== Auftrag ===
+  * Einführungsvideo schauen.
+  * Mittlerer Verkaufspreis (Durchschnitt) aller Autos berechnen
+  * Mittlerer Verkaufspreis aller weissen Autos berechnen
+  * Anzahl grüne Autos berechnen
+  * Welches Modell ist am teuersten?
+  * Welche Farbe oder Energieeffizienz ist am günstigsten? Ist das für alle Modelle und Farben oder Energieeffizienz identisch?
+==== Lektion 02/03a ====
 Ziele der Lektion
   * {{lehrkraefte:ks:ffstat17:dossier_v0.1.pdf|Unterlagen}} durcharbeiten.
@@ Line 54: / Line 62: @@
 </code>
 ==== Lektion 04 ====
-{{ :lehrkraefte:ks:ffstat17:histogramme.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:histogramme.png?direct |}}
 === Ziele ===
   * Jede/r kann ein Histogramm erklären.
@@ Line 131: / Line 139: @@
 === Boxplot ===
-{{:lehrkraefte:ks:ffstat17:boxplot.png?direct&400|}} Ein Boxplot besteht aus einer Box, welche durch das erste und dritte Quartil ($Q_{25\%}$ und $Q_{75\%}$) begrenzt ist. Damit liegen $50\%$ der Daten in der Box. Der mittige Strich ist der Median ($q_{50\%}$), die Whiskers (Antennen oder Schnäuze) sind $w_1=Q_{50\%}-1.5\cdot IQA$ und $w_2=Q_{50\%}+1.5\cdot IQA$. $w_1$ und $w_2$ sind dabei zum Teil auch durch den grössten (resp. kleinsten für $w_1$) Wert eines Datenpunktes ersetzt, welcher gerade noch kleiner (resp. grösser für $w_1$) ist als $w_2$. Die Whiskers sind dann nicht symmetrisch. Die Punkte, die ausserhalb der Whiskers liegen, nennt man **Outlier** oder **Ausreisser**. Man kann zeigen, dass bei [[https://de.wikipedia.org/wiki/Normalverteilung|normalverteilten]] Daten, ca. $95\%$ der Beobachtungen innerhalb der beiden Whiskers zu liegen kommen.
+{{:lehrkraefte:ks:ffstat17:boxplot.png?direct|}} Ein Boxplot besteht aus einer Box, welche durch das erste und dritte Quartil ($Q_{25\%}$ und $Q_{75\%}$) begrenzt ist. Damit liegen $50\%$ der Daten in der Box. Der mittige Strich ist der Median ($q_{50\%}$), die Whiskers (Antennen oder Schnäuze) sind $w_1=Q_{50\%}-1.5\cdot IQA$ und $w_2=Q_{50\%}+1.5\cdot IQA$. $w_1$ und $w_2$ sind dabei zum Teil auch durch den grössten (resp. kleinsten für $w_1$) Wert eines Datenpunktes ersetzt, welcher gerade noch kleiner (resp. grösser für $w_1$) ist als $w_2$. Die Whiskers sind dann nicht symmetrisch. Die Punkte, die ausserhalb der Whiskers liegen, nennt man **Outlier** oder **Ausreisser**. Man kann zeigen, dass bei [[https://de.wikipedia.org/wiki/Normalverteilung|normalverteilten]] Daten, ca. $95\%$ der Beobachtungen innerhalb der beiden Whiskers zu liegen kommen.
 Geogebra kann mit Hilfe von Ansicht -> Tabelle -> Daten eingeben -> Analyse einer Variable -> Boxplot Boxplot-Grafiken erstellen. In Excel ist es auch möglich, allerdings etwas mühsamer.
 === Boxplot der Preise nach Modell ===
-{{ :lehrkraefte:ks:ffstat17:box_preis_model.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:box_preis_model.png?direct |}}
-{{ :lehrkraefte:ks:ffstat17:histograms.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:histograms.png?direct |}}
 === Interpretation Boxplot ===
-{{ :lehrkraefte:ks:ffstat17:enereff.png?direct&600 |}}
+{{ :lehrkraefte:ks:ffstat17:enereff.png?direct |}}
@@ Line 175: / Line 183: @@
 Zeichnet man nun die Punkte $(\text{Kumulierte relative Anzahl},\text{Kumulierte relative Einkommenssumme})=(x,y)$ und verindet diese, erhält man die **Lorenzkurve**:
-{{ :lehrkraefte:ks:ffstat17:l06_lorenzkurve.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:l06_lorenzkurve.png?direct |}}
 Würden alle gleich viel verdienen, lägen die Punkte auf der Winkelhalbierenden.
 Als Mass der Ungleichverteilung verwendet nun die Fläche, welche die Lorenzkurve mit der Winkelhalbierenden einschliesst. Diese Fläche nennt man auch **Gini--Koeffizient**
-{{ :lehrkraefte:ks:ffstat17:theorem_lorenzkurve_13.12._pm-600x490_1_.jpg?direct&400 |Gini-Koeffizient. Quelle: https://www.fuw.ch/wp-content/uploads/2015/01/}}
+{{ :lehrkraefte:ks:ffstat17:theorem_lorenzkurve_13.12._pm-600x490_1_.jpg?direct |Gini-Koeffizient. Quelle: https://www.fuw.ch/wp-content/uploads/2015/01/}}
 Als Beispiel für die Lorenzkurve wiederum die 5 BMW Modelle und ihre Preise. Achtung: Es handelt sich dabei nicht um ein Einkommen!
-{{ :lehrkraefte:ks:ffstat17:lorenz_bmw.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:lorenz_bmw.png?direct |}}
 Die Lorenzkurve macht im Allgemeinen nur Sinn für Merkmale, mit positiven Werten (Preis, Einkommen, etc.)
@@ Line 413: / Line 421: @@
 === Lösungen ===
-{{ :lehrkraefte:ks:ffstat17:regbmw01.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:regbmw01.png?direct |}}
-{{ :lehrkraefte:ks:ffstat17:regbmw02.png?direct&400 |}}
+{{ :lehrkraefte:ks:ffstat17:regbmw02.png?direct |}}
 Berechnet man für die normalen Preise (nicht $\log$) die Regressiongerade, erhält man:
   * x1:  $y = -0.3029\cdot x+47132$
@@ Line 604: / Line 612: @@
   * Jede/r kann einen $t$-Test rechnen
   * Jede/r hat für sich ein Mini-Projekt gewählt, welches er/sie über die nächsten beiden Male bearbeitet.
 === Auträge ===
+  * [[https://docs.google.com/forms/d/e/1FAIpQLSev6QfriaoW5ng4L6LCrRtMQdnH9dI9gnmlqYAAwnFk0dhczw/viewform?usp=sf_link|Feedbackbogen]] ausfüllen
   * Theorie unten durcharbeiten
-  * IQ-Daten
+  * {{lehrkraefte:ks:ffstat17:daten_ttest.xlsx|IQ-Daten}}
     * Erstelle ein Histogramm für die vier Fälle
     * Berechne jeweils den Mittelwert und die Varianz für die vier Fälle
@@ Line 613: / Line 623: @@
   * Unterscheidet sich der Preis von schwarz-metallisierten (schwarz mt) und weissen X5er BMWs signifikant?
   * Projekt auswählen / kreieren
+=== Mögliche Projektfragen ===
+  * Welche Farbe hat den höchsten Wiederverkaufswert?
+  * Bei welchem Modell ist der Zusammenhang zwischen gefahrenen Kilometern und Preis am stärksten?
+  * Welches ist die beliebeste Farbe? Ist die Modellabhängig?
+  * Kann von Hubraum auf die Energieeffizient geschlossen werden?
+  * Haben geschaltete Autos einen tieferen/höheren Verbrauch als Automatik Autos? Bei allen Modellen?
+  * Bestimme ein einfaches Modell um den Preis eines beliebigen Occassionsauto zu bestimmen.
 === Theorie ===
 Bei der <<tea tasting lady>> war die Fragestellung, ob sie in Tat und Wahrheit bennenen konnte, ob denn nun die Milch vor dem Tee in der Tasse war oder umgekehrt. Statistisch hat sich das wie folgt formulieren lassen
   * $H_0$: $p=0.5$ (heisst: die Lady kann es nicht, ihr Erfolg ist zufällig)
@@ Line 637: / Line 652: @@
 Das heisst, man formuliert also die Hypothesen $H_0:\mu_1=\mu_2$ und $H_A:\mu_1\neq \mu_2$. Analog zur <<tea tasting lady>> geht man davon aus, dass kein Unterschied besteht und versucht einen Test dafür zu schaffen.
-Diese Idee wird nun durch den $t$-Test formalisiert: Dieser testet (unter Gewissen Annahmen), ob ein Unterschied zufällig ist oder nicht. Berichtet wird dann ein $p$-Wert. Ist dieser denn kleiner als das vorgegeben Signifikanziveau, kann man die Nullhypothese von gleichen Mittelwerten ($\mu_1=\mu_2$) verwerfen und es liegt ein Unterschied vor.
+Diese Idee wird nun durch den $t$-Test formalisiert: Dieser testet (unter gewissen Annahmen), ob ein Unterschied zufällig ist oder nicht. Berichtet wird dann ein $p$-Wert. Ist dieser denn kleiner als das vorgegeben Signifikanziveau, kann man die Nullhypothese von gleichen Mittelwerten ($\mu_1=\mu_2$) verwerfen und es liegt ein Unterschied vor.
 Die zentrale Annahme des $t$-Tests ist, dass die beiden zu vergleichenden Grössen normalverteilt sind. Weiter gibt es noch folgende Annahmen, die man spezifieren muss:
@@ Line 668: / Line 683: @@
 |Standardabweichung| Wurzel der mittleren quadratischen Abweichung $\sigma=\sqrt{\frac1{n-1}\sum_{i=1}^n (x_i-\bar x)^2}$ | ''STABWA()'' | ''sd()''|
 |Median| Wert der mittig in der Verteilung aller sortierten Werte ist, resp. zum 50% Prozentrang gehöriger Wert | ''MEDIAN()'' | ''median()''|
-|Signifikanz | Prozentzahl welche den Fehler erster Art beschränkt. | | |
+|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | |
+|Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | |
+|Nullhypothese| Eine Hypothese,  die überprüft wird und ggf. zu Gunsten der Alternativhypothese verworfen wird.| | |
+|Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | |
 |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | |
 |$\alpha$-Quantil| Zum Prozentrang $\alpha$ gehöriger Wert | ''QUANTIL.INKL()'' | ''quantile(,,type=2)''|