Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
lehrkraefte:ks:ffstat1819:start [2019/05/03 15:24] Simon Knaus |
lehrkraefte:ks:ffstat1819:start [2019/05/17 15:51] (current) Simon Knaus |
||
---|---|---|---|
Line 9: | Line 9: | ||
14.6.19 Mündliche Matura | 14.6.19 Mündliche Matura | ||
==== Lektion 13 ==== | ==== Lektion 13 ==== | ||
- | 7.6.19 | + | 7.6.19 |
- | Test | + | |
==== Lektion 12 ==== | ==== Lektion 12 ==== | ||
17.5.19 | 17.5.19 | ||
- | Test | + | Erhebung und Auswertung |
==== Lektion 11 ==== | ==== Lektion 11 ==== | ||
10.5.19 | 10.5.19 | ||
Line 22: | Line 21: | ||
* Multivariate Regresion | * Multivariate Regresion | ||
--> | --> | ||
+ | ==== Lektion 12 ==== | ||
+ | |||
+ | Ziele: | ||
+ | * Jede/r hat die erhobenen Daten gesichtet und erste Auswertungen durchgeführt. | ||
+ | * Jede/r hat eine Hypothese formuliert und diese nach Möglichkeit mit den Daten getestet / analysiert. | ||
+ | * Jede/r hat die wichtigen Konzepte repetiert und nochmals angwendet. | ||
+ | |||
+ | Auftrag | ||
+ | * Fertige ein Histogramm und einen Boxplot der Daten an. Gibt es Ausreisser? Wie ist mit diesen zu verfahren? | ||
+ | * Berechne die Durchschnitte und Standbardbweichungen nach Alter resp. Altersklassen oder Geschlecht. Altersklassen können in Excel mit '' | ||
+ | * Welche Grössen / Variablen sollen wie analysiert werden? Könnte man noch Grössen miteinander verrechnen? Bespreche deinen Vorschlag mit der LP. | ||
+ | * Standardisiere die Daten (welche?) und stelle Fest, welches wirklich gute Leistungen sind. Man nennt dies auch [[https:// | ||
+ | * Halte deinen Auswertuggsprozess wie auch die Auswertungen (Tabellen, Graphen, etc.) in einem Dokument (Powerpoint / Word) fest. | ||
+ | |||
+ | {{lehrkraefte: | ||
+ | ==== Lektion 11 ==== | ||
+ | === Ziele === | ||
+ | * Jede/r kennt das [[https:// | ||
+ | * Multivariate Regression | ||
+ | * Jede/r kann eine multivariate Regression mit Excel oder R durchführen. | ||
+ | * Jede/r kann die Koeffizienten von kardinalen und optional Dummy-Variablen einer multivariaten Regression interpretieren. | ||
+ | * Jede/r kann die Regression von vorletzten Mal mit und ohne Logarithmus des Preis korrekt interpretieren | ||
+ | === Autrag === | ||
+ | * Gefahrene Kilometer für ein BMW Model auf Alter regressieren. Wie ist der Koeffizient ($m$) vom Alter zu interpretieren? | ||
+ | * [[#Teil 1|Theorie Teil I]] unten durcharbeiten und [[# | ||
+ | * Multivariate Regression des Preises mit Kilometer und Alter durchführen für ein Auto-Modell | ||
+ | * [[#Teil 2|Theorie Teil II]] unten durcharbeiten. | ||
+ | * Multivariate Regression mit Kilometer, Alter und einem beliebigen Dummy (Farbe Rot, Unfall, Getriebe-Art, | ||
+ | * Plausibilität der erhaltenen Modelle / Koeffizienten mit dem Partner besprechen und auf Plausibilität überprüfen. | ||
+ | * Modell vom vorletzten Mal in normaler (Variante 1) und logarithmischer Spielweise (Variante 2) nochmals durchrechnen. Die Koeffizienten in beiden Modellen interpretieren und als Satz (!!!) festhalten. | ||
+ | |||
+ | === Daten Lektion 11 === | ||
+ | Für diese Lektion sind den ursprünglichen Daten mehrere Kolonnen (Alter in Tagen, Alter in Jahren, Diesel Ja) hinzugefügt worden, die in dieser Lektion zu verwenden sind. Diese finden sich hier als {{lehrkraefte: | ||
+ | |||
+ | === Theorie === | ||
+ | == Teil 1 == | ||
+ | Beim vorletzten Mal haben wir die univariate Regression besprochen. Dabei geht es darum eine Variable ($Y$, Preis) auf eine andere Variable ($X$, Kilometer) zu regressieren. Zum Schluss haben wir ein Modell erhalten, dass einen Zusammenhang der Form | ||
+ | \[ | ||
+ | Y=q+m\cdot X | ||
+ | \] | ||
+ | beschreibt. Man sagt auch $Y$ ist die **abhängige Variable**, $X$ die **erklärende Variable**. | ||
+ | |||
+ | <hidden Mathematisch genau> | ||
+ | Dabei ist zu beachten, dass $Y$ und $X$ die Variablen sind. Das Modell müsste eigentlich lauten: | ||
+ | \[ | ||
+ | Y_i=q+m\cdot X_i+\varepsilon_i. | ||
+ | \] | ||
+ | Dabei ist $X_i$ und $Y_i$ die $i$-te Beobachtung und $\varepsilon_i$ ein Fehler, der die Ungenauigkeit oder eben die Abweichung vom Modell beschreibt. $m$ und $q$ sind nun so bestimmt worden, dass eben die Summe dieser beobachten quadrierten Fehlern minimal ist. | ||
+ | </ | ||
+ | Man könnte jetzt noch weiter gehen und eine Variable ($Y$, Preis) auf mehrere andere Variablen ($X_1$, Kilometer; $X_2$, Alter) regressieren. Das Modell in diesem Fall würde dann lauten: | ||
+ | \[ | ||
+ | Y=q+m_1\cdot X_1 + m_2\cdot X_2. | ||
+ | \] | ||
+ | Der Preis ($Y$) ist dann also eine lineare Funktion der gefahrenen Kilometern ($X_1$) sowie des Alters ($X_2$). | ||
+ | |||
+ | Man kann diese Überlegung nun auf beliebig viele erklärende Variablen ausweiten um ein allgemeines Modell mit $k$ Variablen der Form | ||
+ | \[ | ||
+ | Y=q+m_1\cdot X_1 + \cdots+m_k\cdot X_k | ||
+ | \] | ||
+ | zu erhalten. Die Idee ist dabei dieselbe wie bei der univariaten Regression ([[#Lektion 09|Lektion 09]]): $q$, $m_1\ldots, | ||
+ | <hidden Mathematisch genau> | ||
+ | Das Problem der [[#Lektion 09|Lektion 09]] konnten wir uns im zweidimensionalen Fall $\mathbb{R}^2$ vorstellen: Wir suchen eine Gerade, welche optimal durch die Punktewolke läuft. Das Problem dieser Lektion ist analog: Wir haben nun einen dreidimensionalen Fall in $\mathbb{R}^2$, | ||
+ | |||
+ | Das Kriterium für die Optimalität ist in beiden Fällen die minimale Summe der quadrierten Abweichungen. | ||
+ | |||
+ | Das Problem kann nun generalisiert werden ist aber dann kaum mehr schwer vorstellbar. Möchte man eine Variable (Preis) mit anderen $n$ Variablen erklären, kann man das im $n+1$-dimensionalen Raum machen und sich eine sogenannte {{https:// | ||
+ | </ | ||
+ | |||
+ | == Teil 2 == | ||
+ | |||
+ | Alle bisher betrachteten Variablen waren kardinaler Natur (Preis, Kilometer, Verbrauch, etc.). Möchte man nun nominale Variablen als erklärende Variablen verwenden (z.B. Farbe, Getriebeart, | ||
+ | |||
+ | Für den Treibstoff könnte man unterscheiden zwischen << | ||
+ | |||
+ | Für Variablen, die mehr als zwei Ausprägungen haben. Man erstellt in diesem Fall einfach mehrere Dummy-Variablen. Z.B. könnte man um die Farben rot, grün, blau in einer Regression folgende zwei Dummy-Variablen berüchichtigen um dann die ursprünglichen Farben zu codieren | ||
+ | | ^ '' | ||
+ | ^ rot | 1 | 0 | | ||
+ | ^ grün | 0 | 1 | | ||
+ | ^ blau | 0 | 0 | | ||
+ | Der Koeffizient von '' | ||
+ | |||
+ | Um eine Nominale-Variable mit $n$ Ausprägungen zu codieren, braucht man also $n-1$ Dummy-Variablen. | ||
+ | |||
+ | === Durchführung === | ||
+ | Excel kann genau gleich wie univariate Regression auch multivariate Regression durchführen. Für die {{lehrkraefte: | ||
+ | {{ : | ||
+ | |||
+ | Wichtig dabei ist, dass alle erklärenden Variablen in nebeneinanderliegen Spalten sind (Oben: In den Spalten Z bis AC, für die Zeilen 1 [Titel] bis 3931). | ||
+ | |||
+ | **Caveat**: Excel ist nicht die optimale Lösung für solche Probleme. Dies äussert sich auch in z.T. ungenauen / falschen Berechnungen. Für weiterführende Zwecke, sollte ein [[https:// | ||
+ | <hidden R-Lösung> | ||
+ | <code R-Code> | ||
+ | bmwdata <- read.table(file(" | ||
+ | head(bmwdata) | ||
+ | regressionsmodell <- lm(preis ~ kilometer + alter_jahre + verbrauch + diesel_ja, data = bmwdata) | ||
+ | summary(regressionsmodell) | ||
+ | |||
+ | </ | ||
+ | </ | ||
==== Lektion 10 ==== | ==== Lektion 10 ==== | ||
Line 27: | Line 125: | ||
* Jede/r ist sich im Klaren, wie unsere Forschungsfrage umgesetzt wird. | * Jede/r ist sich im Klaren, wie unsere Forschungsfrage umgesetzt wird. | ||
* Jede/r kennt den Zeitplan unserer << | * Jede/r kennt den Zeitplan unserer << | ||
+ | * Jede/r weiss, wie viele Daten und welche Variablen er/sie in welcher Stichprobe erheben möchte. | ||
=== Aufträge === | === Aufträge === | ||
* Abschnitt Forschungsdesign unten durchlesen und {{lehrkraefte: | * Abschnitt Forschungsdesign unten durchlesen und {{lehrkraefte: | ||
* Zu jedem Punkt des Abschnitts Forschungsdesign Gedanken zu unserer Fragestellung notieren / erarbeiten. Notiert zu jedem der Punkte Stichworte, was in diesen Bereich gehört. Abschnitt 2bc kann ausgelassen werden. | * Zu jedem Punkt des Abschnitts Forschungsdesign Gedanken zu unserer Fragestellung notieren / erarbeiten. Notiert zu jedem der Punkte Stichworte, was in diesen Bereich gehört. Abschnitt 2bc kann ausgelassen werden. | ||
- | * Alle haben mit unserem [[newtab> | + | * Alle haben mit unserem [[https:// |
Forschungsdesign | Forschungsdesign | ||
- Einleitung | - Einleitung | ||
- | - Problemstellung | + | - **Problemstellung**: Zusammenhang Stunden Schlaf, Wachstunden (Zeit seit Aufstehen) und Konzentration. |
- | - Inhaltliche Ziele und Absichten der Forschung | + | - **Inhaltliche Ziele und Absichten der Forschung**: |
- | - Bedeutung der Untersuchung und ev. Umsetzbarkeit | + | - Bedeutung der Untersuchung und ev. Umsetzbarkeit |
- Theorie und Empirie der Forschung | - Theorie und Empirie der Forschung | ||
- Definitionen | - Definitionen | ||
Line 42: | Line 141: | ||
- Forschungsstand | - Forschungsstand | ||
- Fragestellung | - Fragestellung | ||
- | - Hypohtesen | + | - **Hypothesen**: |
+ | * Längere Schlafdauer führt zu besserer Konzentration. | ||
+ | * Konzentationsfähigkeit (wie gemessen) hängt linear mit der Schlafdauer zusammen. | ||
- Methoden | - Methoden | ||
- | - Operationalisierung | + | - [[https:// |
- | - Variablen | + | - **Variablen**: Reaktionszeiten, |
- | - Instrumente | + | - **Instrumente**: Hausgemachter Stroop Test |
- | - Stichprobe | + | - **Stichprobe**: (Gross-)Familie und Freunde |
- Auswertungsplan | - Auswertungsplan | ||
- | - Zeitplan | + | - **Zeitplan**: |
==== Lektion 09 ==== | ==== Lektion 09 ==== | ||