lehrkraefte:ks:ffstat2122:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
lehrkraefte:ks:ffstat2122:start [2022/05/20 16:08]
Simon Knaus
lehrkraefte:ks:ffstat2122:start [2023/06/01 09:40] (current)
Simon Knaus
Line 1: Line 1:
 ==== Freifach Statistik ==== ==== Freifach Statistik ====
 +lekti
 +
  
 === Links === === Links ===
Line 6: Line 8:
   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]
  
 +==== Lektion 14 ====
 +=== Ziele ===
 +  * Auswertung Fragebogen
 +  * Besprechung Freifach Statistik
 +
 +=== Aufträge ===
 +  * [[https://bldsg-my.sharepoint.com/:u:/g/personal/simon_knaus_ksbg_ch/EYGR9VHkuSdMs1h-J5_CUKsBm2z8nBGPCz321xhSkHiVHQ?e=OilJzV|Daten]] herunterladen und einlesen und <<inspizieren>>. Was fällt auf? Sind die Daten so realistisch? In R ggf. mit ''summary''
 +  * Analysen auswählen
 +    * Welche Analysen sind in welcher Variabel-Konstellation möglich? (Nominal, ordinale, kardinale Variablen)
 +    * Analysen durchführen und Resultate (Grafiken oder Tabellen) in einem Dokument festhalten
 +  * Ggf. Daten recodieren (s.u.)
 +
 +=== Theorie === 
 +
 +Beim <<Rekodieren>> oder <<recoden>> geht es darum,  Variablen einen anderen Wert zuzuordnen. Gründe können können sein, dass ordinale Daten kardinal interpretiert werden.
 +In Excel geht das am einfachsten mit suchen und ersetzen (Achtung bei der Reihenfolge: Wenn eine Teiltext ein Suchtreffer ist, wird dieser ersetzt). In R gibt es verschieden Möglichkeiten:
 +  * ''gsub'' funktioniert wie suchen und ersetzen in Excel
 +  * Mit Index-Vektoren wie z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-index-vectors|dieser Erklärung]].
 +  * Mit ''recode'' wie ebenfalls z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-recode-from-package-dplyr|dieser Seite]] erklärt.
 +=== Daten einlesen und recodieren in R ===
 +
 +Idealerweise werden die Zeilenspaltentitel bereits in Excel angepasst. Damit hat man kurze Variabelnamen und man kann dann mit ''read.table(file('clipboard'), sep='\t',header=T)'' die Daten einlesen.
 +
 +Sind die Daten eingelesen, kann mit 
 +<code python>
 +gluecksdata <- read.table(file('clipboard'), sep='\t',header=T)
 +# Recodieren
 +# Annahme die 8. Spalte hat neu den Titel 'allinall'
 +gluecksdata$allinall <- gsub("sehr unglücklich",5,glueckdata$allinall)
 +</code>
 +
 +<hidden Mögliche Lösung>
 +<code>
 +data <- read.table(file("clipboard"),sep="\t",header=T)
 +head(data)
 +library(ggplot2)
 +names(data)
 +#gesamtglück
 +data$overall <- with(data,(insgesamt.+lately.+happylife+happymonth+happyoverall)/5)
 +#glück vs. aussehen
 +ggplot(data,aes(y=overall,x=looks))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. gesundheit
 +ggplot(data,aes(y=overall,x=health))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. sleep
 +ggplot(data,aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,sleep<30),aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +
 +with(subset(data,sleep<30),cor(overall,sleep,use = "pairwise.complete"))
 +ggplot(data,aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,free<30),aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,social<30),aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=sport))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=overall))+geom_histogram(position = "identity")+facet_grid(gender~.)
 +ggplot(data,aes(x=overall,y=gender))+geom_boxplot()
 +ggplot(data,aes(y=overall,x=age))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=meanin,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_violin()
 +ggplot(data,aes(x=important,y=overall))+geom_boxplot()
 +library(corrplot)
 +relvar <- sapply(data,is.numeric)
 +corrplot(cor(subset(data[,relvar],free<30),use="pairwise.complete")) 
 +ggplot(da)
 +
 +
 +</code>
 +</hidden>
 +
 +==== Lektion 13 ====
 +
 +
 +=== Ziele === 
 +  * Unser Fragenbogen ist bereit für die Datenerhebung
 +  * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären
 +  * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt
 +  * Optional: Jede/r kann den Begriff <<Normalverteilung>> (siehe oben) umgangssprachlich erklären 
 +
 +=== Autrag ===
 +  * Den Fragebogen einmal als Proband ausfüllen: [[https://forms.office.com/Pages/ResponsePage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu|Link]] zur Probandensicht
 +  * Ggf. den Fragenbogen anpassen. [[https://forms.office.com/Pages/ShareFormPage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu&sharetoken=QpyAKCywk8Zxv7tPgGki|Link zum Duplizieren]] des Fragenbogens.
 +  * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.
 +  * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)
 +    * Wirf eine Münze $n$ mal (''=WENN(ZUFALLSZAHL()<0.5;"K";"Z")'' und zähle (''ANZAHL()'' oder ''=ZÄHLEWENN()'') die Anzahl Male <<Kopf>>. Berechne auch die durchschnittliche Anzahl Kopf pro Wurf. Wie ist dieser Durchschnitt in der <<Modellwelt>> zu interpretieren?
 +    * Wirf drei Münzen $n$ Mal gleichzeitig und zähle jeweils die Anzahl <<Zahl>>. Fertige ein Histogramm an. 
 +    * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe
 +    * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.
 +    * Schau dir das  das [[https://www.youtube.com/watch?v=lgs7d5saFFc| Video]] zur <<Tea Tasting Lady>> an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
 + 
 + <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen
 +
 +</hidden>
 +<hidden Tipps R>
 +Mit R könnte das entweder mit der Funktion ''sample(...)'' gelöst werden oder mit ''ifelse(...)'' und ''runif''. Bei beiden Varianten kann die Wahrscheinlichkeit gewählt werden.
 +</hidden>
 +=== Erklärungen ===
 +Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$.
 +In R kann genau das gleiche mit ''dbinom(k, n, p)'' erreicht werden.
 +==== Lektion 12 ====
 +=== Ziel === 
 +  * Umfrage für unser Projekt steht und ist nach Möglichkeit bereits getestet.
 +
 +=== Aufträge ===
 +  * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu durchzuführen.
 +    * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] (inkl. Datentyp) festhalten.
 +    * [[https://pada.psycharchives.org/bitstream/bb227e13-1288-4ede-94cd-0e1fd3d627ac|Bestehender Fragebogen]] resp. [[https://www.testarchiv.eu/de/test/9006602|Archiv]] 
 +  * Welche Auswertungen können mit diesen Fragen beantwortet werden? 
 +    * Welche statistischen Kenngrössen braucht man dazu?
 +    * Welche Analysen sind notwendig?
 +  * Erste Analyse bereits mit Dummy-Daten durchführen um festzustellen, ob die Idee funktionieren.
 +  * Plan wie man zu Daten kommt erarbeiten
 +    * Online
 +    * Offline, QR, etc.
 ==== Lektion 11 ==== ==== Lektion 11 ====
 === Ziele === === Ziele ===
-  * Jede/r kann die $Z$-transformierte (standardisierte) eines Merkmals ausrechnen.+  * Jede/r kann die $Z$-Transformierte (standardisierte) eines Merkmals ausrechnen.
   * Jede/r kann auf Grund von Histogrammen der $Z$-transformierten Merkmale entscheiden, ob ein Merkmal normalverteilt ist.   * Jede/r kann auf Grund von Histogrammen der $Z$-transformierten Merkmale entscheiden, ob ein Merkmal normalverteilt ist.
   * Optional: Jede/r kann die Wahrscheinlichkeit berechnen, dass ein Merkmal innerhalb / ausserhalb eines Intervalls zu liegen kommt.   * Optional: Jede/r kann die Wahrscheinlichkeit berechnen, dass ein Merkmal innerhalb / ausserhalb eines Intervalls zu liegen kommt.
Line 20: Line 135:
   * Optional: Für die normalverteilten Variablen ein Intervall der Form $[a,b]$ angeben, in welchem $95\%$ der Daten zu liegen kommen.   * Optional: Für die normalverteilten Variablen ein Intervall der Form $[a,b]$ angeben, in welchem $95\%$ der Daten zu liegen kommen.
   * Intelligenzquotient als Beispiel einer normalverteilten Zufallsgrösse. Schaut euch die Videos unten an.   * Intelligenzquotient als Beispiel einer normalverteilten Zufallsgrösse. Schaut euch die Videos unten an.
-      * [[https://www.nanoo.tv/link/v/837027| Grundlagen IQ]]+      * [[https://www.nanoo.tv/link/v/ficYyhCe| Grundlagen IQ]]
       * [[https://www.nanoo.tv/link/v/uDtLxbWK| DorFuchs IQ]] und die Normalverteilung       * [[https://www.nanoo.tv/link/v/uDtLxbWK| DorFuchs IQ]] und die Normalverteilung
 +      * [[https://www.pnas.org/doi/pdf/10.1073/pnas.1718793115?download=true|Forschungsartikel]] zur Entwicklung des IQ.
   * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu erheben.   * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu erheben.
     * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] festhalten     * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] festhalten
Line 404: Line 520:
     * Die BMW Boxplots den BMW Histogrammen zuordnen     * Die BMW Boxplots den BMW Histogrammen zuordnen
     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen
-  * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. +  * Anwendungen des Boxplots 
-  * Eine erhobene Grösse ersinnen, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.+    * Abschnitt unten zu "Anwendungen Boxplot durchgehen 
 +    * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. 
 +    * Eine erhobene Grösse ausdenken, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
 === Boxplot === === Boxplot ===
  
Line 1224: Line 1342:
 |Bestimmtheismass|Quadrat der Korrelation, zur Messung der Stärke eines Zusammenhangs| || |Bestimmtheismass|Quadrat der Korrelation, zur Messung der Stärke eines Zusammenhangs| ||
 |Erklärende Variable | Variable (z.B. Kilometer) welche die abhängige Variable (z.B. Preis) in einer Regression erklären soll ||| |Erklärende Variable | Variable (z.B. Kilometer) welche die abhängige Variable (z.B. Preis) in einer Regression erklären soll |||
-|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> analyse|''lm( )''|+|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> Analyse|''lm(...)''|
 |Koeffizienten | Abschnitt und Steigung der linearen Funktion einer Regression ||| |Koeffizienten | Abschnitt und Steigung der linearen Funktion einer Regression |||
 |Dummy-Variable | Variable mit den Ausprägungen $0$ und $1$ um eine nominale Variable in einer Regression zu verwenden ||| |Dummy-Variable | Variable mit den Ausprägungen $0$ und $1$ um eine nominale Variable in einer Regression zu verwenden |||
 +|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve|||
 +|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$||''scale(...)''|
 +|Z-Score | Siehe Standardisieren|||
 <!--|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | | <!--|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | |
 |Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | | |Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | |
Line 1232: Line 1353:
 |Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | | |Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | |
 |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | | |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | |
-|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve||| +-->
-|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$|||-->+
 </sortable> </sortable>
  
  • lehrkraefte/ks/ffstat2122/start.1653055696.txt.gz
  • Last modified: 2022/05/20 16:08
  • by Simon Knaus