lehrkraefte:ks:ffstat2122:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
lehrkraefte:ks:ffstat2122:start [2022/05/20 16:07]
Simon Knaus
lehrkraefte:ks:ffstat2122:start [2023/03/23 08:40]
Simon Knaus
Line 1: Line 1:
 ==== Freifach Statistik ==== ==== Freifach Statistik ====
 +lekti
 +
  
 === Links === === Links ===
Line 6: Line 8:
   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]
  
 +==== Lektion 14 ====
 +=== Ziele ===
 +  * Auswertung Fragebogen
 +  * Besprechung Freifach Statistik
 +
 +=== Aufträge ===
 +  * [[https://bldsg-my.sharepoint.com/:u:/g/personal/simon_knaus_ksbg_ch/EYGR9VHkuSdMs1h-J5_CUKsBm2z8nBGPCz321xhSkHiVHQ?e=OilJzV|Daten]] herunterladen und einlesen und <<inspizieren>>. Was fällt auf? Sind die Daten so realistisch? In R ggf. mit ''summary''
 +  * Analysen auswählen
 +    * Welche Analysen sind in welcher Variabel-Konstellation möglich? (Nominal, ordinale, kardinale Variablen)
 +    * Analysen durchführen und Resultate (Grafiken oder Tabellen) in einem Dokument festhalten
 +  * Ggf. Daten recodieren (s.u.)
 +
 +=== Theorie === 
 +
 +Beim <<Rekodieren>> oder <<recoden>> geht es darum,  Variablen einen anderen Wert zuzuordnen. Gründe können können sein, dass ordinale Daten kardinal interpretiert werden.
 +In Excel geht das am einfachsten mit suchen und ersetzen (Achtung bei der Reihenfolge: Wenn eine Teiltext ein Suchtreffer ist, wird dieser ersetzt). In R gibt es verschieden Möglichkeiten:
 +  * ''gsub'' funktioniert wie suchen und ersetzen in Excel
 +  * Mit Index-Vektoren wie z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-index-vectors|dieser Erklärung]].
 +  * Mit ''recode'' wie ebenfalls z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-recode-from-package-dplyr|dieser Seite]] erklärt.
 +=== Daten einlesen und recodieren in R ===
 +
 +Idealerweise werden die Zeilenspaltentitel bereits in Excel angepasst. Damit hat man kurze Variabelnamen und man kann dann mit ''read.table(file('clipboard'), sep='\t',header=T)'' die Daten einlesen.
 +
 +Sind die Daten eingelesen, kann mit 
 +<code python>
 +gluecksdata <- read.table(file('clipboard'), sep='\t',header=T)
 +# Recodieren
 +# Annahme die 8. Spalte hat neu den Titel 'allinall'
 +gluecksdata$allinall <- gsub("sehr unglücklich",5,glueckdata$allinall)
 +</code>
 +
 +<hidden Mögliche Lösung>
 +<code>
 +data <- read.table(file("clipboard"),sep="\t",header=T)
 +head(data)
 +library(ggplot2)
 +names(data)
 +#gesamtglück
 +data$overall <- with(data,(insgesamt.+lately.+happylife+happymonth+happyoverall)/5)
 +#glück vs. aussehen
 +ggplot(data,aes(y=overall,x=looks))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. gesundheit
 +ggplot(data,aes(y=overall,x=health))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. sleep
 +ggplot(data,aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,sleep<30),aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +
 +with(subset(data,sleep<30),cor(overall,sleep,use = "pairwise.complete"))
 +ggplot(data,aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,free<30),aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,social<30),aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=sport))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=overall))+geom_histogram(position = "identity")+facet_grid(gender~.)
 +ggplot(data,aes(x=overall,y=gender))+geom_boxplot()
 +ggplot(data,aes(y=overall,x=age))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=meanin,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_violin()
 +ggplot(data,aes(x=important,y=overall))+geom_boxplot()
 +library(corrplot)
 +relvar <- sapply(data,is.numeric)
 +corrplot(cor(subset(data[,relvar],free<30),use="pairwise.complete")) 
 +ggplot(da)
 +
 +
 +</code>
 +</hidden>
 +
 +==== Lektion 13 ====
 +
 +
 +=== Ziele === 
 +  * Unser Fragenbogen ist bereit für die Datenerhebung
 +  * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären
 +  * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt
 +  * Optional: Jede/r kann den Begriff <<Normalverteilung>> (siehe oben) umgangssprachlich erklären 
 +
 +=== Autrag ===
 +  * Den Fragebogen einmal als Proband ausfüllen: [[https://forms.office.com/Pages/ResponsePage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu|Link]] zur Probandensicht
 +  * Ggf. den Fragenbogen anpassen. [[https://forms.office.com/Pages/ShareFormPage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu&sharetoken=QpyAKCywk8Zxv7tPgGki|Link zum Duplizieren]] des Fragenbogens.
 +  * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.
 +  * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)
 +    * Wirf eine Münze $n$ mal (''=WENN(ZUFALLSZAHL()<0.5;"K";"Z")'' und zähle (''ANZAHL()'' oder ''=ZÄHLEWENN()'') die Anzahl Male <<Kopf>>. Berechne auch die durchschnittliche Anzahl Kopf pro Wurf. Wie ist dieser Durchschnitt in der <<Modellwelt>> zu interpretieren?
 +    * Wirf drei Münzen $n$ Mal gleichzeitig und zähle jeweils die Anzahl <<Zahl>>. Fertige ein Histogramm an. 
 +    * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe
 +    * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.
 +    * Schau dir das  das [[https://www.youtube.com/watch?v=lgs7d5saFFc| Video]] zur <<Tea Tasting Lady>> an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
 + 
 + <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen
 +
 +</hidden>
 +<hidden Tipps R>
 +Mit R könnte das entweder mit der Funktion ''sample(...)'' gelöst werden oder mit ''ifelse(...)'' und ''runif''. Bei beiden Varianten kann die Wahrscheinlichkeit gewählt werden.
 +</hidden>
 +=== Erklärungen ===
 +Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$.
 +In R kann genau das gleiche mit ''dbinom(k, n, p)'' erreicht werden.
 +==== Lektion 12 ====
 +=== Ziel === 
 +  * Umfrage für unser Projekt steht und ist nach Möglichkeit bereits getestet.
 +
 +=== Aufträge ===
 +  * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu durchzuführen.
 +    * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] (inkl. Datentyp) festhalten.
 +    * [[https://pada.psycharchives.org/bitstream/bb227e13-1288-4ede-94cd-0e1fd3d627ac|Bestehender Fragebogen]] resp. [[https://www.testarchiv.eu/de/test/9006602|Archiv]] 
 +  * Welche Auswertungen können mit diesen Fragen beantwortet werden? 
 +    * Welche statistischen Kenngrössen braucht man dazu?
 +    * Welche Analysen sind notwendig?
 +  * Erste Analyse bereits mit Dummy-Daten durchführen um festzustellen, ob die Idee funktionieren.
 +  * Plan wie man zu Daten kommt erarbeiten
 +    * Online
 +    * Offline, QR, etc.
 ==== Lektion 11 ==== ==== Lektion 11 ====
 === Ziele === === Ziele ===
Line 18: Line 133:
       * in einer weiteren Spalte zwei Histogramme erstellen: Eines vor und eines nach der Standardisierung (z.B. mit Geogebra) und       * in einer weiteren Spalte zwei Histogramme erstellen: Eines vor und eines nach der Standardisierung (z.B. mit Geogebra) und
       * entscheiden, ob die Variable (resp. das Merkmal) normalverteilt ist oder nicht.       * entscheiden, ob die Variable (resp. das Merkmal) normalverteilt ist oder nicht.
-  * Für die normalverteilten Variablen ein Intervall der Form $[a,b]$ angeben, in welchem $95\%$ der Daten zu liegen kommen.+  * Optional: Für die normalverteilten Variablen ein Intervall der Form $[a,b]$ angeben, in welchem $95\%$ der Daten zu liegen kommen.
   * Intelligenzquotient als Beispiel einer normalverteilten Zufallsgrösse. Schaut euch die Videos unten an.   * Intelligenzquotient als Beispiel einer normalverteilten Zufallsgrösse. Schaut euch die Videos unten an.
-      * [[https://www.nanoo.tv/link/v/837027| Grundlagen IQ]]+      * [[https://www.nanoo.tv/link/v/ficYyhCe| Grundlagen IQ]]
       * [[https://www.nanoo.tv/link/v/uDtLxbWK| DorFuchs IQ]] und die Normalverteilung       * [[https://www.nanoo.tv/link/v/uDtLxbWK| DorFuchs IQ]] und die Normalverteilung
 +      * [[https://www.pnas.org/doi/pdf/10.1073/pnas.1718793115?download=true|Forschungsartikel]] zur Entwicklung des IQ.
   * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu erheben.   * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu erheben.
     * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] festhalten     * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] festhalten
Line 404: Line 520:
     * Die BMW Boxplots den BMW Histogrammen zuordnen     * Die BMW Boxplots den BMW Histogrammen zuordnen
     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen
-  * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. +  * Anwendungen des Boxplots 
-  * Eine erhobene Grösse ersinnen, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.+    * Abschnitt unten zu "Anwendungen Boxplot durchgehen 
 +    * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. 
 +    * Eine erhobene Grösse ausdenken, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
 === Boxplot === === Boxplot ===
  
Line 1224: Line 1342:
 |Bestimmtheismass|Quadrat der Korrelation, zur Messung der Stärke eines Zusammenhangs| || |Bestimmtheismass|Quadrat der Korrelation, zur Messung der Stärke eines Zusammenhangs| ||
 |Erklärende Variable | Variable (z.B. Kilometer) welche die abhängige Variable (z.B. Preis) in einer Regression erklären soll ||| |Erklärende Variable | Variable (z.B. Kilometer) welche die abhängige Variable (z.B. Preis) in einer Regression erklären soll |||
-|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> analyse|''lm( )''|+|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> Analyse|''lm(...)''|
 |Koeffizienten | Abschnitt und Steigung der linearen Funktion einer Regression ||| |Koeffizienten | Abschnitt und Steigung der linearen Funktion einer Regression |||
 |Dummy-Variable | Variable mit den Ausprägungen $0$ und $1$ um eine nominale Variable in einer Regression zu verwenden ||| |Dummy-Variable | Variable mit den Ausprägungen $0$ und $1$ um eine nominale Variable in einer Regression zu verwenden |||
 +|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve|||
 +|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$||''scale(...)''|
 +|Z-Score | Siehe Standardisieren|||
 <!--|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | | <!--|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | |
 |Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | | |Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | |
Line 1232: Line 1353:
 |Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | | |Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | |
 |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | | |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | |
-|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve||| +-->
-|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$|||-->+
 </sortable> </sortable>
  
  • lehrkraefte/ks/ffstat2122/start.txt
  • Last modified: 2023/06/01 09:40
  • by Simon Knaus