Differences

This shows you the differences between two versions of the page.

--- lehrkraefte:ks:ffstat2122:start [2022/06/10 14:13]
Simon Knaus
+++ lehrkraefte:ks:ffstat2122:start [2023/03/23 08:40]
Simon Knaus
@@ Line 1: / Line 1: @@
 ==== Freifach Statistik ====
+lekti
 === Links ===
@@ Line 5: / Line 7: @@
   * [[https://www.ksbg.ch/fileadmin/kundendaten/Portraet/Dienstleistungen/Informatik/Office_365/ICT_Office365_ProPlus.pdf|Office 365 KSBG]]
   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]
+==== Lektion 14 ====
+=== Ziele ===
+  * Auswertung Fragebogen
+  * Besprechung Freifach Statistik
+=== Aufträge ===
+  * [[https://bldsg-my.sharepoint.com/:u:/g/personal/simon_knaus_ksbg_ch/EYGR9VHkuSdMs1h-J5_CUKsBm2z8nBGPCz321xhSkHiVHQ?e=OilJzV|Daten]] herunterladen und einlesen und <<inspizieren>>. Was fällt auf? Sind die Daten so realistisch? In R ggf. mit ''summary''
+  * Analysen auswählen
+    * Welche Analysen sind in welcher Variabel-Konstellation möglich? (Nominal, ordinale, kardinale Variablen)
+    * Analysen durchführen und Resultate (Grafiken oder Tabellen) in einem Dokument festhalten
+  * Ggf. Daten recodieren (s.u.)
+=== Theorie ===
+Beim <<Rekodieren>> oder <<recoden>> geht es darum,  Variablen einen anderen Wert zuzuordnen. Gründe können können sein, dass ordinale Daten kardinal interpretiert werden.
+In Excel geht das am einfachsten mit suchen und ersetzen (Achtung bei der Reihenfolge: Wenn eine Teiltext ein Suchtreffer ist, wird dieser ersetzt). In R gibt es verschieden Möglichkeiten:
+  * ''gsub'' funktioniert wie suchen und ersetzen in Excel
+  * Mit Index-Vektoren wie z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-index-vectors|dieser Erklärung]].
+  * Mit ''recode'' wie ebenfalls z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-recode-from-package-dplyr|dieser Seite]] erklärt.
+=== Daten einlesen und recodieren in R ===
+Idealerweise werden die Zeilenspaltentitel bereits in Excel angepasst. Damit hat man kurze Variabelnamen und man kann dann mit ''read.table(file('clipboard'), sep='\t',header=T)'' die Daten einlesen.
+Sind die Daten eingelesen, kann mit
+<code python>
+gluecksdata <- read.table(file('clipboard'), sep='\t',header=T)
+# Recodieren
+# Annahme die 8. Spalte hat neu den Titel 'allinall'
+gluecksdata$allinall <- gsub("sehr unglücklich",5,glueckdata$allinall)
+</code>
+<hidden Mögliche Lösung>
+<code>
+data <- read.table(file("clipboard"),sep="\t",header=T)
+head(data)
+library(ggplot2)
+names(data)
+#gesamtglück
+data$overall <- with(data,(insgesamt.+lately.+happylife+happymonth+happyoverall)/5)
+#glück vs. aussehen
+ggplot(data,aes(y=overall,x=looks))+geom_point()+geom_smooth(method="lm",se = F)
+#glück vs. gesundheit
+ggplot(data,aes(y=overall,x=health))+geom_point()+geom_smooth(method="lm",se = F)
+#glück vs. sleep
+ggplot(data,aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,sleep<30),aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
+with(subset(data,sleep<30),cor(overall,sleep,use = "pairwise.complete"))
+ggplot(data,aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,free<30),aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,social<30),aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(y=overall,x=sport))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(x=overall))+geom_histogram(position = "identity")+facet_grid(gender~.)
+ggplot(data,aes(x=overall,y=gender))+geom_boxplot()
+ggplot(data,aes(y=overall,x=age))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(x=meanin,y=overall))+geom_boxplot()
+ggplot(data,aes(x=morning,y=overall))+geom_boxplot()
+ggplot(data,aes(x=morning,y=overall))+geom_violin()
+ggplot(data,aes(x=important,y=overall))+geom_boxplot()
+library(corrplot)
+relvar <- sapply(data,is.numeric)
+corrplot(cor(subset(data[,relvar],free<30),use="pairwise.complete"))
+ggplot(da)
+</code>
+</hidden>
 ==== Lektion 13 ====
 === Ziele ===
+  * Unser Fragenbogen ist bereit für die Datenerhebung
   * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären
   * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt
@@ Line 14: / Line 87: @@
 === Autrag ===
+  * Den Fragebogen einmal als Proband ausfüllen: [[https://forms.office.com/Pages/ResponsePage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu|Link]] zur Probandensicht
+  * Ggf. den Fragenbogen anpassen. [[https://forms.office.com/Pages/ShareFormPage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu&sharetoken=QpyAKCywk8Zxv7tPgGki|Link zum Duplizieren]] des Fragenbogens.
   * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.
   * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)
@@ Line 20: / Line 95: @@
     * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe
     * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.
-    * Schau dir das Video zur [[https://www.youtube.com/watch?v=lgs7d5saFFc| << Tea Tasting Lady >> ]] an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
+    * Schau dir das  das [[https://www.youtube.com/watch?v=lgs7d5saFFc| Video]] zur <<Tea Tasting Lady>> an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
- <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen</hidden>
+ <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen
+</hidden>
+<hidden Tipps R>
+Mit R könnte das entweder mit der Funktion ''sample(...)'' gelöst werden oder mit ''ifelse(...)'' und ''runif''. Bei beiden Varianten kann die Wahrscheinlichkeit gewählt werden.
+</hidden>
 === Erklärungen ===
 Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$.
@@ Line 440: / Line 520: @@
     * Die BMW Boxplots den BMW Histogrammen zuordnen
     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen
-  * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist.
+  * Anwendungen des Boxplots
-  * Eine erhobene Grösse ersinnen, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
+    * Abschnitt unten zu "Anwendungen Boxplot durchgehen
+    * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist.
+    * Eine erhobene Grösse ausdenken, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
 === Boxplot ===