Differences

This shows you the differences between two versions of the page.

--- lehrkraefte:ks:ffstat2122:start [2022/06/03 14:08]
Simon Knaus
+++ lehrkraefte:ks:ffstat2122:start [2023/06/01 09:40]
Simon Knaus
@@ Line 1: / Line 1: @@
 ==== Freifach Statistik ====
+lekti
 === Links ===
@@ Line 5: / Line 7: @@
   * [[https://www.ksbg.ch/fileadmin/kundendaten/Portraet/Dienstleistungen/Informatik/Office_365/ICT_Office365_ProPlus.pdf|Office 365 KSBG]]
   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]
+==== Lektion 14 ====
+=== Ziele ===
+  * Auswertung Fragebogen
+  * Besprechung Freifach Statistik
+=== Aufträge ===
+  * [[https://bldsg-my.sharepoint.com/:u:/g/personal/simon_knaus_ksbg_ch/EYGR9VHkuSdMs1h-J5_CUKsBm2z8nBGPCz321xhSkHiVHQ?e=OilJzV|Daten]] herunterladen und einlesen und <<inspizieren>>. Was fällt auf? Sind die Daten so realistisch? In R ggf. mit ''summary''
+  * Analysen auswählen
+    * Welche Analysen sind in welcher Variabel-Konstellation möglich? (Nominal, ordinale, kardinale Variablen)
+    * Analysen durchführen und Resultate (Grafiken oder Tabellen) in einem Dokument festhalten
+  * Ggf. Daten recodieren (s.u.)
+=== Theorie ===
+Beim <<Rekodieren>> oder <<recoden>> geht es darum,  Variablen einen anderen Wert zuzuordnen. Gründe können können sein, dass ordinale Daten kardinal interpretiert werden.
+In Excel geht das am einfachsten mit suchen und ersetzen (Achtung bei der Reihenfolge: Wenn eine Teiltext ein Suchtreffer ist, wird dieser ersetzt). In R gibt es verschieden Möglichkeiten:
+  * ''gsub'' funktioniert wie suchen und ersetzen in Excel
+  * Mit Index-Vektoren wie z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-index-vectors|dieser Erklärung]].
+  * Mit ''recode'' wie ebenfalls z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-recode-from-package-dplyr|dieser Seite]] erklärt.
+=== Daten einlesen und recodieren in R ===
+Idealerweise werden die Zeilenspaltentitel bereits in Excel angepasst. Damit hat man kurze Variabelnamen und man kann dann mit ''read.table(file('clipboard'), sep='\t',header=T)'' die Daten einlesen.
+Sind die Daten eingelesen, kann mit
+<code python>
+gluecksdata <- read.table(file('clipboard'), sep='\t',header=T)
+# Recodieren
+# Annahme die 8. Spalte hat neu den Titel 'allinall'
+gluecksdata$allinall <- gsub("sehr unglücklich",5,glueckdata$allinall)
+</code>
+<hidden Mögliche Lösung>
+<code>
+data <- read.table(file("clipboard"),sep="\t",header=T)
+head(data)
+library(ggplot2)
+names(data)
+#gesamtglück
+data$overall <- with(data,(insgesamt.+lately.+happylife+happymonth+happyoverall)/5)
+#glück vs. aussehen
+ggplot(data,aes(y=overall,x=looks))+geom_point()+geom_smooth(method="lm",se = F)
+#glück vs. gesundheit
+ggplot(data,aes(y=overall,x=health))+geom_point()+geom_smooth(method="lm",se = F)
+#glück vs. sleep
+ggplot(data,aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,sleep<30),aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
+with(subset(data,sleep<30),cor(overall,sleep,use = "pairwise.complete"))
+ggplot(data,aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,free<30),aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(subset(data,social<30),aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(y=overall,x=sport))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(x=overall))+geom_histogram(position = "identity")+facet_grid(gender~.)
+ggplot(data,aes(x=overall,y=gender))+geom_boxplot()
+ggplot(data,aes(y=overall,x=age))+geom_point()+geom_smooth(method="lm",se = F)
+ggplot(data,aes(x=meanin,y=overall))+geom_boxplot()
+ggplot(data,aes(x=morning,y=overall))+geom_boxplot()
+ggplot(data,aes(x=morning,y=overall))+geom_violin()
+ggplot(data,aes(x=important,y=overall))+geom_boxplot()
+library(corrplot)
+relvar <- sapply(data,is.numeric)
+corrplot(cor(subset(data[,relvar],free<30),use="pairwise.complete"))
+ggplot(da)
+</code>
+</hidden>
+==== Lektion 13 ====
+=== Ziele ===
+  * Unser Fragenbogen ist bereit für die Datenerhebung
+  * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären
+  * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt
+  * Optional: Jede/r kann den Begriff <<Normalverteilung>> (siehe oben) umgangssprachlich erklären
+=== Autrag ===
+  * Den Fragebogen einmal als Proband ausfüllen: [[https://forms.office.com/Pages/ResponsePage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu|Link]] zur Probandensicht
+  * Ggf. den Fragenbogen anpassen. [[https://forms.office.com/Pages/ShareFormPage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu&sharetoken=QpyAKCywk8Zxv7tPgGki|Link zum Duplizieren]] des Fragenbogens.
+  * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.
+  * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)
+    * Wirf eine Münze $n$ mal (''=WENN(ZUFALLSZAHL()<0.5;"K";"Z")'' und zähle (''ANZAHL()'' oder ''=ZÄHLEWENN()'') die Anzahl Male <<Kopf>>. Berechne auch die durchschnittliche Anzahl Kopf pro Wurf. Wie ist dieser Durchschnitt in der <<Modellwelt>> zu interpretieren?
+    * Wirf drei Münzen $n$ Mal gleichzeitig und zähle jeweils die Anzahl <<Zahl>>. Fertige ein Histogramm an.
+    * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe
+    * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.
+    * Schau dir das  das [[https://www.youtube.com/watch?v=lgs7d5saFFc| Video]] zur <<Tea Tasting Lady>> an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
+ <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen
+</hidden>
+<hidden Tipps R>
+Mit R könnte das entweder mit der Funktion ''sample(...)'' gelöst werden oder mit ''ifelse(...)'' und ''runif''. Bei beiden Varianten kann die Wahrscheinlichkeit gewählt werden.
+</hidden>
+=== Erklärungen ===
+Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$.
+In R kann genau das gleiche mit ''dbinom(k, n, p)'' erreicht werden.
 ==== Lektion 12 ====
 === Ziel ===
-  * Umfrage für unser Projekt steht und ist nach Möglichkeit bereits getested.
+  * Umfrage für unser Projekt steht und ist nach Möglichkeit bereits getestet.
 === Aufträge ===
   * Jede/r hält Fragen fest, die zusätzlich erhoben werden sollen, um unser <<Forschungsprojekt>> zu durchzuführen.
-    * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] festhalten.
+    * Eigene Fragen hier [[https://padlet.com/simon_knaus1/p87adz64g0w0cd7s|auf Padlet]] (inkl. Datentyp) festhalten.
     * [[https://pada.psycharchives.org/bitstream/bb227e13-1288-4ede-94cd-0e1fd3d627ac|Bestehender Fragebogen]] resp. [[https://www.testarchiv.eu/de/test/9006602|Archiv]]
   * Welche Auswertungen können mit diesen Fragen beantwortet werden?
@@ Line 22: / Line 123: @@
 ==== Lektion 11 ====
 === Ziele ===
-  * Jede/r kann die $Z$-transformierte (standardisierte) eines Merkmals ausrechnen.
+  * Jede/r kann die $Z$-Transformierte (standardisierte) eines Merkmals ausrechnen.
   * Jede/r kann auf Grund von Histogrammen der $Z$-transformierten Merkmale entscheiden, ob ein Merkmal normalverteilt ist.
   * Optional: Jede/r kann die Wahrscheinlichkeit berechnen, dass ein Merkmal innerhalb / ausserhalb eines Intervalls zu liegen kommt.
@@ Line 419: / Line 520: @@
     * Die BMW Boxplots den BMW Histogrammen zuordnen
     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen
-  * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist.
+  * Anwendungen des Boxplots
-  * Eine erhobene Grösse ersinnen, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
+    * Abschnitt unten zu "Anwendungen Boxplot durchgehen
+    * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist.
+    * Eine erhobene Grösse ausdenken, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
 === Boxplot ===
@@ Line 1239: / Line 1342: @@
 |Bestimmtheismass|Quadrat der Korrelation, zur Messung der Stärke eines Zusammenhangs| ||
 |Erklärende Variable | Variable (z.B. Kilometer) welche die abhängige Variable (z.B. Preis) in einer Regression erklären soll |||
-|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> analyse|''lm( )''|
+|Regression | Bestimmung einer linearen Funktion, welche den Zusammenhang zwischen erklärender und abhängier Variable herstellt|Daten -> Analyse|''lm(...)''|
 |Koeffizienten | Abschnitt und Steigung der linearen Funktion einer Regression |||
 |Dummy-Variable | Variable mit den Ausprägungen $0$ und $1$ um eine nominale Variable in einer Regression zu verwenden |||
+|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve|||
+|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$||''scale(...)''|
+|Z-Score | Siehe Standardisieren|||
 <!--|Signifikanz | Prozentzahl welche den Fehler erster Art (eines Tests) beschränkt. | | |
 |Test| Eine statistische Entscheidungsregel, welche überprüft, ob ein Resultat zufällig ist oder nicht. | | |
@@ Line 1247: / Line 1353: @@
 |Alternativhypothese| Eine Hypothese, die zutrifft, wenn die Nullhypothese nicht zutrifft.| | |
 |$p$-Wert | Auch Überschreitungswahrscheinlichkeit oder Signifikanzwert. Wahrscheinlichkeit mit derer ein Fehler erster Art begangen wird.| | |
-|Normalverteilung | Auch Gaussverteilung. Häufige Verteilung von Merkmalen. Das Histogamm gleich dabei einer Glockenkurve|||
+-->
-|Standardisieren | Zentrierung und Streckung eines Merkmals zu $Z=\frac{X-\mu}{\sigma}$. Es ist dann $\mu_Z=0$ und $\sigma_Z=1$|||-->
 </sortable>