lehrkraefte:ks:ffstat2122:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
lehrkraefte:ks:ffstat2122:start [2022/06/10 14:13]
Simon Knaus
lehrkraefte:ks:ffstat2122:start [2023/03/23 08:40]
Simon Knaus
Line 1: Line 1:
 ==== Freifach Statistik ==== ==== Freifach Statistik ====
 +lekti
 +
  
 === Links === === Links ===
Line 5: Line 7:
   * [[https://www.ksbg.ch/fileadmin/kundendaten/Portraet/Dienstleistungen/Informatik/Office_365/ICT_Office365_ProPlus.pdf|Office 365 KSBG]]   * [[https://www.ksbg.ch/fileadmin/kundendaten/Portraet/Dienstleistungen/Informatik/Office_365/ICT_Office365_ProPlus.pdf|Office 365 KSBG]]
   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]   * [[lehrkraefte:ks:ffstat2122:classunisg|Slides Uni]]
 +
 +==== Lektion 14 ====
 +=== Ziele ===
 +  * Auswertung Fragebogen
 +  * Besprechung Freifach Statistik
 +
 +=== Aufträge ===
 +  * [[https://bldsg-my.sharepoint.com/:u:/g/personal/simon_knaus_ksbg_ch/EYGR9VHkuSdMs1h-J5_CUKsBm2z8nBGPCz321xhSkHiVHQ?e=OilJzV|Daten]] herunterladen und einlesen und <<inspizieren>>. Was fällt auf? Sind die Daten so realistisch? In R ggf. mit ''summary''
 +  * Analysen auswählen
 +    * Welche Analysen sind in welcher Variabel-Konstellation möglich? (Nominal, ordinale, kardinale Variablen)
 +    * Analysen durchführen und Resultate (Grafiken oder Tabellen) in einem Dokument festhalten
 +  * Ggf. Daten recodieren (s.u.)
 +
 +=== Theorie === 
 +
 +Beim <<Rekodieren>> oder <<recoden>> geht es darum,  Variablen einen anderen Wert zuzuordnen. Gründe können können sein, dass ordinale Daten kardinal interpretiert werden.
 +In Excel geht das am einfachsten mit suchen und ersetzen (Achtung bei der Reihenfolge: Wenn eine Teiltext ein Suchtreffer ist, wird dieser ersetzt). In R gibt es verschieden Möglichkeiten:
 +  * ''gsub'' funktioniert wie suchen und ersetzen in Excel
 +  * Mit Index-Vektoren wie z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-index-vectors|dieser Erklärung]].
 +  * Mit ''recode'' wie ebenfalls z.B. in [[http://dwoll.de/rexrepos/posts/recode.html#using-recode-from-package-dplyr|dieser Seite]] erklärt.
 +=== Daten einlesen und recodieren in R ===
 +
 +Idealerweise werden die Zeilenspaltentitel bereits in Excel angepasst. Damit hat man kurze Variabelnamen und man kann dann mit ''read.table(file('clipboard'), sep='\t',header=T)'' die Daten einlesen.
 +
 +Sind die Daten eingelesen, kann mit 
 +<code python>
 +gluecksdata <- read.table(file('clipboard'), sep='\t',header=T)
 +# Recodieren
 +# Annahme die 8. Spalte hat neu den Titel 'allinall'
 +gluecksdata$allinall <- gsub("sehr unglücklich",5,glueckdata$allinall)
 +</code>
 +
 +<hidden Mögliche Lösung>
 +<code>
 +data <- read.table(file("clipboard"),sep="\t",header=T)
 +head(data)
 +library(ggplot2)
 +names(data)
 +#gesamtglück
 +data$overall <- with(data,(insgesamt.+lately.+happylife+happymonth+happyoverall)/5)
 +#glück vs. aussehen
 +ggplot(data,aes(y=overall,x=looks))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. gesundheit
 +ggplot(data,aes(y=overall,x=health))+geom_point()+geom_smooth(method="lm",se = F)
 +#glück vs. sleep
 +ggplot(data,aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,sleep<30),aes(y=overall,x=sleep))+geom_point()+geom_smooth(method="lm",se = F)
 +
 +with(subset(data,sleep<30),cor(overall,sleep,use = "pairwise.complete"))
 +ggplot(data,aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,free<30),aes(y=overall,x=free))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(subset(data,social<30),aes(y=overall,x=social))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(y=overall,x=sport))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=overall))+geom_histogram(position = "identity")+facet_grid(gender~.)
 +ggplot(data,aes(x=overall,y=gender))+geom_boxplot()
 +ggplot(data,aes(y=overall,x=age))+geom_point()+geom_smooth(method="lm",se = F)
 +ggplot(data,aes(x=meanin,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_boxplot()
 +ggplot(data,aes(x=morning,y=overall))+geom_violin()
 +ggplot(data,aes(x=important,y=overall))+geom_boxplot()
 +library(corrplot)
 +relvar <- sapply(data,is.numeric)
 +corrplot(cor(subset(data[,relvar],free<30),use="pairwise.complete")) 
 +ggplot(da)
 +
 +
 +</code>
 +</hidden>
  
 ==== Lektion 13 ==== ==== Lektion 13 ====
 +
  
 === Ziele ===  === Ziele === 
 +  * Unser Fragenbogen ist bereit für die Datenerhebung
   * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären   * Jede/r kann die Begriffe <<Modellwelt>> (Wahrscheinlichkeit, theoretisch) und <<Beobachtete Welt>> (Statistik, beobachtet) einordnen und umgangssprachlich erklären
   * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt   * Jede/r kann den Begriff <<Binomialverteilung>> umgangssprachlich erklären und die theoretische Wahrscheinlichkeit berechnen, dass ein gewisses Phänomen eine bestimmte Anzahl mal auftritt
Line 14: Line 87:
  
 === Autrag === === Autrag ===
 +  * Den Fragebogen einmal als Proband ausfüllen: [[https://forms.office.com/Pages/ResponsePage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu|Link]] zur Probandensicht
 +  * Ggf. den Fragenbogen anpassen. [[https://forms.office.com/Pages/ShareFormPage.aspx?id=vUGvXYwzEUOxsOEpmInDS12XSwf-80xHjgGMQjpEmz9UQVU1TURWMFpIUVlINzFHT0cyNVU3NEFCViQlQCNjPTEu&sharetoken=QpyAKCywk8Zxv7tPgGki|Link zum Duplizieren]] des Fragenbogens.
   * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.   * Dem Lehrer zuhören und anschliessend die Wandtafel fotografieren.
   * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)   * Experimente (Statistik) versus Theorie (Wahrscheinlichkeit)
Line 20: Line 95:
     * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe     * Berechne mit Excel die theoretischen Wahrscheinlichkeiten für eine Binomialverteilung (drei Münzen, $0$, $1$, $2$, $3$ mal Zahl) und vergleiche diese Werte mit dem Histogramm aus der vorigen Aufgabe
     * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.     * Jemand hat 100 mal eine Münze geworfen. Wie gross ist die theoretische Wahrscheinlichkeit, dass man genau 67 mal Kopf beobachtet? Nimm an, dass die Münze ausgeglichen ist.
-    * Schau dir das Video zur [[https://www.youtube.com/watch?v=lgs7d5saFFc| << Tea Tasting Lady >> ]] an. Überlege dir, welche <<Fehlentscheide>> enstehen können.+    * Schau dir das  das [[https://www.youtube.com/watch?v=lgs7d5saFFc| Video]] zur <<Tea Tasting Lady>> an. Überlege dir, welche <<Fehlentscheide>> enstehen können.
    
- <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen</hidden>+ <hidden Histogramm> Die Zufallsvariable $X$ <<Anzahl Zahl>> kann die Werte $0$, $1$, $2$ und $3$ annehmen. Es geht jetz also darum (siehe Blätter), die relative Häufigkeit $h(x)=\frac{n_x}{n}$ zu berechnen und die Werte aufzuzeichnen 
 + 
 +</hidden> 
 +<hidden Tipps R> 
 +Mit R könnte das entweder mit der Funktion ''sample(...)'' gelöst werden oder mit ''ifelse(...)'' und ''runif''. Bei beiden Varianten kann die Wahrscheinlichkeit gewählt werden. 
 +</hidden>
 === Erklärungen === === Erklärungen ===
 Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$. Die Formel ''BINOM.VERT'' kann in Excel verwendet werden, um die Wahrscheinlichkeit zu berechnen bei $n$ Durchführungen eines Experiments genau $k$ mal Erfolg zu haben wobei der Erfolg mit Wahrscheinlichkeit $p$ eintritt. Man muss dann ''BINOM.VERT(k;n;p; FALSCH)'' aufrufen. ''FALSCH'' ist dabei notwendig, dass man die Wahrscheinlichkeit erhält. Würde ''WAHR'' stehen, erhielte man die Summe aller Wahrscheinlichkeiten mit Anzahl Erfolgen kleiner gleich $k$.
Line 440: Line 520:
     * Die BMW Boxplots den BMW Histogrammen zuordnen     * Die BMW Boxplots den BMW Histogrammen zuordnen
     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen     * Die BMW Mittelwerte, Standardabweichungen, IQA, Median und $Q_{30\%}$ den Histogrammen und Boxplots zuordnen
-  * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. +  * Anwendungen des Boxplots 
-  * Eine erhobene Grösse ersinnen, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.+    * Abschnitt unten zu "Anwendungen Boxplot durchgehen 
 +    * Ein Beispiel konstruieren, bei dem Median grösser als Mittelwert ist. 
 +    * Eine erhobene Grösse ausdenken, bei der Median (oder ein anderes Quantil) mehr interessiert als der Mittelwert und umgekehrt.
 === Boxplot === === Boxplot ===
  
  • lehrkraefte/ks/ffstat2122/start.txt
  • Last modified: 2023/06/01 09:40
  • by Simon Knaus