2 Statystyka opisowa
Niech \(\pmb{x}=(x_1,\ldots ,x_n)'\) będzie próbką, tzn. \(x_1,\ldots ,x_n\) są obserwacjami zmiennej (cechy) \(X\).
Zadaniem statystyki opisowej jest prezentacja rozkładu cechy \(X\) w próbce (rozkładu empirycznego), przy pomocy tabeli lub wykresu. Często wystarczające jest jedynie podanie kilku liczb charakteryzujących ten rozkład.
Metody opisu rozkładu empirycznego:
- tabelaryczny,
- graficzny,
- Statystyki opisowe
- klasyczne - bazujące na uśrednianiu obserwowanych wartości w próbce, np. moment zwykły rzędu \(r\): \[m_r ={1\over n}\sum _{k=1}^n x_k^r\]
- pozycyjne - bazujące na posortowanych rosnąco wartościach w próbce, np. dolny kwartyl: \[Q_1={1\over 2}(x_{(i)}+x_{(j)}),\] gdzie \[i=\lceil {n+1\over 4}\rceil ,\ j=\lceil {n\over 4}\rceil \] lub górny kwartyl: \[Q_3={1\over 2}(x_{(i)}+x_{(j)}),\] gdzie \[i=\lceil {3(n+1)\over 4}\rceil ,\ j=\lceil {3n\over 4}\rceil .\]
Charakterystyki tendencji centralnej rozkładu empirycznego:
średnia, \[\bar x={1\over n}\sum _{k=1}^nx_k\]
mediana,
\[Me=\left\{ \begin{array}{ll} x_{({n+1\over 2})}, & \textrm{$n$ -- nieparzyste,} \\ {1\over 2}[x_{({n\over 2})}+x_{({n\over 2}+1)}], & \textrm{$n$ -- parzyste.} \end{array} \right.\]
Charakterystyki rozrzutu rozkładu empirycznego:
odchylenie standardowe, \[s=\sqrt{{1\over n-1}\sum _{k=1}^n(x_k-\bar x)^2}\]
współczynnik zmienności \[v={s\over \bar x}100\]
Funkcje związane ze statystyką opisową:
- table - szereg rozdzielczy (liczebności),
- prop.table - szereg rozdzielczy (proporcje, częstości),
- cut - dla cechy ilościowej ciągłej podział na przedziały klasowe,
- barplot - wykres słupkowy (cecha jakościowa lub ilościowa dyskretna),
- pie - wykres kołowy (cecha jakościowa lub ilościowa dyskretna),
- hist - histogram (cecha ilościowa ciągła).
- mean - średnia z próby,
- median - mediana z próby,
- sd - odchylenie standardowe z próby.
2.1 Wywołania w R
Cecha jakościowa.
Szereg rozdzielczy dla zmiennej Wynik:
Liczebnosc=table(Wynik)
Procent=prop.table(Liczebnosc)*100
Ocena=cbind(Liczebnosc,Procent)
tekst=c('bardzo dobra','przeciętna','zła','fatalna')
rownames(Ocena)=tekst
Ocena
Wykres słupkowy:
Przy użyciu klasycznej funkcji barplot z biblioteki graphics.
Z podziałem na chłopców i dziewczęta:
Liczebnosc=table(Wynik,Plec)
Procent=prop.table(Liczebnosc,2)*100
tekst=c('bardzo dobra','przeciętna','zła','fatalna')
rownames(Procent)=tekst
colnames(Procent)=c('chłopcy','dziewczęta')
Procent
Wykres słupkowy:
barplot(Procent,beside=T,col=1:4,main='Ocena sytuacji materialnej',ylab='Procent',legend.text=tekst)
Cecha ilościowa.
Szereg rozdzielczy dla zmiennej “mass”
\[mass=BMI=\frac{masa}{wzrost^2}\]
Uwaga: 18.5 - 24.99 wartość prawidłowa
Ustalony podział na klasy:
dane=Diabetes
Liczebnosc=table(cut(dane$mass,c(10,30,50,70)))
Procent=prop.table(Liczebnosc)*100
BMI=cbind(Liczebnosc,Procent)
BMI
Automatyczny podział na klasy:
h=hist(dane$mass,plot=F)
Liczebnosc=table(cut(dane[,6],h$breaks))
Procent=prop.table(Liczebnosc)*100
BMI=cbind(Liczebnosc,Procent)
BMI
Histogram:
Przy użyciu funkcji z biblioteki ggplot2
library(ggplot2)
g<-ggplot(data=dane)
g<-g+geom_histogram(aes(x=mass),color='grey30',fill='white',binwidth = 5)
g<-g+labs(x='BMI',y='Liczebność')
g
Statystyki opisowe:
summary(dane$mass) # domyślne
mean(dane$mass) # średnia
median(dane$mass) # mediana
sd(dane$mass) # odchylenie standardowe
sd(dane$mass)/mean(dane$mass)*100 # współczynnik zmienności
Prosta funkcja obliczająca cv: