2 Statystyka opisowa

Niech \(\pmb{x}=(x_1,\ldots ,x_n)'\) będzie próbką, tzn. \(x_1,\ldots ,x_n\) są obserwacjami zmiennej (cechy) \(X\).

Zadaniem statystyki opisowej jest prezentacja rozkładu cechy \(X\) w próbce (rozkładu empirycznego), przy pomocy tabeli lub wykresu. Często wystarczające jest jedynie podanie kilku liczb charakteryzujących ten rozkład.

Metody opisu rozkładu empirycznego:

  1. tabelaryczny,
  2. graficzny,
  3. Statystyki opisowe
  • klasyczne - bazujące na uśrednianiu obserwowanych wartości w próbce, np. moment zwykły rzędu \(r\): \[m_r ={1\over n}\sum _{k=1}^n x_k^r\]
  • pozycyjne - bazujące na posortowanych rosnąco wartościach w próbce, np. dolny kwartyl: \[Q_1={1\over 2}(x_{(i)}+x_{(j)}),\] gdzie \[i=\lceil {n+1\over 4}\rceil ,\ j=\lceil {n\over 4}\rceil \] lub górny kwartyl: \[Q_3={1\over 2}(x_{(i)}+x_{(j)}),\] gdzie \[i=\lceil {3(n+1)\over 4}\rceil ,\ j=\lceil {3n\over 4}\rceil .\]

Charakterystyki tendencji centralnej rozkładu empirycznego:

  1. średnia, \[\bar x={1\over n}\sum _{k=1}^nx_k\]

  2. mediana,

\[Me=\left\{ \begin{array}{ll} x_{({n+1\over 2})}, & \textrm{$n$ -- nieparzyste,} \\ {1\over 2}[x_{({n\over 2})}+x_{({n\over 2}+1)}], & \textrm{$n$ -- parzyste.} \end{array} \right.\]

Charakterystyki rozrzutu rozkładu empirycznego:

  1. odchylenie standardowe, \[s=\sqrt{{1\over n-1}\sum _{k=1}^n(x_k-\bar x)^2}\]

  2. współczynnik zmienności \[v={s\over \bar x}100\]

Funkcje związane ze statystyką opisową:

  1. table - szereg rozdzielczy (liczebności),
  2. prop.table - szereg rozdzielczy (proporcje, częstości),
  3. cut - dla cechy ilościowej ciągłej podział na przedziały klasowe,
  4. barplot - wykres słupkowy (cecha jakościowa lub ilościowa dyskretna),
  5. pie - wykres kołowy (cecha jakościowa lub ilościowa dyskretna),
  6. hist - histogram (cecha ilościowa ciągła).
  7. mean - średnia z próby,
  8. median - mediana z próby,
  9. sd - odchylenie standardowe z próby.

2.1 Wywołania w R

Cecha jakościowa.

Dane: Rodzina

Szereg rozdzielczy dla zmiennej Wynik:

Wykres słupkowy:

Przy użyciu klasycznej funkcji barplot z biblioteki graphics.

Z podziałem na chłopców i dziewczęta:

Wykres słupkowy:

Cecha ilościowa.

Dane: Diabetes

Szereg rozdzielczy dla zmiennej “mass”

\[mass=BMI=\frac{masa}{wzrost^2}\]

Uwaga: 18.5 - 24.99 wartość prawidłowa

Ustalony podział na klasy:

Automatyczny podział na klasy:

Histogram:

Przy użyciu funkcji z biblioteki ggplot2

Statystyki opisowe:

Prosta funkcja obliczająca cv: