11 Analiza zależności cech

Jeśli badaniu statystycznemu podlega jednocześnie wiele cech, to jednym z podstawowych zagadnień staje się analiza zależności pomiędzy nimi.

Do wykrycia zależności pomocne są odpowiednie wykresy, współczynniki mierzące jej siłę oraz testy badające jej istotność.

Zmienne jakościowe

Niech zmienna \(X\) przyjmuje wartości ze zbioru \(\{x_1,\ldots x_r\}\), a zmienna \(Y\) przyjmuje wartości ze zbioru \(\{y_1,\ldots y_s\}\).

Przyjmijmy następujące oznaczenia: \[p_{ij}=P(X=x_i,Y=y_j)\quad -\quad\text{prawdopodobieństwa łączne},\] \[p_{i\cdot}=P(X=x_i),\ p_{\cdot j}=P(Y=y_j)\quad -\quad\text{prawdopodobieństwa brzegowe}.\]

Zestawiamy liczebności obserwowane w tabeli (dwudzielczej).

Estymatorami prawdopodobieństw są statystyki:

\[\hat p_{ij}=\frac{O_{ij}}{n},\] \[\hat p_{i\cdot}=\frac{O_{i\cdot}}{n},\ \hat p_{\cdot j}=\frac{O_{\cdot j}}{n}.\]

Zmienne \(X\) i \(Y\) są niezależne, gdy dla dowolnego \(i\) oraz \(j\): \[p_{ij}=p_{i\cdot}p_{\cdot j}.\]

Przy założeniu niezależności zmiennych liczebności oczekiwane wyliczamy ze wzoru: \[E_{ij}=n\hat p_{i\cdot}\hat p_{\cdot j}=\frac{O_{i\cdot}O_{\cdot j}}{n}.\]

Test niezależności w tablicy dwudzielczej

Założenie: Duża próba (\(n\geq 50\)).

Hipoteza zerowa: Zmienne \(X\) i \(Y\) nie są istotnie zależne. \[H_0:\ p_{ij}=p_{i\cdot}p_{\cdot j}, i=1,\ldots ,r,\ j=1,\ldots ,s.\]

Hipoteza alternatywna: Zmienne \(X\) i \(Y\) są istotnie zależne. \[H_1:\ \neg H_0\]

Statystyka testowa: \[\chi^2=\sum_{i,j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}.\]

Rozkład statystyki testowej: \[\chi^2|_{H_0}\sim \chi^2((r-1)(s-1))\ \rm (graniczny).\]

Współczynnik niezależności \(V\)-Cramera

\[V=\sqrt{\chi ^2(\pmb{x},\pmb{y})\over n\min (r-1,s-1)},\ 0\leq V\leq 1.\]

Uwaga Oznaczenia jak w teście niezależności w tablicy dwudzielczej.

Zmienne ilościowe

Niech \(X\) i \(Y\) będą badanymi cechami populacji. O rozkładzie populacji zakładamy, że ma dwuwymiarowy rozkład normalny o gęstości: \[f(x,y)=\frac{1}{2\pi\sigma_x\sigma_y\sqrt{1-\rho^2}}\times\] \[\times\exp\left\{-\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_x)^2}{\sigma_x^2}-2\rho\frac{(x-\mu_x)(y-\mu_y)}{\sigma_x\sigma_y}+\frac{(y-\mu_y)^2}{\sigma_y^2}\right]\right\},\] gdzie \[\mu_x=E(X),\ \mu_y=E(Y),\ \sigma_x^2=Var(X),\ \sigma_y^2=Var(Y),\ \rho=Corr(X,Y).\]

FAKT

  1. \(-1\leq \rho\leq 1.\)
  2. Jeżeli zmienne losowe \(X\) i \(Y\) są niezależne, to \(\rho=0\).
  3. Jeżeli zmienne losowe \(X\) i \(Y\) mają dwuwymiarowy rozkład normalny i \(\rho=0\), to zmienne losowe \(X\) i \(Y\) są niezależne.

FAKT

Estymatorem największej wiarogodności współczynnika korelacji liniowej \(\rho\) jest statystyka:

\[\hat\rho=r={\sum _{k=1}^n(X_k-\bar X)(Y_k-\bar Y)\over \sqrt{\sum _{k=1}^n(X_k-\bar X)^2\sum _{k=1}^n(Y_k-\bar Y)^2}}, \ -1\leq r\leq 1.\]

Test istotności dla współczynnika korelacji

Założenie: Dwuwymiarowy model normalny.

Hipoteza zerowa: \[H_0:\ \rho=0\]

Hipotezy alternatywne: \[H_1:\ \rho\not =0\] \[H_1:\ \rho>0\] \[H_1:\ \rho<0\]

Statystyka testowa: \[t={r\over \sqrt{1-r^2}}\sqrt{n-2}.\]

Rozkład statystyki testowej: \[t|_{H_0}\sim t(n-2).\]

Funkcje związane z analizą zależności i korelacji cech:

chisq.test - test niezależności chi-kwadrat Pearsona,

assocstats(vcd) - współczynnik V-Cramera,

cor - współczynnik korelacji liniowej \(r\)-Pearsona,

cor.test - test istotności współczynnika korelacji liniowej.