8 ANOVA

Jednoczynnikowa ANOVA

Na test jednoczynnikowej analizy wariancji możemy patrzeć jak na uogólnienie testu \(t\) Studenta dla dwóch prób niezależnych, na przypadek \(k\), \((k>2)\) prób niezależnych.

Model

\[X_{ij}=\mu _{i}+\varepsilon _{ij},\ i=1,\ldots ,k,\ j=1,\ldots ,n_i,\]

gdzie

\(\mu _{i}\) - “prawdziwa” wartość badanej cechy i \(i\)-tej grupie,

\(\varepsilon _{ij}\) - błędy (niezależne zmienne losowe o jednakowym rozkładzie \(N(0,\sigma^2 )\)).

Hipoteza zerowa: wartości oczekiwane (średnie) badanej cechy w \(k\) grupach nie różnią się istotnie: \[H_0:\ \mu _1=\mu _2=\cdots =\mu _k.\]

Hipoteza alternatywna: co najmniej dla jednej pary grup, wartości oczekiwane (średnie) badanej cechy różnią się istotnie: \[H_1:\ \neg H_0.\]

Statystyka testowa: \[F={SSA\over k-1}/{SSE\over n-k},\] gdzie \[SSA=\sum _{i=1}^kn_i(\bar X_{i.}-\bar X_{..})^2,\quad SSE=\sum _{i=1}^k\sum _{j=1}^{n_i}(X_{ij}-\bar X_{i.})^2,\] \[\bar X_{i.}={1\over n_i}\sum_{j=1}^{n_i}X_{ij},\ \bar X_{..}={1\over n}\sum _{i=1}^k\sum _{j=1}^{n_i}X_{ij},\ n=\sum_{i=1}^kn_i.\]

Rozkład statystyki testowej: \[F|_{H_0}\sim F(k-1,n-k)\]

Tabela analizy wariancji

Tradycyjnie wyniki analizy wariancji przedstawiamy w postaci tabeli.

\[MSA=SSA/(k-1),\ MSE=SSE/(n-k),\ MST=SST/(n-1).\]

Założenia jednoczynnikowej analizy wariancji

  1. Niezależność obserwacji dla poszczególnych jednostek eksperymentalnych.
  2. Błędy mają rozkłady normalne z zerową wartością oczekiwaną (brak błędu systematycznego) i jednorodną wariancją.

Uwaga: Założenie jednorodności wariancji błędów możemy zweryfikować testem Bartletta.

Test Bartletta

Założenia: Model normalny, wiele prób niezależnych.

Hipoteza zerowa: \[H_0:\ \sigma _1^2=\sigma _2^2=\cdots =\sigma _k^2\]

Hipoteza alternatywna: \[H_1:\ \neg H_0\]

Statystyka testowa: \[B={1\over C}(n-k)\ln MSE-\sum _{i=1}^k(n_i-1)\ln S_i^2,\] gdzie \[C=1+{1\over 3(k-1)}\Bigl [\sum_{i-1}^k{1\over n_i-1}-{1\over n-k }\Bigr ].\]

Rozkład statystyki testowej: \[B|_{H_0}\sim \chi ^2(k-1),\ \rm (graniczny)\]

Porównania wielokrotne (post hoc)

Procedury porównań wielokrotnych stosujemy wtedy, gdy zostanie odrzucona hipoteza zerowa w analizie wariancji!!!

Procedura NIR – Fishera.

Polega na testowaniu, dla każdej pary \((i,j)\), \(i,j=1,2,\ldots ,k\), \(i\neq j\), oddzielnie hipotezy zerowej: \[H_0:\ \mu_{i}=\mu_{j},\] przeciwko hipotezie alternatywnej \[H_1:\ \mu_{i}\neq\mu_{j}.\]

Wartość statystyki testowej obliczamy ze wzoru: \[t=\frac{\bar x_{i.}-\bar x_{j.}}{\sqrt{MSE}}\sqrt{\frac{n_{i}n_{j}}{n_{i}+n_{j}}}.\]

Przy braku istotnych różnic statystyka ta ma rozkład \(t\) Studenta z \(n-k\) stopniami swobody.

Procedura HSD – Tukey’a.

Niech \(n_1=n_2=\cdots =n_k=m.\)

Polega na testowaniu, jednocześnie dla wszystkich par \((i,j)\), \(i,j=1,2,\ldots ,k\), \(i\neq j\), hipotez zerowych: \[H_0:\ \mu_{i}=\mu_{j},\] przeciwko hipotezom alternatywnym \[H_1:\ \mu_{i}\neq\mu_{j}.\]

Wartość statystyki testowej obliczamy ze wzoru: \[q=\frac{\bar x_{i.}-\bar x_{j.}}{\sqrt{MSE}}\sqrt{m}.\]

Przy braku istotnych różnic statystyka ta ma rozkład \(q\) (rozkład studentyzowanego rozstępu) z \(k\) i \(k(m-1)\) stopniami swobody.

Jednoczynnikowa ANOVA - układ doświadczalny

Na test jednoczynnikowej analizy wariancji możemy patrzeć jak na badanie istotności wpływu czynnika \(A\) na mającą charakter ilościowy i ciągły cechę \(X\). Czynnik występuje na \(k\) poziomach które oznaczamy \(A_1,A_2,\ldots ,A_k\). Poziomy czynnika \(A\) nazywamy obiektami doświadczalnymi.

Obiekty doświadczalne są kontrolowane przez eksperymentatora, przy czym każdy z nich jest związany z pewną liczbą jednostek doświadczalnych. Liczba jednostek doświadczalnych związana z określonym obiektem nazywana jest liczbą replikacji tego obiektu.

Kojarząc różne obiekty z jednostkami doświadczalnymi, eksperymentator kreuje różne populacje, które pragnie porównać na podstawie obserwacji badanej w doświadczeniu cechy \(X\).

Układ całkowicie losowy

\[X_{ij}=\mu +\alpha _i+\varepsilon _{ij},\quad i=1,\ldots ,k,\ j=1,\ldots ,n_i,\] gdzie

\(\mu\) - średnia ogólna,

\(\alpha _i\) - efekt \(i\)–tego obiektu, \(\sum _{i=1}^{k}\alpha _i=0\),

\(\varepsilon _{ij}\) - błędy (niezależne zmienne losowe o jednakowym rozkładzie \(N(0,\sigma^2 )\)).

Hipoteza zerowa: czynnik \(A\) nie ma istotnego wpływu na cechę \(X\): \[H_0:\ \alpha _1=\alpha _2=\cdots =\alpha _k.\]

Hipoteza alternatywna: czynnik \(A\) ma istotny wpływ na cechę \(X\): \[H_1:\ \neg H_0.\]

Tabela analizy wariancji

Tradycyjnie wyniki analizy wariancji przedstawiamy w postaci tabeli.

\[MSA=SSA/(k-1),\quad MSE=SSE/(n-k),\quad MST=SST/(n-1).\]

Układ losowych bloków kompletnych

W celu wyeliminowania niejednorodności jednostek eksperymentalnych możemy pogrupować je w bloki. Grupowanie to podporządkowane jest zasadzie, zgodnie z którą naturalna zmienność jednostek wewnątrz każdego bloku powinna być możliwie najmniejsza, podczas gdy zmienność jednostek pochodzących z różnych bloków może być duża. W ten sposób stwarzamy porównywanym obiektom bardziej wyrównane warunki i równocześnie ograniczamy w doświadczeniu wpływ naturalnej zmienności jednostek eksperymentalnych na wielkość wariancji błędu.

\[X_{ij}=\mu +\alpha _i+\beta _j+\varepsilon _{ij},\ i=1,\ldots ,k,\ j=1,\ldots ,b,\] gdzie

\(\mu\) - średnia ogólna,

\(\alpha _i\) - efekt \(i\)-tego obiektu, \(\sum _{i=1}^{k}\alpha _i=0\),

\(\beta _j\) - efekt \(j\)-tego bloku, \(\sum _{j=1}^{b}\beta _j=0\),

\(\varepsilon _{ij}\) - błędy (niezależne zmienne losowe o jednakowym rozkładzie \(N(0,\sigma^2 )\)).

Hipoteza zerowa: \[H_0:\ \alpha _1=\alpha _2=\cdots =\alpha _k.\]

Hipoteza alternatywna: \[H_1:\ \neg H_0.\]

Statystyka testowa: \[F={SSA}/{SSE\over b-1}\]

\[SSA=b\sum _{i=1}^k(\bar X_{i.}-\bar X_{..})^2,\ SSE=\sum _{i=1}^k\sum _{j=1}^{b}(X_{ij}-\bar X_{i.}-\bar X_{.j}+\bar X_{..})^2,\] gdzie

\[\bar X_{i.}={1\over k}\sum_{j=1}^{b}X_{ij},\ \bar X_{.j}={1\over b}\sum_{i=1}^{k}X_{ij},\ \bar X_{..}={1\over n}\sum _{i=1}^k\sum _{j=1}^{b}X_{ij},\ n=kb.\]

Rozkład statystyki testowej: \[F|_{H_0}\sim F(k-1,(k-1)(b-1))\]

Tabela analizy wariancji

\[MSA=SSA/(k-1),\ MSB=SSB/(b-1),\ MSE=SSE/(k-1)(b-1),\] \[MST=SST/(kb-1).\]

Funkcje związane z ANOVA:

aov - procedura główna,

LSD.test(agricolae) - procedura NIR Fishera,

HSD.test(agricolae) - procedura HSD Tukeya,

bartlett.test - test Bartletta.