10 Model wielowymiarowy - redukcja wymiaru
Model wielowymiarowy
Niech \(X_1,\ldots ,X_p\) będą badanymi cechami populacji.
\[\pmb{X}_i=\pmb{\mu}+\pmb{\varepsilon}_i,\ i=1,2,\ldots ,n,\] gdzie
\(\pmb{X}_i=(X_{i1},X_{i2},\ldots ,X_{ip})'\) - wektor badanych cech populacji,
\(\pmb{\mu}\) - wektor wartości oczekiwanych,
\[\pmb{\mu}=\left[ \begin{array}{c} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_p) \\ \end{array} \right]= \left[ \begin{array}{c} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \\ \end{array} \right].\]
\(\pmb{\varepsilon}_i\) - reszty (błędy), niezależne wektory losowe o jednakowym rozkładzie z zerowym wektorem wartości oczekiwanych i dodatnio określoną macierzą kowariancji \(\pmb{\Sigma}\),
\[\pmb{\Sigma}=\left[ \begin{array}{cccc} Var(X_1) & Cov(X_1,X_2) & \ldots & Cov(X_1,X_p) \\ Cov(X_1,X_2) & Var(X_2) & \ldots & Cov(X_2,X_p) \\ \vdots & \vdots & & \vdots \\ Cov(X_1,X_p) & Cov(X_2,X_p) & \ldots & Var(X_p) \\ \end{array} \right].\]
Uwaga: Często przyjmujemy dodatkowo, że wektory \(\pmb{X}_i\) mają \(p\)-wymiarowe rozkłady normalne o gęstości: \[f(\pmb{x})=(2\pi )^{-{p\over 2}}|\pmb{\Sigma }|^{-{1\over 2}} \exp[-{1\over 2}(\pmb{x}-\pmb{\mu})'\pmb{\Sigma }^{-1} (\pmb{x}-\pmb{\mu})],\ \pmb{x}\in \mathbb{R}^p.\]
FAKT
Estymatorami nieobciążonymi parametrów \(\pmb{\mu}\) oraz \(\pmb{\Sigma}\) są statystyki: \[\hat{\pmb{\mu}}=\bar{\pmb{X}}=\frac{1}{n}\sum_{i=1}^n\pmb{X}_i,\] oraz \[\hat{\pmb{\Sigma}}=\pmb{S}=\frac{1}{n-1}\sum_{i=1}^n(\pmb{X}_i-\bar{\pmb{X}})(\pmb{X}_i-\bar{\pmb{X}})'.\]
Analiza składowych głównych jest techniką redukcji wymiaru. Jej celem jest znalezienie niewielkiej liczby składowych głównych, które wyjaśniają w maksymalnym stopniu całkowitą wariancję z próby \(p\) zmiennych pierwotnych \(X_1,\ldots ,X_p\), tj. wielkość \(\sum_{j=1}^p\text{Var}(X_j)=\mathrm{tr}(\pmb \Sigma)\), gdzie \(\pmb \Sigma\) jest macierzą kowariancji wektora \(\pmb X=(X_1,\ldots ,X_p)'\).
Składowe główne są unormowanymi kombinacjami liniowymi zmiennych pierwotnych:
\[\begin{array}{c} Z_1=\pmb a_1'\pmb X, \\ Z_2=\pmb a_2'\pmb X, \\ \vdots \\ Z_p=\pmb a_p'\pmb X. \\ \end{array}\]
Przekształcone zmienne (składowe główne) są ortogonalne i nieskorelowane.
Uwaga: Ponieważ macierz \(\pmb \Sigma\) nie jest znana, posługujemy się jej oszacowaniem z próby, tj. macierzą \(\pmb S\).
Algorytm składowych głównych
- Wyznaczamy współczynniki \(\pmb a_1=(a_{11},\ldots ,a_{1p})'\) pierwszej składowej głównej, tak aby
- zmaksymalizować wariancję zmiennej \(Z_1\): \(\pmb a_1'\pmb S\pmb a_1\),
- \(\pmb a_1'\pmb a_1=1\).
- Wyznaczamy współczynniki \(\pmb a_2=(a_{21},\ldots ,a_{2p})'\) drugiej składowej głównej, tak aby
- zmaksymalizować wariancję zmiennej \(Z_2\): \(\pmb a_2'\pmb S\pmb a_2\),
- \(\pmb a_2'\pmb a_2=1\),
- składowa \(Z_2\) była nieskorelowana z \(Z_1\): \(\pmb a_2'\pmb a_1=0\).
- Powtarzamy krok 2 (dla następnych składowych głównych), aż do otrzymania współczynników wszystkich \(p\) składowych głównych.
Uwaga: Wektor \(\pmb a_i\) jest wektorem charakterystycznym, odpowiadającym \(i\)-tej co do wielkości, wartości własnej \(\lambda_i\) macierzy \(\pmb S\).
Własności składowych głównych
Mamy \[\sum_{j=1}^p\text{Var}(X_j)=\sum_{j=1}^p\text{Var}(Z_j)=\sum_{j=1}^p\lambda_j=\mathrm{tr}(\pmb S).\]
W analizie składowych głównych oczekujemy, że dla pewnego małego \(k\), suma \(\lambda_1+\lambda_2+\cdots +\lambda_k\) będzie bliska \(\mathrm{tr}(\pmb S)=\lambda_1+\lambda_2+\cdots +\lambda_p\). Jeśli tak jest, to \(k\) pierwszych składowych głównych wyjaśnia dobrze zmienność wektora \(\pmb X=(X_1,X_2,\ldots ,X_p)'\) i pozostałe \(p-k\) składowe główne wnoszą niewiele, ponieważ mają one małe wariancje z próby.
Wskaźnik \[\frac{\lambda_1+\cdots +\lambda_k}{\lambda_1+\cdots +\lambda_p}\ 100\%\]
jest procentową miarą wyjaśniania zmienności wektora \(\pmb X\) przez pierwszych \(k\) składowych głównych.
Dobór liczby składowych głównych
- Jeśli dla pewnego \(k\) wskaźnik \[\frac{\lambda_1+\cdots +\lambda_k}{\lambda_1+\cdots +\lambda_p}\ 100\%\geq \beta,\] np. \(\beta =80\%\), to pozostałe \(p-k\) składowe główne pomijamy.
- Pomijamy te składowe główne, których wartości własne są mniejsze od średniej \[\bar \lambda =\frac{1}{p}\sum_{j=1}^p\lambda_j.\]
Uwaga: W ustaleniu liczby użytecznych składowych głównych, pomocny jest wykres osypiska.
Interpretacja składowych głównych
Wartość modułu współczynnika \(a_{ji}\), w \(j\)-tej składowej głównej, pokazuje wkład w jej budowę \(i\)-tej zmiennej pierwotnej (z uwzględnieniem udziału pozostałych zmiennych pierwotnych).
Funkcje związane z analizą składowych głównych:
colMeans - wektor średnich,
cov - macierz kowariancji,
princomp - analiza składowych głównych, procedura główna.
10.1 Wywołania w R
Estymacja parametrów
Składowe główne