4 Estymacja punktowa
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\in\Theta\) jest parametrem.
DEFINICJA
Estymatorem parametru \(\theta\) nazywamy statystykę \(T(\pmb{X})\), o wartościach w zbiorze \(\Theta\), której wartość, dla konkretnej realizacji \(\pmb{x}\) próby \(\pmb{X}\), przyjmujemy za ocenę nieznanej wartości parametru \(\theta\) (ozn. \(\hat \theta(\pmb{X})\) lub $$).
Popularne Metody wyznaczania estymatorów (punktowych):
- metoda momentów,
- metoda największej wiarogodności,
- metoda najmniejszych kwadratów.
Metoda momentów
Niech \(\pmb X=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta \in \Theta \subset \mathbf{R}^d\).
Ponadto, niech rozkłady \(P_{\theta}\) posiadają skończone momenty do rzędu \(d\) włącznie.
Metoda momentów polega na przyrównaniu kolejnych \(d\) momentów z próby \(m_i=\frac{1}{n}\sum_{k=1}^nX_k^i\), \(i=1,\ldots ,d\) do odpowiednich momentów rozkładu populacji \(\text{E}(X^i)\), \(i=1,\ldots ,d\). Rozwiązują otrzymany w ten sposób układ równań uzyskujemy estymatory metody momentów (EMM).
Uwaga: W metodzie momentów możemy zamiast momentów zwykłych, wykorzystać momenty centralne.
Metoda największej wiarogodności
Niech \(\pmb X=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta \in \Theta \subset \mathbf{R}^d\).
Ponadto, niech rozkłady \(P_{\theta}\) opisane będą za pomocą funkcji prawdopodobieństwa (gęstości) \(p_{\theta}\).
DEFINICJA
Funkcję \(L\) określoną wzorem \[L(\theta;\pmb x)=p_{\theta}(\pmb x)\] nazywamy funkcją wiarogodności.
Uwaga! Funkcją wiarogodności nazywamy czasem funkcję \(\ln p_{\theta}(\pmb x)\).
DEFINICJA
Estymatorem największej wiarogodności (ENW) parametru \(\theta\) nazywamy statystykę \(\hat\theta(\pmb X)\), której wartości \(\hat\theta(\pmb x)\) spełniają warunek: \[\forall \pmb x\in \pmb{\mathcal{X}}:\ L(\hat\theta(\pmb x);\pmb x)=\sup_{\theta\in\Theta}L(\theta;\pmb x).\]
Uwagi!
- Dla danego parametru \(\theta\), ENW może nie istnieć lub może być wyznaczony niejednoznacznie.
- Zazwyczaj, podczas wyznaczanie ENW, wygodniej jest operować funkcją \(\ln L\) niż funkcją \(L\).
Przykład 1. Estymacja parametru \(\lambda\) w modelu wykładniczym
Estymatorem metody momentów (EMM) oraz estymatorem największej wiarogodności (ENW) parametru \(\lambda\), w modelu jednej próby prostej z rozkładu wykładniczego, jest statystyka \[\hat\lambda=\frac{1}{\bar X}.\]
Przykład 2. Estymacja parametrów \(\mu\) i \(\sigma^2\) w modelu normalnym}
Estymatorami metody momentów (EMM) oraz estymatorami największej wiarogodności (ENW) parametrów \(\mu\) i \(\sigma^2\), w modelu jednej próby prostej z rozkładu normalnego, są statystyki \[\hat\mu=\bar X\] oraz \[\hat\sigma^2=\frac{1}{n}\sum_{k=1}^n(X_k-\bar X)^2.\]
Estymatory nieobciążone
Niech \(\theta\in\Theta\) oznacza parametr modelu statystycznego.
DEFINICJA
Statystykę \(\hat\theta\) nazywamy estymatorem nieobciążonym parametru \(\theta\), gdy dla każdego \(\theta\in\Theta\): \[\text{E}(\hat\theta)=\theta.\] Uwaga! Klasa estymatorów nieobciążonych danego parametru może być pusta. Zazwyczaj jednak, dla danego parametru istnieje wiele różnych estymatorów nieobciążonych. Najlepszym z nich jest ten, który ma minimalną wariancję - estymator nieobciążony o minimalnej wariancji (ENMW).
TWIERDZENIE
Jeżeli dla parametru \(\theta\) istnieje estymator nieobciążony o minimalnej wariancji, to jest on wyznaczony jednoznacznie (z dokładnością do zbioru miary zero).
Przykład 3.
W modelu jednej próby prostej z rozkładu wykładniczego, EMM i ENW parametru \(\lambda\) postaci \[\hat\lambda=\frac{1}{\bar X}\] jest obciążonym estymatorem tego parametru.
Estymator nieobciążony (o minimalnej wariancji) parametru \(\lambda\) ma postać: \[\hat\lambda=\frac{n-1}{n\bar X}\]
Przykład 4.
W modelu jednej próby prostej z rozkładu normalnego, EMM i ENW parametru \(\mu\) postaci \[\hat\mu=\bar X\] jest nieobciążonym (o minimalnej wariancji) estymatorem tego parametru.
Ponadto, statystyka \[\hat{\sigma^2} = S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\] jest nieobciążonym (o minimalnej wariancji) estymatorem parametru \(\sigma^2\).
Rozkłady estymatorów
DEFINICJA
Niech \(X_1,X_2,\ldots ,X_n\) będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie \(N(0,1)\).
Mówimy, że zmienna losowa \[X_1^2+X_2^2+\cdots +X_n^2\] ma rozkład chi-kwadrat z \(n\) stopniami swobody (ozn. \(\chi^2(n)\)).
FAKT
\[f(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{(n/2)-1}e^{-(x/2)},\quad x>0.\]
Model wykładniczy
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie wykładniczym \(Ex(\lambda)\), gdzie \(\lambda >0\) jest parametrem. Estymator nieobciążony (o minimalnej wariancji) parametru \(\lambda\) ma postać: \[\hat\lambda=\frac{n-1}{n\bar X}\]
Jaki rozkład ma estymator \(\hat\lambda\)?
FAKT
W modelu jednej próby prostej z rozkładu wykładniczego, funkcja \[2n\lambda\bar X\sim\chi^2(2n).\]
Model normalny
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\), \(n>1\) będzie próbą z populacji o rozkładzie normalnym \(N(\mu,\sigma^2)\), gdzie \(\mu\) i \(\sigma^2\) są parametrami. Estymatory nieobciążone (o minimalnej wariancji) parametrów \(\mu\) i \(\sigma^2\) mają postać: \[\hat\mu=\bar X,\quad \hat{\sigma}^2=S^2.\]
Jakie rozkłady mają estymatory \(\hat\mu\) i \(\hat{\sigma}^2\)?
TWIERDZENIE (Fishera)
W modelu jednej próby prostej z rozkładu normalnego \[\bar X\sim N(\mu,\frac{\sigma^2}{n})\quad\text{i}\quad\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1).\] Ponadto estymatory \[\bar X\quad \text{i}\quad S^2\] są niezależnymi zmiennymi losowymi.
Metoda Monte Carlo
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\) jest parametrem.
Ponadto niech \[\hat{\theta}=T(\pmb{X})\] będzie estymatorem parametru \(\theta\).
Załóżmy, że dysponujemy \(k\) niezależnymi realizacjami próby \(\pmb{X}\): \(\pmb{x}_1,\pmb{x}_2,\ldots ,\pmb{x}_k\) oraz że \(\hat{\theta}_i=T(\pmb{x}_i)\), \(i=1,2,\ldots ,k.\)
FAKT
Histogram wartości \(\hat{\theta}_1=T(\pmb{x}_1),\hat{\theta}_2=T(\pmb{x}_2),\ldots ,\hat{\theta}_k=T(\pmb{x}_k)\) jest dla dużych \(k\), dobrym przybliżeniem rozkładu \(\hat{\theta}\).
Metoda bootstrapowa
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\) jest parametrem.
Ponadto niech \[\hat{\theta}=T(\pmb{X})\] będzie estymatorem parametru \(\theta\) oraz \(F\) oznacza dystrybuantę rozkładu \(P_{\theta}\).
Dystrybuantą empiryczną nazywamy statystykę: \[\hat{F}(x)=\frac{\# \{k\colon X_k\leq x\}}{n}.\]
TWIERDZENIE (Gliwenki-Cantelliego)
Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą prostą z populacji o rozkładzie opisanym dystrybuantą \(F\).
Wtedy \[\sup_{-\infty <x<\infty}|\hat{F}(x)-F(x)|\xrightarrow{1} 0.\]
Próbą bootstrapową nazywamy próbę losową z rozkładu \(\hat{F}\), ozn: \(\pmb{X}^{\star}=(X_1^{\star},X_2^{\star},\ldots ,X_n^{\star})'\).
Uwaga: W celu otrzymania realizacji próby bootstrapowej dokonujemy \(n\)-krotnego losowania ze zwracaniem spośród wartości oryginalnej próby.
FAKT (Zasada bootstrap)
Rozkład statystyki \(T(\pmb{X}^{\star})-\hat{\theta}\), przy ustalonych wartościach \(x_1,x_2,\ldots ,x_n\) jest bliski rozkładowi \(T(\pmb{X})-\theta\).
Załóżmy, że dysponujemy \(k\) realizacjami próby bootstrapowej \(\pmb{X}^{\star}\): \(\pmb{x}_1^{\star},\pmb{x}_2^{\star},\ldots ,\pmb{x}_k^{\star}\) oraz że \(\hat{\theta}_i^{\star}=T(\pmb{x}_i^{\star})\), \(i=1,2,\ldots ,k.\)
FAKT
Histogram wartości \(\hat{\theta}_1^{\star}-\hat{\theta},\hat{\theta}_2^{\star}-\hat{\theta},\ldots ,\hat{\theta}_k^{\star}-\hat{\theta}\) jest dla dużych \(k\), dobrym przybliżeniem rozkładu \(\hat{\theta}-\theta\).
4.1 Wywołania w R
Estymatory punktowe
load("Hamulce.RData")
attach(Hamulce)
mean(Wynik) # EMM, ENW par. mi
(49/50)*var(Wynik) # EMM, ENW par. sigma^2
Rozkłady estymatorów
Metoda Monte Carlo
dane <- rnorm(100)
mcmean <- vector('numeric',1000)
for(i in 1:1000) mcmean[i] <- mean(rnorm(100))
hist(mcmean,prob=T,main='')
curve(dnorm(x,0,0.1),add=T,col='red')
Metoda bootstrapowa