4 Estymacja punktowa

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\in\Theta\) jest parametrem.

DEFINICJA

Estymatorem parametru \(\theta\) nazywamy statystykę \(T(\pmb{X})\), o wartościach w zbiorze \(\Theta\), której wartość, dla konkretnej realizacji \(\pmb{x}\) próby \(\pmb{X}\), przyjmujemy za ocenę nieznanej wartości parametru \(\theta\) (ozn. \(\hat \theta(\pmb{X})\) lub $$).

Popularne Metody wyznaczania estymatorów (punktowych):

  1. metoda momentów,
  2. metoda największej wiarogodności,
  3. metoda najmniejszych kwadratów.

Metoda momentów

Niech \(\pmb X=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta \in \Theta \subset \mathbf{R}^d\).

Ponadto, niech rozkłady \(P_{\theta}\) posiadają skończone momenty do rzędu \(d\) włącznie.

Metoda momentów polega na przyrównaniu kolejnych \(d\) momentów z próby \(m_i=\frac{1}{n}\sum_{k=1}^nX_k^i\), \(i=1,\ldots ,d\) do odpowiednich momentów rozkładu populacji \(\text{E}(X^i)\), \(i=1,\ldots ,d\). Rozwiązują otrzymany w ten sposób układ równań uzyskujemy estymatory metody momentów (EMM).

Uwaga: W metodzie momentów możemy zamiast momentów zwykłych, wykorzystać momenty centralne.

Metoda największej wiarogodności

Niech \(\pmb X=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta \in \Theta \subset \mathbf{R}^d\).

Ponadto, niech rozkłady \(P_{\theta}\) opisane będą za pomocą funkcji prawdopodobieństwa (gęstości) \(p_{\theta}\).

DEFINICJA

Funkcję \(L\) określoną wzorem \[L(\theta;\pmb x)=p_{\theta}(\pmb x)\] nazywamy funkcją wiarogodności.

Uwaga! Funkcją wiarogodności nazywamy czasem funkcję \(\ln p_{\theta}(\pmb x)\).

DEFINICJA

Estymatorem największej wiarogodności (ENW) parametru \(\theta\) nazywamy statystykę \(\hat\theta(\pmb X)\), której wartości \(\hat\theta(\pmb x)\) spełniają warunek: \[\forall \pmb x\in \pmb{\mathcal{X}}:\ L(\hat\theta(\pmb x);\pmb x)=\sup_{\theta\in\Theta}L(\theta;\pmb x).\]

Uwagi!

  1. Dla danego parametru \(\theta\), ENW może nie istnieć lub może być wyznaczony niejednoznacznie.
  2. Zazwyczaj, podczas wyznaczanie ENW, wygodniej jest operować funkcją \(\ln L\) niż funkcją \(L\).

Przykład 1. Estymacja parametru \(\lambda\) w modelu wykładniczym

Estymatorem metody momentów (EMM) oraz estymatorem największej wiarogodności (ENW) parametru \(\lambda\), w modelu jednej próby prostej z rozkładu wykładniczego, jest statystyka \[\hat\lambda=\frac{1}{\bar X}.\]

Przykład 2. Estymacja parametrów \(\mu\) i \(\sigma^2\) w modelu normalnym}

Estymatorami metody momentów (EMM) oraz estymatorami największej wiarogodności (ENW) parametrów \(\mu\) i \(\sigma^2\), w modelu jednej próby prostej z rozkładu normalnego, są statystyki \[\hat\mu=\bar X\] oraz \[\hat\sigma^2=\frac{1}{n}\sum_{k=1}^n(X_k-\bar X)^2.\]

Estymatory nieobciążone

Niech \(\theta\in\Theta\) oznacza parametr modelu statystycznego.

DEFINICJA

Statystykę \(\hat\theta\) nazywamy estymatorem nieobciążonym parametru \(\theta\), gdy dla każdego \(\theta\in\Theta\): \[\text{E}(\hat\theta)=\theta.\] Uwaga! Klasa estymatorów nieobciążonych danego parametru może być pusta. Zazwyczaj jednak, dla danego parametru istnieje wiele różnych estymatorów nieobciążonych. Najlepszym z nich jest ten, który ma minimalną wariancję - estymator nieobciążony o minimalnej wariancji (ENMW).

TWIERDZENIE

Jeżeli dla parametru \(\theta\) istnieje estymator nieobciążony o minimalnej wariancji, to jest on wyznaczony jednoznacznie (z dokładnością do zbioru miary zero).

Przykład 3.

W modelu jednej próby prostej z rozkładu wykładniczego, EMM i ENW parametru \(\lambda\) postaci \[\hat\lambda=\frac{1}{\bar X}\] jest obciążonym estymatorem tego parametru.

Estymator nieobciążony (o minimalnej wariancji) parametru \(\lambda\) ma postać: \[\hat\lambda=\frac{n-1}{n\bar X}\]

Przykład 4.

W modelu jednej próby prostej z rozkładu normalnego, EMM i ENW parametru \(\mu\) postaci \[\hat\mu=\bar X\] jest nieobciążonym (o minimalnej wariancji) estymatorem tego parametru.

Ponadto, statystyka \[\hat{\sigma^2} = S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2\] jest nieobciążonym (o minimalnej wariancji) estymatorem parametru \(\sigma^2\).

Rozkłady estymatorów

DEFINICJA

Niech \(X_1,X_2,\ldots ,X_n\) będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie \(N(0,1)\).

Mówimy, że zmienna losowa \[X_1^2+X_2^2+\cdots +X_n^2\] ma rozkład chi-kwadrat z \(n\) stopniami swobody (ozn. \(\chi^2(n)\)).

FAKT

\[f(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{(n/2)-1}e^{-(x/2)},\quad x>0.\]

Model wykładniczy

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie wykładniczym \(Ex(\lambda)\), gdzie \(\lambda >0\) jest parametrem. Estymator nieobciążony (o minimalnej wariancji) parametru \(\lambda\) ma postać: \[\hat\lambda=\frac{n-1}{n\bar X}\]

Jaki rozkład ma estymator \(\hat\lambda\)?

FAKT

W modelu jednej próby prostej z rozkładu wykładniczego, funkcja \[2n\lambda\bar X\sim\chi^2(2n).\]

Model normalny

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\), \(n>1\) będzie próbą z populacji o rozkładzie normalnym \(N(\mu,\sigma^2)\), gdzie \(\mu\) i \(\sigma^2\) są parametrami. Estymatory nieobciążone (o minimalnej wariancji) parametrów \(\mu\) i \(\sigma^2\) mają postać: \[\hat\mu=\bar X,\quad \hat{\sigma}^2=S^2.\]

Jakie rozkłady mają estymatory \(\hat\mu\) i \(\hat{\sigma}^2\)?

TWIERDZENIE (Fishera)

W modelu jednej próby prostej z rozkładu normalnego \[\bar X\sim N(\mu,\frac{\sigma^2}{n})\quad\text{i}\quad\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1).\] Ponadto estymatory \[\bar X\quad \text{i}\quad S^2\] są niezależnymi zmiennymi losowymi.

Metoda Monte Carlo

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\) jest parametrem.

Ponadto niech \[\hat{\theta}=T(\pmb{X})\] będzie estymatorem parametru \(\theta\).

Załóżmy, że dysponujemy \(k\) niezależnymi realizacjami próby \(\pmb{X}\): \(\pmb{x}_1,\pmb{x}_2,\ldots ,\pmb{x}_k\) oraz że \(\hat{\theta}_i=T(\pmb{x}_i)\), \(i=1,2,\ldots ,k.\)

FAKT

Histogram wartości \(\hat{\theta}_1=T(\pmb{x}_1),\hat{\theta}_2=T(\pmb{x}_2),\ldots ,\hat{\theta}_k=T(\pmb{x}_k)\) jest dla dużych \(k\), dobrym przybliżeniem rozkładu \(\hat{\theta}\).

Metoda bootstrapowa

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą z populacji o rozkładzie \(P_{\theta}\), gdzie \(\theta\) jest parametrem.

Ponadto niech \[\hat{\theta}=T(\pmb{X})\] będzie estymatorem parametru \(\theta\) oraz \(F\) oznacza dystrybuantę rozkładu \(P_{\theta}\).

Dystrybuantą empiryczną nazywamy statystykę: \[\hat{F}(x)=\frac{\# \{k\colon X_k\leq x\}}{n}.\]

TWIERDZENIE (Gliwenki-Cantelliego)

Niech \(\pmb{X}=(X_1,X_2,\ldots ,X_n)'\) będzie próbą prostą z populacji o rozkładzie opisanym dystrybuantą \(F\).

Wtedy \[\sup_{-\infty <x<\infty}|\hat{F}(x)-F(x)|\xrightarrow{1} 0.\]

Próbą bootstrapową nazywamy próbę losową z rozkładu \(\hat{F}\), ozn: \(\pmb{X}^{\star}=(X_1^{\star},X_2^{\star},\ldots ,X_n^{\star})'\).

Uwaga: W celu otrzymania realizacji próby bootstrapowej dokonujemy \(n\)-krotnego losowania ze zwracaniem spośród wartości oryginalnej próby.

FAKT (Zasada bootstrap)

Rozkład statystyki \(T(\pmb{X}^{\star})-\hat{\theta}\), przy ustalonych wartościach \(x_1,x_2,\ldots ,x_n\) jest bliski rozkładowi \(T(\pmb{X})-\theta\).

Załóżmy, że dysponujemy \(k\) realizacjami próby bootstrapowej \(\pmb{X}^{\star}\): \(\pmb{x}_1^{\star},\pmb{x}_2^{\star},\ldots ,\pmb{x}_k^{\star}\) oraz że \(\hat{\theta}_i^{\star}=T(\pmb{x}_i^{\star})\), \(i=1,2,\ldots ,k.\)

FAKT

Histogram wartości \(\hat{\theta}_1^{\star}-\hat{\theta},\hat{\theta}_2^{\star}-\hat{\theta},\ldots ,\hat{\theta}_k^{\star}-\hat{\theta}\) jest dla dużych \(k\), dobrym przybliżeniem rozkładu \(\hat{\theta}-\theta\).