Beginner’ s Guide to Maximum likely Estimation

byErica · Publishedwrzesień 21, 2020 · Updatedwrzesień 23, 2020

wprowadzenie

maksymalne prawdopodobieństwo jest szeroko stosowaną techniką do szacowania w wielu obszarach, w tym modelowania szeregów czasowych, danych panelowych, danych dyskretnych, a nawet uczenia maszynowego.

w dzisiejszym blogu omówimy podstawy szacowania maksymalnego prawdopodobieństwa.

w szczególności omawiamy:

  1. podstawowa teoria maksymalnego prawdopodobieństwa.
  2. zalety i wady szacowania maksymalnego prawdopodobieństwa.
  3. funkcja log-prawdopodobieństwo.
  4. aplikacje do modelowania.

ponadto rozważamy proste zastosowanie oszacowania maksymalnego prawdopodobieństwa do modelu regresji liniowej.

Co To jest szacowanie maksymalnego prawdopodobieństwa?

szacowanie maksymalnego prawdopodobieństwa to statystyczna metoda szacowania parametrów modelu. W estymacji maksymalnego prawdopodobieństwa parametry są dobierane w celu maksymalizacji prawdopodobieństwa, że zakładany model daje wyniki w obserwowanych danych.

oznacza to, że w celu realizacji oszacowania maksymalnego prawdopodobieństwa musimy:

  1. Przyjmij model, znany również jako proces generowania danych, dla naszych danych.
  2. być w stanie wyprowadzić funkcję prawdopodobieństwa dla naszych danych, biorąc pod uwagę nasz przyjęty model(omówimy to później).

gdy funkcja prawdopodobieństwa zostanie wyprowadzona, maksymalne oszacowanie prawdopodobieństwa jest niczym więcej niż prostym problemem optymalizacyjnym.

jakie są zalety i wady szacowania maksymalnego prawdopodobieństwa?

w tym momencie możesz się zastanawiać, dlaczego powinieneś wybrać estymację maksymalnego prawdopodobieństwa zamiast innych metod, takich jak regresja najmniejszych kwadratów lub uogólniona metoda momentów. Rzeczywistość jest taka, że nie zawsze powinniśmy wybierać oszacowanie maksymalnego prawdopodobieństwa. Jak każda technika estymacji, estymacja maksymalnego prawdopodobieństwa ma zalety i wady.

zalety szacowania maksymalnego prawdopodobieństwa

istnieje wiele zalet szacowania maksymalnego prawdopodobieństwa:

  • jeśli model jest prawidłowo przyjęty, Estymator maksymalnego prawdopodobieństwa jest najskuteczniejszym estymatorem.
  • zapewnia spójne, ale elastyczne podejście, które sprawia, że nadaje się do szerokiej gamy zastosowań, w tym przypadków, w których naruszane są założenia innych modeli.
  • powoduje to bezstronne szacunki w większych próbkach.
efektywność jest jedną z miar jakości estymatora. Efektywny Estymator to taki, który ma małą wariancję lub średni błąd kwadratowy.

wady estymacji maksymalnego prawdopodobieństwa

  • opiera się na założeniu modelu i wyprowadzeniu funkcji prawdopodobieństwa, co nie zawsze jest łatwe.
  • podobnie jak inne problemy z optymalizacją, oszacowanie maksymalnego prawdopodobieństwa może być wrażliwe na wybór wartości początkowych.
  • w zależności od złożoności funkcji prawdopodobieństwa, estymacja numeryczna może być kosztowna obliczeniowo.
  • szacunki mogą być stronnicze w małych próbkach.

jaka jest funkcja prawdopodobieństwa?

szacowanie maksymalnego prawdopodobieństwa zależy od wyprowadzenia funkcji prawdopodobieństwa. Z tego powodu ważne jest, aby dobrze zrozumieć, czym jest funkcja prawdopodobieństwa i skąd pochodzi.

zacznijmy od bardzo prostego przypadku, w którym mamy jedną serię $y$ z 10 niezależnymi obserwacjami: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

gęstość prawdopodobieństwa

pierwszym krokiem w oszacowaniu maksymalnego prawdopodobieństwa jest założenie rozkładu prawdopodobieństwa dla danych. Funkcja gęstości prawdopodobieństwa mierzy prawdopodobieństwo obserwacji danych danego zestawu podstawowych parametrów modelu.

w tym przypadku Zakładamy, że nasze dane mają rozkład Poissona, który jest powszechnym założeniem, szczególnie w przypadku danych, które nie są danymi liczbowymi.

funkcja gęstości prawdopodobieństwa Poissona dla indywidualnej obserwacji, $y_i$, jest dana przez

$$f (y_i / \theta) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

ponieważ obserwacje w naszej próbce są niezależne, gęstość prawdopodobieństwa naszej obserwowanej próbki można znaleźć, biorąc iloczyn prawdopodobieństwa poszczególnych obserwacji:

$$f (y_1, y_2, \ldots, y_{10} / \theta)=\prod_{i = 1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!= \ frac{e^{-10 \ theta} \ theta^{\sum_{i = 1}^{10} y_i}} {\prod_{i = 1}^{10} y_i!} $$

możemy użyć gęstości prawdopodobieństwa, aby odpowiedzieć na pytanie, jak prawdopodobne jest, że nasze dane występują w określonych parametrach.

funkcja prawdopodobieństwa

różnice między funkcją prawdopodobieństwa a funkcją gęstości prawdopodobieństwa są niuansowe, ale ważne.

  • funkcja gęstości prawdopodobieństwa wyraża prawdopodobieństwo obserwacji naszych danych, biorąc pod uwagę podstawowe parametry rozkładu. Zakłada, że parametry są znane.
  • funkcja prawdopodobieństwa wyraża prawdopodobieństwo wystąpienia wartości parametrów na podstawie obserwowanych danych. Zakłada, że parametry są nieznane.

matematycznie funkcja prawdopodobieństwa wygląda podobnie do gęstości prawdopodobieństwa:

$$l(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

dla naszego przykładu Poissona możemy dość łatwo wyprowadzić funkcję prawdopodobieństwa

$$l(\theta|Y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\THETA}\Theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \ frac{e^{-10\theta}\theta^{20}}{207,360}$$

maksymalne oszacowanie prawdopodobieństwa nieznanego parametru, $\theta$, jest wartością, która maksymalizuje to prawdopodobieństwo.

funkcja prawdopodobieństwa logowania

w praktyce funkcja rozkładu łącznego może być trudna do pracy, a zamiast niej używana jest funkcja $\ln$ prawdopodobieństwa. W przypadku naszego zbioru danych Poissona funkcja log-prawdopodobieństwo jest:

$$\ln (L (\theta|y)) = -n\Theta + \LN \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10\theta + 20 \ln (\theta) – \ln(207,360)$$

prawdopodobieństwo logowania jest zwykle łatwiejsze do optymalizacji niż funkcja prawdopodobieństwa.

Estymator maksymalnego prawdopodobieństwa

Wykres prawdopodobieństwa i log-prawdopodobieństwa dla naszego zbioru danych pokazuje, że maksymalne prawdopodobieństwo występuje, gdy $ \ theta = 2$. Oznacza to, że nasz maksymalny Estymator prawdopodobieństwa, $\hat {\theta} _ {MLE} = 2$.

warunkowe maksymalne prawdopodobieństwo

w prostym przykładzie powyżej używamy estymacji maksymalnego prawdopodobieństwa do oszacowania parametrów gęstości naszych danych. Możemy rozszerzyć ten pomysł, aby oszacować zależność między naszymi obserwowanymi danymi, $y$ i innymi zmiennymi objaśniającymi, $x$. W tym przypadku pracujemy z funkcją warunkowego maksymalnego prawdopodobieństwa:

$$l(\theta | y, x)$$

przyjrzymy się temu dokładniej w następnym przykładzie.

przykładowe zastosowania estymacji maksymalnego prawdopodobieństwa

wszechstronność estymacji maksymalnego prawdopodobieństwa sprawia, że jest ona przydatna w wielu zastosowaniach empirycznych. Może być stosowany do wszystkiego, od najprostszych modeli regresji liniowej do zaawansowanych modeli wyboru.

w tym dziale przyjrzymy się dwóm aplikacjom:

  • model regresji liniowej
  • model probitowy

maksymalne oszacowanie prawdopodobieństwa i model liniowy

w regresji liniowej Zakładamy, że pozostałości modelu są identyczne i niezależnie normalnie rozłożone:

$$\epsilon = y – \hat {\beta} x \sim N (0, \ sigma^2)$$

opierając się na tym założeniu, funkcja prawdopodobieństwa logarytmicznego dla nieznanego wektora parametrów, $ \ theta = \{\beta, \ sigma^2\}$, zależna od obserwowanych danych, $y$ i $x$ jest dana przez:

$$\ln L (\theta / y, x) = – \ frac{1}{2} \ sum_{i = 1}^N \Big $$

maksymalne szacunki prawdopodobieństwa $\beta$ i $\sigma^2$ to te, które maksymalizują prawdopodobieństwo.

Szacowanie maksymalnego prawdopodobieństwa i Model Probitowy

model probitowy jest podstawowym dyskretnym modelem wyboru.

model probitowy zakłada, że istnieje ukryta zmienna napędzająca dyskretny wynik. Zmienne utajone podążają za rozkładem normalnym takim, że:

$$y^ * = x\theta + \ epsilon$$ $ $ \epsilon \ sim N(0,1)$$

gdzie

$$ y_i = \begin{cases} 0 \text{ if } y_i^* \le 0\\ 1 \text{ if } y_i^* \gt 0\\ \end{cases} $$

gęstość prawdopodobieństwa

$$p(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\Theta + \Epsilon\GT 0|x_i) = $$$$P(\Epsilon \gt-x\Theta|x_i) = 1 – \PHI(-x\Theta) = \Phi(x\theta)$$

gdzie $\Phi$ reprezentuje normalną funkcję rozkładu kumulacyjnego.

log-Prawdopodobieństwo dla tego modelu to

$$\ln L (\theta) = \ sum_{i = 1}^N \ Big $$

wnioski

Gratulacje! Po dzisiejszym blogu powinieneś lepiej zrozumieć podstawy szacowania maksymalnego prawdopodobieństwa. W szczególności omówiliśmy:

  • podstawowa teoria szacowania maksymalnego prawdopodobieństwa.
  • zalety i wady szacowania maksymalnego prawdopodobieństwa.
  • funkcja log-prawdopodobieństwo.
  • funkcja warunkowego maksymalnego prawdopodobieństwa.
Erica (Dyrektor ds. aplikacji i szkoleń w Aptech Systems, Inc. )

Erica pracuje nad budowaniem, dystrybucją i wzmacnianiem wszechświata Gaussa od 2012 roku. Jest ekonomistką specjalizującą się w analizie danych i tworzeniu oprogramowania. Uzyskała tytuł licencjata i magistra ekonomii i inżynierii oraz ma ponad 15-letnie doświadczenie w branży przemysłowej i akademickim w analizie i badaniach danych.

czy ten post był pomocny?

daj nam znać, jeśli podobał Ci się post. Tylko w ten sposób możemy się poprawić.
Tak
Nie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

More: