byErica · Publishedwrzesień 21, 2020 · Updatedwrzesień 23, 2020
- wprowadzenie
- Co To jest szacowanie maksymalnego prawdopodobieństwa?
- jakie są zalety i wady szacowania maksymalnego prawdopodobieństwa?
- zalety szacowania maksymalnego prawdopodobieństwa
- wady estymacji maksymalnego prawdopodobieństwa
- jaka jest funkcja prawdopodobieństwa?
- gęstość prawdopodobieństwa
- funkcja prawdopodobieństwa
- funkcja prawdopodobieństwa logowania
- Estymator maksymalnego prawdopodobieństwa
- warunkowe maksymalne prawdopodobieństwo
- przykładowe zastosowania estymacji maksymalnego prawdopodobieństwa
- maksymalne oszacowanie prawdopodobieństwa i model liniowy
- Szacowanie maksymalnego prawdopodobieństwa i Model Probitowy
- wnioski
- czy ten post był pomocny?
wprowadzenie
maksymalne prawdopodobieństwo jest szeroko stosowaną techniką do szacowania w wielu obszarach, w tym modelowania szeregów czasowych, danych panelowych, danych dyskretnych, a nawet uczenia maszynowego.
w dzisiejszym blogu omówimy podstawy szacowania maksymalnego prawdopodobieństwa.
w szczególności omawiamy:
- podstawowa teoria maksymalnego prawdopodobieństwa.
- zalety i wady szacowania maksymalnego prawdopodobieństwa.
- funkcja log-prawdopodobieństwo.
- aplikacje do modelowania.
ponadto rozważamy proste zastosowanie oszacowania maksymalnego prawdopodobieństwa do modelu regresji liniowej.
Co To jest szacowanie maksymalnego prawdopodobieństwa?
szacowanie maksymalnego prawdopodobieństwa to statystyczna metoda szacowania parametrów modelu. W estymacji maksymalnego prawdopodobieństwa parametry są dobierane w celu maksymalizacji prawdopodobieństwa, że zakładany model daje wyniki w obserwowanych danych.
oznacza to, że w celu realizacji oszacowania maksymalnego prawdopodobieństwa musimy:
- Przyjmij model, znany również jako proces generowania danych, dla naszych danych.
- być w stanie wyprowadzić funkcję prawdopodobieństwa dla naszych danych, biorąc pod uwagę nasz przyjęty model(omówimy to później).
gdy funkcja prawdopodobieństwa zostanie wyprowadzona, maksymalne oszacowanie prawdopodobieństwa jest niczym więcej niż prostym problemem optymalizacyjnym.
jakie są zalety i wady szacowania maksymalnego prawdopodobieństwa?
w tym momencie możesz się zastanawiać, dlaczego powinieneś wybrać estymację maksymalnego prawdopodobieństwa zamiast innych metod, takich jak regresja najmniejszych kwadratów lub uogólniona metoda momentów. Rzeczywistość jest taka, że nie zawsze powinniśmy wybierać oszacowanie maksymalnego prawdopodobieństwa. Jak każda technika estymacji, estymacja maksymalnego prawdopodobieństwa ma zalety i wady.
zalety szacowania maksymalnego prawdopodobieństwa
istnieje wiele zalet szacowania maksymalnego prawdopodobieństwa:
- jeśli model jest prawidłowo przyjęty, Estymator maksymalnego prawdopodobieństwa jest najskuteczniejszym estymatorem.
- zapewnia spójne, ale elastyczne podejście, które sprawia, że nadaje się do szerokiej gamy zastosowań, w tym przypadków, w których naruszane są założenia innych modeli.
- powoduje to bezstronne szacunki w większych próbkach.
wady estymacji maksymalnego prawdopodobieństwa
- opiera się na założeniu modelu i wyprowadzeniu funkcji prawdopodobieństwa, co nie zawsze jest łatwe.
- podobnie jak inne problemy z optymalizacją, oszacowanie maksymalnego prawdopodobieństwa może być wrażliwe na wybór wartości początkowych.
- w zależności od złożoności funkcji prawdopodobieństwa, estymacja numeryczna może być kosztowna obliczeniowo.
- szacunki mogą być stronnicze w małych próbkach.
jaka jest funkcja prawdopodobieństwa?
szacowanie maksymalnego prawdopodobieństwa zależy od wyprowadzenia funkcji prawdopodobieństwa. Z tego powodu ważne jest, aby dobrze zrozumieć, czym jest funkcja prawdopodobieństwa i skąd pochodzi.
zacznijmy od bardzo prostego przypadku, w którym mamy jedną serię $y$ z 10 niezależnymi obserwacjami: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.
gęstość prawdopodobieństwa
pierwszym krokiem w oszacowaniu maksymalnego prawdopodobieństwa jest założenie rozkładu prawdopodobieństwa dla danych. Funkcja gęstości prawdopodobieństwa mierzy prawdopodobieństwo obserwacji danych danego zestawu podstawowych parametrów modelu.
w tym przypadku Zakładamy, że nasze dane mają rozkład Poissona, który jest powszechnym założeniem, szczególnie w przypadku danych, które nie są danymi liczbowymi.
funkcja gęstości prawdopodobieństwa Poissona dla indywidualnej obserwacji, $y_i$, jest dana przez
$$f (y_i / \theta) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$
ponieważ obserwacje w naszej próbce są niezależne, gęstość prawdopodobieństwa naszej obserwowanej próbki można znaleźć, biorąc iloczyn prawdopodobieństwa poszczególnych obserwacji:
$$f (y_1, y_2, \ldots, y_{10} / \theta)=\prod_{i = 1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!= \ frac{e^{-10 \ theta} \ theta^{\sum_{i = 1}^{10} y_i}} {\prod_{i = 1}^{10} y_i!} $$
możemy użyć gęstości prawdopodobieństwa, aby odpowiedzieć na pytanie, jak prawdopodobne jest, że nasze dane występują w określonych parametrach.
funkcja prawdopodobieństwa
różnice między funkcją prawdopodobieństwa a funkcją gęstości prawdopodobieństwa są niuansowe, ale ważne.
- funkcja gęstości prawdopodobieństwa wyraża prawdopodobieństwo obserwacji naszych danych, biorąc pod uwagę podstawowe parametry rozkładu. Zakłada, że parametry są znane.
- funkcja prawdopodobieństwa wyraża prawdopodobieństwo wystąpienia wartości parametrów na podstawie obserwowanych danych. Zakłada, że parametry są nieznane.
matematycznie funkcja prawdopodobieństwa wygląda podobnie do gęstości prawdopodobieństwa:
$$l(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$
dla naszego przykładu Poissona możemy dość łatwo wyprowadzić funkcję prawdopodobieństwa
$$l(\theta|Y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\THETA}\Theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \ frac{e^{-10\theta}\theta^{20}}{207,360}$$
maksymalne oszacowanie prawdopodobieństwa nieznanego parametru, $\theta$, jest wartością, która maksymalizuje to prawdopodobieństwo.
funkcja prawdopodobieństwa logowania
w praktyce funkcja rozkładu łącznego może być trudna do pracy, a zamiast niej używana jest funkcja $\ln$ prawdopodobieństwa. W przypadku naszego zbioru danych Poissona funkcja log-prawdopodobieństwo jest:
$$\ln (L (\theta|y)) = -n\Theta + \LN \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10\theta + 20 \ln (\theta) – \ln(207,360)$$
prawdopodobieństwo logowania jest zwykle łatwiejsze do optymalizacji niż funkcja prawdopodobieństwa.
Estymator maksymalnego prawdopodobieństwa
Wykres prawdopodobieństwa i log-prawdopodobieństwa dla naszego zbioru danych pokazuje, że maksymalne prawdopodobieństwo występuje, gdy $ \ theta = 2$. Oznacza to, że nasz maksymalny Estymator prawdopodobieństwa, $\hat {\theta} _ {MLE} = 2$.
warunkowe maksymalne prawdopodobieństwo
w prostym przykładzie powyżej używamy estymacji maksymalnego prawdopodobieństwa do oszacowania parametrów gęstości naszych danych. Możemy rozszerzyć ten pomysł, aby oszacować zależność między naszymi obserwowanymi danymi, $y$ i innymi zmiennymi objaśniającymi, $x$. W tym przypadku pracujemy z funkcją warunkowego maksymalnego prawdopodobieństwa:
$$l(\theta | y, x)$$
przyjrzymy się temu dokładniej w następnym przykładzie.
przykładowe zastosowania estymacji maksymalnego prawdopodobieństwa
wszechstronność estymacji maksymalnego prawdopodobieństwa sprawia, że jest ona przydatna w wielu zastosowaniach empirycznych. Może być stosowany do wszystkiego, od najprostszych modeli regresji liniowej do zaawansowanych modeli wyboru.
w tym dziale przyjrzymy się dwóm aplikacjom:
- model regresji liniowej
- model probitowy
maksymalne oszacowanie prawdopodobieństwa i model liniowy
w regresji liniowej Zakładamy, że pozostałości modelu są identyczne i niezależnie normalnie rozłożone:
$$\epsilon = y – \hat {\beta} x \sim N (0, \ sigma^2)$$
opierając się na tym założeniu, funkcja prawdopodobieństwa logarytmicznego dla nieznanego wektora parametrów, $ \ theta = \{\beta, \ sigma^2\}$, zależna od obserwowanych danych, $y$ i $x$ jest dana przez:
$$\ln L (\theta / y, x) = – \ frac{1}{2} \ sum_{i = 1}^N \Big $$
maksymalne szacunki prawdopodobieństwa $\beta$ i $\sigma^2$ to te, które maksymalizują prawdopodobieństwo.
Szacowanie maksymalnego prawdopodobieństwa i Model Probitowy
model probitowy jest podstawowym dyskretnym modelem wyboru.
model probitowy zakłada, że istnieje ukryta zmienna napędzająca dyskretny wynik. Zmienne utajone podążają za rozkładem normalnym takim, że:
$$y^ * = x\theta + \ epsilon$$ $ $ \epsilon \ sim N(0,1)$$
gdzie
$$ y_i = \begin{cases} 0 \text{ if } y_i^* \le 0\\ 1 \text{ if } y_i^* \gt 0\\ \end{cases} $$
gęstość prawdopodobieństwa
$$p(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\Theta + \Epsilon\GT 0|x_i) = $$$$P(\Epsilon \gt-x\Theta|x_i) = 1 – \PHI(-x\Theta) = \Phi(x\theta)$$
gdzie $\Phi$ reprezentuje normalną funkcję rozkładu kumulacyjnego.
log-Prawdopodobieństwo dla tego modelu to
$$\ln L (\theta) = \ sum_{i = 1}^N \ Big $$
wnioski
Gratulacje! Po dzisiejszym blogu powinieneś lepiej zrozumieć podstawy szacowania maksymalnego prawdopodobieństwa. W szczególności omówiliśmy:
- podstawowa teoria szacowania maksymalnego prawdopodobieństwa.
- zalety i wady szacowania maksymalnego prawdopodobieństwa.
- funkcja log-prawdopodobieństwo.
- funkcja warunkowego maksymalnego prawdopodobieństwa.
Erica pracuje nad budowaniem, dystrybucją i wzmacnianiem wszechświata Gaussa od 2012 roku. Jest ekonomistką specjalizującą się w analizie danych i tworzeniu oprogramowania. Uzyskała tytuł licencjata i magistra ekonomii i inżynierii oraz ma ponad 15-letnie doświadczenie w branży przemysłowej i akademickim w analizie i badaniach danych.