Začátečník je Průvodce Pro Maximální Pravděpodobnosti Odhadu

byErica · PublishedSeptember 21, 2020 · UpdatedSeptember 23, 2020

Úvod

Maximální věrohodnosti je široce používaná technika pro odhad s aplikacemi v mnoha oblastech, včetně časových řad, modelování panelových dat, diskrétní data, a dokonce i strojového učení.

v dnešním blogu se zabýváme základy odhadu maximální věrohodnosti.

zejména diskutujeme:

  1. základní teorie maximální pravděpodobnosti.
  2. výhody a nevýhody odhadu maximální věrohodnosti.
  3. funkce log-likelihood.
  4. modelování aplikací.

kromě toho uvažujeme jednoduchou aplikaci odhadu maximální věrohodnosti na lineární regresní model.

co je maximální odhad pravděpodobnosti?

maximální odhad pravděpodobnosti je statistická metoda pro odhad parametrů modelu. Při odhadu maximální věrohodnosti jsou parametry zvoleny tak, aby maximalizovaly pravděpodobnost, že předpokládaný model vyústí v pozorovaná data.

to znamená, že pro provedení maximálního odhadu pravděpodobnosti musíme:

  1. Předpokládejme model, známý také jako proces generování dat, pro naše data.
  2. být schopen odvodit funkci pravděpodobnosti pro naše data, vzhledem k našemu předpokládanému modelu(o tom budeme diskutovat později).

jakmile je odvozena funkce věrohodnosti, není odhad maximální věrohodnosti ničím jiným než jednoduchým optimalizačním problémem.

jaké jsou výhody a nevýhody maximálního odhadu pravděpodobnosti?

v tomto bodě se možná divíte, proč byste měli zvolit odhad maximální pravděpodobnosti oproti jiným metodám, jako je regrese nejmenších čtverců nebo zobecněná metoda momentů. Realita je taková, že bychom neměli vždy zvolit maximální odhad pravděpodobnosti. Jako každá technika odhadu má odhad maximální věrohodnosti výhody i nevýhody.

výhody odhadu maximální věrohodnosti

existuje mnoho výhod odhadu maximální věrohodnosti:

  • pokud je model správně předpokládán, je nejúčinnějším odhadcem odhad maximální věrohodnosti.
  • To poskytuje konzistentní, ale flexibilní přístup, který je vhodný pro širokou škálu aplikací, včetně případů, kdy předpoklady pro další modely jsou porušována.
  • výsledkem jsou nestranné odhady ve větších vzorcích.
účinnost je jedním měřítkem kvality odhadce. Efektivní odhad je ten, který má malou odchylku nebo střední druhou chybu.

Nevýhody Maximální Odhad Pravděpodobnosti

  • opírá se o předpoklad modelu a odvození funkce pravděpodobnosti, které není vždy snadné.
  • stejně jako jiné optimalizační problémy může být odhad maximální věrohodnosti citlivý na volbu počátečních hodnot.
  • v závislosti na složitosti pravděpodobnostní funkce může být numerický odhad výpočetně nákladný.
  • odhady mohou být zkreslené v malých vzorcích.

jaká je funkce pravděpodobnosti?

maximální odhad věrohodnosti závisí na odvození funkce věrohodnosti. Z tohoto důvodu je důležité dobře porozumět tomu, co je funkce pravděpodobnosti a odkud pochází.

začněme velmi jednoduchým případem, kdy máme jednu řadu $y$ s 10 nezávislými pozorováními: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

hustota pravděpodobnosti

prvním krokem v odhadu maximální pravděpodobnosti je převzetí rozdělení pravděpodobnosti pro data. Funkce hustoty pravděpodobnosti měří pravděpodobnost pozorování dat daných sadou základních parametrů modelu.

V tomto případě budeme předpokládat, že naše data má základní Poissonovo rozdělení, který je společný předpoklad, a to zejména pro data, která je nezáporné počítat data.

Poissonovo rozdělení funkce hustoty pravděpodobnosti pro jednotlivé pozorování, $y_i$, je dána tím,

$$f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

Protože pozorování v našem vzorku jsou nezávislé, pravděpodobnost, hustota naše pozorovaného vzorku lze nalézt tím, že součin pravděpodobností jednotlivých pozorování:

$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} $$

můžeme použít hustotu pravděpodobnosti k zodpovězení otázky, jak je pravděpodobné, že se naše data vyskytnou vzhledem ke specifickým parametrům.

funkce pravděpodobnosti

rozdíly mezi funkcí pravděpodobnosti a funkcí hustoty pravděpodobnosti jsou různé, ale důležité.

  • funkce hustoty pravděpodobnosti vyjadřuje pravděpodobnost pozorování našich dat vzhledem k základním distribučním parametrům. Předpokládá, že parametry jsou známy.
  • funkce pravděpodobnosti vyjadřuje pravděpodobnost výskytu hodnot parametrů vzhledem k pozorovaným údajům. Předpokládá, že parametry nejsou známy.

Matematicky je pravděpodobnost, že funkce vypadá podobně hustoty pravděpodobnosti:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Pro naše Poissonovo rozdělení příklad, můžeme poměrně snadno odvodit pravděpodobnost, že funkce

$$L(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10\theta}\theta^{20}}{207,360}$$

maximální pravděpodobnosti odhadu neznámého parametru $\theta$, je hodnota, která maximalizuje této pravděpodobnosti.

funkce log-Likelihood

v praxi může být obtížné pracovat s funkcí společné distribuce a místo toho se používá funkce $\ln$ pravděpodobnosti. V případě našeho Poisson dataset log-pravděpodobnosti funkce je:

$$\ln(L(\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10\théta + 20 \ ln (\théta) – \ln(207,360)$$

log-likelihood je obvykle jednodušší optimalizovat než funkce likelihood.

Maximální věrohodnosti Odhad

graf pravděpodobnosti a log-pravděpodobnosti pro náš datový soubor ukazuje, že maximální pravděpodobnost, že nastane, když $\theta = 2$. To znamená, že náš maximální odhad pravděpodobnosti, $ \ hat {\theta}_{MLE} = 2$.

podmíněná maximální pravděpodobnost

v jednoduchém příkladu výše používáme maximální odhad pravděpodobnosti k odhadu parametrů hustoty našich dat. Tuto myšlenku můžeme rozšířit o odhad vztahu mezi našimi pozorovanými daty, $y$ a dalšími vysvětlujícími proměnnými, $x$. V tomto případě pracujeme s podmíněnou funkcí maximální pravděpodobnosti:

$$l (\theta / y, x)$$

podrobněji se na to podíváme v našem dalším příkladu.

příklady aplikací odhadu maximální věrohodnosti

univerzálnost odhadu maximální věrohodnosti je užitečná v mnoha empirických aplikacích. Lze jej aplikovat na vše od nejjednodušších lineárních regresních modelů až po pokročilé modely výběru.

v této části se podíváme na dvě aplikace:

  • lineární regresní model
  • probit model,

Maximální Odhad Pravděpodobnosti a Lineární Model

V lineární regresi předpokládáme, že model rezidua jsou totožné a nezávisle normálně rozděleny:

$$\epsilon = y – \hat{\beta}x \sim N(0, \sigma^2)$$

Na základě tohoto předpokladu log-pravděpodobnosti funkce pro neznámý parametr vektor, $\theta = \{\beta, \sigma^2\}$, podmíněné na pozorovaná data, $y$ a $x$ je dána:

$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$

maximální věrohodnosti odhady $\beta$ a $\sigma^2$ jsou ty, které maximalizují pravděpodobnost.

Maximální Odhad Pravděpodobnosti a Probit Model,

probit model je základní model diskrétní volby.

probitův model předpokládá, že diskrétní výsledek řídí podkladová latentní proměnná. Latentní proměnné sledují normální rozdělení tak, že:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim N(0,1)$$

kde

$$ y_i = \begin{případů} 0 \text{ pokud } y_i^* \le 0\\ 1 \text{ pokud } y_i^* \gt 0\\ \end{případech} $$

hustoty pravděpodobnosti

$$P(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \gt -x\theta|X_i) = 1 – \Phi(-x\theta) = \Phi(x\theta)$$

kde $\Phi$ představuje normální kumulativní distribuční funkce.

log-pravděpodobnosti pro tento model je

$$\ln L(\theta) = \sum_{i=1}^n \Big $$

Závěry

Gratulujeme! Po dnešním blogu byste měli lépe porozumět základům odhadu maximální pravděpodobnosti. Zejména jsme se zabývali:

  • základní teorie odhadu maximální věrohodnosti.
  • výhody a nevýhody odhadu maximální věrohodnosti.
  • funkce log-likelihood.
  • podmíněná funkce maximální věrohodnosti.
Erica (ředitelka aplikací a školení ve společnosti Aptech Systems, Inc. )

Erica pracuje na budování, distribuci a posílení Gaussova vesmíru od roku 2012. Je ekonomkou, která má zkušenosti s analýzou dat a vývojem softwaru. Získala titul B. A. a MSc v oboru ekonomie a inženýrství a má více než 15 let kombinovaných průmyslových a akademických zkušeností v oblasti analýzy a výzkumu dat.

byl tento příspěvek užitečný?

dejte nám vědět, pokud se vám příspěvek líbil. Jedině tak se můžeme zlepšit.
Ano
Ne

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

More: