Begyndervejledning til estimering af maksimal sandsynlighed

byErica · published 21.september 2020 · updated 23. september 2020

introduktion

maksimal sandsynlighed er en meget anvendt teknik til estimering med applikationer inden for mange områder, herunder tidsseriemodellering, paneldata, diskrete data og endda maskinindlæring.

i dagens blog dækker vi fundamentet for maksimal sandsynlighedsestimering.

især diskuterer vi:

  1. den grundlæggende teori om maksimal sandsynlighed.
  2. fordele og ulemper ved estimering af maksimal sandsynlighed.
  3. funktionen log-Sandsynlighed.
  4. modellering applikationer.

derudover overvejer vi en simpel anvendelse af maksimal sandsynlighedsestimering til en lineær regressionsmodel.

Hvad er maksimal Sandsynlighedsestimering?

maksimal sandsynlighedsestimering er en statistisk metode til estimering af parametrene for en model. I estimering af maksimal sandsynlighed vælges parametrene for at maksimere sandsynligheden for, at den antagede model resulterer i de observerede data.

dette indebærer, at for at gennemføre maksimal sandsynlighedsestimering skal vi:

  1. Antag en model, også kendt som en datagenererende proces, for vores data.
  2. være i stand til at udlede sandsynlighedsfunktionen for vores data i betragtning af vores antagne model (vi vil diskutere dette mere senere).

når sandsynlighedsfunktionen er afledt, er maksimal sandsynlighedsestimering intet andet end et simpelt optimeringsproblem.

Hvad er fordele og ulemper ved maksimal Sandsynlighedsestimering?

på dette tidspunkt undrer du dig måske over, hvorfor du skal vælge maksimal sandsynlighedsestimering over andre metoder, såsom mindste kvadratregression eller den generelle metode til øjeblikke. Virkeligheden er, at vi ikke altid bør vælge maksimal sandsynlighedsestimering. Som enhver estimeringsteknik har estimering af maksimal sandsynlighed fordele og ulemper.

fordele ved estimering af maksimal sandsynlighed

der er mange fordele ved estimering af maksimal sandsynlighed:

  • hvis modellen antages korrekt, er den maksimale sandsynlighedsestimator den mest effektive estimator.
  • det giver en konsekvent, men fleksibel tilgang, der gør den velegnet til en lang række applikationer, herunder tilfælde, hvor antagelser om andre modeller overtrædes.
  • det resulterer i upartiske skøn i større prøver.
effektivitet er et mål for kvaliteten af en estimator. En effektiv estimator er en, der har en lille varians eller gennemsnitlig kvadreret fejl.

ulemper ved maksimal Sandsynlighedsestimering

  • den er afhængig af antagelsen af en model og afledningen af sandsynlighedsfunktionen, som ikke altid er let.
  • ligesom andre optimeringsproblemer kan estimering af maksimal sandsynlighed være følsom over for valget af startværdier.
  • afhængigt af kompleksiteten af sandsynlighedsfunktionen kan den numeriske estimering være beregningsmæssigt dyr.
  • skøn kan være forudindtaget i små prøver.

Hvad er sandsynlighedsfunktionen?

estimering af maksimal sandsynlighed afhænger af afledningen af sandsynlighedsfunktionen. Af denne grund er det vigtigt at have en god forståelse af, hvad sandsynlighedsfunktionen er, og hvor den kommer fra.

lad os starte med det meget enkle tilfælde, hvor vi har en serie $y$ med 10 uafhængige observationer: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

sandsynlighedstætheden

det første trin i estimering af maksimal sandsynlighed er at antage en sandsynlighedsfordeling for dataene. En sandsynlighedsdensitetsfunktion måler sandsynligheden for at observere dataene givet et sæt underliggende modelparametre.

i dette tilfælde antager vi, at vores data har en underliggende Poisson-distribution, som er en almindelig antagelse, især for data, der er ikke-negative tælledata.

Poisson sandsynlighedstæthedsfunktionen for en individuel observation, $y_i$, er givet af

$ $ f (y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!} $ $

fordi observationerne i vores prøve er uafhængige, kan sandsynlighedstætheden for vores observerede prøve findes ved at tage produktet af sandsynligheden for de enkelte observationer:

$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10 \ theta} \ theta^{\sum_{i=1}^{10}y_i}} {\prod_{i=1}^{10}y_i!} $ $

vi kan bruge sandsynlighedstætheden til at besvare spørgsmålet om, hvor sandsynligt det er, at vores data forekommer givet specifikke parametre.

sandsynlighedsfunktionen

forskellene mellem sandsynlighedsfunktionen og sandsynlighedsdensitetsfunktionen er nuancerede, men vigtige.

  • en sandsynlighedsdensitetsfunktion udtrykker sandsynligheden for at observere vores data givet de underliggende distributionsparametre. Det forudsætter, at parametrene er kendt.
  • sandsynlighedsfunktionen udtrykker sandsynligheden for, at parameterværdier forekommer i betragtning af de observerede data. Det forudsætter, at parametrene er ukendte.

matematisk ser sandsynlighedsfunktionen ud som sandsynlighedstætheden:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

for vores Poisson-eksempel kan vi ret let udlede sandsynlighedsfunktionen

$$l(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10 \ theta} \ theta^{20}}{207,360}$$

det maksimale sandsynlighedsestimat for den ukendte parameter, $ \ theta$, er den værdi, der maksimerer denne sandsynlighed.

Log-sandsynlighedsfunktionen

i praksis kan den fælles distributionsfunktion være vanskelig at arbejde med, og $\ln$ for sandsynlighedsfunktionen bruges i stedet. I tilfælde af vores Poisson datasæt log-Sandsynlighed funktion er:

$$\ln (L (\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10 \ theta + 20 \ ln (\theta)- \ ln(207,360)$$

log-sandsynligheden er normalt lettere at optimere end sandsynlighedsfunktionen.

estimatoren for maksimal sandsynlighed

en graf over sandsynligheden og log-sandsynligheden for vores datasæt viser, at den maksimale sandsynlighed opstår, når $\theta = 2$. Dette betyder, at vores maksimale sandsynlighedsestimator, $ \ hat {\theta}_{MLE} = 2$.

den betingede maksimale sandsynlighed

i det enkle eksempel ovenfor bruger vi maksimal sandsynlighedsestimering til at estimere parametrene for vores datas tæthed. Vi kan udvide denne ide til at estimere forholdet mellem vores observerede data, $y$ og andre forklarende variabler,$$. I dette tilfælde arbejder vi med den betingede maksimale sandsynlighedsfunktion:

$$L(\theta | y)$$

vi vil se nærmere på dette i vores næste eksempel.

eksempel anvendelser af maksimal Sandsynlighedsestimering

alsidigheden af maksimal sandsynlighedsestimering gør det nyttigt på tværs af mange empiriske applikationer. Det kan anvendes på alt fra de enkleste lineære regressionsmodeller til avancerede valgmodeller.

i dette afsnit vil vi se på to applikationer:

  • den lineære regressionsmodel
  • probit-modellen

maksimal Sandsynlighedsestimering og den lineære Model

i lineær regression antager vi, at modelresterne er identiske og uafhængigt normalt fordelt:

$$\epsilon = y- \ hat {\beta}s \ sim N (0, \ sigma^2)$$

baseret på denne antagelse er Log-sandsynlighedsfunktionen for den ukendte parametervektor, $\Theta = \{\beta, \sigma^2\}$, betinget af de observerede data, $y$ og $$ givet af:

$$\Ln L(\theta|y) = – \frac{1}{2}\sum_{i=1}^N \Big $$

de maksimale sandsynlighedsestimater på $\beta$ og $\sigma^2$ er dem, der maksimerer sandsynligheden.

estimering af maksimal sandsynlighed og Probit-modellen

probit-modellen er en grundlæggende diskret valgmodel.

probit-modellen antager, at der er en underliggende latent variabel, der driver det diskrete resultat. De latente variabler følger en normalfordeling, således at:

$ $ y^ * = \ theta + \ epsilon$$$ $ \epsilon \ sim N(0,1)$$

hvor

$$ y_i = \begin{cases} 0 \tekst{ if } y_i^* \le 0\\ 1 \tekst{ if } y_i^* \gt 0\\ \end{cases} $$

sandsynlighedstætheden

$$P(y_i = 1|H_i) = P(y_i^* \gt 0|H_i) = P(H\\Theta + \epsilon\gt 0|h_i) = $$$$p (\epsilon\GT-H \theta|h_i) = 1 – \PHI(-h \theta) = \Phi(h\theta)$$

hvor $ \ Phi$ repræsenterer den normale kumulative fordelingsfunktion.

log-sandsynligheden for denne model er

$$\ln L(\theta) = \sum_{i=1}^N \Big $$

konklusioner

Tillykke! Efter dagens blog skal du have en bedre forståelse af fundamentet for maksimal sandsynlighedsestimering. Især har vi dækket:

  • den grundlæggende teori om estimering af maksimal sandsynlighed.
  • fordele og ulemper ved estimering af maksimal sandsynlighed.
  • funktionen log-Sandsynlighed.
  • den betingede maksimale sandsynlighedsfunktion.
Erica (direktør for applikationer og uddannelse hos Aptech Systems, Inc. )

Erica har arbejdet med at opbygge, distribuere og styrke Gauss-universet siden 2012. Hun er økonom, der er dygtig inden for dataanalyse og udvikling af programmer. Hun har opnået en BA og MSc i Økonomi og teknik og har over 15 års kombineret industri og akademisk erfaring inden for dataanalyse og forskning.

var dette indlæg nyttigt?

lad os vide, hvis du kunne lide indlægget. Det er den eneste måde, vi kan forbedre.
Ja
Nej

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

More: