byErica · published 21.september 2020 · updated 23. september 2020
- introduktion
- Hvad er maksimal Sandsynlighedsestimering?
- Hvad er fordele og ulemper ved maksimal Sandsynlighedsestimering?
- fordele ved estimering af maksimal sandsynlighed
- ulemper ved maksimal Sandsynlighedsestimering
- Hvad er sandsynlighedsfunktionen?
- sandsynlighedstætheden
- sandsynlighedsfunktionen
- Log-sandsynlighedsfunktionen
- estimatoren for maksimal sandsynlighed
- den betingede maksimale sandsynlighed
- eksempel anvendelser af maksimal Sandsynlighedsestimering
- maksimal Sandsynlighedsestimering og den lineære Model
- estimering af maksimal sandsynlighed og Probit-modellen
- konklusioner
- var dette indlæg nyttigt?
introduktion
maksimal sandsynlighed er en meget anvendt teknik til estimering med applikationer inden for mange områder, herunder tidsseriemodellering, paneldata, diskrete data og endda maskinindlæring.
i dagens blog dækker vi fundamentet for maksimal sandsynlighedsestimering.
især diskuterer vi:
- den grundlæggende teori om maksimal sandsynlighed.
- fordele og ulemper ved estimering af maksimal sandsynlighed.
- funktionen log-Sandsynlighed.
- modellering applikationer.
derudover overvejer vi en simpel anvendelse af maksimal sandsynlighedsestimering til en lineær regressionsmodel.
Hvad er maksimal Sandsynlighedsestimering?
maksimal sandsynlighedsestimering er en statistisk metode til estimering af parametrene for en model. I estimering af maksimal sandsynlighed vælges parametrene for at maksimere sandsynligheden for, at den antagede model resulterer i de observerede data.
dette indebærer, at for at gennemføre maksimal sandsynlighedsestimering skal vi:
- Antag en model, også kendt som en datagenererende proces, for vores data.
- være i stand til at udlede sandsynlighedsfunktionen for vores data i betragtning af vores antagne model (vi vil diskutere dette mere senere).
når sandsynlighedsfunktionen er afledt, er maksimal sandsynlighedsestimering intet andet end et simpelt optimeringsproblem.
Hvad er fordele og ulemper ved maksimal Sandsynlighedsestimering?
på dette tidspunkt undrer du dig måske over, hvorfor du skal vælge maksimal sandsynlighedsestimering over andre metoder, såsom mindste kvadratregression eller den generelle metode til øjeblikke. Virkeligheden er, at vi ikke altid bør vælge maksimal sandsynlighedsestimering. Som enhver estimeringsteknik har estimering af maksimal sandsynlighed fordele og ulemper.
fordele ved estimering af maksimal sandsynlighed
der er mange fordele ved estimering af maksimal sandsynlighed:
- hvis modellen antages korrekt, er den maksimale sandsynlighedsestimator den mest effektive estimator.
- det giver en konsekvent, men fleksibel tilgang, der gør den velegnet til en lang række applikationer, herunder tilfælde, hvor antagelser om andre modeller overtrædes.
- det resulterer i upartiske skøn i større prøver.
ulemper ved maksimal Sandsynlighedsestimering
- den er afhængig af antagelsen af en model og afledningen af sandsynlighedsfunktionen, som ikke altid er let.
- ligesom andre optimeringsproblemer kan estimering af maksimal sandsynlighed være følsom over for valget af startværdier.
- afhængigt af kompleksiteten af sandsynlighedsfunktionen kan den numeriske estimering være beregningsmæssigt dyr.
- skøn kan være forudindtaget i små prøver.
Hvad er sandsynlighedsfunktionen?
estimering af maksimal sandsynlighed afhænger af afledningen af sandsynlighedsfunktionen. Af denne grund er det vigtigt at have en god forståelse af, hvad sandsynlighedsfunktionen er, og hvor den kommer fra.
lad os starte med det meget enkle tilfælde, hvor vi har en serie $y$ med 10 uafhængige observationer: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.
sandsynlighedstætheden
det første trin i estimering af maksimal sandsynlighed er at antage en sandsynlighedsfordeling for dataene. En sandsynlighedsdensitetsfunktion måler sandsynligheden for at observere dataene givet et sæt underliggende modelparametre.
i dette tilfælde antager vi, at vores data har en underliggende Poisson-distribution, som er en almindelig antagelse, især for data, der er ikke-negative tælledata.
Poisson sandsynlighedstæthedsfunktionen for en individuel observation, $y_i$, er givet af
$ $ f (y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!} $ $
fordi observationerne i vores prøve er uafhængige, kan sandsynlighedstætheden for vores observerede prøve findes ved at tage produktet af sandsynligheden for de enkelte observationer:
$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10 \ theta} \ theta^{\sum_{i=1}^{10}y_i}} {\prod_{i=1}^{10}y_i!} $ $
vi kan bruge sandsynlighedstætheden til at besvare spørgsmålet om, hvor sandsynligt det er, at vores data forekommer givet specifikke parametre.
sandsynlighedsfunktionen
forskellene mellem sandsynlighedsfunktionen og sandsynlighedsdensitetsfunktionen er nuancerede, men vigtige.
- en sandsynlighedsdensitetsfunktion udtrykker sandsynligheden for at observere vores data givet de underliggende distributionsparametre. Det forudsætter, at parametrene er kendt.
- sandsynlighedsfunktionen udtrykker sandsynligheden for, at parameterværdier forekommer i betragtning af de observerede data. Det forudsætter, at parametrene er ukendte.
matematisk ser sandsynlighedsfunktionen ud som sandsynlighedstætheden:
$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$
for vores Poisson-eksempel kan vi ret let udlede sandsynlighedsfunktionen
$$l(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10 \ theta} \ theta^{20}}{207,360}$$
det maksimale sandsynlighedsestimat for den ukendte parameter, $ \ theta$, er den værdi, der maksimerer denne sandsynlighed.
Log-sandsynlighedsfunktionen
i praksis kan den fælles distributionsfunktion være vanskelig at arbejde med, og $\ln$ for sandsynlighedsfunktionen bruges i stedet. I tilfælde af vores Poisson datasæt log-Sandsynlighed funktion er:
$$\ln (L (\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10 \ theta + 20 \ ln (\theta)- \ ln(207,360)$$
log-sandsynligheden er normalt lettere at optimere end sandsynlighedsfunktionen.
estimatoren for maksimal sandsynlighed
en graf over sandsynligheden og log-sandsynligheden for vores datasæt viser, at den maksimale sandsynlighed opstår, når $\theta = 2$. Dette betyder, at vores maksimale sandsynlighedsestimator, $ \ hat {\theta}_{MLE} = 2$.
den betingede maksimale sandsynlighed
i det enkle eksempel ovenfor bruger vi maksimal sandsynlighedsestimering til at estimere parametrene for vores datas tæthed. Vi kan udvide denne ide til at estimere forholdet mellem vores observerede data, $y$ og andre forklarende variabler,$$. I dette tilfælde arbejder vi med den betingede maksimale sandsynlighedsfunktion:
$$L(\theta | y)$$
vi vil se nærmere på dette i vores næste eksempel.
eksempel anvendelser af maksimal Sandsynlighedsestimering
alsidigheden af maksimal sandsynlighedsestimering gør det nyttigt på tværs af mange empiriske applikationer. Det kan anvendes på alt fra de enkleste lineære regressionsmodeller til avancerede valgmodeller.
i dette afsnit vil vi se på to applikationer:
- den lineære regressionsmodel
- probit-modellen
maksimal Sandsynlighedsestimering og den lineære Model
i lineær regression antager vi, at modelresterne er identiske og uafhængigt normalt fordelt:
$$\epsilon = y- \ hat {\beta}s \ sim N (0, \ sigma^2)$$
baseret på denne antagelse er Log-sandsynlighedsfunktionen for den ukendte parametervektor, $\Theta = \{\beta, \sigma^2\}$, betinget af de observerede data, $y$ og $$ givet af:
$$\Ln L(\theta|y) = – \frac{1}{2}\sum_{i=1}^N \Big $$
de maksimale sandsynlighedsestimater på $\beta$ og $\sigma^2$ er dem, der maksimerer sandsynligheden.
estimering af maksimal sandsynlighed og Probit-modellen
probit-modellen er en grundlæggende diskret valgmodel.
probit-modellen antager, at der er en underliggende latent variabel, der driver det diskrete resultat. De latente variabler følger en normalfordeling, således at:
$ $ y^ * = \ theta + \ epsilon$$$ $ \epsilon \ sim N(0,1)$$
hvor
$$ y_i = \begin{cases} 0 \tekst{ if } y_i^* \le 0\\ 1 \tekst{ if } y_i^* \gt 0\\ \end{cases} $$
sandsynlighedstætheden
$$P(y_i = 1|H_i) = P(y_i^* \gt 0|H_i) = P(H\\Theta + \epsilon\gt 0|h_i) = $$$$p (\epsilon\GT-H \theta|h_i) = 1 – \PHI(-h \theta) = \Phi(h\theta)$$
hvor $ \ Phi$ repræsenterer den normale kumulative fordelingsfunktion.
log-sandsynligheden for denne model er
$$\ln L(\theta) = \sum_{i=1}^N \Big $$
konklusioner
Tillykke! Efter dagens blog skal du have en bedre forståelse af fundamentet for maksimal sandsynlighedsestimering. Især har vi dækket:
- den grundlæggende teori om estimering af maksimal sandsynlighed.
- fordele og ulemper ved estimering af maksimal sandsynlighed.
- funktionen log-Sandsynlighed.
- den betingede maksimale sandsynlighedsfunktion.
Erica har arbejdet med at opbygge, distribuere og styrke Gauss-universet siden 2012. Hun er økonom, der er dygtig inden for dataanalyse og udvikling af programmer. Hun har opnået en BA og MSc i Økonomi og teknik og har over 15 års kombineret industri og akademisk erfaring inden for dataanalyse og forskning.