Beginner’ s Guide To Maximum Likelihood Estimation

byErica · PublishedSeptember 21, 2020 · UpdatedSeptember 23, 2020

Introduction

Maximum likelihood is een veelgebruikte techniek voor schatting met toepassingen op vele gebieden, waaronder tijdreeksmodellering, paneelgegevens, discrete gegevens en zelfs machine learning.

in het blog van vandaag behandelen we de grondbeginselen van de schatting van maximale waarschijnlijkheid.

in het bijzonder bespreken we:

  1. de basistheorie van maximale waarschijnlijkheid.
  2. de voor-en nadelen van een schatting van de maximale waarschijnlijkheid.
  3. de log-waarschijnlijkheidsfunctie.
  4. Modelleringstoepassingen.

daarnaast overwegen we een eenvoudige toepassing van de maximale waarschijnlijkheidsschatting op een lineair regressiemodel.

Wat is een schatting van de maximale waarschijnlijkheid?

maximale waarschijnlijkheid schatting is een statistische methode voor het schatten van de parameters van een model. Bij maximale waarschijnlijkheid schatting, worden de parameters gekozen om de waarschijnlijkheid dat het veronderstelde model resulteert in de waargenomen gegevens te maximaliseren.

dit houdt in dat om een maximale waarschijnlijkheid te kunnen inschatten:

  1. neem een model aan, ook wel bekend als een proces voor het genereren van gegevens, voor onze gegevens.
  2. in staat zijn om de waarschijnlijkheidsfunctie voor onze gegevens af te leiden, gegeven ons veronderstelde model (we zullen dit later verder bespreken).

zodra de waarschijnlijkheidsfunctie is afgeleid, is de schatting van de maximale waarschijnlijkheid niets meer dan een eenvoudig optimalisatieprobleem.

Wat zijn de voor-en nadelen van een schatting van de maximale waarschijnlijkheid?

op dit moment vraagt u zich misschien af waarom u de schatting van de maximale waarschijnlijkheid zou moeten kiezen boven andere methoden zoals regressie van de kleinste kwadraten of de gegeneraliseerde methode van momenten. De realiteit is dat we niet altijd moeten kiezen voor maximale waarschijnlijkheid schatting. Zoals elke schatting techniek, maximale waarschijnlijkheid schatting heeft voor-en nadelen.

voordelen van maximale waarschijnlijkheid schatting

er zijn veel voordelen van maximale waarschijnlijkheid schatting:

  • indien het model correct wordt aangenomen, is de maximale waarschijnlijkheidsschatting de meest efficiënte schatter.
  • het biedt een consistente maar flexibele aanpak die het geschikt maakt voor een breed scala van toepassingen, met inbegrip van gevallen waarin veronderstellingen van andere modellen worden geschonden.
  • het resulteert in onbevooroordeelde schattingen in grotere monsters.

efficiëntie is een maatstaf voor de kwaliteit van een schatter. Een efficiënte schatter is een die een kleine variantie of gemiddelde kwadraat fout heeft.

nadelen van de schatting van de maximale waarschijnlijkheid

  • het berust op de aanname van een model en de afleiding van de waarschijnlijkheidsfunctie die niet altijd gemakkelijk is.
  • net als andere optimalisatieproblemen kan de schatting van de maximale waarschijnlijkheid gevoelig zijn voor de keuze van de beginwaarden.
  • afhankelijk van de complexiteit van de waarschijnlijkheidsfunctie kan de numerieke schatting computationeel duur zijn.
  • schattingen kunnen in kleine steekproeven worden beïnvloed.

Wat is de Waarschijnlijkheidsfunctie?

de schatting van de maximale waarschijnlijkheid hangt af van de afleiding van de waarschijnlijkheidsfunctie. Om deze reden is het belangrijk om een goed begrip te hebben van wat de waarschijnlijkheidsfunctie is en waar het vandaan komt.

laten we beginnen met het zeer eenvoudige geval waarin we één reeks hebben $y$ met 10 onafhankelijke waarnemingen: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

de kansdichtheid

de eerste stap in de schatting van de maximale waarschijnlijkheid is het aannemen van een kansverdeling voor de gegevens. Een kansdichtheidsfunctie meet de waarschijnlijkheid van het waarnemen van de gegevens gegeven een reeks onderliggende modelparameters.

in dit geval zullen we aannemen dat onze gegevens een onderliggende Poissondistributie hebben die een veel voorkomende aanname is, met name voor gegevens die geen negatieve telgegevens zijn.

de poisson waarschijnlijkheidsfunctie voor een individuele waarneming, $y_i$, wordt gegeven door

$$f (y_i / \theta) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

omdat de waarnemingen in onze steekproef onafhankelijk zijn, kan de waarschijnlijkheidsdichtheid van onze waargenomen steekproef worden gevonden door het product te nemen van de waarschijnlijkheid van de individuele waarnemingen:

$$f (y_1, y_2, \ldots, y_{10} / \theta)=\prod_{i = 1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10 \ theta}\Theta^{\sum_{i = 1}^{10}y_i}} {\prod_{i = 1}^{10}y_i!} $$

we kunnen de waarschijnlijkheidsdichtheid gebruiken om de vraag te beantwoorden hoe waarschijnlijk het is dat onze gegevens voorkomen gegeven specifieke parameters.

de Waarschijnlijkheidsfunctie

de verschillen tussen de waarschijnlijkheidsfunctie en de waarschijnlijkheidsfunctie zijn genuanceerd maar belangrijk.

  • een kansdichtheidsfunctie geeft de waarschijnlijkheid weer van het waarnemen van onze gegevens, gegeven de onderliggende distributieparameters. Het gaat ervan uit dat de parameters bekend zijn.
  • de waarschijnlijkheidsfunctie geeft de waarschijnlijkheid weer dat parameterwaarden optreden gegeven de waargenomen gegevens. Het gaat ervan uit dat de parameters onbekend zijn.

Wiskundig de kans functie lijkt op de kansdichtheid:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Voor onze Poisson voorbeeld kunnen we vrij gemakkelijk afleiden van de likelihood-functie

$$L(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10 \ theta}\theta^{20}}{207,360}$$

de maximale waarschijnlijkheid schatting van de onbekende parameter, $\theta$, is de waarde die deze waarschijnlijkheid maximaliseert.

de Log-waarschijnlijkheid functie

in de praktijk kan de gezamenlijke distributie functie moeilijk zijn om mee te werken en de $\ln$ van de waarschijnlijkheid functie wordt gebruikt in plaats daarvan. In het geval van onze Poisson dataset is de log-waarschijnlijkheid functie:

$$\ln (L(\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i = 1}^{n} y_i! = -10 \ theta + 20 \ ln (\theta)- \ ln(207,360)$$

de log-waarschijnlijkheid is meestal gemakkelijker te optimaliseren dan de waarschijnlijkheid functie.

de maximale Waarschijnlijkheidsschatting

een grafiek van de waarschijnlijkheid en log-waarschijnlijkheid voor onze dataset laat zien dat de maximale waarschijnlijkheid optreedt wanneer $\theta = 2$. Dit betekent dat onze maximale waarschijnlijkheid estimator, $ \ hat{\theta}_{MLE} = 2$.

de voorwaardelijke maximale waarschijnlijkheid

in het eenvoudige voorbeeld hierboven gebruiken we maximale waarschijnlijkheid om de parameters van de dichtheid van onze gegevens te schatten. We kunnen dit idee uitbreiden om de relatie te schatten tussen onze geobserveerde gegevens, $y$, en andere verklarende variabelen, $x$. In dit geval werken we met de voorwaardelijke maximale waarschijnlijkheid functie:

$$L(\theta | y, x)$$

we zullen hier nader naar kijken in ons volgende voorbeeld.

voorbeeld toepassingen van schatting van de maximale waarschijnlijkheid

de veelzijdigheid van schatting van de maximale waarschijnlijkheid maakt het nuttig voor vele empirische toepassingen. Het kan worden toegepast op alles van de eenvoudigste lineaire regressiemodellen tot geavanceerde keuzemodellen.

in deze sectie zullen we twee toepassingen bekijken:

  • Het lineaire regressie model
  • Het probit-model

Maximum Likelihood-Schatting en de Lineaire Model

In lineaire regressie, nemen we aan dat het model residu ‘ s zijn identiek en onafhankelijk normaal verdeeld:

$$\epsilon = y – \hat{\beta}x \sim-N(0, \sigma^2)$$

Op basis van deze veronderstelling, de log-likelihood-functie voor het onbekende parameter vector $\theta = \{\beta, \sigma^2\}$, afhankelijk van de waargenomen data, $y$ en $x$ is gegeven door:

$$ \ ln L (\theta|y, x) = – \frac{1}{2}\sum_{i=1}^N \Big $$

de maximale waarschijnlijkheidsschattingen van $\beta$ en $\sigma^2$ zijn die welke de waarschijnlijkheid maximaliseren.

schatting van de maximale waarschijnlijkheid en het Probit-Model

het probit-model is een fundamenteel discreet keuzemodel.

het probit-model gaat ervan uit dat er een onderliggende latente variabele aan de basis ligt van de discrete uitkomst. De latente variabelen volgen een normale verdeling zodanig dat:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim-N(0,1)$$

waar

$$ y_i = \begin{cases} 0 \text{ als } y_i^* \le 0\\ 1 \text{ als } y_i^* \gt-0\\ \end{cases} $$

De kansdichtheid

$$P(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \gt -x\theta|X_i) = 1 – \Phi(-x\theta) = \Phi(x\theta)$$

waar $\Phi$ vertegenwoordigt de cumulatieve normale verdelingsfunctie.

de log-waarschijnlijkheid voor dit model is

$$ \ ln L (\theta) = \ sum_{i=1}^N \ Big $$

conclusies

Gefeliciteerd! Na de blog van vandaag, moet u een beter begrip van de grondbeginselen van maximale waarschijnlijkheid schatting. In het bijzonder hebben we:

  • de basistheorie van maximale waarschijnlijkheid schatting.
  • de voor-en nadelen van een schatting van de maximale waarschijnlijkheid.
  • de log-waarschijnlijkheidsfunctie.
  • de functie voorwaardelijke maximale waarschijnlijkheid.
Erica (directeur applicaties en Training bij Aptech Systems, Inc. )

Erica werkt sinds 2012 aan het bouwen, distribueren en versterken van het Gauss-universum. Ze is econoom gespecialiseerd in data-analyse en software-ontwikkeling. Ze behaalde een BA en MSc in economie en techniek en heeft meer dan 15 jaar gecombineerde Industrie-en academische ervaring in data-analyse en onderzoek.

Was dit bericht nuttig?

laat ons weten of u de post leuk vond. Dat is de enige manier waarop we kunnen verbeteren.
Ja
Nee

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

More: