Leitfaden für Anfänger zur Schätzung der maximalen Wahrscheinlichkeit

byErica · PublishedSeptember 21, 2020 · UpdatedSeptember 23, 2020

Einführung

Maximum Likelihood ist eine weit verbreitete Technik zur Schätzung mit Anwendungen in vielen Bereichen, einschließlich Zeitreihenmodellierung, Paneldaten, diskreten Daten und sogar maschinellem Lernen.

Im heutigen Blog behandeln wir die Grundlagen der Maximum-Likelihood-Schätzung.

Insbesondere diskutieren wir:

  1. Die grundlegende Theorie der maximalen Wahrscheinlichkeit.
  2. Die Vor- und Nachteile der Maximum-Likelihood-Schätzung.
  3. Die Log-Likelihood-Funktion.
  4. Modellierungsanwendungen.

Darüber hinaus betrachten wir eine einfache Anwendung der Maximum-Likelihood-Schätzung auf ein lineares Regressionsmodell.

Was ist eine Maximum-Likelihood-Schätzung?

Maximum Likelihood estimation ist eine statistische Methode zur Schätzung der Parameter eines Modells. Bei der Maximum-Likelihood-Schätzung werden die Parameter ausgewählt, um die Wahrscheinlichkeit zu maximieren, dass das angenommene Modell zu den beobachteten Daten führt.

Dies impliziert, dass wir zur Implementierung der Maximum-Likelihood-Schätzung:

  1. Nehmen wir ein Modell, auch bekannt als Datengenerierungsprozess, für unsere Daten an.
  2. In der Lage sein, die Wahrscheinlichkeitsfunktion für unsere Daten unter Berücksichtigung unseres angenommenen Modells abzuleiten (wir werden dies später ausführlicher besprechen).

Sobald die Wahrscheinlichkeitsfunktion abgeleitet ist, ist die Schätzung der maximalen Wahrscheinlichkeit nichts anderes als ein einfaches Optimierungsproblem.

Was sind die Vor- und Nachteile der Maximum-Likelihood-Schätzung?

An dieser Stelle fragen Sie sich vielleicht, warum Sie die Schätzung der maximalen Wahrscheinlichkeit anderen Methoden wie der Regression der kleinsten Quadrate oder der verallgemeinerten Methode der Momente vorziehen sollten. Die Realität ist, dass wir nicht immer die Maximum-Likelihood-Schätzung wählen sollten. Wie jede Schätztechnik hat die Maximum-Likelihood-Schätzung Vor- und Nachteile.

Vorteile der Maximum-Likelihood-Schätzung

Es gibt viele Vorteile der Maximum-Likelihood-Schätzung:

  • Wenn das Modell korrekt angenommen wird, ist der Maximum-Likelihood-Schätzer der effizienteste Schätzer.
  • Es bietet einen konsistenten, aber flexiblen Ansatz, der es für eine Vielzahl von Anwendungen geeignet macht, einschließlich Fällen, in denen Annahmen anderer Modelle verletzt werden.
  • Dies führt zu unvoreingenommenen Schätzungen in größeren Stichproben.
Effizienz ist ein Maß für die Qualität eines Schätzers. Ein effizienter Schätzer hat eine kleine Varianz oder einen mittleren quadratischen Fehler.

Nachteile der Maximum-Likelihood-Schätzung

  • Sie beruht auf der Annahme eines Modells und der nicht immer einfachen Ableitung der Likelihood-Funktion.
  • Wie andere Optimierungsprobleme kann die Schätzung der maximalen Wahrscheinlichkeit empfindlich auf die Wahl der Startwerte reagieren.
  • Abhängig von der Komplexität der Likelihood-Funktion kann die numerische Schätzung rechenintensiv sein.
  • Schätzungen können in kleinen Stichproben verzerrt sein.

Was ist die Wahrscheinlichkeitsfunktion?

Die Maximum-Likelihood-Schätzung hängt von der Ableitung der Likelihood-Funktion ab. Aus diesem Grund ist es wichtig, ein gutes Verständnis dafür zu haben, was die Wahrscheinlichkeitsfunktion ist und woher sie kommt.

Beginnen wir mit dem sehr einfachen Fall, in dem wir eine Reihe $ y $ mit 10 unabhängigen Beobachtungen haben: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

Die Wahrscheinlichkeitsdichte

Der erste Schritt bei der Schätzung der maximalen Wahrscheinlichkeit besteht darin, eine Wahrscheinlichkeitsverteilung für die Daten anzunehmen. Eine Wahrscheinlichkeitsdichtefunktion misst die Wahrscheinlichkeit, dass die Daten bei einem Satz zugrunde liegender Modellparameter beobachtet werden.

In diesem Fall gehen wir davon aus, dass unseren Daten eine Poisson-Verteilung zugrunde liegt, was eine häufige Annahme ist, insbesondere für Daten, die nicht negative Zähldaten sind.

Die Poisson-Wahrscheinlichkeitsdichtefunktion für eine Einzelbeobachtung, $y_i$, ist gegeben durch

$$f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

Da die Beobachtungen in unserer Stichprobe unabhängig sind, kann die Wahrscheinlichkeitsdichte unserer beobachteten Stichprobe ermittelt werden, indem das Produkt der Wahrscheinlichkeit der einzelnen Beobachtungen genommen wird:

$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} $$

Wir können die Wahrscheinlichkeitsdichte verwenden, um die Frage zu beantworten, wie wahrscheinlich es ist, dass unsere Daten bei bestimmten Parametern auftreten.

Die Wahrscheinlichkeitsfunktion

Die Unterschiede zwischen der Wahrscheinlichkeitsfunktion und der Wahrscheinlichkeitsdichtefunktion sind nuanciert, aber wichtig.

  • Eine Wahrscheinlichkeitsdichtefunktion drückt die Wahrscheinlichkeit aus, unsere Daten unter Berücksichtigung der zugrunde liegenden Verteilungsparameter zu beobachten. Es wird davon ausgegangen, dass die Parameter bekannt sind.
  • Die Likelihood-Funktion drückt die Wahrscheinlichkeit des Auftretens von Parameterwerten angesichts der beobachteten Daten aus. Es wird davon ausgegangen, dass die Parameter unbekannt sind.

Mathematisch sieht die Likelihood-Funktion ähnlich aus wie die Wahrscheinlichkeitsdichte:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Für unser Poisson-Beispiel können wir ziemlich einfach die Likelihood-Funktion

$$L(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10\theta}\theta^{20}}{207,360}$$

Die Schätzung der maximalen Wahrscheinlichkeit des unbekannten Parameters $ \ theta $ ist der Wert, der diese Wahrscheinlichkeit maximiert.

Die Log-Likelihood-Funktion

In der Praxis kann es schwierig sein, mit der gemeinsamen Verteilungsfunktion zu arbeiten, und stattdessen wird das $\ ln $ der Likelihood-Funktion verwendet. Im Fall unseres Poisson-Datensatzes ist die Log-Likelihood-Funktion:

$$\ ln(L(\theta|y)) = -n\ theta + \ln \ Summe {i = 1} ^ {n} y_i – \ln \ theta \ Summe {i= 1} ^{n} y_i! = -10\ theta + 20 \ ln (\theta) – \ln(207,360)$$

Die Log-Likelihood ist in der Regel einfacher zu optimieren als die Likelihood-Funktion.

Der Maximum-Likelihood-Schätzer

Ein Diagramm der Wahrscheinlichkeit und Log-Wahrscheinlichkeit für unseren Datensatz zeigt, dass die maximale Wahrscheinlichkeit auftritt, wenn $ \ theta = 2 $ . Dies bedeutet, dass unser Maximum-Likelihood-Schätzer $\hat{\theta}_{MLE} = 2 $ .

Die bedingte maximale Wahrscheinlichkeit

Im obigen einfachen Beispiel verwenden wir die Schätzung der maximalen Wahrscheinlichkeit, um die Parameter der Dichte unserer Daten zu schätzen. Wir können diese Idee erweitern, um die Beziehung zwischen unseren beobachteten Daten $ y $ und anderen erklärenden Variablen $ x $ abzuschätzen. In diesem Fall arbeiten wir mit der bedingten Maximum-Likelihood-Funktion:

$$L(\theta | y, x)$$

Wir werden dies in unserem nächsten Beispiel genauer betrachten.

Beispielanwendungen der Maximum-Likelihood-Schätzung

Die Vielseitigkeit der Maximum-Likelihood-Schätzung macht sie für viele empirische Anwendungen nützlich. Es kann auf alles angewendet werden, von den einfachsten linearen Regressionsmodellen bis hin zu fortgeschrittenen Auswahlmodellen.

In diesem Abschnitt betrachten wir zwei Anwendungen:

  • Das lineare Regressionsmodell
  • Das Probit-Modell

Maximum-Likelihood-Schätzung und das lineare Modell

Bei der linearen Regression gehen wir davon aus, dass die Modellresiduen identisch und unabhängig normalverteilt sind:

$$\ epsilon = y – \hat{\beta}x \sim N(0, \sigma^2)$$

Basierend auf dieser Annahme ist die Log-Likelihood-Funktion für den unbekannten Parametervektor $ \ theta = \{\ beta, \ sigma ^ 2 \} $, abhängig von den beobachteten Daten, $ y $ und $ x $ gegeben durch:

$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$

Die Maximum-Likelihood-Schätzungen von $\ beta $ und $\sigma ^2$ sind diejenigen, die die Wahrscheinlichkeit maximieren.

Maximum-Likelihood-Schätzung und das Probit-Modell

Das Probit-Modell ist ein grundlegendes Discrete-Choice-Modell.

Das Probit-Modell geht davon aus, dass es eine zugrunde liegende latente Variable gibt, die das diskrete Ergebnis steuert. Die latenten Variablen folgen einer Normalverteilung, so dass:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim N(0,1)$$

wobei

$$ y_i = \begin{Fälle} 0 \text{ wenn } y_i^ * \gt 0\\ 1 \text{ wenn } y_i^* \gt 0\\ \Ende{Fälle} $$

Die Wahrscheinlichkeitsdichte

$$P(y_i = 1 | X_i) = P(y_i^* \gt 0|X_i) = P(x\ theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \ gt -x\theta|X_i) = 1 – \Phi(-x\theta) = \Phi(x\theta)$$

wobei $\Phi$ die normale kumulative Verteilungsfunktion darstellt.

Die Log-likelihood für dieses Modell ist

$$\ln L(\theta) = \sum_{i=1}^n \Big $$

Herzlichen Glückwunsch! Nach dem heutigen Blog sollten Sie die Grundlagen der Maximum-Likelihood-Schätzung besser verstehen. Insbesondere haben wir abgedeckt:

  • Die grundlegende Theorie der Maximum-Likelihood-Schätzung.
  • Die Vor- und Nachteile der Maximum-Likelihood-Schätzung.
  • Die Log-Likelihood-Funktion.
  • Die bedingte Maximum-Likelihood-Funktion.
Erica( Direktorin für Anwendungen und Schulungen bei Aptech Systems, Inc. )

Erica arbeitet seit 2012 daran, das GAUSS-Universum aufzubauen, zu vertreiben und zu stärken. Sie ist eine Ökonomin, die sich mit Datenanalyse und Softwareentwicklung auskennt. Sie hat einen B.A. und MSc in Wirtschaftswissenschaften und Ingenieurwissenschaften erworben und verfügt über mehr als 15 Jahre kombinierte Branchen- und akademische Erfahrung in Datenanalyse und -forschung.

War dieser Beitrag hilfreich?

Lassen Sie uns wissen, ob Ihnen der Beitrag gefallen hat. Nur so können wir uns verbessern.
Ja
Nein

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

More: