Guida Per Principianti alla Stima di Massima Verosimiglianza

byErica · PublishedSeptember 21, 2020 · UpdatedSeptember 23, 2020

Introduzione

di Massima verosimiglianza è una tecnica ampiamente utilizzata per la stima delle applicazioni in molte aree, tra cui la serie temporale di modellazione, pannello dati, di dati discreti, e anche di machine learning.

Nel blog di oggi, copriamo i fondamenti della stima della massima verosimiglianza.

In particolare, discutiamo:

  1. La teoria di base della massima verosimiglianza.
  2. I vantaggi e gli svantaggi della stima della massima verosimiglianza.
  3. La funzione log-verosimiglianza.
  4. Applicazioni di modellazione.

Inoltre, consideriamo una semplice applicazione della stima della massima verosimiglianza a un modello di regressione lineare.

Qual è la stima della massima verosimiglianza?

La stima della massima verosimiglianza è un metodo statistico per stimare i parametri di un modello. Nella stima della massima verosimiglianza, i parametri vengono scelti per massimizzare la probabilità che il modello assunto comporti i dati osservati.

Ciò implica che per implementare la stima della massima verosimiglianza dobbiamo:

  1. Supponiamo un modello, noto anche come processo di generazione dei dati, per i nostri dati.
  2. Essere in grado di derivare la funzione di verosimiglianza per i nostri dati, dato il nostro modello ipotizzato (ne parleremo più avanti).

Una volta derivata la funzione di verosimiglianza, la stima della massima verosimiglianza non è altro che un semplice problema di ottimizzazione.

Quali sono i vantaggi e gli svantaggi della stima della massima verosimiglianza?

A questo punto, potresti chiederti perché dovresti scegliere la stima della massima verosimiglianza rispetto ad altri metodi come la regressione dei minimi quadrati o il metodo generalizzato dei momenti. La realtà è che non dovremmo sempre scegliere la stima della massima verosimiglianza. Come ogni tecnica di stima, la stima della massima verosimiglianza presenta vantaggi e svantaggi.

Vantaggi della stima della massima verosimiglianza

Ci sono molti vantaggi della stima della massima verosimiglianza:

  • Se il modello viene assunto correttamente, lo stimatore di massima verosimiglianza è lo stimatore più efficiente.
  • Fornisce un approccio coerente ma flessibile che lo rende adatto a un’ampia varietà di applicazioni, compresi i casi in cui vengono violate le ipotesi di altri modelli.
  • Si traduce in stime imparziali in campioni più grandi.
L’efficienza è una misura della qualità di uno stimatore. Uno stimatore efficiente è uno che ha una piccola varianza o errore medio quadrato.

Svantaggi della stima della massima verosimiglianza

  • Si basa sull’assunzione di un modello e sulla derivazione della funzione di verosimiglianza che non è sempre facile.
  • Come altri problemi di ottimizzazione, la stima della massima verosimiglianza può essere sensibile alla scelta dei valori iniziali.
  • A seconda della complessità della funzione di verosimiglianza, la stima numerica può essere computazionalmente costosa.
  • Le stime possono essere distorte in piccoli campioni.

Qual è la funzione di verosimiglianza?

La stima della massima verosimiglianza dipende dalla derivazione della funzione di verosimiglianza. Per questo motivo, è importante avere una buona comprensione di ciò che la funzione di verosimiglianza è e da dove viene.

Iniziamo con il caso molto semplice in cui abbiamo una serie y y with con 10 osservazioni indipendenti: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

La densità di probabilità

Il primo passo nella stima della massima verosimiglianza consiste nell’assumere una distribuzione di probabilità per i dati. Una funzione di densità di probabilità misura la probabilità di osservare i dati forniti da un insieme di parametri del modello sottostante.

In questo caso, assumeremo che i nostri dati abbiano una distribuzione di Poisson sottostante che è un’ipotesi comune, in particolare per i dati che sono dati di conteggio non negativi.

La funzione di densità di probabilità di Poisson per un’osservazione individuale, y y_i!, è data da

f f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

Perché le osservazioni nel nostro campione sono indipendenti, la densità di probabilità del nostro campione osservata può essere trovato prendendo il prodotto delle probabilità dei singoli osservazioni:

$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i! Non ci sono dubbi: non ci sono dubbi.!}

Possiamo usare la densità di probabilità per rispondere alla domanda su quanto è probabile che i nostri dati si verifichino dati specifici parametri.

La funzione di verosimiglianza

Le differenze tra la funzione di verosimiglianza e la funzione di densità di probabilità sono sfumate ma importanti.

  • Una funzione di densità di probabilità esprime la probabilità di osservare i nostri dati dati i parametri di distribuzione sottostanti. Presuppone che i parametri siano noti.
  • La funzione verosimiglianza esprime la probabilità che i valori dei parametri si verifichino dati i dati osservati. Presuppone che i parametri siano sconosciuti.

Matematicamente la funzione di verosimiglianza, simile alla densità di probabilità:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Per la nostra Poisson esempio, si può abbastanza facilmente ricavare la funzione di verosimiglianza

$$L(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \ frac{e^{-10 \ theta} \ theta^{20}}{207,360}$$

La stima di massima verosimiglianza del parametro sconosciuto, th \ theta$, è il valore che massimizza questa probabilità.

La funzione Log-Verosimiglianza

In pratica, la funzione di distribuzione congiunta può essere difficile da utilizzare e viene utilizzato il $\ln function della funzione verosimiglianza. Nel caso del nostro set di dati di Poisson, la funzione log-likelihood è:

$$\ln(L (\theta / y)) = – n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10 \ theta + 20 \ ln (\theta)- \ ln(207,360)$$

Il log-verosimiglianza è di solito più facile da ottimizzare rispetto alla funzione di verosimiglianza.

Lo stimatore di massima verosimiglianza

Un grafico della verosimiglianza e della log-verosimiglianza per il nostro set di dati mostra che la massima verosimiglianza si verifica quando $ \ theta = 2$. Ciò significa che il nostro stimatore di massima verosimiglianza, hat \ hat {\theta} _ {MLE} = 2$.

La massima verosimiglianza condizionale

Nel semplice esempio sopra, usiamo la stima della massima verosimiglianza per stimare i parametri della densità dei nostri dati. Possiamo estendere questa idea per stimare la relazione tra i nostri dati osservati, y y$ e altre variabili esplicative, x x$. In questo caso, lavoriamo con la funzione di massima verosimiglianza condizionale:

L L(\theta | y, x)

Vedremo più da vicino questo nel nostro prossimo esempio.

Esempi di applicazioni di stima della massima verosimiglianza

La versatilità della stima della massima verosimiglianza lo rende utile in molte applicazioni empiriche. Può essere applicato a tutto, dai modelli di regressione lineare più semplici ai modelli di scelta avanzata.

In questa sezione vedremo due applicazioni:

  • Il modello di regressione lineare
  • Il modello probit

Stima di Massima Verosimiglianza e il Modello Lineare

Nella regressione lineare, si assume che il modello di residui sono identici e in modo indipendente distribuita normalmente:

$$\epsilon = y – \hat{\beta}x \sim N(0, \sigma^2)$$

In base a tale presupposto, la log-verosimiglianza per il parametro sconosciuto, il vettore $\theta = \{\beta, \sigma^2\}$, a condizione che i dati osservati, $y$ e $x$ è dato da:

$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$

La stima di massima verosimiglianza di $\beta$ e $\sigma^2$ sono quelle che massimizzano la probabilità.

Stima della massima verosimiglianza e il modello Probit

Il modello probit è un modello fondamentale a scelta discreta.

Il modello probit presuppone che vi sia una variabile latente sottostante che guida il risultato discreto. Le variabili latenti seguono una distribuzione normale tale che:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim N(0,1)$$

dove

$$ y_i = \begin{casi} 0 \text{ se } y_i^* \le 0\\ 1 \text{ se } y_i^* \gt 0\\ \end{casi} $$

La densità di probabilità

$$P(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \gt -x\theta|X_i) = 1 – \Phi (x\theta) = \Phi(x\theta)$$

dove $\Phi$ rappresenta la normale funzione di distribuzione cumulativa.

La probabilità di log per questo modello è

\ \ ln L (\theta) = \sum_ {i = 1} ^ n \Big

Conclusioni

Congratulazioni! Dopo il blog di oggi, dovresti avere una migliore comprensione dei fondamenti della stima della massima verosimiglianza. In particolare, abbiamo coperto:

  • La teoria di base della stima della massima verosimiglianza.
  • I vantaggi e gli svantaggi della stima della massima verosimiglianza.
  • La funzione log-verosimiglianza.
  • La funzione di massima verosimiglianza condizionale.
Erica (Direttore delle applicazioni e della formazione presso Aptech Systems, Inc. )

Erica ha lavorato per costruire, distribuire e rafforzare l’universo di GAUSS dal 2012. Lei è un economista esperto in analisi dei dati e lo sviluppo di software. Ha conseguito un B. A. e MSc in economia e ingegneria e ha oltre 15 anni combinato industria e esperienza accademica in analisi dei dati e la ricerca.

Questo post è stato utile?

Fateci sapere se ti è piaciuto il post. E ‘ l’unico modo per migliorare.
No

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

More: