Guía para Principiantes Para la Estimación de Máxima Verosimilitud

byErica * Publicado el 21 de septiembre de 2020 * actualizado el 23 de septiembre de 2020

Introducción

La máxima verosimilitud es una técnica ampliamente utilizada para la estimación con aplicaciones en muchas áreas, incluidos el modelado de series temporales, los datos de paneles, los datos discretos e incluso el aprendizaje automático.

En el blog de hoy, cubrimos los fundamentos de la estimación de máxima verosimilitud.

En particular, discutimos:

  1. La teoría básica de la máxima verosimilitud.
  2. Las ventajas y desventajas de la estimación de máxima verosimilitud.
  3. La función log-verosimilitud.
  4. Aplicaciones de modelado.

Además, consideramos una aplicación simple de estimación de máxima verosimilitud a un modelo de regresión lineal.

¿Qué es la Estimación de Máxima Verosimilitud?

La estimación de máxima verosimilitud es un método estadístico para estimar los parámetros de un modelo. En la estimación de máxima verosimilitud, los parámetros se eligen para maximizar la probabilidad de que el modelo supuesto produzca los datos observados.

Esto implica que para implementar la estimación de máxima verosimilitud debemos:

  1. Supongamos un modelo, también conocido como proceso de generación de datos, para nuestros datos.
  2. Ser capaz de derivar la función de verosimilitud para nuestros datos, dado nuestro modelo supuesto (discutiremos esto más adelante).

Una vez que se deriva la función de verosimilitud, la estimación de verosimilitud máxima no es más que un simple problema de optimización.

¿Cuáles son las Ventajas y Desventajas de la Estimación de Máxima Verosimilitud?

En este punto, es posible que se pregunte por qué debe elegir la estimación de máxima verosimilitud en lugar de otros métodos, como la regresión de mínimos cuadrados o el método generalizado de momentos. La realidad es que no siempre debemos elegir la estimación de máxima verosimilitud. Como cualquier técnica de estimación, la estimación de máxima verosimilitud tiene ventajas y desventajas.

Ventajas de la Estimación de Máxima Verosimilitud

Hay muchas ventajas de la estimación de máxima verosimilitud:

  • Si el modelo se asume correctamente, el estimador de máxima verosimilitud es el estimador más eficiente.
  • Proporciona un enfoque coherente pero flexible que lo hace adecuado para una amplia variedad de aplicaciones, incluidos los casos en que se violan las suposiciones de otros modelos.
  • Da como resultado estimaciones imparciales en muestras más grandes.
La eficiencia es una medida de la calidad de un estimador. Un estimador eficiente es uno que tiene una pequeña varianza o error cuadrado medio.

Desventajas de la Estimación de Máxima Verosimilitud

  • Se basa en la suposición de un modelo y la derivación de la función de verosimilitud, que no siempre es fácil.
  • Al igual que otros problemas de optimización, la estimación de máxima verosimilitud puede ser sensible a la elección de valores iniciales.
  • Dependiendo de la complejidad de la función de verosimilitud, la estimación numérica puede ser computacionalmente costosa.
  • Las estimaciones pueden estar sesgadas en muestras pequeñas.

¿Qué es la función de Verosimilitud?

La estimación de la máxima verosimilitud depende de la derivación de la función de verosimilitud. Por esta razón, es importante tener una buena comprensión de lo que es la función de verosimilitud y de dónde proviene.

Comencemos con el caso muy simple donde tenemos una serie y y with con 10 observaciones independientes: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

La Densidad de probabilidad

El primer paso en la estimación de máxima verosimilitud es asumir una distribución de probabilidad para los datos. Una función de densidad de probabilidad mide la probabilidad de observar los datos dados un conjunto de parámetros subyacentes del modelo.

En este caso, asumiremos que nuestros datos tienen una distribución de Poisson subyacente que es una suposición común, particularmente para datos que son datos de recuento no negativos.

La función de densidad de probabilidad de Poisson para una observación individual, $y_i!, viene dada por

f f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}}

Debido a que las observaciones en nuestra muestra son independientes, la densidad de probabilidad de nuestra muestra observada se puede encontrar tomando el producto de la probabilidad de las observaciones individuales:

f f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!}}

Podemos usar la densidad de probabilidad para responder a la pregunta de qué tan probable es que nuestros datos se produzcan dados parámetros específicos.

La Función de Verosimilitud

Las diferencias entre la función de verosimilitud y la función de densidad de probabilidad son matizadas pero importantes.

  • Una función de densidad de probabilidad expresa la probabilidad de observar nuestros datos dados los parámetros de distribución subyacentes. Asume que los parámetros son conocidos.
  • La función de verosimilitud expresa la verosimilitud de los valores de los parámetros dados los datos observados. Asume que los parámetros son desconocidos.

Matemáticamente la probabilidad función similar a la de densidad de probabilidad:

$$L(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Para nuestro Poisson ejemplo, se puede fácilmente derivar la probabilidad de función

$$L(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac {e^{-10 \ theta}\theta^{20}}{207,360}$$

La estimación de verosimilitud máxima del parámetro desconocido, $ \ theta is, es el valor que maximiza esta verosimilitud.

La Función de Log Verosimilitud

En la práctica, la función de distribución conjunta puede ser difícil de trabajar y en su lugar se usa el $\ln.de la función de verosimilitud. En el caso de nuestro conjunto de datos de Poisson, la función log-verosimilitud es:

$$\ln (L (\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10 \ theta + 20\ln (\theta) – \ln(207,360)$$

El log-verosimilitud suele ser más fácil de optimizar que la función verosimilitud.

El Estimador de Máxima Verosimilitud

Un gráfico de la verosimilitud y la verosimilitud logarítmica de nuestro conjunto de datos muestra que la verosimilitud máxima se produce cuando $ \ theta = 2$. Esto significa que nuestro estimador de máxima verosimilitud, $ \ hat {\theta} _ {MLE} = 2$.

La Verosimilitud Máxima condicional

En el ejemplo simple anterior, utilizamos la estimación de la verosimilitud máxima para estimar los parámetros de la densidad de nuestros datos. Podemos ampliar esta idea para estimar la relación entre nuestros datos observados, $y other, y otras variables explicativas,$ x.. En este caso, trabajamos con la función de máxima verosimilitud condicional:

L L (\theta / y, x)

Veremos esto más de cerca en nuestro siguiente ejemplo.

Ejemplos de aplicaciones de Estimación de Máxima Verosimilitud

La versatilidad de la estimación de máxima verosimilitud la hace útil en muchas aplicaciones empíricas. Se puede aplicar a todo, desde los modelos de regresión lineal más simples hasta los modelos de elección avanzada.

En esta sección veremos dos aplicaciones:

  • El modelo de regresión lineal
  • El modelo probit

Estimación de Máxima Verosimilitud y el Modelo Lineal

En la regresión lineal, se supone que son los residuos del modelo son idénticos e independientemente distribuidos normalmente:

$$\epsilon = y – \hat{\beta}x \sim N(0, \sigma^2)$$

Basado en esta suposición, la función de verosimilitud logarítmica para el vector de parámetros desconocidos, $\theta = \{\beta \sigma^2\}$, condicional a los datos observados, $y$ y $x$ es dada por:

$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$

El máximo de estimaciones de probabilidad de $\beta$ y $\sigma^2$ son aquellos que maximizan la probabilidad.

Estimación de máxima Verosimilitud y el Modelo Probit

El modelo probit es un modelo fundamental de elección discreta.

El modelo probit asume que hay una variable latente subyacente que impulsa el resultado discreto. Las variables latentes siguen una distribución normal tal que:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim N(0,1)$$

donde

$$ y_i = \begin{casos} 0 \text{ si } y_i^* \le 0\\ 1 \text{ si } y_i^* \gt 0\\ \end{casos} $$

La densidad de probabilidad

$$P(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \gt -x\theta|X_i) = 1 – \Phi (x\theta) = \Phi(x\theta)$$

donde $\Phi$ representa la normal función de distribución acumulativa.

La probabilidad de registro de este modelo es

Conclusions\ln L(\theta) = \sum_{i=1}^n \Big

Conclusiones

¡Felicitaciones! Después del blog de hoy, deberías tener una mejor comprensión de los fundamentos de la estimación de máxima verosimilitud. En particular, hemos cubierto:

  • La teoría básica de estimación de máxima verosimilitud.
  • Las ventajas y desventajas de la estimación de máxima verosimilitud.
  • La función log-verosimilitud.
  • La función de máxima verosimilitud condicional.
Erica (Directora de Aplicaciones y Capacitación en Aptech Systems, Inc. )

Erica ha estado trabajando para construir, distribuir y fortalecer el universo GAUSS desde 2012. Es economista experta en análisis de datos y desarrollo de software. Ha obtenido una licenciatura y una maestría en economía e ingeniería y tiene más de 15 años de experiencia combinada en la industria y la academia en análisis e investigación de datos.

Fue este artículo útil?

Háganos saber si le gustó la publicación. Es la única manera de mejorar.
No

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

More: