Guia do Iniciante Para Estimativa de Máxima Verossimilhança

byErica · PublishedSeptember 21, 2020 · UpdatedSeptember 23, 2020

Introdução

Máxima verossimilhança é uma técnica amplamente utilizada para a estimativa com aplicações em diversas áreas, incluindo o tempo de modelagem de série, painel de dados, dados discretos, e até mesmo o aprendizado de máquina.

no blog de hoje, nós cobrimos os fundamentos da estimativa de máxima probabilidade.

em particular, discutimos:

  1. a teoria básica da máxima probabilidade.
  2. as vantagens e desvantagens da estimativa máxima da probabilidade.
  3. a função de probabilidade logarítmica.
  4. aplicações de modelos.

in addition, we consider a simple application of maximum probability estimation to a linear regression model.

Qual é a estimativa da probabilidade máxima?

a estimativa máxima da probabilidade é um método estatístico para estimar os parâmetros de um modelo. Na estimativa da probabilidade máxima, os parâmetros são escolhidos para maximizar a probabilidade de que o modelo assumido resulte nos dados observados.

isto implica que, a fim de implementar a estimativa máxima de probabilidade, devemos:

  1. assuma um modelo, também conhecido como processo gerador de dados, para nossos dados.
  2. ser capaz de derivar a função de probabilidade para os nossos dados, dado o nosso modelo assumido (vamos discutir isso mais tarde).

uma vez que a função de probabilidade é derivada, a estimativa máxima de probabilidade é nada mais do que um simples problema de otimização.

quais são as vantagens e desvantagens da estimativa da probabilidade máxima?

neste ponto, você pode estar se perguntando por que você deve escolher estimativa máxima de probabilidade sobre outros métodos, como regressão dos mínimos quadrados ou o método generalizado de momentos. A realidade é que nem sempre devemos escolher a estimativa máxima de probabilidade. Como qualquer técnica de estimativa, a estimativa máxima de probabilidade tem vantagens e desvantagens.

vantagens da estimativa da probabilidade máxima

existem muitas vantagens da estimativa da probabilidade máxima:

  • se o modelo for corretamente assumido, o estimador de probabilidade máxima é o estimador mais eficiente.
  • proporciona uma abordagem consistente mas flexível que a torna adequada para uma grande variedade de aplicações, incluindo casos em que pressupostos de outros modelos são violados.
  • resulta em estimativas imparciais em amostras maiores.
eficiência é uma medida da qualidade de um estimador. Um estimador eficiente é aquele que tem uma pequena variância ou erro médio ao quadrado.

desvantagens da estimativa de probabilidade máxima

  • baseia-se no pressuposto de um modelo e na derivação da função de probabilidade que nem sempre é fácil.
  • tal como outros problemas de optimização, a estimativa máxima da probabilidade pode ser sensível à escolha dos valores iniciais.
  • dependendo da complexidade da função de probabilidade, a estimativa numérica pode ser computacionalmente cara.
  • as estimativas podem ser tendenciosas em pequenas amostras.

Qual é a função de probabilidade?

a estimativa da probabilidade máxima depende da derivação da função da probabilidade. Por esta razão, é importante ter uma boa compreensão de qual é a função de probabilidade e de onde ela vem.

vamos começar com o caso muito simples onde temos uma série $Y$ com 10 observações independentes: 5, 0, 1, 1, 0, 3, 2, 3, 4, 1.

a densidade de probabilidade

o primeiro passo na estimativa de probabilidade máxima é assumir uma distribuição de probabilidade para os dados. Uma função de densidade de probabilidade mede a probabilidade de observar os dados dado um conjunto de parâmetros subjacentes do modelo.

neste caso, vamos assumir que os nossos dados têm uma distribuição de Poisson subjacente, que é uma suposição comum, particularmente para os dados que são dados de contagem não-negativa.

Poisson função de densidade de probabilidade para uma observação individual, $y_i$, é dada por

$$f(y_i | \theta ) = \frac{e^{-\theta}\theta^{y_i}}{y_i!}$$

Porque as observações em nossa amostra são independentes, a densidade de probabilidade da nossa amostra observada pode ser encontrado por tirar o produto da probabilidade de observações individuais:

$$f(y_1, y_2, \ldots, y_{10}|\theta) = \prod_{i=1}^{10} \frac{e^{-\theta}\theta^{y_i}}{y_i!} = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} $

podemos usar a densidade de probabilidade para responder à questão de como é provável que os nossos dados ocorram dado parâmetros específicos.

a função probabilidade

as diferenças entre a função probabilidade e a função densidade de probabilidade são nuances mas importantes.

  • uma função de densidade de probabilidade expressa a probabilidade de observar os nossos dados, dados os parâmetros de distribuição subjacentes. Assume que os parâmetros são conhecidos.
  • a função de probabilidade expressa a probabilidade de ocorrência de valores de parâmetros, tendo em conta os dados observados. Assume que os parâmetros são desconhecidos.

Matematicamente, a função de probabilidade é semelhante ao de densidade de probabilidade:

$L$(\theta|y_1, y_2, \ldots, y_{10}) = f(y_1, y_2, \ldots, y_{10}|\theta)$$

Para o nosso Poisson exemplo, podemos facilmente derivar a probabilidade de função

$L$(\theta|y_1, y_2, \ldots, y_{10}) = \frac{e^{-10\theta}\theta^{\sum_{i=1}^{10}y_i}}{\prod_{i=1}^{10}y_i!} = \frac{e^{-10\theta}\theta^{20}}{207,360}$$

A estimativa de máxima verossimilhança do parâmetro desconhecido, $\theta$, é o valor que maximiza esta probabilidade.

a função de probabilidade de Log

na prática, a função de distribuição conjunta pode ser difícil de trabalhar e a $\ln$ da função probabilidade é usada em vez disso. No caso do nosso Poisson conjunto de dados de log-verossimilhança função é:

$$\ln(L(\theta|y)) = -n\theta + \ln \sum_{i=1}^{n} y_i – \ln \theta \sum_{i=1}^{n} y_i! = -10\theta + 20 \ln (\theta) – \ln(207,360)$$

a probabilidade de log é geralmente mais fácil de otimizar do que a função probabilidade.

o estimador de probabilidade máxima

um gráfico da probabilidade e log-probabilidade para o nosso conjunto de dados mostra que a probabilidade máxima ocorre quando $\theta = 2$. Isto significa que o nosso estimador de probabilidade máxima, $\hat {\theta}_{MLE} = 2$.

a probabilidade máxima condicional

no exemplo simples acima, usamos a estimativa máxima de probabilidade para estimar os parâmetros da densidade dos nossos dados. Podemos estender esta ideia para estimar a relação entre os nossos dados observados, $y$, e outras variáveis explicativas, $x$. Neste caso, trabalhamos com a função de probabilidade máxima condicional:

$L(\theta | y, x)$

vamos olhar mais de perto para isto no nosso próximo exemplo.

Example Applications of Maximum Probability Estimation

The versility of maximum probability estimation makes it useful across many empirical applications. Ele pode ser aplicado a tudo, desde os modelos de regressão linear mais simples até os modelos de escolha avançados.

nesta secção analisaremos duas aplicações:

  • O modelo de regressão linear
  • O modelo probit

Estimativa de Máxima Verossimilhança e o Modelo Linear

Na regressão linear, vamos assumir que o modelo de resíduos são idênticos, de forma independente e normalmente distribuído:

$$\epsilon = y \hat{\beta}x \sim N(0, \sigma^2)$$

Com base neste pressuposto, o de log-probabilidade de função para o parâmetro desconhecido vetor $\theta = \{\beta, \sigma^2\}$, condicional aos dados observados, $y$ e $x$ é dada por:

$$\ln L(\theta|y, x) = – \frac{1}{2}\sum_{i=1}^n \Big $$

As estimativas de máxima verossimilhança de $\beta$ e $\sigma^2$ são aqueles que maximizam a probabilidade.

Maximum Likelihood Estimation and the Probit Model

The probit model is a fundamental discrete choice model.

o modelo probit assume que existe uma variável latente subjacente que conduz o resultado discreto. As variáveis latentes seguem uma distribuição normal tal que:

$$y^* = x\theta + \epsilon$$$$\epsilon \sim N(0,1)$$

onde

$$ y_i = \begin{cases} 0 \text{ se } y_i^* \le 0\\ 1 \text{ se } y_i^* \gt 0\\ \end{cases} $$

A densidade de probabilidade

$$P(y_i = 1|X_i) = P(y_i^* \gt 0|X_i) = P(x\theta + \epsilon\gt 0|X_i) = $$$$P(\epsilon \gt -x\theta|X_i) = 1 – \Phi(-x\theta) = \Phi(x\theta)$$

onde $\Phi$ representa a função de distribuição cumulativa normal.

a probabilidade de registo deste modelo é

$\ln l(\theta) = \sum_{i=1}^N \Big$

conclusões

Parabéns! Depois do blog de hoje, você deve ter uma melhor compreensão dos fundamentos da estimativa máxima probabilidade. Em particular, nós cobrimos:

  • the basic theory of maximum likelihood estimation.
  • as vantagens e desvantagens da estimativa máxima da probabilidade.
  • a função de probabilidade logarítmica.
  • a função condicional de probabilidade máxima.
Erica (Director de aplicações e formação na Aptech Systems, Inc. )

Erica tem trabalhado para construir, distribuir e fortalecer o universo GAUSS desde 2012. Ela é uma economista especializada em análise de dados e desenvolvimento de software. Ela ganhou um Bacharelato em Economia e engenharia e tem mais de 15 anos combinado indústria e experiência acadêmica em análise de dados e pesquisa.

este post foi útil?Deixe-nos saber se gostou do post. Só assim podemos melhorar.

Sim
Não

Deixe uma resposta

O seu endereço de email não será publicado.

More: