Pós-graduação → Probabilidade e estatística → Inferência estatística ↓
Estimativa de máxima verossimilhança
Estimação de máxima verossimilhança (MLE) é uma técnica estatística usada para estimar os parâmetros de um modelo estatístico. Esta técnica fundamental é amplamente aplicável em vários campos como economia, finanças, biologia, aprendizado de máquina e outros. Em termos simples, MLE ajuda a encontrar os valores dos parâmetros para o modelo que tornam seus dados observados mais prováveis. A ideia principal é maximizar a função de verossimilhança, que é a probabilidade de observar os dados, dado um conjunto de parâmetros.
Entendendo os conceitos básicos
Antes de mergulhar nas complexidades da estimativa de máxima verossimilhança, é essencial entender alguns conceitos básicos de estatística e probabilidade.
Modelos estatísticos
Um modelo estatístico é uma representação matemática que descreve variáveis aleatórias e seus relacionamentos. Por exemplo, suponha que você tenha um conjunto de pontos de dados. Um modelo estatístico pode expressar esses pontos de dados como distribuídos normalmente, com uma média (mu) e um desvio padrão (sigma).
Parâmetros
Os parâmetros são aspectos do modelo que podem ser ajustados para ajustar os dados. No exemplo de distribuição normal acima, os parâmetros são a média ((mu)) e o desvio padrão ((sigma)).
Verossimilhança
A verossimilhança de um conjunto de valores de parâmetros é definida como a probabilidade de observar os dados, dados esses parâmetros. Não é uma probabilidade em si, mas sim uma função dos parâmetros. Em termos mais formais, se (theta) representa os parâmetros da distribuição e (X) representa os dados observados, então a verossimilhança é (L(theta | X)).
O procedimento para a estimativa de máxima verossimilhança
Vamos analisar as etapas envolvidas na estimativa de máxima verossimilhança:
Passo 1: Escolher um modelo estatístico
O primeiro passo é escolher um modelo estatístico apropriado com base na natureza dos seus dados. Por exemplo, se você está lidando com dados de medição de altura, modelá-los como uma distribuição normal pode ser apropriado.
Passo 2: Definir a função de verossimilhança
O próximo passo é definir a função de verossimilhança para o modelo escolhido. Por exemplo, suponha que seus dados sejam normalmente distribuídos; a função de verossimilhança para a amostra de dados (X = x_1, x_2, ldots, x_n) e os parâmetros (mu) (média) e (sigma^2) (variância) é:
L(mu, sigma^2 | X) = prod_{i=1}^{n} frac{1}{sqrt{2pisigma^2}} expleft(-frac{(x_i - mu)^2}{2sigma^2}right)
Passo 3: Maximizar a função de verossimilhança
Para encontrar os valores dos parâmetros que maximizam essa função de verossimilhança, costumamos trabalhar com a função de log-verossimilhança porque muitas vezes é mais fácil de manejar:
ell(mu, sigma^2 | X) = sum_{i=1}^{n} left( -frac{1}{2} log(2pisigma^2) - frac{(x_i - mu)^2}{2sigma^2} right)
Você então toma a derivada da função de log-verossimilhança em relação aos parâmetros e define-os como zero para resolver os parâmetros.
Passo 4: Resolver para os parâmetros
Para a distribuição normal:
frac{partial}{partial mu}ell(mu, sigma^2 | X) = 0 quad Rightarrow quad hat{mu} = frac{1}{n}sum_{i=1}^{n} x_i
frac{partial}{partial sigma^2}ell(mu, sigma^2 | X) = 0 quad Rightarrow quad hat{sigma}^2 = frac{1}{n}sum_{i=1}^{n} (x_i - hat{mu})^2
As soluções, (hat{mu}) e (hat{sigma}^2), são estimativas de máxima verossimilhança para a média e a variância.
Exemplo visual
Vamos imaginar como a função de verossimilhança funciona para um conjunto de dados simples e um modelo com um único parâmetro, (p), que representa a probabilidade de sucesso em uma distribuição binomial. Vamos tirar dados de uma série de lançamentos de moeda independentes resultando em 4 caras em 10 lançamentos.
Este exemplo mostra a função de verossimilhança para a distribuição binomial. O ponto vermelho indica o valor do parâmetro (p) que maximiza a função de verossimilhança, que neste caso é cerca de 0.4 ou 40% de probabilidade de obter caras.
Propriedades dos estimadores de máxima verossimilhança
Os estimadores de máxima verossimilhança têm várias propriedades notáveis que os tornam particularmente úteis na inferência estatística:
Consistência
À medida que o tamanho da amostra aumenta, um estimador é consistente se converge para a probabilidade do valor real do parâmetro. Os MLUs geralmente têm essa propriedade sob condições padrão, o que significa que eles se tornam mais precisos à medida que você coleta mais dados.
Eficiência
No contexto de estimadores não tendenciosos, eficiência refere-se ao fato de que a MLU alcança a menor variância possível entre todos os estimadores não tendenciosos do parâmetro. Essa variância é conhecida como limite inferior de Cramer-Rao.
Normalidade assintótica
Sob certas condições de regularidade, a distribuição do MLU tende para uma distribuição normal à medida que o tamanho da amostra aumenta. Isso é particularmente útil para construir intervalos de confiança.
Exemplos de MLE em diferentes modelos
Exemplo 1: Estimativa do parâmetro da distribuição exponencial
Considere uma distribuição exponencial com parâmetro (lambda). Se você tem um conjunto de dados (X = x_1, x_2, ..., x_n), então a função de verossimilhança é dada por:
L(lambda | X) = prod_{i=1}^{n} lambda exp(-lambda x_i)
Tomando o logaritmo:
ell(lambda | X) = n log(lambda) - lambda sum_{i=1}^{n} x_i
Definindo a derivada para zero obtemos:
frac{partial}{partial lambda}ell(lambda | X) = frac{n}{lambda} - sum_{i=1}^{n} x_i = 0
hat{lambda} = frac{n}{sum_{i=1}^{n} x_i}
Exemplo 2: Estimativa de parâmetros em um modelo de regressão linear
Em um modelo de regressão linear simples da forma (y = beta_0 + beta_1 x + epsilon), onde (epsilon sim N(0, sigma^2)), a função de verossimilhança é:
L(beta_0, beta_1, sigma^2 | y, x) = prod_{i=1}^{n} frac{1}{sqrt{2pisigma^2}} expleft(-frac{(y_i - beta_0 - beta_1 x_i)^2}{2sigma^2}right)
Maximizar essa verossimilhança envolve encontrar estimativas para (beta_0), (beta_1) e (sigma^2). No entanto, isso rapidamente se transforma em resolver as equações usuais ou usar cálculo matricial para obter:
hat{beta} = (X^TX)^{-1} X^T y
para um vetor de coeficientes em forma matricial (beta).
Vantagens e desvantagens do MLE
Entender as vantagens e desvantagens do MLE pode ajudá-lo a decidir se é um método apropriado para a estimativa de parâmetros.
Vantagens
- Flexibilidade: O MLE pode ser aplicado a muitas distribuições e cenários diferentes. O conceito fundamental de maximizar a verossimilhança dos dados observados se alinha bem com uma variedade de situações.
- Propriedades assintóticas: Como discutido anteriormente, os MLUs possuem algumas propriedades assintóticas desejáveis, como consistência, eficiência e normalidade, que os tornam estatisticamente robustos para amostras grandes.
- Claridade: Este método produz um resultado direto – os parâmetros estimados tornam os dados observados 'mais prováveis', dadas as suposições do modelo.
Desvantagens
- Complexidade: Para modelos complexos, a função de verossimilhança pode ser complicada e maximizá-la pode exigir métodos numéricos sofisticados. Isso pode ser computacionalmente intensivo.
- Sensibilidade às suposições do modelo: As MLUs são altamente dependentes da precisão do modelo. A especificação errada do modelo pode levar a estimativas de parâmetros tendenciosas.
- Limitações de amostra finita: Em tamanhos de amostra pequenos, o MLE pode não exibir suas propriedades assintóticas como eficiência, resultando em estimativas menos confiáveis.
Conclusão
Estimativa de máxima verossimilhança é uma técnica central na inferência estatística, fornecendo uma abordagem estruturada e poderosa para a estimativa de parâmetros em uma ampla variedade de modelos estatísticos. No entanto, requer consideração cuidadosa da escolha do modelo, bem como prontidão para enfrentar desafios computacionais em modelos complexos. Apesar de suas limitações, sua aplicação flexível e propriedades assintóticas garantem sua relevância contínua e uso difundido tanto em estatísticas teóricas quanto aplicadas.