Posgrado → Probabilidad y estadística → Inferencia estadística ↓
Estimación de máxima verosimilitud
La estimación de máxima verosimilitud (MLE) es una técnica estadística utilizada para estimar los parámetros de un modelo estadístico. Esta técnica fundamental es ampliamente aplicable en varios campos como economía, finanzas, biología, aprendizaje automático y otros. En términos simples, la MLE te ayuda a encontrar los valores de los parámetros del modelo que hacen que tus datos observados sean más probables. La idea principal es maximizar la función de verosimilitud, que es la probabilidad de observar los datos dado un conjunto de parámetros.
Entender los conceptos básicos
Antes de profundizar en las complejidades de la estimación de máxima verosimilitud, es esencial entender algunos conceptos básicos de estadística y probabilidad.
Modelos estadísticos
Un modelo estadístico es una representación matemática que describe variables aleatorias y sus relaciones. Por ejemplo, supongamos que tienes un conjunto de puntos de datos. Un modelo estadístico podría expresar estos puntos de datos como distribuidos normalmente, con una media (mu) y una desviación estándar (sigma).
Parámetros
Los parámetros son aspectos del modelo que pueden ajustarse para adecuarse a los datos. En el ejemplo de distribución normal mencionado anteriormente, los parámetros son la media ((mu)) y la desviación estándar ((sigma)).
Posibilidad
La verosimilitud de un conjunto de valores de parámetros se define como la probabilidad de observar los datos dados esos parámetros. No es una probabilidad en sí misma, sino más bien una función de los parámetros. En términos más formales, si (theta) representa los parámetros de la distribución y (X) representa los datos observados, entonces la verosimilitud es (L(theta | X)).
El procedimiento para la estimación de máxima verosimilitud
Analicemos los pasos involucrados en la estimación de máxima verosimilitud:
Paso 1: Elegir un modelo estadístico
El primer paso es elegir un modelo estadístico apropiado basado en la naturaleza de tus datos. Por ejemplo, si estás tratando con datos de medición de altura, modelarlos como una distribución normal puede ser apropiado.
Paso 2: Definir la función de verosimilitud
El siguiente paso es definir la función de verosimilitud para el modelo que elijas. Por ejemplo, asumiendo que tus datos están distribuidos normalmente, la función de verosimilitud para la muestra de datos (X = x_1, x_2, ldots, x_n) y los parámetros (mu) (media) y (sigma^2) (varianza) es:
L(mu, sigma^2 | X) = prod_{i=1}^{n} frac{1}{sqrt{2pisigma^2}} expleft(-frac{(x_i - mu)^2}{2sigma^2}right)
Paso 3: Maximizar la función de verosimilitud
Para encontrar los valores de los parámetros que maximizan esta función de verosimilitud, usualmente trabajamos con la función de log-verosimilitud porque a menudo es más fácil de manejar:
ell(mu, sigma^2 | X) = sum_{i=1}^{n} left( -frac{1}{2} log(2pisigma^2) - frac{(x_i - mu)^2}{2sigma^2} right)
Luego tomas la derivada de la función de log-verosimilitud con respecto a los parámetros y las igualas a cero para resolver los parámetros.
Paso 4: Resolver para los parámetros
Para la distribución normal:
frac{partial}{partial mu}ell(mu, sigma^2 | X) = 0 quad Rightarrow quad hat{mu} = frac{1}{n}sum_{i=1}^{n} x_i
frac{partial}{partial sigma^2}ell(mu, sigma^2 | X) = 0 quad Rightarrow quad hat{sigma}^2 = frac{1}{n}sum_{i=1}^{n} (x_i - hat{mu})^2
Las soluciones, (hat{mu}) y (hat{sigma}^2), son estimaciones de máxima verosimilitud para la media y la varianza.
Ejemplo visual
Imaginemos cómo funciona la función de verosimilitud para un conjunto de datos simple y un modelo con un solo parámetro, (p), que representa la probabilidad de éxito en una distribución binomial. Tomaremos datos de una serie de lanzamientos de monedas independientes que resultan en 4 caras de 10 lanzamientos.
Este ejemplo muestra la función de verosimilitud para la distribución binomial. El punto rojo indica el valor del parámetro (p) que maximiza la función de verosimilitud, que en este caso es aproximadamente 0.4 o 40% de probabilidad de obtener caras.
Propiedades de los estimadores de máxima verosimilitud
Los estimadores de máxima verosimilitud tienen varias propiedades notables que los hacen particularmente útiles en la inferencia estadística:
Estabilidad
A medida que el tamaño de la muestra aumenta, un estimador es consistente si converge a la probabilidad del valor verdadero del parámetro. Los MLEs usualmente tienen esta propiedad bajo condiciones estándares, lo que significa que se vuelven más precisos a medida que recolectas más datos.
Capacidad
En el contexto de los estimadores insesgados, la eficiencia se refiere al hecho de que el MLE logra la menor varianza posible entre todos los estimadores insesgados del parámetro. Esta varianza se conoce como el límite inferior de Cramer-Rao.
Estado normal
Bajo ciertas condiciones de regularidad, la distribución del MLE tiende hacia una distribución normal a medida que aumenta el tamaño de la muestra. Esto es particularmente útil para construir intervalos de confianza.
Ejemplos de MLE en diferentes modelos
Ejemplo 1: Estimación del parámetro de la distribución exponencial
Considera una distribución exponencial con parámetro (lambda). Si tienes un conjunto de datos (X = x_1, x_2, ..., x_n), entonces la función de verosimilitud está dada por:
L(lambda | X) = prod_{i=1}^{n} lambda exp(-lambda x_i)
Tomando el logaritmo:
ell(lambda | X) = n log(lambda) - lambda sum_{i=1}^{n} x_i
Igualando la derivada a cero se obtiene:
frac{partial}{partial lambda}ell(lambda | X) = frac{n}{lambda} - sum_{i=1}^{n} x_i = 0
hat{lambda} = frac{n}{sum_{i=1}^{n} x_i}
Ejemplo 2: Estimación de parámetros en un modelo de regresión lineal
En un modelo simple de regresión lineal de la forma (y = beta_0 + beta_1 x + epsilon), donde (epsilon sim N(0, sigma^2)), la función de verosimilitud es:
L(beta_0, beta_1, sigma^2 | y, x) = prod_{i=1}^{n} frac{1}{sqrt{2pisigma^2}} expleft(-frac{(y_i - beta_0 - beta_1 x_i)^2}{2sigma^2}right)
Maximizar esta verosimilitud implica encontrar estimaciones para (beta_0), (beta_1) y (sigma^2). Sin embargo, esto rápidamente se convierte en resolver las ecuaciones usuales o en utilizar cálculo matricial para obtener:
hat{beta} = (X^TX)^{-1} X^T y
para un vector de coeficientes en forma matricial (beta).
Ventajas y desventajas de M.L.E.
Entender las ventajas y desventajas de MLE puede ayudarte a decidir si es un método apropiado para la estimación de parámetros.
Beneficio
- Flexibilidad: MLE puede aplicarse a muchas distribuciones y escenarios diferentes. El concepto fundamental de maximizar la verosimilitud de los datos observados se alinea bien con una variedad de situaciones.
- Propiedades asintóticas: Como se discutió anteriormente, los MLEs tienen algunas propiedades asintóticas deseables, como consistencia, eficiencia y normalidad, que los hacen estadísticamente robustos para grandes muestras.
- Explicabilidad: Este método produce un resultado sencillo: los parámetros estimados hacen que los datos observados sean 'más probables', dado que las suposiciones del modelo.
Pérdida
- Complejidad: Para modelos complejos, la función de verosimilitud puede ser complicada, y maximizarla puede requerir métodos numéricos sofisticados. Esto puede ser computacionalmente intensivo.
- Sensibilidad a las suposiciones del modelo: Los MLEs son altamente dependientes de la precisión del modelo. Especificar incorrectamente el modelo puede llevar a estimaciones sesgadas de parámetros.
- Inconvenientes de muestra finita: En tamaños de muestra pequeños, MLE puede no exhibir sus propiedades asintóticas tales como eficiencia, resultando en estimaciones menos confiables.
Conclusión
La estimación de máxima verosimilitud se erige como una técnica fundamental en la inferencia estadística, proporcionando un enfoque estructurado y poderoso para la estimación de parámetros en una amplia variedad de modelos estadísticos. Sin embargo, requiere una consideración cuidadosa de la elección del modelo, así como una preparación para abordar los desafíos computacionales en modelos complejos. A pesar de sus limitaciones, su aplicación flexible y propiedades asintóticas aseguran su continua relevancia y uso generalizado en estadísticas teóricas y aplicadas.