Grado 11 → Probabilidad y estadísticas → Figuras ↓
Correlación y Regresión
Introducción
En estadística, es importante entender la relación entre dos variables. Esto puede revelar cómo una variable puede afectar a otra. Dos conceptos clave que nos ayudan a entender estas relaciones son "correlación" y "regresión". Estos conceptos nos permiten investigar si las variables están relacionadas entre sí y con qué intensidad. ¡Hablemos en profundidad sobre estos interesantes temas!
Correlación
La correlación es una medida estadística que describe el tamaño y la dirección de la relación entre dos variables, generalmente denotadas como X e Y. Nos dice si las variables se mueven juntas (y si lo hacen, si se mueven en la misma o en direcciones opuestas) sin implicar una relación de causa-efecto.
Entendiendo la correlación
Cuando dos variables están correlacionadas, significa que existe un patrón predecible en los cambios que ocurren entre ellas. La correlación puede ser positiva, negativa o cero.
- Correlación positiva: A medida que una variable aumenta, la otra también aumenta. Por ejemplo, la relación entre la cantidad de tiempo estudiado y la puntuación obtenida en un examen podría mostrar una correlación positiva.
- Correlación negativa: A medida que una variable aumenta, la otra disminuye. Un ejemplo de esto podría ser la relación entre la cantidad de películas vistas por semana y el tiempo dedicado a estudiar.
- No hay correlación (correlación cero): No existe un cambio predecible que conecte las variables. Por ejemplo, se espera que la relación entre el color de ojos y el nivel de inteligencia no muestre correlación.
Ejemplo visual de correlación
En un diagrama de dispersión, la correlación entre dos variables se muestra visualmente:
Expresando la correlación matemáticamente
El coeficiente de correlación más comúnmente utilizado es el coeficiente de correlación de Pearson, denotado por r
. La fórmula para calcularlo es la siguiente:
R = Σ((X_i - X̄)(Y_i - Ȳ)) / (√(Σ(X_i - X̄)² * Σ(Y_i - Ȳ)²))
Dónde:
X_i
yY_i
son diferentes puntos de datos.X̄
es la media de los valores de X yȲ
es la media de los valores de Y.- El rango de
r
es de -1 a +1.
Si r = 1
, indica una relación lineal positiva perfecta. Si r = -1
, es una relación lineal negativa perfecta. Cuando el valor de r
está cerca de 0, significa que no existe una relación lineal.
Ejemplo
Considere un conjunto de datos simple con dos variables:
- X: 1, 2, 3, 4, 5
- Y: 2, 4, 5, 4, 5
Para determinar la correlación entre X e Y, debe aplicar la fórmula especificada anteriormente.
Regresión
Mientras que la correlación mide la fuerza y la dirección de la relación entre dos variables, la regresión se centra en predecir una variable en función de otra. Predice la variable dependiente (a menudo denotada como Y) usando la variable independiente (X).
Entendiendo la regresión
La regresión ayuda a entender cómo cambia un valor específico de una variable dependiente cuando se cambia una de las variables independientes mientras las otras permanecen constantes. Su forma más simple es la regresión lineal, que se representa como una línea.
Regresión lineal
La regresión lineal intenta modelar la relación entre dos variables ajustando una ecuación lineal a los datos observados. La ecuación de una línea se presenta generalmente como:
y = a + bx
Dónde:
Y
es la variable dependiente que estamos tratando de predecir.X
es la variable independiente que estamos usando para la predicción.a
es la intersección, el valor de Y cuando X=0.b
es la pendiente, que representa el cambio en Y por un cambio de una unidad en X.
Ejemplo visual de regresión
Dibujar una línea a través de los puntos de datos a menudo se puede ver en un diagrama de dispersión como sigue:
La línea roja se llama la línea de mejor ajuste o línea de regresión. Minimiza la distancia de todos los puntos a la línea, esto se conoce como el método de mínimos cuadrados.
Encontrando la línea de regresión matemáticamente
Las fórmulas para calcular la pendiente b
y la intersección a
son las siguientes:
B = Σ((X_i - X̄)(Y_i - Ȳ)) / Σ((X_i - X̄)²) a = Ȳ − bx̄
Estas fórmulas surgen de minimizar la diferencia cuadrada de los valores observados de la línea.
Ejemplo
Usando el primer conjunto de datos con variables X: [1, 2, 3, 4, 5] y Y: [2, 4, 5, 4, 5].
- Primero calcule
X̄
yȲ
. - Luego, usando la fórmula anterior, determine
b
ya
.
Después del cálculo:
b = 0.6 a = 2.2 Y = 2.2 + 0.6X
Así, su ecuación de regresión se convierte en Y = 2.2 + 0.6X
.
Diferencias clave y resumen
- Propósito: La correlación mide la dirección y la fuerza de una relación. Sin embargo, la regresión modela y predice una variable en función de otra.
- Dependencia: La correlación no depende de causa y efecto. La regresión, teóricamente, asume una dirección dependiente.
- Simetría: La correlación es simétrica porque
corr(X, Y) = corr(Y, X)
. La regresión cambia de dirección porqueY = a + bX
no es idéntico aX = c + dY
.
En conclusión, la correlación y la regresión proporcionan información valiosa sobre las relaciones entre variables. Comprender estos conceptos es crucial para el análisis de datos en muchos campos y proporciona una base importante para el modelado estadístico avanzado.