相関と回帰
はじめに
統計学において、2つの変数間の関係性を理解することは重要です。これにより、1つの変数が別の変数にどのように影響を与えるかを明らかにすることができます。これらの関係性を理解するための2つの重要な概念は「相関」と「回帰」です。これらの概念は、変数が互いに関連しているかどうか、またどの程度強く関連しているかを調査することを可能にします。これらの興味深いトピックを詳細に議論しましょう!
相関
相関は、通常XとYで表される2つの変数間の関係の大きさと方向を示す統計指標です。それにより、変数が一緒に動くかどうか(そして一緒に動く場合は、同じ方向に動くのか反対方向に動くのか)を教えてくれますが、因果関係を示すわけではありません。
相関の理解
2つの変数が相関している場合、それらの間に生じる変化に予測可能なパターンがあることを意味します。相関は正、負、またはゼロのいずれかです。
- 正の相関: 1つの変数が増加すると、もう1つも増加します。たとえば、勉強時間と試験で得られるスコアの関係は正の相関を示すかもしれません。
- 負の相関: 1つの変数が増加すると、もう1つは減少します。週に見る映画の本数と勉強時間の関係がその例です。
- 無相関(ゼロ相関): 予測される変化が変数を結びつけません。たとえば、目の色と知能レベルの関係は無相関を示すと期待されます。
相関の視覚的な例
散布図では、2つの変数間の相関が視覚的に表示されます:
相関を数学的に表現する
最も一般的に使用される相関係数はピアソンの相関係数であり、r
で表されます。計算式は次のとおりです:
R = Σ((X_i - X̄)(Y_i - Ȳ)) / (√(Σ(X_i - X̄)² * Σ(Y_i - Ȳ)²))
ここで:
X_i
とY_i
は異なるデータポイントです。X̄
はX値の平均で、Ȳ
はY値の平均です。r
の範囲は-1から+1です。
r = 1
の場合、完全な正の線形関係を示します。r = -1
の場合、完全な負の線形関係です。r
の値が0に近い場合、線形関係は存在しないことを意味します。
例
次のような単純なデータセットを考慮してください:
- X: 1, 2, 3, 4, 5
- Y: 2, 4, 5, 4, 5
XとYの相関を決定するために、上記の数式を適用する必要があります。
回帰
相関が2つの変数間の関係の強さと方向を測定する一方で、回帰は別の変数に基づいて1つの変数を予測することについてです。それは独立変数(X)を使用して従属変数(通常Yで示される)を予測します。
回帰の理解
回帰は、独立変数の1つを変更し、他の独立変数を一定に保ったときに、従属変数の特定の値がどのように変化するかを理解するのに役立ちます。その最も単純な形は線形回帰であり、線で表されます。
線形回帰
線形回帰は、観測データに線形方程式をフィットさせることにより、2つの変数間の関係をモデル化しようとします。線方程式は通常次のように表されます:
y = a + bx
ここで:
Y
は予測しようとしている従属変数です。X
は予測に使用する独立変数です。a
は切片で、X=0のときのYの値です。b
は勾配で、Xの1単位の変化に対するYの変化を表します。
回帰の視覚的な例
データポイントに沿って線を引くことは、次のような散布図によく見られます:
赤い線は最小二乗法による線または回帰線と呼ばれます。すべてのポイントから線への距離を最小化する方法として知られています。
回帰線の数学的な見つけ方
勾配b
と切片a
を計算するための数式は次のとおりです:
B = Σ((X_i - X̄)(Y_i - Ȳ)) / Σ((X_i - X̄)²) a = Ȳ − bx̄
これらの数式は、線からの観測値の二乗差を最小化することから導出されます。
例
最初のデータセットを変数X: [1, 2, 3, 4, 5] とY: [2, 4, 5, 4, 5] で使用します。
- 最初に
X̄
とȲ
を計算します。 - その後、上記の数式を使用して
b
とa
を決定します。
計算後:
b = 0.6 a = 2.2 Y = 2.2 + 0.6X
したがって、回帰方程式はY = 2.2 + 0.6X
になります。
主要な違いと要約
- 目的: 相関は関係の方向と強度を測定します。しかし、回帰は1つの変数から別の変数をモデル化および予測します。
- 依存性: 相関は原因と結果に依存しません。理論的には、回帰は依存する方向性を仮定します。
- 対称性: 相関は対称的です。
corr(X, Y) = corr(Y, X)
です。回帰は方向を変えます。なぜならY = a + bX
とX = c + dY
が同一ではないからです。
結論として、相関と回帰は変数間の関係に関する貴重な洞察を提供します。これらの概念を理解することは、多くの分野でのデータ分析にとって重要であり、高度な統計モデルの重要な基礎を提供します。