中心極限定理
中心極限定理(CLT)は、確率論と統計の基礎となる概念の一つです。なぜ多くの分布が正規分布に近似するのかを説明し、多くの統計的手法の基礎として機能します。この包括的な説明では、中心極限定理が何であるか、なぜ重要なのか、さまざまな例やビジュアライゼーションを用いてその仕組みを探ります。
中心極限定理の理解
その核心において、中心極限定理は、多くの独立かつ同一の分布する(iid)確率変数の和(または平均)の分布は、元の分布が有限の分散を持つ限り、おおよそ正規分布に従うと述べています。この結果は重要であり、偏っていたり一様な分布から始めたとしても、十分なサンプルを取りそれらの平均を求めると、その平均の分布は正規分布に近づくことを示唆しています。
P(X_1, X_2, ..., X_n) to N(mu, sigma^2/n)
ここで、X_1, X_2, ..., X_n
は母集団からのサンプルであり、mu
は母集団の平均、sigma^2
は分散を表します。N
は正規分布を示します。
なぜ中心極限定理が重要なのか?
中心極限定理は、他のモデルがより複雑で理解しにくいシナリオでも正規分布の使用を正当化するため重要です。CLTが重要である主要な領域には以下が含まれます:
- 統計的推論: これは、基礎データの分布が正規でなくても、信頼区間や仮説検定を使用できるようにします。
- データサイエンスと機械学習: CLTにより多くのアルゴリズムは正規性を仮定し、モデルがより堅牢になります。
- 品質管理: CLTは、サンプリングの平均が監視される品質管理プロセスで役立ちます。
例を通じた中心極限定理の図示
例1: サイコロを振る
フェアな6面体のサイコロを振ることを考えます。サイコロを振る結果は、1から6までの離散の一様分布です。これらの整数値は均等な確率1/6を持ちます。この分布は確実に正規ではありません。
では、2つのサイコロを1000回振り、それぞれの平均を取ります。2つのサイコロを振るごとにそれぞれ独立しており、1000の平均が得られます。これらの平均をプロットすると、それらの分布の形状が鐘形曲線に似てくることがわかります。サイコロの数を3、4、更に増やすと、これらの平均の分布はますます正規分布に似てくるでしょう。
例2: 硬貨を投げるシミュレーション
100枚の硬貨を取り、それを投げます。各硬貨の投げは、表が0.5、裏が0.5の確率を持つベルヌーイ試行として見ることができます。表を'1'、裏を'0'と仮定します。
この実験を行い、表(成功数)の数を計測する場合、各投げを独立した変数として扱うことができます。中心極限定理は、この100枚の硬貨投げを何度も繰り返し、それぞれの表の数をプロットすると、これらのカウントの分布が正規分布に近づくことを示しています。
中心極限定理の数学的証明
中心極限定理を厳密に証明するための数学を見てみましょう。この定理はAbraham de Moivre、Pierre-Simon Laplace、Carl Friedrich Gaussなど、複数の数学者によって独立して開発されました。ここでは証明の簡略版を示します:
X_1, X_2, ..., X_n
を平均mu
、分散sigma^2
を持つiid確率変数とします。期待値は
E[X_i] = mu
分散は
Var(X_i) = sigma^2
標本平均を次のように定義します
bar{X} = frac{X_1 + X_2 + ... + X_n}{n}
標本平均の期待値は
E[bar{X}] = Eleft[frac{X_1 + X_2 + ... + X_n}{n}right] = mu
その分散は
Var(bar{X}) = frac{1}{n^2}(Var(X_1) + Var(X_2) + ... + Var(X_n)) = frac{sigma^2}{n}
標準的な中心極限定理によれば、n
が十分に大きければ、標準化された標本平均は平均0、分散1の正規分布に近似されます:
Z = frac{bar{X} - mu}{sigma/sqrt{n}} to N(0,1)
結論
中心極限定理は、さまざまな型の分布と正規分布をつなぐ強力な統計原則です。その多用途性と信頼性は、理論統計と応用統計の両方で多くの方法と理論を正当化する重要なツールです。
サイコロを振る、硬貨を投げる、実世界の測定を行うかどうかにかかわらず、この定理は情報に基づいた統計解析と予測を可能にします。CLTを理解することで、さまざまな分野の様々な統計的課題により良く対処できるようになります。