確率変数
確率と統計において、「確率変数」の概念は基本的です。確率変数は、ランダム現象の数値結果を取る変数のことです。詳しく理解するためには、確率変数をランダム実験のサンプル空間の各結果に実数を割り当てる関数として考えることができます。
確率変数の理解
確率変数には、離散型と連続型があります。離散型確率変数は、取り得る値の数が可算であることを特徴とします。一方、連続型確率変数は、取り得る値の数が無限大です。
離散型確率変数
離散型確率変数は通常、何かを数えることで生成されます。たとえば、6面のサイコロを振るときの可能な結果(1, 2, 3, 4, 5, 6)は、離散的で数えることができます。この確率変数をX
で表わし、X
は1から6のいずれかの値を取ることができます。この概念を例で見てみましょう。
サイコロの結果: {1, 2, 3, 4, 5, 6}
ここで、各線分はサイコロを投げる結果を表しています。確率変数X
はこれらの値のいずれかを取り、すべての値が1/6
の確率を持っています。
連続型確率変数
連続型確率変数は何かを測ることで生じます。これらの変数は、無限の数の値を取り得ます。たとえば、都市での降雨量を測る場合を考えてみます。確率変数Y
はセンチメートル単位の降雨量を表し、0から任意の正の値を取ることができます。
上の図では、線は降雨量のすべての可能な値を表しており、0 cmから始まる連続的な範囲です。
確率分布
確率分布は、さまざまな可能な結果の発生確率を提供する関数です。離散型確率変数の確率分布は確率質量関数(PMF)として知られており、連続型確率変数の場合は確率密度関数(PDF)と呼ばれます。
確率質量関数(PMF)
確率質量関数は、離散型確率変数がある値に正確に等しい確率を与えます。先に述べたサイコロの例では、X
のPMFを以下のように表せます。
P(X = x) = 1/6 for x in {1, 2, 3, 4, 5, 6}
各青い棒は、サイコロのいずれかの面が出る確率を表しており、すべての確率が1/6
に等しいです。
確率密度関数(PDF)
確率密度関数は、連続型確率変数に使用されます。PDFは、その確率変数が特定の値を取る相対的な確率を示します。ただし、PDFは直接確率を与えるわけではなく(連続型確率変数において単一の点の確率はゼロであるため)、確率を提供するために区間の積分を必要とします。
確率変数Y
の確率密度関数がf(y)
であると仮定します。このとき、Y
がa
とb
の間にある確率は次のように与えられます。
P(a < Y < b) = ∫[a, b] f(y) dy
確率変数の期待値と分散
期待値(平均)
期待値または平均は、確率変数の結果の平均値を提供します。PMFがP
である離散型確率変数X
の期待値は次のように計算されます。
E(X) = Σ [x * P(x)]
PDFがf
である連続型確率変数Y
の期待値は次のように計算されます。
E(Y) = ∫ y * f(y) dy
分散と標準偏差
分散は、確率変数の値が平均からどれだけ離れているかを測定します。離散型確率変数X
の分散は次のように計算されます。
Var(X) = Σ [(x - E(X))^2 * P(x)]
標準偏差は分散の平方根であり、データセットの値がどれだけ広がっているかを測定する指標です。
実生活の例
確率変数はさまざまな分野で広く使われています。いくつかの例を挙げると:
- 保険: 保険会社はリスクをモデル化し、保険料を設定するのに確率変数を使用します。
- 製造業: 企業は連続型確率変数を使用してプロセスのばらつきを計測および制御します。
- 金融: 株価は将来の動向を予測するために確率変数としてモデル化されています。
- 医学: 臨床試験では、治療の有効性を分析するために確率変数の概念が使用されます。
これらの例を通じて、確率変数はさまざまな現実のプロセスや意思決定シナリオに内在する不確実性をモデル化するのに役立つことがわかります。