ベイズ法
序論
ベイズ法は統計的推論において魅力的な役割を果たし、不確実性についての推論の枠組みを提供します。このアプローチは18世紀の統計学者および神学者であるトーマス・ベイズ師にちなんで命名されたベイズの定理に基づいています。頻度主義の統計学が確率を長期的頻度のみに用いるのに対し、ベイズ統計は確率をイベントに対する信念または確信の度合いを表現することを可能にします。
ベイズの定理
ベイズ推論の基礎は、数学的に次のように表現されるベイズの定理です。
P(H|E) = (P(E|H) * P(H)) / P(E)
この式は次のコンポーネントに分解できます。
P(H|E)
: 事後確率。観測された証拠E
に基づく仮説H
の確率。P(E|H)
: 確率。仮説H
が真であると仮定した際に証拠E
を観測する確率。P(H)
: 事前確率。E
を観測する前の仮説H
に対する初期の信念の度合い。P(E)
: 周辺尤度。すべての可能な仮説下での証拠の全体の確率。
基本的な例:コイントス
コインが表に偏っているかどうかを知りたいという単純な例を考えます。10回のコイントスを観察し、そのうち7回が表です。ベイズフレームワークを使ってコインが偏っている確率を見つけます。
例
H
をコインが表に傾いている仮説、E
を10回のトスで7回表が出た証拠とします。次に、以下を指定する必要があります。
P(H)
: コインが偏っているという事前信念。各コインが偏っている確率は50%であると仮定します。したがって、P(H) = 0.5
。P(E|H)
: 偏っている場合に7回表が出る確率。P(E|H) = 0.9
と仮定します。P(E)
: 周辺尤度はすべての仮説を考慮して計算できます。単純化のために、P(E) = 0.5
とします。
さて、ベイズの定理を適用します。
P(H|E) = (0.9 * 0.5) / 0.5 = 0.9
したがって、コインが偏っている可能性は高いです。
事前分布
事前確率P(H)
は、証拠を観測する前の初期の信念を伝えます。ベイズ分析では、事前の選択が最終結果に大きく影響することがあります、特にデータのサイズが小さい場合には。事前分布は情報を持つものと非情報的なものがあります。
情報を持つ選好
情報を持つ事前知識は、関心のあるパラメーターについての特定の既存の知識で構成されます。コインの例では、以前の実験がコインが70%の確率で表になることを示している場合、この情報は事前選択を導くでしょう。
非情報的選好
非情報的または弱い予測は、仮説についての具体的な情報をあまり提供しないもので、しばしば相対的な無知の状態を反映します。一般的な代替案には、すべての結果が同等に可能性のある均一分布が含まれます。
後戻り
証拠がベイズの定理を通じて考慮されると、code{P(H|E)}という事後確率が得られ、仮説に関するすべての情報が統合されます — 事前とデータが組み合わされたものです。事後確率はベイズ推論の最も重要な側面であり、新しいデータによって仮説の理解がどのように変わるかを表しています。
可能性
確率はベイズ計算の中核的な要素です。これは異なる仮説の下で観測されたデータの可能性を測定します。数学的には、尤度code{P(E|H)}はデータと仮説間の適合性を評価します。
周辺尤度
周辺尤度code{P(E)}は、事後確率が1になるようにします。これはすべての仮説にわたって確率を合計することを含みます。実際には、特にパラメーターが多いモデルでは、周辺尤度の計算は複雑になることがあります。
高度な例:病気の検査
次の特性を持つ病気の検査を行うとします。
- この検査の感度は95%で、病気を患っている患者を95%正確に特定します。
- この検査の特異性は90%で、健康な患者を90%正確に特定します。
- 人口の1%がこの病気を持っている。
例
H
を患者が病気にかかるイベント、E
を陽性の検査結果とします。
P(H) = 0.01
(病気を持つ事前確率)P(E|H) = 0.95
(病気なら陽性の確率)
陽性検査の全体確率、code{P(E)}を計算するには、本当の陽性と偽陽性の両方の結果を考慮します。
P(E) = P(E|H) * P(H) + P(E|H') * P(H')
P(E) = 0.95 * 0.01 + 0.1 * 0.99 = 0.1045
最後に、ベイズの定理を使用して事後を見つけます。
P(H|E) = (0.95 * 0.01) / 0.1045 ≈ 0.091
陽性の検査結果に基づいて、この病気にかかっている確率はわずか9.1%です。
信念の更新
ベイズ推論は反復的なプロセスです。証拠が集まるにつれて、ベイズの定理を用いて信念を継続的に更新します。新しい証拠は、以前の信念を修正して後続の信念を形成する確率として機能します。時が経つにつれて、このプロセスは我々の理解を洗練し、意思決定を改善します。
共役事前分布
多くの場合、共役事前分布を選択すると計算が簡単になります。共役事前分布は、事前として使用すると、同じファミリーの事後分布を生成するものであり、したがって解析的解を単純化します。例えば、二項確率では、ベータ分布を事前として使用するとベータ事後分布が得られ、分布の種類が一定になります。
応用
ベイズ法はさまざまな分野で広く応用されています。注目すべきものには次のようなものがあります:
- 医学:病気を診断する場合、ベイズ法は病気の有病率に関する事前情報と診断テストの証拠を組み合わせます。
- 金融:ベイズモデルは株価を予測するために使用され、過去のデータと専門家の予測の両方を組み込んでいます。
- 機械学習:ベイズ技術は分類、クラスタリング、回帰などのタスクのための確率モデルを動かします。
- 自然言語処理:ベイズ推論はトピックモデルなどのモデルを拡張し、テキストデータのパターンを特定します。
課題
強力である一方で、ベイズ法は課題も伴います。複雑なモデルはしばしば多大な計算リソースを必要とします。事後分布を解析的に計算するのが難しいことがあり、マルコフ連鎖モンテカルロ(MCMC)などの近似技法が必要です。
結論
ベイズ法は統計的推論のための柔軟で一貫した枠組みを提供します。事前の信念と新しい証拠を組み合わせることで、ベイズ推論は論理的で直感的な方法で理解を洗練します。計算が複雑な範囲における課題にもかかわらず、その原理は多くの現実世界のアプリケーションで輝きを放ち、統計家のツールキットにおける価値を持っています。