研究生

研究生概率与统计统计推断


贝叶斯方法


简介

贝叶斯方法在统计推断中扮演着令人着迷的角色,为关于不确定性的推理提供了一个框架。这种方法基于以18世纪统计学家和神学家托马斯·贝叶斯牧师命名的贝叶斯定理。与只使用概率来指长期频率的频率统计不同,贝叶斯统计允许概率表达某人对事件的信念或确定程度。

贝叶斯定理

贝叶斯推断的基础是贝叶斯定理,其数学表达如下:

P(H|E) = (P(E|H) * P(H)) / P(E)

这个公式可以分解为以下几个部分:

  • P(H|E):后验概率。基于所观察到的证据E对假设H的概率。
  • P(E|H):概率。假设H为真时,观察到证据E的概率。
  • P(H):先验概率。观察到E之前对假设H的初始信念程度。
  • P(E):边际似然性。所有可能假设下的证据的总体概率。

基本示例:掷硬币

考虑一个简单示例,我们想知道一枚硬币是否倾向于正面。我们观察到十次掷硬币,其中七次是正面。我们希望使用贝叶斯框架来找到硬币有偏见的概率。

示例

H为硬币倾向于正面的假设,E为十次掷硬币中七次出现正面的证据。现在,我们需要指定:

  • P(H):我们关于硬币有偏见的先验信念。假设我们相信每枚硬币有50%的机会是有偏见的。因此,P(H) = 0.5
  • P(E|H):在假设下观察到七次正面的概率。如果这是偏向,则假设P(E|H) = 0.9
  • P(E):边际似然性可以通过考虑所有假设来计算。为简单起见,假设P(E) = 0.5

现在应用贝叶斯定理:

P(H|E) = (0.9 * 0.5) / 0.5 = 0.9

因此,硬币是偏向的可能性很大。

先验

先验概率P(H)传达了在观察证据之前的初始信念。在贝叶斯分析中,先验选择可能极大地影响最终结果,特别是在数据量较小时。先验可以是信息性的或非信息性的。

信息性偏好

信息性先验知识包括关于关注参数的具体、先前知识。在硬币示例中,如果以前的实验表明硬币出现正面的概率为70%,此信息将指导我们的先验选择。

非信息性偏好

非信息性或弱预测没有提供关于假设的具体信息,通常反映出相对无知的状态。常见的替代方法包括均匀分布,其中所有结果同样可能。

回溯

通过贝叶斯定理考虑证据后,我们获得了后验概率,code{P(H|E)},它整合了关于假设的所有信息——即先验和数据的结合。后验概率是贝叶斯推断中最重要的方面,因为它表示新数据如何修正我们对假设的理解。

可能性

概率是贝叶斯计算的核心组成部分。它测量在不同假设下观察到数据的可能性。从数学上讲,似然性code{P(E|H)}评估数据与假设的兼容性。

边际似然性

边际似然性code{P(E)}确保后验概率的总和为1。它涉及对所有假设求和概率。在实践中,计算边际似然性可能很复杂,尤其是在具有多个参数的模型中。

高级示例:疾病检测

假设一个医学测试检查具有以下特征的疾病:

  • 该测试的敏感性为95%,意味着它能正确识别95%的患病患者。
  • 该测试的特异性为90%,意味着它能正确识别90%的健康患者。
  • 1%的人口患有此类疾病。

示例

H为病人患病的事件,E为阳性测试结果。

  • P(H) = 0.01(患病的先验概率)
  • P(E|H) = 0.95(若患病则测试阳性的概率)

计算阳性测试的总体概率,code{P(E)},考虑正确与错误的阳性结果:

P(E) = P(E|H) * P(H) + P(E|H') * P(H')
P(E) = 0.95 * 0.01 + 0.1 * 0.99 = 0.1045

最后,使用贝叶斯定理找到后验:

P(H|E) = (0.95 * 0.01) / 0.1045 ≈ 0.091

尽管测试阳性,基于此结果的患病概率仅为9.1%。

更新信念

贝叶斯推断是一个迭代过程。随着更多证据的收集,您可以使用贝叶斯定理不断更新信念。每一新的证据都作为概率用来修正先前的信念以形成后续信念。随着时间的推移,这一过程可以细化我们的理解并提高决策。

共轭先验

在许多情况下,选择共轭先验简化了计算。共轭先验是一种能以相同的族作为先验使用时,产生同样族的后验分布,从而简化分析解的方法。例如,在二项式概率中,作为先验的贝塔分布将产生贝塔后验分布——因此分布类型保持不变。

应用

贝叶斯方法广泛应用于各个领域。其中一些著名的应用包括:

  • 医学:用于诊断疾病,贝叶斯方法平衡疾病流行的先验信息和诊断测试证据。
  • 金融:贝叶斯模型用于预测股票价格,结合历史数据和专家预测。
  • 机器学习:贝叶斯技术为分类、聚类和回归等任务提供概率模型支持。
  • 自然语言处理:贝叶斯推断扩展了主题模型等模型以识别文本数据中的模式。

挑战

虽然强大,但贝叶斯方法也存在挑战。复杂模型通常需要大量计算资源。计算后验分布可能很困难,需要使用近似技术如马尔可夫链蒙特卡罗(MCMC)。

结论

贝叶斯方法为统计推断提供了一个灵活而一致的框架。通过将先验信念与新证据结合起来,贝叶斯推断以逻辑、直观的方式细化理解。尽管在广泛的情况下计算方面存在挑战,其原理在许多真实应用中都显示出价值,这使其成为统计学工具箱中不可或缺的一部分。


研究生 → 5.2.3


U
username
0%
完成于 研究生


评论