研究生 ↓
概率与统计
概率与统计是数学的分支,它们处理不确定性的概念。它们用于分析和预测结果,并根据数据做出决策。虽然概率提供了衡量不确定性的理论框架,但统计利用该框架来收集、分析、解释和呈现经验数据。
理解概率
概率是事件发生可能性的度量。它根据某些条件或实验来衡量我们对该事件的预期。任何事件的概率是介于0和1之间的数字,其中0代表不可能,1代表确定性。概率高的事件比概率低的事件更有可能发生。
考虑一个简单的例子。如果您有一个公平的六面骰子,掷出特定数字的概率,例如3,是:
掷出3的概率 = 1/6 = 0.1667
这是因为骰子有六个面,并且每个面都有相等的机会向上。
可视化示例:单次掷骰子的概率
概率的基本概念
随机实验
随机实验是结果无法提前确定的程序。例如,抛硬币、掷骰子或从洗牌后的牌堆中抽一张牌。尽管这些实验具有随机性,但在大量试验后它们可能变得可预测。
样本空间与事件
随机实验的样本空间,通常用S
表示,是所有可能结果的集合。每个可能的结果称为样本点。事件是样本空间的任何子集。例如,在掷骰子中,样本空间S
是{1, 2, 3, 4, 5, 6},而事件可以是“掷出偶数”,包括结果{2, 4, 6}。
事件的组合
样本空间中的两个或多个事件可以通过集合运算(如并、交和补)组合。例如,如果A
和B
是两个事件,则:
A ∪ B
(并):如果A
或B
或两者都发生,则事件发生。A ∩ B
(交):如果A
和B
都发生,则事件发生。A'
(补):如果A
不发生,则事件发生。
概率法则
概率法则是用于在概率空间中分配事件概率的规则。这些规则包括概率公理,如下所示:
- 非负性:任何事件
A
的概率大于或等于0。P(A) ≥ 0
- 规范性:整个样本空间
S
的概率为1。P(S) = 1
- 可加性:对于互斥事件
A
和B
,A
或B
发生的概率是它们各自概率的和。P(A ∪ B) = P(A) + P(B)
对于更复杂的情况,条件概率和贝叶斯定理是重要概念:
条件概率
在事件B
发生的条件下,事件A
的概率称为A
在B
发生下的条件概率,记为P(A|B)
。其计算公式如下:
P(A|B) = P(A ∩ B) / P(B)
前提是P(B) > 0
。
贝叶斯定理
贝叶斯定理涉及随机事件的条件概率和边际概率。它是根据新信息更新概率的重要工具。贝叶斯定理的表达式为:
P(A|B) = [P(B|A) * P(A)] / P(B)
随机变量和概率分布
随机变量
随机变量是根据随机实验的结果取不同数值的变量。随机变量分为离散型和连续型。
离散随机变量:它们取有限个可能的结果。例如,掷骰子和在一系列实验中计数成功次数。
连续随机变量:它们可以在给定范围内取无限多个可能结果。例如,人们的确切身高或完成任务所需的时间。
概率分布
概率分布描述了随机变量的取值在不同概率之间的分布情况。对离散随机变量,称为概率质量函数(PMF):
P(X = x) = p(x)
对连续随机变量,称为概率密度函数(PDF):
f(x)
PDF曲线下给定区间的面积表示随机变量落在该区间内的概率。
可视化示例:概率质量函数
正态概率分布
二项分布
二项分布是一种离散分布,描述在相同成功概率的情况下某些独立伯努利实验中的成功次数。恰好k
次成功在n
次试验中的概率由以下公式给出:
P(X = k) = C(n, k) * p^k * (1-p)^(nk)
其中C(n, k)
是二项系数。
正态分布
正态分布,也称为高斯分布,是关于均值对称的连续分布。它由其均值(µ)和标准差(σ)定义,并由概率密度函数给出:
f(x) = (1/(σ√(2π))) * e^(-(x-µ)²/(2σ²))
可视化示例:正态分布
统计介绍
统计是一门处理数据收集、组织、分析、解释和展示的学科。它有两个主要分支:描述统计和推断统计。
描述统计
描述统计对数据集的主要特征进行总结和描述。这包括集中趋势、离散性测量和图形表示。
集中趋势测量:这些测量描述数据集的中心。常见测量包括均值、中位数和众数。
离散性测量:离散性表示数据点的分布。常见测量包括范围、方差和标准差。
推断统计
推断统计使用从总体中抽取的随机样本数据来描述和推断关于总体的信息。它包括假设检验、估计和预测。
假设检验
假设检验是一种使用科学研究获得的数据进行决策的方法。它涉及测试关于总体参数的假设或声明。
例如,您可能想测试一种新药是否比现有药物更有效。您形成两个假设:
H0
(零假设):在有效性上没有差异。H1
(替代假设):新药更有效。
结论
概率与统计构成了科学、工程、经济学等领域中数据分析和决策的基础。概率帮助衡量不确定性并估计随机实验中结果的可能性,而统计则通过数据收集和分析帮助解释现实世界的需求。在不确定的世界中,理解这些概念对于做出明智的决策至关重要。