离散度量
在统计学中,离散度量是描述数据集中离散性或变异性的重要指标。收集数据时,了解数据点的分布情况可以提供超出平均值或均值的信息。离散度量帮助您了解数据的分布情况。让我们更详细地了解这些概念。
为什么离散度量很重要?
假设两个班级参加了数学测试。两个班级的平均分是70分(满分100)。这是否意味着两个班级的表现相同?不一定。只知道平均值会掩盖分数的变化。如果一个班级的分数在50到90之间,而另一个班级在68到72之间,表现就大不相同了。离散度量通过显示分数的分布范围来突出这些差异。
离散度量的类型
主要有几种离散度量:
- 范围
- 四分位数间距 (IQR)
- 方差
- 标准差
1. 范围
范围是最简单的离散度量。它是数据集中最大值和最小值之间的差值。它告诉您数据的跨度。
范围 = 最大值 - 最小值
例如,假设我们有以下数据集的分数:
数据:10, 15, 20, 25, 30
范围如下:
范围 = 30 - 10 = 20
尽管易于计算但范围仅考虑了数据的极端值,并且可能无法准确反映真实的离散性,尤其是在包含异常值时。
2. 四分位数间距 (IQR)
四分位数间距 (IQR) 衡量数据的分布范围。它是上四分位数 (Q3) 和下四分位数 (Q1) 之间的差值。它本质上衡量了中央50%数据所在的范围。
IQR = Q3 - Q1
计算IQR的方法如下:
- 按升序排列数据。
- 确定四分位数 (Q1和Q3)。
- 用Q3减去Q1。
举个例子:
数据:4, 8, 15, 16, 23, 42
首先将数据排列(这里已经是顺序)。接下来,找到Q1和Q3:
Q1 (25百分位) = 8 Q3 (75百分位) = 23
然后计算IQR:
IQR = Q3 - Q1 = 23 - 8 = 15
可视化IQR
3. 方差
方差衡量与均值的平均平方偏差。它用于了解数据点与数据集平均值相差多少,由于对异常值较敏感而更侧重于它们。
方差( sigma^2 ) 的公式为:
sigma^2 = frac{sum (x_i - mu)^2}{N}
对于样本,我们使用:
s^2 = frac{sum (x_i - bar{x})^2}{n - 1}
其中:
- ( x_i ) = 每个值
- ( mu ) = 总体均值
- ( bar{x} ) = 样本均值
- ( N ) = 总体中的值数量
- ( n ) = 样本中的值数量
使用样本方差的例子:
数据:6, 8, 10, 12, 14
找到平均值:
bar{x} = frac{6 + 8 + 10 + 12 + 14}{5} = 10
计算与均值的平方偏差并找到平均数:
(6 - 10)^2 = 16 (8 - 10)^2 = 4 (10 - 10)^2 = 0 (12 - 10)^2 = 4 (14 - 10)^2 = 16
样本标准差:
s^2 = frac{16 + 4 + 0 + 4 + 16}{5 - 1} = 10
4. 标准差
标准差是方差的平方根,它提供了一种与原始数据单位相同的离散度量,这使得理解更直观。
对于我们之前计算的方差:
s = sqrt{10} = 3.16
标准差很有价值,因为它以与数据相同的单位表示,提供了更好的上下文。
可视化方差和标准差
选择合适的度量
了解每种离散度量有助于您根据上下文选择合适的度量:
- 范围:快速检查分布,但对异常值较敏感。
- IQR:对偏态数据更好,因为它不受异常值影响,专注于中间范围。
- 方差:更详细,因分类而对异常值有较强韧性,适用于深入分析。
- 标准差:最适合比较数据集,因为它与数据单位相同。
实际示例
考虑以下两个运动员群体在一周内跑步里程的数据集:
群体A:15, 16, 17, 18, 19 群体B:10, 14, 17, 20, 23
群体A和群体B的平均值均为17英里。现在,计算离散度量:
- 范围:
- 群体A:
19 - 15 = 4
- 群体B:
23 - 10 = 13
- 群体A:
- IQR:
- 群体A:数据排列不变,IQR
= 19 - 16 = 3
- 群体B:数据排列不变,IQR
= 20 - 14 = 6
- 群体A:数据排列不变,IQR
- 方差:
- 群体A:
均值 = 17 (15 - 17)^2 = 4 (16 - 17)^2 = 1 (17 - 17)^2 = 0 (18 - 17)^2 = 1 (19 - 17)^2 = 4 s^2 = frac{4 + 1 + 0 + 1 + 4}{4} = 2.5
- 群体B:
均值 = 17 (10 - 17)^2 = 49 (14 - 17)^2 = 9 (17 - 17)^2 = 0 (20 - 17)^2 = 9 (23 - 17)^2 = 36 s^2 = frac{49 + 9 + 0 + 9 + 36}{4} = 25.75
- 群体A:
- 标准差:
- 群体A:( sqrt{2.5} approx 1.58 )
- 群体B:( sqrt{25.75} approx 5.07 )
比较这些度量时,群体B显示出比群体A更大的离散性,表现在更高的范围、IQR、方差和标准差上。尽管两个群体的均值相同,但其跑步距离的变异性明显不同。
结论
离散度量是提供数据变异性信息的多种工具之一,帮助您估计数据集中数据点的可靠性和波动性。每种度量根据您分析的数据的性质和上下文各有优劣势,允许您从更广的视角进行数据分析。
理解和使用离散度量使您能够更全面地描述数据集,从而在现实世界场景、科学研究、经济学及其他众多领域做出更明智的决策。掌握这些概念可以建立您在统计学中的坚实基础,提高您有效分析和解读数据的能力。