离散度量

在统计学中，离散度量是描述数据集中离散性或变异性的重要指标。收集数据时，了解数据点的分布情况可以提供超出平均值或均值的信息。离散度量帮助您了解数据的分布情况。让我们更详细地了解这些概念。

为什么离散度量很重要？

假设两个班级参加了数学测试。两个班级的平均分是70分（满分100）。这是否意味着两个班级的表现相同？不一定。只知道平均值会掩盖分数的变化。如果一个班级的分数在50到90之间，而另一个班级在68到72之间，表现就大不相同了。离散度量通过显示分数的分布范围来突出这些差异。

离散度量的类型

主要有几种离散度量：

范围
四分位数间距 (IQR)
方差
标准差

1. 范围

范围是最简单的离散度量。它是数据集中最大值和最小值之间的差值。它告诉您数据的跨度。

范围 = 最大值 - 最小值

例如，假设我们有以下数据集的分数：

数据：10, 15, 20, 25, 30

范围如下：

范围 = 30 - 10 = 20

尽管易于计算但范围仅考虑了数据的极端值，并且可能无法准确反映真实的离散性，尤其是在包含异常值时。

2. 四分位数间距 (IQR)

四分位数间距 (IQR) 衡量数据的分布范围。它是上四分位数 (Q3) 和下四分位数 (Q1) 之间的差值。它本质上衡量了中央50%数据所在的范围。

IQR = Q3 - Q1

计算IQR的方法如下：

按升序排列数据。
确定四分位数 (Q1和Q3)。
用Q3减去Q1。

举个例子：

数据：4, 8, 15, 16, 23, 42

首先将数据排列（这里已经是顺序）。接下来，找到Q1和Q3：

Q1 (25百分位) = 8 Q3 (75百分位) = 23

然后计算IQR：

IQR = Q3 - Q1 = 23 - 8 = 15

可视化IQR

3. 方差

方差衡量与均值的平均平方偏差。它用于了解数据点与数据集平均值相差多少，由于对异常值较敏感而更侧重于它们。

方差( sigma^2 ) 的公式为：

sigma^2 = frac{sum (x_i - mu)^2}{N}

对于样本，我们使用：

s^2 = frac{sum (x_i - bar{x})^2}{n - 1}

其中：

( x_i ) = 每个值
( mu ) = 总体均值
( bar{x} ) = 样本均值
( N ) = 总体中的值数量
( n ) = 样本中的值数量

使用样本方差的例子：

数据：6, 8, 10, 12, 14

找到平均值：

bar{x} = frac{6 + 8 + 10 + 12 + 14}{5} = 10

计算与均值的平方偏差并找到平均数：

(6 - 10)^2 = 16 (8 - 10)^2 = 4 (10 - 10)^2 = 0 (12 - 10)^2 = 4 (14 - 10)^2 = 16

样本标准差：

s^2 = frac{16 + 4 + 0 + 4 + 16}{5 - 1} = 10

4. 标准差

标准差是方差的平方根，它提供了一种与原始数据单位相同的离散度量，这使得理解更直观。

对于我们之前计算的方差：

s = sqrt{10} = 3.16

标准差很有价值，因为它以与数据相同的单位表示，提供了更好的上下文。

可视化方差和标准差

选择合适的度量

了解每种离散度量有助于您根据上下文选择合适的度量：

范围：快速检查分布，但对异常值较敏感。
IQR：对偏态数据更好，因为它不受异常值影响，专注于中间范围。
方差：更详细，因分类而对异常值有较强韧性，适用于深入分析。
标准差：最适合比较数据集，因为它与数据单位相同。

实际示例

考虑以下两个运动员群体在一周内跑步里程的数据集：

群体A：15, 16, 17, 18, 19 群体B：10, 14, 17, 20, 23

群体A和群体B的平均值均为17英里。现在，计算离散度量：

范围：
- 群体A：19 - 15 = 4
- 群体B：23 - 10 = 13
IQR：
- 群体A：数据排列不变，IQR = 19 - 16 = 3
- 群体B：数据排列不变，IQR = 20 - 14 = 6

方差：

群体A：

均值 = 17 (15 - 17)^2 = 4 (16 - 17)^2 = 1 (17 - 17)^2 = 0 (18 - 17)^2 = 1 (19 - 17)^2 = 4 s^2 = frac{4 + 1 + 0 + 1 + 4}{4} = 2.5

群体B：

均值 = 17 (10 - 17)^2 = 49 (14 - 17)^2 = 9 (17 - 17)^2 = 0 (20 - 17)^2 = 9 (23 - 17)^2 = 36 s^2 = frac{49 + 9 + 0 + 9 + 36}{4} = 25.75

标准差：
- 群体A：( sqrt{2.5} approx 1.58 )
- 群体B：( sqrt{25.75} approx 5.07 )

比较这些度量时，群体B显示出比群体A更大的离散性，表现在更高的范围、IQR、方差和标准差上。尽管两个群体的均值相同，但其跑步距离的变异性明显不同。

结论

离散度量是提供数据变异性信息的多种工具之一，帮助您估计数据集中数据点的可靠性和波动性。每种度量根据您分析的数据的性质和上下文各有优劣势，允许您从更广的视角进行数据分析。

理解和使用离散度量使您能够更全面地描述数据集，从而在现实世界场景、科学研究、经济学及其他众多领域做出更明智的决策。掌握这些概念可以建立您在统计学中的坚实基础，提高您有效分析和解读数据的能力。

标记为已读

十一年级 → 6.4.2

username

完成于十一年级

离散度量

为什么离散度量很重要？

离散度量的类型

1. 范围

2. 四分位数间距 (IQR)

可视化IQR

3. 方差

4. 标准差

可视化方差和标准差

选择合适的度量

实际示例

结论

评论

离散度量