十一年级

十一年级概率与统计图形


离散度量


在统计学中,离散度量是描述数据集中离散性或变异性的重要指标。收集数据时,了解数据点的分布情况可以提供超出平均值或均值的信息。离散度量帮助您了解数据的分布情况。让我们更详细地了解这些概念。

为什么离散度量很重要?

假设两个班级参加了数学测试。两个班级的平均分是70分(满分100)。这是否意味着两个班级的表现相同?不一定。只知道平均值会掩盖分数的变化。如果一个班级的分数在50到90之间,而另一个班级在68到72之间,表现就大不相同了。离散度量通过显示分数的分布范围来突出这些差异。

离散度量的类型

主要有几种离散度量:

  1. 范围
  2. 四分位数间距 (IQR)
  3. 方差
  4. 标准差

1. 范围

范围是最简单的离散度量。它是数据集中最大值和最小值之间的差值。它告诉您数据的跨度。

范围 = 最大值 - 最小值

例如,假设我们有以下数据集的分数:

数据:10, 15, 20, 25, 30

范围如下:

范围 = 30 - 10 = 20

尽管易于计算但范围仅考虑了数据的极端值,并且可能无法准确反映真实的离散性,尤其是在包含异常值时。

2. 四分位数间距 (IQR)

四分位数间距 (IQR) 衡量数据的分布范围。它是上四分位数 (Q3) 和下四分位数 (Q1) 之间的差值。它本质上衡量了中央50%数据所在的范围。

IQR = Q3 - Q1

计算IQR的方法如下:

  • 按升序排列数据。
  • 确定四分位数 (Q1和Q3)。
  • 用Q3减去Q1。

举个例子:

数据:4, 8, 15, 16, 23, 42

首先将数据排列(这里已经是顺序)。接下来,找到Q1和Q3:

Q1 (25百分位) = 8 Q3 (75百分位) = 23

然后计算IQR:

IQR = Q3 - Q1 = 23 - 8 = 15

可视化IQR

问题 1 问题 3 IQR = 15 最小 最大

3. 方差

方差衡量与均值的平均平方偏差。它用于了解数据点与数据集平均值相差多少,由于对异常值较敏感而更侧重于它们。

方差( sigma^2 ) 的公式为:

sigma^2 = frac{sum (x_i - mu)^2}{N}

对于样本,我们使用:

s^2 = frac{sum (x_i - bar{x})^2}{n - 1}

其中:

  • ( x_i ) = 每个值
  • ( mu ) = 总体均值
  • ( bar{x} ) = 样本均值
  • ( N ) = 总体中的值数量
  • ( n ) = 样本中的值数量

使用样本方差的例子:

数据:6, 8, 10, 12, 14

找到平均值:

bar{x} = frac{6 + 8 + 10 + 12 + 14}{5} = 10

计算与均值的平方偏差并找到平均数:

(6 - 10)^2 = 16 (8 - 10)^2 = 4 (10 - 10)^2 = 0 (12 - 10)^2 = 4 (14 - 10)^2 = 16

样本标准差:

s^2 = frac{16 + 4 + 0 + 4 + 16}{5 - 1} = 10

4. 标准差

标准差是方差的平方根,它提供了一种与原始数据单位相同的离散度量,这使得理解更直观。

对于我们之前计算的方差:

s = sqrt{10} = 3.16

标准差很有价值,因为它以与数据相同的单位表示,提供了更好的上下文。

可视化方差和标准差

均值 (6) (8) (10) (12) (14)

选择合适的度量

了解每种离散度量有助于您根据上下文选择合适的度量:

  • 范围:快速检查分布,但对异常值较敏感。
  • IQR:对偏态数据更好,因为它不受异常值影响,专注于中间范围。
  • 方差:更详细,因分类而对异常值有较强韧性,适用于深入分析。
  • 标准差:最适合比较数据集,因为它与数据单位相同。

实际示例

考虑以下两个运动员群体在一周内跑步里程的数据集:

群体A:15, 16, 17, 18, 19 群体B:10, 14, 17, 20, 23

群体A和群体B的平均值均为17英里。现在,计算离散度量:

  1. 范围
    • 群体A:19 - 15 = 4
    • 群体B:23 - 10 = 13
  2. IQR
    • 群体A:数据排列不变,IQR = 19 - 16 = 3
    • 群体B:数据排列不变,IQR = 20 - 14 = 6
  3. 方差
    • 群体A:
      均值 = 17 (15 - 17)^2 = 4 (16 - 17)^2 = 1 (17 - 17)^2 = 0 (18 - 17)^2 = 1 (19 - 17)^2 = 4 s^2 = frac{4 + 1 + 0 + 1 + 4}{4} = 2.5
    • 群体B:
      均值 = 17 (10 - 17)^2 = 49 (14 - 17)^2 = 9 (17 - 17)^2 = 0 (20 - 17)^2 = 9 (23 - 17)^2 = 36 s^2 = frac{49 + 9 + 0 + 9 + 36}{4} = 25.75
  4. 标准差
    • 群体A:( sqrt{2.5} approx 1.58 )
    • 群体B:( sqrt{25.75} approx 5.07 )

比较这些度量时,群体B显示出比群体A更大的离散性,表现在更高的范围、IQR、方差和标准差上。尽管两个群体的均值相同,但其跑步距离的变异性明显不同。

结论

离散度量是提供数据变异性信息的多种工具之一,帮助您估计数据集中数据点的可靠性和波动性。每种度量根据您分析的数据的性质和上下文各有优劣势,允许您从更广的视角进行数据分析。

理解和使用离散度量使您能够更全面地描述数据集,从而在现实世界场景、科学研究、经济学及其他众多领域做出更明智的决策。掌握这些概念可以建立您在统计学中的坚实基础,提高您有效分析和解读数据的能力。


十一年级 → 6.4.2


U
username
0%
完成于 十一年级


评论