中心趋势的度量介绍
中心趋势的度量是描述数据集中心或平均值的统计量。简单来说,它们告诉我们数据集中大多数值的集中位置。通常,我们讨论三种主要的中心趋势度量:均值、中位数和众数。
意义
均值是大多数人通常所称的“平均值”。它是通过将数据集中的所有数字相加,然后除以该数据集中值的数量来计算的。
均值公式
均值 = (所有值之和) / (值的总数)
考虑数据集:3, 5, 7, 9, 11。
计算均值:
总和 = 3 + 5 + 7 + 9 + 11 = 35 值的总数 = 5 均值 = 35 / 5 = 7
在上图中,每个蓝色圆圈代表一个数据点,绿色圆圈代表平均值的位置。
中位数
当数据集中的数字按顺序排列时,中位数是中间的值,从最低到最高或从最高到最低。如果值的数量是奇数,中位数是中间的数字。如果值的数量是偶数,中位数是两个中间数字的平均值。
示例 1(奇数值):考虑数据集:5, 3, 8, 1, 7。
首先,排列数据集:1, 3, 5, 7, 8。
中位数是第三个数字:
中位数 = 5
示例 2(偶数值):考虑数据集:22, 15, 30, 17。
首先,排序数据集:15, 17, 22, 30。
中位数是两个中间数字的平均值,17 和 22:
中位数 = (17 + 22) / 2 = 19.5
在上图中,红色圆圈代表中位数,显示其在有序数据集中的中心位置。
众数
众数是数据集中出现最多的数字。数据集可以有一个众数,多于一个众数,或如果没有数字重复则没有众数。
考虑数据集:4, 1, 2, 4, 3, 4, 5。
在这个数据集中,数字4出现最多:
众数 = 4
对于数据集:6, 2, 6, 3, 5, 5, 7:
数字 6 和 5 都出现了两次:
众数 = 6, 5(双众数)
红色圆圈表示样本数据集中的众数,其中含有多个众数。
均值、中位数和众数的比较
每种中心趋势的度量提供了不同的见解,并在不同的情况下更有效。
- 均值:适合没有异常值(极值)的数据集,因为它考虑所有值。
- 中位数:适用于偏态数据集或存在异常值的情况,因为它表示数据集的中间。
- 众数:在确定最常见的值时有价值,尤其是在分类数据中。
工作示例
让我们用一个更复杂的例子来比较均值、中位数和众数:
考虑数据集:2, 3, 5, 7, 10, 3, 9, 2, 3, 11。
首先,排列数据集:2, 2, 3, 3, 3, 5, 7, 9, 10, 11。
均值:
总和 = 2 + 2 + 3 + 3 + 3 + 5 + 7 + 9 + 10 + 11 = 55 值的总数 = 10 均值 = 55 / 10 = 5.5
中位数:
中位数 = (5 + 7) / 2 = 6
众数:
众数 = 3(出现最频繁)
因此,对于这个例子:
均值是 5.5,中位数是 6,众数是 3。
结论
中心趋势的度量是描述性统计的重要组成部分。通过了解均值、中位数和众数之间的区别,我们可以更好地分析数据集,以发现模式并进行预测。通过不同的数据集进行练习,以查看这些计算如何不同以及它们揭示了关于数据的哪些信息。