Введение в меры центральной тенденции
Меры центральной тенденции — это статистические показатели, описывающие центр или среднее значение набора данных. Проще говоря, они показывают, где концентрируется большинство значений в наборе данных. Как правило, мы обсуждаем три основные меры центральной тенденции: среднее, медиану, и моду.
Определение
Среднее — это то, что большинство людей обычно называют "средним арифметическим". Оно рассчитывается путем сложения всех чисел в наборе данных и деления на количество значений в этом наборе данных.
Формула среднего
Среднее = (Сумма всех значений) / (Общее количество значений)
Рассмотрим набор данных: 3, 5, 7, 9, 11.
Чтобы найти среднее:
Сумма = 3 + 5 + 7 + 9 + 11 = 35 Количество значений = 5 Среднее = 35 / 5 = 7
На изображении выше каждая синяя точка представляет собой данные, а зеленая точка показывает позицию среднего (среднего арифметического).
Медиана
Когда числа в наборе данных расположены в порядке возрастания или убывания, медиана — это среднее значение. Если количество значений нечетное, медианой является среднее число. Если количество значений четное, медианой является среднее двух средних чисел.
Пример 1 (нечетное количество значений): Рассмотрим набор данных: 5, 3, 8, 1, 7.
Сначала упорядочиваем набор данных: 1, 3, 5, 7, 8.
Медианное значение — третье число:
Медиана = 5
Пример 2 (четное количество значений): Рассмотрим набор данных: 22, 15, 30, 17.
Сначала отсортируем набор данных: 15, 17, 22, 30.
Медиана — это среднее двух средних чисел, 17 и 22:
Медиана = (17 + 22) / 2 = 19.5
На изображении выше красная точка представляет медиану, указывая на ее центральное положение в упорядоченном наборе данных.
Мода
Мода — это число, которое встречается в наборе данных чаще всего. Набор данных может содержать одну моду, несколько мод или не иметь моду, если числа не повторяются.
Рассмотрим набор данных: 4, 1, 2, 4, 3, 4, 5.
В этом наборе данных число 4 встречается чаще всего:
Мода = 4
Для набора данных: 6, 2, 6, 3, 5, 5, 7:
Числа 6 и 5 встречаются по два раза:
Мода = 6, 5 (бимодальный)
Красные точки указывают на моду выборок наборов данных с несколькими модами.
Сравнение среднего, медианы и моды
Каждая мера центральной тенденции предоставляет разные сведения и лучше всего работает в разных ситуациях.
- Среднее: Лучшая мера для наборов данных без выбросов (крайних значений), так как учитывает все значения.
- Медиана: Полезна для асимметричных наборов данных или при наличии выбросов, поскольку указывает на середину набора данных.
- Мода: Ценна для определения наиболее распространенного значения, особенно в категориальных данных.
Рабочий пример
Давайте сравним среднее, медиану и моду на более сложном примере:
Рассмотрим набор данных: 2, 3, 5, 7, 10, 3, 9, 2, 3, 11.
Сначала упорядочим набор данных: 2, 2, 3, 3, 3, 5, 7, 9, 10, 11.
Среднее:
Сумма = 2 + 2 + 3 + 3 + 3 + 5 + 7 + 9 + 10 + 11 = 55 Общее количество значений = 10 Среднее = 55 / 10 = 5.5
Медиана:
Медиана = (5 + 7) / 2 = 6
Мода:
Мода = 3 (встречается чаще всего)
Итак, для этого примера:
Среднее равно 5.5, медиана равна 6, а мода равна 3.
Заключение
Меры центральной тенденции являются ключевыми компонентами описательной статистики. Понимание разницы между средним, медианой и модой позволяет лучше анализировать наборы данных, находить закономерности и делать прогнозы. Практика с различными наборами данных помогает понять, как эти расчеты могут различаться и что они показывают о данных.