Класс 11

Класс 11Вероятность и статистикаФигуры


Меры разброса


В статистике меры разброса — это важные метрики, которые описывают разброс или изменчивость в наборе данных. Когда вы собираете данные, знание того, насколько данные разбросаны, может дать ценную информацию, помимо знания среднего значения или среднего арифметического. Меры разброса помогают понять распределение данных. Давайте рассмотрим эти концепции более подробно.

Почему важны меры разброса?

Представьте, что два класса пишут тест по математике. Средний балл по обоим классам составляет 70 из 100. Означает ли это, что оба класса выступили одинаково? Не обязательно. Знание только среднего скрывает вариацию в оценках. Если один класс набирает от 50 до 90, а другой от 68 до 72, то успехи совершенно разные. Меры разброса помогают выявить эти различия, показывая, насколько широко разбросаны оценки.

Типы мер разброса

Существует несколько основных мер разброса:

  1. Категория
  2. Интерквартильный размах (ИQR)
  3. Размах
  4. Стандартное отклонение

1. Размах

Размах — это простейшая мера разброса. Он рассчитывается как разница между максимальным и минимальным значениями в наборе данных. Он говорит о диапазоне ваших данных.

Размах = Максимальное значение - Минимальное значение

Например, у нас есть следующий набор данных для оценок:

Данные: 10, 15, 20, 25, 30

Размах будет следующим:

Размах = 30 - 10 = 20

Хотя размах легко вычислить, он учитывает только крайние значения данных и может не отражать истинный разброс, если в нем есть выбросы.

2. Интерквартильный размах (IQR)

Интерквартильный размах (IQR) измеряет разброс среди данных. Это разница между верхним квартилем (Q3) и нижним квартилем (Q1). Он в основном измеряет диапазон, в котором находится центральные 50 % данных.

IQR = Q3 - Q1

Чтобы рассчитать IQR, выполните следующие шаги:

  • Расположите данные в порядке возрастания.
  • Определите квартили (Q1 и Q3).
  • Вычтите Q1 из Q3.

Посмотрим на пример:

Данные: 4, 8, 15, 16, 23, 42

Во-первых, расположите данные (здесь они уже в порядке). Затем найдите Q1 и Q3:

Q1 (25-й процентиль) = 8 Q3 (75-й процентиль) = 23

Затем вычислите IQR:

IQR = Q3 - Q1 = 23 - 8 = 15

Визуализация IQR

Вопрос 1 Вопрос 3 IQR = 15 Мин Максимум

3. Дисперсия

Дисперсия измеряет среднее квадратичное отклонение от среднего. Она полезна для понимания того, насколько данные отличаются от среднего значения набора данных, и придает больший вес выбросам из-за возведения в квадрат.

Формула дисперсии ( sigma^2 ) для совокупности:

sigma^2 = frac{sum (x_i - mu)^2}{N}

Для выборки используется:

s^2 = frac{sum (x_i - bar{x})^2}{n - 1}

Где:

  • ( x_i ) = каждое значение
  • ( mu ) = среднее совокупности
  • ( bar{x} ) = среднее выборки
  • ( N ) = количество значений в совокупности
  • ( n ) = количество значений в выборке

Пример с использованием дисперсии выборки:

Данные: 6, 8, 10, 12, 14

Найдите среднее:

bar{x} = frac{6 + 8 + 10 + 12 + 14}{5} = 10

Рассчитайте квадраты отклонений от среднего и найдите среднее:

(6 - 10)^2 = 16 (8 - 10)^2 = 4 (10 - 10)^2 = 0 (12 - 10)^2 = 4 (14 - 10)^2 = 16

Стандартное отклонение выборки:

s^2 = frac{16 + 4 + 0 + 4 + 16}{5 - 1} = 10

4. Стандартное отклонение

Стандартное отклонение — это квадратный корень из дисперсии, который предоставляет меру разброса в тех же единицах, что и исходные данные, что делает его легче для интуитивного понимания.

Для дисперсии, которую мы вычислили ранее:

s = sqrt{10} = 3.16

Стандартное отклонение является ценным, потому что оно выражается в тех же единицах, что и данные, предоставляя лучший контекст.

Визуализация дисперсии и стандартного отклонения

Среднее (6) (8) (10) (12) (14)

Выбор правильного решения

Понимание каждой меры разброса помогает выбрать правильную меру в зависимости от контекста:

  • Размах: Быстро проверяет разброс, но чувствителен к выбросам.
  • IQR: Лучше подходит для асимметричных данных, так как не затрагивается выбросами, и фокусируется на распределении в срединном диапазоне.
  • Дисперсия: Более детализирована, устойчива к выбросам из-за возведения в квадрат, полезна для глубокого анализа.
  • Стандартное отклонение: Лучшая для сравнения наборов данных, так как имеет те же единицы, что и данные.

Практический пример

Рассмотрим следующий пример двух наборов данных, показывающих пробег в милях для двух групп спортсменов за неделю:

Группа A: 15, 16, 17, 18, 19 Группа B: 10, 14, 17, 20, 23

Среднее для обеих групп A и B — 17 миль. Теперь, расчитайте меры разброса:

  1. Размах:
    • Группа A: 19 - 15 = 4
    • Группа B: 23 - 10 = 13
  2. IQR:
    • Группа A: Расположение данных останется тем же, IQR = 19 - 16 = 3
    • Группа B: Расположение данных останется тем же, IQR = 20 - 14 = 6
  3. Дисперсия:
    • Группа A:
      Среднее = 17
      (15 - 17)^2 = 4
      (16 - 17)^2 = 1
      (17 - 17)^2 = 0
      (18 - 17)^2 = 1
      (19 - 17)^2 = 4
      s^2 = frac{4 + 1 + 0 + 1 + 4}{4} = 2.5
    • Группа B:
      Среднее = 17
      (10 - 17)^2 = 49
      (14 - 17)^2 = 9
      (17 - 17)^2 = 0
      (20 - 17)^2 = 9
      (23 - 17)^2 = 36
      s^2 = frac{49 + 9 + 0 + 9 + 36}{4} = 25.75
  4. Стандартное отклонение:
    • Группа A: ( sqrt{2.5} approx 1.58 )
    • Группа B: ( sqrt{25.75} approx 5.07 )

При сравнении этих измерений группа B показывает больший разброс, чем группа A, что указывается более высоким размахом, IQR, дисперсией и стандартным отклонением. Хотя у обеих групп одинаковое среднее значение, их изменчивость в пробеге значительно отличается.

Заключение

Меры разброса включают в себя разнообразные инструменты, предоставляющие информацию о вариабельности данных, помогая вам оценить надежность и изменчивость данных в наборе. Каждая мера имеет свои достоинства и недостатки в зависимости от природы и контекста анализируемых данных, позволяя подходить к анализу данных с более широкой перспективы.

Понимание и использование мер разброса позволяет более полно описывать наборы данных, что, в свою очередь, приводит к более информированным решениям в реальных сценариях, научных исследованиях, экономике и многих других областях. Овладев этими концепциями, вы развиваете прочную основу в статистике, которая улучшает вашу способность эффективно анализировать и интерпретировать данные.


Класс 11 → 6.4.2


U
username
0%
завершено в Класс 11


комментарии