Класс 7 → Обработка данных → Графическое представление данных ↓
Гистограмма
Гистограмма — это тип графика, используемый для представления данных. Она обеспечивает визуальное отображение, которое помогает понять распределение и частоту данных в конкретном наборе данных. В отличие от столбчатых диаграмм, где мы рассматриваем отдельные категории, гистограмма рассматривает данные как группы или классы, что позволяет увидеть, как данные распределяются по диапазону значений.
Понимание гистограммы
Гистограммы состоят из прямоугольников или столбцов. Каждый столбец в гистограмме обычно отражает частоту данных в пределах определенных границ или интервалов. Эти интервалы известны как бины. Высота каждого столбца отражает частоту попадания точек данных в каждый бин. Бины должны быть одинаковой ширины, и между столбцами не должно быть пробелов.
Рассмотрим пример, чтобы сделать это более понятным. Представьте, что у нас есть набор оценок по математике, полученных группой студентов. Оценки: 50, 55, 60, 65, 70, 50, 60, 90, 95, 100, 85, 88, 94, 70, 75, 60, 45, 55, 60, 50.
Создание гистограммы
- Шаг 1: Организация данных
Сначала мы сортируем данные, чтобы понять их диапазон и как они могут быть разделены на интервалы. Давайте отсортируем оценки: 45, 50, 50, 50, 55, 55, 60, 60, 60, 60, 65, 70, 70, 75, 85, 88, 90, 94, 95, 100.
- Шаг 2: Решите, сколько будет бин
Количество бинов может варьироваться в зависимости от набора данных. Слишком много бинов сделают гистограмму слишком детализированной; слишком мало — слишком простой. Для нашего примера используем 5 бинов.
45-59, 60-74, 75-89, 90-104
- Шаг 3: Рассчитайте частоту оценок в каждом бине
Затем мы подсчитываем, сколько точек попадает в каждый бин.
45-59: 6 оценок 60-74: 7 оценок 75-89: 3 оценки 90-104: 4 оценки
- Шаг 4: Создайте гистограмму
Теперь давайте создадим гистограмму. Ось x (горизонтальная) будет показывать диапазон оценок, а ось y (вертикальная) будет показывать частоту оценок.
Анализ гистограммы
После построения гистограммы становится легче понять распределение данных.
- Первый бин (45–59) имеет самый высокий столбец, что указывает на то, что частота оценок в этом диапазоне выше всего.
- Второй бин (60–74) также содержит значительное количество точек, которое относительно близко к первому бину.
- По мере продвижения бинов к более высоким категориям частота оценок уменьшается, что указывает на то, что меньше студентов получило оценки в этих категориях.
Важность гистограммы
Гистограммы очень полезны в статистике и анализе данных, потому что они:
- Помогают понять основное распределение данных.
- Показывают разброс и расположение данных.
- Упрощают выявление исключений или необычных точек в данных.
- Различные наборы данных могут быть легко сравнены с помощью наложений или побочных сравнений.
Типы форм гистограммы
Форма гистограммы может предоставить информацию о природе распределения:
- Симметричное распределение: Гистограмма с этой формой будет иметь центральный столбец (или столбцы), более высокие, чем остальные, что указывает на равномерное распределение данных вокруг центральной точки.
- Скошенное влево: Эта форма означает, что большая часть частоты сосредоточена справа, с длинным хвостом влево. Это также называется отрицательно асимметричным.
- Скошенное вправо: В этом случае большая часть частоты приходится на левую сторону, с хвостом, простирающимся вправо. Это положительно асимметричное распределение.
- Равномерное распределение: Частота каждого бина примерно одинаковая. Это ответственно за примерно равномерное распределение.
- Бимодальное распределение: Гистограмма может иметь два пика или высоких точек, называемых модами.
Примеры форм гистограммы
Давайте приведем несколько примеров этих форм:
Это симметричная гистограмма, столбцы которой поднимаются к середине, а затем снижаются примерно с одинаковой скоростью.
Это гистограмма с перекосом вправо, столбцы которой выше слева и становятся тоньше вправо.
Распространенные ошибки при построении гистограммы
Вот несколько распространенных ошибок, которые люди часто допускают при создании гистограммы:
- Несоответствие ширины бинов: Всегда убедитесь, что ваши бины имеют одинаковую ширину, так как это обеспечивает четкие и точные сравнения.
- Наложение данных: Убедитесь, что каждое значение данных попадает только в один бин. Никакого перекрытия не должно быть.
- Выбор слишком большого или слишком маленького количества бинов: Выберите количество бинов, которое точно отражает данные, не теряя деталей или не создавая шума.
Заключение
Гистограммы — это мощные инструменты для визуального представления числовых данных. С помощью гистограмм можно получить представление о распределении данных, частотах и центральных тенденциях. Понимание и создание гистограмм необходимо каждому, кто занимается анализом данных. Это помогает выявлять тренды, закономерности и ошибки в процессе сбора данных. С тщательным построением и анализом гистограммы становятся незаменимой частью статистического инструментария.