Класс 11

Класс 11Вероятность и статистикаФигуры


Корреляция и Регрессия


Введение

В статистике важно понимать взаимосвязь между двумя переменными. Это может показать, как одна переменная может влиять на другую. Два ключевых понятия, которые помогают нам понять эти взаимосвязи, это "корреляция" и "регрессия". Эти понятия позволяют нам исследовать, связаны ли переменные друг с другом и насколько сильно. Давайте подробно обсудим эти интересные темы!

Корреляция

Корреляция — это статистическая мера, описывающая размер и направление связи между двумя переменными, обычно обозначаемыми как X и Y. Она говорит нам о том, движутся ли переменные вместе (и если да, то движутся ли они в одном или в противоположных направлениях), не предполагая причинно-следственной связи.

Понимание корреляции

Когда две переменные коррелированы, это означает, что между ними существует предсказуемый паттерн изменений. Корреляция может быть положительной, отрицательной или нулевой.

  • Положительная корреляция: Как одна переменная увеличивается, другая также увеличивается. Например, связь между количеством времени, потраченного на учебу, и количеством баллов, полученных на экзамене, может демонстрировать положительную корреляцию.
  • Отрицательная корреляция: Как одна переменная увеличивается, другая уменьшается. Примером этого может быть связь между количеством просмотренных фильмов в неделю и временем, потраченным на учебу.
  • Нет корреляции (нулевая корреляция): Нет предсказуемого изменения, соединяющего переменные. Например, ожидается, что связь между цветом глаз и уровнем интеллекта не будет показывать корреляцию.

Визуальный пример корреляции

На диаграмме рассеяния корреляция между двумя переменными отображается визуально:

Положительная корреляция Отрицательная корреляция Нет корреляции

Математическое выражение корреляции

Наиболее часто используемый коэффициент корреляции — это коэффициент корреляции Пирсона, обозначаемый r. Формула для его вычисления выглядит следующим образом:

R = Σ((X_i - X̄)(Y_i - Ȳ)) / (√(Σ(X_i - X̄)² * Σ(Y_i - Ȳ)²))

Где:

  • X_i и Y_i — различные данные точки.
  • — среднее значение значений X, а Ȳ — среднее значение значений Y.
  • Диапазон r находится от -1 до +1.

Если r = 1, это указывает на идеальную положительную линейную взаимосвязь. Если r = -1, это идеальная отрицательная линейная связь. Когда значение r близко к 0, это означает, что линейная связь отсутствует.

Пример

Рассмотрим простой набор данных с двумя переменными:

  • X: 1, 2, 3, 4, 5
  • Y: 2, 4, 5, 4, 5

Чтобы определить корреляцию между X и Y, необходимо применить вышеуказанную формулу.

Регрессия

В то время как корреляция измеряет силу и направление связи между двумя переменными, регрессия направлена на предсказание одной переменной на основе другой. Она предсказывает зависимую переменную (обычно обозначаемую как Y) с использованием независимой переменной (X).

Понимание регрессии

Регрессия помогает понять, как конкретное значение зависимой переменной изменяется, когда одна из независимых переменных изменяется, в то время как другие независимые переменные остаются постоянными. Ее самая простая форма — линейная регрессия, которая представлена в виде линии.

Линейная регрессия

Линейная регрессия стремится моделировать связь между двумя переменными, подбирая линейное уравнение к наблюдаемым данным. Уравнение прямой обычно представлено как:

y = a + bx

Где:

  • Y — это зависимая переменная, которую мы пытаемся предсказать.
  • X — это независимая переменная, которую мы используем для предсказания.
  • a — это перехват, значение Y, когда X=0.
  • b — это наклон, который представляет изменение в Y на одну единицу изменения в X.

Визуальный пример регрессии

Линия, проведенная среди точек данных, часто видна на диаграмме рассеяния следующим образом:

Линия наилучшего совпадения

Красная линия называется линией наилучшего совпадения или регрессионной линией. Она минимизирует расстояние от всех точек до линии, что известно как метод наименьших квадратов.

Нахождение регрессионной линии математически

Формулы для вычисления наклона b и перехвата a даются следующими:

B = Σ((X_i - X̄)(Y_i - Ȳ)) / Σ((X_i - X̄)²)
a = Ȳ − bx̄

Эти формулы возникают из-за минимизации квадратных различий наблюдаемых значений от линии.

Пример

Используя первый набор данных с переменными X: [1, 2, 3, 4, 5] и Y: [2, 4, 5, 4, 5].

  • Сначала вычислите и Ȳ.
  • Затем, используя вышеуказанную формулу, определите b и a.

После вычисления:

b = 0.6
a = 2.2
Y = 2.2 + 0.6X

Таким образом, уравнение вашей регрессии становится Y = 2.2 + 0.6X.

Ключевые различия и резюме

  • Цель: Корреляция измеряет направление и силу взаимосвязи. Однако регрессия моделирует и предсказывает одну переменную на основе другой.
  • Зависимость: Корреляция не зависит от причины и следствия. Регрессия теоретически предполагает направление зависимости.
  • Симметрия: Корреляция симметрична, так как corr(X, Y) = corr(Y, X). Регрессия изменяет направление, так как Y = a + bX не идентично X = c + dY.

В заключение, корреляция и регрессия предоставляют ценные данные о взаимосвязях между переменными. Понимание этих понятий имеет решающее значение для анализа данных во многих областях и предоставляет важную основу для продвинутого статистического моделирования.


Класс 11 → 6.4.4


U
username
0%
завершено в Класс 11


комментарии