Магистратура → Теория вероятностей и статистика → Теория вероятностей ↓
Центральная предельная теорема
Центральная предельная теорема (ЦПТ) является одним из краеугольных понятий в теории вероятностей и статистике. Она объясняет, почему многие распределения приближаются к нормальному распределению, и служит основой для многих статистических процедур. В этом подробном объяснении мы рассмотрим, что такое центральная предельная теорема, почему она важна и как она работает на различных примерах и визуализациях.
Понимание центральной предельной теоремы
В основе центральной предельной теоремы лежит утверждение о том, что распределение суммы (или среднего) большого количества независимых и одинаково распределенных (iid) случайных величин приблизительно нормально, независимо от исходного распределения, из которого эти величины были взяты, при условии, что исходное распределение имеет конечную дисперсию. Это глубокий результат, поскольку он подразумевает, что даже если вы начнёте с асимметричного или равномерного распределения, если вы возьмёте достаточно образцов и найдёте их среднее, распределение этих средних будет стремиться к нормальному распределению.
P(X_1, X_2, ..., X_n) to N(mu, sigma^2/n)
Здесь, X_1, X_2, ..., X_n
— это образцы из популяции, mu
— это среднее значение популяции, и sigma^2
— дисперсия. N
обозначает нормальное распределение.
Почему центральная предельная теорема важна?
Центральная предельная теорема важна, потому что она обосновывает использование нормального распределения во многих сценариях, где другие модели более сложны или менее понятны. Некоторые ключевые области, где ЦПТ важна, включают:
- Статистическая дедукция: Она позволяет использовать доверительные интервалы и гипотезы, которые предполагают нормальное распределение данных, даже если исходное распределение данных не является нормальным.
- Наука о данных и машинное обучение: Многие алгоритмы предполагают нормальность благодаря ЦПТ, делая модели более устойчивыми.
- Контроль качества: ЦПТ полезна в процессах контроля качества, где мониторятся средние значения выборки.
Иллюстрация центральной предельной теоремы через примеры
Пример 1: Бросание кубика
Рассмотрим бросание честного кубика с шестью гранями. Исход броска кубика имеет дискретное равномерное распределение от 1 до 6. Каждое целое значение от 1 до 6 имеет равную вероятность 1/6. Это распределение определенно не является нормальным.
Теперь представьте, что бросаете два куба 1000 раз и каждый раз берёте среднее обоих кубов. Каждый бросок двух кубов будет независимым, и у нас будет 1000 средних. Когда вы построите график этих средних, вы увидите, что форма их распределения начинает напоминать форму колокола. Теперь, если вы увеличите количество кубов до 3, 4 и более, распределение этих средних будет продолжать все больше напоминать нормальное распределение.
Пример 2: Симуляция подбрасывания монеты
Возьмите 100 монет и подбросьте их. Каждый подброс монеты можно рассматривать как Бернуллиевский опыт с вероятностью 0,5 для орла и 0,5 для решки. Предположим, что '1' соответствует орлу, а '0' — решке.
Если мы проведём этот эксперимент и измерим количество орлов (успехов), мы можем рассматривать каждый подброс как независимую переменную. Центральная предельная теорема показывает, что если мы будем повторять эти 100 подбрасываний монет множество раз и каждый раз строить график количества орлов, распределение этих результатов будет стремиться к нормальному распределению.
Математическое доказательство центральной предельной теоремы
Давайте взглянем на математику, которая строго доказывает центральную предельную теорему. Теорема была развита независимо несколькими математиками, включая Абрахама де Муйвра, Пьера-Симона Лапласа и Карла Фридриха Гаусса. Здесь мы представляем упрощенную версию доказательства:
Пусть X_1, X_2, ..., X_n
будут iid случайными величинами со средним mu
и дисперсией sigma^2
. Ожидание задается как
E[X_i] = mu
и дисперсия равна
Var(X_i) = sigma^2
Определим выборочное среднее как
bar{X} = frac{X_1 + X_2 + ... + X_n}{n}
Ожидание выборочного среднего равно
E[bar{X}] = Eleft[frac{X_1 + X_2 + ... + X_n}{n}right] = mu
и его дисперсия равна
Var(bar{X}) = frac{1}{n^2}(Var(X_1) + Var(X_2) + ... + Var(X_n)) = frac{sigma^2}{n}
Согласно стандартной центральной предельной теореме, если n
достаточно велика, стандартизированное выборочное среднее приблизительно нормально распределено, со средним 0 и дисперсией 1:
Z = frac{bar{X} - mu}{sigma/sqrt{n}} to N(0,1)
Заключение
Центральная предельная теорема — это мощный статистический принцип, который соединяет различные типы распределений с нормальным распределением. Ее универсальность и надежность делают её важным инструментом для статистической дедукции, оправдывая многие методы и теории как в теоретической, так и в прикладной статистике.
Будь то бросание кубиков, подбрасывание монет или измерения в реальном мире, эта теорема позволяет делать обоснованный статистический анализ и прогнозы. Понимая ЦПТ, вы лучше подготовлены к решению разнообразных статистических задач в различных дисциплинах.