Магистратура

МагистратураТеория вероятностей и статистика


Статистическое вывод


Статистическое вывод — это метод принятия решений или прогнозирования о популяции на основе выборки данных, взятой из этой популяции. Это фундаментальный аспект статистики, который связан с выводом заключений о характеристиках или параметрах более широкой группы путем изучения меньшей подгруппы. Этот процесс включает тестирование гипотез, оценку и расчет доверительных интервалов.

Ключевые концепции статистического вывода

Чтобы понять статистический вывод, важно сначала понять некоторые базовые концепции:

Популяция и выборка

Популяция включает все данные точки или элементы, которые мы заинтересованы изучать, в то время как выборка – это подмножество популяции, которое мы фактически наблюдаем и анализируем. Например, если автопроизводитель хочет протестировать среднюю топливную эффективность новой модели, популяция будет включать все произведенные единицы, а выборка может включать 100 автомобилей, протестированных на топливную эффективность.

Параметры и статистики

Параметр — это мера, описывающая характеристику популяции, такую как среднее или стандартное отклонение. В отличие от этого, статистика — это мера, описывающая характеристику выборки. Например, если средний рост выборки из 100 случайных людей составляет 5'7", это среднее является статистикой.

Распределение выборки

Распределение выборки — это распределение данной статистики на основе случайной выборки. Это важная концепция, потому что она позволяет нам понимать, как статистика может варьироваться от выборки к выборке, помогая нам делать выводы о параметре популяции.

0 распределение популяции

Этот график показывает распределение популяции с точками случайной выборки, указанными красными кругами.

Процедуры статистического вывода

Статистический вывод обычно включает несколько процедур:

Точечная оценка

Точечная оценка включает использование данных выборки для расчета одного значения (известного как точечная оценка), которое служит "лучшей догадкой" или оценкой неизвестного параметра популяции. Общие точечные оценщики — это среднее выборки, дисперсия выборки и пропорция выборки.

Например, если мы хотим оценить средний рост всех взрослых мужчин в городе, мы можем использовать средний рост выборки из 100 взрослых мужчин в этом городе. Если средний рост выборки составляет 70 дюймов, наша точечная оценка среднего значения популяции также составляет 70 дюймов.

Оценка интервала

В отличие от точечной оценки, оценка интервала предоставляет диапазон значений (интервал) и сопутствующий уровень доверия, что параметр лежит в этом интервале. Это называется доверительным интервалом.

[ text{доверительный интервал} = left( bar{x} - Z cdot frac{sigma}{sqrt{n}}, bar{x} + Z cdot frac{sigma}{sqrt{n}} right) ]

Здесь ( bar{x} ) — это среднее выборки, ( Z ) — это Z-оценка из стандартного нормального распределения на основе желаемого уровня доверия, ( sigma ) — это стандартное отклонение популяции, и ( n ) — это размер выборки.

Тестирование гипотез

Тестирование гипотез — это метод принятия решений с использованием данных, будь то из контролируемого эксперимента или наблюдательного исследования. Гипотеза — это предположение или утверждение о параметре популяции. Тестирование гипотез определяет рамки для решения о том, отклонить или принять эти предположения.

H_0: mu = mu_0 \
H_a: mu neq mu_0

Здесь ( H_0 ) представляет нулевую гипотезу, которая утверждает отсутствие эффекта или разницы, а ( H_a ) представляет альтернативную гипотезу, которая утверждает наличие некоторого эффекта или разницы.

Этот процесс включает определение p-значения, которое является вероятностью получения результатов теста, по крайней мере, таких же экстремальных, как и наблюдаемые результаты, при условии, что нулевая гипотеза верна.

Общие методы, используемые в статистическом выводе

Несколько методов используются в статистическом выводе для вывода заключений из данных:

Байесовский вывод

Байесовский вывод включает обновление вероятности гипотезы по мере поступления дополнительной информации или доказательств. Он сильно основывается на теореме Байеса:

[ P(H|E) = frac{P(E|H) cdot P(H)}{P(E)} ]

где ( P(H|E) ) — это апостериорная вероятность, ( P(E|H) ) — это правдоподобие, ( P(H) ) — это априорная вероятность, и ( P(E) ) — это маржинальная вероятность.

Частотная оценка

Частотный вывод делает выводы из данных выборки, подчеркивая частоту или пропорцию данных. Частотные подходы разрабатывают тесты гипотез и рассчитывают доверительные интервалы без использования априорных вероятностей.

Максимальное правдоподобие

Оценка максимального правдоподобия (MLE) используется для оценки параметров статистической модели. Метод MLE заключается в нахождении значений параметров, которые максимизируют вероятность появления наблюдаемых данных.

Если у нас есть набор данных выборки и статистическая модель, функция правдоподобия измеряет, насколько хорошо модель объясняет наблюдаемые данные. Она выражается как:

L(theta | x) = prod_{i=1}^{n} f(x_i | theta)

где ( theta ) — параметр, ( X ) — это данные, и ( f(x_i | theta) ) — это вероятность наблюдения точки данных ( x_i ) с учетом ( theta ) .

Примеры статистического вывода

Рассмотрим несколько примеров для лучшего понимания этих концепций:

Пример 1: Оценка среднего роста

Предположим, мы хотим определить средний рост всех студентов в университете. Вместо того чтобы измерять каждого студента, мы решаем взять выборку из 100 студентов.

Данные выборки: [68, 70, 65, 72, 69, 71, 66, 73, 67, 70, ...] // продолжается для 100 записей

Среднее (арифметическое) этой выборки предоставляет точечную оценку среднего роста популяции. Расчет среднего выборки позволит нам сделать вывод:

Среднее выборки = (68 + 70 + 65 + 72 + 69 + 71 + 66 + 73 + 67 + 70 + ...) / 100 = 69.5 дюймов

Таким образом, мы оцениваем, что средний рост всех студентов университета будет около 69.5 дюймов.

Пример 2: Тестирование гипотезы об эффективности препарата

Фармацевтическая компания считает, что их новый препарат снижает кровяное давление. Чтобы проверить это, они провели испытание на 200 пациентах, половина из которых получала препарат, а другая половина — плацебо. Компания предполагает:

H_0: Delta = 0 ,(text{Препарат не оказывает эффекта}) \
H_a: Delta neq 0 ,(text{препарат оказывает эффект})

На основе тестовых данных компания рассчитывает p-значение, чтобы определить вероятность получения результатов, по крайней мере, таких же экстремальных, как и зарегистрированные результаты, при условии, что нулевая гипотеза верна. Обычный порог p-значения составляет 0.05:

Если p-значение < 0.05, отклоните ( H_0 ); иначе не отклоняйте ( H_0 ).

Когда p-значение меньше 0.05, компания может заключить, что препарат эффективен в снижении кровяного давления.

Заключение

Статистическое вывод играет важную роль в исследованиях и анализе данных, создавая мост между описательной статистикой и реальным миром. Он предоставляет инструменты и методы, которые позволяют нам делать обоснованные выводы и прогнозы о популяциях, используя данные выборки. Освоение техник статистического вывода является критически важным для специалистов по данным, исследователей, экономистов и многих других профессионалов, полагающихся на принятие решений на основе данных.


Магистратура → 5.2


U
username
0%
завершено в Магистратура


комментарии