Pós-graduação → Probabilidade e estatística ↓
Inferência estatística
Inferência estatística é um método de fazer julgamentos ou previsões sobre uma população com base em uma amostra de dados retirada dessa população. É um aspecto fundamental da estatística e lida com a formulação de conclusões sobre as características ou parâmetros de um grupo maior, examinando um subgrupo menor. O processo envolve testes de hipóteses, estimativa e cálculo de intervalos de confiança.
Conceitos chave da inferência estatística
Para entender inferência estatística, é importante primeiro entender alguns conceitos básicos:
População e amostra
A população inclui todos os pontos de dados ou itens que estamos interessados em estudar, enquanto a amostra é um subconjunto da população que realmente observamos e analisamos. Por exemplo, se um fabricante de carros quer testar a eficiência média de combustível de um novo modelo, a população incluiria todas as unidades produzidas, e a amostra poderia ser 100 carros testados para eficiência de combustível.
Parâmetros e estatísticas
Um parâmetro é uma medida que descreve uma característica de uma população, como a média ou o desvio padrão. Em contraste, uma estatística é uma medida que descreve uma característica de uma amostra. Por exemplo, se a altura média de uma amostra de 100 pessoas aleatórias é 5'7", essa média é uma estatística.
Distribuição amostral
A distribuição amostral é a distribuição de uma dada estatística com base em uma amostra aleatória. É um conceito importante porque nos permite entender como uma estatística pode variar de amostra para amostra, ajudando-nos a fazer inferências sobre um parâmetro populacional.
Este gráfico mostra a distribuição da população com pontos de dados amostrais aleatórios indicados por círculos vermelhos.
Procedimentos em inferência estatística
A inferência estatística geralmente envolve vários procedimentos:
Estimativa pontual
A estimativa pontual envolve o uso de dados amostrais para calcular um único valor (conhecido como estimativa pontual) que serve como um "palpite" ou estimativa de um parâmetro desconhecido da população. Estimadores pontuais comuns são a média amostral, variância amostral e proporção amostral.
Por exemplo, se quisermos estimar a altura média de todos os homens adultos em uma cidade, podemos usar a altura média de uma amostra de 100 homens adultos nessa cidade. Se a altura média da amostra for 70 polegadas, nossa estimativa pontual para a média da população também será de 70 polegadas.
Estimativa intervalar
Diferentemente da estimativa pontual, a estimativa intervalar fornece uma faixa de valores (um intervalo) e um nível de confiança associado de que o parâmetro está dentro deste intervalo. Isso é conhecido como o intervalo de confiança.
[ text{intervalo de confiança} = left( bar{x} - Z cdot frac{sigma}{sqrt{n}}, bar{x} + Z cdot frac{sigma}{sqrt{n}} right) ]
Aqui, ( bar{x} ) é a média amostral, ( Z ) é o escore Z da distribuição normal padrão com base no nível de confiança desejado, ( sigma ) é o desvio padrão da população, e ( n ) é o tamanho da amostra.
Testes de hipótese
O teste de hipóteses é um método de tomar decisões usando dados, seja de um experimento controlado ou de um estudo observacional. Uma hipótese é uma suposição ou declaração sobre um parâmetro populacional. O teste de hipóteses define a estrutura para decidir se aceita ou rejeita essas suposições.
H_0: mu = mu_0 \ H_a: mu neq mu_0
Aqui, ( H_0 ) representa a hipótese nula, que afirma que não há efeito ou diferença, e ( H_a ) representa a hipótese alternativa, que afirma algum efeito ou diferença.
Este processo envolve determinar o valor de p, que é a probabilidade de obter resultados de teste tão extremos quanto os resultados observados, sob a suposição de que a hipótese nula é verdadeira.
Métodos comuns utilizados em inferência estatística
Vários métodos são usados em inferência estatística para formular conclusões a partir de dados:
Inferência Bayesiana
A inferência bayesiana envolve a atualização da probabilidade de uma hipótese à medida que mais evidências ou informações se tornam disponíveis. Ela se baseia fortemente no teorema de Bayes:
[ P(H|E) = frac{P(E|H) cdot P(H)}{P(E)} ]
onde ( P(H|E) ) é a probabilidade posterior, ( P(E|H) ) é a verossimilhança, ( P(H) ) é a probabilidade a priori, e ( P(E) ) é a probabilidade marginal.
Estimativa Frequentista
A inferência frequentista tira conclusões dos dados da amostra, enfatizando a frequência ou proporção dos dados. Frequentistas projetam testes de hipótese e calculam intervalos de confiança sem o uso de probabilidade a priori.
Estimativa de máxima verossimilhança
A estimativa de máxima verossimilhança (MLE) é usada para estimar os parâmetros de um modelo estatístico. O método do MLE envolve encontrar os valores dos parâmetros que maximizam a probabilidade da ocorrência dos dados observados.
Se tivermos um conjunto de dados amostrais e um modelo estatístico, a função de verossimilhança mede o quão bem o modelo explica os dados observados. É expressa como:
L(theta | x) = prod_{i=1}^{n} f(x_i | theta)
onde ( theta ) é um parâmetro, ( X ) são os dados, e ( f(x_i | theta) ) é a probabilidade de observar um ponto de dados ( x_i ) dado ( theta ) .
Exemplos de inferência estatística
Vejamos alguns exemplos para entender melhor esses conceitos:
Exemplo 1: Estimativa da altura média
Suponha que querermos determinar a altura média de todos os estudantes em uma universidade. Em vez de medir cada estudante, decidimos fazer uma amostra de 100 estudantes.
Dados da amostra: [68, 70, 65, 72, 69, 71, 66, 73, 67, 70, ...] // continua por 100 entradas
A média (média) desta amostra fornece uma estimativa pontual para a altura média da população. Calcular a média da amostra nos permitirá formular uma conclusão:
Média da amostra = (68 + 70 + 65 + 72 + 69 + 71 + 66 + 73 + 67 + 70 + ...) / 100 = 69.5 polegadas
Assim, estimamos que a altura média de todos os estudantes universitários será de aproximadamente 69.5 polegadas.
Exemplo 2: Teste de hipótese para eficácia de medicamento
Uma empresa farmacêutica acredita que seu novo medicamento reduz a pressão arterial. Para testar isso, conduziram um ensaio com 200 pacientes, metade dos quais receberam o medicamento e a outra metade um placebo. A empresa hipotetizou que:
H_0: Delta = 0 ,(text{O medicamento não tem efeito}) \ H_a: Delta neq 0 ,(text{O medicamento tem efeito})
Baseada nos dados do teste, a empresa calcula um valor de p para determinar a probabilidade de se obter resultados tão extremos quanto os resultados registrados, assumindo a hipótese nula seja verdadeira. Um valor de p comum como limite é 0.05:
Se o valor de p é < 0.05, rejeita-se ( H_0 ); caso contrário, não se rejeita ( H_0 ).
Quando o valor de p for menor que 0.05, a empresa poderá concluir que o medicamento é eficaz na redução da pressão arterial.
Conclusão
A inferência estatística é instrumental em pesquisa e análise de dados, atuando como uma ponte entre as estatísticas descritivas e o mundo real. Oferece ferramentas e métodos que nos permitem fazer conclusões e previsões informadas sobre populações usando dados amostrais. Dominar técnicas de inferência estatística é crucial para cientistas de dados, pesquisadores, economistas e muitos outros profissionais que dependem de decisões baseadas em dados.