11º ano → Probabilidade e Estatística → Figuras ↓
Medidas de dispersão
Em estatística, as medidas de dispersão são métricas importantes que descrevem a dispersão ou variabilidade dentro de um conjunto de dados. Quando você coleta dados, saber quão dispersos estão os pontos de dados pode fornecer informações valiosas além de conhecer a média ou média. As medidas de dispersão ajudam a entender a distribuição dos dados. Vamos analisar esses conceitos com mais detalhes.
Por que as medidas de dispersão são importantes?
Imagine duas turmas fazendo um teste de matemática. A pontuação média nas duas turmas é 70 de 100. Isso significa que as duas turmas tiveram o mesmo desempenho? Não necessariamente. Apenas conhecer a média oculta a variação nas pontuações. Se uma turma pontua entre 50 e 90 e outra entre 68 e 72, o desempenho é bastante diferente. As medidas de dispersão ajudam a destacar essas diferenças, mostrando quão amplamente as pontuações estão distribuídas.
Tipos de medidas de dispersão
Existem várias medidas principais de dispersão:
- Categoria
- Intervalo Interquartil (IQR)
- Variação
- Desvio Padrão
1. Intervalo
O intervalo é a medida mais simples de dispersão. É calculado como a diferença entre os valores máximo e mínimo em um conjunto de dados. Ele informa o alcance de seus dados.
Intervalo = Valor máximo - Valor mínimo
Por exemplo, digamos que temos o seguinte conjunto de dados de pontuações:
Dados: 10, 15, 20, 25, 30
O limite será o seguinte:
Intervalo = 30 - 10 = 20
Embora fácil de calcular, o intervalo apenas considera os extremos dos dados e pode não refletir a verdadeira dispersão se contiver outliers.
2. Intervalo Interquartil (IQR)
O intervalo interquartil (IQR) mede a dispersão entre os dados. É a diferença entre o quartil superior (Q3) e o quartil inferior (Q1). Ele essencialmente mede o intervalo dentro do qual 50% centrais dos dados estão.
IQR = Q3 - Q1
Para calcular o IQR, siga estas etapas:
- Organize os dados em ordem crescente.
- Identifique os quartis (Q1 e Q3).
- Subtraia Q1 de Q3.
Vamos ver um exemplo:
Dados: 4, 8, 15, 16, 23, 42
Primeiro, organize os dados (aqui já estão em ordem). Em seguida, encontre Q1 e Q3:
Q1 (percentil 25) = 8 Q3 (percentil 75) = 23
Em seguida, calcule o IQR:
IQR = Q3 - Q1 = 23 - 8 = 15
Visualizando o IQR
3. Variação
A variância mede o desvio médio ao quadrado em relação à média. Ela é útil para entender quanto os pontos de dados diferem do valor médio do conjunto de dados e dá mais ênfase aos outliers devido à classificação.
A fórmula para variância ( sigma^2 ) em uma população é:
sigma^2 = frac{sum (x_i - mu)^2}{N}
Para amostragem usamos:
s^2 = frac{sum (x_i - bar{x})^2}{n - 1}
Onde:
- ( x_i ) = cada valor
- ( mu ) = média da população
- ( bar{x} ) = média da amostra
- ( N ) = número de valores na população
- ( n ) = número de valores na amostra
Exemplo usando variância amostral:
Dados: 6, 8, 10, 12, 14
Encontre a média:
bar{x} = frac{6 + 8 + 10 + 12 + 14}{5} = 10
Calcule os desvios ao quadrado da média e encontre a média:
(6 - 10)^2 = 16 (8 - 10)^2 = 4 (10 - 10)^2 = 0 (12 - 10)^2 = 4 (14 - 10)^2 = 16
Desvio Padrão da Amostra:
s^2 = frac{16 + 4 + 0 + 4 + 16}{5 - 1} = 10
4. Desvio padrão
O desvio padrão é a raiz quadrada da variância, que fornece uma medida de dispersão nas mesmas unidades dos dados originais, tornando-o mais fácil de entender intuitivamente.
Para a variância que calculamos anteriormente:
s = sqrt{10} = 3.16
O desvio padrão é valioso porque é expresso nas mesmas unidades dos dados, proporcionando um contexto melhor.
Visualizando Variância e Desvio Padrão
Escolhendo a solução certa
Entender cada medida de dispersão ajuda a escolher a medida correta com base no contexto:
- Intervalo: Verifica rapidamente a extensão, mas é sensível a valores discrepantes.
- IQR: Melhor para dados inclinados, pois não é afetado por valores discrepantes e se concentra na extensão média.
- Variância: Mais detalhada, robusta a valores discrepantes devido à classificação, útil para análises detalhadas.
- Desvio Padrão: Melhor para comparar conjuntos de dados porque compartilha unidades com os pontos de dados.
Exemplo Prático
Considere o exemplo a seguir de dois conjuntos de dados mostrando as milhas percorridas por dois grupos de atletas em uma semana:
Grupo A: 15, 16, 17, 18, 19 Grupo B: 10, 14, 17, 20, 23
A média de ambos os Grupos A e B é 17 milhas. Agora, calcule a medida de dispersão:
- Categoria:
- Grupo A:
19 - 15 = 4
- Grupo B:
23 - 10 = 13
- Grupo A:
- IQR:
- Grupo A: O arranjo dos dados permanecerá o mesmo, IQR
= 19 - 16 = 3
- Grupo B: O arranjo dos dados permanecerá o mesmo, IQR
= 20 - 14 = 6
- Grupo A: O arranjo dos dados permanecerá o mesmo, IQR
- Variância:
- Grupo A:
Média = 17 (15 - 17)^2 = 4 (16 - 17)^2 = 1 (17 - 17)^2 = 0 (18 - 17)^2 = 1 (19 - 17)^2 = 4 s^2 = frac{4 + 1 + 0 + 1 + 4}{4} = 2.5
- Grupo B:
Média = 17 (10 - 17)^2 = 49 (14 - 17)^2 = 9 (17 - 17)^2 = 0 (20 - 17)^2 = 9 (23 - 17)^2 = 36 s^2 = frac{49 + 9 + 0 + 9 + 36}{4} = 25.75
- Grupo A:
- Desvio Padrão:
- Grupo A: ( sqrt{2.5} approx 1.58 )
- Grupo B: ( sqrt{25.75} approx 5.07 )
Ao comparar essas medições, o grupo B mostra uma maior dispersão do que o grupo A, indicado por um intervalo, IQR, variância e desvio padrão maiores. Embora os dois grupos tenham a mesma média, a variabilidade na distância de corrida deles é significativamente diferente.
Conclusão
As medidas de dispersão incluem uma variedade de ferramentas que fornecem informações sobre a variabilidade dos dados, ajudando você a estimar a confiabilidade e a volatilidade dos pontos de dados em um conjunto. Cada medida tem seus próprios pontos fortes e fracos, dependendo da natureza e contexto dos dados que você está analisando, permitindo que você aborde a análise de dados de uma perspectiva mais ampla.
Compreender e usar medidas de dispersão permite que você descreva melhor os conjuntos de dados, o que, por sua vez, leva a uma tomada de decisão mais informada em cenários do mundo real, pesquisa científica, economia e muitos outros campos. Ao dominar esses conceitos, você desenvolve uma base sólida em estatística que aprimora sua capacidade de analisar e interpretar dados de forma eficaz.