📄 Definições de Estatística
📄 Coleta de dados
📄 População e amostra
📄 Amostragem
📄 Amostra não probabilística
📄 Amostra probabilística
📄 Dimensionamento da amostra
📄 Tipos de dados
📄 Tipos de variáveis escalares
📄 Distribuição de frequências
📄 Regras para a distribuição de frequências
📄 Medidas de tendência central
📄 Variabilidade
📄 Teste de hipótese
📄 Estatística não paramétrica
📄 Teste do qui quadrado
📄 Teste do qui quadrado para duas amostras
📄 Teste T para duas amostras não relacionadas
📄 Análise de variância
📄 Regressão simples (RLS)
📄 Regressão linear múltipla (RLM)
📄 Exercícios e bibliografia
Análise de variância
A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.
Os fatores propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser contínua.
Haja visto que trata-se de um teste bastante difundido e inúmeros bons softwares estatísticos e planilhas eletrônicas possuem o recurso disponível, não haverá aprofundamento desta técnica neste capítulo, sendo recomendada literatura especializada.
A principal aplicação da ANOVA (analysis of variance) é a comparação de médias oriundas de grupos diferentes, também chamados tratamentos, como por exemplo médias históricas de questões de satisfação, empresas que operam simultaneamente com diferentes rendimentos, entre muitas outras aplicações.
Existem dois métodos para calcular-se a variância: dentro de grupos (MQG) e a variância das médias (MQR).
Em uma Anova, calcula-se esses dois componentes de variância. Se a variância calculada usando a média (MQR) for maior do que a calculada (MQG) usando os dados pertencentes a cada grupo individual, isso pode indicar que existe uma diferença significativa entre os grupos.
Existem dois tipos de problemas a serem resolvidos através da Anova: a níveis fixos ou a níveis aleatórios. A aleatoriedade determinada a questão do problema.
Na grande maioria dos casos trata-se de níveis fixos, afinal o segundo tipo de problema (aleatório) somente surgirá quando ocorrer um estudo envolvendo uma escolha aleatória de fatores (em 10 lotes de produção, escolhe-se apenas 5, entre 15 máquinas de um total de 20, por exemplo).
Tabela de Análise de Variância ou tabela ANOVA
Fonte de Variação |
SQ |
GDL |
MQ |
Teste F |
Entre Grupos |
SQG |
K – 1 |
MQG |
MQG/MQR |
Dentro dos Grupos |
SQR |
N-K |
MQR |
|
Total |
SQT |
N-1 |
|
- SQT = SQG + SQR (mede a variação geral de todas as observações).
- SQT é a soma dos quadrados totais, decomposta em:
- SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um efeito dos grupos
- SQR soma dos quadrados dos resíduos, devidos exclusivamente ao erro aleatório, medida dentro dos grupos.
- MQG = Média quadrada dos grupos
- MQR = Média quadrada dos resíduos (entre os grupos)
- SQG e MQG: medem a variação total entre as médias
- SQR e MQR: medem a variação das observações de cada grupo
f = MQG
MQR
N – 1=(K – 1) + (N – K)
SQT = SQG + SQR
MQG = SQG (K – 1)
A hipótese nula sempre será rejeitada quando f calculado for maior que o valor tabelado. Da mesma forma, se MQG for maior que MQR, rejeita-se a hipótese nula.
Quadro
Fonte de variação SQ (soma dos quadrados) GDL (g.l) MQ (quadrados médio) Teste F |
Entre Grupos |
Dentro dos grupos |
Total |
Se o teste f indicar diferenças significativas entre as médias, e os níveis forem fixos, haverá interesse em identificar quais as médias que diferem entre si.
Calcular o desvio padrão das médias;
Sx = , ,onde nc é a soma do número de cada variável (grupo) dividido pelo número de variáveis.
Calcular o limite de decisão (ld)
3 x Sx
Ordenar as médias em ordem crescente ou decrescente e compara-las duas a duas. A diferença será significativa se for maior que Ld.
Se o teste f indicar diferenças significativas entre as médias, e os níveis forem aleatórios, haverá interesse em identificar a estimativa dos componentes de variação.
O valor encontrado acima indicará a variabilidade total entre grupos, indicando se é considerado significativa ou não.
Exemplo (níveis fixos):
Um pesquisador realizou um estudo para verificar qual posto de trabalho gerava mais satisfação para o funcionário. Para isso, durante um mês, 10 funcionários foram entrevistados. Ao final de um mês os funcionários responderam um questionário gerando uma nota para o bem estar do funcionário.
|
Postos |
||
Funcionários |
1 |
2 |
3 |
1 |
7 |
5 |
8 |
2 |
8 |
6 |
9 |
3 |
7 |
7 |
8 |
4 |
8 |
6 |
9 |
5 |
9 |
5 |
8 |
6 |
7 |
6 |
8 |
7 |
8 |
7 |
9 |
8 |
6 |
5 |
10 |
9 |
7 |
6 |
8 |
10 |
6 |
6 |
9 |
Resumo
Grupo |
Contagem |
Soma |
Média |
Variância |
1 |
10 |
73 |
7,3 |
0,9 |
2 |
10 |
59 |
5,9 |
0,544444 |
3 |
10 |
86 |
8,6 |
0,488889 |
ANOVA
Fonte da variação |
SQ |
gl |
MQ |
F |
valor-P |
F crítico |
Entre grupos |
36,46667 |
2 |
18,23 |
28,29 |
2,37E-07 |
3,35 |
Dentro dos grupos |
17,4 |
27 |
0,64 |
|
|
|
Total |
53,86667 |
29 |
|
|
|
|
Como f calculado é maior do que o f tabelado, rejeita-se a hipótese nula em prol da hipótese alternativa ao risco de 5%.
Há diferenças significativas entre os grupos. Observa-se que MQG é muito superior a MQR, indicando uma forte variância entre os grupos.
1. Calcular o desvio padrão das médias;
2. Calcular o limite de decisão (Ld)
3 x Sx
3. Ordenar as médias em ordem crescente ou decrescente e compara-las duas a duas.
5,9
7,3
8,6
x1 – x2 = - 1,4
x1 – x3 = - 2,7
x2 – x3 = - 1,3
As três diferenças são menores que o Ld, conclui-se portanto que as médias diferem entre si.