terça-feira, 20 de maio de 2014

Diagrama de Dispersão e Regressão

O diagrama de dispersão considera os pontos de referência dos dados e podemos traçar uma linha de tendência (no nosso caso, a linha escolhida foi a linear). Quanto mais os pontos estiverem próximos da linha de tendência melhor para a análise dos dados, estatisticamente.


Podemos verificar também que o primeiro número da fórmula de y indica o aumento médio por ano das mortes de jovens e que o valor de r2 corrobora a tendência de aumento neste padrão (quanto mais o R2 fica próximo de 1, maior a probabilidade estatística de os dados seguirem a tendência do gráfico). 

Gráfico de Controle de Shewhart

O gráfico de controle de Shewhart é utilizado para verificar que se o processo permanece no decorrer do tempo, dentro de limites pré-determinados. Assim fazemos um gráfico no Excell com os dados variáveis do que queremos analisar, fixamos como constantes a média, os limites mínimos e máximos aceitáveis de variação dos dados. Se os dados saírem dos limites de controle é necessária a intervenção no processo.
Neste caso, fixamos como limite superior de controle (LSC) a média de mortes mais dois desvios padrão, e como limite inferior de controle (LIC) a média menos dois desvios padrão.

No caso dos jovens temos este gráfico de controle:


Neste gráfico de morte de jovens, o Coeficiente de Variação é de 48,09181 (o que indica o descontrole do processo)

Já no gráfico de mortes de crianças verificamos um coeficiente de variação de 20,58532 (até 20 podemos considerar a variação normal para as ciências humanas). Vejamos:


sexta-feira, 16 de maio de 2014

MANOVA

Se além de comparar três ou mais tratamentos, quisermos fazer análise de várias questões em relação a esses tratamentos (por exemplo, no nosso caso, saber sobre gênero, classe social, estado de origem, bairro etc) usamos MANOVA.

Mas isso eu não sei fazer... :-)

Mas podemos visualizar a abrangência do Teste-t, Anova e Manova da seguinte forma:


ANOVA

Podemos usar anova para comparar três ou mais tratamentos.
Neste caso escrevemos em linguagem SAS e rodamos no SAS do laboratório de estatística da faculdade.

Recortamos e colamos o texto em SAS com os dados da tabela a ser analisada e colamos no SAS 9.3 (English) na parte de baixo da tela que está em branco.

OBS: Para rodar este teste demos nomes para as faixas etárias que estão na tabela.


data VITIMAS;
input IDADE $ MORTES;
cards;
JOVENS 7274
JOVENS 7638
JOVENS 7919
ADOLESCENTES 562
ADOLESCENTES 549
ADOLESCENTES 593
CRIANÇAS 113
CRIANÇAS 101
CRIANÇAS 115
BEBES 183
BEBES 192
BEBES 190
;
proc ANOVA;
class IDADE;
model MORTES=IDADE;
means IDADE/ tukey lines;

run;

Clicamos no "homenzinho correndo" lá em cima (submit) para o programa rodar e... 


The SAS System

The ANOVA Procedure
Class Level Information
Class
Levels
Values
IDADE
4
ADOLESCE BEBES CRIANÇAS JOVENS

Number of Observations Read
12
Number of Observations Used
12



The SAS System

The ANOVA Procedure

Dependent Variable: MORTES
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
3
120975710.9
40325237.0
1533.70
<.0001
Error
8
210342.0
26292.8


Corrected Total
11
121186052.9




R-Square
Coeff Var
Root MSE
MORTES Mean
0.998264
7.651912
162.1504
2119.083

Source
DF
Anova SS
Mean Square
F Value
Pr > F
IDADE
3
120975710.9
40325237.0
1533.70
<.0001





The SAS System

The ANOVA Procedure





The SAS System

The ANOVA Procedure

Tukey's Studentized Range (HSD) Test for MORTES

Note:
This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.

Alpha
0.05
Error Degrees of Freedom
8
Error Mean Square
26292.75
Critical Value of Studentized Range
4.52877
Minimum Significant Difference
423.97

Means with the same letter are
not significantly different.
Tukey Grouping
Mean
N
IDADE

A
7610.3
3
JOVENS






B
568.0
3
ADOLESCE

B



C
B
188.3
3
BEBES
C




C

109.7
3
CRIANÇAS

 Aqui podemos verificar que p<0,0001, portanto temos 99% de confiança nos resultados.
E temos 3 categorias A, B, C que fixam subconjuntos em que os números não diferem estatisticamente, conforme o Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança.

Teste-t de Student

Esse teste é muito frequente, mas pode ser utilizado apenas para a comparação de duas observações ou tratamentos (por isso vamos usar a tabela apenas com os dados das mortes de 10 a 14 e de 15 a 19). Aqui podemos rejeitar ou aceitar a hipótese de nulidade.

Rodamos o Teste-T usando o Excell (Dados>Análise de dados> Teste-t: duas amostras presumindo variâncias diferentes)

Tabela: Teste-t

  Variável 1 Variável 2
Média 4199,391 353,1304
Variância 4078637 21298,3
desvio padrão 2019,563 145,9394
Observações 23 23
Hipótese da diferença de média 0
gl 22
Stat t 9,109912
P(T<=t) uni-caudal 3,20E-09
t crítico uni-caudal 1,717144
P(T<=t) bi-caudal 6,4E-09
t crítico bi-caudal 2,073873  

Neste caso a hipótese de nulidade foi afastada (parâmetro usado = limite maior ou igual à 95% para rejeitar Ho), com margem de confiança de 99,9% (tanto na análise uni-caudal como na análise bi-caudal que demonstram margem de erro de 0,00000031999556% e 0,00000063999113%).

Os dados para as análises

Os dados para as análises foram retirados do site do Núcleo de Estudos de Violência da Universidade de São Paulo e tratam do número de mortes de menores durante os anos anotados.

Para mais informações sobre o Núcleo acesse: http://www.nevusp.org

A tabela utilizada:

1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2001 2002 2003
15 até 19 1532 1601 1564 1877 2208 2517 2684 2925 2931 3889 4378 4067 3584 4124 4547 5159 5338 5855 6411 6566 7274 7638 7917
10 até 14 131 149 155 179 176 217 265 267 265 346 376 368 337 377 366 479 513 506 461 485 562 549 593
5 até 9 61 64 64 77 82 66 78 74 90 93 105 91 96 103 106 111 125 117 102 111 113 101 115
0 até 4 101 106 116 133 130 108 107 107 136 128 145 148 148 178 149 176 194 167 207 193 183 192 190

quarta-feira, 14 de maio de 2014

Blog do Professor Gabriel Sarries

Para começar segue o blog do professor Gabriel com resumos das aulas, materiais e as nossas tarefas com deadlines:

Olá!

Olá pessoal,
Este é o meu blog de lições de casa de estatística.
Estou fazendo Introdução à Estatística, Gestão e Metrologia do Professor Gabriel da ESALQ/USP e esse foi um dos desafios propostos.
Sou do Direito e estou me aventurando... portanto desculpem qualquer erro ou imprecisão.
Boa sorte para mim!!!
Carol