MARIA HELENA PESTANA JOÃO NUNES GAGEIRO
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS A Complementaridade do SPSS
6
ª
EDIÇÃO
A obra de referência da Análise de Dados em Portugal
Revista, Atualizada e Aumentada
EDIÇÕES SÍLABO
Análise de Dados para Ciências Sociais A Complementariedade do SPSS MARIA HELENA PESTANA JOÃO NUNES GAGEIRO
6ª EDIÇÃO
EDIÇÕES SÍLABO
É expressamente proibido reproduzir, no todo ou em parte, sob qualquer forma ou meio, NOMEADAMENTE FOTOCÓPIA, esta obra. As transgressões serão passíveis das penalizações previstas na legislação em vigor. Visite a Sílabo na rede
www.silabo.pt
Editor: Manuel Robalo FICHA TÉCNICA: Título: Análise de Dados para Ciências Sociais – A Complementariedade do SPSS Autores: Maria Helena Pestana, João Nunes Gageiro � Edições Sílabo, Lda. Capa: Pedro Mota 1ª Edição – Lisboa, outubro de 1998 6ª Edição – Lisboa, outubro de 2014 Impressão e acabamentos: Cafilesa – Soluções Gráficas, Lda. Depósito Legal: 382311/14 ISBN: 978-972-618-775-2
EDIÇÕES SÍLABO, LDA. R. Cidade de Manchester, 2 1170-100 Lisboa Tel.: 218130345 Fax: 218166719 e-mail:
[email protected] www.silabo.pt
Índice
17
Prefácio
Introdução 1. Iniciação ao IBM-SPSS 1.1. Ficheiro de dados 1.2. Definição de variáveis e casos 1.3. Análise estatística 1.4. Gráficos 1.5. Ajudas 1.6. Junção de informação de dois ficheiros 1.6.1. Junção de variáveis 1.6.2. Junção de casos
1.7. Edição de Informação 1.8. Definição e organização de dados 1.9. Transformação de dados 1.9.1. 1.9.2. 1.9.3. 1.9.4. 1.9.5. 1.9.6. 1.9.7.
Criação de novas variáveis Agregação de categorias Inversão da ordem das categorias Transformação de uma variável métrica em qualitativa Conversão de uma variável string em numérica Contagem de casos Substituição de respostas omissas
1.10. Utilidades
22 22 22 27 28 29 30 30 33 34 36 38 39 40 42 42 43 44 44 44
2. Exercícios – Enunciados
45
3. Exercícios – Resolução
46
Capítulo 1 Estatística descritiva e indutiva 1. Introdução 1.1. Escalas de medida e tratamento estatístico
53 53
2. Estatística descritiva versus indutiva
57
3. Análise das respostas omissas
58 59 60 61 62 65 67 68
3.1. Exclude cases listwise 3.2. Exclude cases pairwise 3.3. Replace with mean 3.4. Análise univariada das respostas omissas 3.5. Padrão das respostas omissas 3.6. Aleatoriedade das respostas omissas 3.7. Não aleatoriedade das respostas omissas
4. Variáveis nominais 4.1. Quadro de distribuição de frequências 4.2. Moda 4.3. Gráficos de barras e circular
5. Variáveis ordinais 5.1. Quantis 5.2. Quadro de distribuição de frequências 5.3. Introdução de dados 5.4. Moda e conclusão
6. Variáveis métricas
69 69 70 70 75 75 76 77 79
81 6.1. Quadro de distribuição de frequências, moda e quantis 81 6.2. Outliers , Amplitude total e inter-quartil 83 6.3. Histograma, diagrama de caule e folhas e caixa de bigodes 85 6.4. Média e suas propriedades 90 6.5. Variância, desvio padrão, desvio absoluto médio e desigualdade de Tchebycheff 95 6.6. Erro padrão e intervalo de confiança para a média 97 6.7. Média aparada 99 6.8. Simetria e achatamento 103 6.9. Média ponderada, geométrica e harmónica 108 6.10. Coeficiente de variação e MAD 111 6.11. Distribuição normal e testes à normal 116
6.12. Transformações e estandardização 6.13. Categorização pelo método dos grupos extremos revisto 6.14. Criação de índices pela uniformização de escalas
120 131 134
7. Medida concentração: índice de Gini
139
8. Exercícios – Enunciados
141
9. Exercícios – Resolução
152
10. Fundamentos para a inferência 10.1. Testes paramétricos e não paramétricos 10.2. Estimadores e distribuições amostrais 10.2.1. Distribuições do Qui-Quadrado, t de Student e F de Snedecor
10.3. Estimação: pontual, por intervalos e ensaio de hipóteses 10.4. Regra de decisão 10.5. Aplicações 10.5.1. Desigualdade de Chebychev 10.5.2. Distribuição uniforme 10.5.2. Distribuição normal 10.5.4. Distribuição do Qui-Quadrado 10.5.5. Distribuição t de Student 10.5.6. Distribuição F de Snedecor
239 239 240 242 244 248 249 250 250 251 256 258 260
Capítulo 2 Contingência, associação e correlação 1. Introdução
269
2. Tabelas de contingência e teorema de Bayes
270 270 271 273
1.1. Construção de tabelas 1.2. Probabilidade conjunta, marginal e condicionada 1.3. Teorema de Bayes
3. Análise das tabelas de contingência 3.1. Testes de independência do Qui-Quadrado 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.1.5. 3.1.6.
Teste do Qui-Quadrado de Pearson Teste do rácio da verosimilhança Teste do Qui-Quadrado da correção de continuidade de Yates Teste do Qui-Quadrado de Fisher Teste Linear-by-Linear Association Teste de McNemar
276 277 278 286 292 292 299 300
3.2. Odds e odds racio 3.2.1. 3.2.2. 3.2.3. 3.2.4.
Odds Odds rácio Propriedades Intervalo de confiança para o odds rácio
3.3. Risco relativo, rácio de prevalência, diferença de proporções e intervalos de confiança 3.3.1. 3.3.2. 3.3.3. 3.3.4.
Risco relativo e rácio de prevalência Intervalo de confiança para RR ou RP Teste de homogeneidade e intervalo de confiança Discrepância entre o odds rácio e o RP
3.4. Relação entre o odds rácio e RR ou RP 3.5. Associações marginais e condicionadas 3.5.1. Totais das k subtabelas são semelhantes 3.5.2. Totais das k subtabelas são diferentes
3.6. Concordância: Kappa de Cohen 3.6.1. Vulnerabilidade do Kappa de Coehen
3.7. Outras medidas de associação para variáveis nominais 3.7.1. Phi, V de Cramer, coeficiente de contingência 3.7.2. Lambda, Goodman e Kruskal’s tau e coeficiente de incerteza 3.7.3. Síntese
3.8. Outras medidas de associação para variáveis ordinais 3.8.1. Gamma, Kendall’s tau b , Kendall’s tau c , Somer’s d 3.8.2. Síntese
3.9. Sensibilidade, especificidade, valor preditivo, prevalência, rácio da verosimilhança 3.9.1. Síntese
3.10. Curva ROC 3.10.1. Síntese
3.11. Correlações simples e parciais: variáveis estandardizadas Z , Ró de Spearman e R de Pearson 3.11.1. Síntese
3.12. Eta e correlações biserial e point biserial 3.12.1. Síntese
301 301 301 302 303 303 303 304 304 306 306 307 309 315 319 321 323 323 324 324 330 330 332 335 337 340 342 345 348 361 362
4. Exercícios – Enunciados
367
5. Exercícios – Resolução
381
6. Fundamentos das tabelas de contingência
461
Capítulo 3 Anacor, MCA e MDS 1. Introdução
467
2. Anacor
468
3. MCA
471
4. MDS
473
5. Exercícios – Enunciados
478
6. Exercícios – Resolução
482
Capítulo 4 Análise das componentes principais e análise fatorial 1. Introdução
516
2. Análise das Componentes Principais (ACP)
518
3. Análise Fatorial (AF)
519 520 521 522 522 523 524 525 526 527 527
3.1. Existência de correlação e a adequação aos dados 3.2. Número de fatores a reter 3.3. Percentagem de variância explicada pelos fatores retidos 3.4. Percentagem de variância explicada por cada fator retido 3.5. Variáveis pertencentes a cada fator 3.6. Variáveis a reter 3.7. Indicadores da qualidade do modelo: GFI, AGFI e RMSR 3.7.1. Goodness of Fit Index (GFI): 3.7.2. AGFI 3.7.3. A Root Mean Square Residual (RMSR) é dada por:
3.8. Representação gráfica e interpretação dos fatores retidos 3.9. Exploração dos dados, outliers e respostas omissas
528 529
4. Análise fatorial em escalas
530
5. Análise da Consistência Interna
5.3. Modelos Paralelo e Estritamente Paralelo
531 531 532 532
5.4. Guttman
533
5.5. Coeficiente de Correlação Intra Classes
533
5.1. Alpha de Cronbach 5.2. Coeficiente de Bipartição
6. Exercícios – Enunciados
534
7. Exercícios – Resolução
538
Capítulo 5 Análise de clusters 1. Análise de Clusters
575
2. Exercícios – Enunciados
578
3. Exercícios – Resolução
579
Capítulo 6 Análise discriminante 1. Análise discriminante 1.1. Pressupostos 1.2. Seleção das variáveis explicativas 1.3. Número de funções discriminantes 1.4. Variáveis explicadas por cada função discriminante retida 1.5. Classificar casos e validar os resultados 1.6. Analisar as respostas omissas
604 604 606 608 609 610 611
2. Exercícios – Enunciados
611
3. Exercícios – Resolução
612
Capítulo 7 Regressão 1. Modelos de regressão
643
2. Modelo de Regressão Linear Simples − MRLS
644 645 647 650 651 656 659 661
2.1. Pressupostos 2.2. Exploração dos dados 2.3. Estimação 2.4. Previsão pontual e por intervalos 2.5. Medidas absolutas e relativas da qualidade do ajustamento 2.6. Teste t de Student 2.7. Teste F de Snedecor
2.8. Verificação das Hipóteses do MRLS 2.8.1. Linearidade e transformações 2.8.2. Normalidade 2.8.3. Homocedasticidade 2.8.4. Autocorrelação
2.9. Observações outliers e influentes 2.9.1. Outliers 2.9.2. Observações influentes
662 663 668 669 673 676 676 679
3. Escolha entre funções polinomiais
682
4. Relações não lineares
4.5. Função exponencial inversa
688 688 694 696 702 709
5. Permanência de estrutura-MRLS
714
6. Variáveis artificiais ou dummies
721 721 722 722 722
4.1. Função potência: elasticidade constante 4.2. Função logarítmica 4.3. Função exponencial: crescimento constante 4.4. Função inversa ou hiperbólica
6.1. Determinação do número de variáveis artificiais 6.2. Codificação das variáveis artificiais 6.2.1. Categoria de referência com o código zero 6.2.2. Contrastes
6.3. Interações
723
7. Multicolinearidade
737 738 738 739 740 742 743
7.1. Origens da multicolinearidade 7.2. Efeitos da elevada multicolinearidade 7.3. Oscilações nas estimativas dos coeficientes 7.4. Medidas de multicolinearidade 7.5. Sugestões para suprir a elevada multicolinearidade 7.6. Interpretação dos coeficientes da reta estimada no MRLM
8. Coeficiente de determinação ajustado R a 2 9. Covariância, R de Pearson, Ró de Spearman, correlações parciais e semiparciais 9.1. Covariância 9.2. R de Pearson 9.3. Ró de Spearman 9.4. Correlações parciais e semiparciais
743 745 745 747 748 749
10. Interpretação do teste F da Anova
751
11. Interpretação dos testes t e F change
752
12. Métodos de entrada de variáveis na regressão
754 755 755 756
12.1. Regressão múltipla standard (Method Enter ): 12.2. Regressão hierárquica ou sequencial 12.3. Stepwise
13. Validação cruzada 13.1. R ao quadrado ajustado de Stein 13.2. Partição dos dados
14. Modelo de Regressão Linear Múltipla – MRLM 14.1. MRLM sem violação dos pressupostos 14.1.1. Exploração dos dados 14.1.2. Estimação e previsão 14.1.3. Hipóteses do MRLM 14.1.4. Observações Outliers e Influentes
14.2. 2SLS 14.3. WLS 14.3.1. Exploração da heterocedasticidade 14.3.2. Encontrar a fonte principal da heterocedasticidade 14.3.3. Escolha da potência ótima 14.3.5. Verificação da correção da heterocedasticidade
15. Permanência de estrutura – MRLM 15.1. MRLM com uma observação adicional 15.2. MRLM com m < k observações adicionais: teste de Gregory Chow
757 757 758 772 773 776 778 786 790 794 798 801 803 804 807 808 809 812
16. Path analysis
816
17. Exercícios – Enunciados
826
18. Exercícios – Resolução
830
Capítulo 8 Testes t e intervalos de confiança para médias 1. Introdução
867
2. Teste t de Student, intervalos de confiança para uma média e cálculo do nível de significância
869
3. Testes t de Student e intervalos de confiança para a diferença de médias em amostras independentes. Cálculo do nível de significância 3.1. Teste t de Student e intervalos de confiança para a mesma variável métrica 3.2. Testes t de Student simultâneos vs . regressão logística binária
4. Teste t e intervalos de confiança em amostras emparelhadas 4.1. Vantagem das amostras emparelhadas vs . amostras independentes
877 877 889 898 899
5. Exercícios – Enunciados
903
6. Exercícios – Resolução
905
Capítulo 9 Testes não paramétricos 1. Introdução
923
2. Testes não paramétricos para amostras independentes
924 924 924 927
2.1. Teste da Binomial 2.1.1. Região crítica unilateral 2.1.2. Região crítica bilateral
2.2. Teste de aderência do Qui-Quadrado 2.3. Teste de ajustamento de Kolmogorov-Smirnov 2.4. Teste de Wilcoxon para uma mediana 2.5. Teste de Mann-Whitney 2.5.1. Com empates 2.5.2. Sem empates
2.6. Teste de Kruskal-Wallis 2.7. Teste de independência de Kolmogorov-Smirnov
3. Testes não paramétricos para amostras emparelhadas 3.1. Teste de McNemar 3.1.1. Diagonal secundária (b + c ) > 20 3.1.2. Diagonal secundária (b + c ) ≤ 20
929 933 938 941 943 948 952 959 964 964 966 969
3.5. Teste de Friedman
971 977 981 985
4. Exercícios – Enunciados
990
5. Exercícios – Resolução
991
3.2. Teste Q de Cochran 3.3. Teste do sinal 3.4. Teste de Wilcoxon
Capítulo 10 Anova, Ancova e Manova 1. Introdução
1007
2. One-Way Anova
1008 1009 1010 1012
2.1. Pressupostos 2.2. Análise de variância 2.2.1. Dedução dos testes F
2.3. Identificação das diferenças entre os grupos 2.3.1. 2.3.2. 2.3.3. 2.3.4.
Tendência Testes a posteriori ou Post-hoc Testes a priori ou contrastes planeados One-Way Anova em escalas de avaliação
3. Anova fatorial 3.1. Anova a dois ou mais fatores 3.1.1. Decomposição do teste F 3.1.2. Dimensões semelhantes versus diferentes 3.1.3. Vantagem da Anova versus One-Way Anova
3.2. Testes a posteriori ou Post-hoc 3.3. Testes a priori ou contrastes planeados 3.3.1. 3.3.2. 3.3.3. 3.3.4. 3.3.5. 3.3.6. 3.3.7. 3.3.8.
Efeitos principais Efeitos interativos Exploração dos dados Comparação de dispersões Comparação de médias Qualidade do modelo Testes a priori ou constrastes planeados Testes a posteriori ou Post-hoc
4. Ancova 4.1. Pressupostos da Ancova 4.2. Modelo estimado 4.2.1. 4.2.2. 4.2.3. 4.2.4. 4.2.5. 4.2.6.
Normalidade e homocedasticidade Associação linear Médias da concomitante por categoria do fator Homogeneidade dos declives Resultados do modelo estimado Heterogeneidade dos declives
1015 1015 1025 1028 1039 1046 1047 1048 1050 1051 1052 1052 1053 1054 1057 1062 1063 1064 1065 1072 1074 1074 1075 1078 1081 1083 1084 1085 1094
5. Manova 5.1. Pressupostos da Manova 5.2. Testes multivariados 5.2.1. 5.2.2. 5.2.3. 5.2.4. 5.2.5. 5.2.6.
Exploração dos dados Testes multivariados Um fator e quatro endógenas: avaliação dos pressupostos Paralelismo dos perfis Níveis dos perfis Achatamento dos perfis
1098 1099 1100 1104 1106 1109 1112 1114 1114
6. Exercícios – Enunciados
1118
7. Exercícios – Resolução
1125
Capítulo 11 Medidas repetidas 1. Análise de variância de medidas repetidas: hipóteses
1184
2. Pressupostos
1186
3. Efeitos e consistência interna
1187 1189 1192 1192 1193 1193
3.1. Exploração dos dados 3.1.1. 3.1.2. 3.1.3. 3.1.4.
Normalidade Covariâncias Esfericidade Consistência interna
3.2. Comparação de médias 3.3. Testes Post-hoc : comparação dos efeitos interativos 3.4. Testes Post-hoc : Comparação dos efeitos principais 3.5. Testes a priori
1195 1198 1200 1204
4. Exercícios – Enunciados
1206
5. Exercícios – Resolução
1209
Bibliografia
1233
Prefácio Apesar do pioneirismo encetado em 1998 com a 1ª edição deste livro em língua portuguesa, esta sexta edição não se fica pela reedição das anteriores, apresentando uma versão inovadora e aumentada, cujas principais alterações são a seguir indicadas. De forma a facilitar a consulta do livro, introduziu-se um esquema global que identifica os os capítulos. Cada capítulo inicia-se com o respetivo esquema, complementado com os aspetos relevantes, terminando com novos exercícios propostos e resolvidos, para além dos que acompanham a explicação teórica. Estes novos exercícios permitem não só uma consolidação da matéria exposta, como simplificam a complexidade da estatística, devido às associações que estabelecem com outros capítulos. Substituíram-se as tabelas das distribuições teóricas, pelas obtidas de forma eficiente e expedita pelo IBM-SPSS, aplicáveis a qualquer dimensão da amostra ou a qualquer probabilidade, permitindo o cálculo dos níveis de significância, do erro tipo II e da função potência associadas a cada decisão. A introdução ao IBM-SPSS foi substancialmente actualizada de forma a torná-la mais amigável para um iniciado, apresentando várias situações a que a ele se pode recorrer, com explicação passo a passo, evidenciando-se o seu vasto manancial de recursos. O Capítulo 1 inclui agora o índice de Gini e as médias harmónicas e geométricas, bem como a análise das respostas omissas. Adicionaram-se os fundamentos para a inferência, distinguindo os testes paramétricos dos não paramétricos, definindo-se a desigualdade de Chebychev, os estimadores, as distribuições amostrais e as estimações: pontual, por intervalos e ensaio de hipóteses. O Capítulo 2 inclui agora o teorema de Bayes e a curva ROC. O Capítulo 3 engloba também o MDS. No capítulo da regressão foram adicionados a permanência de estrutura, os modelos 2SLS e WLS. Sem sacrificar o rigor que procurámos imprimir à abordagem das diversas técnicas, a metodologia usada, resultante de uma experiência académica e profissional de alguns anos nesta área, centrou-se na exposição tão fácil quanto possível das matérias e na sua ilustração com recurso a exemplos práticos de modo a tornar acessível o texto a uma vasta gama de leitores, incluindo aqueles com menos bases de matemática.
Todos os capítulos foram objeto de aprofundamento, transformando-o no manual mais completo e de fácil manuseamento em língua portuguesa, indispensável à análise estatística dos dados. Ainda que este livro seja da inteira responsabilidade dos autores, o seu conteúdo resultou em larga medida da leitura de obras de autores nacionais e estrangeiros, bem como das inúmeras discussões tidas ao longo do tempo com muitas das pessoas com que habitualmente trabalhamos. O seu contributo em muito melhorou o nosso entendimento dos múltiplos aspetos relacionados com o tema. Queremos a todos agradecer. Em primeiro lugar às Edições Sílabo, que acreditaram e tiveram o otimismo necessário para tornar possível este livro. Ao Dr. João Pequito e Dra. Sandra Barão da PSE, que contribuíram para a atualização e apoio ao suporte informático. Também não hesitamos em agradecer aos nossos alunos, colegas e leitores que nos estimulam com as suas críticas e sugestões sempre oportunas, que contribuíram para o aperfeiçoamento dos temas aqui tratados. Uma palavra de apreço ao incansável amigo e consultor Dr. António Alexandre Sequeira, cuja competência e disponibilidade em muito tem contribuído para o bom funcionamento dos nossos computadores. Finalmente uma saudação à nossa família pelo apoio e compreensão manifestado nas ausências devido às muitas horas de trabalho dedicadas à feitura do livro e em especial à nossa fonte inspiradora, o Manuel Pestana Gageiro. De novo se deixa o endereço e-mail:
[email protected] com a finalidade da continuação do proveitoso diálogo entre os leitores e os autores. Pode descarregar os ficheiros das bases de dados do IBM-SPSS referenciadas ao longo do texto, na página do livro em www.silabo.pt. Os autores
Criar/transformar/introduzir
Introdução ao IBM-SPSS Juntar/validar/importar/salvar
Variáveis nominais Estatística descritiva/inferencial
Cap. 1
Estudo univariado
Variáveis qualitativas
Variáveis ordinais Variáveis quantitativas/métricas
Testes do q ui-quadrado Relação entre duas ou mais variáveis quantitativas (sem efeitos interativos)
Tabelas de contingê ncia Cap. 2 (T. Bayes)
Cap. 2
Medidas de associação Curva ROC
Tipologias Semelhança/diferença entre duas ou mais variáveis quantitaitivas
Redução do n.º de variáveis quantitativas
Gráficas
ANACOR MCA MDS
Análise Fatorial
Criação de índices
Cap. 3
Cap. 4
Criação de grupos homogéneos de casos em função de variáveis quantitativas
Cap. 5
Análise de clusters
Diferença entre dois ou mais grupos em função de variáveis quantitativas
Cap. 6
Análise discriminante
Variáveis quantitativas em função de outras variáveis quantitativas
Cap. 7
Modelos de regressão linear
Amostras independentes
Cap. 10
Análise de variância
Amostras emparelhados
Cap. 11
Análise de variância de medidas repetidas
Cap. 8
Testes t
Cap. 9
Testes não paramétricos
Uma ou mais variáveis quantitativas em função de 1 ou mais variáveis quantitativas
Amostras independentes Comparação de uma ou mais médias Amostras emparelhados
Distribuições Comparação de
Amostras independentes
Proporções Médias de dois ou mais grupos
Amostras emparelhados
Introdução
Ficheiro de dados
Definição de variáveis e casos
Visionamento Número do questionário
Transformação
Criar variáveis Agregar categorias Inverter a ordem Contar casos Substituir respostas omissas
Junção
Casos Variáveis
Validação Organização
Sort cases Split file
Ajudas Utilidades
A estatística é um instrumento matemático necessário para recolher, organizar, apresentar, analisar e interpretar dados. Neste capítulo de iniciação ao IBM-SPSS, explica-se nomeadamente o acesso a um ficheiro de dados, a introdução dos dados e das variáveis, a junção de ficheiros, a definição e organização de dados, a edição de informação, a transformação das variáveis, a inversão das escalas, a reconversão de escalas numéricas em categóricas, a recodificação de dados, a contagem de casos, a substituição de respostas omissas aleatórias e a utilização de gráficos na exploração de dados.
22
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
1. Iniciação ao IBM-SPSS O IBM-SPSS é um programa informático amigável e poderoso de apoio à estatística e vai servir de suporte às aplicações práticas apresentadas neste livro.
1.1. Ficheiro de dados Para trabalhar com os ficheiros do IBM-SPSS que constam do livro, deve aceder previamente ao link da Editora Sílabo da seguinte maneira: www.silabo.pt/ Edições Sílabo Catálogo Estatística Após localizar este livro, sobrepõe-se-lhe o cursor e com dois cliques surge a informação: Descarregar aqui os ficheiros Abrir Entra-se em aqui para descarregar os ficheiros, onde se abrem e copiam para uma diretoria do computador do leitor. Os ficheiros com os dados identificam-se pelo nome que lhes é atribuído seguido da extensão (.sav) e são exibidos no Data Editor.
1.2. Definição de variáveis e casos Para se aceder a qualquer ficheiro deve previamente entrar-se na pasta que o contém, cuja denominação corresponde ao respetivo capítulo neste livro. Para obter o ficheiro Portugal.sav , escolhe-se no ambiente de trabalho do Windows as seguintes instruções que contêm a negrito as escolhas do leitor e que por sua vez originam a janela abaixo: Start
Programs
Capítulo-Introdução
IBM SPSS Statistics File Name
File
Portugal.sav
Open Data Open
23
INTRODUÇÃO
File é o ficheiro que permite criar bases de dados, aceder aos dados já criados, exportá-los, salvá-los, imprimir ficheiros, conhecer os ficheiros recentemente utilizados tanto de dados como de resultados (outputs ), sair da base de dados. Para guardar a base de dados faz-se: File Save as File Name Portugal Save Para sair da base de dados faz-se: File Exit Sempre que se pretende voltar a aceder a este ficheiro do IBM-SPSS deve fazer-se: File
Open Data File
Name
Portugal.sav
Open
O Data Editor desdobra-se no Data View, onde se inserem os dados, e no Variable View onde se definem as variáveis. O Variable View dispõe de linhas destinadas a definir ou a alterar as características das variáveis, e inclui as seguintes informações, aqui concretizadas para o ficheiro Por- tugal.sav :
O nome da variável (Name ), deverá iniciar-se por uma letra. Por exemplo, número, mês, país. O tratamento estatístico depende da natureza da variável indicada em Measure , que pode ser nominal, ordinal ou quantitativa (Scale ). O tipo de variável (Type ), pode ser numeric , comma , dot , scientific notation , date , dollar , custom currency e string . Por facilidade de tratamento estatístico, as variáveis introduzem-se na base de dados através de números, assumindo o Type numeric . No caso das variáveis qualitativas nominais ou ordinais, esses números correspondem às suas categorias e no caso das quantitativas ou métricas correspondem aos seus valores.
24
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
Se as variáveis fossem introduzidas por carateres alfabéticos, por exemplo, para a variável Hotéis introduzidos como uma, duas, três, quatro e cinco estrelas, cujo Type é string , teriam de ser transformadas em códigos numéricos, passando a variável transformada a designar-se por HotéisR , conforme no ficheiro Portugal_string.sav: Transform HotéisR
Automatic Recode
Recode
Variable
Starting from Lowest value
Hotéis
New Name
OK
O tipo de variável inclui ainda a definição da sua largura ( Width ) e do número de casas decimais (Decimal Places ). Por exemplo, a variável mês está codificada como numéricas , com valores 1 (janeiro), 2 (fevereiro),..., 12 (dezembro). Escolhe-se o valor 1 para largura , quando exista apenas um dígito para representar a variável, e o valor 0 para representar zero casas decimais, por serem inexistentes. A etiqueta ou rótulo da variável (Label ), que serve simplesmente para melhor explicar o nome da variável, pode ir até 256 carateres identificativos do nome das variáveis. Por exemplo, Label residência habitual dos turistas como explicativo do nome região. Os códigos utilizados (Values ), são de grande utilidade quando se opera com variáveis qualitativas, onde os números apenas definem as categorias da variável. O Value Labels divide-se em dois itens: Value , onde se insere o código das categorias e Value Label , onde se insere o seu significado. Por exemplo, dado que 1 significa janeiro , inscreve-se no Value o valor 1 e no Value Label a palavra janeiro , seguida de ADD . As respostas omissas ou não respostas (Missing ), servem para identificar a informação em falta, mas também podem ser utilizadas para excluir valores ou categorias da análise estatística. O utilizador pode definir como Missing Values as três modalidades seguintes: a primeira até três valores individuais; a segunda um intervalo de valores; a terceira um valor individual e um intervalo de valores. O intervalo de valores só se aplica a variáveis numéricas. Admitindo que há omissões na identificação do mês e que se quer proceder à análise de todo o ano com exceção de dezembro, cujo código é 12 , então introduz-se no Discrete missing values os números 99 , indicador de omissões na resposta para mês , e 12 para excluir da análise dezembro, premindo-se OK. Para identificar as não respostas, nas variáveis de Type Numeric , usam-se números que não pertençam à base de dados. Já nas variáveis Type String os campos vazios não são automaticamente considerados missings, pelo que têm de ser preenchidos, habitualmente por NR (não resposta) no Data View e introduzido NR , na coluna Missing do Variable View. Retomando o ficheiro Portugal_string.sav , verificam-se omissões na categoria dos hotéis correspondentes a Nº 35 e Nº 40, que foram substituídas por NR como se mostra:
INTRODUÇÃO
25
Aquando da recodificação automática da variável alfabética Hotéis em numérica HotéisR , o programa assume automaticamente o código 6 para NR , visto ser aquele que sucede à última categoria de 5 estrelas:
O formato da coluna (Columns ) controla simultaneamente a largura da coluna (Width ) que aparece no Data Editor bem como o alinhamento dos valores (Text align- ment ). Se a largura definida for insuficiente, aparecem asteriscos em vez dos números. A disposição dos dados pode alinhar-se (Align ) à esquerda, à direita ou ao centro. Após a definição das variáveis, no Data View introduzem-se os dados, onde aqui se apresentam apenas dois questionários de entre 286 respondidos. Cada linha do ficheiro corresponde um caso, pelo que os dados referentes ao mesmo caso se inscrevem nessa linha. Cada coluna do Data View corresponde a uma variável, sendo os dados referentes à mesma variável inscritos nessa coluna. Neste ficheiro as variáveis são: Número do questionário (Nº ), país de residência (País ), ano da estada (Anos ), categoria do hotel (Hotéis ), número de dormidas (Dormi- das ), número de hóspedes (Hóspedes ), região donde proveem (região ).
26
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
O número do questionário, obtido pelo comando seguinte, deve ser sempre incluído na análise, pois quando ocorrem erros de introdução ou codificação de dados, ou quando existe omissão de respostas, ou ainda quando há observações aberrantes, a utilização desta variável permite identificar de imediato os respetivos respondentes: Transform Compute Variable Target Variable: Nº Functions and Special Variables: $casenum $casenum OK
Function group: All Numeric Expression
27
INTRODUÇÃO
Sobrepondo o cursor sobre cada uma das variáveis em coluna, visiona-se a descrição da sua identificação, aqui feita para a variável Hotéis . O Menu principal permite passar do Data View para o Variable View ou vice-versa, sobrepondo o cursor no canto inferior esquerdo do ecrã, ou alterar permite ainda os carateres da fonte, ou modificar a apresentação da barra de ferramentas. O visionamento no Data View dos dados em termos dos labels (códigos) ou dos value labels (etiquetas) obtém-se através de: View Value Labels O comando Window permite aceder à base de dados, aos Outputs , à Syntax , ou minimizar/maximizar as janelas onde se opera.
1.3. Análise estatística O comando Analyze tem por finalidade selecionar os procedimentos estatísticos a usar na análise de dados, como por exemplo, tabelas de frequências, exploração e descrição dos dados, testes paramétricos e não paramétricos, medidas de associação e de correlação, modelos de regressão linear, não linear, logística, curva ROC, previsão, sucessões cronológicas, análise de sobrevivência, análise fatorial, cluster , discriminante, pirâmides etárias. Admitindo que se pretende uma tabela de frequências dos hotéis, procede-se da seguinte maneira: Analyze Descriptive Statistics Frequencies Display frequency tables OK
Variable(s)
Hotéis
Sobrepondo o cursor para cada variável, pode-se alterar a disposição pretendida como se mostra na janela superior para a variável Hospedes . A variável Hotéis que estava na janela esquerda, passa através da seta para o lado direito seguido de OK, que origina o painel de resultados (Output1) o qual se subdivide em duas janelas: a do lado esquerdo que resume o conteúdo dos resultados, enquanto que a do lado direito mostra a informação estatística pedida.
28
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
Querendo obter a listagem dos casos recorre-se ao comando: Analyze
Reports
Case Summaries
1.4. Gráficos Os gráficos complementam a análise exploratória dos dados através de figuras e devem adequar-se à informação que pretendem representar, de forma a clarificar a sua compreensão, tendo em conta o publico a que é dirigido. São exemplos de gráficos os: de barras e circulares, para representar percentagens e contagem de casos; os de linhas para representar médias; o diagrama de dispersão (scatter ) para comparar duas variáveis métricas; o histograma para representar variáveis métricas contínuas; a caixa de bigodes para comparar de forma robusta duas distribuições em termos de quartis; o gráfico de erro, para representar simultaneamente uma medida de localização (média) com uma medida de dispersão (desvio padrão, erro padrão ou intervalo de confiança para a média), o gráfico de sequência para analisar o comportamento das variáveis ao longo do tempo. Os gráficos são explicados com mais pormenor ao longo do livro e podem obter-se diretamente através do menu principal clicando em Graphs, o qual alerta para a correta especificação da natureza das variáveis contidas na coluna Measures do Variable View, seguido de Chart Builder . Exemplificando, caso se pretenda visualizar a percentagem das categorias de hotéis por anos, após selecionar o gráfico de barras arrasta-se com o cursor para o Chart pre- view , onde no canto superior direito em Cluster se introduz Hotéis , na ordenada Per- centage e na abcissa Anos , finalizando com OK. O gráfico finalizado surge na janela dos Outputs . Habitualmente para comparar contagens os gráficos de barras são de mais fácil perceção das diferenças do que os circulares.
INTRODUÇÃO
29
1.5. Ajudas O menu Help tem como função esclarecer dúvidas do leitor e aparece em todas as caixas de diálogo do programa bem como no Menu principal que se mostram subdivididas num painel de duas janelas, onde escolhendo um assunto do lado esquerdo aparece a sua explicação do lado direito. O Topics exibe um painel sobre os tópicos e sua explicação; o Tutorial contém uma ajuda por assunto; a Command Syntax Reference mostra as instruções de construção dos resultados, a Programmability permite o acesso a outras linguagens informáticas ligadas ao IBM-SPSS; o Case Studies apresenta casos práticos de procedimentos estatísticos seguidos de algumas interpretações; o Algorithms apresenta as fórmulas subjacentes aos modelos; o Statistics Coach encaminha para o gráfico ou para o procedimento estatístico análogo ao que o leitor pretende fazer, marcado a sombreado na janela seguinte.
30
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
1.6. Junção de informação de dois ficheiros O IBM-SPSS permite juntar informação contida em ficheiros de texto ou em bases de dados, referentes a novas variáveis ou a novos casos quer sejam provenientes de ficheiros do IBM-SPSS ou de outros programas informáticos.
1.6.1. Junção de variáveis Admitindo que se pretende adicionar ao ficheiro Portugal.sav informação sobre novas variáveis contidas na folha de cálculo Excel Portugal.xls , procede-se em três etapas:
1ª Etapa – Acede-se ao ficheiro para onde se pretende importar a informação, neste caso Portugal.sav , através da instrução: File
Open Data
PortugalR.sav
2ª Etapa – Entra-se no ficheiro Excel que contém a informação a exportar, que se converte num ficheiro.sav . Para tal, em Files of type escolhe-se Excel conforme assinalado a sombreado:
31
INTRODUÇÃO
Escolhe-se o ficheiro aqui com o mesmo nome com extensão.xls, que se introduz na janela em branco File Name , originando:
Premindo Open abre-se a janela onde está selecionada a leitura do nome das variáveis que constam da primeira linha dos dados da folha do Excel pretendida, seguida de OK que conclui a importação para um novo ficheiro designado Untitled1.sav.
Este ficheiro foi renomeado através do comando com o nome inscrito a negrito: File
Save as
File Name
Portugal_estada.sav
Save
3ª Etapa – Juntam-se os dois ficheiros com extensão .sav. Para diferenciar o ficheiro Portugal.sav inicial aquele que resultará da adição da informação, faz-se uma cópia denominada PortugalR.sav . Após se ter assegurado que ambos os ficheiros estão ordenados da mesma forma, aqui por ordem crescente do número de identificação (Nº ) que vai servir de variável chave para a junção dos dois ficheiros com extensões .sav , entra-se no ficheiro copiado PortugalR.sav seguido dos comandos: Data
Merge Files
Add Variables
Abre-se a seguinte caixa de diálogo onde se sobrepõe o cursor sobre o ficheiro que se pretende exportar, tornando-o sombreado.
32
ANÁLISE DE DADOS PARA CIÊNCIAS SOCIAIS
Premindo Continue acede-se à caixa de diálogo, onde as variáveis com o mesmo nome em ambos os ficheiros são identificadas com (+) que por serem as mesmas não são importadas. Tal justifica a janela da esquerda Excluded Variables . O ficheiro ativo PortugalR.sav contém agora as variáveis iniciais acrescidas da variável Estada e constam da janela da direita no New Ative Dataset :
O IBM-SPSS emite o aviso sobre a necessidade de ambos os ficheiros terem a mesma ordenação de emparelhamento através da variável chave Nº :
Como ambos os ficheiros com extensão .sav estão ordenados com a mesma ordem crescente, prime-se OK. Surge o ficheiro PortugalR.sav agora acrescido da variável Estada , como se mostra um excerto: