Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática
Curso: Metodología para el Planeamiento y Ejecución de Encuestas CONTENIDO: 1. Aspectos Generales de Estadística 2. Nociones Básicas sobre Muestreo 3. Elaboración de Cuestionarios 4. Procesamiento de la Información 5. Elaboración de Cuadros y Gráficos Estadísticos 6. Análisis e Interpretación de Resultados
CONTENIDO
1.
ASPECTOS GENERALES DE ESTADISTICA ..................................................................................... 1
2.
NOCIONES BASICAS SOBRE MUESTREO .................................................................................. 37
3.
ELABORACION DE CUESTIONARIOS ............................................................................................. 53
4.
PROCESAMIENTO DE LA INFORMACION ................................................................................... 72
5.
ELABORACION DE CUADROS Y GRAFICOS ESTADISTICOS.................................................. 79
6.
ANALISIS E INTERPRETACION DE RESULTADOS ...................................................................... 99
1. ASPECTOS GENERALES DE ESTADISTICA
1.
El papel de la estadística en la investigación Diariamente cada uno de nosotros hace alguna observación en la que se emplea la Estadística. Acontecimientos ordinarios, tales como predicción del tiempo, probar un nuevo producto, son típicos. La parte elemental de la estadística aparece en cuanto usted mentalmente compara su observación con su peso promedio (desviación del medio) y concluye si el peso actual es usual (no muestra diferencia significativa) o no usual (una diferencia significativa), basando su juicio en mediciones previas de su peso y en su conocimiento de la variación generalmente observada. Esos resultados comunes se obtienen fácilmente. Sin embargo, la investigación formal, que significa tanto en el mejoramiento de gran parte de la humanidad, es de importancia infinitamente mayor y debe conducirse con mucho mayor cuidado.
2. Naturaleza y objetivo de la investigación La investigación científica es el estudio escudriñante o examen, análisis o experimentación critica y exhaustiva cuya finalidad es el descubrimiento de nuevos hechos y su correcta interpretación. Asimismo, es útil en la revisión de conclusiones aceptadas, teorías o leyes, a la luz de hechos descubiertos recientemente o la aplicación practica de tales conclusiones nuevas o revisadas. La investigación científica, por consiguiente, es la búsqueda continuada del conocimiento y entendimiento; la investigación científica esta compuesta esencialmente de dos elementos: observación, por la cual se obtiene el conocimiento de ciertos hechos a través de percepciones sensitivas; y razonamiento, mediante el cual se determina el significado de esos hechos, su interrelación y su relación con el acerbo existente de conocimientos, en el grado que el presente estado del conocimiento y la habilidad del investigador lo permiten. 3. ¿Que es la Estadística? La estadística a menudo ha sido clasificada como un método de investigación, asociado con, o en contraposición a, métodos tales como el estudio de casos, el análisis cronológico y la experimentación. Esta clasificación no es adecuada porque frecuentemente conduce a ideas confusas e incorrectas. Es mejor considerar a la estadística como el suministro de un conjunto de herramientas sumamente útiles en la investigación. La función principal de la estadística es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la incertidumbre (Ya Lun Chou), por esta razón podría definirse la Estadística como un método de toma de decisiones frente a la incertidumbre.
2
4. Ramas de la Estadística Estadística descriptiva o deductiva, que trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan en gráficos, se calculan parámetros estadísticos que caracterizan la distribución, etc. Estadística inferencial o inductiva, que establece previsiones y conclusiones sobre una población a partir de los resultados obtenidos de una muestra aleatoria. Se apoya fuertemente en el cálculo de probabilidades. 5. Procedimientos de recolección de datos La recopilación o recolección de datos es el momento en el cual el investigador se pone en contacto con los objetos o elementos sometidos a estudio, con el propósito de obtener los datos o respuestas de las variables consideradas; a partir de estos datos se prepara la información estadística, se calculan medidas de resumen e indicadores para el análisis estadístico. Antes de recopilar o recoger datos, es importante analizar los objetivos del estudio, precisar las variables e identificar las fuentes de datos, a fin de definir que datos hay que recopilar y cómo hacer esta tarea. La formulación del problema y del marco teórico, la definición de las hipótesis y de los objetivos de la investigación permite especificar los tipos de información y las variables que son requeridas. Realizada esta tarea, el investigador debe a continuación seleccionar y elaborar las técnicas e instrumentos para recolectar los datos. El trabajo de recolección de datos, en general, se puede realizar mediante dos modalidades: a. La técnica de investigación documental o bibliográfica b. La técnica de trabajo de campo Por su parte, el trabajo de campo puede realizarse de dos maneras: b.1 La observación y la exploración en el terreno, que consiste en el contacto directo del investigador con el objeto estudio. b.2 La encuesta y la entrevista, que consiste en el acopio de testimonios orales y escritos de personas vivas. La fase de recolección de datos es uno de los puntos principales de la investigación, en consecuencia, debe dotarse de ciertas garantías para que los
3
datos científicos puedan ser confiables y comparables, evitar las desviaciones y la falta de representatividad. 5.1 La Información Estadística La información estadística, como datos procesados de acuerdo a ciertos objetivos, es un medio que permite cuantificar y cualificar los aspectos de una realidad, de un fenómeno o problema determinado, en un momento o periodo dado y un ámbito concreto. A partir de la información estadística se puede describir y explicar esa realidad, así como inferir conclusiones para definir un plan de acción o desarrollo específico. La información, en general, sirve para tomar decisiones. Por ejemplo, si se desea mejorar la balanza de pagos a través de las exportaciones, deberán conocerse la producción existente. Los precios del mercado, la cantidad que se requiere para satisfacer adecuadamente las necesidades internas del país, la demanda externa por países, entre otros aspectos. La preparación de esta información requiere de datos sobre cada uno de los aspectos o variables consideradas en el estudio. Para el efecto hay que identificar de donde y como obtener los datos estadísticos. En primer lugar, se tiene que identificar las fuentes de datos, evaluar qué y cómo está los datos, en segundo lugar diseñar los métodos, técnicas e instrumentos para la recopilación de los datos. 5.2 Las Fuentes de Datos La fuente de datos es el lugar, la institución, las personas o elementos donde están o poseen los datos que se necesitan para cada una de las variables o aspectos de la investigación o estudio. En general, se puede disponer de cinco tipos de fuentes de datos: 1. Las Oficinas de estadística, como instituciones responsables de recopilación, procesar y publicar las estadísticas sociales o nacionales. 2. Archivos o Registros administrativos, como el registro civil, registro Electoral, Escalafón de Personal, padrón de contribuyentes, etc. estos registros no tienen fines estadísticos, su función es de tipo legal y administrativo, sin embargo, pueden utilizarse como fuente de datos estadísticos. 3. Documentos, boletines e informes estadísticos, que son las publicaciones o estudios que preparan los organismos especializados. 4
4. Encuestas y Censos, son fuentes directas y especiales, que se construyen en un momento determinado, recopilando datos de una parte o de la totalidad de una población. 5. Los Elementos o Sujetos, de una población sometida a estudio, que pueden ser personas, instituciones o simplemente objetos. Las tres primeras fuentes son de tipo administrativo y constituyen fuentes secundarias; por su parte, las dos últimas corresponden a la investigación estadística, ya que permiten obtener datos originales, intencionales de primera mano, es decir constituyen fuentes primarias. 5.3 Técnica de Recolección de Datos Las técnicas de recolección son diversos y dependen de: la naturaleza del objeto de estudio, de las posibilidades de acceso o contacto con los elementos investigados, del tamaño de la población o muestra, de los recursos y de la oportunidad de obtener los datos. La técnica también está asociada al tipo y naturaleza de la fuente de datos. Entre las técnicas más frecuentes se tiene: 1. 2. 3. 4. 5.
La observación Técnica documental La entrevista El cuestionario La encuesta
5.3.1
La Observación La observación en el proceso de investigación es la acción de mirar con rigor, en forma sistemática y profunda, con el interés de descubrir la importancia de aquello que se observa. La observación es el método básico que se utiliza para adquirir información acerca del mundo que nos rodea, y por lo tanto, constituye la técnica primordial de la investigación científica. La observación puede tener lugar en situaciones auténticas de la vida ordinaria o también en el laboratorio. Tipos de Observación a. Según el lugar o ámbito donde se encuentran los datos, se tienen:
5
a.1 Observación documental; cuando los datos son recogidos en manuscritos o impresos a.2 Observación de campo; que puede ser observación de monumentos de campo y observación de conductas. b. Según como se relaciona el investigador con el objeto de estudio; como: b.1 Observación directa, cuando el investigador puede recoger y observar datos mediante su propia observación, obtener información del comportamiento tal como ocurre. b.2 Observación indirecta, cuando el investigador verifica los datos que ha tomado de otros, aquí el investigador no está presente en el momento de la ocurrencia del fenómeno. b.3 Observación no participante, cuando el investigador extrae sus datos, pero sin una participación en los acontecimientos de la vida del grupo que estudia b.4 Observación participante o activa, cuando el investigador, de una u otra manera, se introduce y actúa en el grupo observado, de modo que se le acepta como miembro, y es identificado como observador. c. Según los medios utilizados, se tienen c.1 La Observación no estructurada, asistemática y libre; aquí los hechos se observan al natural, en forma espontánea, en el momento mismo, que en muchas de las veces puede sorprender al observador. c.2 La Observación Estructurada, sistemática o regulada, aquí se tiene un plan específico para la realización de las observaciones, para lo cual se recurre al empleo de instrumentos o guías para la recopilación de datos. 5.3.2
La Técnica Documental La técnica documental es un tipo de observación que recopila o busca sus datos en documentos, fuentes escritas o gráficas de todo tipo. En los documentos se tienen:
6
a. Documentos Académicos, constituido por la bibliografía más importante para conocer el estado del conocimiento de una ciencia. b. Actas e Informes, donde las actas son documentos que recogen lo ocurrido en el momento mismo en que esta pasando; en tanto que los informes son documentos escritos después de ocurrido el acontecimiento. c. Documentos Personales como las autobiografías, diarios, cartas, historias de vidas y estudios de casos. d. Fotografías, planos, videos, etc. 5.3.3
La Entrevista La entrevista es una situación de interrelación o diálogo entre personas, es una técnica donde una persona llamado entrevistador, encuestador o empadronador solicita al entrevistado, le proporciona algunos datos o información. La entrevista es un diálogo intencionado entre personas. El éxito de la entrevista como técnica de recolección, depende de la eficiencia del trabajo del entrevistador. La entrevista como técnica de recolección, presenta diversas modalidades, como: • • • • •
5.3.4
La entrevista asistemática o libre Entrevista estructurada, en el cual se precisa previamente los puntos interrogar, existe un libreto o cuestionario Entrevista focalizada, donde la interrogación se centra alrededor de un sólo tema específico Entrevista simultánea, cuando los entrevistados son varios al mismo tiempo. Entrevista sucesiva, cuando son varias entrevistas, pero en diversos momentos.
El Cuestionario El cuestionario es un instrumento constituido por un conjunto de preguntas sistemáticamente elaboradas, que se formulan al encuestado o entrevistado, con el propósito de obtener los datos de las variables consideradas en el estudio. Cuando las preguntas se organizan y se imprimen, se obtiene el formulario o cédula, que es el instrumento que se utiliza para registrar las respuestas o datos.
7
La elaboración del cuestionario requiere de un conocimiento previo del fenómeno, tener precisa cuales son las unidades de análisis y que aspectos interesa estudiar. El cuestionario deber ser adaptado a las necesidades de la investigación y a las características del grupo que se estudia. De aqui que su estructura y su forma deben estar cuidadosamente elaboradas, la redacción de las preguntas requiere de una experiencia y para comprobar su compresión, es recomendable someter a prueba todo tipo de cuestionario. 5.3.5
La Encuesta Las encuestas ad–hoc se corresponden con uno de los métodos más utilizados en la investigación debido, fundamentalmente, a que a través de las encuestas se puede recoger gran cantidad de datos tales como actitudes, intereses, opiniones, conocimiento, comportamiento (pasado, presente y pretendido), así como los datos de clasificación relativos a medidas de carácter demográfico y socio - económico. La captación de información a través de las encuestas se realiza con la colaboración expresa de los individuos encuestados y utilizando un cuestionario estructurado como instrumento para la recogida de la información. Por tanto, la encuesta es un procedimiento utilizado en la investigación de mercados para obtener información mediante preguntas dirigidas a una muestra de individuos representativa de la población o universo de forma que las conclusiones que se obtengan puedan generalizarse al conjunto de la población siguiendo los principios básicos de la inferencia estadística, ya que la encuesta se basa en el método inductivo, es decir, a partir de un número suficiente de datos podemos obtener conclusiones a nivel general. La principal ventaja de la encuesta frente a otras técnicas es su 0versatilidad o capacidad para recoger datos sobre una amplia gama de necesidades de información. Sin embargo, también presenta ciertas limitaciones o inconvenientes como son:
La posible renuncia del encuestado a suministrar la información que se desea obtener.
El encuestado puede ser incapaz de aportar la información requerida por múltiples motivos ( que no recuerde hechos, no los conozca , no distinga entre diferentes situaciones, etc.)
8
El propio proceso de interrogación puede influir en las respuestas del encuestado por cansancio en el interrogatorio cuando se trata de encuestas excesivamente largas, por dar respuestas socialmente aceptadas, etc.
Estas limitaciones o inconvenientes de la encuesta se pueden evitar o reducir a través de un exhaustivo control del instrumento de recopilación de la información, es decir, mediante un adecuado diseño del cuestionario. Tipos de Encuesta Existen tres métodos básicos para llevar a cabo las encuestas ad – hoc: personalmente, por teléfono o por correo. En la encuesta personal las preguntas se formulan en un encuentro directo entre encuestado y encuestador, en la encuesta telefónica la situación es similar salvo que la comunicación se realiza mediante el teléfono y en la encuesta postal se solicita a los encuestados que cumplimenten y devuelvan el cuestionario que se les envía por correo. Estos diferentes tipos de encuesta presentan ventajas e inconvenientes que determinan el que su aplicación sea más recomendable ante determinadas situaciones. En el recuadro siguiente resumimos las principales ventajas y limitaciones de la encuesta personal, telefónica y postal y en los siguientes epígrafes desarrollamos de forma pormenorizada las características más relevantes de cada uno de estos métodos de encuesta.
9
Ventajas y Limitaciones de los Distintos Métodos de Encuestas Método
Encuesta personal
Encuesta telefónica
Encuesta postal
Ventajas Elevado índice de respuesta Se conoce quién contesta Evita influencias de otras personas Se reducen las respuestas evasivas Facilita la utilización de material auxiliar Se pueden obtener datos secundarios por la observación Rapidez en la obtención de datos Costo más reducido Permite entrevista a personas poco accesibles Elevado índice de respuesta (más que en la postal pero menos que en la personal) Reducido costo Facilidad de acceso a las personas a encuestar Flexibilidad en el tiempo para el entrevistado (puede contestar en cualquier momento) Se evita la posible influencia del entrevistador
Inconvenientes Costo elevado Sesgos por influencias del entrevistador Necesidad de controlar entrevistadores, para evitar errores o faltas por parte de los entrevistadores.
Falta de representatividad de la muestra (personas que no están, que no tienen teléfono, etc.) Brevedad del cuestionario No se puede utilizar material auxiliar Bajo índice de respuesta No hay seguridad de quién contesta el formulario Necesidad de datos El cuestionario ha de ser reducido Falta de representatividad
LA ENCUESTA PERSONAL La encuesta personal es quizás el método que goza de mayor popularidad y el que se ha utilizado con mayor frecuencia en la captación de información primaria debido, principalmente, a las ventajas que presenta frente a los otros tipos de encuesta. Consiste en una entrevista personal que se establece entre dos personas, a iniciativa del entrevistador, para obtener información sobre unos objetivos determinados. Siguiendo el esquema propuesto en el cuadro anterior, las principales ventajas de las encuestas realizadas personalmente son las siguientes:
10
1. Entre los distintos métodos de encuesta, las personales son las que proporcionan un mayor índice de respuesta, ya que cuando se contacta con las personas a encuestar es poco probable que declinen responder el cuestionario o no lo concluyan una vez comenzado. 2. Son fiables puesto que se conoce con certeza quién contesta y se evita la influencia de terceras personas. 3. Se obtienen respuestas menos evasivas e inconcretas, ya que el entrevistador puede aclarar cualquier tipo de dudas que se puedan suscitar en el cuestionario y se reducen de forma considerable las típicas respuestas de no sabe no contesta. 4. Permiten utilizar materiales auxiliares para profundizar en determinados temas, tales como fotografía, láminas, productos, etc. 5. También pueden obtenerse datos secundarios del entrevistado como presencia, ambiente familiar, sexo, etc. En contrapartida, las encuestas personales presentan como principales inconvenientes: 1. Un costo elevado, ya que al tiempo necesario para realizar la entrevista hay que añadirle el tiempo que el entrevistador necesita para desplazarse hasta el lugar de residencia de la persona a entrevistar que, junto con el costo de los viajes, representa un costo importante por entrevista realizada. 2. Pueden originarse sesgos por influencias del entrevistador, es decir, la actuación del entrevistador en la encuesta, su presencia física, sus explicaciones, su entonación, etc. pueden representar una fuente de distorsión en la información obtenida. Para evitar estos posibles sesgos, es importante que en la selección los entrevistadores se tengan en cuenta ciertas cualidades personales, honestidad, objetividad, neutralidad y facilidad para los contactos humanos, siendo también importante una buena formación de carácter general sobre la técnica de la entrevista, formas de presentación, aclaración de respuestas, etc., además de las instrucciones específicas ya que cada investigación en particular, que aunque traten sobre el mismo tema, emplean cuestionarios y procedimientos de búsqueda de las unidades muestrales diferentes.
11
3. Teniendo en cuenta que la base de la investigación descansa en la veracidad de la información recogida, es necesario controlar que los datos presentados por los entrevistadores son ciertos y que proceden realmente de la muestra seleccionada. Para verificar esto, en las encuestas personales es necesario un exhaustivo control de los mismos, a través de una revisión de una pequeña muestra de las encuestas realizadas por cada encuestador. En lo que a la realización de las encuestas personales se refiere pueden llevarse a cabo bien en el hogar de la persona encuestada o “in situ”. Las encuestas efectuadas en el hogar se utilizan en investigaciones de tipo general, garantizándose la aleatoriedad de los hogares seleccionados a través de diferentes métodos de muestreo. Las encuestas “in situ” se realizan en diferentes lugares relacionados con el objetivo de la investigación (establecimientos estaciones de autobuses, etc.) con la finalidad de efectuar la encuesta en una situación más real. LA ENCUESTA TELEFÓNICA La encuesta telefónica es un método cuya utilización va en aumento en los últimos años a medida que se incrementa el número de hogares con teléfono y mejora, por tanto, su representatividad. Inicialmente se utilizó para realizar test de audiencia de programas y anuncios emitidos por radio y televisión, pero posteriormente se ha generalizado su uso en la captación de información. La encuesta telefónica puede utilizarse en tres sentidos: (1) como único medio de realizar la investigación, (2) como una técnica combinada con otras, es decir, se puede diseñar una encuesta para realizarse personalmente, telefónicamente y por correo en función de las características y condicionantes de la investigación y de la población de la cual se pretende obtener la información y (3) como un medio auxiliar en la utilización de otras técnicas como, por ejemplo, para establecer citas en la realización de encuestas personales, informar o reclamar el envío por correo de cuestionarios, completar cuestionarios, realizados a través de encuestas postales, como medio de control de los encuestadores en entrevistas personales o telefónicas, etc. Entre las principales ventajas que presenta la encuesta telefónica podemos destacar las siguientes:
12
1. Es una técnica que permite obtener información con gran rapidez, ya que en pocas horas un encuestador puede realizar múltiples encuestas. 2. En comparación con la encuesta personal su costo puede resultar más reducido, aunque esto depende de diversos factores tales como la duración del cuestionario, la distancia, las tarifas telefónicas, etc. 3. Permite acceder más fácilmente a personas ocupadas, sobre todo para encuestas de corta duración, a las cuales suele ser difícil llegar a través de encuestas personales. 4. En relación al índice de respuesta, el número de personas que aceptan contestar por teléfono una encuesta suele ser bastante elevado, aunque en los últimos años la rápida expansión de Telemarketing “dirigido” está provocando una disminución de la disposición del público a cooperar en las encuestas telefónicas como consecuencia del aumento de llamadas telefónicas, muchas veces indeseadas, y la confusión que puede producirse en los individuos entre el telemarketing y los estudios de investigación. Por ello, es fundamental dar una explicación clara y convincente de que se trata de un estudio de investigación, sin ninguna intención de vender nada, informarle del objetivo de la investigación, quienes realizan y de cómo esa persona ha sido seleccionada. Los principales inconvenientes o limitaciones de la encuesta telefónica son: 1. Los posibles problemas de falta de representatividad muestral como consecuencia de que sólo pueden ser encuestadas las personas que disponen del teléfono, si bien en el caso de que el universo lo constituyan las empresas no existe este problema pues prácticamente el cien por cien de ellas poseen teléfono. Con respecto a la selección de los números telefónicos es conveniente generarlos aleatoriamente a través de un directorio telefónico pues hay números que no están registrados y no incluye los nuevos abonados. 2. Otro de los aspectos que supone una limitación de este método es la brevedad de la entrevista que se recomienda que no exceda de 15 minutos. Ello implica que el cuestionario también sea breve y , por tanto, no puede recabarse demasiada información. 13
3. El no poder utilizar material auxiliar o de exhibición, como tarjetas, fotografías, bocetos, etc. limita también bastante el tipo de información que se puede obtener a través de las encuestas telefónicas. En relación al diseño del cuestionario de las encuestas telefónicas hemos de tener presente, los siguientes aspectos: 1. La brevedad de la entrevista exige que el cuestionario sea reducido y no contenga demasiadas preguntas. 2. Las preguntas deben ser preferentemente cerradas o semiabiertas y con un abanico de respuestas no muy amplio. 3. Las preguntas de respuesta múltiple se deben eliminar o desglosar en sucesivas preguntas. LA ENCUESTA POSTAL La encuesta postal consiste en el envío por correo de un cuestionario a las personas que constituyen la muestra con la esperanza de que por la misma vía lo devuelvan cumplimentado. Como técnica de entrevista en algunas ocasiones puede tener una utilización esencial cuando es el único medio de establecer contacto con los encuestados y en otras situaciones puede utilizarse como técnica opcional en función de las características de la investigación. Entre las principales ventajas de la encuesta postal hemos de destacar. 1. Su reducido costo frente a los otros dos métodos de encuesta, pues es un sistema económico de recogida de información especialmente cuando el ámbito geográfico de la investigación es a nivel nacional o internacional. 2. Es un sistema más flexible para el entrevistado que puede contestar el cuestionario en el momento más conveniente y empleando el tiempo que desee, lo cual puede llevar a respuestas más meditadas. 3. Se evitan los posibles sesgos que puedan originarse por la influencia del encuestador en el proceso de realización de la encuesta. En lo que se refiere a las desventajas e inconvenientes de la encuesta postal destacamos como más importantes: 14
1. El bajo número de respuestas que se reciben en relación con los envíos realizados, que se sitúa en torno al 10% o 20%. Para tratar este problema del bajo índice de respuesta es necesario establecer una serie de mecanismos motivadores, como son, en primer lugar que junto con el cuestionario se envíe una carta de representación en la que se ponga de manifiesto la necesidad de la colaboración del encuestado y la importancia que tiene su respuesta para los fines de la investigación. En segundo lugar, otro mecanismo que incrementa el índice de respuesta es ofrecer un incentivo material, además del incentivo moral que se pretende dar con la carta. En este sentido, se han utilizado diversas formas como, por ejemplo, ofrecer una participación en sorteos a las personas que respondan, regalos, vales de descuento sobre determinados productos, facilitar los resultados de la investigación, etc. 2. La identidad del encuestado es una variable incontrolada, ya que no podemos asegurar que realmente conteste el cuestionario el destinatario del mismo y, al mismo tiempo, también pueden existir influencias de otras personas en las respuestas del encuestado y ello, lógicamente, introduce distorsiones en la muestra. 3. Las encuestas postales están limitadas a situaciones en las que se dispone de un directorio del universo a investigar, lo cual no siempre es frecuente en las investigaciones. 4. Otro de los problemas que motiva la ausencia de un entrevistador hace referencia a la poca cantidad de información que se puede obtener a través del cuestionario, que necesariamente ha de ser breve, salvo que los encuestados estén emocionalmente involucrados en el tema a investigar. Si bien no existe una regla general sobre la extensión del cuestionario, normalmente la brevedad del mismo incrementa el número de respuestas. 5. Finalmente, hemos de señalar los problemas asociados a la representatividad de la muestra, ya que la falta de respuesta puede dar lugar a que la estructura de la muestra real que se obtiene de los cuestionarios contestados no se ajuste a estructura de la muestra definida, siendo necesario o bien enviar nuevos cuestionarios a los estratos de la muestra de los que no se han recibido suficientes respuestas, o completar las respuestas necesarias mediante entrevistas telefónicas o personales o bien desechar un determinado número de 15
encuestas de aquellos estratos de la muestra cuyas respuestas fueron más numerosas, incrementándose en este último caso el error muestral. Tal y como señalamos anteriormente, el envío de un cuestionario postal debe ir acompañado de una carta de presentación con la que se pretende estimular a los encuestados a cumplimentar y devolver la encuesta y, al mismo tiempo, sirve como medio de comunicación entre el Investigador y el encuestado para dar a conocer los motivos de la investigación, quién la realiza, sus objetivos, etc. En la presentación y redacción de esta carta deben tenerse presentes los principios básicos de la publicidad directa, es decir: (a) debe estar dirigida normalmente al destinatario; (b) redactada desde el punto de vista del destinatario y no del remitente; (c) el principio y el final de la carta son las dos partes más importantes, por lo que se deben incluir aspectos atractivos, evitando introducciones innecesarias y largas despedidas finales; (d) debe ir firmada en original y (e) no debe ser excesivamente larga, normalmente se recomienda que su extensión no supere un folio. En relación al contenido de la carta debe hacerse referencia expresa a los siguientes aspectos (a) quién realiza la investigación, (b) objetivos y repercusiones, (c) necesidades de colaboración del entrevistado y (d) anonimato del encuestado y tratamiento global de los datos facilitados. En el anexo nº 1 recogemos un ejemplo de carta de presentación realizada para una encuesta postal que se llevó a cabo en el Departamento de Economía y Dirección de Empresa de la Universidad de Las Palmas de Gran Canaria. El cuestionario, tanto en su forma como en su contenido, debe ser fácil de contestar, las preguntas deben estar formuladas de una forma clara y concisa, y deben ser cerradas o semiabiertas, , procurando que la respuesta no sea ambigua. Como parte integrante del cuestionario o en documento separado se deben incluir unas instrucciones breves, claras y precisas, para facilitar su cumplimentación. Es conveniente, además, que los cuestionarios estén numerados, con el objeto de que si después de un primer envío no se obtiene respuesta, se puede repetir, enviando un segundo cuestionario. Como es obvio, el envío debe contener también un sobre franqueado con la dirección del investigador para la devolución del cuestionario cumplimentado.
16
CRITERIOS EN LA SELECCIÓN DEL TIPO DE ENCUESTA Una vez expuestas las anteriores consideraciones sobre los diferentes métodos de captar información a través de las encuestas ad – hoc, el problema de la elección idónea para la investigación depende, lógicamente, de los objetivos de la misma y de su adecuación en función de las ventajas y limitaciones que hemos señalado para cada no de los métodos. Así, por ejemplo, estableciendo como criterios la versatilidad, el tiempo de obtener la información, el costo, la precisión y la conveniencia para el encuestado podemos jerarquizar la elección de estos tres métodos tal. En relación a la versatilidad, factores como el mayor o menor número de preguntas que pueden incluirse en el cuestionario, la cantidad de datos que pueden obtenerse, el tipo de preguntas y la posibilidad de utilizar ayudas visuales como tarjetas, fotografías, etc. determinan que la encuesta personal sea mucho más flexible y permita obtener una mayor variedad de información que las encuestas telefónicas o postales. Cuando el tiempo es un factor clave en la investigación, la encuesta telefónica, lógicamente, es la forma más rápida de obtener la información y si bien en la encuesta personal se puede incrementar el número de encuestadores para suplir las limitaciones de tiempo, en la practica los problemas asociados con el adiestramiento, la coordinación y el control de un grupo excesivamente numeroso hacen que no sea ni factible ni económicamente rentable aumentar el número de encuestadores. En la encuesta postal resulta imposible acortar el tiempo que transcurre desde que se envían los cuestionarios hasta que se devuelven cumplimentados. Con respecto al costo y en términos generales, la encuesta postal es la más económica, y la personal la más costosa. No obstante, puede haber excepciones en función del tamaño del cuestionario, lugar de residencia de los individuos que constituyen la muestra, tarifas telefónicas, etc. En lo que a la precisión del método utilizado se refiere, no cabe duda que existen una gran cantidad de factores que determinan la mayor o menor precisión de las preguntas, la mayor o menor disposición de los encuestados a contestar, etc. Ahora bien, existen una serie de aspectos que afectan a la exactitud de los datos y difieren en cada uno de los métodos utilizados como son el grado de control sobre la muestra, que se refiere a la capacidad de identificar y obtener los datos de una muestra que sea representativa de los estratos de la 17
población o universo y la capacidad de asegurar la cooperación de los encuestados contactados, el control en la supervisión, es decir, la posibilidad de minimizar preguntas en la encuesta que no se comprendan. En este sentido, la encuesta personal es la que permite obtener un mayor control sobre la muestra y superar los problemas asociados a las dificultades que pueda tener el encuestado a la hora de responder ciertas preguntas, mientras que la encuesta postal, lógicamente, es la que da lugar a menos errores derivados del propio entrevistador. Finalmente, la encuesta postal, seguida de la telefónica es la más flexible desde la perspectiva del encuestado, pues le permite cumplimentar el cuestionario en el momento más conveniente y empleando el tiempo que desee. Obviamente, el problema de la elección método no solo depende de estos cinco criterios y además es muy difícil que en el planteamiento de una investigación un método sea el mejor para todos los criterios. Por tanto, el más adecuado será el que mejor se adecue a las necesidades de información de la investigación teniendo en cuenta las limitaciones de tiempo y de costo. Por otra parte, hemos de destacar que estos tres métodos de captar información a través de encuestas ad-hoc no son mutuamente excluyentes, sino que pueden combinarse y obtenerse así mejores resultados en el diseño de la investigación en función de la ventajas de cada uno de ellos. EL PROCESO DE UNA ENCUESTA Una vez establecidos los objetivos de la investigación, las necesidades de información que se requieren y definido el tipo de encuesta, personal, telefónica o postal, que es más conveniente utilizar, la primera fase del proceso de realización de una encuesta la constituye el diseño Muestral que implica decidir cuál va a ser el universo o población de la cual vamos a obtener la información, delimitar el tamaño Muestral y seleccionar el método de muestreo más apropiado. En segundo lugar, se ha de proceder a la elaboración del cuestionario, cuyo diseño entraña ciertas dificultades y han de tenerse en cuenta una serie de criterios generales que hacen referencia al contenido, tipo y secuencia de preguntas. Confeccionado el cuestionario es necesario también ponerlo a prueba en una pequeña submuestra para detectar posibles errores y corregirlos.
18
Una vez redactado el cuestionario final se procede a la organización y realización de trabajo de campo, es decir, la recogida efectiva de los datos a través del procedimiento correspondiente al tipo de encuesta realizada, o sea mediante entrevista personal, por correo, o por teléfono. En la realización de las encuestas, a excepción de las postales, el encuestador debe estar familiarizado con el cuestionario, formular las preguntas exactamente como aparecen escritas en el cuestionario y en el mismo orden y es importante también utilizar algunas técnicas de indagación para lograr que el encuestado conteste a las preguntas. En este sentido, es de gran importancia una buena selección y formación de los entrevistadores y la supervisión del trabajo de campo, siendo necesario introducir los mecanismos de control pertinentes. Por otra parte, los datos obtenidos de las encuestas es necesario inspeccionarlos, a fin de comprobar que los cuestionarios estén correctamente contestados, que sean consistentes las respuestas dadas y rechazar aquellos cuestionarios que no sean correctos. La creación de la base de datos consiste, básicamente, en pasar a soporte magnético los códigos de las respuestas de los cuestionarios para que puedan ser transferidos a ficheros y leídos y tratados por el ordenador. El análisis de la información se realiza en función de los objetivos de la investigación, utilizándose el tratamiento estadístico que proceda en cada caso a través de los programas informáticos existentes, entre los que destacamos el SAS, SPSS, Gandia, BMDP, etc. La técnica de análisis de datos pueden ser univariables, bivariables y multivariables según se trate, respectivamente, de analizar aisladamente una sola variable, la relación entre dos variables o la relación o interdependencia entre más de dos variables. Finalmente, la última fase del proceso de investigación la constituye la interpretación de los resultados obtenidos, tanto a partir de las tabulaciones como de las técnicas de análisis multivariantes utilizadas. Estos resultados confirmarán o refutarán las hipótesis planteadas, permitirán llegar a unas conclusiones determinadas y podrán poner de manifiesto la necesidad de posteriores investigaciones. Por último, todo el proceso de investigación, desde el planteamiento del problema a investigar, la metodología seguida, los resultados obtenidos hasta las conclusiones alcanzadas se recogerán en un informe escrito que supondrá la síntesis de todo el proceso investigador. El siguiente cuadro recoge estos elementos básicos que constituyen el procedo de realización de una encuesta. 19
Etapas del Proceso de Realización de una Encuesta DISEÑO MUESTRAL Determinar Universo Determinar Tamaño Muestra Seleccionar Método de Muestreo DISEÑO DEL CUESTIONARIO Contenido de preguntas Tipo de preguntas Secuencias de preguntas Prestest Revisión y cuestionario final ORGANIZACIÓN Y REALIZACIÓN DEL TRABAJO DE CAMPO CREACIÓN BASE DE DATOS Y ANÁLISIS DE LA INFORMACIÓN INTERPRETACIÓN DE LOS RESULTADOS: INFORME FINAL
6.
Población y Muestra En el trabajo estadístico es importante saber cuando estamos tratando con una población completa de observaciones, o con una muestra de observaciones seleccionadas de una población específica. A continuación se dan las definiciones de población y muestra. 6.1
Población Se define como la totalidad de valores posibles (mediciones o enteros) de una característica particular de un grupo específico de objeto. Tal grupo especificado de objetos se llama un universo. Obviamente, un universo puede tener varias poblaciones asociadas con él. Algunos ejemplos de universos y poblaciones son: 1. Los empleados de la Universidad Nacional de Ingeniería, alrededor de las 6 de la tarde del 10 de setiembre del año 2001. 2. Asociados con el universo anterior, hay muchas poblaciones; por ejemplo, la población de tipo de sangre, la población de pesos de los empleados, la población de estaturas, etc. 3. El universo de todas las residencias del distrito de Miraflores, el 31 de diciembre del año 2000. 4. Asociados con este universo de residencias están las poblaciones tales como el número de habitantes por unidad, el número de personas que habitan en cada unidad, etc.
20
5. El universo puede contar de un sólo objeto, tal como una pieza de tubo de acero, y la población puede consistir de todas las mediciones posibles de su distrito anterior. Estos ejemplos muestran la importancia de definir claramente la población en una investigación. 6.2
Muestra Es una parte de la población, seleccionada de acuerdo a una regla o plan. Las muestras pueden agruparse en dos grandes clases, cuando se considera el método de selección, este es, los que se seleccionan por criterio y las que se seleccionan por mecanismo casual. Las muestras elegidas de acuerdo a un mecanismo casual, son llamados muestras de probabilidad, si cada elemento de la población tiene una probabilidad conocida de pertenecer a la muestra.
7.
Variable e Indicador 7.1
Variable Por variable se entiende alguna característica, condición o atributo, susceptible de ser medidos, usando alguna escala de medición conocida la que puede adoptar diversos valores.
7.2
Indicador Un indicador es una medición que sirve para describir un comportamiento, concepto o fenómeno. Puede que no abarque todos los aspectos del fenómeno a medir, pero da alguna “indicación” de ello. Por ejemplo, si queremos medir la “aceptación de personas viviendo con VIH/SIDA”, es un concepto complejo. Sin embargo, podemos determinar: Porcentaje de personas que aceptará: • • • •
Darle la mano a una persona viviendo con VIH/SIDA Compartir cubiertos en la mesa con una persona con VIH/SIDA Abrazar a una persona con VIH/SIDA Bañarse en una piscina con una persona con VIH/SIDA
Cada uno es un indicador de aceptación de personas viviendo con VIH/SIDA. El concepto es mucho más amplio que estos cuatro puntos, sin embargo, estos indicadores nos permiten tener la posibilidad de cuantificar el fenómeno que nos interesa.
21
Un indicador se expresa con un número absoluto, un porcentaje, una tasa (prevalencia o incidencia) o por una expresión (un sí o un no). 8.
Distribución de Frecuencias En cualquier estudio donde sea precisa la aplicación de la metodología estadística, es de gran importancia el proceso de recogida, ordenación y presentación de los datos, que, en la mayoría de las ocasiones aparecerán dispuestos en tablas de simple o doble entrada. Lo anterior nos lleva a la necesidad de definir el término de frecuencia e intervalo. a.
Frecuencia Es el número de veces que se repite una observación de un determinado fenómeno. La frecuencia pueden ser de dos tipos, sin acumular y acumulados. La frecuencia sin acumular puede ser a la vez de dos tipos: a.1
Frecuencias Absolutos (ni). Se denomina frecuencia absoluta del nivel i-ésimo de un factor (suponemos que hay n niveles), al número de veces que el mismo se presenta para los individuos considerados.
a.2
Frecuencias relativas (fi). Frecuencia relativa del nivel i-ésimo, es la relación por cociente entre el número de veces que aparece tal nivel y el número total de elementos observados, es decir, es el cociente entre la frecuencia absoluta y el total de datos (N).
Las frecuencias acumuladas, también pueden ser absolutas o relativas. La frecuencia absoluta acumulada de (Ni), se define como el número de elementos cuyo nivel es igual o inferior al i-ésimo nivel; y la frecuencia relativa acumulada (Fi) no es más que la frecuencia acumulada dividida por el número total de elementos. De las anteriores definiciones se extraen inmediatamente las siguientes deducciones: 1. La suma de las frecuencias absolutas sin acumular es igual al número total de elementos. n
n i 1
i
N
2.
La última frecuencia absoluta acumulada (Nn) coincide con el total de datos, N.
3.
La suma de todas las frecuencias relativas sin acumular es igual 22
a 1. n
f i 1
i
1
4. La última frecuencia relativa acumulada es la unidad b.
Intervalos Al conjunto de niveles que ha tomado una variable o factor con sus frecuencias correspondientes se le denominará “distribución de frecuencias”; así, para que una distribución de frecuencias quede determinada es necesario conocer todos los niveles de la variable o factor y uno cualquiera de los conceptos de frecuencia que se definió anteriormente, ya que el paso de uno a otro es inmediato. Además, según la forma en que los niveles se presenten, será posible distinguir dos tipos de distribución de frecuencias: b.1
Los que no están agrupados en intervalos, que surgen cuando la conformación se dispone asociando a cada valor o categoría de la variable su respectiva frecuencia.
b.2
Las que, generalmente, debido al elevado número de observaciones, sus niveles o valores observados aparecen agrupados y, por tanto, las frecuencias correspondientes a cada intervalo se obtienen sumando las respectivas categorías originales. Cuando se trabaja con distribuciones agrupadas por intervalos, es necesario que las frecuencias observadas se asignen de alguna forma a los puntos del mismo. Se podrá optar por cualquiera de las dos soluciones siguientes. • •
Suponer que los valores del intervalo se distribuyen uniformemente a lo largo de el. Considerar como representativo de todos los puntos del intervalo un único valor, por ejemplo, el punto medio del mismo, que denominaremos “marca de clase” (Xi) y que, en consecuencia se obtendrá como: Xi
Li 1 Li 2
Donde Li – 1 y Li son respectivamente, los extremos inferior y superior del intervalo i-ésimo.
23
Aunque la agrupación de niveles tiene la ventaja de simplificar el manejo de la información presenta, en cambio, un importante inconveniente consistente en la pérdida, en mayor o menor medida, de una parte de dicha información. 8.1
Distribuciones Unidimensionales La representatividad usual de este tipo de distribución se realiza por medio de tablas como la siguiente:
NIVELES DEL FACTOR
X1 X2 :
ni n1 n2 :
fi f1 = n1/N f2 = n2/N :
Xi
ni
fi = ni/N
:
:
:
Xn
nn
fn = nn/N
Ni N1 = n1 N2 = n1 + n2 :
Fi F1 = N1/N F2 = N2/N :
i
Ni =
n i 1
:
n
i 1
i
N
n
f i 1
i
Nn =
n i 1
Fi = Ni/N :
n
n
i
i
N
Fn = Nn/N
1
El problema con que frecuentemente se encuentra el estadístico es el desconocimiento de la distribución poblacional de frecuencias de la variable o factor. La forma de proceder ante tal desconocimiento consiste en extraer una muestra, sobre la cual se realizarán los estudios deseados, los cuales nos permitirán obtener una serie de conclusiones, que se generalizarán a la totalidad de la población. Esta es, a muy grandes rasgos, la forma de proceder de la estadística inferencial. Ejemplo: Veamos a través de un ejemplo cual será la forma de actuar y como se elaboraría, para este caso concreto, una tabla de distribución de frecuencias. Supongamos que se desea estudiar el nivel de estudios medios de los 26 millones de habitantes de un país; evidentemente para conocer ese nivel medio de estudios podríamos preguntar a cada uno de los 26 millones de habitantes. Dado que tal procedimiento resulta inviable, tanto desde el punto de vista de la oportunidad del mismo, como de su costo, se procede de la forma siguiente: se selecciona una serie de individuos, una muestra, representativos de una población (por ejemplo, 5000 personas) sobre el cual se efectuaría el análisis y se extrae las conclusiones pertinentes que serán posteriormente elevados 24
a la población. La forma de presentación de los resultados de la observación de dicha muestra seria, como se muestra en la tabla siguiente: NIVEL DE ESTUDIOS Sin estudios Primaria Secundaria Superior Total
ni
fi
Ni
Fi
100 1500 2400 1000 5000
100/5000 = 0.02 1500/5000 = 0.30 2400/5000 = 0.48 1000/5000 = 0.20 1
100 1600 4000 5000
0.02 0.32 0.80 1
Observar que la variable cualitativa analizada presenta únicamente cuatro niveles (sin estudios, primaria, secundaria y superior). Dado que hemos considerado que la muestra es suficientemente representativa de la población, y que la categoría que más se repite es la que representa el nivel de estudios secundarios, parece pensar que será este el que, por término medio, poseería los habitantes del país analizado. Una vez que las distintas observaciones de la realidad han sido ordenadas, de forma que su estudio resulta lo más simplificado posible, la siguiente etapa del análisis consiste en la caracterización de la misma, o de su equivalente abstracto que es la distribución de frecuencias, a través de una serie de características que permitan su síntesis. De todos los caracteres que nos permitirán sintetizar la información contenida en una distribución de frecuencia vamos únicamente a referirnos a dos grandes grupos: las medidas de posición y las medidas de dispersión 8.2
Representaciones Gráficas de las Distribuciones de Frecuencia
a. Histogramas y Polígonos de Frecuencias Los histogramas y los polígonos de frecuencias son dos representaciones simples de las distribuciones de frecuencia con las siguientes características: 1. Un histograma o histórico de frecuencias, consiste en un conjunto de rectángulos. a. Bases en el eje X horizontal, centros con las marcas de clase y longitudes iguales a los intervalos de clase. b. Son proporcionales a las frecuencias de clase
25
Si los intervalos de clase tienen todos la misma anchura, las alturas de los rectángulos son proporcionales a las frecuencias de clase, y entonces es costumbre tomar las alturas iguales a las frecuencias de clase, en caso contrario, deben gestionarse las alturas: Distribución de Frecuencia de la Función de Tiempos de 201 Actuadores de Explosivos Número de actuadores con función tiempo en clase especificada Intervalo = frecuencia (f)
Frecuencia relativa (f.r)
59
1
0.005
60
2
0.010
61
3
0.015
62
16
0.080
63
21
0.104
64
27
0.134
65
34
0.169
66
37
0.184
67
27
0.134
68
19
0.095
69
7
0.035
70
5
0.025
71
2
0.010
201
1.000
Función tiempo (MS)
58 < X <= 59 < X <= 60 < X <= 61 < X <= 62 < X <= 63 < X <= 64 < X <= 65 < X <= 66 < X <= 67 < X <= 68 < X <= 69 < X <= 70 < X <= Totales
26
2. Un polígono de frecuencias es un gráfico de trazos de la frecuencia de clase con relación a la marca de clase. Puede obtenerse conectando los puntos medios de las parte superiores de los rectángulos del histograma. b. Ojivas o Polígonos de Frecuencias Acumuladas Es un gráfico que recoge las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase sugerimos respecto a dicha frontera.
Distribución de Frecuencia Acumulativa de la Función de Tiempos de 201 Actuadores de Explosivos
27
Número de actuadores con Frecuencia función tiempo Función tiempo acumulativa menor que o igual al 3(X) Relativa valor especificado = (f.r.a) Frecuencia Acumulativa (f.a)
58 59 60 61 62 63 64 65 66 67 68 69 70 71
8.3
0 1 3 6 22 43 70 104 141 168 187 194 199 201
0.000 0.005 0.015 0.030 0.109 0.214 0.348 0.517 0.701 0.836 0.930 0.965 0.990 1.000
Tipos de Curvas de Frecuencia Las curvas de frecuencia que aparecen en la práctica, adoptan ciertas características, como se ilustra a continuación
Simétrico o en forma de Carpa
Asimétrico (sesgado) a la derecha (sesgo positivo)
28
Asimétrico (sesgado) a la izquierda o sesgo negativo)
En forma de J
En forma de J Inversa
En forma de V
Bimodal
Multimodal
•
Las curvas de frecuencias simétricas o en forma de campana, se 29
caracteriza porque las observaciones equidistantes del máximo control tiene la misma frecuencia. Ejemplo importante es la curva normal.
8.4
•
En las curvas de frecuencia asimétricas, o sesgadas, la cola de la curva a un lado del máximo central es mas larga que la del otro lado.
•
Si la cola mayor esta a la derecha, la curva de dice asimétrica a la derecha o de asimétrica positiva. En caso contrario, se dice asimétrica a la izquierda o de asimetría negativa.
•
En una curva en forma de J o de J invertida, hay máximo en un extremo
•
Una curva e frecuencia en forma de V tiene máximos en ambos extremos
•
Una curva de frecuencia Bimodal tiene dos máximos
•
Una curva de frecuencia multimodal tiene más e dos máximos
Medidas de Posición Las medidas de posición nos permiten situar la distribución de los datos con respecto a su origen. Las más importantes son las medidas de tendencia central, que suministra un valor central de los datos que se considera representativo de toda la población; de entre éstas cabe destacar la media aritmética, la mediana y la moda. Media aritmética (X ) Se define como la suma de todos los valores de la distribución dividida por el número total de elementos N
X X 2 ... X 3 ... X N X 1 N
X i 1
N
i
X N
La media aritmética presenta un inconveniente de consideración: se ve frecuentemente afectada cuando la variable presenta valores extremos anormalmente altos o bajos, hasta el punto que, cuando tal circunstancia se produce la media aritmética puede resultar poco representativa. 30
A veces asociamos con los números X1, X2, .... , XK, ciertos factores o pesos W1, W2, ..., WK, dependientes de la relevancia asignada a cada número. En tal caso surge la definición de Media Aritmética Ponderada K
W X W2 X 2 ... WK X K X 1 1 W1 W2 ... WK
W X i
i 1
N
K
W i 1
i
Cabe señalar que los W i pueden ser el número de veces que ocurren los Xi respectivamente. Cuando los datos se presentan agrupados en una distribución de frecuencias, todos los valores que caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio, del intervalo, luego la expresión anterior sirve para calcular la media aritmética, considerando los Xi con las respectivas marcas de clase y las W i como las frecuencias respectivas. La Mediana (Me) Dar una definición única de la mediana puede resultar bastante complicado, por lo que se darán dos definiciones operativas de esta: a. Es el valor de la distribución, supuesta esta ordenada de menor a mayor, que deja a su izquierda y a su derecha el mismo número de elementos, es decir, el valor que ocupa el lugar central cuando el número de elementos es impar. Cuando tal número es par, se toma como mediana la media aritmética de los valores centrales. b. También se puede definir la mediana como el valor de la distribución cuya frecuencia acumulada es N/2. Para datos agrupados, la mediana obtenida por interpolación viene dada por:
N ( f )1 C Mediana Me L1 2 mediana Donde: L1 N
= =
Frontera inferior de la clase mediana Número de datos (frecuencia total) 31
( f )1
Mediana C
=
Suma de frecuencias de las clases inferiores a la
= =
de la mediana Frecuencia de la clase de la mediana Anchura del intervalo de clase de la mediana.
La Moda (Mo) Es el valor o modalidad de la variable que se presenta con mayor frecuencia. Si existen varios valores o modalidades con idéntica frecuencia, y ésta además es la mayor, entonces la distribución tendrá varias modas, denominándose multimodal. Una distribución con moda única se dice unimodal. Para los datos agrupados la moda, se calcula de la siguiente manera:
1 C Moda Mo L1 1 2 Donde: L1
=
1
=
2
=
C
=
Frontera inferior de la clase modal (clase que contiene a la moda) Exceso de la frecuencia modal sobre la de la clase inferior inmediata Exceso de la frecuencia modal sobre la clase superior inmediata Anchura del intervalo de clase modal
Especial relevancia adquiere la relación entre estos promedios y las escalas de medida de las variables, pues cada escala no sólo tiene su promedio más adecuado, sino que alguno de ellos no se pueden calcular para determinados tipos de escala. De esta forma la moda es la adecuada para las variables medidas en escala nominal, debido a que, al caracterizarse las distribuciones de este tipo porque las categorías que se forman no son susceptibles de ordenación, resulta imposible realizar las más elementales operaciones con sus observaciones (orden, suma, resta, ...). Cuando las variables o factores se presenta en escala ordinal se podrán calcular dos promedios: la mediana y la moda; mientras que para el resto de escalas es posible el cálculo de todos los promedios. En el siguiente ejemplo donde, se analiza una variable cualitativa con cuatro categorías, susceptibles de ordenación, siguiendo un orden natural, es posible el cálculo de la mediana y de la moda.
32
Nivel de estudio Sin estudios Primaria Secundaria Superior
ni 100 1500 2400 1000
Ni 100 1600 4000 5000
N/2 = 2500
Puesto que la mayor frecuencia (2400) corresponde al nivel de estudios secundaria, será esta categoría la moda de la distribución. Para la obtención, de la mediana comenzaremos por el cálculo de N/2 que es 2500, observando posteriormente a que categoría de la variable le corresponde tal frecuencia acumulada, al no existir 2500 se toma el valor inmediatamente superior que, en este caso, vuelve a ser el nivel de estudios secundaria. Las medidas de tendencia central tratan de dar respuesta a las siguientes preguntas: ¿a partir de una distribución de frecuencias es posible extraer un único elemento que sea capaz de representar a todos los datos que se posee? En general la respuesta puede ser afirmativa, sin embargo, tratar de caracterizar una distribución mediante un único valor puede entrañar conclusiones erróneas, debido a la existencia de distribuciones con idénticos promedios y que no son iguales. Esto lleva a definir un nuevo conjunto de medidas, que denominaremos de dispersión, y que servirán para darnos una idea del grado de representatividad de los promedios calculados. 8.5
Medidas de Dispersión o Variabilidad Las medidas de dispersión permiten calcular la representatividad de un promedio (media o mediana), para lo cual será preciso cuantificar la distancia de los diferentes valores de la distribución respecto a dicho promedio. A tal distancia es a lo que, en términos estadísticos, denominaremos “variabilidad” o “dispersión” de la distribución Aunque el número de medidas de este tipo es elevado, es posible efectuar una clasificación de los mismos atendiendo a dos criterios. •
Por el promedio cuya representatividad se desea analizar, tendremos tres tipos a. Desviaciones respecto la mediana b. Desviaciones respecto la media aritmética c. Desviaciones respecto la moda
33
•
Por su carácter de dimensionales o adimensionales, destacamos dos tipos: a. Absolutos b. Relativos
Sólo nos referimos a las tres medidas de dispersión que son de mayor interés en la mayoría de investigaciones: varianza, desviación típica o estándar y coeficiente de variación. Todos ellos miden desviaciones respecto a la media aritmética pero en tanto que las dos primeras proporcionan desviaciones absolutas, la última las proporcionara en términos relativos a la media. Al ser la media aritmética un promedio que no se puede calcular cuando la distribución de frecuencias que tratemos de analizar hace referencia a variables medidas en escala nominal u ordinal, tampoco serán calculables las tres medidas de dispersión que a continuación se detalla. 8.6
Varianza (S2) Se define como: n
S2
(X i 1
i
X )2
N
Para datos agrupados, la expresión para calcular la varianza es: n
S2
(X i 1
i
X ) 2 ni N
Donde ni son las frecuencias absolutas correspondientes a la i-ésima clase. La magnitud S2 medirá la mayor o menor dispersión de los valores de la variable respecto a la media aritmética, es decir, mostrará el grado de representatividad de dicho promedio, de forma que si S 2 tiene valores altos, la dispersión será muy elevada y la media aritmética no será representativa (lo contrario sucederá cuando S2 es bajo).
34
8.7
Desviación Típica o Estándar (S) Un incremento de la varianza radica en que sus unidades de medida se corresponden, no con las de la variable, sino con los de la variable elevada al cuadrado, lo cual puede dificultar considerablemente su interpretación. Para ello nos vemos obligados a definir una nueva medida, la desviación típica, que si viene expresada en las mismas unidades que la variable que estamos analizando. La desviación típica se define como la raíz cuadrada con signo + de la varianza y su dimensión coincide con la de la variable por lo cual resulta más apta como medida de la dispersión de una distribución.
A pesar de la ventaja de interpretación que la desviación típica supone respecto a la varianza no supera, sin embargo, un inconveniente que ya en aquella se presentaba: la imposibilidad de efectuar comparaciones entre distintas distribuciones de frecuencias cuando las dimensiones de las mismas no coinciden. Al tratarse, en ambos casos, de medidas de dispersión absoluta y, por consiguiente, dimensionales, no es posible realizar comparaciones entre distribuciones que no poseen idénticas unidades de medida. Esto lleva a la necesidad de definir nuevas medidas que sean adimencionales, que se presentarán en forma de cocientes o índices y que reciben el nombre de medidas relativas. Entre ellas, la más conocida y utilizada es el coeficiente de variación de Pearson. 8.8
Coeficiente de Variación de Pearson (Cv) El coeficiente de variación se define como el cociente entre la desviación típica y la media aritmética, es decir.
Donde al venir tanto S como X expresadas en las mismas unidades de medida, el coeficiente de variación resulta ser adimensional. El coeficiente de variación representa, además, el número de veces que X está contenida en S, de forma que, cuanto menor sea el coeficiente de variación menos veces contendrá S a X y por tanto más representativa resultará está última; es decir a mayor (menor) 35
coeficiente de variación, menor (mayor) representatividad de la media aritmética. El coeficiente de variación presenta, no obstante, dos inconvenientes: -
No es invariante a cambios de origen.
-
Su utilización no interesa cuando la media aritmética es cero porque carecería de interpretación.
36
2. NOCIONES BASICAS SOBRE MUESTREO
37
NOCIONES BASICAS SOBRE MUESTREO 1.
CONCEPTO
DE
MUESTREO
Uno de los objetivos finales de la estadística es hacer inferencia sobre una población, basándonos en la información contenida en la muestra. Este objetivo, nos lleva a considerar la finalidad del problema del muestreo. Consideramos el problema particular de tomar muestras de poblaciones finitas. Nos referimos ocasionalmente a poblaciones compuestas por un número infinito de mediciones. En muchos de los casos, la inferencia tendrá la forma de un estimador del parámetro poblacional y su límite de error de estimación. Cada observación tomada de la población contiene cierta cantidad de información acerca del parámetro poblacional de interés. El investigador debe determinar cuanta información debe adquirir. Muy poca información impide al investigador para hacer buenas estimaciones, mientras que demasiada información implica un gasto innecesario. La cantidad de información obtenida en la muestra, depende del número de elementos seleccionados y de la variación en los datos. Este aspecto puede ser controlado por el método de selección de muestra llamado diseño de muestra. El diseño de la muestra y el tamaño de muestra determinan la cantidad y calidad de información a obtener. 2.
CONCEPTOS BÁSICOS Elemento: Es un objeto sobre el cual se toman las mediciones. Población: Es una colección de elementos sobre la cual se desea hacer una inferencia. Una tarea importante para el investigador es definir completa y cuidadosamente la población antes de recolectas la muestra. La definición debe incluir una descripción de aquellos elementos que serán incluidos y una especificación de las características que serán medidas, sin que estos dos aspectos estén interrelacionados. La población quedará determinada por las características comunes a todos los elementos y se medirán las características comunes a todos los elementos y se medirán las características no comunes de interés. Unidad de muestreo: Son colecciones no superpuestas y exhaustivas de elementos de la población. Si cada unidad de muestreo contiene uno y sólo un elemento de 38
la población, entonces las unidades de muestreo y los elementos de una población son idénticos. Marco muestral: Es una lista de unidades de muestreo. involucran más de un marco muestral.
Algunos esquemas de muestreo
Muestra: Es una colección de unidades muéstrales seleccionadas de un marco muestral. Los datos son obtenidos de los elementos de la muestra y utilizados para describir la población y hacer inferencia. Muestreo probabilístico: El planteamiento clásico del problema de estimación estadística requiere que la aleatoriedad esté comprendida en el diseño de muestreo para sí poder evaluar probabilísticamente, las propiedades de los estimadores. Al diseño de muestreo que plantea la selección, de unidades de muestreo, basada en la aleatoriedad se le llama muestreo probabilístico. Muestreo no probabilístico: El muestreo no probabilístico no involucra ningún elemento aleatorio en el proceso de selección. 3.
MÉTODOS DE RECOLECCIÓN DE DATOS Una vez diseñada la muestra, podemos utilizar varios métodos de recolección de datos; aquí mencionaremos los relacionados al área de ciencias sociales. Estos pueden ser las entrevistas personales, las encuestas por teléfono, la observación directa y los cuestionarios „autosuministrados‟. En la mayoría de los casos, los datos son obtenidos mediante la aplicación de entrevistas personales. El procedimiento, usualmente, requiere que un entrevistador formule preguntas preparadas con anterioridad y que registre las respuestas de los entrevistados. La ventaja de este tipo de entrevistas es que la gente usualmente responde cuando es confrontada en persona. Además, el entrevistador puede notar reacciones específicas del entrevistado y así evitar malos entendimientos sobre la pregunta formulada. La principal limitación de las entrevistas personales (además del costo) concierne a los entrevistadores. Si no están adecuadamente capacitados, pueden desviarse del protocolo requerido e introducir sesgos en los datos muéstrales. La información también puede ser obtenida mediante entrevistas telefónicas. Los estudios que utilizan este tipo de entrevistas, son menos caros que los que utilizan las entrevistas personales, dada la eliminación de los gastos de traslado. El investigador puede monitorear que las entrevistas se realicen 39
bajo el procedimiento especifico. El problema más grande de estas entrevistas es el establecimiento de un marco muestral que se aproxime fuertemente a la población que se quiere muestrear. Estas encuestas en son poco recomendables debido a que las personas o familias que no cuentan con una línea telefónica ocupan un porcentaje alto. Otra forma de recolectar datos corresponde a los cuestionarios „autosuministrados‟. Este tipo de encuesta no requiere de entrevistadores, pues los cuestionarios son contestados directamente por el entrevistado. Aquí, las preguntas deben ser cuidadosamente elaboradas a fin de evitar respuestas inadecuadas. Pueden utilizarse muchos medios de distribución, pero el más utilizado corresponde al envío por correo y eso lo hace un método de recolección poco caro. Sin embargo, el beneficio del bajo costo del suministro de cuestionarios se ve disminuido por una baja tasa de respuesta. La no-respuesta puede ser un problema en cualquiera de los métodos de recolección de datos, sin embargo, los cuestionarios por correo son los que registran un mayor porcentaje de no-respuesta. 4.
MARCO MUESTRAL La información estadística que se desea obtener en una encuesta por muestreo, puede provenir de: personas, hogares, viviendas, hospitales, mercados, empresas, unidades agropecuarias, etc.; los que se encuentran identificados como elementos en la población. Al conjunto ordenado de todos ellos se le conoce como marco; y si a partir de allí se va a obtener una muestra se le llama marco muestral. Es necesario que el marco contenga a todas los elementos que son de interés al estudio y que no incluya aquellos que son ajenos o dejaron de pertenecer a la población. Esto implica que un marco debe estar siempre actualizado, por lo general en periodos cercanos a la ejecución de la encuesta. Indudablemente que la actualización permanente del marco muestral implica disponer de recursos que a veces no es posible contar con ellos. Entonces debe obtenerse información de otras fuentes que posibilite estimar y cuantificar el grado de crecimiento de dicho marco. En un buen marco de muestreo todos los miembros de la población objetivo deben tener una probabilidad conocida, y distinta de cero, de formar parte de alguna muestra.
5.
MUESTREO PROBABILISTICO Y NO PROBABILISTICO
40
El muestreo probabilístico se caracteriza porque cada elemento de la población tiene una probabilidad conocida y no nula de ser seleccionada. La selección de la muestra se hace por un proceso aleatorio y el valor de la probabilidad se determina de acuerdo a la naturaleza del diseño muestral adoptado. Las muestras probabilísticas poseen las ventajas siguientes:
Proporcionan estimaciones insesgadas (cuando la estimación muestral es igual al valor de la población). Tienen una precisión o confiabilidad mensurable. Permiten la evaluación de la eficiencia relativa del diseño muestral aplicado. Un diseño muestral será eficiente si los resultados esperados se obtienen al menor costo posible.
A pesar de las ventajas mencionadas, a veces no es posible utilizar muestras probabilisticas, por alguna de las razones siguientes:
Requiere tiempo para su planeación y ejecución, además de tener un costo mayor que una muestra no probabilística. Requiere para su uso, personal de experiencia, con formación académica especializada. Entre los tipos de muestreo probabilisticos más conocidos se tiene el muestreo simple al azar, muestreo sistemático, muestreo estratificado, muestreo de conglomerados y muestreo por etapas. ¿POR QUE NO UTILIZAR EL MUESTREO NO PROBABILISTICO? Se llama muestreo no probabilístico a cualquier método de muestreo en que la probabilidad de elegir un elemento de la población es desconocida. La elección de los elementos de la muestra es subjetiva, a criterio y voluntad del investigador. Entre los tipos de muestras no probabilísticas se tienen los siguientes:
Muestras Casuales o Fortuitas, donde los elementos de la muestra son elegidos simplemente por que son accesibles, o son fáciles de medir. Ejemplo, la entrevista a la persona en la calle, entrevistas usando el directorio de las guías telefónicas, etc. En este tipo de muestras, los resultados son por lo general, muy sesgados e insatisfactorios.
Muestras de Juicio, donde los elementos de la muestra son elegidos en base a lo que un experto o conocedor del tema considera como unidades representativas. La confiabilidad de los resultados muestrales depende de la calidad del conocimiento o del juicio del encuestador. Si es buena y es bien aplicada, puede esperarse que este tipo de muestreo sea representativo y produzca resultados de utilidad. Este tipo de muestra generalmente es usado en los estudios piloto o de exploración.
41
6.
Muestras por Cuotas, donde los elementos de la muestra se asignan por “cuotas” a los entrevistadores, instruyéndolos para distribuir sus entrevistas dentro de sus cuotas de acuerdo a algunas características de control, como tantos en cada uno de los diversos grupos de ingreso, tantos en cada grupo de edad y sexo, etc. Este tipo de muestra, es muy usada en encuestas de opinión y mercado. Sin embargo, la confiabilidad de los resultados dependen en gran medida del juicio y capacidad del entrevistador para lograr las unidades muestrales las que muchas veces no son fácilmente accesibles.
TIPOS DE MUESTREO BÁSICO Como ya se ha mencionado, el objetivo de un estudio de muestreo es hacer inferencia sobre la población, a partir de la información contenida en la muestra. Existen dos factores que afectan la cantidad de información contenida en la muestra y por lo tanto a la precisión de nuestro procedimiento de inferencia. El primero es el tamaño de la muestra seleccionada de la población. El segundo es el monto de variación en los datos, el cual frecuentemente puede ser controlado por el método de selección de la muestra que, por ende, está estrechamente relacionado con la organización de los elementos que conforman la población. El diseño básico, el muestreo aleatorio simple, consiste en seleccionar de la población, un grupo de n unidades muestrales, de tal manera que cada muestra de tamaño n tenga la misma oportunidad de ser seleccionada. Aquí no tenemos identificada la existencia de subgrupos en la población. Podemos dividir los elementos de la población en grupos, o estratos, delimitados por alguna o algunas características que puedan estar influyendo en el fenómeno de estudio, y seleccionar una muestra aleatoria simple de cada estrato. La muestra resultante se llama muestra aleatoria estratificada. Note que la estratificación se lleva a cabo usando conocimientos de variables auxiliares. Esta división puede hacerse también de acuerdo a agrupaciones físicas naturales. Tales grupos serán las unidades muestrales a seleccionar. Este procedimiento es normalmente llamado muestreo por conglomerados. Ambos tipos de agrupaciones, los estratos y los conglomerados, tendrán que cumplir con ciertas propiedades que serán listadas más adelante. Algunas veces, los nombres de los elementos de la población de interés se encuentran ordenados en una lista. Para esta situación, una técnica conveniente puede ser la extracción de la muestra mediante la selección de uno de los nombres al inicio de la lista y seleccionar otro cada diez o quince 42
elementos. Si la selección es conducida de esta manera, obtenemos una muestra sistemática. 6.1
Muestreo Aleatorio Simple (MAS) El muestreo aleatorio simple es un método de selección de n unidades en un conjunto de N de tal modo que cada una de las muestras posibles tenga la misma oportunidad de ser elegidas. Entonces, ¿cómo podemos extraer una muestra de tal forma que cada muestra posible de tamaño n tenga la misma oportunidad de ser seleccionada. En la práctica, un muestreo aleatorio se realiza unidad por unidad. Se enumeran las unidades de 1 a N. Posteriormente se extrae una serie de n números aleatorios entre 1 y N, ya sea utilizando una tabla de números aleatorios o mediante un programa de computación. En cada extracción, el proceso debe otorgar la misma oportunidad de selección a todo y cada uno de los números que no hayan salido. Las unidades que llevan estos n números constituyen la muestra. Las tablas de números aleatorios son tablas de los dígitos 0, 1, 2,..., 9, generadas de manera que cada dígito tiene la misma probabilidad de ser seleccionado en cada extracción.
ESTIMACIONES: En una encuesta por muestreo elegimos ciertas propiedades que intentamos medir y registrar para cada unidad que venga dentro de la muestra. Estas propiedades de las unidades se llaman características o simplemente atributos. Los valores obtenidos para cualquier atributo específico en las N unidades que comprenden la población, se representan por Y1, Y2, ...., YN . Los valores correspondientes para las unidades en muestreo se denotan por y1, y2, ...., yn o, si queremos referirnos a un miembro de la muestra en general, por yi (i=1,2,...n). Note que la muestra no consistirá de las primeras n unidades en la población, excepto en el caso, usualmente raro, en que se seleccionen precisamente estas unidades. Las letras mayúsculas se refieren a las características de la población y las minúsculas a las de la muestra. Para los totales y las medias tenemos las siguientes definiciones:
43
N
yi y1 y2 ... yN
Total:
i 1
n
y yi y1 y2 ... yn i 1
N
yi
y y ... y N i 1 1 2 N N
Media:
n
y y ... y N y 1 2 n
y
i
i 1
n
Su universo n/N es la fracción de muestreo f (f=n/N). CARACTERÍSTICAS CUALITATIVAS En algunas ocasiones deseamos estimar el número total, la proporción o el porcentaje de unidades en la población, que poseen alguna característica o atributo, o que caen dentro de alguna clase definida. La clasificación puede ser introducida directamente en el cuestionario, en forma de preguntas que se contestan con un “si” o con un “no”. En otros casos las medidas originales son más o menso continúas y la clasificación se introduce al tabular los resultados. Denotaremos la proporción poblacional y su estimador por los símbolos p y , respectivamente. Para el muestreo aleatorio simple, las propiedades de son paralelas a las de la media muestral si las mediciones son definidas como sigue: sea i 0 si el i ésimo elemento muestreado no posee la característica especificada y i 1 si la posee. Entonces, el número total de elementos en una muestra de tamaño n que poseen una característica especificada es
n
y
i
i1
Si extraemos una muestra aleatoria simple de tamaño n, la proporción muestral es la fracción de elementos en la muestra que posee la característica de interés. n
p
y
i
i1
n
y
En otras palabras, es la media de los valores 0 y 1 de la muestra. De forma similar, podemos apreciar que la proporción poblacional es la media de los valores 0 y 1 de la población completa (esto es p = ).
44
ESTIMADORES En resumen, bajo el esquema básico de selección, el muestreo aleatorio simple, los estimadores de las características más comunes de interés, sus errores estándar y el límite para el error de estimación, son los siguientes:
Estimador M e d i a
T o t a l
P r o p o r c i ó n
Varianza estimada
n
y
i
y
i1
n n
Ny
N yi i1
n
n
p y
y
i
i1
n
s2 N n V ( y ) n N
Varianza muestral n
s2
s N n V ( ) V ( Ny ) N 2 n N
s2
pq
( y1 y ) 2
i1
n1 n
2
N n pq V p , n 1 N
( y1 y ) 2
i1
n1
Límite para el error de estimación
s2 N n 2 V ( y ) 2 n N
s2 N n 2 V ( Ny ) 2 N 2 n N
2 V ( p ) 2
N n pq n 1 N
donde q 1 p
TAMAÑO DE MUESTRA Al planear una encuesta por muestreo, siempre se alcanza una etapa en donde hay que tomar una decisión respecto al tamaño de la muestra. Esta decisión es importante. Una muestra demasiado grande implica un despilfarro de recursos y una muy pequeña disminuye la utilidad de los resultados. La decisión no siempre puede tomarse satisfactoriamente; a menudo no disponemos de la suficiente información para saber si el tamaño de la muestra seleccionada es el óptimo. La teoría del muestreo proporciona un marco dentro del cual se puede pensar inteligentemente respecto a este problema. Los pasos principales involucrados en la selección del tamaño de la muestra son los siguientes: Debe existir algún enunciado respecto a lo que se espera de la muestra. Este puede darse en términos del límite de error deseado. La responsabilidad de este enunciado es de las personas que van a utilizar los resultados de la encuesta, aunque con frecuencia, dichas personas necesitan una guía para expresar sus deseos en términos numéricos.
45
Se debe encontrar una ecuación que relaciones n con la precisión de la muestra, deseado. La ecuación variará según el contenido del enunciado de precisión y el tipo de muestreo propuesto. Una de las ventajas del muestreo probabilístico es que permite la elaboración de esta ecuación. Esta ecuación tendrá como parámetro ciertas propiedades desconocidas de la población, que deben estimarse para obtener resultados específicos. Con frecuencia sucede que los datos estipulan para ciertas subdivisiones mayores de la población y que los límites de error deseados se establecen para cada subdivisión. De ser así, se hace un cálculo por separado para el valor de n en cada subdivisión y el n total se encuentra por adición. Generalmente se mide más de un atributo o característica en una encuesta por muestreo: en ocasiones el número de atributos es grande. Si se estipula un grado de precisión para cada atributo, los cálculos conducirán a una serie de valores conflictivos de n, uno para cada atributo. Por lo tanto debe encontrarse un método para conciliar estos valores. Finalmente debe apreciarse el valor elegido de n, para que sea consistente con los recursos de muestreo disponibles. Esto exige una estimación del costo, trabajo, tiempo y materiales que se necesitan para obtener la muestra del tamaño propuesto. En ocasiones es claro que n debe reducirse drásticamente, y entonces es necesario tomar una decisión difícil, que es la de proceder con una muestra mucho más pequeña, lo que reduce la precisión, o bien, abandonar los esfuerzo hasta contar con mayores recursos. Podemos calcular el número de observaciones necesarias para estimar una media poblacional con un límite para el error de estimación de magnitud B, ajustando 2 desviaciones estándar del estimador igual a B y resolviendo la expresión para n. Esto es, debemos resolver
2 V( y) B El tamaño de muestra requerido puede ser calculado mediante la solución de la siguiente ecuación para n:
2 N n 2 V(y) 2 B n N El tamaño de muestra para estimar con un límite para el error de estimación B es:
46
n
N 2 ( N 1)D 2
Donde B2 D 4
El cálculo de n en la práctica presenta el problema de que la varianza poblacional 2 es desconocida. Ya que en algunas ocasiones se dispone de una varianza muestral s 2 de un estudio anterior, podemos obtener un tamaño aproximado de la muestra si reemplazamos 2 con s 2 en la ecuación anterior. En el caso de no disponer de una estimación previa, es conveniente saber el rango en el que las observaciones fluctúan, ya que frecuentemente el rango es aproximadamente igual a 4 veces la desviación estándar ( 4) y un cuatro del rango puede proporcionarnos una aproximación al valor de . Si N es grande, como normalmente es, el término (N-1) puede reemplazar por N en el denominador de la ecuación del tamaño de la muestra. El tamaño de la muestra requerido para estimar con un límite para el error de estimación B, calculado de manera similar, es:
n
N 2 ( N 1) D 2
D
B2 4N 2
Donde
La proporción poblacional p puede ser considerada como el promedio ( ) de los valores 0 y 1 de la población completa. Por lo tanto, el problema de determinar el tamaño de muestra requerido para estimar p debe ser análogo al de determinar el tamaño de muestra para estimar con un límite para el error de estimación B. El tamaño de muestra correspondiente para estimar p puede ser calculado reemplazando 2 por la cantidad pq , en la fórmula de tamaño de muestra para la media. n
Npq ( N 1) D pq
47
Donde q 1 p y D
B2 4
En la práctica no conocemos p. Podemos calcular un tamaño de muestra aproximado al sustituir p con algún estudio anterior. Sin embargo, si no disponemos de tal valor podemos sustituir p=0.5 en la ecuación, para obtener un tamaño de muestra conservador (uno que será más grande que el requerido). En la tabla siguiente se puede leer el tamaño de la muestra que es necesaria para asegurar una precisión igual a ± B sobre una proporción P que se busca estimar. B se lee por fila, P por columna y n en la intersección de la fila-columna (siempre despreciando la tasa de muestreo):
P B ± 0.005 ± 0.01 ± 0.02 ± 0.03 ± 0.04 ± 0.05
0.05
7600 1900 475 211 119 76
0.10
0.20
0.30
0.40
0.50
14400 3600 900 400 225 114
25600 6400 1600 711 400 256
33600 8400 2100 933 525 336
38400 9600 2400 1066 600 384
40000 10000 2500 1111 625 400
Una simple observación de la tabla nos deja ver que para una misma precisión los tamaños de muestra varían fuertemente a medida que la proporción en la población se acerca al 50%. Por ejemplo, el tamaño de una muestra para P cerca del 5% con una precisión de B = 0.005 es aproximadamente 5 veces menor que para un P cercano al 50%, con la misma precisión. 6.2
MUESTREO SISTEMÁTICO Este método de muestreo es ampliamente utilizado, principalmente, porque simplifica el proceso de selección. Suponga que se seleccionará una muestra de tamaño n de una larga lista. Una manera simple de efectuar esta selección es eligiendo un intervalo apropiado y elegir un elemento a intervalos iguales a lo largo de la lista. Así, cada cierto número de elementos, uno es seleccionado. Si el punto de partida de esta selección es aleatorio, la muestra resultante es una muestra sistemática. 48
En otras palabras, una muestra obtenida mediante la selección aleatoria de un elemento de los primeros k elementos en un marco y por la sucesiva selección de cada k-ésimo elemento, es llamada una muestra sistemática de 1 en k, con inicio aleatorio. El muestreo sistemático es una alternativa útil, comparada con el muestreo aleatorio simple, por las siguientes razones: Es más fácil de ejecutar en campo, por eso está menos sujeto a los errores de selección cometidos frecuentemente por los entrevistadores, especialmente si no se dispone de un buen marco. Proporciona mayor información por costo de obtención de observaciones que el que proporciona el muestreo aleatorio simple. El éxito del muestreo sistemático con relación al muestreo aleatorio simple o aleatorio estratificado, depende mucho de las propiedades de la población. En algunas poblaciones el muestreo sistemático es extremadamente preciso y en otras resulta menos preciso que el muestreo aleatorio simple. Es difícil dar un consejo general respecto a las situaciones donde se aconseja el muestreo sistemático. Es necesario conocer algo sobre la estructura de la población para usarlo de manera efectiva: Población aleatoria Una población es aleatoria si sus elementos están ordenados al azar. Se espera que los elementos de una muestra sistemática seleccionados de una población aleatoria, sean heterogéneos. El muestreo sistemático en este caso es equivalente al muestreo aleatorio simple. Población ordenada Una población es ordenada si los elementos dentro de la población están en magnitud de acuerdo con algún esquema. Una muestra sistemática de una población ordenada es generalmente heterogénea, pero proporciona más información que una muestra aleatoria simple debido a que el estimados de la selección sistemática presenta menor variabilidad que el de la selección aleatoria simple. Población periódica Una población es periódica si los elementos de la población tienen variación cíclica. Se espera que los elementos de una muestra sistemática extraída de 49
una población periódica sean homogéneos si el valor de k coincide con la amplitud de los períodos. Por lo tanto, en este caso el muestreo sistemático proporciona menos información por unidad de costo, que el muestreo aleatorio simple. 6.3
MUESTREO ESTRATIFICADO Uno de los propósitos del diseño de la muestra es maximizar el monto de información (o minimizar el límite para el error de estimación) para un costo dado. El muestreo aleatorio simple, el diseño básico del muestreo, frecuentemente provee buenas estimaciones de las características de la población a bajo costo. El muestreo estratificado, en muchas ocasiones, incrementa la cantidad de información para un costo fijo. Una muestra aleatoria estratificada es aquella que se obtiene por la separación de los elementos de la población en grupos que no presenten traslapes, llamados estratos, y la selección de una muestra aleatoria simple de cada estrato. Las principales razones para utilizar la estratificación son las siguientes: La estratificación puede producir un límite para el error de estimación más pequeño que el producido por una muestra aleatoria simple del mismo tamaño. Este resultado es particularmente cierto si las mediciones dentro de cada estrato son homogéneas. El costo por la obtención de las observaciones puede ser reducido por la estratificación de los elementos de la población en grupos convenientes. Pueden obtenerse estimaciones de los parámetros poblacionales de interés para ciertos subgrupos de la población. Tales subgrupos deben ser estratos identificables. Esas tres razones deben tenerse en mente cuando estamos decidiendo si utilizamos o no la estratificación, e incluso en la definición de los estratos. El primer paso en la selección de una muestra aleatoria estratificada es, claramente, la especificación de los estratos. Cada unidad muestral es ubicada en su respectivo estrato, lo cual nos lleva a identificar las características que definen los estratos. Después de que las unidades muestrales han sido divididas en estratos, seleccionamos una muestra aleatoria simple de cada estrato. Debemos asegurarnos que la selección de unidades de un estrato no dependa de la selección de 50
unidades de otro estrato, para lo cual es recomendable seleccionar por separado en cada estrato. ESTIMACIONES Cuando se está interesado en una estimación de un promedio y poblacional y si se empleó un MAS en cada estrato, la media ponderada de los promedios muéstrales es: L Nh y E y h h 1 N
Aquí, Ni /N = Wh, es el peso que representa la importancia del estrato h en términos de elementos en la población. Una estimación de la varianza para el promedio viene dada por: L
Vˆ ( y E ) Wh2 h 1
s h2 N h nh nh N h
Donde, (Nh – N)/Nh = 1- fh, fh, es la fracción de muestreo en el estrato h. nh, es el tamaño de la ,muestra en el estrato h. s²h, es la dispersión estimada en el estrato h. ASIGNACION DE LA MUESTRA
Una consideración importante a tener en cuenta en el muestreo estratificado es la forma en que el tamaño total de la muestra se reparte en cada uno de los estratos. Esto se puede hacer en forma proporcional o no. Con la asignación proporcional, la muestra que se fija a cada estrato es proporcional al número total de unidades en el estrato. Si Nh es el tamaño del estrato h, y nh el tamaño de la muestra en el estrato h, en una muestra estratificada proporcional se tiene:
51
nh/n = Nh/N , lo que equivale a: nh = (Nh/N).n para cada estrato. De esta igualdad se deduce que las fracciones de muestreo en cada estrato, fh, son iguales a la fracción de muestreo total f, f = n/N = nh/ Nh La asignación óptima se usa para incrementar las fracciones de muestreo en aquellos estratos en los cuales las dispersiones de las variables (desvíos estándar) son relativamente mayores y para disminuirlas en los estratos en los cuales el costo de una entrevista es relativamente mayor. Si se ignoran las consideraciones de costo diferenciales por entrevista entre los estratos, se tiene la asignación de Neyman, fijando como tamaño en cada estrato para cada muestra de tamaño n a: nh= n (Nh Sh) / ∑ Nh Sh
52
3. ELABORACION DE CUESTIONARIOS
53
1.
Introducción
El logro de los objetivos de una encuesta se basa en gran medida en la disposición de los informantes a colaborar, así como en la calidad de los datos que proporcionan. De manera que la etapa del diseño del cuestionario se puede considerar como una de las más críticas en la planeación de una encuesta por muestreo, ya que su aceptación por parte de los informantes está condicionada a disponer de un instrumento de fácil entendimiento y estructurado en términos lógicos. Un cuestionario bien redactado y ordenado atrae la atención del informante y facilita su relación con el entrevistador. El cuestionario es el instrumento que permite conducir la entrevista y evita que el empadronador elija el orden y redacción de las preguntas, o las categorías de respuesta. A su vez, establece el flujo adecuado de las preguntas e identifica a las subpoblaciones de interés en cada tema. Por otra parte, para facilitar su manejo en campo el cuestionario debe tener un formato adecuado y ser resistente a las inclemencias climáticas y al constante manoseo de que son objeto. Dado que el cuestionario representa la expresión operativa de los objetivos de la investigación, su diseño debe guardar estrecha relación con los demás componentes de la encuesta. Por ende, es muy recomendable que su confección esté a cargo de un equipo interdisciplinario integrado por especialistas en los temas de la encuesta, diseño estadístico, enfoque conceptual, personas con experiencia en el trabajo de campo y los encargados del procesamiento de datos, entre otros. Es importante tener conciencia que las personas que redactan el cuestionario no son las mismas que van a responder la entrevista, por lo que se debe pensar siempre en los informantes al momento de formular las preguntas. En este sentido, deben omitirse al máximo los tecnicismos y las palabras de uso poco frecuente ya que su inclusión seguramente contribuirá a generar confusión y a desestimular la participación de los entrevistados. El buen conocimiento del tema a investigar, así como las consultas a los usuarios, facilitan una apropiada redacción de las preguntas. Asimismo, las pruebas de campo a unidades con una marcada diferencia entre estas, permiten afinar la redacción y ayudan a percibir la aceptación de los informantes y su disposición a colaborar. No siempre una redacción detallada genera mejor información que las preguntas breves y directas. Sin embargo, por lo general un desglose amplio de las opciones de respuesta constituye un mecanismo adecuado para ganar en precisión y reducir las omisiones. 54
El diseño físico del formulario puede basarse en un formato que registre en una primera parte información de carácter general como el nombre de la encuesta, el organismo que la ejecuta, las disposiciones legales que amparan su aplicación, el número de folio e información de control que permita determinar con facilidad la ubicación geográfica de la unidad de observación, el tiempo de duración de la visita a la unidad informante y el resultado final de la entrevista. A continuación, es aconsejable incorporar preguntas que informen sobre las características básicas de las unidades de observación. Así, en el caso de las encuestas de hogares se puede registrar, entre otras, las características de la vivienda y el número de hogares que la componen, sus materiales de construcción, la disponibilidad de servicios básicos y el equipamiento doméstico. La segunda parte del formato se puede destinar a consignar información general sobre los miembros del hogar que permita una primera clasificación de la población objeto de estudio para iniciar el registro de datos sobre los temas centrales de la investigación. Finalmente, las preguntas relacionadas con el o los temas específicos de la encuesta deberán estructurarse conforme a una lógica simple, donde los aspectos de carácter general antecedan a las preguntas más puntuales sobre los tópicos de interés. Los primeros cuestionamientos deben ser breves y fáciles de responder, a fin de que el entrevistado adquiera confianza e incremente su interés por participar. Asimismo, las preguntas comprometedoras o íntimas se debieran ubicar de la mitad del cuestionario hacia adelante, para aplicarlas una vez que el entrevistador haya establecido una relación de confianza con el informante. En todos los casos el cuestionario debiera disponer de suficiente espacio en blanco para que el entrevistador pueda hacer las aclaraciones pertinentes que ayuden a los responsables de la crítica y codificación a entender el porqué se registró esa información. 2.
Variables. Clasificación y Atributos Cuando se inicia una investigación en la que se obtiene datos, hay que tener presente que se va a manejar una cantidad, mayor o menor, de ellos que no son mas que, en general, una representación de la realidad que se pretende analizar. Este paso de la realidad a los datos exige un proceso de abstracción, por lo cual trataremos de adecuarnos al lenguaje que la estadística utiliza, que no es otro que el matemático. Así, el primer paso en este proceso de abstracción consiste en relacionar el fenómeno que estamos estudiando con los conceptos de “variable” y “atributo”. 55
2.1 Variable Cuantitativa Se denomina “variable” o “variable cuantitativa” a cualquier fenómeno susceptible de ser concretado en términos numéricos. Ejemplos conocidos pueden ser: la estatura o el peso de las personas, el número de habitantes de los países, el número de hijos de las familias, la propia superficie de los departamentos, etc. Los resultados obtenidos al medir este tipo de fenómenos reciben el nombre de “valores”. Los valores cuantitativos se clasifican según distintos criterios, adquiere especial relevancia aquel que clasifica las variables en dos grupos. a. Variable Discreta.- Definida como aquella que únicamente puede tomar un número finito de valores dentro de un intervalo finito, o infinito numerable. Por ejemplo: El número de hijos de una familia, o el número de alumnos de una clase. b. Variable continua.- la que puede tener los infinitos valores dentro del intervalo finito o infinito en el que esta definida. Por ejemplo, la estatura, el peso, el tiempo, en este caso dados dos valores cualesquiera de las mismas, siempre será posible encontrar valores intermedios entre ambos, recurriendo a la utilización de instrumentos de medida con mayor precisión 2.2 Variable Cualitativas Se denomina “variable cualitativa, atributo o factor” al fenómeno que no puede ser expresado en términos numéricos; los diferentes resultados se denominan “modalidades, caracteres o niveles”. Ejemplo de este tipo de fenómeno serian: el sexo, partido político, nivel de estudios, etc. El atributo más simple es aquel que sólo presenta dos modalidades (variable cualitativa dicotómica), que aparece fundamentalmente, además de en el típico ejemplo del sexo, cuando se analizan los fenómenos para los que únicamente cabe dos tipos de respuesta, Si/No, favorables/desfavorables, presencia/ausencia o cualquiera de sus variantes.
56
2.3 Escalas de Medidas Un tipo de clasificación de variables o factores, de gran importancia desde el punto de vista estadístico, es el que hace referencia a las propiedades métricas de las escalas en las que se presentan nuestros datos. Desde este punto de vista es posible distinguir las siguientes escalas. 2.3.1 Escalas Métricas o Variables Cuantitativas a. Escalas numéricas o de proporciones Son las escalas métricas más perfectas. Tienen un origen, el cero, con un sentido real e invariable, por ejemplo, el 0 en ingresos significa total ausencia de ingresos. Los intervalos entre números tienen un significado y se pueden hacer comparaciones. Así, un ingreso de 2000 nuevos soles significa que es dos veces un ingreso de 1000 nuevos soles. En estas escalas esta definida una unidad de medida elemental; por ejemplo, nuevos soles. Sobre medidas de este tipo se pueden efectuar todas las operaciones matemáticas clásicas: suma, resta, multiplicación y división, y las operaciones estadísticas media, varianza, moda, coeficiente de correlación, etc. . Son las escalas que mayores propiedades tienen, pero son poco frecuentes en algunos tipos de investigación, como en la investigación de mercados o comercial; por ejemplo: precios, cantidades de stocks, nivel de ingresos, volumen de rentas, etc. b. Escalas de Intervalos En este tipo de medidas no existe un cero natural, pero la distancia entre dos elementos sigue teniendo un significado como ocurre con la temperatura; 0 no tiene más significado que el de ser origen de una escala; no significa ausencia de temperatura, pero la distancia entre 3 y 5 tiene el mismo valor que la distancia entre 7 y 9. Como las escalas métricas, tienen una unidad de medida. Incrementos iguales en la escala representan incrementos iguales en la cantidad de atributo medido. Por el contrario, la relación entre dos valores A y B no es independiente de la unidad e medida, Si B=2A no implica que B posea el doble que A de la característica estudiada. También como en las escalas métricas, las de intervalo permiten utilizar casi todas las operaciones estadísticas para analizar los resultados (media, desviación, coeficiente de correlación, test 57
paramétricos, etc.) Estas escalas se usan con frecuencia en marketing para medir las actitudes; por ejemplo una escala de deseo de compra con diez categorías del 1 al 10. Así, diremos que personas con notas respectivas 4 y 6 diferirán en deseo de compra en el mismo grado que dos personas con notas de 8 y 10, pero la de 8 no tiene el doble de deseo de compra que la de 4, Aunque, en general, es poco dudoso que los intervalos entre categorías sean exactamente iguales, la diferencia no será lo bastante grande como para impedir que se trate de una variable de intervalo. 2.3.2 Escalas de Orden o Variables Cualitativas a. Escalas Ordinales Se obtienen jerarquizando los objetos, colocándoles en un orden relacionado con el grado en que poseen la característica o variable medida. Se utilizan mucho en encuestas de opinión, marketing, para codificar las preferencias de los preceptores o consumidores; así por ejemplo, si un entrevistado ordena seis marcas de tabaco según sus preferencias, obtendríamos A-1, B-2, E-3, F-4, C-5, D-6. Esto no significa que la marca D guste el doble que la E; ni siquiera que la diferencia entre A y B sea la misma que entre E y F. Simplemente señala un orden de preferencia. La distancia entre códigos continuos no es constante ni tiene el mismo significado para todo el mundo. Las operaciones que se pueden efectuar con estas variables son más limitadas que las anteriores. Se basan en relaciones de orden, mediana, coeficiente de correlación de rangos, etc. b. Escalas Nominales Se asocian los objetos a categorías o conjuntos mutuamente excluyentes. A cada conjunto se le asigna un número; por ejemplo, la variable sexo, puede tomar dos valores: mujeres = 1, varón = 2. Estos números son únicamente un identificador, pues no existe siquiera una relación de orden entre ellos. El número sólo indica la pertenencia a una clase. Si los objetos tienen el mismo número pertenecen a la misma clase, son equivalentes. Este tipo de variable es muy usada en diferentes investigaciones: sexo, zona geográfica, profesión, estado civil, etc. Un caso 58
particularmente interesante de variables nominales es el de las dicotómicas o binarias. Se trata de variables de presencia o ausencia, éxito o fracaso y se suelen codificar con el 0 o el 1, así por ejemplo, al comprador se le asigna el 1 y al no comprador el 0. Las únicas operaciones que se pueden efectuar con las variables nominales están basadas en la relación de equivalencia: frecuencias, moda, tablas de contingencia, etc. 2.3.3 Relaciones entre las Escalas Los cuatro tipos de escalas están ligadas por una relación de jerarquía desde las escala métrica, que posee mayores propiedades, hasta la nominal, la menos operativa. De las escalas métricas se puede pasar a las de intervalo, a las de orden y a las nominales. Así, por ejemplo, la edad se puede asociar con una variable métrica (edad, un número exacto), a una variable de intervalos (la clase o grupo de edad), a una variable de orden (clases de edad representados por un ordinal) y nominal (grupo de jóvenes y de no jóvenes). 3.
Etapas en la Elaboración de un Cuestionario 3.1
Selección y definición de las variables Debemos conocer cuáles son las variables que queremos incluir en nuestro estudio y saber de forma explícita y unívoca qué representan. Esto facilitará enormemente la construcción del cuestionario y el posterior análisis e interpretación de los datos. El primer paso es seleccionar las variables. Con los objetivos y las hipótesis concretas delante de la mesa de trabajo, hay que elaborar una lista de las variables que queremos medir, explicitando la denominación y definición de cada una de ellas de la forma más clara posible. Una vez que sabemos cuáles son las variables que intervendrán en nuestro estudio, habrá que establecer su tipo y definir para cada una de ellas los valores, escalas de medida y categorías que pueden tomar. Por último, es preciso señalar que puede ser interesante utilizar una plantilla para facilitar esta tarea de definición de variables. En ella se registrarán los siguientes datos: el nombre de la variable, una explicación de lo que mide la variable, los objetivos perseguidos, el tipo de variable (cuantitativa continua, discreta, cualitativa), los valores que puede tener la variable (categorías para las cualitativas; escala y límites para las cuantitativas).
59
3.2
Diseño del cuestionario Debemos señalar que no es posible crear una receta para diseñar o elaborar un cuestionario. Sin embargo, sí es posible dar algunos consejos prácticos para evitar grandes errores. En el momento del diseño del cuestionario hemos de plantearnos una serie de cuestiones: definición del tipo de cuestionario que vamos a utilizar; valoración del tipo de preguntas que debemos incluir; adopción de un criterio adecuado de codificación de las preguntas para el posterior tratamiento de éstas; elección de un tamaño representativo de la muestra sobre la que se pasará el cuestionario, etc. 3.2.1 Tipología de cuestionarios La variedad de cuestionarios que se pueden elaborar es muy amplia. Una clasificación muy interesante es la que parte del grado de concreción de las preguntas. En este sentido se puede hablar de cuestionarios estructurados, semiestructurados y no estructurados. Nosotros nos vamos a centrar en el primero, por ser el más utilizado dentro de los estudios de evaluación. 3.2.2 Tipos de preguntas en el cuestionario y su redacción A la hora de desarrollar las preguntas del cuestionario que estemos diseñando, se plantean dos problemas: cómo preguntar y qué tipo de preguntas se han de elegir para el estudio. Como respuesta al primer interrogante podemos afirmar, de modo general, que la calidad de una investigación se encuentra condicionada en gran medida por lo acertado que sea el diseño de las preguntas del cuestionario. Si éstas están mal definidas, son ambiguas, o no responden a la naturaleza del análisis, los resultados obtenidos serán estériles. Como se puede observar, preparar un cuestionario resulta más difícil de lo que parece a simple vista. En líneas generales, podemos formular unas reglas básicas para su confección, que serán ampliadas a lo largo de este apartado dedicado al diseño:
60
Decálogo para la confección de preguntas Si se quieren respuestas concretas las preguntas deben ser concretas. No deben hacerse preguntas que contengan potencialmente las respuestas. Las preguntas que admiten varias respuestas deben ser definidas cuidadosamente. El número de categorías de las respuestas es también muy importante. Raramente son necesarias más de 5 ó 7 categorías en preguntas de actitud o de opinión. Cuando sean necesarias más categorías, es preferible desglosar la pregunta en varias con menos categorías cada una. Las preguntas deben ser neutrales. No deben incorporar juicios, opiniones o valoraciones. El encuestado no debe esforzarse en recordar ante lo que conviene facilitar su memoria. El orden del cuestionario deberá ser lógico. Las preguntas deben hacerse por temas afines y en orden de dificultad creciente. Las preguntas más sencillas han de ir al principio del cuestionario. El orden de las preguntas no debe afectar a las respuestas. Los identificadores del encuestado deben ir al final del cuestionario. Se ha de explicitar el recorrido del cuestionario, que ha de depender del tipo preguntas, de las respuestas a las preguntas, etc.; teniendo como finalidad indicar cuándo se deben efectuar las preguntas, en qué orden, y otra información semejante. Tipos de Preguntas Respecto a los tipos de preguntas a formular, podemos afirmar que, básicamente, sólo hay dos tipos de preguntas: abiertas y cerradas. No obstante, existen muchas variaciones de éstos tipos elementales. Describimos a continuación algunos de los tipos más utilizados. Tipos de preguntas en un cuestionario Preguntas Abiertas Preguntas abiertas básicas. Preguntas de seguimiento: - Preguntas de profundización - Preguntas de clarificación
Preguntas Cerradas Preguntas de respuestas dicotómicas y múltiples. Preguntas de escalas de medición de actitudes y respuestas.
61
a)
Preguntas abiertas (no estructuradas). En este tipo de preguntas abiertas es el usuario encuestado quien responde con sus propias palabras a la pregunta formulada. Son esenciales para conocer el marco de referencia del encuestado y para redactar después las alternativas a ofrecer en las preguntas cerradas. Por ello resultan oportunas y adecuadas en el caso de estudios exploratorios o pre-encuestas (encuestas-piloto o sondeos previos) Existen dos tipos fundamentales para esta categoría de preguntas: las básicas, usadas para recoger información con un mínimo de indicaciones para el encuestado (Ver Ejemplo1) y las de seguimiento, en las que distinguimos entre preguntas de profundización (Ver Ejemplo 2) y de clarificación (Ver. Ejemplo 3).
Ejemplo 1 ¿Qué opinión le merece la biblioteca?........................................................................ ¿Posee carné de biblioteca?
Sí
No
En caso afirmativo, indique el nombre de dicha biblioteca(s)
Ejemplo 2 ¿Qué otros servicios de la biblioteca utiliza? .............................................................. ¿Qué más le gusta de la Biblioteca? ............................................................................. Ejemplo 3 ¿Qué quiere decir exactamente cuando afirma que era difícil de manejar la base de datos? ...................................................................................................................... ¿Puede explicar qué quiere decir con eso?..................................... 62
b)
Preguntas cerradas (estructuradas). Se trata de un tipo que sólo contiene la pregunta y no establece previamente ninguna clase de respuesta, dejando ésta, por tanto, al libre arbitrio del encuestado. Para esta categoría presentamos dos modelos básicos de preguntas, cada uno con sus variaciones: preguntas dicotómicas-múltiples y preguntas de escalas. Preguntas de respuestas dicotómicas y múltiples: Las primeras constituyen uno de los tipos más básicos de preguntas, al ser éstas fáciles de formular, contestar y tabular. En ellas, la información se subdivide dicotómicamente en dos categorías (Ver Ejemplo 4). Las preguntas de respuestas múltiples se emplean cuando la alternativa de respuesta para la pregunta es superior a dos. Este último tipo de preguntas aseguran que todos los encuestados respondan en la misma dimensión (Ver Ejemplo 5).
Ejemplo 4 ¿Utiliza la biblioteca de su centro como lugar de trabajo, es decir, para trabajar con sus propios apuntes, libros, etc., al margen de los servicios que en ella se prestan? (Utilice una sola 0respuesta). Sí
No
Ejemplo 5 ¿Cuáles de los siguientes servicios que existen en la Biblioteca ha utilizado en su visita de hoy a la Biblioteca?: ( Marque todas las posibles respuestas) Servicio de lectura en sala Servicio de préstamo a domicilio Servicio de información bibliográfica Servicio de fotocopias de la biblioteca Servicio de préstamo interbibliotecario Servicio de atención al usuario Servicio de microfilm o microfichas Servicio de formación de usuarios Servicio de acceso a bases de datos
63
Preguntas de escalas de medición de actitudes y respuestas: Las escalas son instrumentos de medida que se basan en la idea de clasificación, aprovechando a la par las propiedades semánticas de las palabras y las características de los números. Existen diferentes tipos que reflejan distintos niveles de medida. No obstante, para medir la percepción de los usuarios de información contamos con escalas de variables cuantitativas (escalas métricas numéricas y de intervalos (Ver Ejemplo 6) y escalas de variables cualitativas (distinguimos varios tipos de escalas cualitativas: escalas de categorías detalladas (Ver Ejemplo 7), escalas de valores (Ver Ejemplo 8), escalas de jerárquicas (Ver Ejemplo 9), escalas de importancia (Ver Ejemplo 10), escalas de suma constante (Ver Ejemplo 11), escala Likert (Ver Ejemplo 12), y escala de diferenciales semánticos (Ver Ejemplo 13) Ejemplo 6 ¿Cuánto tiempo hace que visita la biblioteca?: Más de diez años ( ); de cinco a diez años ( ); de uno a cuatro años ( ); menos de un año ( ); hoy es la primera vez ( ). Ejemplo 7 El trato que recibo del personal de la biblioteca: Me gusta [ ] 2
[ ] 1
[ ] 0
[ ] -1
[ ] –2
No me gusta
Ejemplo 8 El servicio de préstamo es: Pésimo (1); (6).
Malo (2);
Normal (3);
Bueno (4);
Excelente (5);
NS/NC
64
Ejemplo 9 Ordene la siguiente lista de bibliotecas de 1 a 8 según el grado de utilización, siendo 1 la que más utiliza y 8 la que menos. Deje, por favor, sin numerar las bibliotecas que no utiliza. Biblioteca de mi centro Bibliotecas de otras Facultades o Escuelas universitarias Biblioteca General Universitaria Biblioteca de Departamentos Bibliotecas de Institutos o Seminarios de estudios Univ. Bibliotecas de otras universidades Bibliotecas Públicas Bibliotecas especializadas
Ejemplo 10 El servicio que prestan las bibliotecas públicas a la sociedad es:
Nada importante (1); Poco importante (2); Indiferente (3); Importante (4); Muy importante (5).
Ejemplo 11 El servicio que prestan las bibliotecas públicas a la sociedad es: Nada importante (1); Poco importante (2); Indiferente (3); Importante (4); Muy importante (5).
Ejemplo 12 Consiste en distribuir una puntuación entre unos determinados atributos. Por ejemplo se podrían repartir 100 puntos entre tres atributos del servicio de referencia de una biblioteca especializada. La pertinencia de los resultados de una consulta podría tener 60 puntos, 30 puntos la exhaustividad y 10 puntos la rapidez en obtener los resultados de la consulta.
65
Ejemplo 13 Para cada proposición indicar si está: muy de acuerdo (1), algo de acuerdo (2), apenas de acuerdo (3), no está de acuerdo ni en desacuerdo (4), apenas desacuerdo (5), algo en desacuerdo (6), fuertemente en desacuerdo (7) o NS/NC (8): 1
2
3
4
5
6
7
8
Horario de la biblioteca La cantidad de fondos La variedad de la colección Etc.... Ejemplo 14 Coloque una cruz en el espacio que mejor represente su opinión al respecto de la colección de la biblioteca. Anticuada Deteriorada
c)
Moderna Bien Conservada
Preguntas Especiales Existen otros tipos de preguntas que tienen funciones especiales dentro del cuestionario, que constituyen mecanismos especiales de indagación o sirven a distintos fines de información. A continuación se describen estos tipos de preguntas. Preguntas Filtro: son preguntas cerradas, con pocas opciones (normalmente son preguntas dicotómicas) de cuyas respuestas depende hacer o no preguntas posteriores. En definitiva, este tipo de preguntas constituyen una bifurcación en el cuestionario. Preguntas de Control: suelen utilizarse frecuentemente en los cuestionarios con el objeto de comprobar la veracidad y la coherencia de las respuestas que se han dado anteriormente. Incluyen respuestas falsas o con alguna trampa al objeto de que el encuestado se percate de ella. Preguntas de Consistencia: son preguntas similares a las de control que tienen por objeto comprobar la consistencia de las respuestas del entrevistado. Se trata de preguntas similares,
66
pero redactadas de distinta forma, que se sitúan espaciadas entre si para ver si las respuestas de ambas son congruentes. Preguntas de Introducción: o de contacto, son las que se hacen para iniciar el cuestionario o para pasar de un tema a otro al objeto de crear un clima de confianza e interés en el entrevistado. Redacción de las preguntas Con respecto a la redacción de las preguntas, en general una pregunta bien formulada es aquella que: a. No ejerce influencia en el sentido de la respuesta b. No incita a una respuesta inexacta que no corresponda a la información buscada.
En este sentido, existen una serie de reglas o recomendaciones fundamentadas en el sentido común y en la simple experiencia que deben tenerse presentes en la formulación de las preguntas y que a continuación se detallan:
Debe utilizarse un lenguaje accesible, que se entienda, es decir, el vocabulario ha de ser sencillo, directo, y familiar. No hay que olvidar que salvo estudios específicos, las preguntas van dirigidas a personas de la más diversas clases sociales y formación y consecuentemente hay que tenerlo en cuenta excluyendo la utilización de palabras o conceptos difíciles.
No se deben utilizar palabras o frases ambiguas que puedan tener distintas interpretaciones. Así por ejemplo, el término “frecuentemente” en la utilización de un producto puede significar todos los días, dos o tres veces en la semana, etc.
Las preguntas deben ser neutras o imparciales, evitando que de alguna forma pueda estar implícita una determinada respuesta. Por ejemplo, a la pregunta ¿esta usted a favor de que el Ayuntamiento de Las Palmas cree mas zonas verdes en la ciudad? La totalidad de los entrevistados contestaran positivamente y estas respuestas no coincidirían si la pregunta se formulara de la siguiente forma: ¿esta usted a favor de la creación de mas zonas verdes en la ciudad aunque ello suponga un
67
incremento de los impuestos por parte del Ayuntamiento Las Palmas?.
Se deben evitar la utilización de palabras cargadas de ciertas connotaciones, puesto que en muchas ocasiones una pregunta formulada de una determinada forma puede sugerir la respuesta en una determinada dirección.
No se deben incluir preguntas que sean difíciles de contestar o requieran cálculos, o esfuerzos memorísticos por parte del encuestado y probablemente no los recuerde todos, es preferible enumerarle las posibles respuestas (productos, servicios, etc.) y preguntarle si los utiliza o no.
Tampoco deben formularse preguntas de doble efecto, es decir preguntas cuya redacción pueda implicar una doble respuesta.
Las preguntas no deben ser excesivamente largas ya que los cuestionarios deben ser fluidos y con preguntas cortas en donde se pueda imponer un ritmo de preguntas y respuestas que no aburran al encuestado ni al encuestador. Cuando este ritmo se altera con una pregunta cuyo texto es excesivamente largo o repetitivo, la conversación pierde dinamismo e incide negativamente en el desarrollo de la entrevista.
La redacción de las preguntas debe invitar a colaborar, debe formularse de forma amable, natural, y con un lenguaje normal. El entrevistado no debe tener la sensación de estar sometido a un examen, por lo que el cuestionario tiene que diseñarse de forma que entre el encuestado y el encuestador se produzca una situación lo más parecida a una conversación normal.
Hay preguntas que se refieren a temas delicados o sensibles que puedan poner al entrevistado en una situación embarazosa o preguntas que tienen un elemento de prestigio o adhesión a normas socialmente aceptadas, que generalmente dan lugar a respuestas con un alto índice de parcialidad. Para evitar los posibles riesgos que puedan producirse en este tipo de preguntas o renuncias del encuestado a contestarlas se han desarrollado diferentes procedimientos para obtener respuestas más exactas:
A través de enunciados contrarrestados que consisten en iniciar la pregunta con una afirmación que sugiere que el comportamiento en cuestión es común entre la población, y posteriormente, formularle la pregunta. 68
Por medio de enunciados indirectos, por ejemplo formulando la pregunta sensible pero referida a otras personas, ya que supone que el comportamiento o la actitud del encuestado se vera reflejada en la respuesta.
Realizando la pregunta con tarjeta de forma que el encuestado responda con el número que hace referencia a la respuesta en la tarjeta.
A través de baterías de preguntas que nos permitan acercarnos al tema de una forma indirecta.
3.2.3 La codificación en el cuestionario La finalidad de la codificación es facilitar la operación de contar y analizar las respuestas dadas por la muestra que ha sido encuestada. Un cuestionario bien codificado debe contener la información exacta con respecto a las variables. Por tanto, la codificación permite saber, una vez recogidos los datos, el número total de variables a analizar y su ubicación exacta en la matriz de datos. Por consiguiente, la formalización del cuestionario es fundamental para garantizar la calidad de las respuestas y del proceso de codificación. En los cuestionarios que rellena directamente el encuestado (no hay entrevista) hay que adoptar un formato claro que facilite su cumplimentación al máximo. En estos casos es mejor no complicar la respuesta haciendo que el encuestado codifique directamente cada respuesta en una casilla aparte; poner una cruz al lado de la opción seleccionada para las preguntas cerradas y dejar unas líneas para contestar es la mejor solución. Un cuestionario complejo de responder, que requiere muchas explicaciones para su cumplimentación, repercute negativamente sobre el nivel de respuesta. Respecto a los métodos de codificación señalamos dos alternativas, en función de sí las preguntas son cerradas o abiertas. Para las preguntas cerradas hemos de asignar un valor numérico a cada posible categoría de respuesta. Cada pregunta o variable ocupa un espacio físico (columnas) en la matriz de datos. En el caso de las preguntas abiertas, hay que hacer la codificación después del trabajo de campo a través de un análisis de contenido. No obstante, hay que prever el espacio físico que ocupa la variable en la matriz de datos (generalmente dos columnas y, por tanto, más de 9 categorías posibles de respuesta). La matriz de datos viene determinada por: N sujetos (filas) x P variables (columnas). 69
3.2.4 Estructura del cuestionario Al redactar las preguntas hay que tener especial cuidado en el orden en que se incluyen en el cuestionario, ya que la secuencia de las preguntas puede influir en la naturaleza de las respuestas del encuestado y, por consiguiente, sesgarlas. Para ello existen una serie de pautas generales que pueden ser muy útiles en la estructuración del cuestionario:
Al inicio del cuestionario se debe incluir una presentación solicitando la cooperación del encuestado y especificando los objetivos de la investigación, quien la realiza y una declaración explícita de que la información que se facilita tendrá un tratamiento global, ya que la garantía de anonimato de un cuestionario es fundamental para crear una buena disposición a contestar.
La primera pregunta debe ser de carácter general, sencilla y potenciadora del interés del encuestado. En ocasiones esta pregunta de carácter introductorio no se relaciona con las necesidades de información de la investigación, ya que su único objetivo es lograr la cooperación del encuestado y establecer una relación de armonía con el.
Las preguntas de tipo general deben preceder a las preguntas mas especificas.
Generalmente las preguntas más sencillas deben ir al principio del cuestionario, reservando las mas comprometidas para el final y dejar el espacio intermedio para las mas substantivas e importantes de la investigación. Es decir, las preguntas menos problemáticas deben formularse inicialmente y de forma gradual se introducirán las preguntas más complejas y personales.
El flujo en el proceso de las preguntas debe ser lógico de acuerdo con la perspectiva del encuestado y, al mismo tiempo, las preguntas deben agruparse en función de su temática para evitar el desconcierto del entrevistado haciendo preguntas relativas a un mismo tema en diferentes fases de la entrevista.
Los datos de identificación del encuestado, utilizados como variables de análisis y a nivel global para comprobar la fiabilidad de la muestra deben formularse al final del cuestionario.
70
3.2.5 Corrección del cuestionario Al diseñar un cuestionario hemos de asegurarnos la máxima exactitud de los datos. Ello dependerá de dos aspectos que se han de optimizar: la precisión o fiabilidad y la validez de la información. La validez, definida como la ausencia de sesgos, representa la relación entre lo que medimos y aquello que realmente queremos medir. Existen tres métodos para garantizarnos dicha evidencia. Los señalamos a continuación: El método relacionado con el contenido se centra en la muestra de las preguntas de un cuestionario (establecer el grado de representatividad de los contenidos recogidos en las preguntas del cuestionario) y lo que representa el completo dominio del contenido de las preguntas, por parte de los usuarios encuestados. El método relacionado con los criterios se centra en las relaciones estadísticas existentes entre las mediciones, para poder saber si los cuestionarios pronostican lo que deben pronosticar. El método relacionado con los factores está compuesto por los dos métodos anteriores y es un método guiado por la teoría, pues especifica aquello con que la medición debe o no relacionarse. La precisión, definida como la ausencia de error aleatorio, representa la influencia del azar en nuestra medida; es decir, es el grado en el que las mediciones están libres de la desviación producida por los errores causales. Además, la precisión de una medida es lo que asegura su repetibilidad (sí la repetimos, siempre da el mismo resultado). Existen diversos factores que afectan a la fiabilidad de los cuestionarios. Dos de ellos son el número de preguntas de los cuestionarios (debemos asegurarnos que contamos con un cuestionario que tiene múltiples preguntas que traten cada una de las categorías que estamos midiendo), y la muestra de usuarios sobre la que se calcula la estimación de la fiabilidad.
71
4. PROCESAMIENTO DE LA INFORMACION
72
CRÍTICA Y CODIFICACIÓN DE LA INFORMACIÓN La crítica consiste en revisar en oficina que los cuestionarios hayan sido diligenciados correctamente, que se hayan respetado por ejemplo los flujos (previamente estos cuestionarios deben haber pasado todos los controles inherentes a campo). Se deberá revisar por ejemplo si los números están legibles, revisar que las frases se entiendan. Así mismo ver la lógica de las respuestas, es decir, ir relacionando variables. Lo que se quiere en esta etapa es contar con la información más clara posible para facilitar el ingreso de datos. Si la información no esta completa y no se puede rescatar de la fuente primaria, este es un problema que se debe mencionar al realizar la presentación de los resultados. La codificación, consiste en que al contarse con respuestas verbales en gran volumen se hace necesario para su análisis transformarlas a algo “manejable“que es codificarlas para posteriormente procesarlas. Dicho en otras palabras la codificación es una tarea que involucra poner todas las respuestas obtenidas verbalmente o textualmente en códigos que sean entendidos por los que van a realizar el procesamiento y análisis. En esta etapa se definen los códigos validos para cada categoría de respuesta y sus correspondientes rangos, las subpoblaciones de interés para cada tema y las relaciones permitidas entre las variables. Las oficinas responsables de la administración de la encuesta deberán disponer de un grupo de técnicos con gran experiencia y profundo conocimiento de los temas investigados y de los alcances del cuestionario, encargados de evaluar la calidad de la información y la asignación de códigos a las preguntas abiertas que así lo requieran. Por ejemplo: Cuando se investiga el tema del empleo y se pretende codificar el tipo de ocupación que realizan los miembros del hogar es conveniente que esta pregunta no sea codificada en campo por que se pueden cometen mayor numero de errores, de allí que para lograr una información de calidad se solicita al entrevistador que describa la ocupación realizada por el entrevistado, para poder en gabinete asignarle el código apropiado para dicha ocupación. El proceso de codificación requiere: -
Revisar el 10% de todos los instrumentos recolectados y hacer una lista de las respuestas más comunes a cada pregunta abierta. Identificar las categorías que puedan establecerse 73
-
Elaborar la lista de los códigos asignando un numero o letra a cada categoría Agregar a la lista un código nuevo para cada idea nueva que surja durante la codificación Iniciar el proceso de codificación, que es el colocar el código al lado de cada pregunta.
Por otro lado la etapa de critica-codificación también permite evaluar el trabajo de los supervisores y representa otra instancia de control del trabajo de los encuestadores. Llevar registros apropiados y desarrollar actividades de actualización del personal son mecanismos que ayudan a reducir los errores ajenos al muestreo sobre todo en las encuestas permanentes y/o continuas. Entrada de Datos (digitación) La entrada de datos constituye el primer paso para la sistematización de la información. Consiste en colocar toda la información recolectada en papel en una base de datos1 computarizada que permita un manejo más ágil y optimo de la información. El desarrollo tecnológico y los programas disponibles permiten que esta etapa sea más simple que las practicas adoptadas en el pasado. Actualmente la capacidad de las computadoras personales y las facilidades para compartir recursos que brindan las redes locales han reemplazado a los antiguos “main frames”, que requerían de amplios espacios, ambiente especial y complicados lenguajes de programación. A su vez los modernos sistemas de digitación permiten el diseño de pantallas a imagen del cuestionario, la definición de criterios de validación, la verificación de información durante la captura de datos y la grabación en línea de los datos. Los tiempos de respuesta se han acortado y la mayor velocidad y capacidad de memoria permiten reducir los plazos para la depuración y procesamiento de la información. En el programa de entrada de datos se deben incluir las reglas de la crítica y consistencia, es decir, las relaciones lógicas, flujos y rangos de la relación entre variables del cuestionario, permitiéndose de esta forma detectar posibles errores e inconsistencias que no hayan sido corregidos en campo. A este tipo de programas se les denomina “Entrada de Datos Inteligente”. 1
BASE DE DATOS, es un archivo computarizado donde se almacena una serie de información. La creación de la base de datos consiste en definir la posición de todas las variables que están incluidas en el cuestionario.
74
Además también es conveniente que durante la digitación se apliquen métodos de muestreo por lotes para verificar la calidad de la información capturada para que de esta forma los datos antes de ser consistenciados tengan el mínimo de error posible. Así mismo evaluar el desempeño del personal encargado de la digitación. Se recomienda que el ingreso de datos sea realizado por personas con experiencia en este tipo de trabajo, ya que conlleva a una serie de ventajas como:
Mayor precisión del ingreso de datos Menor costo Mayor rapidez para obtener la información final
Para la ejecución de la entrada de datos el software mas usado para el caso de encuestas y censos por su operatividad es el ISSA-X, el cual permite la implementación de una serie de opciones (menús) que contribuyen en realizar un mejor Control de la Calidad de la información. Este sistema permite la Digitación, Modificación, Eliminación y Redigitación de los datos contenidos en los cuestionarios a través de un programa de entrada de datos inteligente que incluye consistencias, cruces de variables, doble digitación de variables cuantitativas y registra cada uno de los errores que el Digitador comete. Asimismo permite realizar las coberturas, generar los archivos para realizar la codificación automática, generar los indicadores de avance y calidad, emite listados para consistencia de información, realiza la imputación, genera indicadores de control de calidad y producción de la digitación, permite actualizar las tablas de uso general y proporciona los utilitarios para realizar los backup (copia de respaldo), restaurar archivos y realizar conversiones de archivos a diferentes formatos. Consistencia y Análisis de la Información Esta etapa se realiza al terminar la digitación de la unidad de trabajo, que puede ser lote, periodo, distrito, departamento, entre otros. Comprende al menos 2 etapas:
Análisis de consistencia interna
Validación de los resultados con encuestas sobre el mismo tema relacionado con el pasado, con otras encuestas que generen datos
75
sobre temas comunes, datos macroeconómicos, internacionales y registros administrativos.
estudios
El primer paso en la consistencia consiste en obtener frecuencias (marginales) para todas las variables de estudio, lo cual le permite tener una visión general de los resultados e identificar posibles errores que se encuentren en la base de datos. Los cuadros de frecuencias nos muestran en números absolutos y porcentajes cuantas veces una respuesta o categoría de variable a sido seleccionada. Las frecuencias son útiles pero no suficientes a la hora de realizar el análisis de la información, siendo necesario realizar cruces de variables, que nos permita examinar la relación entre las variables En la actividad de consistencia se pueden generar y revisar una serie de reportes como:
Cobertura, este reporte consiste debe identificar si se han digitados todos los cuestionarios que corresponden a la muestra aplicada en campo, es decir, indica las cuestionarios que faltan ser digitados, que estén duplicados o con identificación errónea. Además también nos permite identificar las preguntas omitidas (sin respuesta).
Variable Otros, consiste en la revisión de las preguntas donde existen las alternativas “Otros” para verificar que estas no correspondan a una alternativa precodificada.
Revisión de Marginales, Consiste en la revisión de valores extremos, estructuras porcentuales y flujos de las todas las preguntas de las cédulas en estudio.
Revisión de valores extremos de las Variables Numéricas (Análisis Exploratorio), consiste en la revisión de los variables numéricas como por ejemplo ingresos o gastos, se revisa solo los valores altos o bajos de estas preguntas. Esta revisión se puede realizar a través del Software Estadístico SPSS.
Revisión de cuadros básicos de análisis, a través de estos reportes se verifica si existen inconsistencias entre preguntas mediante el cruce de variables. Esta revisión se puede realizar a través del Software Estadístico SPSS.
76
Luego de consistenciada la información mencionados se procede a:
y revisados los reportes
Imputación, Es el proceso que asigna un determinado valor a las preguntas omitidas durante el diligenciamiento del cuestionario, es decir, sólo se imputan valores perdidos. Una de las técnicas que se puede emplear es la conocida con el nombre de “Imputación por Medias”, es decir, se construyen matrices de valores promedios para la asignación de datos faltantes y posteriormente se emiten los listados que contengan las identificaciones del registro de unidades imputadas, así como indicadores sobre el porcentaje imputado a nivel de cada pregunta.
Como se puede apreciar la actividad de Consistencia es fundamental ya que la calidad de la información no se puede calificar de manera exclusiva por la tasa de no-respuesta, o por la baja incidencia de preguntas sin respuesta o la rapidez para obtener los resultados. Los datos generados se consideraran de buena calidad y útiles para la toma de decisiones en la medida que guarden relación con el resto de cifras micro o macro del sistema nacional de información. Así mismo se podrán considera adecuados desde el punto de vista estadístico en la medida que el orden de su error absoluto y relativo este en un rango aceptable, el cual debió ser definido al momento de establecer los objetivos de la investigación.
Elaboración del Documento con Análisis Descriptivo de Resultados Al finalizar el análisis de la base de datos se debe elaborar un informe que contenga los resultados evaluados a través de un Informe Final Escrito. Dicho informe debe presentar los datos estadísticos en forma de cuadros o gráficos. Deben ser lo bastante general y especifico para responder a las necesidades de todo tipo de usuario, es decir, para aquellos que tengan preparación estadística formal y las que no tengan ninguna. El informe debe contener cualquier soporte analítico que se considere necesario para hacer más comprensibles los resultados de la encuesta y asegurar que se usen correctamente. Los datos deben estar presentados en forma clara, comprensible y estructurada (ordenada), así mismo se debe proporcionar las reglas concernientes a la estructura de los cuadros. 77
Al realizar la presentación de cuadros con cruces de variables se debe tener cuidado que dicho cuadro solo contenga los elementos que contribuyan a aclarar el punto principal que se esta tratando. Por consiguiente una posible estructura de un informe final deberá tener el contenido siguiente: -
La descripción de cada una de las actividades que involucro el desarrollo de la encuesta, cuales fueron sus características principales, que problemas se presentaron lo cual permita al usuario tener una visión amplia al realizar el análisis correspondiente. Algunas de las actividades que deben ser consideradas son:
-
Planeamiento y gerencia Elaboración de documentos metodológicos (cuestionarios, manuales) Capacitación Operación de campo Procesamiento de la información Análisis y consistencia
Una descripción analítica de las características socio-demográficas de la población observada, presentado por ejemplo indicadores de evaluación del proceso, cuadros de relación entre variables, promedios, etc.
Difusión de Resultados Las responsabilidades de las oficinas de estadística no se acaban con la divulgación del informe que contiene los resultados básicos de la encuesta. La relación con los usuarios debe ser permanente desde la definición conjunta de los objetivos de la investigación así como la retroalimentación mutua a partir de la entrega de la base de datos con los registros individuales de la encuesta. Es recomendable llevar un control de las personas e instituciones a las que se les facilita la información y establecer algún tipo de convenio en la cual se comprometan dichas instituciones en brindar asesoría sobre aspectos específicos de la encuesta y el archivo de datos.
78
5. ELABORACIÓN DE CUADROS Y GRÁFICOS ESTADÍSTICOS
79
La elaboración de Cuadros y Gráficos Estadísticos tienen como punto de partida la elaboración de u Plan de Tabulados, del cual se extraen los cuadros necesarios para el informe final, así como, la información necesaria para la construcción de los gráficos estadísticos. Es necesario tener claro entonces, el concepto de tabulación, cuadro y gráfico estadístico, así como, algunas reglas para su correcta elaboración. En lo que sigue del documento se abordarán estos temas. 1. Tabulación Se entiende por tabulación al proceso de computar las respuestas (los “datos”) obtenidos de una encuesta según las categorías elegidas. Cuando las respuestas son muy numerosas o los cuestionarios muy complejos, es mejor hacer la tabulación, utilizando un software diseñado especialmente para este propósito. 2. Plan de Tabulados El Plan de Tabulados, es un documento en el que se definen un conjunto de cuadros donde estarán los datos ordenados de acuerdo a las categorías de las variables. Estos son los cuadros de salida. Los formatos de los cuadros deben proporcionarse al mismo tiempo que se está elaborando el cuestionario, de otro modo, al cuestionario le pueden faltar ítems que no se necesitan o pueden incluir ítems que no se analizarán. Por ejemplo, puede diseñarse un cuadro para atender una solicitud de datos, por distrito, sobre el número de personas de 10 años o más que estén alfabetizados. Si el cuestionario agrupa las preguntas sobre alfabetismo con los temas económicos que se preguntarán a las personas de 12 años o más de edad, entonces faltarán los datos para los niños de 10 años y 11 años de edad. 3. Tipos de Tabulación Dependiendo de si la tabulación se hace para una sola variable con sus respectivas modalidades o para el cruce de diferentes modalidades de dos o más variables, se definen dos tipos de tabulación, tabulación simple y tabulación cruzada. La tabulación simple o la tabulación cruzada representan el paso del investigador de la fase de preparación del análisis a su ejecución real.
80
3.1 Tabulación Simple Este tipo de tabulado es generado al computar las respuestas obtenidas para las diferentes modalidades de una sola variable, esto es la frecuencia con que aparece cada modalidad de la variable en la base de datos primaria. Este tipo de tabulación suele emplearse sólo en la primera fase del análisis de los resultados de una encuesta. A continuación se muestran algunos ejemplos de tabulaciones simples.
Distribución de Usuarios, según Sector al que Pertenece SECTOR IMPORTACIÓN EXPORTACIÓN ALMACENES/DEPÓSITOS ADUANEROS AGENCIA DE ADUANA FINANCIERO TRANSPORTE COMERCIO PROVEEDOR OTRO TOTAL
Número de Usuarios 80 35 25 32 15 10 112 12 4 325
% 24.62 10.77 7.69 9.85 4.62 3.08 34.46 3.69 1.23 100.0
Distribución de Usuarios, según tiempo de espera con teléfono en mano antes de ser atendido Tiempo de espera De 2 a 4 minutos De 5 a 6 minutos De 7 a 10 minutos De 11 a 15 minutos De 16 a 29 minutos De 30 a más minutos TOTAL
Número de Usuarios 80 35 25 32 15 10 197
% 40,62 17,77 12,69 16,24 7,61 5,08 100.0
81
Distribución de Usuarios sobre la Percepción de la Receptividad de los funcionarios y especialistas en las oficinas anteriores Número de Usuarios 40 35 10 2 87
PERCEPCION HA MEJORADO SIGNIFICATIVAMENTE HA MEJORADO UN POCO NO HA MEJORADO ESTA PEOR TOTAL
% 45.98 40.23 11.49 2.30 100.0
3.2 Tabulación Cruzada Este tipo de tabulado es generado al computar las respuestas obtenidas en una encuesta, considerando el cruce de modalidades entre dos o más variables. Con este tipo de tabulación se puede obtener mucha más información que con una tabulación simple. A continuación se presentan algunos ejemplos de este tipo de tabulación Distribución de Usuarios por Calificación en la Atención Telefónica, según Sector al que pertenece
SECTOR IMPORTACIÓN EXPORTACIÓN ALMACENES/DEPÓSITOS ADUANEROS AGENCIA DE ADUANA FINANCIERO TRANSPORTE COMERCIO PROVEEDOR OTRO TOTAL
CALIFICACION DE LA ATENCIÓN TELEFONICA Atenta Formal Displicente Descortés 16 32 62 6 44 14 38 26 56 18 24 28 73 69 39 18 33 43 39 10 7 26 30 19 31 63 17 23 26 14 13 15 45 49 32 8 331
328
294
153
TOTAL 145 185 163 225 181 94 178 123 165 1459
82
Distribución de Usuarios por Opinión sobre el comportamiento de las secretarias, según Sector al que pertenece
SECTOR IMPORTACIÓN EXPORTACIÓN ALMACENES/DEPÓSIT OS ADUANEROS AGENCIA DE ADUANA FINANCIERO TRANSPORTE COMERCIO PROVEEDOR OTRO TOTAL
Muy atento 32 14 18
COMPORTAMIENTO Inservi- MaleduServicial Cortés cial cado 62 31 31 32 38 26 26 14 24 34 34 18
Ofensivo 62 38 24
TOTAL 250 156 152
69 43 26 63 14 49
39 39 30 17 13 32
45 65 76 12 34 12
45 65 76 12 34 12
69 43 26 63 14 49
39 39 30 17 13 32
306 294 264 184 122 186
328
294
335
335
328
294
1914
4. El uso de Cuadros y Gráficos Estadísticos Los cuadros y gráficos dan realce al contenido del informe en: •
Proporcionar un formato conciso para que el lector pueda revisar sistemáticamente la información.
•
Asistir al lector para comprender las comparaciones, tendencias y relaciones en forma más rápida.
•
Llamar la atención a los aspectos más importantes de la información
•
Es la forma más efectiva para comunicar las tendencias y las relaciones, en vez de narrarlas por escrito.
•
Deben utilizarse con un propósito definido, no para impresionar. Los utilizados en el resumen y el contenido del informe deben resumir la información y la presentación detallada de mayor relevancia de la misma debe considerarse como un anexo.
•
Deben considerarse cuidadosamente el diseño y la presentación de los cuadros y gráficos, ya que una presentación pobre, sólo servirá para distorsionar la información en vez de clarificarla.
83
4.1 Cuadros Estadísticos El Cuadro Estadístico es el arreglo ordenado, columnas y filas, de datos estadísticos o características relacionadas, con el objeto de ofrecer información estadística de fácil lectura, comparación e interpretación. Un cuadro estadístico es el resultado de trabajos previos (planeamiento, recopilación, tabulación, cálculos, etc.). Estos cuadros constituyen los llamados “Cuadros de Análisis” que se incluyen frecuentemente en el cuerpo de los estudios, de las investigaciones o de los informes. Cada cuadro estadístico puede tomar una forma particular o propia, sin embargo existen recomendaciones y normas generales para su construcción, que pretenden uniformizar criterios para presentar datos estadísticos. Por ejemplo, el cuadro siguiente presenta la distribución de usuarios de servicios de agencias de aduanas, clasificadas de acuerdo a dos variables: Calificación de la atención telefónica y sector. Es un cuadro de tipo bidimensional, o de dos variables o de “doble entrada”; en esta clasificación se distingue una variable principal (calificación de la atención telefónica) colocada en forma horizontal y una variable secundaria ( sector) colocada en forma vertical. No es la única forma de presentar datos, pero es la más recomendable, si lo permite la naturaleza de las variables.
Distribución de Usuarios por Calificación en la Atención Telefónica, según Sector al que pertenece
SECTOR IMPORTACIÓN EXPORTACIÓN ALMACENES/DEPÓSITOS ADUANEROS AGENCIA DE ADUANA FINANCIERO TRANSPORTE COMERCIO PROVEEDOR OTRO TOTAL
CALIFICACION DE LA ATENCIÓN TELEFONICA Atenta Formal Displicente Descortés 16 32 62 6 44 14 38 26 56 18 24 28 73 69 39 18 33 43 39 10 7 26 30 19 31 63 17 23 26 14 13 15 45 49 32 8 331
328
294
153
TOTAL 145 185 163 225 181 94 178 123 165 1459
Para diferenciar las variables principal y secundaria, en el título del cuadro, se antepone la palabra POR a la variable principal (nivel educativo) y SEGÚN a la variable secundaria (provincias).
84
4.1.1 Diseñando cuadros Debe observarse los siguientes puntos:
El propósito de un cuadro es una presentación compacta de cifras. Por lo tanto no debe sobrecargarse con información. La simplicidad es la clave de la efectividad. Dos cuadros chicos a veces son mejor que uno grande.
El asunto a tratarse debe ser ubicable de inmediato, con la indicación de un título claro y completo. Cualquier posible mala interpretación deberá evitarse con una nota al pie de la página, explicando qué clase de información se encuentra debajo de qué rubro.
Las columnas deben indicarse correctamente, especificando todas las unidades de medidas usadas.
Cuando se presenta información sobre valores por un período de tiempo debe indicarse si están considerados a precios constantes o actuales. Si la información obtenida en su fuente de origen ha sido convertida en otro tipo de moneda, debe indicarse el tipo de cambio usado. También debe indicarse si los valores considerados son: FOB, precios al detal, etc.
Las fuentes de origen deben indicarse claramente.
La información registrada en los cuadros debe presentarse en orden lógico ya sea en forma alfabética, de mayor a menor, por área geográfica, asociación de mercados, etc.
Si las columnas están muy juntas, deben separarse por líneas.
El propósito de los cuadros completos en los anexos es presentar la información completa y permitir a los lectores deducir su propio análisis. Por esta razón, la información debe ser lo más precisa y completa posible, incluyendo cifras absolutas, no porcentajes ni índices.
4.1.2 Partes Principales de un Cuadro Estadístico En general una tabla o cuadro estadístico completo, puede tener ocho partes: a. Número del cuadro 85
b. c. d. e. f. g. h.
Título Encabezamiento o conceptos Cuerpo Nota de pie o llamadas Fuente Nota de unidad de medida Elaboración
a. Número del cuadro, es el código o elemento de identificación que permite ubicar el cuadro en el interior de un documento. El número se anota junto con la palabra “cuadro”, por ejemplo: Cuadro Nº 3.3, indica que es el tercer cuadro del capítulo tres. b. Título, es la descripción resumida del contenido del cuadro. La redacción del título debe ser breve, claro y completo, de modo que se pueden deducir sin ambigüedad que tipo de información contiene el cuadro. Un título completo debe indicar: Qué
: que hay en el cuadro, se refiere al hecho observado o la característica principal. Ejemplo: Viviendas particulares, Población Económicamente Activa de 15 años y más, Alumnos Matriculados, etc.
Dónde : se refiere al lugar geográfico o institución a la que corresponde la información. Ejemplo: del Perú, del departamento de Tacna, de América, de la Empresa Textil Cahuide S.A., de la ciudad de Trujillo, del Sector Minero, etc. Cómo : como están ordenados o clasificados los datos del cuadro. La variable ubicada en la fila se identifica con la preposición “por” y la que está en la columna se le antepone “según”. Ejemplo: por material predominante en las paredes exteriores, según región natural y área urbana; por nivel educativo, según ramas de actividad; por fuentes de financiamiento, según programas; por sexo, según estado civil, etc. Cuándo: a qué momento o período de tiempo está referida la información; puede ser un momento específico o puntual, como también un período de varios años, meses o semanas, etc. Ejemplo: Censo de población del 11 de Julio de 1993, 86
Año 1985, Ejercicio 1987, Período 1980 - 1995, etc. c.
Concepto o Encabezamiento, es la descripción de las filas y columnas de un cuadro estadístico; el encabezamiento se ubica en la parte superior del cuerpo del cuadro. Indica las variables y sus categorías o intervalos, también puede indicar un período de tiempo. Ejemplo: En el cuadro siguiente, los conceptos se refieren al Tipo de Abastecimiento clasificada en seis categorías (red pública, pilón, camión, cisterna, río o acequia, otro) y las provincias en ocho categorías.
Número de Viviendas por Tipo de Abastecimiento de Agua, Según Provincia
Provincia
Total
Red Pública
Tipo de Abastecimiento de Agua Río o Pilón Camión Cisterna Acequia
Otro
Total Departamento
100.0
58.9
14.7
4.3
3.8
16.0
2.3
Prov. Arequipa
100.0
69.0
15.6
4.5
3.5
6.0
1.4
Camaná Caraveli Castilla Caylloma Condesuyos Islay La Unión
100.0 100.0 100.0 100.0 100.0 100.0 100.0
36.5 33.6 27.2 29.8 24.4 62.0 13.2
6.4 11.8 13.3 14.5 16.2 16.0 8.5
4.9 10.8 1.8 1.8 6.7 3.1 1.1
14.7 12.9 1.1 0.8 1.0 1.4 0.7
36.1 28.5 53.9 40.1 51.0 14.7 76.1
1.4 2.4 2.7 13.0 0.7 2.8 0.4
d. Cuerpo del Cuadro, es el contenido numérico del cuadro. Es la parte donde se colocan los datos correspondientes a las características o variables indicados en el encabezamiento o en los conceptos, es decir, presenta la distribución de los elementos según la clasificación en categorías de las variables. Es recomendable colocar las cifras de los grandes totales en forma horizontal y en la parte superior del cuadro. e. Nota de Pie o Llamadas, se usa para aclarar algunos términos o siglas, y también para indicar qué elementos están o no incluidos en algunos de los conceptos del cuadro. 87
f.
Fuente, es la indicación al pie del cuadro, que sirve para nombrar la publicación, entidad, estudio o fuente de donde se obtuvieron los datos utilizados para construir el cuadro. La identificación de la fuente permite, si fuera el caso, comprobar la información o para obtener información complementaria.
g. Nota de Unidad de Medida, se escribe debajo del titulo original, se usa cuando se abrevia la escritura de las cifras y para expresar en qué unidades está expresada la variable. h. Elaboración, es una indicación que se coloca debajo de la fuente, y sirve para mencionar el responsable, que utilizando datos originales o de la fuente, elaboró el cuadro estadístico final; indica la responsabilidad de la publicación del cuadro. 4.1.3 Recomendaciones para la construcción de cuadros a. Los cuadros estadísticos presentan datos ordenados con el propósito de facilitar su lectura y análisis, por lo tanto no deben ser complicados, ni grandes, ni largos. Los cuadros tienen ser claros y precisos; en general, un cuadro es la presentación simplificada de datos. b. Cuando se presenta más de un tema o variable, estas deben estar relacionadas entre sí. Es decir que, entre las variables, se puede establecer una relación de dependencia o de asociación; por ejemplo, el ahorro familiar tiene relación con el ingreso, etc. c. Las clasificaciones y categorías incluidas en el cuadro serán arregladas de manera que facilite el análisis y las comparaciones. Por ejemplo: el tiempo se arreglará en orden cronológico, generalmente se empieza por el período más antiguo. d. Arreglar las cifras de manera que se faciliten las comparaciones y el análisis de la evolución de los datos en el tiempo. e. Destacar las cifras e información más importantes. f. Algunas veces, cuando en una tabla de cifras tienen muchos dígitos es recomendable abreviar las cantidades; pueden abreviarse por redondeo o reducir las cifras expresando en unidades superiores (miles, millones, etc.) 88
g. Mejorar en lo posible la apariencia del cuadro, utilizando letras mayúsculas en los títulos, anotar las cifras adecuadamente espaciadas y utilizar rayas más negritas en las divisiones principales del cuadro. 4.2 Los Gráficos Estadísticos Un gráfico o diagrama en una representación pictórica (figuras geométricas, de superficie o volumen) con el objeto de ilustrar los cambios o dimensión de una variable, para comparar visualmente dos o más variables similares o relacionadas. Para una rápida comprensión de situaciones o variaciones en cantidades, es muy útil traducir los números en gráficos o imágenes. Todo gráfico es superior al texto escrito porque transmite de manera casi instantánea, hechos, cantidades y comportamientos de variables. Un gráfico bien presentado vale más que mil palabras; el gráfico es el idioma universal. Por su naturaleza, un gráfico no toma en cuenta los detalles y no tiene la misma precisión de una tabla estadística. Los gráficos estadísticos son representaciones de relaciones cuantitativas que existen realmente en el mundo, en ningún caso es una ficción que surge de la imaginación del artista, el gráfico es la expresión artística de datos reales y observados. 4.2.1 Construcción de Gráficos Aún cuando no existe una regla específica para la construcción de gráficos, es posible anotar algunas recomendaciones. En Estadística se emplean una diversidad de gráficos, cuya forma dependerá de la naturaleza de los datos y del objetivo de la presentación. Antes de elegir el tipo de gráfico, conviene imaginarse de antemano el gráfico a construir, que en general debe tener rasgos simples y de fácil construcción. Los gráficos de una sola variable sirven para fines comparativos de cantidades absolutas, tasas, proporciones, etc. pueden tener la forma de barras, superficies, puntos o líneas. Los gráficos de dos variables, se construye en el plano rectangular o de coordenadas cartesianas, donde hay dos ejes, X e Y, En el eje Y (ordenada) se colocan los valores de la variable dependiente y en X (abscisa) la variable independiente, siendo y = f(x).
89
4.2.2 Principales partes de un Gráfico a. Título, como en los cuadros, es una descripción del contenido del gráfico, debe indicar claramente la naturaleza del fenómeno representado. b. Los diagramas, está dado por el propio dibujo del gráfico, y como en el cuerpo del gráfico, están representados los datos indicados en el título. c.
Escalas y/o leyendas, son indicaciones donde se precisa la correspondencia entre los elementos del gráfico y la naturaleza de las medidas representadas.
d. Fuente de los datos estadísticos representados.
Estructura de un Gráfico
90
4.2.3 Principales Tipos de Gráficos a. Gráficos lineales El ejemplo a continuación demuestra que tienen los mismos componentes básicos que un cuadro. Son generalmente la manera más clara de mostrar tendencias y cómo varían las mismas después de un período de tiempo. Son muy útiles para indicar la relación entre tendencias. Por ejemplo, el gráfico que se muestra a continuación, indica la relación entre las tendencias en valores unitarios de importaciones de miel a los Estados Unidos de todas partes y sólo las de Argentina.
Valores unitarios de las importaciones* totales de miel en los Estados Unidos y de las procedentes de Argentina, 1971-1977
Los gráficos lineales muestran las relaciones entre tendencias. Aquí muestra cómo el valor unitario de miel argentina ha cambiado en relación al valor unitario de las importaciones totales. Los gráficos son utilizados para dar una idea más amplia acerca del tamaño, las tendencias o relaciones entre los datos obtenidos. Es deseable acompañar cada gráfico con un cuadro que presente la información en forma más precisa. A continuación damos unas reglas básicas para la preparación de gráficos:
91
Usar la escala vertical para mostrar cantidad o valor, y la horizontal para mostrar períodos de tiempo.
Cada escala debe indicar las unidades utilizadas.
Siempre se debe indicar el punto cero en la escala vertical al utilizar papel cuadriculado normal, si no puede presentarse alguna confusión. Si por falta de espacio no es posible indicar la escala vertical completa, la línea puede romperse con un zig-zag, para indicar que no se está demostrando toda la escala. Pero en términos visibles todavía puede distorsionar la impresión producida por el gráfico.
Usar un máximo de dos o tres líneas para tendencias en cada gráfico, para evitar confusión. Si hay más líneas pueden separarse los gráficos individualmente.
Usar un mínimo de líneas de coordinación para que las líneas de tendencia puedan tener realce. No es necesario mostrar todas las líneas usadas para dibujar el gráfico, ya que los valores precisos no deben ser leídos del mismo. Importaciones de miel en los Estados Unidos – promedios móviles de 5 años
92
Siempre debe mostrarse el punto cero en los gráficos para evitar comparaciones confusas. En el gráfico superior parece que la relación de la información de 1972 y 1974, indicado por la diferencia en altura de A y B, es muy diferente de lo que es en realidad. La verdadera relación se indica en el gráfico inferior. En muchos casos no es práctico mostrar las tendencias de diferentes series de información en un gráfico en términos de datos absolutos. Esto resulta por la diferencia de información en cuanto a magnitud o por estar expresado en diferentes unidades. En tales casos, las tendencias pueden mostrarse mediante el uso de índices. En el siguiente ejemplo, podemos observar que las importaciones de miel de los Estados Unidos son tan pequeñas comparadas con la producción que no sería práctico mostrar cada una en un gráfico individual, usando cantidades actuales. El gráfico muestra cómo las tendencias pueden indicarse usando cifras índices.
Producción e importaciones * de miel en los Estados Unidos, 1966-1975
Las importaciones son tan pequeñas en comparación con la producción que no sería práctico usar la misma información en el mismo gráfico. En tales casos es preferible mostrar la información en términos de índices. 93
b. Gráficos de Columnas Mientras que los gráficos anteriores demuestran la dirección y tipos de cambio de las tendencias, las comparaciones de datos pueden demostrarse con más claridad mediante gráficos de columnas. Un gráfico con dos columnas puede mostrar cambios entre diferentes períodos. Hay dos tipos básicos:
Simple: que compara totales y por consiguiente siempre usa dos columnas como mínimo; la información puede ser absoluta (toneladas, dólares, número de unidades, etc.) o en porcentajes. Las columnas no se subdividen.
Subdivididos: con una sola columna, este tipo de gráfico muestra el tamaño o valor relativo de los componentes principales dentro de un total. Al utilizar más que una columna también demuestra cómo tanto el total y la relación existente entre los componentes ha variado. Una columna no debe tener más que tres ó cuatro segmentos, si no su lectura se dificulta.
En un gráfico subdividido los componentes de la primera columna deben ser ordenados por tamaños, con el más grande en la parte inferior (o a la izquierda de un gráfico horizontal). Los segmentos de las otras columnas deben permanecer en el mismo orden aunque sus tamaños relativos pueden cambiar. Esto facilita su lectura. Cuando se utilizan dos o más columnas para mostrar información en diferentes períodos de tiempo, las columnas deben ser verticales, de lo contrario, pueden ser horizontales. Los ejemplos siguientes demuestran como pueden utilizarse los diferentes tipos de gráficos de columnas, para resaltar diferentes aspectos de la misma información básica, El investigador posiblemente no usaría todos estos gráficos en un informe, sino sólo aquellos que enfatizaría su punto de vista
94
Importaciones de miel en los Estados Unidos, Promedios anuales
Fuente: Importaciones generales en los Estados Unidos, Lista A
El gráfico de columnas simple, compara el volumen total de importaciones por tres periodos.
Importaciones de miel en los Estados Unidos: Fuentes Principales Promedios anuales
Fuente: Importaciones generales en los Estados Unidos, Lista A
Además de comparar el volumen total de exportaciones por cada periodo, este gráfico de columnas subdivididas también muestra el análisis detallado por proveedor. Observe que la información estará 95
diagramada acumulativamente, lo que impide conocer el volumen de cada proveedor, excepto México. Importaciones de miel en los Estados Unidos: Fuentes Principales Promedios anuales
Este gráfico se concentra en cada proveedor y demuestra como han cambiado sus volúmenes respectivos. También indica las diferencias en volúmenes entre cada proveedor, pero con menos claridad. Los volúmenes son más fáciles de interpretar que el gráfico subdividido.
Importaciones de miel en los Estados Unidos, Promedios anuales
Fuente: Importaciones generales en los Estados Unidos, Lista A
Compara con mayor claridad la diferencia entre cada proveedor en cada periodo de tiempo, también demuestra, pero con menos claridad, como ha cambiado el volumen de cada proveedor. 96
Importaciones de miel en los Estados Unidos, Partes de las principales suministradores
Fuente: Importaciones generales en los Estados Unidos, Lista A
Este porcentaje muestra claramente la participación de cada proveedor, pero no volúmenes totales. b. Gráficos Circulares (tipo pastel) Tienen el mismo uso que los gráficos de columnas simples de porcentajes y demuestran la proporción de cada componente dentro de un entero. Se usan generalmente para analizar la información dentro de un solo periodo de tiempo. Dos círculos podrán usarse para mostrar cambios dentro de dos períodos. También pueden servir para demostrar comparaciones entre dos series similares de datos en un mismo tiempo. Por ejemplo, dos círculos pueden usarse para comparar los hábitos de compra entre hombres y mujeres. Un gráfico circular se diagrama como sigue: 1. Se calcula por cada segmento, la parte proporcional del porcentaje del total. 2. Se calcula por cada segmento, el número de grados que representa dentro de los 360 grados en el círculo. 3. Usando un transportador se indican los grados de cada segmento en el círculo. 97
Ordenar las partes según el reloj, de acuerdo a su tamaño con el segmento mayor, comenzando a las 12 horas. Si se utilizan dos círculos, seguir el mismo orden en ambos.
Como en los gráficos de columnas use sólo un limitado número de segmentos, de lo contrario, las diferencias entre varios no serán aparentes y la finalidad puede prestarse a confusión.
Use sombreados, rayas o colores para diferenciar cada segmento. Si existe un segmento de especial interés, éste debe diferenciarse de los demás que quedarán sin resaltar.
Deben indicarse los porcentajes, ya que es difícil estimar las proporciones en estos gráficos.
La lectura y los porcentajes deben colocarse horizontalmente en cada segmento, si fuera posible, para mayor claridad.
Partes de los principales suministradores en las importaciones de miel en los Estados Unidos
(Parte promedio anual de cantidades)
Fuente: Importaciones generales en los Estados Unidos, Lista A
98
6. ANALISIS E INTERPRETACION DE RESULTADOS
99
1.
Análisis e Interpretación Una vez que se han reunido y resumido los datos estadísticos y otro material, y los datos de la encuesta han sido tabulados, se puede pasar a las fases finales del análisis. Ello implica la identificación de tendencias y relaciones y el encajar todos los datos separados en esquemas a fin de obtener, finalmente una visión significativa. Para realizar un análisis minucioso cuando disponemos de grandes cantidades de datos estadísticos y de encuesta, el analista debería poseer sólidos conocimientos sobre las técnicas estadísticas. Sin embargo, se puede llegar a realizar trabajos muy útiles sin estos conocimientos especiales, utilizando las sencillas técnicas que pasaremos a detallar. Las reglas más importantes que hay que seguir son:
Proceder paso a paso y de manera metódica.
Comprobar y repasar todos los cálculos y transcripciones de datos, desde sus fuentes informativas a las hojas de trabajo y desde unas hojas a otras.
Hacer tan pocas conjeturas y suposiciones como sea posible.
Tener siempre presente el hecho de que los datos de una encuesta nunca son completos y en consecuencia las conclusiones basadas en análisis nunca son del todo fiables.
1.1 Interpretación de Resultados 1.1.1 Uso de Porcentajes En muchos casos los datos cuantitativos no tienen mucho significado en si mismos; su trascendencia se aprecia al compararlo con otros datos. En la mayoría de los casos lo mejor es hacer tales comparaciones en términos de porcentajes.
Comparar los porcentajes de totales es a veces más significativo que comparar números absolutos.
Los porcentajes también se usan como una base para sacar deducciones de un universo total partiendo de una muestra.
Los aumentos o disminuciones sobre un período de tiempo de datos, como importaciones, ventas, crecimiento económico y precios, son expresados con mayor claridad y comparados en 100
términos de porcentaje.
Cuando analizamos cambios en series de datos sobre un período de tiempo, es a veces más útil expresar los cambios en términos de tasa de aumento o disminución, en vez de un cambio porcentual del período total del tiempo.
Errores que deben evitarse Cuando se usan porcentajes es importante evitar los siguientes errores:
Usar una base demasiado pequeña: si los números involucrados son muy pequeños, las comparaciones porcentuales pueden no tener sentido.
Ignorando valores absolutos: cuando se comparan aumentos, uno debe recordar que los aumentos de porcentaje tienden a reducirse conforme el tamaño de la base se incrementa.
Usando la base equivocada: cuando se calcula un incremento porcentual, el número menor es usado como base, pero cuando se calcula una disminución, el número mayor debe utilizarse como base.
Promediando porcentajes de diferentes bases: no se deben promediar los porcentajes si no se les ha pesado, regulado para reflejar el tamaño de su base.
1.1.2 Uso de Índices Los cambios en los datos después de un período de tiempo se comparan generalmente usando los términos de números índices. Los cambios siempre están relacionados con el año base. Las informaciones de este año base son igualadas a 100 y las cantidades para los años sucesivos se convierten en proporciones de 100. Los dos usos más importantes de índices son:
Mostrar cambios en grupos de datos, donde los diferentes elementos pueden pesarse para reflejar su importancia relativa. Un ejemplo el índice de un precio minorista que toma en consideración una muestra representativa de productos.
Mostrar cambios en términos reales, regulándose generalmente para cambios en los precios. 101
1.1.3 Comparación de Valores Cuando la información está disponible tanto por la cantidad como por el valor, es mejor usar la información por cantidad para mostrar cambios durante un período de tiempo. La razón es que la información por valores, está generalmente distorsionada por cambios en los precios. Muchas veces no esta disponible un precio índice por un determinado producto. Cuando sea este el caso y los aumentos en valores se utilizan para indicar el crecimiento del mercado, siempre debe especificarse que ningún ajuste se ha realizado por cambios de precios. Si el investigador tiene una vaga idea de la tasa de aumento de precios sería, naturalmente, útil indicarla aunque no sea lo suficientemente precisa para utilizarse para regular la información. 1.1.4 Escogiendo años para comparar Cuando se miden los cambios en información durante un cierto período de tiempo, es esencial seleccionar períodos que demuestren una verdadera tendencia. La información muchas veces fluctúa de año en año, debido a factores como condiciones económicas a corto plazo, cosechas pobres, etc. Los años que se escogen para servir de comparación pueden arrojar grandes diferencias en los resultados. Por conveniencia, las publicaciones siempre comparan las últimas informaciones disponibles del mercado durante un período discrecional de tiempo, tal como un período de 5 ó 10 años. En algunos casos la información es tan irregular de año en año que es mejor comparar los promedios de información por más de un año al principio y al final del período. 1.1.5 Promedios Uno de los instrumentos más usados en el análisis de la información es el promedio. Son utilizados para ayudar a describir características de las variables en estudio y para describir su comportamiento futuro. Los tres promedios más importantes son:
La media aritmética 102
La mediana La moda
1.1.6 Describiendo tendencias Los investigadores generalmente se preocupan por tendencias sobre un período de varios años, pero a veces resulta dificultoso identificar las mismas debido a las altas y bajas que pueden producirse dentro de períodos más cortos de tiempo.
103