INVESTIGACIÓN DE MERCADO Y SATISFACIÓN DEL CLIENTE
1
CONTENIDO Pág. Introducción Objetivos
1 3
UNIDAD 1. ESTUDIOS DE MERCADO Y SATISFACCION DE CLIENTES 1.1 Desarrollo histórico 1.2 Naturaleza de la Investigación de Mercados 1.3 La estadística en los negocios y la mercadotecnia 1.4 Caracterización de los clientes y usuarios 1.5 Necesidades y satisfacción de clientes 1.6 Preguntas de repaso
4 4 6 10 13 15 17
UNIDAD 2. DISEÑO DE ESTUDIOS DE MERCADO Y SATISFACCION DE CLIENTES 2.1 Aspectos generales 2.2 Tipos de investigación de mercados 2.3 Proceso de la investigación 2.4 Levantamiento de datos 2.4.1 La observación 2.4.2 La encuesta 2.4.2.1 Cuestionario 2.4.2.2 La entrevista 2.5 Confiabilidad y validez 2.5.1 Confiabilidad 2.5.2 Validez 2.6 Actividades de la unidad
18
UNIDAD 3. ESQUEMAS BÁSICOS DE MUESTREO 3.1 Introducción 3.2 Muestreo probabilístico 3.2.1 Muestreo aleatorio simple 3.2.2 Muestreo sistemático 3.2.3 Muestreo aleatorio estratificado 3.2.4 Muestreo por conglomerados 3.3 Muestreo No Probabilístico 3.3.1 Muestreo a conveniencia 3.3.2 Muestreo a criterio o dirigido 3.3.3 Muestreo de bola de nieve 3.3.4 Muestreo por cuotas 3.3.5 Formas especiales del muestreo no probabilístico 3.4 Actividades de la unidad
51 51 52 52 55 57 59 62 63 63 64 65 67 68
18 18 19 21 21 22 22 30 34 34 50
1
UNIDAD 4. ANÁLISIS ESTADÍSTICO BÁSICO DE INVESTIGACIÓN DE MERCADOS 4.1 Análisis estadístico exploratorio y descriptivo 4.1.1 Análisis univariado y bivariado 4.1.2 Correlación lineal 4.2 Inferencia estadística básica 4.2.1 Prueba de hipótesis para proporciones 4.2.2 Análisis de tablas de contingencia 4.2.3 Hipótesis de independencia 4.2.4 Hipótesis de homogeneidad 4.3 Análisis de regresión 4.3.1 Análisis de regresión lineal simple 4.3.2 Análisis de Regresión Lineal Múltiple 4.4 Análisis de Segmentación 4.4.1 Algoritmo de Segmentación CHAID 4.5 Actividades de la unidad
69 69 69 70 71 72 74 78 80 81 82 87 91 93 100
REFERENCIAS
101
ANEXO
103
2
Introducción La investigación de mercados, hoy en día, se ha constituido como la herramienta más poderosa del mundo empresarial. Su fin esencial, está enmarcado en la búsqueda de los niveles de aceptación de un producto y de los aspectos que se deben considerar a futuro en su diseño y fabricación. Si tomamos en cuenta que vivimos en una sociedad rodeada de productos, podremos comprender la importancia que tiene investigar cuál es el mercado para dichos productos, y cómo este mercado se comporta. Por esto, se requiere de todo un instrumental técnico y del manejo de una teoría que habilite al estudioso en tal disciplina. Significa entonces que la investigación de mercados no es sólo un desarrollo cuantitativo, sino que requiere de un tratamiento especial en la ciencia Estadística para el manejo de información. Ciertamente, la Estadística ha provisto a sus seguidores dentro de la investigación de mercados, de elementos necesarios que sustentan la base de la Mercadotecnia en su esfera cuantitativa. Cada necesidad de la Mercadotecnia es respondida por un cuantioso número de alternativas (técnicas y métodos) que le corresponden a la Estadística. Tales alternativas van desde la elaboración de una encuesta, pasando por su diseño, aplicación y valoración, muestreo, pruebas de hipótesis, tabulación cruzada, hasta el análisis de regresión y el uso de técnicas multivariadas. De esta manera, para la investigación de mercados el Estadístico es el profesional que la lleva a sus fines ulteriores; y para este significa desarrollarse como tal y ampliar el campo de trabajo junto con las perspectivas de desarrollo de la misma ciencia, ya que ante todo, existe una retroalimentación entre la ciencia y la investigación, aun cuando esta última no sea pura. Cuando hablamos de desarrollo, nos referimos a un gran reto, no significa solamente extenderse y abarcar indistintamente cualquier aspecto de la Mercadotecnia (entendida esta como el conjunto de técnicas, procedimientos y teorías para el estudio del mercado), sino más bien debemos referirnos al desarrollo como un mejoramiento en todos los sentidos de las técnicas estadísticas que optimicen los fines de la Mercadotecnia. Es decir, debemos ampliar el horizonte de la Estadística y adecuarlo a la expansión del mercado conforme este va desarrollándose. Este desarrollo sólo puede tener un indicativo tanto para investigadores como para aquellos que requieren de estos últimos; es decir, los empresarios: motivar la búsqueda de actualización y aportación en la Investigación de Mercados. Estudiar al mercado, encierra en sí mismo un sin número de implicaciones que deben culminar en la puesta en práctica de recomendaciones y acciones específicas. Si se orienta la investigación de mercados hacia campos de lucro, y si se hace persiguiendo un fin social, en ambas formas tendríamos que aceptar la generalización del uso de la Estadística. Cada día la extensión geográfica y 1
poblacional exige adaptaciones generales en la que por supuesto los objetivos de la empresa están inmersos. El Estadístico apoyado en las categorías de investigación de mercados ofrece una respuesta ante estas interrogantes. Cabe señalar que ni la investigación de mercados es un área absolutamente de la ciencia Estadística como tampoco la ciencia Estadística lo es de la investigación de mercados. Sin embargo, debemos recalcar que dadas las características que hay por investigar en el mercado, lo que se requiere es de la ciencia Estadística, lo que mejor responde a las necesidades del estudio de la evaluación de gustos, preferencias, necesidades, aspiraciones, etc. Cabe notar el vínculo entre la Mercadotecnia y la Estadística, por lo que el presente trabajo abarca aspectos concretos de aplicación de la Estadística a la Mercadotecnia.
2
Objetivos Objetivo General Que los estudiantes adquieran las competencias básicas para el diseño y desarrollo de la investigación de mercado y de estudios de satisfacción del cliente en el marco de la gestión de la calidad.
Objetivos particulares 1. Que el estudiante conozca los diferentes métodos para la obtención de información en la investigación de mercado y la satisfacción del cliente. 2. Que el estudiante aprenda a construir y validar instrumentos para evaluar la satisfacción del cliente. 3. Que el estudiante sepa como establecer la forma y el tamaño de la muestra a tomar en la investigación de mercado y la evaluación de la satisfacción del cliente. 4. Que el estudiante conozca métodos estadísticos para el análisis de la información obtenida en la investigación de mercado y evaluación de la satisfacción del cliente. 5. Que el estudiante aprenda a elaborar reportes de estudios de mercado y satisfacción del cliente.
3
UNIDAD 1. ESTUDIOS DE MERCADO Y SATISFACCION DE CLIENTES 1.1 Desarrollo histórico El desarrollo de la investigación de mercados inicia en la primera mitad del Siglo XX. El comienzo formal fue entre los años de 1910 y 1920. En este tiempo la filosofía gerencial se fue definiendo en términos de la promoción del consumo. Entre los años 1900 y 1930, el interés estaba enfocado hacia los problemas y oportunidades asociadas con la producción; entre 1930 y los últimos años de los 40 este concepto fue cambiando; la idea que se tenía era que los problemas y oportunidades estaban asociadas con la distribución. Después de la década de los cincuentas la atención se enfocó hacia las necesidades y deseos de los consumidores. Uno de los pioneros de la investigación de mercados fue George Frederick, que en 1911 fundó una firma de investigaciones llamada The Business Bourse. En este mismo año Charles Coolidge fue gerente de la División de Investigaciones Comerciales de la compañía Curtis Publishing. El éxito que tuvo este investigador fue la pauta para que muchas firmas industriales y medios de comunicación publicitarios crearan divisiones de investigación de mercados. Es así como muchos académicos son atraídos por las empresas para dedicarse a desarrollar y promover este tipo de estudios. Desde 1940 se publicaron un sinfín de libros de investigación de mercados. Después de 1948 en Estados Unidos se formaron más de 200 organizaciones de investigación de mercados. El primer libro que se publicó en el campo de la investigación comercial fue el del profesor C. S. Duncan, de la Universidad de Chicago. En 1912 se publicó el libro “El Análisis de Mercados” de Percival White. Este tuvo mucho éxito, se editó varias veces. En 1937 se publicó “La Investigación y el Análisis de Mercados” de Loyndon O. Brow; este libro fue el más popular de ese tiempo (Kinner y Taylor, 1981). El objetivo de la investigación de mercados es el estudio de los problemas relativos a los planes de producción, publicidad y distribución, con el propósito de aumentar las ventas y disminuir los costos. Esta disciplina utiliza diversos cuerpos de conocimientos teóricos y metodológicos, que incluyen la matemática, la estadística, la informática, la psicología, la economía y la administración. Debido a la aceptación de una visión amplia y multidisciplinaria, se pasó a la mercadotecnia, que amplió el papel de la investigación poniendo énfasis en el contacto entre los investigadores y el proceso de gerencia de mercados. Los adelantos en la metodología de la investigación de mercados fueron paralelos al desarrollo de la metodología de la investigación de las ciencias sociales. Los psicólogos, economistas, estadísticos y administradores tuvieron gran influencia 4
en la metodología de la investigación de mercados; por tal motivo, su historia va ligada al desarrollo histórico de las ciencias sociales. La investigación de mercados ha incorporado y aprovechado los conocimientos y la experiencia adquirida en una gran variedad de disciplinas. La estadística, la psicología, la sociología, la economía y la administración son las que han dado mayores aportaciones a la investigación de mercados. La estadística es la que ofrece a las investigaciones una base científica que permite obtener resultados útiles y con sólidos fundamentos científicos. Junto a ésta, las investigaciones de mercado han usado el cálculo de probabilidades, conceptos de economía política, técnica comercial, y, recientemente, los adelantos de la informática. Entre 1910 y 1920 se lograron los avances metodológicos más grandes: las encuestas se hicieron muy comunes para la recopilación de datos. Esta no es más que una de tantas técnicas con las que cuenta la investigación de mercados, pero es muy importante ya que para casi todos los estudios de mercados se utilizan las encuestas. Durante la década de los treinta, el muestreo se convirtió en un asunto metodológico muy serio. A medida que el análisis estadístico se desarrolló más allá de la estadística descriptiva (cálculo de medias, varianzas, correlación simple y construcción de números índice de precios) hasta alcanzar un énfasis en la estadística inferencial, los procedimientos probabilísticos fueron dominando el escenario. El muestreo probabilístico fue aceptado poco a poco en este periodo. Durante las décadas de los cincuenta y sesenta ocurrió un cambio importante: la aparición de la computadora y su utilización a gran escala. Este hecho aumentó la innovación metodológica, especialmente en el área de la investigación cuantitativa. En respuesta a esto, aparecieron revistas especializadas de mercadotecnia e investigación publicitaria. En estos años, los investigadores empezaron a publicar sobre técnicas experimentales y se fue configurando una metodología más científica para contestar las preguntas de la investigación en mercadotecnia. Entre 1960 y 1970 se concedió mayor importancia a la construcción de modelos para facilitar la toma de decisiones y se incluyeron aplicaciones de la computadora en el análisis de la información. En 1966, los profesores Paul Green y Donald Tull publicaron un libro que enfatizaba los avances metodológicos que se habían logrado en la investigación de mercados. Entre 1970 y 1986 se perfeccionaron los conceptos y métodos de la investigación cualitativa para explicar y pronosticar el comportamiento de los consumidores. En 1974 apareció una revista sobre investigación del consumidor, auspiciada por una lista de organizaciones de las ciencias sociales. Esta publicación refleja el creciente énfasis en la investigación del comportamiento del consumidor en el comercio, el gobierno y la academia.
5
1.2 Naturaleza de la investigación de mercados. Antes de dar una definición de investigación de mercados, es importante aclarar la definición clásica de mercado: “Es el conjunto de personas o unidades de negocios que consumen/utilizan un producto o servicio, o las que se pueden inducir a que lo consuman/utilicen”. De esta forma, a continuación se mencionan algunas definiciones de investigación de mercados: Un enfoque sistemático y objetivo del desarrollo y la provisión de información aplicable al proceso de toma de decisiones en la gerencia de mercadeo. (Kinnear y Taylor) Reunión, registro y análisis de todos los hechos acerca de los problemas relacionados con la transferencia de bienes y servicios del productor al consumidor. (Boyd) Análisis sistemático de problemas, construcción de modelos y hallazgos de hechos que permiten mejorar la toma de decisiones y el control en el mercado de bienes y servicios. (Kotler) Recolección, tabulación y análisis sistemático de información referente a las actividades de mercadotecnia, que se hace con el propósito de ayudar al ejecutivo al ejecutivo a tomar decisiones que resuelvan sus propósitos de negocios. (American Marketing Association). Las cuatro definiciones mencionadas coinciden en tres aspectos importantes: Registro sistemático, es decir, un proceso ordenado en etapas. Obtención de información del mercado. Importancia para la toma de decisiones. La investigación de mercados, es una de las funciones de marketing consistente en la obtención sistemática de información con el objeto de poder tomar decisiones de carácter comercial acertadas. Por lo tanto, la investigación de mercados está integrada en el sistema de marketing de la empresa. Podemos definir la investigación de mercados, como la técnica comercial que tiene como finalidad el estudio analítico de la problemática que hace referencia a la planificación de la fabricación, producción, distribución y apoyo promocional y publicitario de los productos o servicios de una empresa con el objeto de reducir al máximo el riesgo comercial e incrementar las ventas lo máximo posible.
6
Integración de la investigación de mercados dentro del sistema de marketing de la empresa Entorno Son todas aquellas variables sobre los que la empresa no puede ejercer un control y no podrá utilizarlas para alcanzar sus fines comerciales. A pesar de no poder ejercer un control, la empresa debe estudiarlas así como analizar su evolución. Marketing mix Está compuesto por las variables sobre las que la empresa puede ejercer un control. La empresa tendrá que tomar sus decisiones sobre los distintos componentes del marketing mix: política de producto, política de precios, política de distribución, promoción y publicidad. Respuesta del mercado Las acciones de la empresa sobre el mercado, así como su estrategia comercial produce efectos sobre los componentes del mercado: consumidores, distribuidores, prescriptores, competencia. Así pues, el resultado de las acciones de la empresa influirá sobre la intención de compra, conocimiento del producto, imagen de la empresa, etc. Resultados de la empresa. La aplicación de la estrategia comercial de la empresa, unida a la respuesta del mercado en un entorno del mercado determinado, permitirá obtener unos resultados los cuales se miden a través de: volumen de ventas, margen, beneficio, cash flor, etc. Investigación de mercados. La investigación de mercados contribuye a la planificación, ejecución y control de las funciones del marketing. En la fase de planificación debe aportar la información necesaria sobre el mercado, para establecer la estrategia a ejecutar. En la fase de ejecución debe definir las acciones a llevar a cabo para lograr las estrategias comerciales establecidas. Y por último, en la fase de control realizará el seguimiento de las acciones comerciales realizadas y la determinación del grado de cumplimiento de los objetivos comerciales prefijados.
7
ESQUEMA DE LA INTEGRACIÓN DE LA INVESTIGACIÓN COMERCIAL EN EL MARKETING MIX DE LA EMPRESA Y EL PROCESO DE TOMA DE DECISIONES. ENTORNO
INFLUYEN
Situación económica Tecnología Aspectos legales y políticos Publicidad Aspectos sociológicos Competencia Ventas Etc.
ELEMENTOS DEL MIX Precio Producto
Promoción Distribución
Proceso de decisión en la investigación comercial: 1. Análisis de alternativas 2. Aplicación 3. Control de resultados RESPUESTA DEL MERCADO
Ventas, cuotas de mercado, costes, beneficio…
La investigación de mercados dentro del proceso planificador de la empresa La investigación de mercados al constituir la base del plan de marketing y este del plan de la empresa constituye un elemento fundamental en la planificación de la empresa. La empresa antes de lanzar un producto necesita conocer las necesidades del consumidor, para ello se utilizan técnicas de investigación de mercado. Si la decisión es fabricar un producto, se llevará a cabo una fabricación piloto. El mismo se someterá a test’s de mercado, para obtener información sobre el rechazo o no del producto en el mercado o las modificaciones necesarias para su
8
aceptación. Una vez elaborado el producto final se elaborará el plan de marketing definitivo, que agregará todas las políticas comerciales. Por lo tanto, si la investigación comercial nos hubiera proporcionado información errónea sobre los productos/mercados, el plan de marketing también estaría equivocado así como el plan de la empresa. Lo que indica la importancia clave de la investigación de mercados sobre el plan de la empresa. En cuanto al ámbito de aplicación de la investigación de mercados, los estudios de mercado tienen su ámbito de aplicación en las áreas definidas a continuación. Si bien los objetivos buscados son variados en cada una de las áreas: mercado, producto/servicio, precio, consumidor, publicidad, promociones, distribución. Ventas, cuotas de mercado, costos, beneficio Tipos de estudio de mercado en función del componente de marketing mix a estudiar. Estudios sobre el mercado. Las técnicas de investigación de mercados pueden utilizarse para delimitar el mercado real y el potencial. Para ello se suele utilizar dos metodologías: Análisis basado en series estadísticas y análisis basado en encuestas. Para el análisis de las penetraciones de mercado y ventas reales los métodos que se utilizan son «Índices Nielsen» «o Shop Audit». Estudios sobre el producto. Los fines fundamentales son determinar la aceptación que tienen los productos/servicios en el mercado, la marca con la que se comercializará, los usos que darán los consumidores al producto. Para ello se utilizan los «paneles» o «barómetros de marcas». Por otra parte también se pueden realizar estudios para determinar el aspecto del producto: tamaño, forma, packaging. Se suelen utilizar técnicas de «experimentación comercial». Estudios sobre los precios. El análisis sobre los precios a los que se puede vender el producto en el mercado, suele estudiarse mediante las técnicas de experimentación comercial. Los estudios sobre precios no deben realizarse a través de encuestas puesto que no tienen gran valor, ya que el encuestado no se encuentra ante una situación real de 9
compra y por lo tanto podría estar dispuesto a pagar un precio diferente al manifestado en la encuesta. Estudios sobre el consumidor. Es de vital importancia conocer las necesidades del consumidor, sus costumbres, hábitos de compra, etc. Para analizar las costumbres de compra se puede utilizar como técnica de investigación de mercados la «observación directa»; y el panel o el barómetro de marcas para conocer los hábitos del consumidor. Si lo que queremos es conocer las opiniones del consumidor sobre un producto o las necesidades, la mejor técnica a utilizar sería la encuesta: personal, telefónica, postal. Estudios sobre la publicidad/promoción. Existen dos tipos de estudio, por un lado estarían los estudios «pretest» que serían previos a la campaña para analizar las motivaciones de los clientes y los estudios «postest» que medirían la eficacia de las campañas publicitarias. Las técnicas son muy variadas y las más utilizadas son la encuesta telefónica «Day alter recall». Estudios sobre la distribución. El objetivo puede ser analizar la eficacia del canal de distribución y su rentabilidad, se suelen utilizar «estudios documentales» o bien analizar la opinión de los componentes del canal, mayoristas, minoristas utilizando técnicas como la encuesta o «delphis». Si el interés del investigador es analizar la colocación del producto en el punto de venta para trabajos de merchandising, se pueden utilizar técnicas como los índices de presencia en el punto de venta.
1.3 La estadística en los negocios y la mercadotecnia Existe alguna discrepancia acerca de las técnicas estadísticas que forman parte de la metodología de la investigación de mercados. Mientras que, por un lado, se afirma que “sin muestreo, la investigación de mercados tal como la conocemos actualmente no existiría”. Por el otro, se dice que “un estudio de mercado puede limitarse a una investigación sin dar lugar a ningún estudio muestral”. La primera afirmación está basada en la idea de que cada estudio de mercado necesita de una muestra representativa de la población objetivo. Tal es el 10
caso cuando se decide lanzar un nuevo producto al mercado, poniéndose a prueba en las unidades familiares cuya selección debe ser realizada con una metodología precisa. Se debe mencionar que un estudio de mercado no se limita solamente a sondeos con muestras, sino que además debe estar complementado por diversos estudios que implican uso de diversas fuentes de datos y diferentes técnicas y métodos. Con un estudio estadístico se determinan las dimensiones del mercado potencial, o se estudia la variación de ventas de la empresa, o se caracterizan los clientes por sus percepciones sobre el producto o el servicio. Para resolver estos problemas es necesario contar con datos estadísticos internos y externos de la empresa. También se necesita tomar en cuenta algunos factores económicos y asumir ciertas hipótesis sobre la empresa. Para tal fin se necesita de conocimientos en ciencias económicas, administración y sobre técnicas y métodos de la estadística; también es necesario el conocimiento y manejo de estrategias de gestión para conducir una empresa al camino de los logros. Por esta razón, si el dirigente no dispone de tiempo para realizar estos estudios, debe de consultar a un experto, pero éste no sólo debe ser un economista o un estadístico, sino que además debe tener conocimientos sobre negocios, ya que su consejo económicoestadístico no será de gran utilidad si únicamente se basa en cálculos de medias, de correlaciones múltiples, de coeficientes de variabilidad, etc., sino que debe de estar cerca del gerente, y de los jefes de distribución, de los empleados y de los obreros; debe hablar con los agentes, con quien dirige el servicio de ventas, compras y almacén; en pocas palabras debe de involucrarse en la vida de la empresa y del mercado. Viviendo esta experiencia y hablando con personas clave obtendrá ideas, hipótesis y explicaciones que le harán conocer ciertas causas y ciertas soluciones que podrá analizar y explotar al máximo valiéndose de su preparación técnica. Pero su habilidad y conocimientos no deben hacerle perder de vista las necesidades de su empresa y de su mercado. La necesidad de tener buenas estadísticas empresariales lleva a la utilización de datos contables. La fuente principal de las estadísticas internas de una empresa debería estar constituida por la contabilidad. En otras palabras, los datos contables además de servir para cuadrar balances y diversos documentos administrativos y justificar cada uno de los gastos e ingresos, deberían servir para suministrar las series estadísticas sobre las ventas, productividad de los varios agentes, rendimiento de publicidad, etc. Utilizar estos datos como series estadísticas, quiere decir realizar y presentar tales datos de manera que den por sí mismos un significado y un valor para las decisiones. Para tal motivo, se deberá de recurrir a medias, a proporciones, a números índices, a representaciones gráficas, a medidas de variabilidad, etc. Aunque los datos contables deben ser exactos, los resúmenes estadísticos se proporcionan como aproximaciones razonables, que permiten tomar decisiones. Hay que garantizar que estos datos estén al día. La cultura estadística es muy útil en todos los niveles de la empresa u organización.
11
No se trata solamente de sobrecargar a una empresa con registros, informes y elaboraciones de cifras y tablas que respondan a registros estéticos, sino de instrumentar metodologías para que las oficinas que reciben y recogen datos puedan utilizarlos y obtener de ellos los elementos estadísticos que les sean indispensables. A la recopilación de datos estadísticos se le da el nombre de extracontables. Estos datos tienen el carácter de síntesis, de anonimato; son producto de elaboraciones, mientras que los datos contables son analíticos, individuales, nominativos. Pero poco importa distinguir entre un dato contable y un extracontable. Lo que realmente tiene sentido es el hecho de conjuntar datos útiles, cuyas características contribuyan a un mejor conocimiento de la empresa, la manera en que ésta viene actuando, su eficiencia, sus posibilidades futuras y el rendimiento que proporciona. En conclusión, la recopilación de datos de cualquier tipo es una estrategia que ayuda a controlar, a medir y a realizar investigaciones en el ámbito empresarial, creando con esto una mejor operatividad en la empresa. Debido a que las necesidades varían de empresa a empresa, es necesario tener un método propio de recopilación de datos, que cumpla con las especificaciones y requerimientos particulares. Es por esto que no existen indicaciones rígidas, pero si hay una serie de lineamientos para el manejo de estadísticas empresariales. En este sentido, hay una serie de datos que pueden ser comunes a todas las empresas, entre los que destacan: Estadísticas de la clientela final. La clientela final se clasifica en clientes fieles, clientes nuevos y clientes potenciales. También se puede incluir una distribución territorial de clientes y productos. Para consumo, la clasificación tendrá que hacerse por factores económicos, sociales y considerando el sexo y la edad, entre otras variables. Clasificar los clientes por montos de ventas es de gran utilidad. Este tipo de estadísticas son necesarias como base de la política empresarial, si se considera que el primer objetivo de una organización está en satisfacer a los clientes. Estadísticas de pérdidas. Se refiere a cifras bien definidas, comparando la demanda con órdenes de pedido que se han transmitido a la empresa. Así, es posible investigar las pérdidas y los motivos de éstas. Estadísticas de los pedidos. Esta no es otra cosa que un estado de situación en cuanto a los productos con que se cuenta. La estadística se elabora por la cantidad y valor de los productos, clasificación de clientes, su distribución territorial, y la periodicidad. Aquí se incluye los motivos por los cuales ciertos pedidos se dejan de surtir. Estadística de las ventas. Esta es una de las estadísticas fundamentales para cada empresa, donde los datos por cantidad y valor se anotan con cierta periodicidad determinada. 12
Estadística de pagos. Aquí se especifica el tipo de pago. Este puede ser al contado, diferido, con intereses, a plazos, con notificación, etc. Estadísticas de los precios de ventas. Aquí se incluyen los precios de catálogos, los documentos y el precio neto de cada artículo. Estadística de las reclamaciones. Es una numeración y caracterización de reclamaciones, cambios o reposición de mercancías especificando los motivos. La mejora del servicio se puede lograr tomando en cuenta estas estadísticas. Estadísticas de producción. Es una caracterización del estado de los productos, de acuerdo con los meses y con los destinos. Además de especificar los establecimientos que los ordenaron. Estadísticas de los costos de producción. Aquí se considera el costo de cada producto, separándolo según su fase de elaboración. Estadísticas de rendimiento. Estas cifras refieren a la producción de los empleados en cada departamento; las ventas que se tienen por cada vendedor y a su vez un volumen de ventas de la empresa. Estadísticas de costos de nuevos clientes: Es una evaluación de las captaciones y mantenimiento de nuevos clientes, localizando nuevos puntos de ventas, para lanzar nuevos productos. Además considera una comparación de las ventas y los costos de los nuevos productos con respecto a los ya existentes. Estadísticas de la competencia. Es una enumeración, distribución territorial y categorización de los competidores. Estadística publicitaria. Es una elaboración de los gastos que implican los distintos medios publicitarios por meses, productos rendimientos según las formas de publicidad.
1.4 Caracterización de los clientes y usuarios Muchas veces los gerentes de una empresa necesitan o desean conocer cómo es que los clientes ven las cosas, ya que esto es muy importante, porque permite entender al marco de referencia de una persona y de esta manera se ve la realidad tal cual es. Para que un gerente vea su negocio desde el punto de vista del cliente, se requiere de ciertas herramientas y técnicas; un reconocimiento de factores demográficos y psicográficos, y un conocimiento básico de los métodos y herramientas de investigación. Los factores demográficos son útiles para analizar la percepción de los clientes. Pensemos en los factores demográficos como las 13
estadísticas vitales sobre los clientes. Por ejemplo, cuando salimos a comprar ropa, aunque el vendedor reúne cierta información demográfica sobre nosotros, como estatura, peso, medidas, etc., el vendedor aún no sabe cuáles son nuestros gustos, colores preferidos; sólo tiene datos generales sobre nosotros. Los datos demográficos son datos sobre perfiles reales de los diferentes segmentos de clientes a quienes se pretende llegar con algún producto o servicio; incluyen información sobre características fundamentales de los clientes, tales como edad, sexo, estado civil, ingresos, etc. Permiten conocer el tamaño, densidad y distribución de diferentes grupos de clientes. Debido a que los factores demográficos suministran el perfil de los clientes, éstos constituyen la primera fuente de información. Estos datos son el medio más común para identificar nuevos objetivos para algún producto o servicio; es decir, ayudan a conocer quiénes son los clientes. Los datos demográficos se pueden obtener de censos estatales y locales, si es que se necesitan datos generales. Muchas organizaciones cuentan con departamentos que se encargan de recoger perfiles demográficos de clientes. Si algún negocio no lo tiene, puede recurrir a una fuente externa para que le proporcione esta información. Sin embargo, los datos demográficos no dirán por qué compran los clientes, cómo lo hacen, ni acerca de qué los motiva, irrita, los hace venir o alejarse. Para esta información se necesitan datos psicográficos. Con estos datos se responde a preguntas que le inquietan al gerente, como: ¿qué les viene a la mente a los clientes cuando piensan en su negocio?, ¿qué les motiva?, ¿qué pasa por su cabeza en el momento de la verdad?, etc. Es decir, estos datos son útiles cuando “nos queremos meter” en la cabeza del cliente para saber qué es lo que piensa o siente acerca de algún producto o servicio. Los datos psicográficos explican en gran parte los factores críticos en las evaluaciones hechas por los clientes; y permiten conocer los acontecimientos significativos asociados a la satisfacción con algún producto o servicio. Estos datos son importantes porque nos dan un conocimiento y una idea sobre qué motiva e influye en los clientes en sus relaciones con el negocio. Muchos negocios pueden cometer errores en este punto. Creer que saben de antemano lo que motiva a los clientes hace que se diseñen sistemas y métodos que pueden no ser apropiados para elevar la satisfacción. Existen diferentes tipos de clientes, dependiendo de lo que ellos quieren y cómo salen a conseguir lo que quieren. Algunos clientes están más orientados hacia el proceso que hacia el contacto con la gente; es decir, hacia los empleados encargados del servicio. Generalmente se interesan más por cómo funcionan las cosas que por el componente relaciones humanas. Otros le dan más importancia a la relación humana. Dependiendo de cómo salen los clientes a conseguir lo que quieren, algunos operan con un nivel alto de exigencia y otros se conforman con niveles bajos de atención. Los clientes exigentes generalmente quieren lo mejor, piden que las cosas funcionen bien desde la primera vez y tienen poca tolerancia para las fallas 14
de los sistemas. Estos clientes tienen una necesidad de status y reconocimiento; quieren que los atiendan bien, exigen y pueden pagar por lo mejor. Los clientes poco exigentes son más pasivos que agresivos, ellos confían más en la gente que en los sistemas. Necesitan orientación y desean que siempre los lleven de la mano cuando pasan por todos los procesos de la organización; tienen una gran necesidad de contacto humano y hacen mucho hincapié en cómo los tratan. Los datos psicográficos los podemos obtener por medio de entrevistas personales y grupos foco, por encuestas telefónicas o aplicando cuestionarios personalmente. Hay que recordar que los grupos foco y las entrevistas ayudan a identificar factores potenciales de los clientes, pero se debe verificar si lo que han dicho es verdad para una muestra representativa de la población de clientes. Se pueden obtener datos psicográficos sobre clientes típicos con base a perfiles de mercadeo. Existen servicios comerciales disponibles, que suministran perfiles de clientes en este sentido. Existen métodos de investigación para obtener información sobre los clientes. Los métodos más utilizados son los métodos cualitativos y cuantitativos. Los métodos cualitativos nos permiten evaluar la forma como el cliente organiza su mundo: nos permiten ver a través de los anteojos del cliente. Estos datos no se utilizan para probar algo estadísticamente. Con este método podemos obtener una imagen más clara de sus valores, expectativas, etc. En cambio, las técnicas cuantitativas son fundamentalmente las de evaluación estadística, nos permiten verificar las tendencias subjetivas y factores que surgen en la investigación cualitativa. Aquí se utilizan encuestas y cuestionarios cuidadosamente diseñados y ejecutados. Es recomendable empezar con los métodos cualitativos y después continuar con los cuantitativos para verificar si lo que encontramos con los clientes frente a frente es generalizable. Los datos cualitativos se obtienen mediante entrevistas a fondo, frente a frente, entrevistas telefónicas, entrevistas con grupo foco, etc. Y los datos cuantitativos mediante encuestas. El método fundamental para medir la satisfacción del cliente se orienta a la entrevista personal por la vía de la aplicación de un instrumento (cuestionario), cuidadosamente diseñado y validado.
1.5 Necesidades y satisfacción de clientes Los cuestionarios para evaluar la satisfacción del cliente tienen el propósito de determinar las percepciones y actitudes de la clientela en relación con la calidad del servicio o producto recibido. El conocimiento de las percepciones y actitudes de los clientes acerca de las actividades comerciales de una organización brinda más oportunidades de tomar mejores decisiones comerciales. Para tal fin, es preciso que los instrumentos de satisfacción del cliente midan con 15
exactitud estas percepciones y actitudes. Si los instrumentos se formulan con deficiencias y no representan con exactitud las opiniones de los clientes, las decisiones basadas en esta información podrían ser perjudiciales para la organización. Los aspectos de medición de la satisfacción del cliente, como parte de los criterios de premiación de la garantía de calidad de la organización, continúan siendo un aspecto importante. Por ejemplo, en el Premio Malcolm Baldrige la satisfacción del cliente destaca la importancia de entender a éstos. Se identifican tres categorías de evaluación; en la categoría 1, las compañías se evalúan, en parte, con base en el método que emplean para determinar las necesidades, expectativas y preferencias de los clientes. Las empresas tienen que demostrar: 1. Cómo se determinan los grupos de clientes y la manera en que los enfoques para escuchar y aprender varían entre estos grupos; 2. Cómo se determinan las características de los productos y servicios, y 3. Cómo el enfoque de la compañía hacia la atención de sus clientes y mercados se evalúa y perfecciona. En la categoría 2, las empresas se evalúan con base en el método empleado para determinar y aumentar el nivel de satisfacción de su clientela. Específicamente, se pide a las empresas que demuestren: 1. El método que emplea la compañía para determinar las necesidades de contacto con sus clientes y cómo se comunican éstas a todos los empleados, así como la manera en que la empresa evalúa y mejora el desempeño de contacto con los clientes; 2. El proceso de manejo de las quejas; 3. Cómo la compañía realiza el seguimiento para que los clientes reciban retroalimentación rápida; 4. Cómo se determinan los niveles de satisfacción de la clientela y cómo los usa la compañía, y 5. Cómo obtiene los datos sobre la satisfacción referentes a sus competidores. En la categoría 3, se evalúa a las empresas con base en los resultados de satisfacción del cliente y se les pide resumir de manera específica dichos resultados. Debe mencionarse que el uso de cuestionarios para evaluar la satisfacción del cliente resulta muy apropiado para las organizaciones del sector de servicios y otros campos no manufactureros. Debido a que la calidad se determina, en parte, por el grado en que los productos satisfacen las necesidades de los clientes, la medición de la calidad en escenarios no manufactureros probablemente se indexe mejor a través de las percepciones de los clientes sobre el servicio recibido. Por otro lado, aunque la percepción de los clientes sobre la calidad de los productos probablemente esté correlacionada con los índices objetivos de la calidad, pueden y deben usarse las mediciones de satisfacción del cliente para evaluar las percepciones de éstos. Por tanto, los cuestionarios de evaluación de la satisfacción del cliente se emplean tanto en el sector manufacturero como en el no manufacturero. El uso de tales cuestionarios ofrece a las compañías otro enfoque en la evaluación de la calidad de sus productos. Concentran la atención de la empresa en los clientes y en cómo éstos perciben los productos y servicios de la organización. El deseo de medir las actitudes de la clientela debe ser igual al conocimiento para diseñar cuestionarios de satisfacción del cliente; es preciso mantener el mismo 16
ritmo que este interés siempre creciente en las cuestiones relativas a la satisfacción del cliente. Lo que no debe perderse de vista es que las necesidades de los clientes definen la calidad de los productos o servicios. El conocimiento de las necesidades de los clientes es esencial por dos razones. En primer lugar, proporciona un mejor entendimiento de la manera en que los clientes definen la calidad de los servicios y productos. Si uno comprende esas necesidades estará en una mejor posición para saber cómo satisfacer a la clientela. En segundo término, el conocimiento de las necesidades de la clientela facilitará la elaboración del cuestionario de satisfacción del cliente.
1.6 Preguntas de repaso Conteste las siguientes preguntas con sus propias palabras 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
Construye una definición de investigación de mercados ¿Cuál es el objetivo de la investigación de mercados? ¿Qué es el marketing mix? ¿Qué tipos de estudio de mercado hay en función del componente de marketing mix? ¿Cuál es la importancia de los datos demográficos y sociográficos en la caracterización de clientes? ¿Cómo explica usted el papel de la mercadotecnia en las organizaciones contemporáneas? ¿Qué impacto tiene la mercadotecnia en los procesos de calidad de una organización? ¿Cuál es la fuente principal de información para establecer los objetivos de la investigación de mercados? Explique brevemente las 3 categorías de los criterios del premio Malcom Baldrige que destacan la importancia de la satisfacción del cliente. ¿Para qué es necesaria la identificación de las necesidades de los clientes de una empresa? ¿Para qué le sirve a una empresa evaluar la satisfacción de sus clientes y cómo impacta en sus procesos? ¿Por qué hoy en día los estudios de mercado deben enfocarse de manera más contundente a la satisfacción del cliente? ¿Cuál es el rol que juega el cliente dentro de las fuerzas que mueven un mercado?
17
UNIDAD 2. DISEÑO DE ESTUDIOS DE MERCADO Y SATISFACCION DE CLIENTES 2.1 Aspectos generales La investigación de mercados ha tenido un auge y un desarrollo acelerado en los últimos 50 años. Las organizaciones manejan diferentes conceptos; algunas la definen simplemente como la recopilación de datos y otras especifican bien las responsabilidades; otras más consideran que la investigación de mercados provee información para la toma de decisiones. La investigación de mercados es un enfoque sistemático y objetivo hacia el desarrollo y provisión de información aplicable al proceso de toma de decisiones en la gerencia de mercadeo (Kinner y Taylor, 1991). Sistemático dado que el proyecto de investigación debe de estar bien elaborado; se debe de establecer el tipo de análisis que se va a utilizar, qué datos son los que se van a ocupar, etc. Objetivo dado que se tiene que observar la realidad tal y como está expuesta, adversa a la subjetividad que implica una inclinación personal para interpretar la misma. La información y el proceso de toma de decisiones, diferencian a la investigación de mercados de la investigación de otros campos. Como ya se mencionó anteriormente, la investigación de mercados proporciona información, no datos, al proceso de la toma de decisiones. La definición de investigación de mercados no se puede explicar totalmente con la experiencia y el criterio; se requiere la información y seguir el proceso de decisiones, ya que las características de la experiencia y criterio aparecen de manera informativa (que es una ventaja de la investigación de mercados); no como simples conjuntos de datos. Los términos sistemático y objetivo no es aplicable, el primero significa que debe de haber una organización y procesamiento de datos, ya que el criterio y la experiencia se basan en la adquisición de conocimientos sobre el sistema de mercados a través de experiencias personales; y el segundo dice que la investigación de mercados debe enfocarse a la realidad.
2.2 Tipos de investigación de mercados Los estudios que se realizan en la investigación de mercados pueden clasificarse en investigación básica y en investigación aplicada. La primera busca abarcar más los conocimientos en algún aspecto del sistema de mercadeo, en cambio la investigación aplicada busca ayudar a los gerentes para que tomen mejores decisiones; esto es, hacerles más fácil la toma de decisiones; tales 18
estudios están dirigidos a situaciones específicas de la organización y determinados por las necesidades del proceso de la toma de decisiones; la investigación básica es menos específica, son más amplios sus propósitos, y son guiados por las hipótesis y teorías de mercados. Estudios de caracterización de clientes son investigaciones básicas mientras que un estudio de preferencia de marca es aplicado. Los dos tipos de investigaciones se pueden diferenciar muy fácilmente, ya que mientras que la investigación básica se realiza de una manera más detenida y completa, la investigación aplicada se realiza de acuerdo con las necesidades de información que requiere la persona que va a tomar la decisión. La investigación de mercados puede clasificarse en: 1) investigación exploratoria, 2) investigación concluyente, e 3) investigación de desempeño o de seguimiento. La investigación exploratoria se realiza en las primeras etapas del proceso de la toma de decisiones; es un estudio preliminar de la situación con gasto mínimo en dinero y tiempo. Es apropiada cuando la gerencia busca oportunidades, nuevas ideas o hipótesis relacionadas con la situación; esto es, el objetivo es ampliar las alternativas que van a evaluarse para elegir la más conveniente. Por otro lado, la investigación concluyente proporciona información para evaluar y elegir la línea de acción adecuada. Finalmente, la investigación de desempeño o seguimiento se realiza una vez que ya se eligió la línea de acción y ya está en marcha el programa de mercadeo; es un estudio para saber qué está pasando con el programa, si está funcionando de acuerdo con los planes establecidos. En otras palabras, este tipo de investigación nos permite controlar los programas de mercadeo.
2.3 Proceso de la investigación El proceso de investigación se compone de una serie de pasos. Hay múltiples versiones de este proceso. Aquí presentamos una versión de este proceso basada en nueve pasos. 1) Las necesidades de información. Aquí se pone de manifiesto las necesidades que existen para realizar la investigación de mercados. En pocas ocasiones, cuando el gerente pide ayuda especifica claramente la necesidad de información. Es tarea del investigador entender las razones por las cuales se necesita información. El gerente tiene la obligación de explicar la razón por la cual ha solicitado ayuda y poner en claro que la información de la investigación facilitará la toma de decisiones. La investigación exploratoria debe de clarificar la situación de decisión, para poder determinar un proyecto formal de investigación. 2) Objetivos de la investigación y necesidades de información. Cuando ya se especificó la necesidad de información, el investigador debe de enumerar los objetivos de la investigación y enumerar las necesidades de información para delimitar y establecer con precisión los objetivos propuestos. Aquí el gerente 19
debe de estar colaborando para proveer la información que necesita el investigador. 3) Fuentes de datos. En este punto se determina si los datos pueden considerarse actualizados; además de conocer las fuentes de datos internas o externas de la organización. Las fuentes internas son investigaciones que se hicieron anteriormente, los archivos que existen en la compañía, etc. y las fuentes externas son informes gubernamentales u otro tipo de estudios no realizados por la organización. Si se encuentran datos que cumplan con las necesidades de información, el investigador debe de analizar cómo fue realizada esa investigación, para verificar si es confiable y precisa; si los datos no se obtienen de estas fuentes, entonces hay que hacer la recopilación de datos, ya sea por teléfono, por correo, usando una encuesta, un sondeo, etc. 4) Formatos para la recopilación de datos. Para la recopilación de datos el investigador debe de tomar en cuenta las necesidades de información, las preguntas que se harán y las observaciones que deben registrarse; los datos se pueden recopilar por medio de entrevistas, por medio de observación; si se hace por medio entrevista, ésta es más complicada, debido a que se deben elaborar las preguntas, analizar la secuencia que deben llevar; y por observación los formatos deben diseñarse para facilitar el registro de los eventos o características a observar. 5) Diseño de la muestra. Se debe tener en cuenta qué es lo que se va a incluir en la muestra: es decir, se debe tener bien definida la población de la cual se va a tomar la muestra de acuerdo a la situación que se está planteando, así como tener bien definida la unidad de estudio. La determinación de la población objetivo y la población a muestrear son aspectos fundamentales que un profesional estadístico puede ayudar a clarificar. 6) Recopilación de datos. El proceso de recolección de datos es crítico, debido a que abarca gran parte del presupuesto que está diseñado para la investigación, y un gran porcentaje del error total en los resultados de investigación. El error se debe a gran parte a las entrevistas, ya sea porque el encuestado no seleccionó bien la unidad de estudio, o por una realización incorrecta de las preguntas, o por trampas, entre otros. 7) Procesamiento de datos. En esta parte se utilizan las funciones de edición y codificación; la primera revisa los formatos con los cuales se recopilaron los datos; es decir, que sean legibles y consistentes; y la segunda función trata de determinar las categorías por respuesta; con el fin de que se puedan enumerar y se puedan manejar de forma fácil. Es entonces cuando los datos están listos para la captura en algún sistema computarizado. Previo al análisis de los datos se debe verificar la calidad de los mismos, detectar errores de captura e identificar aspectos de estructura de la base de datos. 8) Análisis de datos. El análisis de datos se realiza de acuerdo a las necesidades de información que se requieran: el análisis puede ser univariado, bivariado o 20
multivariado; el primero consiste en el estudio de una sola variable; es decir, de manera individual, el objetivo de realizar este análisis es hacer una descripción más profunda del grupo de datos; el segundo análisis se utiliza para ver la relación que existe entre dos variables y el tercero se refiere al análisis de tres o más variables. La estadística nos dota de técnicas, procedimientos y métodos para realizar análisis que cumplan con los objetivos de la investigación. 9) Presentación de los resultados. Generalmente los informes de la investigación se dan a conocer al gerente por escrito y también por medio de una charla personal, además este informe debe de presentar los resultados claves de la investigación, ya que muchas veces los gerentes revisan cuidadosamente el resumen y sólo le dan una hojeada al contenido del reporte. Es fundamental poder traducir los resultados importantes en imágenes (gráficas) y pocas palabras. Una presentación bien elaborada ayuda a potenciar el valor de la investigación.
2.4 Levantamiento de datos La investigación de mercados utiliza por lo menos dos métodos para la recopilación de datos: la observación y la encuesta. Debemos tener en cuenta que tanto el método de observación como la encuesta están expuestos a un margen de error. Debido a que los estudios por medio de cuestionarios están más generalizados que los estudios por observación, en esta antología se aborda más el tema de la construcción de cuestionarios. 2.4.1 La observación En la recopilación de datos por medio de observación, como su nombre lo indica, los investigadores sin establecer comunicación con los sujetos de estudio, se limitan a observar las acciones y hechos que les interesan. En algunas ocasiones son personas las que se encargan de hacer las observaciones y en otras se utilizan dispositivos mecánicos para observar y registrar la información deseada. Un ejemplo de observación con personal son las que realizan dentro de un almacén para saber si la gente compra por impulso o se fija en el producto, si verifica los precios. Algunos ejemplos de observación mecánica son: el audímetro, que registra el número de receptores de radio y televisión que están sintonizados en determinada estación. Algunos dispositivos más especializados son el psicogalvanómetro, que mide las reacciones emotivas de las personas a través de los cambios en la sudoración, y la cámara ocular, qué últimamente ha tenido gran éxito pues registra cambios o movimientos de los ojos que pueden interpretarse, por ejemplo, como agrado o desagrado por un producto. 21
Por las condiciones de su aplicación, los estudios de observación son de cuatro tipos: Observación en situación natural. Se puede llevar a cabo con el conocimiento del observado o sin él, como en el caso de un audímetro. Un ejemplo de una observación en situación natural es cuando al observador aparenta ser un cliente de la tienda y observa a los verdaderos clientes; por ejemplo: qué productos piden, cómo reaccionan ante ellos, etc. La desventaja de este método es que el investigador debe esperar a que ocurran los sucesos deseados. Observación en situación artificial. Se crean situaciones artificiales para obtener en menor tiempo la información deseada, con la desventaja de que el comportamiento del individuo puede variar al sentirse observado y falsear sus actitudes. Observación no estructurada. Se coloca el observador en un lugar estratégico y se van registrando los hechos y acciones que se juzgue convenientes para el estudio. Este tipo de observaciones es muy subjetivo y puede inducir a errores cuando el observador pasa por alto situaciones que podrían ser de gran importancia. Observación estructurada. Se debe planear y anotar con mucha precisión cuáles son los hechos que se deben observar, para eliminar, en lo posible, los errores subjetivos de los observadores. Esta técnica se emplea básicamente para medir la conducta del consumidor en un lugar determinado, que puede ser un centro comercial, una tienda departamental o de autoservicio, una farmacia, zapatería, etc. Se coloca a un observador en un lugar estratégico para registrar sólo los movimientos de sujeto observado. Se anota de manera descriptiva, sin interpretación, la conducta seguida por éste, antes de decidirse por determinado producto; por ejemplo, si leyó las instrucciones, si cotejó tamaño, precios o si llevó el producto sin racionalizar la compra, tomándolo del anaquel como si fuera una conducta habitual o pidiéndolo al dependiente sin dudar en la marca, tipo o tamaño deseado. 2.4.2 La encuesta La encuesta es uno de los métodos más utilizados en la investigación comercial. Es un método que sirve para obtener información específica de una muestra de la población por medio de preguntas que pueden ser de forma oral o escrita. 22
2.4.2.1 Cuestionario A la lista formal de preguntas se le llama cuestionario. La función del cuestionario es la medición: puede medir el comportamiento pasado (a menos que existan registros, los eventos pasados no podrían ser analizados más que por el método de cuestionario); puede medir las actitudes, esto es, las actitudes, que no se pueden medir de otra manera más que por este método; también puede medir las características del perfil del encuestado, como edad, sexo, nivel socioeconómico, etc. Ventajas y desventajas del cuestionario Una de las ventajas es su versatilidad, ésta es quizá la más importante, la cual permite que casi todos los problemas de la investigación de mercados puedan ser analizados a partir de un cuestionario. Debido a que en todo problema de mercado están involucradas personas que pueden ayudar a ver dónde está el problema y qué solución es posible darle, y esto se logra por medio de un interrogatorio. Otra de las ventajas es la rapidez y costo; la encuesta es más rápida y más barata que la observación y proporciona a los entrevistadores un mejor control de sus actividades comparado con los observadores, además se pierde menos tiempo en un estudio realizado por medio de un cuestionario. Una de las desventajas que tiene el cuestionario es la posible renuncia de los interrogados a proporcionar la información. En muchas ocasiones los entrevistados se niegan a responder una lista de preguntas de un desconocido, ya sea porque el tema de la entrevista tiene muy poco o ningún interés para el entrevistado, aunque el entrevistador sea muy amable y tenga carácter para tratar a las personas y lograr su cooperación, el entrevistado se niega a ceder un poco de su tiempo para la entrevista o a contestar algunas preguntas específicas, especialmente como las que se refieren al ingreso, o aquellas que son de índole personal. Para superar esta apatía por parte de los entrevistados, se han desarrollado varios métodos; el más importante es el arte de vender por parte del entrevistador. Las recompensas en efectivo muchas veces ayudan a conseguir la cooperación de la gente, asegurándole al entrevistado que sus respuestas van a ser tratadas confidencialmente. Todas estas maneras ayudan a obtener la cooperación de la gente sobre todo cuando las preguntas son de índole personal. Otra parte de las desventajas es la incapacidad de los entrevistados para proporcionar información. Muchas personas se encuentran en la mejor disposición de cooperar, pero están incapacitadas para responder a las preguntas que son de interés para el investigador de mercados, ya sea que no recuerdan los hechos deseados, o porque nunca los han conocido; por ejemplo un entrevistador puede preguntar ¿Cuántas veces comió carne en el desayuno durante el mes pasado?, pocas personas podrán responder con exactitud, ya que rara vez las personas se 23
percatan de tales datos o no lo recuerdan. La única manera de solucionar este problema, es realizar la encuesta cuando los eventos de interés están aún recientes en la mente de los entrevistados. Es esa una recomendación, también, para redactar preguntas que pueden ser contestadas por cualquier entrevistado. En algunas ocasiones se le puede ayudar al entrevistado para que recuerde, para esto se utilizan técnicas de facilitación de memoria; por ejemplo si a una persona se le pregunta ¿Cuáles canciones ha oído recientemente en la radio? Dirá unas cuantas, pero no todas; sin embargo, si el entrevistador le comienza a mencionar alguna en particular, puede recordar si la ha oído o no. Pero este tipo de ayuda puede traer consigo peligros que deben de ser considerados cuando se va a utilizar esta técnica, ya que tal ayuda puede provocar que los entrevistados piensen que han visto u oído el enunciado que se les mencionó aún cuando no lo hayan hecho. Si a una persona se le pregunta algo que no puede contestar, ya sea por ignorancia o porque no conoce la información deseada, se sabe, por estudios realizados, que de todas maneras responde, ya sea porque quiere impresionar al entrevistador o simplemente por contestar. Por esta razón se le debe de hacer a las personas sólo aquellas preguntas que tengan la capacidad de contestar. Otra de las desventajas es la influencia del proceso de cuestionar. Si la respuesta a una pregunta es embarazosa o comprometedora, es casi seguro que los encuestados no contestarán correctamente. Contestarán correctamente a preguntas como ¿le gusta el fútbol profesional? o ¿qué marca de automóvil prefiere?, pero se requiere mucho mayor cuidado en el diseño y aplicación de la entrevista cuando se trate sobre ingresos o sobre una evaluación para alguna revista a la cual está suscrito, etc. Componentes principales del cuestionario Un cuestionario se puede aplicar por medio de entrevistas personales, telefónicas o por correo; generalmente está compuesto por cinco secciones: 1) Información de identificación de datos. Esta información ocupa la primera sección del cuestionario, es donde puede registrarse, en caso necesario, el nombre del encuestado, la dirección y el número de teléfono, también incluye el tiempo y fecha de la entrevista, pero esta información es adicional. 2) Solicitud de cooperación. Es un pequeño párrafo donde se identifica el entrevistador y la organización en la cual trabaja; se explica además el objetivo de la encuesta y el tiempo que se requiere para terminar la entrevista; esto se hace con el fin de obtener la cooperación del encuestado. 3) Instrucciones. Se refiere a comentarios que se le hacen al encuestado o entrevistador para informarles como deben de utilizar el cuestionario. 24
4) Información de clasificación. Esta trata sobre las características del encuestado; en el caso de las entrevistas por correo esta información es manejada por el encuestado, en las entrevistas personales y telefónicas la información es recopilada por el entrevistador. Esta información puede ser recopilada al final de la entrevista, aunque puede incluirse al principio, siempre que no cause desconfianza o invada la intimidad del entrevistado. 5) Información solicitada. Esta parte forma la porción más grande del cuestionario. Diseño del cuestionario En el diseño de un cuestionario no existen pasos o reglas que garanticen la elaboración eficiente. El diseño del cuestionario es una técnica aprendida por el investigador a través de la experiencia. La única forma de llevar a cabo un buen cuestionario es revisar el cuestionario nuevamente hasta estar satisfecho. Sin embargo, de acuerdo a la experiencia que han tenido algunos investigadores que se han dedicado a ésta área, han surgido una serie de pasos para el diseño del cuestionario, que pueden ser de gran utilidad a los investigadores principiantes, y así evitar errores graves. Sin embargo, aunque estas reglas son útiles, la calidad del cuestionario depende de la capacidad y criterio del investigador; este debe de ser creativo para darle el toque final al cuestionario. Las consideraciones preliminares del cuestionario se basan en métodos para establecer una unión efectiva entre el proceso de la toma de decisiones y el proceso de investigación. Esto es, establecer los objetivos de investigación y enumerar las necesidades de información. Se debe de formular el diseño de la investigación, visualizar y planear los pasos en el proceso de investigación, lo cual quiere decir que se deben tomar muchas decisiones antes de que se diseñe el cuestionario. El diseño del cuestionario está influenciado por las características del grupo de encuestados, mientras más heterogéneo sea el grupo de encuestados más difícil será realizar un cuestionario; generalmente el cuestionario debe realizarse de tal manera que lo puedan comprender todos los encuestados, hasta el menos capaz. También se deben visualizar las etapas del procesamiento y análisis de la información, así como la naturaleza de los resultados de la investigación. Antes de que se diseñe el cuestionario, el investigador debe tener una lista de todas las necesidades de información y una definición clara del grupo de encuestados. Las preguntas que se incluirán en el cuestionario deben surgir de esta lista, no se deben incluir preguntas innecesarias, a menos que facilite la colaboración del encuestado, ya que incluir estas preguntas aumenta el costo de la encuesta. Se deben de incluir primordialmente las preguntas que nos ayuden a obtener la información deseada. 25
El contenido de las preguntas tiene que ver con la habilidad o buena voluntad del encuestado para responder con precisión. El investigador debe de estar consciente de la capacidad del encuestado para proporcionar información. Mucha información no se puede recopilar con exactitud, ya sea porque el encuestado no está bien informado o porque sea olvidadizo, como se explicó anteriormente. Una vez que se han analizado los problemas que trae consigo el contenido de las respuestas, se debe de analizar el tipo de preguntas que van a utilizarse. Estas preguntas se basan en formatos de respuesta estructurados y no estructurados. Las preguntas pueden ser de respuesta abierta, de elección múltiple o dicotomía. En las preguntas de respuesta abierta, los encuestados tienen la libertad de contestar lo que ellos piensen que es lo correcto, con sus propias palabras. En la entrevista por correo se debe dejar un espacio para la respuesta, y en entrevistas personales el investigador debe de apuntar en el cuestionario lo que el encuestado conteste verbalmente. La ventaja de este tipo de preguntas es que permiten que se expresen las actitudes generales y pueden ser de gran ayuda para interpretar las preguntas más estructuradas. Además establecen una armonía y logran obtener la cooperación del encuestado para que conteste preguntas más específicas estructuradas; estas preguntas son muy importantes como introducción en una entrevista por correo. Otra de las ventajas es que puede proporcionar al investigador ideas, comentarios y razones útiles para darse una idea de los resultados de la investigación. Una desventaja de las preguntas abiertas, es que muchas veces el entrevistador no toma la respuesta tal y como se la da el encuestado, si no que escribe los puntos que considera más importantes; esto se debe a que los entrevistadores no escriben rápido o están limitados de tiempo y mientras más resuman la respuesta registrada menos se parecerá a la respuesta real. Cuando los entrevistadores utilicen este tipo de preguntas es conveniente utilizar una grabadora; otra desventaja es el tiempo y el costo asociado con la codificación de las respuestas, ya que en una encuesta grande se necesitan procedimientos exhaustivos de codificación, para resumir las respuestas en un formato útil para el análisis y presentación de la información. El tiempo y costo del proceso de codificación puede ser muy significativo en el costo total de la investigación. Las preguntas de respuestas abiertas son apropiadas para el análisis exploratorio de un problema. Algunas veces se utilizan preguntas precodificadas con el fin de aprovechar las ventajas de las preguntas abiertas y disminuir las desventajas en tiempo y costo. Una pregunta precodificada es una pregunta de elección múltiple. En las preguntas de elección múltiple el encuestado debe de elegir una respuesta de una lista suministrada en la pregunta. El entrevistado puede elegir una o más alternativas que se le presenten. Estas preguntas superan muchas de las desventajas de las preguntas abiertas; la más importantes es que reducen el costo y tiempo asociado con el procedimiento de la información. Pero también tiene sus desventajas, una de ellas es que el diseño de preguntas efectivas de la selección múltiple requiere de una cantidad considerable de tiempo y costo. Por lo general se requiere un estudio exploratorio con base a preguntas abiertas, para poder 26
desarrollar alternativas de repuesta; otra es que este tipo de preguntas tiende a parcializar la información de acuerdo con el orden en que se dan las alternativas de respuesta al encuestado. En general en las preguntas de respuesta múltiple se deben de tener muy presentes dos puntos muy importantes: el número de alternativas y la parcialidad en la posición. En las alternativas de respuesta, deben de estar incluidas todas las posibles respuestas, para cumplir con esto se debe de incluir la alternativa “otro”, para que se escriba la alternativa que no fue incluida; es decir, las alternativas deben de ser colectivamente exhaustivas y mutuamente excluyentes; esto es, los encuestados deben de elegir una alternativa que represente claramente su respuesta. Con respecto a la parcialidad de la posición, el investigador debe de alternar el orden de las alternativas, ya que cuando se trata de ideas, la primera alternativa de la lista tiene una mayor probabilidad de ser escogida. Las preguntas dicotómicas sólo presentan dos posibles respuestas “si” o “no”; “cierto o “falso”, etc. Las ventajas que tienen estas preguntas son las mismas que las preguntas de elección múltiple. Los entrevistadores consideran que las preguntas pueden administrarse con rapidez y facilidad; es menos probable que se presente una parcialidad por parte de del entrevistador, y además, son más fáciles de codificar y analizar. Pero también tienen sus desventajas; existe el riesgo de suponer que los encuestados enfocan el tema de interés en términos dicotómicos, cuando en realidad los encuestados tienen deseos de opinar acerca del tema o están indecisos sobre qué respuesta elegir. Se puede analizar la posibilidad de incluir una respuesta neutral; si no se incluye, el encuestado se ve forzado a elegir una de las dos alternativas que se le presenten; si se incluye el encuestado puede evitar tomar una posición sobre el tema, eligiendo la alternativa neutral. El problema consiste en decidir si se incluye la alternativa neutral o no. Si la proporción de respuestas neutrales es grande, es mejor incluir la alternativa neutral; los resultados serán más precisos, pero si es pequeña es mejor no incluirla y forzar a los encuestados a que seleccionen una de las dos alternativas. La decisión sobre la formulación de las preguntas es muy importante, ya que las preguntas representan el vínculo entre la información y las necesidades de información del estudio. Es muy importante que el investigador y el encuestado le den el mismo significado a la formulación de las preguntas, ya que si no es así, ocasionará graves errores de medición en los resultados. El investigador debe de estar consciente del efecto que causa la formulación de preguntas. Esto es, se deben de formular las preguntas de manera que los encuestados las entiendan y así de esta manera se puedan obtener los resultados deseados. Existen nueve pautas que debe de considerar el investigador para diseñar las preguntas: 1) Utilizar palabras sencillas. Es decir, las palabras que se utilicen en el cuestionario deben de ser adecuadas al vocabulario de los encuestados; por 27
ejemplo, las preguntas que se le hagan a un niño deben de ser más sencillas que las preguntas que se le hagan a un médico. 2) Utilizar palabras claras. Las palabras claras tienen un sólo significado para todos los encuestados; es decir, los investigadores deben estar seguros que los encuestados entiendan el significado de las palabras; por ejemplo, la palabra comida, para algunas personas la comida es al medio día, para otras es por la tarde, por esta razón se deben de formular las preguntas de manera que lo que se quiere preguntar esté claro para obtener los resultados deseados. 3) Evitar preguntas que sugieran la respuesta. Es decir, éstas son una clave sobre qué respuesta debe contestar el encuestado; por lo general estas preguntas reflejan el punto de vista del investigador, o de las personas que toman las decisiones, además originan un error de medición en los resultados; una pregunta de este tipo sería ¿tiene usted televisor Sony?, el encuestado puede creer que esta marca es la que está patrocinando la encuesta, y su respuesta puede ser afirmativa, aun cuando no tenga televisor de esta marca. 4) Evitar preguntas tendenciosas. Una pregunta parcializada incluye palabras o frases que sugieren un sentimiento de aprobación o desaprobación; con el sólo hecho de que una actitud o posición esté asociada con una persona o una organización prestigiada o no, parcializaría la respuesta del encuestado. Es muy difícil evitar preguntas que sugieran la respuesta, ya que las palabras o frases que parcializan la respuesta de un grupo de encuestados, pueden ser neutrales para otro. Una manera de identificar a los grupos que creen que la pregunta ha sido parcializada, es llevando a cabo una prueba piloto del cuestionario. 5) Evitar alternativas implícitas. Es conveniente especificar claramente las alternativas de repuesta; si se utilizan alternativas explicitas, éstas deben de estar donde les corresponden ya que si el número de alternativas es grande o complejo, las que están a lo último tienden a ser más elegidas. 6) Evitar suposiciones implícitas. Esto es, al formular un cuestionario deben de hacerse explicitas las suposiciones para evitar que la respuesta tienda hacia implicaciones lógicas propicias por haber hecho la pregunta de manera que los supuestos queden implícitos. 7) Evitar cálculos. Es decir, las preguntas no deben de diseñarse de tal manera que los encuestados realicen cálculos; por ejemplo, ¿cuántas veces compra huevos al mes? aquí el encuestado primero tiene que sacar la cuenta de cuántas veces compra huevo a la semana y luego multiplicarlo por cuatro; la pregunta estaría mejor estructurada de la siguiente manera: ¿cuántas veces compra huevos a la semana?, después el investigador puede multiplicarlo por las semanas que considere conveniente.
28
8) Evitar preguntas de doble respuesta. Por ejemplo, ¿cuántas veces compra y come huevo a la semana?, cuando la pregunta incluye “y” el investigador debe de analizarla muy bien para ver si no incluye dos respuestas. 9) Considerar el marco de referencia. El marco de referencia nos indica la óptica bajo la cual el encuestado contempla la realidad de la pregunta. Sobre esto puede hablarse de un punto de vista objetivo en el que se analiza la forma en que se relaciona la generalidad humana ante una pregunta formulada con ese carácter. El otro punto se refiere al aspecto subjetivo, en el cual el pensar personal del encuestado será evaluado por el entrevistador. El marco de referencia va a estar dado por los objetivos de la investigación. Lo esencial es que el investigador debe saber que se desea medir la opinión del encuestado y que hay muchos factores que pueden alterar los resultados del estudio. La decisión sobre las secuencia de las preguntas es muy importante, ya que de ésta dependen que se obtengan buenos resultados. La secuencia de las preguntas puede influir en la naturaleza de las respuestas del encuestado y puede ser la causa de un grave error en los resultados: la secuencia se debe más que nada a la capacidad del investigador experimentado. Algunas pautas útiles para un investigador inexperto: 1) Utilización de una pregunta de introducción sencilla e interesante. La primera pregunta de un cuestionario debe de ser interesante para el encuestado; ésta no puede tener nada que ver con las necesidades de información; se hace con el único propósito de obtener la cooperación del encuestado y darle confianza para que responda a las demás preguntas. 2) Formulación de preguntas generales primero. Es decir, para que no se presente una parcialidad en la encuesta, primero se deben de poner las preguntas generales y después las preguntas específicas. 3) Colocación de las preguntas poco interesantes y difíciles al final de la secuencia. Dado que los encuestados después de haber contestado a varias preguntas, sienten más confianza con el entrevistador y se muestran menos renuentes a contestar preguntas personales y embarazosas. 4) Colocación de las preguntas en orden lógico. Es decir, las preguntas que se diseñen deben de llevar una lógica, ya que si se cambia un tema repentinamente puede ocasionar confusión en los encuestados y además crear indecisión. La decisión sobre las características físicas del cuestionario es importante; el cuestionario debe estar bien presentado, en un papel de calidad y buena tipografía, ya que esto puede influir en el logro de la cooperación del encuestado, particularmente en las entrevistas por correo. Es muy importante que aparezca en la primera página el nombre de la institución que está realizando la entrevista y el nombre del proyecto; en las entrevistas personales o por teléfono, los cuestionarios deben de enumerarse en serie, ya que esto facilita el control del 29
cuestionario en las operaciones de campo y durante el procesamiento de la información. Por último, se lleva a cabo una prueba piloto, una revisión y una copia final, con el fin de llegar a la aplicación final del cuestionario. Prueba preliminar del cuestionario (prueba piloto). Una vez elaborado el cuestionario la prueba preliminar se hace necesaria, y se debe probar en una submuestra, con el objeto de comprobar el grado de eficacia del mismo, ya que a través de ella se podrían encontrar errores y actuar sobre ellos para modificarlos obteniendo así un cuestionario libre de confusiones. La realización de la prueba preliminar requiere de investigadores bastante capaces para detectar áreas en las que exista confusión y explicar el por qué de esta confusión. Asimismo se debe de encontrar las palabras que sean poco claras al entrevistado y encontrar todas aquellas dificultades en el manejo del cuestionario por parte del encuestador y el encuestado. Es recomendable que en la prueba preliminar se consideren entre 15 y 30 entrevistas. Así mismo, la duración aconsejable del cuestionario no debería ser mayor a treinta minutos, aunque lo básico es la fluidez del mismo ya que hay cuestionarios muy largos que tienen éxito. Cuando la prueba preliminar indique que deben realizarse cambios y estos se hayan realizado, se deberá hacer otra prueba preliminar hasta que los cambios sean menores, teniéndose así un cuestionario listo para aplicarse en el campo. El grado de dificultad del cuestionario será fácilmente detectable si existe un gran número de respuestas en blanco o con respuestas de no sabe o no contesta. Por lo tanto se deberá realizar las correcciones oportunas, la reformulación de algunas cuestiones, hasta dar el visto bueno final al cuestionario definitivo. Por último comentar la necesidad de precodificar las respuestas del cuestionario con el fin de poder procesarlo con rapidez en el ordenador y llevar a cabo la tabulación de los datos. Por ello será necesario asignar a cada pregunta un código a cada respuesta y que aparezca en la impresión del cuestionario. 2.4.2.2 La entrevista La entrevista se utiliza para recabar información en forma verbal, a través de preguntas que propone el entrevistador a un entrevistado. La entrevista es un intercambio de información.
30
Existen tres alternativas de entrevistas: personal, postal o telefónica. No existe un método mejor que otro, lo importante es utilizar el que mejor se adapte a nuestras exigencias y requerimientos. Es decir, hay que escoger el método correcto para cada caso porque de no hacerlo, se corre el riesgo de obtener información no válida y desperdiciar recursos económicos. Entrevista personal Consiste en realizar una entrevista encuestador a otra denominada encuestado.
por una persona denominada
Existen varios tipos: Entrevistas estructuradas. Las cuales se realizan utilizando un cuestionario elaborado previamente. El entrevistador por tanto se limita a pasar secuencialmente el cuestionario a la persona que proceda. Entrevistas semiestructuradas. El entrevistador utiliza como herramienta un cuestionario no muy extenso y tiene cierta libertad en la confección del mismo en función del entrevistado. Entrevista libre o en profundidad. No existe un cuestionario previo aunque sí un guión para evitar perderse y no alcanzar los objetivos buscados cuando los temas de debate se hayan alejado en exceso de los deseados. El entrevistado puede libremente expresarse sobre los temas que se plantean. Este tipo de entrevistas requiere una gran experiencia del encuestador. La duración de las mismas es mayor. Si la clasificación es en función del lugar donde se realiza la encuesta personal tenemos dos tipos de entrevistas personales: las entrevistas personales puerta a puerta, estas se suelen utilizar para investigaciones de tipo general y tienen que responder en un contexto que no influye a sus respuestas. Por otro lado, están las encuestas in situ las cuales se realizan en lugares relacionados con el objetivo del estudio, con el fin que la información se obtenga en un ámbito más real. En cuanto a las ventajas que aporta podemos destacar: La flexibilidad y versatilidad. Se puede elaborar como uno quiera en longitud, formato, contenido. Pudiendo realizar cualquier tipo de pregunta por lo que en muchas ocasiones es la mejor forma de obtener información sobre opiniones y actitudes del consumidor.
31
El alto grado de respuestas. Son pocas las personas que declinan responder al ser un contacto tan directo y muchas menos las que lo abandonan una vez iniciado. Se puede realizar a cualquier persona independientemente de su status social, cultural, etc. En las respuestas del entrevistado se evita la influencia de terceras personas. Mediante las explicaciones de las preguntas y de las posibles respuestas del entrevistador se eliminan las respuestas evasivas No sabe (NS)/ No contestó (NC). Se puede mostrar o entregar cosas al entrevistado, tales como anuncios, paquetes, productos, etc., Por lo que si se requiere hacer alguna demostración en el estudio se debe usar la encuesta personal. Se puede obtener información adicional del entrevistado a través de la observación por el encuestador, por ejemplo forma de vestir, nivel cultural, social, etc. La rapidez, dividiendo la muestra en distintos mercados y realizando entrevistas en varios mercados es factible determinar estudios grandes en un período de tiempo relativamente corto. Si bien sería más largo que realizar encuestas por teléfono. Las desventajas que surgen son: En primer lugar está el costo por entrevista, especialmente las entrevistas puerta a puerta tienen un coste por entrevista varias veces superior a las investigaciones realizadas por correo o teléfono. De manera que sólo en aquellas ocasiones que sea estrictamente necesario el contacto personal se utilizarán las mismas dado que los fuertes costes suponen un elemento en contra. Es una metodología lenta en obtener la información puesto que depende del número de entrevistas que se realicen y de su duración. Existe la posibilidad de que el entrevistador incorpore distorsiones en la obtención de la información debido a las explicaciones, la forma de preguntar, etc. Lo que puede originar que las respuestas no sean las que libremente daría el entrevistado por lo que esto representa una importante dispersión en el proceso de obtención de información. Los entrevistadores deben ser controlados para que la información que presentan sea veraz y comprobar que realmente procede de las personas entrevistadas que conforman la muestra. Para comprobar todo ello es necesario incorporar muchos controles de seguridad. En cuanto a las tendencias sobre las entrevistas personales a pesar de los inconvenientes anteriormente mencionados debemos decir que existen algunos tipos de investigaciones comerciales: publicidad, packaging, por mencionar algunas, en las que es necesario contactar personalmente con los entrevistados, de ahí que han surgido un nuevo tipo de entrevistas, que son las entrevistas por detención, que consiste en detener a los entrevistados en zonas de gran afluencia 32
de público, como centros comerciales. Esta modalidad está teniendo un fuerte crecimiento en las investigaciones actuales. Una de las grandes ventajas es que es más efectivo que los entrevistados se aproximen al entrevistador que enviar a los entrevistadores a los hogares. Una de las limitaciones que tiene es que la muestra no puede ser tan representativa de la población como las entrevistas puerta a puerta, y deben limitar su tiempo a no más de 30 minutos por entrevista. Aunque dado las grandes dificultades que existen para la obtención de información en las entrevistas puerta a puerta y su progresiva pérdida de eficiencia en muchas ocasiones estas entrevistas por detención son mucho más representativas. Entrevistas por correo Consiste en seleccionar una muestra determinada de personas a quienes se envía un cuestionario por vía postal o electrónica con el propósito de que por el mismo medio, lo devuelva ya resuelto. Este cuestionario debe ir acompañado de un escrito en la que se explique al destinatario el objetivo de la entrevista y se le invita, en forma amable, a resolverlo y devolverlo en el menor tiempo posible. Las ventajas que tiene este método es que llega a un público numeroso. La entrevista puede ser más objetiva porque el entrevistado tiene tiempo para meditar las respuestas. Las desventajas es que requiere de algún incentivo para ser contestada, falta de cooperación de los destinatarios, las listas de direcciones son difíciles de recopilar. Este método ha perdido popularidad debido a la falta de cooperación, el alza de las tarifas lo cual tiende a disminuir la precisión de la entrevista. Entrevistas por teléfono Suele utilizarse especialmente para medir el nivel de audiencia de las emisiones telefónicas y televisivas; sirve para determinar las preferencias del público respecto a los diversos problemas. Asimismo permite medir el grado de retención de los radioescuchas y telespectadores. Las ventajas de este método es que proporciona resultados con mayor rapidez, si se trabaja con un cuestionario breve pueden efectuarse hasta 30 llamadas por hora y es uno de los métodos más económicos. Por otra parte, las desventajas que presenta es que sólo se puede entrevistar a las personas que disponen de teléfono, además no todas las que tienen teléfono aparecen en el directorio. Además no se tiene la certeza si la persona que se desea entrevistar es la que contesta el teléfono, tampoco se está seguro de la autenticidad de las respuestas. 33
2.5 Confiabilidad y validez Los instrumentos de medición nos ayudan a comprender mejor nuestro entorno y a hacer pronósticos sobre éste. Por ejemplo, si se quiere medir el nivel de satisfacción de los clientes para descubrir problemas con los productos o servicios y modificarlos, se necesita conocer el actual nivel de satisfacción para darse cuenta así del cambio de opinión del cliente. Es por esto, que se necesita una medición que evalúe con exactitud las actitudes de la clientela. De esta manera, cuando se formulan cuestionarios, es importante cerciorarse de que los datos obtenidos de ellos reflejen información confiable y válida, que son los dos grandes problemas de medición que deben enfrentarse y cumplirse. Ahora bien, alguna vez se ha preguntado ¿cuál es la confiabilidad del instrumento de medición? ¿Cuál es su validez? Si no se conoce la confiabilidad ni la validez del instrumento creado, es posible que se tenga poca fe en los resultados y en las conclusiones obtenidas a partir de los datos generados por el cuestionario. Cabe mencionar que es posible tener confiabilidad sin validez, pero no a la inversa. 2.5.1 Confiabilidad Sinónimos de confiabilidad son estabilidad, fiabilidad, consistencia, reproducibilidad, predictibilidad o falta de distorsión. Por ejemplo, las personas confiables son aquellas cuyo comportamiento es consistente, predecible y fiable (aspecto importante en un estudio de mercado); lo que hacen mañana y la siguiente semana será consistente con lo que hacen hoy y con lo que hicieron la semana pasada; se dice que son estables. Por otro lado, las personas poco confiables son aquellas cuyo comportamiento es mucho más variable; son impredeciblemente variables. En algunas ocasiones hacen algo; y en otras, algo distinto; carecen de estabilidad. Se dice que son inconsistentes. Lo mismo sucede con las mediciones en investigación de mercado: las personas o consumidores son más o menos variables de una ocasión a otra. O son estables o relativamente predecibles, o son inestables y relativamente impredecibles; son consistentes o no lo son. Si son confiables, entonces se puede depender de ellas; si no son confiables, no se puede depender de ellas. La definición de confiabilidad se enfoca de tres maneras: Un enfoque se sintetiza con la pregunta: si se mide el mismo conjunto de objetos una y otra vez, con el mismo instrumento de medición o uno comparable, ¿se obtendrán iguales o similares resultados? La pregunta implica una definición de confiabilidad en términos de estabilidad, fiabilidad y predictibilidad. Es la definición que se ofrece en discusiones elementales del tema. Un segundo enfoque se sintetiza con la pregunta: ¿las medidas obtenidas a partir de un instrumento de medición son las medidas “verdaderas” de la propiedad que 34
se mide? Ésta es una definición de falta de distorsión. Comparada con la primera definición, se aleja más del sentido común y de la intuición; sin embargo, es también más fundamental. Estos dos enfoques o definiciones se resumen en las palabras estabilidad y falta de distorsión. Sin embargo, como se verá más adelante la definición sobre la falta de distorsión implica la definición de estabilidad. La confiabilidad se refiere al grado en que la medición concuerda consigo misma. Con frecuencia los términos “confiabilidad” y “validez” se confunden, no obstante existe una clara distinción entre ellos. La confiabilidad no tiene nada que ver con la veracidad de la medición. Algunos autores se han referido a la confiabilidad como precisión. Esto es verdad, pero con frecuencia se confunde con el significado de precisión en términos de validez. La validez también tiene que ver con la precisión, pero de una manera diferente que la confiabilidad. La confiabilidad se relaciona con la precisión con la que un instrumento de medición mide aquello que se desea. La palabra clave aquí es “aquello”. Si se tiene una prueba que se considera mide la habilidad matemática, no se sabe si la prueba mide en realidad, habilidad matemática. Si la prueba es altamente confiable, solamente se sabe que esta midiendo “algo” con precisión. El asegurarse de que la prueba de habilidad matemática en realidad mide habilidad matemática, implica involucrarse con aspectos de validez. Existe un tercer enfoque en la definición de confiabilidad, desde un punto de vista más estadístico, el cuál no sólo ayuda a lograr una mejor definición y a resolver problemas teóricos como prácticos, sino que también implica otros enfoques y definiciones. Se puede investigar qué tanto error de medición existe en un instrumento de medición. Recuerde que existen dos tipos generales de varianza: sistemática y por el azar. La varianza sistemática se inclina hacia una dirección –las puntuaciones tienden a ser todas positivas o todas negativas, o todas altas o todas bajas–. En este caso el error es constante o esta sesgado. La varianza por el azar o del error se autocompensa –las puntuaciones tienden a inclinarse ahora hacia este lado, ahora hacia ese otro–. Los errores de medición son errores aleatorios; que representan la suma de diversas causas. Entre dichas causas están los elementos comunes del azar o aleatorios –presentes en todas la medidas debido a causas desconocidas–, la fatiga temporal o momentánea, las condiciones fortuitas que en un momento en particular afectan al objeto medido o al instrumento de medición, las fluctuaciones en la memoria y en el estado de ánimo, y otros factores que son temporales y cambiantes. Dependiendo del grado en que los errores de medición estén presentes en un instrumento de medición, el instrumento será poco confiable. En otras palabras, la confiabilidad puede definirse como la ausencia relativa de errores de medición en un instrumento o cuestionario. Por lo tanto, para que los datos obtenidos con diferentes tipos de instrumentos de medición puedan usarse en situaciones prácticas, éstos deben satisfacer ciertas condiciones. Primero, el instrumento de medida que se usa en un caso y con un propósito dado debe realmente medir el rasgo que se intenta medir. Segundo, el 35
instrumento debe de dar medidas confiables, de manera que se obtengan los mismos resultados al volver a medir el rasgo, bajo condiciones similares del objeto o individuo en cuestión. Los datos deben ser confiables desde dos puntos de vista: deben ser significativos y reproducibles. Para el primer requisito impuesto al instrumento de medida, no representa problema cuando se miden propiedades físicas de las personas; es completamente evidente que si usamos una cinta métrica de manera correcta, medimos su altura, pero ya no es tan claro cuando usamos un cuestionario de cierto tipo para medir el grado de satisfacción de éste. No podemos convencernos de inmediato de que los datos obtenidos con este instrumento realmente expresen el grado de satisfacción del individuo. Es necesario, por consiguiente, probar empíricamente que el instrumento mide la variable que se intente medir en cada caso específico. A esto se le llama investigar la validez del cuestionario. El segundo requisito de los instrumentos de medida, mencionado al principio de esta sección, fue reproducible, que tiene que ver con la exactitud del instrumento de medida. La confiabilidad es la exactitud de la medición, independientemente de que uno esté realmente midiendo lo que ha querido medir. Por ejemplo en los servicios hoteleros, la medida que uno obtiene de la prueba empírica de la confiabilidad, es una medida de la capacidad del test para dar los mismos resultados en repetidas pruebas, sin importar si este resultado tiene que ver o no con la característica de cliente satisfecho o no con los servicios recibidos. Como el caso de la validez, la confiabilidad debe ser investigada empíricamente para cada instrumento. El conocimiento de la confiabilidad es necesario para que los datos obtenidos con los instrumentos puedan usarse correctamente. Por todo lo anteriormente mencionado, la confiabilidad es la falta de distorsión o precisión de un instrumento de medición. Recordemos que una medida altamente confiable sólo indica que está midiendo algo con precisión o de forma consistente. Puede ocurrir que no esté midiendo lo que se cree que mide. Un ejemplo para ilustrar lo anterior es la báscula que tenemos en nuestros hogares. Suponga que esta báscula siempre sobrestima el peso de una persona por cinco kilogramos. Si alguien se coloca sobre esta báscula 50 veces durante el periodo de una hora, encontrará muy poca fluctuación del peso registrado en la báscula. La báscula es precisa en el sentido de que indica consistentemente el mismo peso. Sin embargo, es imprecisa en el sentido de que siempre da un peso equivocado por cinco kilogramos. La báscula sería considerada confiable, pero no válida. Existen tres métodos comunes para obtener estimadores del coeficiente de confiabilidad: 1. Métodos de las formas paralelas (Confiabilidad de formas equivalentes) 2. Métodos de repetición del test o test-retest (Confiabilidad prueba-contraprueba) 3. Métodos basados en una sola aplicación (Consistencia interna). Dentro de estos se encuentra los siguientes coeficientes: El coeficiente alfa de Cronbach 36
Los coeficientes de Kuder-Richardson Coeficientes L1, L2, L3 de Guttman Se dará una breve explicación de los tres métodos: Métodos de las formas paralelas: Son dos versiones del mismo test, los ítems son distintos pero se pretende medir lo mismo. Se espera que un sujeto saque en ambos test las mismas puntuaciones verdaderas. Métodos de repetición del test o test-retest: Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas. Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo válido y fiable, es decir, que se encuentre una relación entre lo que se obtiene hoy y lo que se obtiene más adelante. Métodos basados en una sola aplicación: Expresa hasta qué punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos los ítems miden lo mismo y son sumables en una puntuación única que representa o mide un rasgo. Dentro de los métodos basados en una sola aplicación destaca el coeficiente de alfa de Cronbach que se describe a continuación.
Coeficiente alfa de Cronbach El alfa de Cronbach (1951) o coeficiente de alfa es ampliamente utilizado para evaluar la consistencia interna o fiabilidad de instrumentos compuestos de múltiples ítems. Un instrumento con múltiples ítems, que mide un constructo fundamental, o una variable implícita, será internamente consistente si los ítems están fuertemente correlacionados. El alfa de Cronbach mide esta consistencia interna.
k k 1
1
i2
i2
Donde: k es el número de ítems
i2 es la suma de las varianzas de todos los ítems i2 es la varianza de las puntuaciones totales
El rango teórico del coeficiente alfa es de 0 a 1. Las siguientes son algunas sugerencias para la interpretación del coeficiente alfa: valores <0.60 inaceptable, 37
0.60 a 0.70 poco aceptable, 0.70 a 0.80 respetable, 0.80 a 0.90 muy bueno y valores >0.90 se debe considerar una reducción del número de ítems en la escala. Ejemplo, suponga, que tenemos 5 ítems y que estos son altamente consistentes con un coeficiente alfa observado de 0.80. Donde cada ítem tiene respuestas de 1 hasta 5 (Respuesta tipo Likert). La suma de la escala es la suma de las cinco respuestas a los ítems. Teóricamente los valores mínimo y máximo son 5 y 25 respectivamente. La suma de la escala no debería ser hecha cuando los ítems no son internamente consistentes es decir, si hay ítems con coeficientes alfa bajos, o si son muy pocos los ítems o tienen muy poco en común. Un coeficiente de confiabilidad de 0.85 significa que 85% de la varianza en las puntuaciones de la prueba depende de la varianza verdadera en el rasgo medido y que el 15% depende de la varianza del error. La interpretación más clara sigue siendo la que se limita a expresar lo que dice la misma fórmula: es la proporción de co-variación, que si es grande implica relaciones claras entre los ítems. Consistencia interna parece un término adecuado en este caso. Sobre el valor mínimo que debe tener el coeficiente α no hay normas específicas, ni tampoco puede hablarse de una práctica común; es un valor que está entre 0 y 1 y hay que evaluar teniendo en cuenta más datos y el uso previsible del instrumento. Algunos autores proponen un mínimo de 0.70 para investigaciones básicas, algunos otros ponen el límite en 0.85 si van a tomar decisiones sobre individuos y de 0.60 para otros usos. Se trata, por supuesto, de valoraciones orientadoras. 2.5.2 Validez La definición de validez en un sentido general menciona que un cuestionario es válido si mide lo que se pretende medir con él. Por lo tanto, la validez de los instrumentos de medición tiene que ver con lo que miden y con qué tan bien lo hacen; nos indica qué se puede inferir a partir de sus resultados, es decir, un test es válido cuando está demostrado que mide aquello que se presuponía o se pretendía midiese. El análisis factorial es esencialmente un método para encontrar aquellas variables que tienen algo en común. Si algunos reactivos de una prueba de personalidad están diseñados para medir satisfacción, entonces en un análisis factorial, dichos reactivos deben cargarse mucho hacia un factor y poco hacia los otros, por lo tanto el análisis factorial constituye un método que indica en qué medida miden la misma cosa y en qué grado miden aquello que miden. El análisis factorial es particularmente relevante para los procedimientos de validación del cuestionario dicho análisis contribuye directamente a aclarar dos puntos fundamentales en la explicación de los cuestionarios o constructos 1) su 38
estructura interna y 2) sus relaciones con terceras variables. Se trata de un método para reducir un gran número de medidas a un número más pequeño, llamadas factores, al descubrir cuáles “van juntas” (por ejemplo, cuales miden la misma cosa) y las relaciones entre los grupos de medidas que van juntas, por lo tanto, reduce el número de variables con las que el investigador debe enfrentarse. También ayuda al investigador a ubicarse, identificar unidades o propiedades fundamentales que subyacen a pruebas y medidas. Por ejemplo, se pueden aplicar 20 pruebas a un grupo de individuos, suponiendo que cada una mide algo diferente. Sin embargo, quizá se encuentre que estas 20 pruebas son lo suficientemente redundantes como para ser explicadas con sólo cinco medidas o factores. El análisis factorial es una técnica multivariante que se presenta y utiliza bajo dos tipos: Análisis factorial exploratorio (AFE) Análisis factorial confirmatorio (AFC) En el primero (AFE) no se conocen los factores “a priori”, sino que se determinan mediante el análisis factorial, es decir, permite explorar la validez y adecuación de las propuestas realizadas por el científico acerca de la aceptabilidad de las variables teóricas que pretende construir y, por el otro lado, en el segundo (AFC), se propone “a priori” un modelo, según el cual hay unos factores que representan a las variables originales y se somete a comprobación el modelo. En este curso se trabajara con el análisis factorial exploratorio (AFE). El análisis factorial es un procedimiento de análisis multivariante que intenta explicar mediante un modelo lineal (como el de regresión múltiple), un conjunto de variables observables (que pueden ser escalas, ítems o reactivos u otras variables, etc.) mediante un número menor de variables hipotéticas (Calderón 2006), latentes o no observables, denominadas factores. Así, todo factor es una nueva variable que no es directamente medible sino que se infiere a través de variables que si pueden ser observadas.
Figura 1. Factores o variables latentes construidos a partir de variables empíricas.
39
En la Figura 1 se observa que se tiene un conjunto de p variables observables o empíricas (x1, x2, x3, ..., x13) representadas en los rectángulos del diagrama, las que dan origen o constituyen 3 factores o variables latentes (F1, F2 y F3) no observables, representadas mediante elipses. También se observa que todas la variables contribuyen (cargan) a cada uno de los factores, pero no todas ejercen la misma influencia sobre ellos –siendo a éstos mayor o menor según los casos– , por lo tanto, sólo se seleccionan como integrantes de un factor aquellas que lo hacen de manera predominante. Entonces podemos afirmar que cada factor está compuesto por la aportación ponderada de la varianza que cada variable comparte (varianza común) con el resto de aquellas que junto con ella, configuran el factor. Esa ponderación se establece según el peso o carga (también conocido como saturación) de cada variable en el factor. En el caso hipotético de la Figura 1, las variables x1, x2, x3, x4 y x5 constituyen el Factor 1 por que sus pesos o cargas en dicho factor son mayores que los pesos o cargas de las mismas variables en el resto de los factores (los pesos de las variables que construyen el factor se representan mediante un trazo grueso continuo, mientras que los pesos -irrelevantes, en el modelo- de las demás variables se representan mediante un trazo de puntos); de la misma manera el Factor 2 está constituido por las variables x6, x7, x8 y x9, por que los pesos o cargas de dichas variables son mayores que sus pesos o cargas para los Factores 1 y 3, por último el Factor 3 queda compuesto por las variables x10, x11, x12 y x13, ya que los pesos o cargas de dichas variables son mayores que sus pesos o cargas para los Factores 1 y 2. En el análisis factorial exploratorio AFE y en el análisis factorial confirmatorio AFC se llevan a cabo tres pasos básicos: 1. La obtención de la matriz de correlaciones entre las variables empíricas, base del modelo lineal de predicción. 2. Extracción de factores, para establecer qué variables teóricas son construidas a partir de qué variables empíricas. 3. Rotación de factores, como método de clarificación de las soluciones propuestas, cuya finalidad es siempre proporcionar un significado teórico o sustantivo a los factores extraídos.
Figura 2. Pasos principales de los estudios que utilizan análisis factorial 40
El modelo de AFE tiene como datos un conjunto de p variables aleatorias (variables observables) x1, x2, ..., xp. Los valores de las p variables nos determinan el estado de un conjunto de n individuos en relación con cierta problemática, el resultado es una matriz de datos n p como la siguiente:
Donde: n es el número de individuos u objetos. p es el número de variables. X ij es la observación sobre el i-ésimo individuo u objeto en la j-ésima variable
La matriz anterior, por ejemplo, podría representar las puntuaciones de 145 consumidores a un test de satisfacción, medido a partir de p variables, entonces X ip sería la respuesta numérica del consumidor i-ésimo a la cuestión X p . Como ya se ha mencionado, el análisis factorial, trataría de reducir el conjunto de las p variables a un conjunto de menor dimensión, entonces podemos afirmar que se trata de agrupar la información que producen muchas variables empíricas observables en unas pocas variables teóricas, o variables latentes, o factores, independientes entre sí (requisito del AFE, pero no del AFC). Evidentemente, para que cada una de las variables pueda aportar información, tiene que establecerse una correlación entre ellas. Por tal motivo el análisis factorial exploratorio AFE parte del análisis de la matriz de correlaciones entre las variables empíricas (observables). Si no estuviesen correlacionadas, las variables empíricas no compartirían variabilidad entre ellas. Al estar correlacionadas, comparten una porción que se conoce como valor propio, es decir, la variabilidad del factor o variable latente. Como se ha señalado líneas arriba, el análisis factorial descansa sobre las relaciones que mantienen entre sí las variables de un estudio. De este modo, conviene estudiar primero la matriz de correlaciones para decidir después si resulta apropiado someterla a un proceso de factorización. Si encontramos que las correlaciones observadas entre grupos de variables son muy bajas, es probable 41
que esas variables sean casi independientes entre sí y, por tanto, no tenga sentido buscar otras dimensiones ortogonales (independientes) que nos definan elementos o aspectos independientes. A partir de la matriz de datos n p se obtiene la matriz de correlaciones entre todas las variables, de dimensiones p p , y simbolizada como R (matriz de correlaciones de todas las variables entre sí). Después de que se ha calculado la matriz de correlaciones R (sí es que existen correlaciones altas), el paso siguiente en el análisis factorial consiste en elegir la matriz factorial que resuelva el problema de la explicación de la información de la matriz de correlaciones R, es decir, determinar el menor número de variables hipotéticas, constructos o factores comunes de tal manera que reproduzcan satisfactoriamente las correlaciones entre las variables. Esto se hace a través de un proceso llamado “extracción de factores”. En la literatura existe una gran variedad de métodos para la extracción de factores a partir de una matriz de correlación: componentes principales, máxima verosimilitud, centroide, alfa, entre otros. No es posible analizar aquí todos estos métodos, por lo que la explicación se limitará a uno de los métodos. El método más utilizado actualmente y que está fácilmente disponible en las instalaciones computacionales es el método de componentes principales, sin que esta valoración excluya otros tipos de análisis factorial. A continuación se presenta una breve descripción de los principales métodos de factorización: Componentes principales: sigue un principio de extracción que supone maximizar la varianza explicada, es decir, conseguir que la contribución del factor a alguna de las comunalidades de las variables del estudio sea máxima. De ahí que el factor que mejor explique una dimensión analizada (el que represente mayor variabilidad) se convierta en el primer componente principal, el que mejor explique la segunda dimensión (el que represente mayor variabilidad en la matriz de residuales) será el segundo componente principal y así sucesivamente. Su aplicación supone transformar directamente un conjunto de variables correlacionadas en otro conjunto de variables no correlacionadas. Máxima verosimilitud: considera la mejor estimación posible de la matriz de correlación reproducida en la población como principio de extracción. Es decir, busca la solución factorial que mejor se ajustaría a las correlaciones observadas. Utiliza chi-cuadrado como estadístico para determinar el grado de ajuste entre lo observado y lo estimado, lo que permite determinar el número de factores necesarios para que no haya una desviación significativa de los datos observados. La fijación de las comunalidades se realiza por un procedimiento iterativo que converge en el mejor valor.
42
Tabla 1. Matriz factorial “sin rotar” de datos hipotéticos
Al utilizar alguno de los métodos de extracción factorial el resultado que se obtendrá es la matriz llamada matriz factorial que es una tabla de coeficientes que expresa la relación entre las variables y los factores subyacentes. En la Tabla 1 se presenta la matriz factorial producida con el método de componentes principales (uno de los diversos métodos disponibles). Cada una de las columnas de la matriz de componentes de la Tabla 1 es un factor o una variable latente (como se ve el numero de filas coincide con el número de variables de R. Los elementos de cada factor (columna) pueden interpretarse como coeficientes de correlación entre ese factor y cada una de las variables: son los llamados pesos, o cargas, o saturaciones factoriales. Así, los datos que aparecen en las tres primeras columnas pueden escribirse como aij , lo que significa la carga a de la prueba i sobre el factor j . Así, por ejemplo, en la primera fila, .579 es la carga factorial (peso o saturación) de la variable VISPER en el primer factor. La variable CUBOS tiene las siguientes cargas: .37332 en el factor 1, .03575 en el factor 2 y .36812 en el factor 3. Las cargas factoriales no son difíciles de interpretar. Oscilan entre –1.00 y +1.00, como los coeficientes de correlación. Además se interpretan de manera similar. De hecho, expresan las correlaciones entre las variables y los factores. Por ejemplo, la variable SINONI tiene las siguientes correlaciones con los factores 1, 2 y 3 respectivamente .73337, -.32068 y -.25203. Evidentemente, la variable SINONI tiene una fuerte carga en el factor 1, pero muy poca en el factor 2 y 3. 2
Las cifras de la penúltima columna se llaman comunalidades ( h ), las comunalidades son iguales a las sumas de los cuadrados de las cargas (pesos o 2 saturaciones) de las variables en los tres factores. Esto es, la comunalidad h , para la variable VISPER, por ejemplo, viene dada por 2
2
2
.45588= .579000 + .12040 + .32580 . Las comunalidades representan la magnitud del solapamiento entre las variables y estos cuatro factores. Si la comunalidad para una variable fuera tan alta como 1.0, 43
ello indicaría que la variable se solapa totalmente con los tres factores, en lo que mide. Si una variable tuviera una comunalidad de 0, por otra parte, los pesos de los tres factores para esta variable serían cero y la variable no tendría nada en común con ninguno de ellos. Los valores de comunalidad entre 1.0 y 0 indican solapamientos parciales entre las variables y los factores en lo que miden. Por lo tanto las comunalidades deberán ser ciertos valores tales que:
0 h2 1 Esta solución permite aceptar el cumplimiento del objetivo fundamental del AFE: explicar mediante tres factores ortogonales, las correlaciones existentes entre 9 variables. Como se ha mencionado el análisis factorial implica cierto número de pasos, entre ellos se encuentra la extracción de factores. Muchos de los métodos producen factores que no son interpretables. Por consiguiente, dichos factores “sin rotación” se rotan con propósitos de interpretación, ya que si se intenta interpretar la matriz sin rotar de la Tabla 1, se enfrenta un problema. Se puede decir que todas las pruebas se cargan de forma sustancial sobre un factor 1. Lo anterior equivale a decir que todas las pruebas miden lo mismo (factor 1). Por lo tanto el análisis factorial no termina con la extracción de los factores y la preparación de una tabla de pesos o cargas factoriales no rotados. Aunque esta tabla da una solución factorial basada en construcciones representadas aceptables matemáticamente, estas construcciones representadas en una matriz factorial no rotada son raramente usadas en el trabajo científico. Existen gráficos que sirven de apoyo importante la hora de valorar tanto el número de factores que se han de elegir como la composición de cada uno de ellos en función de las saturaciones de las variables. Para tomar la decisión acerca del número de factores puede recurrirse al llamado scree test o scree plot también llamado gráfico de sedimentación. Este gráfico reproduce los autovalores de los distintos factores, los factores importantes deben explicar la mayor parte de varianza y tener autovalores grandes. En este gráfico se representan en el eje de ordenadas los valores de los autovalores y en el de abscisas los sucesivos factores. Habrá un punto en el que la pendiente de la curva tiende a ser 0, es decir, los autovalores comienzan a ser casi iguales. En este punto se establece el punto de corte para el número de factores. La interpretación del gráfico de sedimentación se realiza así: se aceptan los valores, comenzando por el primero, cuya línea de unión con el siguiente se inclina (en mayor o menor grado), rechazando aquellos factores cuya unión con los siguientes sea una línea horizontal (en mayor o en menor grado de aproximación a la horizontalidad). 44
Figura 3. Gráfico de sedimentación En la Figura 3 se presenta el scree test para los datos. Puede observarse como la solución de tres factores parece la más adecuada. En cuanto a la composición de los factores, resulta útil acudir a la representación espacial de los factores rotados. Este gráfico muestra nubes de puntos que se encuentran claramente diferenciados entre sí. En el gráfico cada una de las cargas de los ítems se trata como una coordenada y se gráfica. En ocasiones, la solución que se ofrece tras un AFE propone la constitución de unos factores cuyas cargas o saturaciones en determinadas variables son muy parecidas, por lo que arrojan, cuando menos, una sospecha de ambigüedad. Afortunadamente, es posible rotar la matriz factorial a otra forma que es equivalente matemáticamente a la matriz original no rotada, pero que representa construcciones factoriales que son frecuentemente mucho más útiles para los fines científicos que las construcciones factoriales no rotadas, es decir, con la rotación factorial buscamos una solución factorial menos ambigua. Lo que se pretende con la rotación es repartir la varianza de los factores significativos, esto es, de los factores que se van a tener en cuenta en la continuación del análisis, de forma que cada factor no contenga cargas significativas más que en un número adecuado de variables. Es, por tanto, una apuesta por encontrar cargas factoriales muy altas en unas variables para un factor, y cargas muy bajas de estas variables en el resto de los factores. Con ello se consigue una nueva estructura factorial fácil de interpretar, más sencilla y menos ambigua. En la Figura 4 (idea original de Fenelon, 1981), se observa de forma gráfica como, en un sencillo espacio tridimensional, es muy diferente la información que se obtiene en función de la proyección elegida (el objeto tridimensional puede representarse sobre un plano, extendiendo líneas de mira imaginarias desde el 45
objeto hasta donde se sitúa el ojo del observador. Cada superficie que observamos es la intersección de un plano con esas líneas de mira).
Figura 4. Ejemplo gráfico, original de Fenelon (1981), de la información diferente que se obtiene en función de la proyección que se realice.
Para dirigir las rotaciones, se establecen cinco principios o reglas de estructuras simple. Los principios de la estructura son los siguientes: 1. Cada fila de la matriz factorial debe tener por lo menos una carga cercana a cero, y algunas cargas factoriales altas o fuertes. Esto significa que cualquier columna de la matriz factorial debe tener muchos de sus elementos próximos a 0, y el resto lo más altos posible. 2. Por cada columna de la matriz factorial debe haber por lo menos tantas variables con cargas iguales o cercanas a cero como factores. 3. Por cada par de factores (columnas) de la matriz factorial debe haber diversas variables con cargas en un factor (columna), pero no en el otro. 4. Cuando haya cuatro o más factores, una gran proporción de las variables debe tener cargas insignificantes (cercanas a cero) en cualquier par de factores. 5. Por cada par de factores (columnas) de la matriz factorial debe haber sólo un pequeño número de variables con cargas sustanciales (diferentes de cero), en ambas columnas. Los criterios expuestos anteriormente, demandan que cada variable esté cargada en el menor número de factores posibles y que haya la mayor cantidad de ceros posibles en la matriz factorial rotada. De esta forma, es posible lograr la interpretación más simple posible de los factores. Por lo tanto, en su límite ideal, la 46
matriz factorial que cumpliera con los cinco principios propuestos por Thurstone tendría la configuración siguiente (en un caso de 3 factores obtenidos a partir de 9 variables empíricas.
Por supuesto, el modelo que representa la matriz D resulta por muchas razones exagerado, ya que dichas estructuras factoriales “perfectas” son poco frecuentes. Sería más realista reemplazar los valores 1 por el Máximo y los valores 0 por el mínimo (ya que nunca se darán valores 1 y 0 en una matriz factorial). Del mismo modo en que existen muchos métodos de extracción de factores, también existe una serie de métodos de rotación. Los dos tipos principales de rotación son: “ortogonal” y “oblicua”. A continuación se dará una breve explicación de cada uno. 1. MÉTODOS DE ROTACIÓN ORTOGONAL: en esta rotación los ejes o factores se mantienen perpendiculares, los nuevos factores son no correlacionados, es decir, los factores son independientes. Esto se ilustra en la Figura 5, en donde se supone un análisis factorial con 7 variables, en que se definen dos factores F1 y F2. En la Figura 5 se observa que el primer factor está conformado por tres variables, mientras que el segundo lo constituyen cuatro variables.
Figura 5. Rotación ortogonal de los factores F1 y F2 47
1.1. Método Quartimax. Su fundamento es la idea que cada variable está cargada significativamente sólo en un factor. Por ejemplo, si se tiene una variable con dos factores, si la variable se encuentra sobre un factor, su carga en el otro factor sería igual a 0, con lo que el producto cruzado de estas dos cargas sería igual a 0. Por lo tanto, si se consigue minimizar la suma de los productos cruzados de los cuadrados de las cargas de las variables en dos factores, significa que las variables que están significativamente cargadas en uno de los factores lo están mínimamente (lo más cercano a 0 posible) en el otro. 1.2. Método Varimax. Método ideado por Kaiser. Este método está orientado a “limpiar” los factores, produciendo factores que tienen altas correlaciones con un conjunto pequeño de variables y pequeña o nula correlación con el resto de las variables. 1.3. Método Equimax. En este método se minimizan tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. 2. MÉTODOS DE ROTACIÓN OBLICUA. Este tipo de rotaciones se admite que los nuevos factores resultantes estén correlacionados. Una solución factorial oblicua es la que proporciona factores no ortogonales, es decir, correlacionados entre sí. De acuerdo con García et al (2000). Una rotación oblicua es más general que una solución ortogonal puesto que no se impone la restricción de que los factores tengan correlaciones nulas entre sí. Su ventaja sobre la rotación ortogonal es que, después de llevar a cabo las rotaciones oblicuas, si los factores resultantes son ortogonales, se tiene la seguridad de que la ortogonalidad no ha venido impuesta por el método de rotación. Lo anterior se ilustra gráficamente en la Figura 6, donde se supone un análisis factorial con siete variables, en el que se definen dos factores F1 y F2.
Figura 6. Rotación oblicua de los factores F1 y F2
48
Tabla 2. Matriz factorial rotada. Rotación ortogonal (rotación Varimax)
Cabe señalar, que las soluciones ortogonales y oblicuas no modifican las comunalidades de las variables ni determinan cambios en la cantidad de varianza explicada por ellas, sólo realizan una mejor distribución de los valores de la matriz de correlaciones original. Si comparamos entre sí los dos tipos de rotaciones el resultado no difiere significativamente y no se producen modificaciones en la interpretación de los factores apoyada en estas rotaciones. Un factor se interpreta examinando las saturaciones que en él muestran las variables. Cuando los factores son ortogonales, la matriz factorial rotada proporciona toda la información. Si examinamos los resultados de la Tabla 2 en nuestro ejemplo, el factor 1 es un factor claramente verbal, el factor 2 es de rapidez perceptiva y el factor 3, de visualización espacial. La variable MAYUS, contar las letras mayúsculas tiene también un componente viso-espacial, ya que supone la diferenciación previa de ciertos patrones, de ahí su saturación en dos de los factores. Por último, se debe mencionar que para darle un nombre al factor o constructo, es necesario contar con especialistas en el área del constructo. Y que al considerar el valor científico del análisis factorial debe prevenirse al lector de no atribuir “realidad” a los factores. Resulta sencillo nombrar un factor y después creer que existe una realidad. Los nombres de los factores son meros intentos de comprender la esencia del método.
49
2.6 Actividades de la unidad De acuerdo al escenario especificado de Pizza Healthy realice un estudio de mercado detallando lo siguiente: • Introducción (antecedentes y problema que se aborda). • Objetivos del estudio (general y particulares). • Indicar el tipo de investigación de mercado que se aborda. • Especificar el método que utilizará para recolectar los datos. • Proponer un cuestionario apropiado y editarlo tanto en Word como en DYANE. • Utilizando DYANE, validar el cuestionario (con al menos 20 casos) y hacer las correcciones pertinentes si se amerita. Nota: Si alguien quiere realizar su estudio de mercado acerca de algún otro escenario puede hacerlo.
50
UNIDAD 3. ESQUEMAS BÁSICOS DE MUESTREO 3.1 Introducción La investigación de mercados frecuentemente implica la estimación de una característica de alguna población. Por ejemplo, el nivel promedio de uso de un parque por residentes de una comunidad podría ser de interés, o las actitudes de estudiantes hacia una propuesta de instalación dentro de los terrenos de la universidad. En cualquier caso, sería poco probable que todos los miembros de la población fueran incluidos en la encuesta. El contactar al conjunto de la población, es decir, a la totalidad de la lista del censo, sencillamente no valdría la pena desde el punto de vista costo-beneficio. Sería costoso y, en casi la totalidad de los casos, innecesario, puesto que una confiabilidad adecuada generalmente puede ser obtenida de una muestra. Además, con frecuencia, sería menos exacto puesto que los errores no muestrales como la no respuesta, el fraude y los errores de codificación de datos son más difíciles de controlar. Si el número total de errores no muestrales y errores muestrales de una muestra es menor que los errores no muestrales de un censo, entonces la muestra es más precisa. Hay muchas formas de obtener una muestra, algunas son informales y causales. Por ejemplo, los peatones pueden ser interrogados en cuanto a la opinión de un nuevo producto. Si la respuesta de todos en la población es uniforme –todos ellos lo odian o lo aman-, tal enfoque puede ser satisfactorio. Si se quiere determinar si el agua de una alberca es demasiado fría, no es necesario tomar una muestra aleatoria; sólo tiene que probar el agua en cualquier lugar, porque la temperatura será constante en todas las partes. Sin embargo, en la mayor parte de los casos, la situación es más compleja, ya que hay varias preguntas a ser contestadas y una amplia variabilidad en las respuestas. Entonces, es necesario obtener una muestra representativa de la población que consista en más de un grupo de unidades. Es posible, y aun necesario en algunos casos, obtener una muestra representativa de la población empleando sólo el juicio y el sentido común. Sin embargo, el enfoque preferido es usar muestreo probabilístico para obtener una muestra representativa. Existen varios problemas básicos que se deben tomar en cuenta en el muestreo. El primero de ellos es definir la población que se va a estudiar, dependiendo de los objetivos de la investigación. El segundo problema es definir las variables que se van a medir, y por último, el tercer problema es el diseño de la muestra, que se divide en tres partes: 1) Selección de las unidades de muestreo, que son las unidades de las cuales se va a tomar la muestra. Por ejemplo, si se quiere saber la proporción de tiendas en Xalapa que venden cierta marca de producto, las tiendas son las unidades a observar. 51
2) Selección de la muestra, existen dos métodos de selección de muestras, los métodos de selección probabilísticos, que son aquellos en que cada elemento de la población tienen una probabilidad conocida de ser seleccionados para la muestra; es decir, los casos son escogidos al azar, mediante un mecanismo ajeno al arbitrio de alguien, y los métodos de muestreo no probabilísticas, que son aquellos en que los individuos no tienen una posibilidad conocida de ser incluidos en la muestra. 3) Estimación de las características de la población a partir de los datos de la muestra. Los investigadores de mercados generalmente desean saber de manera resumida las propiedades particulares de una población dada, por ejemplo la media aritmética de las observaciones que describen una determinada característica. El objetivo de tomar una muestra es hacer inferencia acerca de una población de acuerdo a la información contenida en ella. En esta antología se presentan algunos métodos probabilísticos y no probabilísticos de muestreo que pueden ser utilizados.
3.2 Muestreo probabilístico Los métodos probabilísticos son aquellos en los que cada elemento de la población tiene la misma oportunidad de ser elegido. A continuación se revisan cuatro tipos de muestreo probabilístico: Muestreo Aleatorio Simple, Muestreo Sistemático, Muestreo Estratificado y Muestreo por Conglomerados. De una manera muy breve, se presentan los aspectos generales de cada uno de estos planes; es sólo una introducción a los diseños básicos.
3.2.1 Muestreo aleatorio simple El Muestreo aleatorio simple (m.a.s.) es el método más sencillo del muestreo probabilístico y se recomienda en los casos de relativa homogeneidad de las unidades de la población bajo estudio; es este el esquema más simple, y es fundamental en el estudio de la teoría del muestreo. El m.a.s. es un método que consiste en seleccionar una muestra de n unidades de una población finita de tamaño N , con la condición de que cada una de las CnN muestras posibles tenga la misma probabilidad de ser elegida. En la Figura 7, se muestra el esquema de un muestreo aleatorio simple. El número de muestras diferentes de tamaño n que pueden formarse de una población de N unidades, como se menciona en el párrafo anterior es: 52
C nN
N! (N n)!n!
(3.1)
Debido al tamaño de las poblaciones que se manejan en N
muestreo, resulta poco práctico construir cada una de las Cn
la encuestas por posibles muestras,
con el propósito de obtener una de ellas. Este problema se resuelve extrayendo en sucesión, aleatoriamente y sin reemplazo, las n unidades; es fácil mostrar que este método de selección proporciona a cada muestra la misma probabilidad de
N
ser elegida, es decir Cn
1 .
P o b l a c i ó n fi n i ta d e ta m a ñ o
N
4
N -3
1
....
3
N -2
N -1
5 N
2
Selección
aleatoria
.
M u e s t r a a le a t o ria s im p le d e t a m a ñ o
3
1
4 2
5
..
n.
. n
Figura 7. Esquema de un muestreo aleatorio simple. A continuación un ejemplo para comprender el proceso que se sigue. Suponga que se desea seleccionar una muestra aleatoria simple de dos piezas de pan de una población de tamaño 6 (A,B,C,D,E,F); por consiguiente usando la fórmula 3.1, tenemos 15 posibles muestras: AB, AC, AD, BC, etc., tomando en cuenta que la muestra AB es la misma que BA; para darle una probabilidad igual a cada una de las muestras, el primer paso es enumerar las muestras del 1 al 15 (con el fin de que sea identificada la muestra) de la siguiente manera: 53
El segundo paso sería poner en papelitos todos los números de las muestras, depositarlos en un recipiente y mezclarlos de tal manera que pueda ser escogido un papelito sin ver, cuyo número identifica una muestra al azar de 2 piezas de pan. Si el proceso se realiza un gran número de veces y cada vez que se tome un papelito se regresa al recipiente antes de que se efectúe la siguiente selección, a la larga cada papelito y por consiguiente cada muestra se extraerá con la misma frecuencia y con una probabilidad conocida de 1/15. El proceso de selección de una muestra aleatoria simple asegura que cada elemento de la población tiene la misma probabilidad de ser seleccionado. Para seleccionar una muestra se puede proceder escogiendo los elementos de la población uno por uno al azar o escogiendo una muestra completa como se ilustró con el ejemplo. Es claro que este procedimiento resulta poco práctico, por lo que para seleccionar muestras aleatorias simples se utilizan tablas de números aleatorios en lugar de seleccionar papelitos de un recipiente, o bien generadores de números aleatorios en una calculadora o computadora. Una tabla de números aleatorios es un conjunto de enteros generados de modo que la tabla contendrá los diez dígitos enteros (0,1,2,....,9), en proporciones aproximadamente iguales, sin tendencias en el patrón en que se generaron los dígitos; es decir, el número que se seleccione de la tabla puede ser cualquiera de los dígitos entre 0 y 9, ya que todos tienen la misma probabilidad de ser seleccionados. La selección de números por medio de tablas de números aleatorios es análoga a la selección por medio de papelitos. La pregunta es ¿Cómo seleccionar esos números de la tabla? Una manera de hacerlo es apuntando con un lápiz hacia un punto inicial de la tabla y decidir tomar el último o primer dígito del número seleccionado. Antes de iniciar se define si los siguientes números a obtener van a ser los de abajo o los de un lado del punto inicial; si un número se repite, lo ignoramos puesto que ya ha sido seleccionado; también se omite si aparece un número mayor que los que contiene la población, y se selecciona el siguiente número. Esto último es muy raro que suceda ya que generalmente se manejan poblaciones grandes. De esta manera obtenemos una muestra aleatoria simple por medio de tablas. 54
3.2.2 Muestreo sistemático El muestreo sistemático (m.s.) implica esparcir sistemáticamente la muestra a lo largo de lista de miembros de la población. Es decir, consiste en dividir la población de N elementos en n subpoblaciones, a partir de los cuales se selecciona una muestra de tamaño n , extrayendo una unidad de cada subpoblación. La Figura 8 muestra el esquema de un muestreo sistemático. Población de tamaño N
.
.
.
1
2
3
. 4
. ...
. n
Muestra sistemática de tamaño n Figura 8. Esquema de un muestreo sistemático. El procedimiento de selección de la muestra, considerando que N es múltiplo de n , es el siguiente: se divide N (número de unidades en la población) entre n (número de unidades que componen la muestra) y el resultado se denota por k , esto es, k N n . Luego se elige un número aleatorio entre 1 y k , el cual se denota por r; siendo r el primer elemento que forma parte de la muestra. El segundo elemento resulta ser r k , el tercero r 2k y así sucesivamente hasta completar la muestra de tamaño n . Para mostrar la comodidad y rapidez del presente esquema, se presente el siguiente ejemplo: supóngase que se tiene un poblado de 15,500 viviendas y se desea hacer un estudio por muestreo para estimar algunas características de las viviendas, tales como, si se cuenta con servicio de agua, luz, teléfono, etc. Para tal fin, se considera una muestra sistemática de 500 viviendas. Para tal propósito, primero la población se subdivide en 500 subpoblaciones de tamaño k 15,500 500 31 viviendas, luego, como las viviendas de la primera subpoblación están supuestamente etiquetadas con los números comprendidos en el intervalo 1-31, se selecciona aleatoriamente un número comprendido en dicho intervalo, indicando éste la primer vivienda incluida en la muestra; supóngase para fines de ilustración que dicho número es r 8 . Posteriormente, a partir de r, se continúa con cada 31a vivienda hasta completar la muestra. De esta manera una muestra sistemática está compuesta por las viviendas etiquetadas con los números 8,
8 31 39, 8 2(31) 70, 8 3(31) 101, 8 4(31) 132, ...
55
Note que para llevar a cabo el procedimiento anterior, lo único que se requiere es la posibilidad de recorrer físicamente la población, de tal manera que dicho recorrido comprenda todas las viviendas, y no los tome en cuenta más de una vez. Para el caso en que N no es múltiplo de n se tendría, por ejemplo con N 15,600 y n 500 , k 31.2 , entonces podría tomarse alguna de las siguientes dos alternativas: k 31 o k 32 . El muestreo sistemático es de uso frecuente. La ventaja principal de este método de muestreo es su simplicidad, ya que a partir de una lista se escoge un elemento al azar y se continúa seleccionando cada elemento n-ésimo, y es más sencillo que elegir una muestra aleatoria simple. Está menos expuesto a errores y frecuentemente proporciona mayor información que el muestreo aleatorio simple por unidad de costo. Una muestra sistemática por lo general se extiende por toda la población, es decir, los elementos de la muestra están más distribuidos en ella y por lo tanto puede dar más información acerca de la población que se está analizando que una muestra aleatoria simple con la misma cantidad de elementos. A manera de ilustración, suponga que tenemos una lista de 100 archivos de los alumnos de la Facultad de Estadística y queremos seleccionar una muestra sistemática para determinar la proporción de archivos incorrectos. Suponga además que los primeros 50 archivos han sido archivados correctamente y los otros 50 incorrectamente por diversas razones. El muestreo sistemático incluirá la misma cantidad de archivos correctos e incorrectos y dará una estimación más precisa de la proporción de archivos almacenados incorrectamente. En cambio el muestreo aleatorio simple podría seleccionar un gran número de archivos incorrectos o quizá todos y dará una estimación muy diferente de p. Si los archivos incorrectos hubieran sido distribuidos aleatoriamente, la ventaja del muestreo sistemático se perderá, ya que la precisión de las estimaciones de este muestreo depende del orden de las unidades de muestreo en el marco. El muestreo sistemático se utiliza en muchas áreas, por ejemplo, los auditores utilizan el muestreo sistemático al muestrear una lista de cuentas para verificar cantidades o para comprobar que los procedimientos de contabilidad se cumplan. También es utilizado por los investigadores de mercado y por encuestadores que muestrean personas en movimiento. Este tipo de muestreo también tiene sus dificultades. Una de ellas es que “no se puede obtener una estimación sin sesgo del error de muestreo atribuido a la media estimada sin recurrir a algunas suposiciones”, debido a que este muestreo solo identifica a un conglomerado y para poder evaluar el error de muestreo se necesitan cuando menos dos conglomerados. Sin embargo, se podría obtener una estimación sin sesgo del error de muestreo si en lugar de obtener una muestra sistemática de 100 elementos, se obtuvieran 5 muestras sistemáticas de 20 elementos cada una, ya que la variación entre estas muestras permite la medición del error de muestreo. 56
Otra dificultad que existe es la periodicidad de un listado de una población; para ilustrar considere el ejemplo de los archivos de los estudiantes, suponga que cada archivo incorrecto está colocado en la lista en cada múltiplo de 2 y queremos seleccionar una muestra de tamaño 10, entonces el intervalo muestral es 10, que coincide que es un múltiplo de 2, suponga además que el punto inicial para la muestra es 4 (elegido al azar), la muestra va a contener sólo archivos incorrectos y esta muestra no representaría a la población, causaría una parcialidad en los resultados. En el muestreo sistemático los marcos ordenados no siempre son malos. Si el marco está ordenado en forma de estratos, la selección de una muestra sistemática automáticamente necesitará de una muestra estratificada y se obtendrán resultados más eficientes que en el muestreo aleatorio simple. Si el investigador está consciente de que existe estratificación dentro del muestreo sistemático, puede utilizar formulas del muestreo estratificado ya sea para calcular una media o el error estándar. 3.2.3 Muestreo aleatorio estratificado El Muestreo aleatorio estratificado (m.a.e.) es más complejo que el Muestreo aleatorio simple. Pero aunque este último tiene la ventaja de su simplicidad, no es el más adecuado para resolver muchos de los problemas planteados en la investigación de mercados. El m.a.e. generalmente se presenta en el estudio de poblaciones que presentan heterogeneidad con respecto a la(s) variable(s) de interés. Este esquema de muestreo consiste en fraccionar la población original en estratos (o subdivisiones) de tal forma que todos ellos formen una partición como se muestra en la Figura 9. En estas condiciones cada unidad pertenece a uno y sólo uno de los estratos y la unión de todos ellos conduce a la población total. En términos generales, el muestreo aleatorio estratificado se lleva a cabo mediante los pasos siguientes: La población de N elementos se divide en L estratos (o subgrupos) lo más homogéneos posibles con respecto a la(s) variable(s) de interés. Se denota el tamaño de la población en el estrato i por Ni , por lo que N N1 N2 N L . Establecidos los L estratos, se selecciona independientemente en cada uno de ellos una muestra aleatoria simple. Indicando el tamaño de la muestra en el estrato i por ni, por lo que n n1 n2 nL . Considerando cada estrato como una población por sí sola, se calcula en cada uno de ellos el estimador correspondiente, mismo que se pondera 57
apropiadamente para obtener un estimador del parámetro poblacional correspondiente.
n1 n2 nL =n Figura 9. Esquema de un muestreo aleatorio estratificado. El muestreo aleatorio estratificado es ampliamente utilizado por varias razones: Permite estudiar en forma independiente a cada uno de los estratos. La estimación de los parámetros correspondientes tienden a ser más precisos que los obtenidos mediante la utilización de un m.a.s. Permite resolver muchos problemas de coordinación en la obtención de la información en el trabajo de campo. Ahorra dinero, tiempo y esfuerzo, es decir, se puede ahorrar el costo, el tiempo y traslado del entrevistador, ya que las muestras pueden ser tomadas por áreas geográficas y el entrevistador no andaría de un lado a otro consumiendo tiempo y dinero. El investigador con este ahorro de capital podría tomar una muestra de mayor tamaño que la que se podría tomar en un Muestreo Irrestricto Aleatorio del mismo costo.
58
3.2.4 Muestreo por conglomerados El muestreo por conglomerado se caracteriza por que las unidades de muestreo son un conjunto de elementos, los cuales son conocidos como conglomerados. Dependiendo de la complejidad de la población en estudio, este esquema de muestreo puede llevarse a cabo en una ó en varias etapas, sin embargo, en este trabajo se presenta únicamente el caso de una etapa. Descripción del muestreo por conglomerados en una etapa Generalmente los conglomerados o agrupamientos se forman reuniendo unidades que se encuentren próximas entre sí, en sentido físico. Cuando no pueden realizarse este tipo de agrupaciones es recomendable incluir en el mismo grupo unidades diferentes. Así, si cada agrupamiento es una representación de la población, sin duda se lograrán buenas estimaciones seleccionando unos cuantos conglomerados. El muestreo por conglomerados es una técnica en donde se analizan conglomerados de elementos y en cada conglomerado los elementos se estudian en su totalidad, es decir, cada conglomerado seleccionado en la muestra será censado. Para ilustrar el esquema que nos ocupa se presenta a continuación el siguiente ejemplo: supóngase que se desea estudiar la calidad de cierta marca de leche que viene empaquetada en cajas de 12 litros cada una. La población en estudio está compuesta por todos los litros de leche que va recibir un gran supermercado. En este caso se presenta el problema de construir un marco de unidades (litros de leche), el cual resultaría muy tedioso de elaborar. Para solucionar este problema, se define como unidad de muestreo a cada caja, que contiene 12 litros de leche, resultando más práctico construir un marco de cajas (conglomerados) que un marco de unidades (litros de leche). Considerando ahora, una población de cajas, se listan y se enumeran de 1 a N (siendo N el número de cajas y cada caja un conglomerado de 12 litros de leche). Luego, se elige una muestra n de cajas y se efectúa el estudio de los 12 litros de leche de cada caja seleccionada, para que posteriormente se haga la estimación correspondiente. De esta manera, mediante el uso del muestreo por conglomerados, se ha ahorrado el trabajo de construir un marco de litros de leche y se ha efectuado el estudio requerido. En la Tabla 3 se presentan algunos ejemplos de conglomerados que pueden disponerse en una población bajo estudio.
59
Tabla 3. Ejemplos de conglomerados. Población
Conglomerados de Elementos unidades de muestreo
1 Ciudad A
Manzanas
2 Ciudad B
Viviendas
3 Aeropuertos
Vuelos
4
Escuela Secundaria
Variables
Características de vivienda Personas Grado de estudios Pasajeros que Información acerca salen viajes
la
Viviendas
Salones de clase
5 Tránsito anual Intervalos de 40 minutos en un puente 6 Fábrica Cajas de artículos
Estudiantes
Planes de carreras
Vehículos
Origen y destino
Artículos
Calidad del artículo
de
El esquema de conglomerados en una etapa se muestra en la Figura 10, para ilustrar la forma en cómo funciona.
Población finita de
N conglomerados 2
1
5
. 4
6
..
3
N Selección Aleatoria de conglomerados
3 1
.
. . n
2
Muestra aleatoria simple de
n
conglomerados
Figura 10. Esquema de conglomerados en una etapa. El muestreo por conglomerados en una etapa, en la práctica se reduce a la aplicación de muestreo aleatorio simple, pero tomando como unidades de muestreo agrupaciones y no individuos.
60
Pasos para seleccionar una muestra por conglomerados en una etapa El primer paso a seguir en el muestreo por conglomerados es especificar apropiadamente los conglomerados, comúnmente las unidades que conforman un conglomerado se encuentran cercanos entre sí, lo que ocasiona que entre ellos sean similares con respecto a la característica de interés, en estos casos seleccionar un conglomerado de gran tamaño puede no resultar muy útil, ya que observar más unidades posiblemente muy correlacionadas con otros elementos no aportaría gran información acerca del parámetro poblacional y en cambio se incrementarían los costos originados en su estudio. Sin embargo, pueden presentarse situaciones en las que los elementos del conglomerado sean muy distintos entre sí, en estos casos es más útil seleccionar pocos conglomerados de gran tamaño, sin que la estimación del parámetro poblacional deje de ser bastante buena. Por ejemplo, supóngase que los conglomerados están formados por paquetes que contienen cajas de cereal y se desea conocer el peso promedio de llenado por cada caja. Las cajas de cereal vienen saliendo de una línea de producción en donde se supone que todas las líneas tienen aproximadamente la misma variabilidad en el llenado de las cajas, entonces cada conglomerado (paquete de cajas), es aproximadamente tan variable con respecto al llenado de las cajas como la población misma. Entonces un estimador del peso promedio de llenado de las cajas sería bastante bueno, utilizando uno o dos conglomerados. Por el contrario, supongamos que en una ciudad se desea conocer la proporción del gasto semanal en alimentación familiar y que los conglomerados están formados por manzanas. Como las manzanas tienen muchos hogares y los recursos no permiten muestrear muchas manzanas, supongamos que se muestrean dos o tres. En este caso puede que seleccionemos conglomerados en donde los hogares se encuentren en una cómoda situación económica y la estimación del gasto probablemente sería elevada, dando como resultado un mal estimador, ya que no se tomarían en cuenta aquellos hogares en situación económica más precaria. En esta situación puede obtenerse mayor información muestreando un número grande de conglomerados más pequeñas. Como puede observarse la elección del tamaño correcto de los conglomerados no puede determinarse mediante alguna regla, elegir el tamaño de los conglomerados debe de estudiarse dependiendo del problema que se trate, buscando encontrar el justo equilibrio entre el número y el tamaño de los conglomerados, pero sin duda una encuesta piloto puede darnos suficiente información para hacer la elección correcta. Nótese que la diferencia principal entre el muestreo estratificado y el muestreo por conglomerados es que los estratos deben de ser lo más homogéneos posibles dentro de ellos, pero lo más diferentes entre un estrato y otro con respecto a la característica de interés. Por otra parte los conglomerados deben de ser lo más heterogéneos posibles dentro de ellos y a su vez lo más parecido entre uno y otro. 61
Cuando los conglomerados han sido especificados, se debe realizar una lista que contenga todos los conglomerados que conforman la población. Entonces se selecciona una muestra aleatoria simple de conglomerados. Considerando la eficiencia económica, es decir, el costo relativo de las observaciones en cada uno de los métodos, casi siempre veremos que el muestreo por conglomerados es más económico que el muestreo aleatorio simple y que el estratificado, si el costo por obtener un marco que liste todos los elementos de la población es muy alto o si el costo por obtener las observaciones aumenta con la distancia que separa a los elementos, por ejemplo; suponga que deseamos calcular el gasto promedio por familia de una ciudad. Si usamos Muestreo Aleatorio Simple se necesita un marco que liste todos los hogares existentes en la ciudad y esto puede ser muy costoso o imposible de lograr, no se puede evitar esto utilizando muestreo estratificado ya que se necesita un marco para cada estrato de la población, lo que se podría hacer es dividir a la ciudad en regiones tales como manzanas o conglomerados de elementos y seleccionar una muestra aleatoria de ellos, esto se puede realizar con facilidad utilizando un marco que liste todas las manzanas existentes, de esta manera se puede calcular el gasto promedio de cada familia dentro de cada manzana. Además si se selecciona una muestra aleatoria de toda una lista de hogares en la ciudad resulta ser muy costosa, debido a que la muestra elegida puede estar dispersa en toda la ciudad y los entrevistadores pierden tiempo y dinero en gastos relativos. El muestreo estratificado es el más adecuado para reducir estos gastos de transporte, ya que los elementos de un conglomerado deben de estar geográficamente cerca uno del otro.
3.3 Muestreo no probabilístico Los métodos de muestreo analizados anteriormente son todos probabilísticos. En cada uno de ellos se cumplen los requisitos del muestreo probabilístico, es decir, que cada elemento de la población seleccionado tiene una probabilidad conocida de ser seleccionado en la muestra. Ahora analizaremos algunos métodos de muestreo en donde no se cumple esta condición, es decir, que no se conozca la probabilidad de que se seleccione cada elemento, a estos métodos de muestreo se les conoce como de muestreo no probabilístico. El muestreo no probabilístico incluye una gran variedad de técnicas, cuya complejidad va desde una muestra seleccionada sobre bases convencionales hasta una muy elaborada “muestreo por cuotas” en donde se eligen los entrevistadores de acuerdo a una serie de características socioeconómicas. Cualquier procedimiento de muestreo en donde no se específica la probabilidad de selección de un elemento de la población es un método de muestreo no probabilístico, sin importar que se haya incluido en las especificaciones.
62
3.3.1 Muestreo a conveniencia Una muestra a conveniencia, como su nombre lo indica, es una muestra seleccionada de acuerdo a la comodidad o conveniencia del investigador, acudiendo a poblaciones accesibles como: voluntarios, pedir opinión a personas en un supermercado, usar estudiantes y/o conocidos, conocer zonas donde habitualmente se centra la información, etc. Los elementos que conforman ésta muestra son elegidos en forma simple porque se tiene acceso a ellos, son claros o fácilmente medibles. Este procedimiento permite obtener información rápida y económica. Se utiliza principalmente para: Obtener información en una etapa inicial y determinar si merece la pena continuar el estudio. Generar hipótesis, es decir, sugerir investigaciones o preguntas del cuestionario para diseñar un nuevo estudio. En general, para desarrollar estudios en los que no se necesite mucha exactitud. El caso más frecuente de este procedimiento es el de utilizar como muestra individuos a los que se tiene fácil acceso. La ventaja de este tipo muestreo es que se reduce el costo del muestreo y la toma de información, pero tiene la desventaja de que los estimadores obtenidos de la muestra son poco precisos de los parámetros poblacionales. Ejemplos de este tipo de muestreo: Un grupo de actividad eclesiástica, un salón de clases de estudiantes, las mujeres en un centro comercial en un día en particular, los primeros 50 receptores de cuestionarios por correo, o unos cuantos amigos y vecinos. A menudo este tipo de muestreo es usado para probar un cuestionario. 3.3.2 Muestreo por criterio o dirigido En este tipo de muestreo los elementos son seleccionados a través de un “juicio experto”, es decir, los encargados de llevar a cabo un estudio, escogen la muestra que creen es la mejor para ese estudio. Por ejemplo, los gerentes de ventas podrían seleccionar una muestra de tiendas de comestibles de una ciudad, considerada para ellos como representativa en algún sentido. Una de las dificultades que se ha encontrado a través de la experiencia en este tipo de muestreo, es que se producen resultados insatisfactorios, y no existe una manera objetiva de evaluar la confiabilidad de la muestra. A pesar de esto, este método puede ser útil cuando el tamaño de la muestra es muy pequeño, lo que por lo regular es muy frecuente. 63
Generalmente, el muestreo de juicio está asociado con una variedad de sesgos obvios y no tan obvios. Por ejemplo, el uso de las entrevistas en los centros comerciales puede sobremuestrear a personas que compran frecuentemente, que parecen amigables, y que tienen tiempo de atenderlos. Lo que es peor, no existe forma de cuantificar realmente el sesgo y la incertidumbre resultantes, porque el marco de muestreo es conocido y el procedimiento de muestreo no está bien especificado. Hay situaciones en las que el muestreo de juicio es útil y aun aconsejable. Primero, hay ocasiones en las que el muestreo probabilístico no es factible o es prohibitivamente costoso. Una muestra aleatoria de homosexuales puede ser imposible de obtener, y una muestra de juicio de aquellos que frecuentan los bares y a otros centros de reunión será la usada. Una lista de vendedores ambulantes podría ser imposible de obtener, y una muestra de juicio podría ser apropiada en este caso. Segundo, si el tamaño de la muestra es muy pequeño (digamos, menos de diez), una muestra de juicio generalmente será más confiable y representativa que una muestra de probabilidad. Tercero, algunas veces es útil obtener una muestra deliberadamente sesgada. Si por ejemplo, se tuviera que evaluar la modificación de un producto o servicio, podría ser posible identificar un grupo que, por su propia naturaleza, estuviera dispuesto hacia la modificación. Si se encontrara algún rechazo, entonces podría suponerse que el resto de la población sería igualmente negativa. Si les gustara, desde luego, probablemente se requeriría más investigación. 3.3.3 Muestreo de bola de nieve Este muestreo parte de la premisa de que las unidades de la población se conocen entre sí y consiste en seleccionar una muestra inicial de unidades y establecer en cada entrevista qué nuevas personas de la población en estudio han de entrevistarse para pasar a formar parte de la muestra. En sentido muy amplio, la primera unidad de la muestra puede seleccionarse de manera intencional o estar constituida por voluntarios y las unidades siguientes quedan determinadas por las anteriores. El muestreo de bola de nieve tiene la ventaja de ser más económica, permite la creación de una muestra cuando no se dispone de un marco muestral, permite ampliar la muestra inicial hasta obtener una muestra que se considere representativa de la población en estudio y se selecciona la muestra con elementos que interesen al estudio. Por otra parte, tiene las desventajas de tener poca representatividad de los resultados, proporcionar estimadores sesgados y no se pueden hacer inferencias a la población bajo estudio. 64
El muestreo bola de nieve tiene sus aplicaciones en estudios: sociológicos, de mercado, de evaluación de proyectos, de relaciones o redes para estudios sociométricos o de coaliciones, de élite o en estudios de poblaciones raras o marginales. En la Figura 11 se representa gráficamente la idea del muestreo bola de nieve, donde la unidad inicial es el elemento uno, quien al ser entrevistado, informa que las personas dos y tres son candidatos para formar parte de la muestra. A su vez la unidad dos, informa de las unidades cuatro y cinco, y la unidad tres, de las unidades seis y siete, y así respectivamente hasta que el investigador considere que ha reunido la información suficiente para llevar a cabo la investigación.
Figura 11. Esquema de un muestreo bola de nieve.
3.3.4 Muestreo por cuotas Es un tipo de muestreo ampliamente utilizado en encuestas de opinión pública e investigación de mercado. Parte de la premisa de que la muestra debe tener una buena distribución geográfica y que debe contener la cuota determinada de individuos con ciertas características de la población. Las características que suelen tomarse en cuenta son el sexo, la edad, el nivel socioeconómico, el tamaño del lugar u otras características sociológicas o económicas. La complejidad de éste es muy variable, pero siempre toma en cuenta tres pasos básicos que se mencionarán a continuación: 1) La selección de las “características de control” y la determinación de la proporción de la población que tiene cada conjunto de características. Es decir, se divide la población en subconjuntos y es similar a la estratificación, a estos subconjuntos se les llama “células” y a los fundamentos de estratificación se les llama “controles”. Estos se eligen de acuerdo a que se cree que están 65
relacionados con la característica bajo estudio, y que se cuenta con información actualizada acerca de su distribución en la población (resultados de un censo reciente, de estadísticas oficiales o de estudios realizados previamente). A manera de ilustración suponga que se ha decidido realizar una encuesta a los consumidores de la ciudad de Xalapa, utilizando dos características de control: edad e ingresos por familia, suponga además, que las células que se obtienen son las siguientes: Ingresos por familia Menos $800,000 $800,000 o más Total
Edad del consumidor Menor de 30 años 30 años o más 18% 29% 15% 38% 33% 67%
Total 47% 53% 100%
La población de la cual se tomará la muestra indica que el 18% de los consumidores que son menores de 30 años y perciben un ingreso menor de $800,000 por familia y el 15% perciben un ingreso por familia de $800,000 o más, etc. 2) La distribución de la muestra entre las células. Una vez que ya se tienen las células, el siguiente paso es decidir de qué tamaño se tomará la muestra de cada una de ellas, por lo regular, aunque no siempre, se toma una muestra proporcional. Tomando en cuenta el ejemplo anterior, si se desea una muestra total de 500, la distribución proporcional de entrevistas por célula sería: Para los consumidores menores de 30 años y con ingresos menores de $800,000, el tamaño de la muestra sería 90 que equivale al 18% de la población; para los consumidores mayores de 30 años y con ingresos menores de $800,000 sería de 145 (29%), etc. 3) La selección de los elementos de la muestra. Ya que se definió el tamaño de muestra de cada célula, se le asigna a cada investigador una cuota, es decir, se les dice que realicen un número X de observaciones con los elementos que poseen característica determinadas y Y observaciones con los elementos que poseen otras características, es decir, se le pide a un entrevistador que realice 20 entrevistas a las personas que tengan menos de 30 años e ingresos familiares menores de $800,000 y 30 entrevistas a las personas que perciben ingresos mayores de $800,000. Así hasta que la muestra total haya sido cubierta. Este es el origen del objetivo “cuota”. Las entrevistas se obtienen de la manera más rápida que sea posible. Algunas dificultades inherentes al muestreo por cuotas. El muestreo por cuotas y el muestreo estratificado son similares ya que en los dos, la población se divide en subconjuntos y en cada uno de ellos se toma un número determinado de muestra para obtener la muestra total. Cabe mencionar, 66
que en el momento de tomar la muestra de cada subconjunto son diferentes, debido a que en el muestreo estratificado estas muestras se toman al azar y en el muestreo por cuotas no, ya que a los representantes de zona se les brinda facultades de selección para que cubran sus cuotas. Esta distinción entre los dos métodos es importante, dado a que en ocasiones se les considera erróneamente como equivalentes. Además, se trata a los datos como si provinieran de una muestra estratificada al azar. Los dos muestreos serían equivalentes si se pudiera suponer que las muestras dentro de cada célula representan muestras aleatorias simples, pero la experiencia indica que esta hipótesis no es correcta. Al utilizar el muestreo por cuotas la suposición implícita que surge casi siempre, es que la selección dentro de cada célula es aleatoria y que la diferencia entre cada elemento de ésta es muy pequeña que incluso si se sacarán los elementos de los extremos no se afectarían mucho las estimaciones. Debido a esto, algunos investigadores aplican incorrectamente los mismos principios en un muestreo por cuotas y en un muestreo probabilístico para determinar el tamaño de la muestra y el error de muestreo. En el muestreo por cuotas, la selección de los entrevistadores que se incluirán en una célula se deja a juicio de los representantes de zona, no está regida por una selección aleatoria. Por lo regular las personas que pertenecen a una célula y que serán los entrevistados con más frecuencia son las que resultan de más fácil acceso y tienen facilidad de expresión. En la mayoría de los casos se encontrarán diferencias en las muestras por cuotas y las muestras estratificadas al azar, en situaciones en que la naturaleza de las muestras por estratos no tiene. Por ejemplo, las cuotas pueden basarse en información obsoleta o imprecisa, lo que en el muestreo estratificado no sucederá. Otra dificultad, es que es difícil identificar a los entrevistados. Casi siempre es difícil determinar en las entrevistas características de control como: edad, ocupación e ingreso, lo que trae como consecuencia que las entrevistas realizadas para lograr una cierta cuota podrían no tener las especificaciones de la cuota. Por ejemplo, las entrevistas de los consumidores menores de 30 años podrían contener a personas mayores. 3.3.5 Formas especiales del muestreo no probabilístico Muestreo de entrevistas de grupo Este muestreo como su nombre lo indica, se utiliza en los estudios enfocados a grupos. Un “grupo” usualmente es una muestra por cuotas de cinco a diez consumidores, a los cuales se les hace una entrevista conjunta de una a dos horas, esta entrevista la realiza una persona especializada en la dinámica de grupos.
67
Los grupos son pequeños debido a que son muy costosos y además la información que se tiene de cada grupo está poco estructurada debido a que la entrevista es en forma libre y se realiza con varias personas a la vez. Por lo general, este tipo de muestreo se utiliza en las investigaciones exploratorias con el propósito de conocer las creencias y prácticas de los consumidores respecto al producto en cuestión. Cada grupo no es un intento riguroso de estimación de los parámetros de alguna población. Las muestras de grupo pueden aportar datos importantes para el desarrollo de hipótesis, no se debe de considerar que aporta pruebas de magnitud de algún parámetro debido a la dificultad que se tiene en muestrear a la población mediante esta técnica, o debido a que cada entrevista es en realidad una muestra de uno, consistente usualmente en un aglomerado poco definido de respuestas. En la práctica es común variar la forma y el contenido de los interrogatorios de un grupo a otro. Dado que las personas de un grupo son entrevistadas en conjunto, la respuesta de cada una de ellas está condicionada por las demás. Los datos que se obtienen de tres grupos cada uno de ellos con cinco personas, no son equivalentes a los datos que se obtienen de 15 entrevistas individuales seleccionadas al azar, debido a que los grupos son muestras de conglomerados por cuotas. Muestras de intercepción de centros comerciales Este muestreo es otra técnica del muestreo no probabilístico de uso generalizado. Busca a los entrevistados, para realizarles entrevistas individuales (utilizando cuotas asignadas) en sitios fijos de centros comerciales. En la práctica es común que en una investigación se utilicen varios centros comerciales con diferente nivel socioeconómico en varias ciudades. Estas muestras son utilizadas frecuentemente en estudios de magnitud moderada (100 a 200) carácter experimental. Se emplean, por ejemplo, para comparar las respuestas de dos o más centros comerciales, dos o más conceptos del producto, etc. y no para estimar los parámetros de una sola población existente. Estas muestras deben de ser de carácter informativo para tales propósitos, bajo el supuesto de que las diferencias resultantes en el experimento no dependan en gran parte de las características de la muestra.
3.4 Actividades de la unidad Para el escenario planteado de Pizza Healthy (o su propio escenario) que describió en la unidad 2, explique claramente el tipo de muestreo que es conveniente utilizar para poder aplicar el cuestionario propuesto y el tamaño de muestra que debería usar.
68
UNIDAD 4. ANÁLISIS ESTADÍSTICO BÁSICO EN LA INVESTIGACIÓN DE MERCADOS 4.1 Análisis estadístico exploratorio y descriptivo Las técnicas del análisis exploratorio permiten, antes de realizar cualquier otro tipo de análisis, verificar de manera preliminar el comportamiento de los datos reunidos y de acuerdo con este comportamiento ajustar el modelo más apropiado. El objetivo principal de la exploración de los datos, puede ser dividido en dos áreas: Detección de errores. Es bastante común que al manipular los datos reunidos se cometan errores sin detectarse. Errores de registro, codificación, captura, etc., muchos de estos errores se detectan en la exploración de datos. Exploración de las características de los datos. El análisis exploratorio de los datos nos permite: a) Exhibir características o patrones ocultos dentro de los datos. b) Resaltar con claridad la tendencia o regularidades que conforman los datos. c) Proponer hipótesis o modelos acerca del comportamiento de los datos. Entre algunos de los métodos exploratorios de datos más usuales para destacar las particularidades más importantes de un conjunto de datos, podemos encontrar los gráficos (de puntos, de tallos y hojas, histogramas, ojivas, cajas y alambres) y tablas de frecuencias. Sin embargo, tales métodos no son suficientes para caracterizarlos en forma resumida. Por ejemplo, si deseamos comparar dos conjuntos de datos, resulta difícil confrontarlos por simple inspección de sus gráficos o de sus distribuciones de frecuencia: En tal caso, resulta conveniente obtener medidas numéricas que describan resumidamente los conjuntos de datos conocidas como estadísticas descriptivas. Existen fundamentalmente dos tipos de medidas descriptivas de interés para cualquier conjunto de datos. Las de tendencia central y las de dispersión. 4.1.1 Análisis univariado y bivariado Generalmente, el primer paso en el análisis de datos consiste en analizar cada variable o medirla por sí misma de forma individual, este análisis se conoce con el nombre de análisis univariado. Posteriormente se procede a estudiar la relación entre dos o más variables, en el caso de analizar las variables por parejas se conoce con el nombre de análisis bivariado y en el caso de más de dos variables se conoce como análisis multivariado. 69
Dentro de las técnicas de análisis univariado se utilizarán gráficos y tablas para cada variable de interés. En el caso del análisis bivariado se encuentra la correlación lineal. 4.1.2 Correlación lineal El objetivo central del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. La intensidad mencionada es medida por medio del coeficiente de correlación lineal r. El coeficiente refleja el grado de relación o efecto que tiene el cambio de una variable sobre otra. El valor del coeficiente de correlación lineal ayuda a contestar la pregunta: ¿Existe correlación lineal entre las dos variables consideradas? El coeficiente de correlación lineal r siempre tiene un valor entre -1 y +1. Un valor igual a +1 indica una correlación perfecta positiva. Mientras que un valor igual a -1 indica una correlación perfecta negativa. Si a medida que se incrementa X hay un incremento general en el valor de Y, entonces r indica una correlación lineal positiva para X y Y, ya que a medida que X crece, Y también crece. Por ejemplo puede considerarse la antigüedad de un automóvil como X y su valor relativo como Y. Conforme un coche se hace antiguo su valor se deprecia. La correlación entre estas dos últimas variables es negativa, ya que Y decrece al aumentar X. El valor de r para una muestra se obtiene mediante la expresión (conocida como la r de Pearson). n
xi yi
xy
i 1
r
n n
xi2
i 1
n
n
yi2 2 i 1 x n
2
y
Una forma de observar gráficamente la correlación lineal es a través de un correlograma o diagrama de dispersión que es el gráfico más antiguo para representar datos bivariados. Un correlograma es una gráfica de puntos que nos representa un conjunto de datos bivariados en un plano cartesiano. El correlograma es una de las herramientas más potentes para investigar la dependencia de una variable “Y” sobre una variable “X”. En la Figura 12 se ilustran algunos gráficos que muestran diferentes tipos de asociación y niveles de intensidad de los mismos. 70
Figura 12. Diferentes tipos de asociación entre dos variables X y Y Se recomienda antes de analizar los datos mediante un esquema de Regresión Lineal Simple, graficarlos en un correlograma, el cual permite explorar la asociación que hay entre la variable X y la variable Y. Así mismo a comprender la eficiencia y las posibilidades de aplicar los métodos inferenciales en un futuro análisis. Tal exploración también puede indicar la posibilidad de usar técnicas como regresión múltiple o regresión no lineal.
4.2 Inferencia estadística básica La inferencia estadística consiste en aquellos métodos por los cuales se realizan inferencias o generalizaciones acerca de una población, Walpole et al (1985), también es útil en la mercadotecnia principalmente para obtener e interpretar observaciones empíricas de tal manera que se pueda tomar una decisión racional ante la incertidumbre. La inferencia estadística se divide en dos áreas: la estimación y la prueba de hipótesis. Analizaremos dos ejemplos para poder distinguir estas dos áreas: 1) considere que una fábrica desea lanzar al mercado un cereal de manera industrializada, dicho cereal se sabe que es consumido por la población en forma natural, es decir, no industrializada, aunque no se sabe el dato exacto de su consumo. Así entonces, se desea estimar el número de personas que lo consumen mediante una muestra aleatoria de 100 elementos, la fracción de personas que consume dicho cereal puede considerarse como la verdadera proporción de la población. Este problema se incluye dentro del área de estimación; 2) ahora considere que la fábrica desea saber cuál de los dos tipos de cereal (industrializado y el natural) es el mejor, la fábrica puede suponer que el industrializado es el mejor, y después se realiza las pruebas apropiadas, aceptar o 71
rechazar esta hipótesis, nótese que en esta segunda fase del ejemplo se pretende llegar a una decisión correcta y no estimar un parámetro. Nuevamente se está dependiendo de la teoría estadística para obtener así una medida que precise la decisión a tomar. En esta antología se presentan de manera general algunas de las pruebas de hipótesis tales como para proporciones, para probar independencia y homogeneidad. 4.2.1 Prueba de hipótesis para proporciones Las pruebas de hipótesis relacionadas con proporciones son utilizadas en diversas áreas. Por ejemplo, un candidato a diputado está interesado en conocer la proporción de personas que votarán a su favor; un fabricante de zapatos desea saber la proporción de artículos defectuosos cuando se realiza un envió; un fabricante de un determinado producto desea saber la proporción de personas que prefieren su producto, etc. Analizaremos como se llevan a cabo estas pruebas de hipótesis para proporciones. Se probará la hipótesis de que la proporción de éxitos de un experimento binomial sea igual a un valor específico, es decir, la hipótesis nula será p p0 , donde p es el parámetro de la distribución binomial y la hipótesis alterna será cualquiera de las siguientes p p0 , p p0 ó p p0 , bilateral o unilateral según sea el caso. El estadístico en el cual se basa el criterio de decisión es la variable aleatoria binomial X = número de “éxitos” observados en una muestra de tamaño n. Aunque también se puede utilizar el estadístico p X / n , valores de X lejanos de la media np0 produce el rechazo de la hipótesis nula, debido a que X es una variable binomial discreta, es muy poco probable que se establezca una región crítica exactamente igual al valor de , por tal motivo es preferible basar las decisiones en los valores de P. Cuando n es pequeña se utiliza la tabla o la formula binomial real. Cuando n es grande se utilizan aproximaciones, si el valor de p0 se encuentra muy cerca de 0 ó de 1 se puede usar la distribución Poisson con parámetro np0 . También puede ser utilizada la distribución normal con parámetros np0 y
2
np0 q0 , ésta es
muy segura siempre y cuando p0 no se encuentre demasiado cerca de 0 y 1. En esta distribución, el valor de Z que prueba la igualdad p p0 es Z0
x np0 np0 (1 p0 ) 72
Se utiliza la tabla de distribución Normal La región crítica para la hipótesis de dos colas para un nivel de significancia es Z0 Z / 2 y Z0 Z / 2 , para p p0 es Z0 Z y para p p0 es Z0 Z . Para probar la hipótesis: H0 : p p0 H1 : p p0 Se utiliza la distribución binomial para calcular P. P = P( X x cuando p p0 ) Donde x es el número de éxitos en la muestra de tamaño n. Si el valor de P es menor o igual a , la prueba es significativa con un nivel y se rechaza H 0 aceptándose H1 . Para probar las hipótesis H0 : p p0 H1 : p p0 Con un nivel de significancia , se calcula P = P( X x cuando p p0 ) Si este valor es menor o igual que , se rechaza H 0 y se acepta H1 . Por último para probar las hipótesis: H0 : p p0 H1 : p p0 Con un nivel de significancia , se calcula P = 2P( X x cuando p p0 ) Si x np0 ó P = 2P ( X x cuando p p0 ) Si x np0 Si P es menor o igual que se rechaza H 0 , aceptándose así H1 73
Ejemplo. Una empresa refresquera distribuye dos marcas de refresco, marca A y marca B, y afirma que el 20% de los consumidores en Xalapa prefieren la marca A. Para probar esta afirmación se tomó aleatoriamente una muestra de 120 personas y se les preguntó que marca prefieren. Si 36 de los 120 responden que prefieren la marca A, ¿qué conclusión puede obtenerse?, Con un nivel de significancia de 0.05. Solución Las hipótesis que se plantean son: H0 : p 0.20 H1 : p 0.20 Donde n 120 , p0 0.20 , x 36 np0 120(0.20) 24 Como n es muy grande, se utiliza la distribución normal. La región crítica z < -1.96 y z > 1.96
Z 0
x np0
np0 (1 p0 )
36 24
120(0.20)(0.80) 2.7386
Conclusión. Se rechaza H 0 , es decir, que los consumidores de refresco en Xalapa que prefieren la marca A no es igual al 20%.
4.2.2 Análisis de tablas de contingencia Cuando se analizan variables cualitativas, es habitual representar en tablas las frecuencias de casos observados para cada una de las diferentes categorías de las variables, las cuales se denominan tablas de contingencia. Las tablas de contingencia son una herramienta fundamental para este tipo de análisis. Están compuestas por filas (horizontales), para la información de una variable y columnas (verticales) para la información de otra variable. Estas filas y columnas delimitan celdas donde se vuelcan las frecuencias de cada combinación de las variables analizadas. En su expresión más elemental, las tablas tienen solo 2 filas y 2 columnas (tablas de 2x2). En general, las tablas pueden abarcar varias 74
filas (M) y columnas (N). El análisis puede ocasionalmente involucrar más variables. Nos enfocaremos a las tablas de contingencia de dos dimensiones. Estas están compuestas por dos variables que representan las categorías o clases. La primera variable tiene r categorías (filas), la segunda tiene c categorías columnas, entonces las r c casillas representan las frecuencias de ocurrencia de las r c combinaciones de niveles, categorías o clases de las dos variables. La notación utilizada es la siguiente: Tabla 4.Tabla de contingencia B1 B2 B3 B A A1 A2 : : Ai ni1 ni2 : : Ar n+1 n+2
...
Bj N1j n2j : : nij : : nrj n+j
Donde n representa el total de la muestra y ni ,
...
...
Bc
nic
n+c
n1+ n2+ : : ni+ : : nr+ n++
n j representan los totales
marginales de la muestra por fila y por columna, nij cruzada en la casilla de la tabla con fila i y columna j.
representa la clasificación
También a esta tabla se le puede agregar otra que represente las probabilidades observadas. Tabla 5.Tabla de probabilidades observadas B1 B2 B3 B ... A A1 A2 : : Ai Pi1 Pi2 : : Ar P+1 P+2
Bj N1j n2j : : Pij : : Prj P+j
...
...
Bc
Pic
P1+ P2+ : : Pi+ : : Pr+ 1
75
Donde Pij es la proporción total de la muestra que cae dentro de cada casilla, esto es: Pij nij / n ; por lo tanto i j Pij 1 A este conjunto de probabilidades se le denomina distribución conjunta. A los totales de las filas y de las columnas se le denomina distribuciones marginales, es decir, Pi y P j , que se obtienen sumando las filas y las columnas, esto es:
P i
P
j
j
P
ij
i
P
ij
Estas distribuciones se denotan por ( Pi ) ( P j ), observe que Pi ni / n y P j n j
/ n y que Pi P j 1.
Ejemplo. Suponga que mediante una tabulación cruzada se discute el punto de que el dueño de una rasuradora eléctrica (variable dependiente) está con más frecuencia entre los hombres de menos de 40 años que entre los que tienen 40 años o más (variable independiente). Se tomó una muestra de tamaño 500. Los datos observados se presentan a continuación: Tabla 6. Datos observados Poseen rasuradora eléctrica Si (B1) No (B2) Total
A1 40 años o menos 50 (20%) 200 (80%) 250
Grupo de edad A2 Mayores de 40 años 25 (10%) 225 (9%) 250
A3 Total 75 425 500
La correspondiente tabla de probabilidades observadas Tabla 7. Probabilidades observadas Poseen rasuradora eléctrica Si (B1) No (B2) Total
A1 40 años o menos 0.1 0.4 0.5
Grupo de edad A2 Mayores de 40 años 0.05 0.45 0.5
A3 Total 0.15 0.85 1
La distribución conjunta muestral es: Pij = 0.1, 0.05, 0.4, 0.45 76
La distribución marginal por fila: Pi = 0.15, 0.85 La distribución marginal por columnas: P j = 0.5, 0.5 Las probabilidades condicionales para las filas son: P1(1) = P(A1/B1) = 50/75 P2(1) = P(A2/B1) = 25/75 P1(1) = P(A1/B2) = 200/425 P2(1) = P(A2/B2) = 225/425 Observe qué j Pj (1) j Pj (2) 1, pero que es obtenido de hacer la sumatoria de las probabilidades en un espacio muestral distinto al obtenido con las distribuciones marginales.
i Pi = 0.15+0.85 = j P j =0.5+0.5 = 1 La Tabla 6 refleja que un 20% de los hombres que tienen 40 años o menos poseen una rasuradora eléctrica, un 10% de los hombres mayores de 40 años poseen una rasuradora eléctrica, etc. Puede suceder que estos resultados no sean satisfactorios para el analista y desee encontrar una relación mejor, supongamos que él piensa que el factor ingreso puede explicar mejor la obtención de una rasuradora. La Tabla 6 se modificaría de la siguiente manera: Poseen rasuradora eléctrica Si No Total
Ingresos de $300,000 o más 40 años o Más de 40 menos años 30 15 70 85 100 100
Ingresos menores de $300,000 40 años o Más de 40 años menos 15 8 135 142 150 1500
En este ejemplo se analizaron dos variables independientes, edad e ingresos. Se tiene una información más completa, más detallada de las personas que poseen rasuradoras. Sin embargo, existe un límite para utilizar variables independientes, ya que si se incluyen más variables, los investigadores crean más agrupamientos. En el primer ejemplo se crearon cuatro agrupamientos con una variable independiente, en el segundo se crearon ocho agrupamientos con dos variables independientes; además si se utiliza una muestra pequeña y se incluyen varias variables 77
independientes cada agrupamiento tendría resultados muy pequeños, por esta razón las tabulaciones cruzadas generalmente no incluyen más de tres o cuatro variables. También la lógica entre las variables dependientes e independientes tiene mucho que ver con la reducción de las variables. 4.2.3 Hipótesis de independencia La hipótesis de independencia se utiliza, como su nombre lo indica, cuando se desea saber si existe suficiente evidencia respecto a la independencia entre dos variables. Se dice que dos variables son independientes si todas las probabilidades conjuntas son iguales al producto de las marginales. Para probar las hipótesis de independencia en tablas de contingencia, se utiliza la prueba ji- cuadrada ( 2 ). El estadístico que se utiliza es el siguiente: o e 2 i i
2
ei Donde oi representa las frecuencias observadas y ei las frecuencias esperadas que se obtienen multiplicando la probabilidad de cada celda por el total de observaciones.
2 con v (r 1)(c 1) grados de libertad, se rechaza la hipótesis nula de independencia con un nivel de significancia , de lo contrario se acepta. Si
2
Ejemplo: Tomando como referencia el ejemplo de las rasuradoras de la sección anterior, suponga que el investigador desea saber si la variable de uso de rasuradoras eléctricas es independiente de la edad de las personas. Las frecuencias observadas se presentan a continuación: Tabla 8. Tabla de frecuencias observadas Uso de A1 rasuradora eléctrica < de 25 Si usan (B1) 50 No usan (B2) 65 Total 115
A2 25-39 75 60 135
Grupo de edad A3 40-54 95 35 130
A4 > de 54 30 90 120
Total 250 250 500
Probar la hipótesis de independencia, con un nivel de significancia de 0.05. 78
Solución: H 0 : Existe independencia entre las variables H1 : No existe Independencia entre las variables Las frecuencias marginales son: P(A1) = 115/500 P(A2) = 135/500 P(A3) = 130/500 P(A4) = 120/500 Si la hipótesis nula es verdadera y las dos variables son independientes se debería tener: P(A1,B1) = (115/500) (250/500) = 0.115 P(A1,B2) = (115/500) (250/500) = 0.115 P(A2,B1) = (135/500) (250/500) = 0.135 P(A2,B2) = (135/500) (250/500) = 0.135 P(A3,B1) = (130/500) (250/500) = 0.13 P(A3,B2) = (130/500) (250/500) = 0.13 P(A4,B1) = (120/500) (250/500) = 0.12 P(A4,B2) = (120/500) (250/500) = 0.12 Σ = 1.00 Las frecuencias esperadas son: e1= (0.115)(500) = 57.5 e2= (0.115)(500) = 57.5 e3= (0.135)(500) = 67.5 e4= (0.135)(500) = 67.5 e5= (0.130)(500) = 65 e6= (0.130)(500) = 65 e7= (0.120)(500) = 60 e8= (0.120)(500) = 60
La tabla de frecuencias observadas y esperadas, queda de la siguiente manera: Tabla 9. Tabla de frecuencias observadas y esperadas Uso de A1 rasuradora eléctrica < de 25 Si usan (B1) 50 (57.5) No usan (B2) 65 (57.5) Total 115
Grupo de edad A2 A3 25-39 40-54 75 (67.5) 95 (65) 60 (67.5) 35 (65) 135 130
A4 > de 54 30 (60) 90 (60) 120
Total 250 250 500
79
El estadístico 2 .
2 (50 - 57.5)2 /57.5 + (75 - 67.5)2 /67.5 + (95 - 65)2 /65 + (30 - 60)2 /60 + (65 - 57.5)2 / 57.5 + (60 - 67.5)2 /67.5 + (35 - 65)2 /65 + (90 - 60)2 /60
2
61.3155
v (2 1)(4 1) 3 ; 2 (0.05,3) 7.815 Conclusión. Como 22se rechaza la hipótesis nula con un nivel de significancia de 0.05 y se concluye que el tener una rasuradora eléctrica y la edad no son independientes; es decir, existe alguna dependencia entre estas dos variables, lo que se puede aprovechar para una campaña publicitaria. 4.2.4 Hipótesis de homogeneidad En el ejemplo comentado en la sección anterior, en donde se prueba la independencia entre las dos variables, se tomó una muestra de 500 hombres, en donde los totales de las filas y columnas fueron determinados al azar. El estadístico 2 también es utilizado cuando los totales de las filas y columnas están determinados. Esto sucede cuando se realiza un muestreo estratificado. Estas hipótesis se utilizan cuando se desea saber si las proporciones de la población en cada renglón son iguales. Ejemplo: Una empresa refresquera desea saber si la nueva bebida que lanzó al mercado fue aceptada de igual forma en cuatro ciudades importantes (Xalapa, Veracruz, Poza Rica y Córdoba). Para lo cual realizó una investigación obteniéndose los siguientes resultados. Opinión A favor En contra Sin opinión
Xalapa 65 45 93
Ciudad Veracruz Poza Rica 66 40 30 33 54 54
Córdoba 34 42 24
Con un nivel de significancia de 0.01 probar la homogeneidad de opiniones entre las cuatro ciudades relacionada con la nueva bebida. Solución: Suponiendo homogeneidad, se calculan las frecuencias esperadas de igual manera que en el ejemplo anterior. 80
H0 :Las opiniones entre las cuatro ciudades relacionadas con la nueva bebida son las mismas. H1 :Al menos una opinión entre las cuatro ciudades relacionada con la nueva bebida no es la misma. La tabla de frecuencias observadas y esperadas es la siguiente.
2
Opinión
Xalapa
A favor En contra Sin opinión Total
65 45 93 200
Ciudad Veracruz Poza Rica 66 40 30 33 54 54 150 127
Córdoba
Total
34 42 24 100
205 147 225 577
(65 - 71)2 /71 + (45 - 51) 2 /51 (93 - 77.98)2 /77.98 (66 - 53.3)2 /53.3 + (30 - 38.2) 2 /
38.2
(54 - 58.5)2 /58.5 (40 - 45.1)2 /45.1 + (33 - 32.4)2 /32.4 + (54 - 49.5)2 /49.5 + (34 - 35.5)2 /
35.5
+ (42 - 25.4)2 /25.4 + (24 - 38.9)2 /38.9 2 26.78 v (3 1)(4 1) 6 ; 2(0.01,6) 16.812 Conclusión. Como 2 2 , rechazamos H 0 por lo tanto las opiniones no son homogéneas.
4.3 Análisis de regresión En el análisis de la información existe frecuentemente uno o un pequeño número de variables claves que se convierten en el centro de atención del estudio. Cuando un nuevo concepto o producto está siendo explorado, por ejemplo, una de las variables clave es generalmente la actitud del entrevistado o las intenciones hacia él. ¿Es algo que a los entrevistados les gustaría comprar y/o usar? La meta puede ser predecir el consumo último del producto o concepto bajo una variedad de condiciones. Otra meta podría ser entender qué causa las altas intenciones, para que cuando el producto emerja el programa de mercadotecnia pueda ser ajustado para mejorar la probabilidad de éxito. El análisis de regresión proporciona una herramienta que puede cuantificar tales relaciones. Además, a diferencia de las tabulaciones cruzadas y otras medidas de asociación, que tratan nada más con dos variables, el análisis de regresión puede integrar la relación de intenciones con dos, tres, o más variables simultáneamente.
81
Algunos investigadores de mercados prefieren utilizar técnicas que produzcan resultados que se puedan evaluar objetivamente, como los de análisis de regresión y correlación que se pueden utilizar cuando las variables dependientes e independientes son continuas. El análisis de correlación sirve únicamente para saber si existe relación entre dos variables: cuando dos variables tienen un coeficiente de correlación muy alto, los investigadores sabrán que tienen datos que establecen una fuerte relación entre las variables. El análisis de regresión permite predecir el cambio de la variable dependiente si la variable independiente se cambia en una unidad por decir algo, esto se realiza por medio de una ecuación lineal. 4.3.1 Análisis de regresión lineal simple El análisis de regresión es una técnica con la que se adecua una ecuación matemática a un conjunto de datos”, Boyd (1987). Los datos deben de consistir en mediciones de dos o más variables continuas y además el tamaño de la muestra debe de ser cuando menos el doble o el triple del número de variables medidas. La ecuación matemática es: Y 0 1 x Donde Y es una variable dependiente y X una variable independiente o explicatoria, y 1 es un coeficiente que indica el efecto que tiene en Y un cambio en una unidad en la variable X, 0 es la ordenada al origen o el valor promedio cuando X 0 . Debido a que esta ecuación tiene una variable independiente, se le conoce como ecuación de regresión simple. El hacer una regresión lineal a partir de una población es casi imposible, se recurre a la obtención de muestras de la población y con estas se realiza el análisis de regresión. Por medio de las técnicas de regresión y en base a una muestra es posible estimar una ecuación que se asemeje lo más posible a la ecuación poblacional. A esta función que se estima se le llama función de regresión muestral (FRM). La FRM hará lo posible para estimar los valores medios poblacionales de Y dado un valor de X, con cierto error. Para cada muestra existe un FRM, pero no se podrá saber cuál es la que se asemeje mas a la FRP ya que ésta es desconocida. Pero lo que si se asegura es que las técnicas de regresión en base a los datos de la muestra harán posible la obtención de FRM que más se ajuste a ellos. La FRM se puede expresar de la siguiente manera: Yˆ 0 1 x1 Donde: Yˆi = es el estimador del valor E(Y X i ) 0 = es el estimador de 0
1 = es el estimador de 1 82
El procedimiento utilizado comúnmente para calcular la línea de regresión que más se ajuste a los datos, es el conocido como método de mínimos cuadrados; el cual reduce al mínimo la suma de cuadrados de los residuos, es decir, éste método permite obtener los estimadores que reducen al mínimo la sumatoria.
Yi
Yˆi 2
Donde Yi Yˆ es el residuo de los errores muestrales ( ei ). La estimación del coeficiente 1 se obtiene mediante la siguiente fórmula:
1
n
XY
X
Y
n X i 2 X i 2 i
i
i
i
Donde xi y yi representan desviaciones con respecto a su media respectiva. La estimación del coeficiente 0 se calcula de la siguiente manera:
0 Y 1 X Donde X y Y son medias muestrales de X i y Yi . Siempre que se lleve a cabo un análisis de regresión, los investigadores tendrán la necesidad de saber que tan bueno es, es decir, si la ecuación de regresión explica adecuadamente la variación observada de la variable dependiente (Y). Para esto, se calcula el coeficiente de determinación ( R2 ). Este coeficiente puede tomar valores entre 0 y 1; si R2 1 indica que la ecuación de la regresión explica al 100% la variación que se da en la variable dependiente con relación a su media, y por lo tanto todos los residuos deben ser iguales a cero. Cuando R2 0 la ecuación de la regresión no se ajusta a los datos, y algunos residuos serán mayores de cero. Varianza total en la Varianza "no exp licada" 2
R
var iable dependient e la ecuación de regresión
por
var ianza total en la var iable dependient e
Si la recta de regresión explica totalmente la variación de Y, todos los residuos y la varianza no explicada por la ecuación serán iguales a cero, y el coeficiente de determinación será:
8 3
R2
var ianza total en la var iable dependient e 0 1 var ianza total en la var iable dependient e
Cuando el valor de R2 se encuentra entre 0.50 y 1, se considera que la ecuación de regresión explica satisfactoriamente la variación en Y. La fórmula para obtener el coeficiente de determinación es: Y i Y Yi Yi 2 ˆ 2 2 R Y i Y 2 Para saber si la variable X explica significativamente el comportamiento de la variable Y, se utilizan hipótesis empleando análisis de varianza. La hipótesis que se plantea es la siguiente: H 0 : 1 0 H 1 : 1 0 Fuente de variación Debido a la regresión Debido a los residuos Suma total
Suma de cuadrados SCR SCE SCT
Grados de libertad 1 n-2 n-1
Suma de cuadrados medios SCR/1 SCE/(n-2)
Donde:
SCR= 12 X i X 2 SCE= ei 2 SCT= Yi 2 El estadístico calculado es el siguiente:
F c
2 X X 2 /1 1
ei
2
i
(n 2)
La variable Fc sigue una distribución F de Fisher con (1, n 2) grados de libertad. Si Fc F se rechaza la hipótesis nula y se afirma que la regresión que se esté haciendo es significativa, es decir, la variable X tiene influencia significativa en el comportamiento de la variable Y.
84
Ejemplo. Se entrevistaron a 10 familias de la ciudad de Coatepec, con el único propósito de estudiar la relación entre el consumo de la leche y los ingresos, para saber si el consumo familiar de leche aumenta o disminuye conforme se incrementan los ingresos anuales. El consumo de leche es la variable dependiente, en los datos que se obtuvieron se observa que ésta varía en cada familia. ¿Esta variación puede ser explicada por el ingreso? Familia
Consumo mensual de leche (litros) 4 8 10 5 6 7 12 11 9 13
1 2 3 4 5 6 7 8 9 10
Y
i
Y i 2
Familia 1
2
X Y Y 10 4 16
XY 40
Y
85
X
i
145
i
14.5
X
8.5 2
i
X 100
Ingreso anual (millones de pesos) 10 14 15 11 12 13 17 16 18 19
Y Y i
Yi Yi
Yi
ˆ
Y
ˆ
Yi
ˆ
2
Xi X
Yi
X
X 2 i
-4.5
20.25
4.3272
-0.3272 0.10705984
-4.5
20.25
2
14
8
64
196
112
-0.5
0.25
8.0364
-0.0364 0.00132496
-0.5
0.25
3
15
10
100
225
150
1.5
2.25
8.9637
1.0363 1.07391769
0.5
0.25
4
11
5
25
121
55
-3.5
12.25
5.2545
-0.2545 0.06477025
-3.5
12.25
5
12
6
36
144
72
-2.5
6.25
6.1818
-0.1818 0.03305124
-2.5
6.25
6
13
7
49
169
91
-1.5
2.25
7.1091
-0.1091 0.01190281
-1.5
2.25
7
17
12
144
289
204
3.5
12.25
10.8183
1.1817 1.39641489
2.5
6.25
8
16
11
121
256
176
2.5
6.25
9.891
1.229881
1.5
2.25
9
18
9
81
324
162
0.5
0.25
11.7456
-2.7456 7.53831936
3.5
12.25
10
19
13
169
361
247
4.5
20.25
12.6729
0.3271 0.10699441
4.5
20.25
Suma
145
85
805
2185
1309
2
2185 ˆ 2
X i
Yi
Yi
X i Yi
11.56330
82.5
11.5636365
Yi
1309
1.109
82.5
Y 2 82.50
2
X i
X 82.50 85
10130914585 765 0.9273 102185 1452 825 1 0 8.5 0.927314.54.9458 Por lo tanto, la ecuación de regresión es: Yˆi 4.9458 0.9273X i El coeficiente de determinación:
R2
82.50 11.5633
0.86 82.50
0.8598
El investigador puede interpretar este resultado de la siguiente manera: la ecuación de regresión explica el 86% de la variación total observada en la variable del consumo mensual de leche por familia, o dicho de otra manera, el investigador puede decir que el 14% de la variación total del consumo de leche por familia no está explicado por la ecuación de regresión. y
= -4.945 + .92727 * x
14
CONSUMO MENSUAL DE LECHE
12
10
8
6
4
2
8
10
12
14
16
18
20
INGRESO ANUAL
Figura 13. Gráfico de regresión lineal simple Para probar las hipótesis de que el ingreso por familia explica significativamente el comportamiento del consumo de leche, se realiza el análisis de varianza. El juego de hipótesis que se plantea es: H 0 : 1 0 H 1 : 1 0 86
SCR= 12 X i X 2 (0.9273)2 (82.50) 70.9405 SCE= ei 2 11.5595 SCT= Yi 2 82.50 Fuente de variación Debido a la regresión Debido a los residuos Suma total
Suma de cuadrados 70.9405 11.5595 82.50
Grados de libertad 1 8 9
Suma de cuadrados medios 70.9405 1.4449
El estadístico calculado es el siguiente: Fc
70.9405
1.4449 49.10
La F de Fisher con (1, 8) grados de libertad y un nivel de significancia de 0.05 es F(1,8) 5.32 , entonces como Fc F(1,8) , se rechaza la hipótesis nula, esto nos indica que la regresión es significativa, es decir, la variable X (ingreso) tiene influencia significativa sobre la variable Y (consumo de leche).
4.3.2. Análisis de regresión lineal múltiple En la sección anterior se analizó el análisis de regresión lineal simple en donde se utiliza sólo una variable independiente. Sin embargo en un estudio de campo es muy común que los datos recopilados abarquen varias variables independientes como: la edad del esposo, la edad de la esposa, los ingresos anuales, los años de educación formal del esposo, el tamaño de la familia, etc. Estas variables se incluyen debido a las hipótesis de los investigadores que creen que tanto la edad del esposo y los años de educación formal pueden ser útiles para explicar porque algunas familias consumen más un producto X, o que las variables: edad del esposo, los ingresos anuales y el tamaño de la familia son necesarias para explicar el gasto que se realiza en un periodo de vacaciones, etc. Cuando se estudian dos o más variables independientes se le llama análisis de regresión lineal múltiple. Este análisis permite realizar un estudio de regresión más realista debido a que una variable dependiente tiende a recibir la influencia que los valores de diferentes variables independientes. La regresión lineal múltiple se utiliza para describir la naturaleza de una relación lineal entre una variable dependiente y varias independientes, y se utiliza también para predecir el valor de la variable dependiente a partir de los valores conocidos de las variables independientes. 87
El tamaño de la muestra que se utilice en este tipo de análisis debe de ser cuando menos el doble o el triple de las variables medidas. En el análisis de regresión lineal múltiple tratamos de encontrar la recta que mejor se ajuste a un conjunto de datos. En este caso se trata de tres dimensiones y la expresión que mejor se ajuste será un plano bidimensional. La ecuación de regresión múltiple que se utiliza es: Y 0 1 X1 2 X 2 3 X 3 pXp Donde Y es la variable dependiente y X1 , X
2
, X
3
, , X
p
son las variables
independientes, 0 es un coeficiente estructural necesario para complementar la ecuación, generalmente tiene poca importancia; los coeficientes 1 , 2 , 3 , , p indican cómo Y tiende a cambiar con cada cambio de X, a condición de que las otras X permanezcan constantes. En ocasiones a estos coeficientes se les llama coeficientes de regresión parcial y se calculan de la misma manera que en análisis de regresión simple. Con el fin de hacer más sencillos los cálculos, es conveniente expresar a las variables como desviaciones de sus respectivas medias, es decir, en lugar de utilizar en los cálculos Y , X1 , X 2 , X 3 , , X p se utilizaran las variables: Y yi y X1 x1 x1 X 2 x2 x2 X p xp xp Para calcular 1 cuando se utilizan dos variables se emplea la siguiente fórmula:
1
YX 1 X 2 2 YX 2 X1 X X12 X 2 2 X1 X 2
2
YX 2 X12 YX 1 X1 X X12 X 2 2 X1 X 2
2
para
2
Para calcular el coeficiente 0 se utiliza la siguiente ecuación:
0 y 1 x1 2 x2 88
El tratamiento de la regresión lineal múltiple se puede realizar de manera matricial, pero el objetivo de esta monografía es la simplificación para que otros profesionales la comprendan. Ejemplo. Considere un grupo de datos de 8 pizzerías hipotéticas. En cada una de ellas tenemos tres mediciones: 1) el número de clientes que hace poco acudieron un viernes a la pizzería, 2) el precio de una pizza grande de jamón y 3) el cupo de las pizzerías. Al realizar el análisis de regresión múltiple nos gustaría determinar la relación lineal que mejor describa al número de clientes (y) en función del precio (x1) y el cupo (x2). Pizzerías 1 2 3 4 5 6 7 8
729
y 91.125 Pizzería
Y=
y
y
X 1= x
i
1
x
X12 1
220
x1 27.5 X 2= x 2
x
x2 Cupo 50 34 42 42 45 22 30 24
289
x 2 36.125 X22
YX1
YX2
X1X2
2
1
13.875
4.5
20.25
13.875
192.516
62.4375
192.516
62.4375
2
-4.125
-5.5
30.25
-2.125
4.51563
22.6875
8.76563
11.6875
3
-1.125
-4.5
20.25
5.875
34.5156
5.0625
-6.6094
-26.4375
4
18.875
7.5
56.25
5.875
34.5156
141.5625
110.891
44.0625
5
15.875
1.5
2.25
8.875
78.7656
23.8125
140.891
13.3125
6
-11.125
-1.5
2.25
-14.125
199.516
16.6875
157.141
21.1875
7
-31.125
-5.5
30.25
-6.125
37.5156
171.1875
190.641
33.6875
8
-1.125
3.5
12.25
-12.125
147.016
-3.9375
13.6406
-42.4375
728.875
439.5
807.875
117.5
Suma
174
YX 1 X 2 2 YX 2 X1 X 2 1
x1 Precio 32 22 23 35 29 26 22 31
y # de clientes 105 87 90 110 107 80 60 90
X X X 1
2
2 2
1
X2
(439.5)(728.875) (807.875)(117.5) (174)(728.875) (117.5)2
1.994
89
YX 2 X1 2 YX 1 X1 X
(807.875)(174) (439.5)(117.5)
2
2
X X X 1
2
2
2
1
X2
(174)(728.875) (117.5)2
0.7869
0 y 1 x1 2 x 2 91.125 1.994(27.5) 0.7869(36.125) La ecuación de regresión múltiple que más se ajusta a los datos: Y 7.863 1.994x1 0.7869x2 Los coeficientes de regresión parcial (1.994 y 0.7869) indican como se espera que Y cambie cuando se incrementa el precio o el cupo. Por ejemplo, para un determinado cupo se espera que el número de clientes aumente en 1.994 con cada incremento de un peso en el precio de una pizza grande de jamón. De la misma manera para un precio determinado se espera que el número de clientes aumente en 0.7869 por cada asiento que se añada a la pizzería. El coeficiente de determinación ( R2 ) se calcula de la siguiente manera: yi y yi Yi 2 ˆ 2 2 R yi y 2 Pizzería 1 2 3 4 5 6 7 8 Suma
1
x 32 22 23 35 29 26 22 31 220
yi 91.125
2
i
x 50 34 42 42 45 22 30 24 289
y 105 87 90 110 107 80 60 90 729 2
y
ˆ
i
R2
Y2
Y 111.016 78.4856 86.7748 110.7028 101.0995 77.0188 75.338 88.5626 728.9981
y 1912.88 1912.88 400.6069 1912.88
2
192.516 17.0156 1.26563 356.266 252.016 123.766 968.766 1.26563 1912.88
yi
ˆ Yi
ˆ 36.192256 72.49500736 10.40191504 0.49392784 34.81590025 8.88755344 235.254244 2.06611876 400.6069227
2
400.6069
0.7906
Este coeficiente le dice a los investigadores en qué medida se ajusta la ecuación a los datos. El R2 0.7906 indica que la ecuación de regresión se ajusta bastante bien a los datos y que explica ampliamente la variación observada en la variable dependiente (en este caso el número de clientes). Explica más o menos el 79% de la variación total observada en la variable dependiente. 90
4.4 Análisis de Segmentación En la práctica estadística suele presentarse el problema de la descripción parsimoniosa de un conjunto numeroso de datos que constituyen la caracterización de un gran número de individuos, según un gran número de variables. En muchas ocasiones se presenta la situación especial en la cual una de ellas en particular juega un papel primordial, siendo nuestro objetivo tratar de explicar mediante el resto de las variables. Denotaremos por Y a la variable a explicar (variable dependiente o criterio), y por X 1, X2,…, Xk a las variables explicativas (variables independientes o predictoras). Póngase como ejemplo que se desee describir en un pueblo pequeño quien lleva un determinado tipo de ropa. Para simplificar, tómese una prenda muy fácil de segmentar como es la falda. Entre las posibles variables que mejor pueden explicar quién la lleva y quien no, no es difícil reconocer que es el sexo el mejor pronosticador, pues prácticamente ningún hombre usa este tipo de prenda. La ejecución de la segmentación implicaría no contentarse con una sola variable y buscar otras que ayuden a distinguir mejor a los distintos usuarios de estas ropas. Es evidente que si ningún hombre la usa, este grupo es totalmente homogéneo en esta variable, y por tanto, no procede seguir con la segmentación. Pero en el caso de las mujeres, si se pueden encontrar nuevas variables que nos distingan grupos diferentes en uso de ropa. Parece claro que la edad juega un papel importante: es bastante difícil ver a mujeres mayores con pantalones, mientras que entre las jóvenes el uso de estos es muy habitual. Por tanto, si no se introducen nuevas variables, la población del pueblo quedaría segmentada en tres grupos: el de los hombres donde nadie usa falda; el de las mujeres jóvenes con “n” porcentaje medio de portadoras de esta prenda, y el de la mujeres mayores cuya probabilidad de verlas con falda es muy alta. Otro ejemplo de la segmentación es el de un pastel que hay que repartir entre varias personas. Imaginando que es un pastel con dos sabores: nata y chocolate, por ejemplo una segmentación adecuada sería que se partiera en dos trozos de gusto homogéneo. Se trataría, por tanto, de realizar un corte que permitiera dar a uno de los comensales el trozo con sabor a nata y a otro el de chocolate. En resumidas cuentas la segmentación permite dividir una muestra de modo que queden grupos de contenido uniforme muy distintos entre ellos. En el caso de variables de tipo cualitativo, los análisis estadísticos usuales se limitan a producir y examinar las tabulaciones cruzadas que se consideran de interés lo que en ocasiones solo sirve para identificar relaciones que ya eran evidentes. El análisis de segmentación (AS) reduce la complejidad del problema, rechazando tabulaciones cruzadas no significativas, detectando automáticamente los mejores predictores y creando subgrupos potencialmente explicativos de la variable dependiente.
91
En la actualidad, los métodos de segmentación son muy requeridos en diversas áreas, como por ejemplo la Sociología, la Medicina o en la Mercadotecnia. En esta última área, cuando una compañía va a incorporar al mercado, un nuevo producto, debe considerar en su planeación, a que perfil de posibles consumidores va a dirigir su propuesta. En otras palabras, es necesario que desarrolle un adecuado, modelo de segmentación, entendiendo este término, como dividir una población en segmentos o partes, que difieren con respecto a un criterio diseñado. Los beneficios de segmentar una población o muestra son muchos, entre los principales podemos citar: Segmentar, permite construir un perfil más preciso de los individuos, que componen un colectivo bajo estudio. Segmentar, permite agrupar para conocer mejor un subgrupo poblacional. Segmentar, permite obtener mejores pronósticos, sobre el comportamiento de grandes grupos de datos. Por tanto, los métodos de segmentación, son una de las áreas que compete atender a la Estadística, ya que el término segmentar significa dividir una población en segmentos homogéneos, en relación a una o varias características (que no son otra cosa que variables estadísticas). El AS una técnica que a partir de la información que suministran, ciertas variables independientes o explicativas, clasifica un conjunto de objetos en grupos, capaces de describir de la mejor manera posible la variable dependiente. El AS pertenece a una familia de métodos denominados AID (Automatic Interaction Detection), propuesta inicialmente por James Morgan y John Sonquist en 1963, el objetivo básico de estos métodos era detectar la existencia de interacción en un modelo de predicción. Actualmente el AS se utiliza fundamentalmente con fines exploratorios y descriptivos. Además puede utilizarse como un paso previo para la aplicación de otras técnicas estadísticas especializadas para datos cualitativos, como el análisis de correspondencia y los modelos loglineales. En el AS las variables independientes o predictoras son de tipo categórico (nominales u ordinales) y resulta muy conveniente que tengan pocas modalidades. En el caso de predictores cuantitativos estos pueden someterse previamente a un proceso adecuado de modificación para convertirlos en categóricos. KOTLER (1988) describe las fases de un estudio de Segmentación en las etapas siguientes: 1. Identificación de las variables para realizar la segmentación. 2. Desarrollo de los perfiles de cada segmento obtenido. 3. Evaluación de los segmentos obtenidos. 92
4. Selección del segmento o los segmentos objetivo. 5. Identificación de posibles motivos para posicionarse en los segmentos seleccionados. 6. Seleccionar y desarrollar estrategias para aprovechar de manera optima las potencialidades del los segmentos bajo estudio. Como puede observarse, la contribución de pruebas y modelos estadísticos, para alcanzar mejores propuestas de segmentación, es importante. En la actualidad, se proponen diversas técnicas de segmentación, en donde en alguna forma, todas ellas convergen en el objetivo, de proporcionar elementos para un adecuado agrupamiento de objetos. 4.4.1 Algoritmo de Segmentación CHAID Existen otros métodos de segmentación, con un amplio desarrollo, y cuyas propuestas de análisis, son cada vez más utilizadas, desde una perspectiva estadística, además de tener un mayor fundamento matemático y extensa aplicación en muy diversas áreas, haciéndolos atractivos para su utilización. Tales métodos son: CHAID (Chisquare Automatic Interaction Detection), propuesto por KASS (1980), el cual forma parte de una de las versiones de los métodos AID de MORGAN y SONQUIST (1963), o el método CART (Clasification And Regression Trees) Árboles de clasificación y Regresión, propuesto por BREIMAN, FRIEDMAN, OLSHEN y STONE (1984), son ejemplos de métodos de segmentación, de cierto desarrollo en los últimos años. El Algoritmo de Segmentación CHAID, es considerado un algoritmo general de segmentación, se utiliza con fines exploratorios y descriptivos, con el objetivo fundamental de encontrar la partición de una muestra de objetos en grupos, capaces de describir de la mejor manera posible la variable dependiente. Supone que la variable dependiente es categórica y utiliza la prueba Chi-cuadrada, para contrastar independencia, en distintas fases del proceso. El nombre de la familia de métodos, a la que pertenece el método CHAID (técnicas AID: Detección Automática de la Interacción), sugiere que una de las funciones principales, es descubrir si en el modelo de estimación de la respuesta, están consideradas variables o factores que expliquen la respuesta. CHAID segmenta la muestra en dos o más grupos, en donde se busca que los objetos que pertenecen al mismo grupo, sean lo más homogéneo posible y objetos de diferente grupo sean heterogéneos. Tomando como base las categorías del mejor predictor (variable independiente), de una variable dependiente, divide cada uno de estos grupos en subgrupos más pequeños, en base a otras variables independientes. Este proceso iterativo de partición continúa, hasta no encontrar ninguna variable independiente estadísticamente significativa. CHAID muestra los segmentos finales, en forma de diagrama de árbol. Los segmentos que CHAID 93
construye, son mutuamente exclusivos y exhaustivos, es decir los segmentos no se sobreponen, y cada objeto de la muestra está contenido exactamente en un segmento. Un algoritmo general de segmentación, plantea un proceso secuencial multietápico, que puede representarse en un esquema como el diagrama de la Figura 14, correspondiente al algoritmo CHAID.
Figura 14. Etapas del Algoritmo General de Segmentación CHAID Como se observa en el diagrama del algoritmo, se consideran cuatro etapas, que consisten en lo siguiente: Etapa 1. En esta etapa del algoritmo, debe realizarse el agrupamiento de categorías, de cada predictor que produzca la mayor discriminación de los individuos, con respecto a la variable dependiente. Para ello, se define un estadístico cuya significación, presente una medida de tal discriminación. Esta etapa es muy importante, ya que si el objetivo es, encontrar una agrupación óptima de categorías, el proceso de agrupamiento de las categorías, debe ser lo mejor posible, ya que este paso, constituye una base fundamental, para una segmentación adecuada.
94
El algoritmo propone para la primera etapa cruzar cada par de categorías de la variable predictora con la variable dependiente, y agrupar el par que tenga un valor p mayor, siempre y cuando, éste no sea significativo. El proceso se repite con las categorías colapsadas, para valorar si las nuevas categorías producen nuevas fusiones, hasta que no existan valores no significativos. Es decir, el proceso termina, cuando todas las categorías son significativamente diferentes, o bien cuando se han colapsado todas. El agrupamiento de las categorías de las variables, está en relación con el tipo de predictor o variable independiente de que se trate. La Tabla 10 muestra los tipos de predictores que considera el algoritmo. Tabla 10. Tipos de predictores que considera el algoritmo CHAID Tipo de Predictor MONÓTONO
LIBRE
FLOTANTE
Características Un predictor es monótono, si sus categorías pertenecen a una escala ordinal, lo que en otras palabras quiere decir, que sólo dos categorías contiguas pueden ser colapsadas. Si tenemos un predictor con categorías en escala nominal, este es un predictor libre, ya que se puede agrupar cualquier par de categorías del predictor. Se utiliza, cuando las categorías del predictor no tienen una ordenación natural. Cuando todas las categorías del predictor, pertenecen a una escala ordinal menos una de ellas, de las que se desconoce la posición en la escala ordinal, entonces tendremos un predictor flotante. En otras palabras, un predictor flotante, es un predictor monótono con una categoría flotante de la cual, no se conoce su posición.
El procedimiento para agrupar categorías, es utilizado en muchos otros algoritmos de segmentación, en este capítulo utilizamos como referente al algoritmo CHAID, sin embargo, los métodos aquí aplicados, pueden ser extendidos a otros algoritmos semejantes. Etapa 2. Selección del mejor predictor, de todos los predictores seleccionados en la fase anterior, se escoge el que produce mayor discriminación. Esto es, una vez seleccionadas las categorías portadoras de una mayor información, tendremos una serie de predictores potencialmente explicativos, cuyas categorías son significativamente diferentes respecto de la variable dependiente. El mejor predictor será aquel que presente una mayor asociación, con la variable dependiente, es decir, aquel que tenga el valor p más pequeño o el mayor valor para el coeficiente de asociación elegido. Etapa 3. Fase de segmentación, si el predictor escogido es significativo a un determinado nivel previamente establecido, se realiza la segmentación del grupo, considerado en tantos grupos, como categorías o niveles tenga el predictor. Etapa 4. Evaluación sobre iteración del proceso. Para cada segmento formado en el paso 3, se repite el proceso desde la primera etapa y se realizan sucesivas 95
segmentaciones, hasta que no haya predictores significativos, en ninguno de los grupos restantes. Existen algunas reglas para la finalización del proceso, si no se pusieran algunas limitantes, éste terminaría únicamente cuando no hubiera predictores significativos en ninguno de los grupos, y en este caso, se cometería un error importante, ya que el estadístico chi-cuadrada se obtendría a partir de tablas poco ocupadas, lo cual generaría una nueva problemática. Por ejemplo, podríamos encontrar una gran cantidad de grupos terminales, de tamaño muy pequeño, los cuales sería muy complicado interpretar. Por ello se considera importante limitar el proceso de segmentación utilizando ciertos controles denominados filtros. Algunos filtros a utilizar son los siguientes:
Significación de Categoría (SC). Se refiere al nivel de significación, utilizado en la fase de agrupación de categorías. Para verificar si dos categorías tienen un perfil semejante, esto es, no son significativamente diferentes, se compara su nivel de significación, con la SC. En CHAID se lleva a cabo cruzando la variable dependiente, con las dos categorías del predictor, se calcula el chi-cuadrado, y se compara su valor p correspondiente con la SC.
Significación del Predictor (SP). Es el nivel de significación utilizado en la fase de selección del mejor predictor, es decir, para verificar que un predictor es significativo, se compara su significación con SP. En CHAID se lleva a cabo cruzando la variable dependiente con el predictor ya agrupado, se calcula el chicuadrado y se compara el valor p correspondiente con SP.
Filtros de Asociación (FA). Se trata de fijar una asociación mínima, entre la variable dependiente y el predictor, esto para considerarlo como un potencial candidato, para realizar la segmentación. Esto plantea el problema de escoger un coeficiente de asociación, entre una gran cantidad de ellos. Si el coeficiente de asociación elegido entre la variable dependiente y el predictor, es menor que FA, éste es descartado. Entre algunos de los indicadores más utilizados están el Coeficiente de Contingencia (CC):
CC
2 n2
del cual se dice que es igual a cero, cuando hay independencia absoluta entre las variables, pero no es igual a 1 cuando hay dependencia total (su valor máximo depende del número de categorías de las variables) CC max r 1 r donde: r es mínimo entre el número de filas y de columnas. 96
Tamaño Antes (TA). Se establece un tamaño mínimo, para que un grupo pueda segmentarse, es decir, si un grupo G cualquiera, es menor que TA en individuos, el grupo no se segmenta y se declara terminal. Tamaño Después (TD). Se establece un tamaño mínimo para que un subgrupo pueda formarse, es decir, si algún grupo formado en la segmentación de G, digamos Gj, tiene menos de TD individuos, la segmentación es descartada. Filtro de Nivel (FN). Se establece un máximo de número de niveles de segmentación, también denominados niveles de profundidad. Una segmentación con un solo nivel resulta demasiado simple, pero por otro lado una segmentación de muchos niveles puede resultar compleja de manejar. Un resultado de aplicar el método CHAID es el denominado, Diagrama de Árbol, como el que se muestra en la Figura 15.
Figura 15. Esquema de árbol de segmentación, obtenido tras aplicar el algoritmo CHAID El algoritmo divide la muestra en dos o más grupos distintos, en base a las categorías de la variable independiente más significativa, con respecto de la variable dependiente i, en el caso del esquema de la Figura 15, el algoritmo divide la muestra en base a las categorías, colapsadas o no, de la variable j. Continúa dividiendo recursivamente, en base a los segmentos definidos por la variable j. Cada uno de estos grupos se divide en subgrupos más pequeños, y si el proceso lo permite, el árbol genera nodos adicionales. CHAID muestra los resultados de la segmentación en forma de un diagrama de árbol, cuyos nodos o ramas corresponden a los grupos. 97
Cada nodo del diagrama de árbol, representa un subgrupo de la población o muestra, el árbol muestra en forma resumida, el predictor responsable de la partición, el tamaño del grupo y un indicador de la variable dependiente. Los niveles de segmentación quedan reflejados en lo que se denomina, nivel de profundidad, que en el caso de la Figura 15 son los niveles 0,1 y 2. El algoritmo de segmentación CHAID, es un método muy utilizado en diversas áreas de investigación, quizá, esta popularización se debe en mucho, a que el método está incluido como un modulo anexo, en software estadístico de propósito general. Es claro que en la primera etapa del algoritmo CHAID, el agrupamiento de categorías en las variables independientes, se hace sobre aquellas que son homogéneas, asumiéndose los riesgos de realizar un inadecuado agrupamiento de las categorías. Un método alternativo a la fase de agrupamiento de categorías, en algoritmos de segmentación como CHAID es considerar la posibilidad de realizar pruebas de asociación, en base a los modelos de efectos columna C, cuando la variable dependiente sea categórica ordinal. Es decir, si la variable dependiente es nominal, realizar el procedimiento usual de comparar pares de categorías y probar si se cumple la hipótesis de independencia. Si la variable dependiente es ordinal, incorporar a la etapa de agrupamiento de categorías, pruebas de hipótesis basadas en modelos de asociación, con la finalidad de considerar el orden subyacente, en las categorías de la variable dependiente. El esquema de la Figura 16, presenta el procedimiento a seguir en la etapa de agrupamiento de categorías, en algoritmos de segmentación como los anteriormente mencionados:
Figura 16. Esquema de la fase de agrupamiento de categorías, según tipo de variable dependiente 98
De tal forma, que indistintamente del tipo de predictor, para variables dependientes nominales, en el proceso de agrupamiento de categorías, los pares elegibles de la variable predictora y la variable dependiente, realizan la correspondiente prueba de independencia, como usualmente lo considera el algoritmo de KASS, es decir, las frecuencias estimadas se plantean como
ˆ
H0 : log f ij i j , si la hipótesis se rechaza, las frecuencias se consideran provenientesde unmodelolog-linealsaturadodelaforma: ˆ H1 : log fij ij ij . Por otra parte, si ahora suponemos que el modelo existe para una variable predictora, es posible contrastar la hipótesis nula de independencia, contra un modelo C de asociación no saturado.
ˆ
El modelo C de efectos columna, logf ij iR Cj jy , es un modelo que considera tablas, en las cuales se tienen variables en escala nominal-ordinal, incluso considera si ambas clasificaciones de objetos están ordenadas, o bien, el caso que solo sea relevante, usar la naturaleza ordinal de una de las variables (generalmente la variable respuesta). Este modelo trata las categorías de la variable predictora como nominal y las categorías de la variable dependiente como ordinal. De esta forma, usamos un conjunto de puntajes y: y1 y2 y j que comúnmente son puntajes enteros, los cuales reflejan el orden de las categorías de las filas. AGRESTI (84), incorpora una modificación al modelo de efectos columna, para que los puntajes de las filas ponderen de manera más adecuada los puntajes latentes j . El modelo queda explicado de la siguiente forma: ˆ
R
C
logfij i j j yi y
donde se cumple:
i R
i
j
C j
j
j
0 , los j
(4.1)
son parámetros latentes
desconocidos. El modelo (4.1), tiene IJ 1 (J 1) (I 1) (J 1) (I 2)(J I ) grados de libertad, y es no saturado cuando I 2 . El modelo de independencia, es un caso especial de este modelo y considera todos los j 0 , de no cumplirse la independencia, el término de asociación refleja la desviación de las frecuencias esperadas, respecto del modelo de independencia. Los parámetros de efectos columna j , pueden ser interpretados como sigue: dentro de una columna cualquiera, la desviación de las frecuencias esperadas de independencia, son una función lineal de la variable ordinal, representada por un puntaje j . Si j 0 , entonces en la columna j, la probabilidad de clasificación por arriba de y en i, es
99
mayor de lo que se esperaría, si las variables fueran independientes. Si j 0 , las
observaciones en la columna j, son mas probables (respecto al caso de independencia), a estar en la parte baja de la escala en la variable fila i. Como sabemos, los j pueden ser interpretados en términos de una razón de productos cruzados, para un par arbitrario de columnas j e j′ y un par de filas arbitrario c d fcj
ˆ ˆ f
dj'
log ˆ ˆ f
dj
f
cj '
j
j ' yd yc
Podemos evaluar la significación estadística de la asociación entre las dos variables, para el modelo de efectos columna C (4.1), probando H0 : 1 2 j 0 . Es decir si el modelo (4.1) se cumple, hay homogeneidad de los efectos columna, y por tanto, esto corresponde a la independencia.
4.5 Actividades de la unidad Retomando el cuestionario validado en la unidad 2, realice lo siguiente: • Aplicarlo nuevamente como mínimo a 40 casos y capturar los datos en DYANE. • Realizar el análisis estadístico que considere pertinente a la base de datos del proyecto y presentar resultados. • Conformar el reporte final del estudio de mercado en Word con los resultados obtenidos, uniendo las actividades de las unidades 2, 3 y 4.
100
REFERENCIAS A.Aaker, D. y S. Day, G. 1994. Investigación de Mercados. Tercera Edición. Editorial Mc Graw Hill. México. Agresti, A. 1984, Analysis of Ordinal Categorical Data. Wiley and Sons. Breiman, l., Friedman, j., Olsen, r. y Stone, C. 1984: Classification and Regression Trees. Chapman and Hall. Bovd. Westfall y Stasch, 1987, Investigación de Mercados, texto y casos, México. Editorial UTHEA. Calderón M. M. 2006, El Análisis de Ítems: Comprobación de la fiabilidad y validación del constructo. Tesis de Licenciatura. Facultad de Estadística e Informática. Universidad Veracruzana. Draper N.R. and Smith H. 1981, Applied Regression Analysis, New York. Editorial Whiley and Sons Inc. Frank R.E. Kuehn A. A., Masinv W. S., 1980, Análisis de Mercados, técnicas cuantitativas México, Editorial Trillas. Fischer de la Vega, L. y Navarro, A.E.1996. Introducción a la Investigación de Mercados. Tercera edición. Editorial Mc Graw Hill. México, D.F. García E, et. al.. 2000, Análisis Factorial. Madrid: La Muralla. Hayes, B.E. 2003. Cómo medir la satisfacción del cliente. Diseño de encuestas, uso y métodos de análisis estadístico. Segunda edición. Editorial Oxford. México. Jonhson R., 1991, Estadística Elemental, México, Editorial Trillas. Kass, G. 1980, An Exploratory Technique for Investigating Large Quantities of Categorical Data. Applied Statistics, 29, 2, 199-127. Kinnear C. T. y Taylor R. J., 1981, Investigación de Mercados, México, Editorial McGraw-Hill Latinoamericana, s.a. Kotler, P. 1988, Marketing Management 6a ed. Prentice Hall. New Jersey. Morgan, J. y Sonquist, J. 1963, Problems in the Analysis of Survey Data and A Proposal. Journal of the American Satistical Association. 67, 768-772. Scheaffer, Mendenhall, Ott, 1987, Elementos de Muestreo, México, Grupo Editorial Iberoamericana. 101
Taolicarne G., 1962-1963, Técnica y Práctica de Investigación de Mercados, Barcelona, España. Editorial Interamericana. Walpole R. E., Mvers R.H., 1985, Probabilidad y Estadística para Ingenieros, México. Editorial Interamericana Walter B.W. 1981, Investigación de Mercados Administración y Métodos, México, Editorial Trillas.
102
ANEXO
103
Tamaño de muestra La determinación del tamaño de muestra es un tema que ha dado origen a mucho trabajo investigativo por parte de los estadísticos. Dado que el tamaño de muestra depende de muchos factores, varias soluciones teóricas enfrentan dificultades prácticas o restricciones de costo. Los factores más importantes que deben tomarse en cuenta para la determinación del tamaño de muestra son: 1) 2) 3) 4)
La(s) variable(s) a medir. La variabilidad en la población. El tamaño de la población. Los objetivos de inferencia.
Una manera muy simple de determinar el tamaño de una muestra es cuando podemos fijar el interés en una sola variable. Así el tamaño de muestra se obtendrá usando la fórmula que corresponda, en la tabla siguiente se presentan formulas generales. TIPO DE MUESTREO
PARÁMETRO DE INTERÉS
MUESTREO ALEATORIO SIMPLE
Estimar
FÓRMULA PARA EL TAMAÑO DE MUESTRA
z2 2 2
n Estimar
2
n
2
2
B2 pq
z2 2
B2
L
2
ALEATORIO ESTRATIFICADO
n
Ni
2
i1
i
B
2
N
L
2
Z
wi
wi
2
/2
es un valor de
ˆ
2
V (x
Ni i
st
ni n N
i1
si N 2
n
i1
ˆ
2
/2
2
s2 N
2 i N
i
n
i
i
n
N
i
i
i1 L
i1
Ni2
pi qi w
L
i
N D Ni pi qi 2
i1
Ni
Ni i2
2
n
i
ni
L
B
Z
Estimar p
j 1
V (ˆst )
i1
xij xi L
i
i
n
Ni
ni
2
i
w
i
i1
1 1
2 2 si
N
2
n i
L
L
1
)
2
Estimar
tablas que
determina un nivel de significancia o confianza (90% Z=1.65; 95% Z=1.96; 99%, Z=2.34). 2 es la varianza de la población, que se puede sustituir por una estimación adecuada obtenida de estudios previos o de la encuesta piloto. B (error de estimación) es la precisión con la que se desea obtener la estimación.
z 2 N
n Estimar
z2 2
B2
Estimar p
MUESTREO
DONDE:
ˆ
1 V ( pˆst )
N
L 2 i1
N n
2
i
Ni
i
Ni
pˆ qˆ
i
n i
i
1
104
TIPO DE MUESTREO
MUESTREO POR CONGLOMERADOS
PARÁMETRO DE INTERÉS
Estimar
FÓRMULA PARA EL TAMAÑO DE MUESTRA
DONDE:
N c2
n
B2M
N
n
c
2
z
2
xi x Mi
2
2
2
sc
2
i1
n 1 n
M m 1 i n
Estimar usando M x
n
N c2
n
2
B Nz
2
sc2
2 c
xi
i1
i1
xM i
2
n 1
/2
estimar
usando N xt
N t2
n
B2 Nz2 / 2
Estimar p
2 t
N c
n
2
N
B M
z2
2
2
n
2
2
c
sc
2
2
ai pˆM i
i1
n 1
105