5 DEFINICIONES DE ESTADISTICA ESTADÍSTICA La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales. La estadística se divide en dos grandes áreas: Estadística descriptiva Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros. Estadística inferencial Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova,series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. La estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica. Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, entre otros. http://es.wikipedia.org/wiki/Estad%C3%ADstica Definición de Estadística La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con e fin de realizar una toma de decisión más efectiva. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como "la ciencia que tiene por objeto el estudio cuantitativo de los colectivos"; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin embargo, es la de Minguez, que define la Estadística como "La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima". Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. http://www.eumed.net/cursecon/libreria/drm/0.htm
ESTADÍSTICA El termino estadística proviene del latín statisticum collegium (“consejo de Estado”) y de su derivado italiano statista (“hombre de Estado o político”). En 1749, el alemán Gottfried Achenwall comenzó a utilizar la palabra alemana statistik para designar el análisis de datos estatales. Por lo tanto, los orígenes de la estadística están relacionados con el gobierno y sus cuerpos administrativos. Hoy puede decirse que la recopilación y la interpretación de los datos obtenidos en un estudio es tarea de la estadística, considerada como una rama de la matemática. Las estadísticas (el resultado de la aplicación de un algoritmo estadístico a un grupo de datos) permiten la toma de decisiones dentro del ámbito gubernamental, pero también en el mundo de los negocios y el comercio. http://definicion.de/estadistica/ DEFINICIÓN ESTADÍSTICA La Estadística es una ciencia formal que estudia la recolección, análisis e interpretaciónde datos de una muestra representativa, ya sea para ayudar en la toma de decisiones opara explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado,de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más queeso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con lainvestigación científica.Es transversal a una amplia variedad de disciplinas, desde la física hasta las cienciassociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la tomade decisiones en áreas de negocios o instituciones gubernamentales.La estadística se divide en dos grandes áreas: La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros. La estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Haytambién una disciplina llamada estadística matemática, la que se refiere a las basesteóricas de la materia. La palabra «estadísticas» también se refiere al resultado deaplicar un algoritmo estadístico a un conjunto de datos, como en estadísticaseconómicas, estadísticas criminales, entre otros. http://es.slideshare.net/pluassantana/definicion-estadistica
Estadística La Estadística es la ciencia que trata de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar datos, así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Podemos por tanto clasificar la Estadística en: Descriptiva o deductiva, que tiene por objeto la recogida, recopilación, y reducción de datos, su organización en tablas y gráficos y el cálculo de unos valores que representen al conjunto de datos. Inferencial o inductiva tiene por objeto establecer previsiones o conclusiones sobre una población basándose en los resultados obtenidos de una muestra http://www.tuveras.com/estadistica/estadistica01.htm CONCEPTO BÁSICO DE ESTADÍSTICA DINÁMICA LA ESTADÍSTICA DESCRIPTIVA, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente.
Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clúster, etc. • LA INFERENCIA ESTADÍSTICA, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futurasobservaciones, descripciones de asociación (correlación) o moldeamiento de relaciones entre variables (análisis de regresión). Otras técnicas de moldeamiento incluyen anova, series de tiempo y minería de datos. http://eduprobabilidaddinamica10.blogspot.mx/2010/04/probabilidad-y-estadistica-dinamica.html INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos: a) Estadística como enumeración de datos. b) Estadística como descripción, es decir, a través de un análisis de conjuntos coherentes de datos para su posterior comparación y análisis. (ESTADÍSTICA DESCRIPTIVA) c) Estadística matemática o inferencia, unida a la teoría de de probabilidades. Se encarga de extraer conclusiones a partir de una muestra al total de la población con un pequeño margen de error. (ESTADÍSTICA INDUCTIVA) Por tanto se podría definir la estadística como “la ciencia que permite estudiar las regularidades o patrones en un conjunto de datos para tomar decisiones racionales”. Todo análisis estadístico requiere seguir una serie de etapas: 1) Definición del problema de estudio y objetivos del mismo. 2) Selección de la información necesaria para realizar el estudio. 3) Recogida de la información que va a depender del presupuesto con el que contemos y de la calidad de los datos exigida. 4) Ordenación y clasificación de la información en tablas y gráficos. 5) Resumen de los datos mediante medidas de posición, dispersión, asimetría y concentración. 6) Análisis estadístico formal obteniendo hipótesis y contrastándolas. 7) Interpretación de resultados y extracción de conclusiones. 8) Extrapolación y predicción. http://www.uam.es/personal_pdi/economicas/fphernan/EconometriaTII.pdf DEFINICION DE ESTADISTICA Y UTILIDAD La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales. Durante el siglo XX, la creación de instrumentos precisos para asuntos de salud pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa de desempleo, econometría, etc.) necesitó de avances sustanciales en las practicas estadísticas. Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadística para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras áreas. La estadística es entendida generalmente no como un sub-área de las matemáticas sino como una ciencia diferente “aliada”. Muchas universidades tienen departamentos académicos de matemáticas y estadística separadamente. La estadística se enseña en departamentos tan diversos como psicología, educación y salud pública. Regresión lineal - Gráficos de dispersión en estadística Al aplicar la estadística a un problema científico, industrial o social, se comienza con un proceso o población a ser estudiado. Esta puede ser la población de un país, de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.
Por razones prácticas, en lugar de compilar datos de una población entera, usualmente se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia. El concepto de correlación es particularmente valioso. Análisis estadísticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la población bajo consideración) tienden a variar conjuntamente, como si hubiera una conexión entre ellas. Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podría resultar en que personas pobres tienden a tener vidas más cortas que personas de mayor ingreso. Las dos variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la existencia de una relación de causalidad entre las dos variables. El fenómeno correlacionado podría ser la causa de un tercero, previamente no considerado, llamado variable confundida. Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. Un problema mayor es el de determinar que tan representativa es la muestra extraída. La estadística ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos, así como métodos para diseñar experimentos robustos como primera medida, ver diseño experimental. El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadística matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el análisis matemático para examinar las bases teóricas de la estadística. El uso de cualquier método estadístico es válido solo cuando el sistema o población bajo consideración satisface los supuestos matemáticos del método. El mal uso de la estadística puede producir serios errores en la descripción e interpretación, afectando las políticas sociales, la práctica médica y la calidad de estructuras tales como puentes y plantas de reacción nuclear. Incluso cuando la estadística es correctamente aplicada, los resultados pueden ser difícilmente interpretados por un no experto. Por ejemplo, el significado estadístico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una variación aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadísticas básicas (y el escepticismo) que una persona necesita para manejar información en el día a día se refiere como cultura estadística http://prepafacil.com/cobach/Main/DefinicionDeEstadisticaYUtilidad CLASIFICACIÓN CLÁSICA DE LA ESTADÍSTICA El estudio de la estadística se divide clásicamente en dos, la estadística descriptiva y la estadística inferencial. La estadística inferencial o inductiva sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. La estadística descriptiva o deductiva se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros y algunas graficas planteadas de tal forma que den importancia los mismos datos. http://dieumsnh.qfb.umich.mx/estadistica/clasificac.htm APLICACIONES DE LA ESTADÍSTICA La estadística puede presentarse en diferentes niveles de dificultad matemática y puede estar dirigida hacia aplicaciones en distintos campos de la investigación. De acuerdo con esto, se han escrito muchos libros de texto sobre estadística empresarial, estadística educativa, estadística médica, estadística psicológica,…, e inclusive sobre estadística para historiadores. Virtualmente cada área de la investigación científica puede beneficiarse del análisis estadístico. Para quien formula las políticas económicas y para quien asesora al presidente y a otros funcionarios públicos sobre procedimientos económicos apropiados, la estadística ha demostrado ser una herramienta valiosa. Las decisiones sobre las tasas tributarias, los programas sociales, el gasto de defensa y muchos otros asuntos pueden hacerse de manera inteligente tan sólo con la ayuda del análisis estadístico. Los hombres y mujeres de negocios, en su eterna búsqueda de la rentabilidad, consideran que la estadística es esencial en el proceso de toma de decisiones. Los esfuerzos en control de calidad, minimización de costos, combinación de productos e inventarios, y una gran cantidad de otros asuntos empresariales, pueden manejarse efectivamente a través del uso de procedimientos estadísticos comprobados. Para quienes están en el área de la investigación de mercados, la estadística es de gran ayuda en el momento de determinar qué tan probable es que un producto nuevo sea exitoso. La estadística también es muy útil para evaluar las oportunidades de inversión por parte de asesores financieros. Los contadores, los jefes de personal, y los fabricantes encuentran oportunidades ilimitadas de beneficiarse con el uso del análisis estadístico. Incluso un investigador en el
campo de la medicina, interesado en la efectividad de un nuevo medicamento, considera la estadística una aliada imprescindible. Así pues, la teoría general de la estadística es aplicable a cualquier campo científico en el cual se hacen observaciones. El estudio y aplicación de los métodos estadísticos son necesarios en todos los campos del conocimiento, sean éstos de nivel técnico o científico. En mercadotecnia, entre otras cosas, la estadística puede ser utilizada para: Estimar la proporción de clientes que prefieren un producto en vez de otro y la razón de esto. Sacar conclusiones respecto a la estrategia de publicidad que sería más útil para el incremento de ventas de un producto. Mejorar la calidad de los productos fabricados o de los servicios procurados por la organización. http://www.uaeh.edu.mx/docencia/VI_Lectura/licenciatura/documentos/LEC5.pdf CONCEPTOS FUNDAMENTALES EN ESTADÍSTICA. Estadística.- área especializada de las matemáticas cuyo fin es el análisis de conjuntos de datos. El corpus estadístico puede dividirse en dos grandes categorías: la estadística descriptiva y la estadística inferencial. Estadística descriptiva.- es aquel área de la estadística que se interesa por describir conjuntos de datos. Esta descripción se hace en base a los datos presentes y solo a ellos. Cuando realizamos un análisis descriptivo, el conjunto de datos que analizamos lo llamamos muestra y sus resultados carecen de error. Estadística inferencial.- cuando realizamos un análisis descriptivo, solo obtenemos información del conjunto de datos analizados, pero cuando realizamos un análisis inferencial tratamos de extender esos resultados a otros conjuntos de datos más amplios. Para ello seleccionamos un grupo de interés, la población, y de ese grupo tomamos una parte representativa de la misma, la muestra, analizamos la muestra y extendemos sus resultados a la población de la que procede. Los resultados de la estadística inferencial asumen la existencia de error. Población.- conjunto total de datos que es de nuestro interés. El objetivo de la estadística inferencial es el estudio de la población. Muestra.- es una parte de la población que tiene unas características similares a la población de la que ha sido extraída. La estadística inferencial estudia la muestra para extender sus resultados a la población. La estadística descriptiva estudia la muestra, pero no extiende sus resultados a la población. Parámetro.- cuando calculamos un determinado índice, como la media o la desviación típica, sobre una población hablamos de parámetros. De esta forma cuando decimos que el parámetro media es de 6, nos referimos a que la media poblacional es de 6. Estimador.- cuando calculamos un determinado índice sobre una muestra con la intención de generalizarlo a la población, hablamos de estimadores. Así cuando decimos que el estimador media toma el valor 6, estamos diciendo que la media de la muestra es igual a 6. Estadístico.- es el valor que toma un determinado índice (media, varianza, curtosis, asimetría…) en su distribución teórica de probabilidad. El estadístico es el valor que según se encuentre en la región critica o en la región de aceptación, nos permitirá aceptar o rechazar la hipótesis nula. Valor p de Fisher (también p-valor o simplemente p).- es probabilidad de que un determinado estadístico se deba al azar. Es deseable que su valor sea alto, así una p de 0,894 nos dice que de 1000 muestras que hubiésemos extraído de esa población, 894 nos hubieran dado un estadístico como el obtenido por efectos del azar. Si el valor de p hubiese sido 0,004 significaría que de 1000 muestras, 4 hubieran mostrado un estadístico como el hallado por el mero efecto del azar, lo cual no es en ninguna medida deseable. Por tanto: Si p > α " Aceptamos H0 Si p ≤ α " Rechazamos H0 Nivel de significación.- cuando desarrollamos un contraste de hipótesis bajo la perspectiva del nivel crítico de Neyman y Pearson, la probabilidad de aceptación de la hipótesis nula especificada a priori se conoce como nivel de significación. Su complementario es alpha, que es la probabilidad a priori de la región crítica o hipótesis alternativa. Valor crítico.- también denominado punto crítico, es el valor que delimita la región de aceptación de la hipótesis nula de la región crítica o región de rechazo de la hipótesis nula. Nivel de confianza.- cuando desarrollamos un contraste de hipótesis bajo la perspectiva del intervalo de confianza de Neyman y Pearson, la probabilidad de que el parámetro se encuentre dentro del intervalo estimado, se denomina nivel de confianza. Intervalo de confianza.- es el rango de valores donde se estima que se encuentra un determinado parámetro en la población. Es incorrecto pensar que el 95% (por ejemplo) de las veces el estadístico estará dentro del intervalo de
confianza. Lo correcto es interpretar que el intervalo cuando se calcule en las infinitas muestras extraídas de la población contendrá el estadístico en el 95% de las veces. Error tipo I.- se comete al rechazar una hipótesis nula verdadera, se da cuando el tratamiento no es efectivo, pero el investigador concluye que sí lo es, es decir, se comete cuando el investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera. Caeremos en error tipo I cuando deseamos cometer un error mínimo al aceptar la hipótesis alternativa, por lo que corremos el riesgo de rechazar una hipótesis nula verdadera. El error tipo I implica que el tratamiento no tiene efecto pero decidimos que sí lo tiene. El error tipo I es mas grave que el error tipo II. Rechazar una hipótesis no prueba que sea falsa. El error tipo I es equivalente a un falso positivo. Error tipo II.- se comete al aceptar una hipótesis nula falsa, se da cuando el tratamiento es efectivo pero el investigador concluye que no lo es, es decir, se comete cuando el investigador no rechaza la hipótesis nula siendo ésta falsa. Caeremos en error tipo II cuando deseamos cometer un error mínimo alaceptar la hipótesis nula, por lo que correremos el riesgo de aceptar una hipótesis nula falsa. El error tipo II implica que el tratamiento si tiene efecto pero no lo percibimos. Aceptar una hipótesis no prueba que sea cierta. El error tipo II es equivalente a un falso negativo. Potencia.- es la probabilidad de rechazar una hipótesis nula falsa, o lo que es lo mismo, rechazar correctamente la hipótesis nula. http://www.conexionismo.com/leer_articulo.php?ref=conceptos_fundamentales_en_estadistica-o96552y7 CONCEPTO DE POBLACIÓN Y MUESTRA El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. Destacamos algunas definiciones: "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974). El tamaño que tiene una población es un factor de suma importancia en el proceso de investigación estadística y en nuestro caso social, y este tamaño vienen dado por el número de elementos que constituyen la población, según el número de elementos la población puede ser finita o infinita. Cuando el número de elementos que integra la población es muy grande, se puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos los números positivos. Una población finita es aquella que está formada por un limitado número de elementos, por ejemplo; el número de habitantes de una comarca. Cuando la población es muy grande, es obvio que la observación y/o medición de todos los elementos se multiplica la complejidad, en cuanto al trabajo, tiempo y costos necesarios para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística.
Evolución de la población española
Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo denominada muestra. Muestra: La muestra es una representación significativa de las características de una población, que bajo, la asunción de un error (generalmente no superior al 5%) estudiamos las características de un conjunto poblacional mucho menor que la población global. "Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974). Por ejemplo estudiamos los valores sociales de una población de 5000 habitantes aprox., entendemos que sería de gran dificultad poder analizar los valores sociales de todos ellos, por ello, la estadística nos dota de una herramienta que es la muestra para extraer un conjunto de población que represente a la globalidad y sobre la muestra realizar el estudio. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo. Técnicas de Muestreo: Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población. Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra. Al tomar varias muestras de una población, las estadísticas que calculamos para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra. Tipos de muestreo Existen dos métodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En este último todos los elementos de la población tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir como tomar una muestra aleatoria más adelante. Las muestras de juicio evitan el análisis estadístico necesario para hacer muestras de probabilidad.
El muestreo de juicio o criterio es aquel en el que el investigador utiliza su criterio para seleccionar a los miembros de la población que puedan generar muestras representativas. http://www.edukanda.es/mediatecaweb/data/zip/940/page_07.htm
VARIABLES Y SU CLASIFICACIÓN La Estadística es la ciencia que proporciona técnicas y procedimientos que permiten observar y medir cierta característica de la población. Las características que estudia la estadística de la población vienen a ser conceptos como pueden ser ventas, estatura, peso, consumo, etc. Tales conceptos, cuando son investigados, en estadística reciben el nombre de variables. Vienen a ser llamados variables estadísticas, puesto que originan una serie de datos que tienden a fluctuar al realizar su medición. Vamos a definir variable de la forma siguiente: Una variable es una propiedad característica de la población en estudio, susceptible de tomar diferentes valores, los cuales se pueden observar y medir. Las variables pueden ser de dos tipos: cualitativas y cuantitativas. Las variables cualitativas se clasifican a su vez en nominales y ordinales, en tanto que las variables cuantitativas se clasifican a su vez en discretas y continuas. Variables cualitativas: son aquellas que no se pueden medir numéricamente ejemplo: nacionalidad, color de la piel, sexo, etc. A su vez, las variables cualitativas pueden ser: Nominales: son datos que corresponden a categorías que por su naturaleza no admiten un orden. Por ejemplo: sexo (masculino y femenino); carrera de estudio: economía, contabilidad, administración, etc. Ordinales: son aquellos que corresponden a evaluaciones subjetivas que se pueden ordenar o jerarquizar. Por ejemplo: en una competencia artística las posiciones de los ganadores se ordenan o jerarquizan en primer lugar, segundo lugar, tercer lugar, cuarto lugar, etc. Variables cuantitativas: son aquellas que tienen valor numérico como la edad, el precio de un producto, ingresos anuales de un consumidor, etc. A su vez, las variables cuantitativas pueden ser: Discretas: estas son aquellas que sólo pueden tomar valores enteros como 1, 2, 8, -4, etc. En este sentido, los hermano en una familia podrán ser: 1, 2, 3..., etc. Sin embargo, nunca podrán ser 1.5 o 2.3. Continuas: son aquellas que pueden tomar cualquier valor real dentro de un intervalo o rango. Por ejemplo, los litros de leche ordeñados podrán se 1.5 o 10.3 etc. http://materiaestadistica.blogspot.mx/2012/01/variables-y-su-clasificacion.html FUENTES DE DATOS ESTADÍSTICOS: Los datos estadísticos necesarios para la comprensión de los hechos pueden obtenerse a través de fuentes primarias y fuentes secundarias. Fuentes de datos primarias: es la persona o institución que ha recolectado directamente los datos. Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información. Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin. En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentessecundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas dependen en grado sumo de la exactitud de los datosque se recaben. De anda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables. Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último termino podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentran discriminados en la forma requerida. Ejemplo: Si un investigador quiere conocer el número de alumnos repitientes en educación media, clasificados por ciclos, para los últimos diez años, el investigador puede usar una fuente primaria, tal como la memoria y cuenta el Ministerio de Educación cada año http://www.buenastareas.com/ensayos/Fuentes-De-Datos-Estad%C3%ADsticos/2020859.html#
POBLACIÓN Partimos de la definición del población para definir la muestra, puesto que la selección de la muestra tiene como objeto conseguir una muestra representativa de la población. Así la población de un estudio puede ser un conjunto de sujetos, objetos, sucesos, eventos o contextos de los que se desea conocer algún aspecto, dato o característica. MUESTRA La muestra tiene el objeto de conseguir datos del total de una población con la ventaja de la eficiencia, considerando el tiempo y reducción de costes del estudio. De manera que seleccionando a un reducido grupo de la población de estudio, y aplicando sobre el la investigación, los datos resultantes sean representativos de toda la población de estudio, es decir que los datos obtenidos del estudio de la muestra se puedan extrapolar a toda la población. El tamaño de la muestra debe de definirse antes de iniciar el muestreo. Para ello se realiza una determinación del tamaño muestral, que veremos más adelante. Esta determinación sirve para conocer de antemano el número de casos necesarios para conseguir que la muestra sea representativa de la población. El tipo de estudio que deseemos llevar a cabo también es un factor a tener en cuenta en este proceso, puesto que los pasos a dar difieren de un tipo de estudios a otros. Así podemos definir la muestra según el tipo de estudio que realicemos: EN ESTUDIOS CUANTITATIVOS Subgrupo de la población de interés sobre el que vamos a trabajar, que es representativo de toda la población de estudio. EN ESTUDIOS CUALITATIVOS Subgrupo de personas, sucesos, contextos, eventos, sucesos, comunidades... del que extraeremos los datos para el estudio, sin que necesariamente sean representativos de la población de estudio. Métodos de selección de la muestra. Tamaño Muestral Si esta parte del estudio no está bien realizada, nos encotraremos en situaciones en que no existiran diferencias significativas entre las muestras. Además todo muestra superior a la necesaria, supondrá un aumento del tiempo del estudio y de los costes del mismo, lo que puede suponer su viabilidad económica. Para realizar correctamente el tamaño muestral, debemos trabajar dos herramientas de la inferencia estadística que aportarán la validez de las conclusiones, como son la estimación de parámetros y el contraste de hipótesis. ESTIMACIÓN DE PARÁMETROS Pretende realizar el cálculo aproximado del valor de estudio en la población, mediante el estudio de la muestra de la población. Para ello necesitamos conocer la variabilidad del parámetro, que la podemos obtener de la bibliografía sobre este o realizando un estudio piloto en la población. También podemos utilizar la desviación típica poblacional, en el estudios cuantutativos, y en caso de estudios cualitativos es necesario trabajar con probabilidadades de éxito p(p-1). Otro de los datos que debemos conocer es el error de estimación, que nos ofrece precisión, que podemos corregir mediante el intervalo de confianza, es decir cuando el error de estimación es demasiado elevado, se puede aumentar la muestra, de manera que se amplia el intervalo de confianza. Ello supone que aumentará el nivel de confianza, o lo que es lo mismo, que existen mayores probabilidades de que el valor de la población esté dentro de el intervalo de confianza del estudio. TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UNA PROPORCIÓN. Valor aproximado de la variable de estudio. Revisión de bibliografía para ver datos anteriores
Estudio piloto Precisión de la estimación Nivel de Confianza 95%, corresponde a z= 1,96.
Fórmula:
N= número de sujetos necesarios. Z= Valor del coieficiente z correspondiente al nivel de confianza fijado. p= Valor poblacional esperado. d= Precisión.
TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UNA MEDIA. En este caso también debemos de concocer el nivel de confianza y la precisión de la estimación, pero se le suma el concepto de desviación típica o desviación de la varianza (s), en el caso de la distribución de la variable cuantitativa. Nivel de confianza. Z= Valor del coieficiente z correspondiente al nivel de confianza fijado. Precisión de la estimación. d= Precisión. Desviación típica Fórmula:
Muestreo Le llamamos muestreo al conjunto de técnicas y pasos a dar para llevar a cabo el proceso de la selección de la muestra. Para que el muestreo sea correcto y la muestra obtenida sea representativa de la población debemos de hacer que:
Se conserve la independencia durante la selección de la muestra.
Que todos los elementos de la población tengan igual probabilidad de pertenecer a la muestra.
Existen diferentes métodos, pero los factores que van a decidir en su elección son el tiempo, los recursos económicos del estudio y las características de los elementos de la población. En el seguiente esquema se exponen todos los conceptos del muestreo, algunos de los cuales vamos a definir:
Figura 4.1 Esquema del Muestreo. Fuente: http://serviciossegundosmedios.blogspot.com.es A continuación vamos a definir los muestreos según su tipo procedimiento. MUESTREO PROBABLISTICO La caracteristica de este tipo de muestreo es que la probabilidad de aparición de cualquier tipo de la muestra es conocida. Este tipo de muestreo presenta los siguientes subtipos: MUESTREO ALEATORIO SIMPLE Todos los elementos tienen la misma probabilidad de aparición. Cojemos un listado de los elementos de la población y se va seleccionando al azar. También se puede utilizar una elección mediante una tabla de números aleatorios, o un programa informático que nos ofrezca números aleatórios. El único inconveniente es que hay que tener una lista completa de la población. MUESTREO SISTEMÁTICO La forma de selección depende de la población y el número de la numero de la muestra. Mediante la aplicación del coeficiente K=N/m donde N es la población y m el tamaño muestral, se nos ofrece k que es el coeficiente de elevación. Tras su obtención K indica el punto de inicio de la selección en el listado de la población, y a partir de este valor se seleccionan los elementos situados a K posiciones del el K inicial. Si la población está ordenada en en cierta tendencia conocida,no es necesario un listado completo de la población. Pero K no puede estar asociada a ningún fenómeno de interés. MUESTREO ESTRATIFICADO Si la población está en subconjuntos que son homogéneos respecto a la variable de estudio, podemos dividir la población en subgrupos homogéneos y realizar el muestreo aleatorio dentro de cada estrato.
MUESTREO POR CONGLOMERADOS Se toman al azar grupos de elementos de los cuales sacaremos al azar los individuos para la muestra. De manera que cada grupo tienen la misma probabilidad de ser elegido. Es un estudio útil para poblaciones grandes y dispersadas, aunque de de estimaciones menos precisas. Pero es una solución muy rentable si se ha elegido un muestreo aleatorio simple. EL MUESTREO NO PROBABILÍSTICO Lo realiza el investigador, no el azar, lo que supone que las muestras son menos representativas que las probabilisticas, pero se reducen los costes y el tiempo de la selección. El inconveniente es evidente, la producción de multitud de sesgos que no lleven a la obtención de claros resultados. Dentro de estos muestreos encontramos: MUESTREO DE CASOS CONSECUTIVOS
Donde el investigador elige la muestra por criterios de intervalo temporal o hasta completar el número de la muestra.
MUESTREO DE CONVIVENCIA El investigador selecciona los elementos más fácilmente accesibles o que suponen un menor coste, lo que puede suponer la colaboración de voluntarios. https://sites.google.com/site/wikinfermeria/trabajo-final-de-grado/4-recursos-para-seleccion-de-muestra
PRESENTACIÓN DE DATOS ESTADÍSTICOS La presentación de datos estadísticos constituye en sus diferentes modalidades uno de los aspectos de mas uso en la estadística descriptiva. A partir podemos visualizar a través de los diferentes medios escritos y televisivos de comunicación masiva la presentación de los datos estadísticos sobre el comportamiento de las principales variables económicas y sociales, nacionales e internacionales. 1-Presentación escrita: Esta forma de presentación de informaciones se usa cuando una serie de datos incluye pocos valores, por lo cual resulta mas apropiada la palabra escrita como forma de escribir el comportamiento de los datos; mediante la forma escrita, se resalta la importancia de las informaciones principales. 2-Presentación tabular: Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que responden a un ordenamiento lógico; es de gran eso e importancia para el uso e importancia para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla consta de varias partes, las principales son las siguientes: Titulo: Es la parte más importante del cuadro y sirve para describir todo él contenido de este. Encabezados: Son los diferentes subtítulos que se colocan en la parte superior de cada columna. Columna matriz: Es la columna principal del cuadro. Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en la tabla. Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de estos.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido explicados en otras partes. 3-Presentación grafica: Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una grafica es una expresión artística usada para representar un conjunto de datos. De acuerdo al tipo de variable que vamos a representar, las principales graficas son las siguientes: Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón de que lo utilizamos para representar variables continuas. Polígono de frecuencias: Esta grafica se usa para representar los puntos medios de clase en una distribución de frecuencias Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal. Gráfica lineal: Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se usan para representar series de tiempo o cronológicas. Gráfica de barra 100% y gráfica circular: se usan especialmente para representar las partes en que se divide una cantidad total. La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la base "menor que" o sobre la base "o más". Puede determinar el valor de la mediana de la distribución. En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización De sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema De referencia (coordenadas), permiten presentar información cuantitativa. La utilidad De los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis De los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla. En este trabajo solo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis. Distribución de frecuencia Gráficos estadísticos Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean para tener una representación visual de la totalidad de laࠩ nformación. Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros.
Gráficos de barras horizontales Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.
para una serie
para dos o más series
Gráficos de barras proporcionales Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datosque componen un total. Las barras pueden ser: Verticales Horizontales
Gráficos de barras comparativas: Se utilizan paraࠩmparar dos o más series, para comparar valores entre .categorías.s barras pueden ser: Verticales Horizontales ࠩ
Gráficos de barras e usan para mostrar las relaciones entre dos o más series con el total. Las barras pueden ser: verticales horizontales
Gráficos de líneas En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Se pueden usar para representar: una serie dos o más series
Una presentación adecuada y clara de los resultados de un trabajo de investigación además de ser fundamental para contribuir a la difusión de los mismos, puede incluso ser imprescindible para lograr que se acepte su publicación. En la actualidad la exigencia de las revistas y de los revisores ha contribuido a que el nivel de calidad en la presentación de datos sea bastante bueno, por lo que es conveniente tener algunas ideas muy claras para evitar errores o situaciones que hoy ya no son admisibles, lo que no solo nos preparará para la publicación de nuestros trabajos sino también para una lectura crítica de los de otros. Precisamente un buen punto de partida para obtener información, no sólo sobre cómo presentar nuestros resultados sino también sobre cómo preparar todo el conjunto del artículo, lo constituyen las propias guías suministradas por las revistas.
Un artículo bien concebido debe transmitir la mayor parte de la información con sólo leer el Abstract y los Resultados, siendo para ello vital que los datos, con las tablas y figuras correspondientes, estén bien presentados y organizados. En general no debiera ser necesario acudir al texto para entender una tabla o una figura; otro caso es para interpretarla, lo que ya corresponde al apartado de Discusión o Conclusiones. La manera de presentar los datos es diferente según el tipo de los mismos. De forma rápida podemos hacer dos grandes grupos: datos cuantitativos y datos cualitativos. En el grupo de datos cuantitativos tenemos aquellos cuyo resultado puede variar de forma continua, como puede ser el peso, la edad, etc. y los que sólo pueden tomar valores enteros como por ejemplo el número de hijos, el número de ingresados en la Unidad de Quemados un día concreto, etc. A su vez en las variables cualitativas distinguiremos las nominales, que constituyen una simple etiqueta -como puede ser el sexo, el grupo sanguíneo, etc.- de las ordinales, en las que se da una relación de orden entre las respuestas, como por ejemplo en el resultado de una patología/tratamiento (fallece, empeora, sin cambios, mejora, curación) o el nivel educacional. Cada tipo variable tiene requerimientos propios en cuanto a presentación y en cuanto a las pruebas que se utilizan para contrastar los valores entre diferentes grupos. Observados en ella serán válidos aproximadamente para esa población, y los procedimientos estadísticos nos permiten cuantificar la magnitud del término "aproximadamente", lo que dependerá del tamaño y representatividad de la muestra (error de muestreo), la variación debida a las técnicas de medida empleadas (error de medida), y la propia variabilidad del proceso estudiado (error aleatorio).
La precisión de la estimación efectuada a partir de los datos del estudio se refleja en el intervalo de confianza. El intervalo de confianza de un parámetro viene dado por dos límites, inferior y superior, en el que, de acuerdo con nuestros datos, esperamos que se encuentre el valor verdadero del parámetro de la población (desconocido), con un nivel de seguridad determinado y que se suele fijar en el 95%. El intervalo de confianza es mucho más informativo que indicar solo si un resultado ha sido estadísticamente significativo, incluso aunque se dé el valor de la probabilidad Representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, SPLUS, EGRET,...) ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programa Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes según el hábito de fumar.
Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico.
Figura 3.Ejemplo de un histograma correspondiente a los datos de la Tabla I.
Figura 4. Polígono de frecuencias para los datos de la Tabla I.
Figura 5.Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.
Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.
Figura 8. Barras de error. Variación en el índice desa corporal según el sexo.
Figura 9. Gráfico de líneas. N úmero de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997.
Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una muestra de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre.
Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis hepática, según un modelo de regresión logística ajustando por el % de protrombina y el presentar o no hepatomegalia.
Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis.
En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema de referencia (coordenadas), permiten presentar información cuantitativa. La utilidad de los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis de los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla. El propósito de un gráfico no es entonces muy diferente del de cualquier otra herramienta estadística: ayudar a la comprensión y comunicación de la evidencia aportada por los datos respecto a una hipótesis en estudio. Un gráfico científico debe servir por tanto para representar la realidad, no para generar nuevas realidades inexistentes fuera de la propia imagen. La llegada de los ordenadores y de programas para la generación de gráficos y presentaciones ha puesto en manos del usuario común una herramienta poderosa, antes de que disponga de los conocimientos o la mentalidad adecuada para usarla, y de esa forma nos vemos invadidos, cierto que con honrosas excepciones, por una insensata proliferación de gráficos mercantilistas que parece que tienen como único objetivo hacernos ver la capacidad delprograma utilizado: llenos de una variada gama de colores, todo tipo de fuentes de letras imaginables, casi tantos como palabras, y por supuesto representación al menos en tres dimensiones. Todo lo contrario de lo que un buen gráfico científico debe ser, en el que su calidad radica precisamente en la simplicidad de la presentación para permitir visualizar unos datos complejos. En este artículo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis. La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que:
Induzca a pensar en el contenido más que en la apariencia
No distorsione la información proporcionada por los datos
Presente mucha información (números) en poco espacio
Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos (por ejemplo una secuencia temporal) A su vez los gráficos se integran dentro de un contexto de presentación, por ejemplo en papel o proyectados en una pantalla en una presentación oral, y deben estar adecuadamente diseñados para el soporte al que van destinados. Personalmente me resulta asombroso la enorme cantidad de veces que oigo atónito a un presentador, que nos muestra una transparencia o una diapositiva llena de texto minúsculo, ilegible para la audiencia, decir que "aunque uds probablemente no pueden leerlo"... ¿entonces para qué lo ha puesto en esa imagen? ¿qué arcana misión cumple
entonces el texto que la audiencia no puede leer?. Lo mismo podemos decir de los gráficos en papel ¿por qué contienen tantos puntos o rayas que no se pueden distinguir unos de otros? Aunque como norma general en los gráficos científicos los adornos sobran, tampoco hay que olvidar que a menudo también cumplen una misión estética, ayudando de esa forma a una presentación que quizás sería demasiado árida sólo con texto y números. Pero entonces esa función estética debe ser comprendida y valorada, quedando perfectamente integrada en el contexto de lo que se presenta, y no puede ser una disculpa para distorsionar su contenido. Algunas sugerencias para la confección de gráficos
En un artículo las tablas y las figuras deben llevar numeración diferente, y mientras que el título de una tabla debe ir en la parte superior de ésta, el de la figura se colocará en la parte inferior. Si se piensa utilizar un gráfico es porque aporta algo a la presentación de los datos; no tiene sentido gastar innecesariamente espacio con una imagen, como en la figura de la izquierda, en la que mediante barras representamos dos frecuencias, cuando los datos se pueden expresar con una simple frase o con una pequeña tabla. La moda imperante de utilizar perspectiva para simular tres dimensiones en gráficas en las que únicamente se representa 2 dimensiones de los datos o a veces incluso sólo una dimensión (como son los diagramas de barras en la que la única dimensión de los datos, la frecuencia absoluta o relativa, corresponde a la altura de la barra, ya que la anchura no mide nada), distorsiona las relaciones entre los distintos elementos de los gráficos magnificando unas y empequeñeciendo otras y por lo tanto constituye un elemento no deseable, por lo que nuestra encarecida recomendación es no utilizar en esos casos representaciones en 3 dimensiones.
En la imagen de la izquierda vemos un ejemplo de flagrante confusión a la hora de percibir la información por el observador. Entre las dos últimas barras de la derecha parece que existe escasa diferencia, aunque con distinto signo, pero si nos fijamos en el escalado del eje, la barra morada tiene menos de 10 unidades de altura, si tomamos como referencia la cara frontal, pero si nos fijamos en la cara posterior, la altura es superior a 10 (está por encima de la línea de 60). Sin embargo en la barra última, de color rojo, cuando nos fijamos en la cara en primer plano la altura parece ser de 20 unidades, y si tomamos como referencia la cara posterior parece que la altura corresponde a algo más de 15 unidades. ¿Con qué nos quedamos? Un verdero lío. Este ejemplo no está preparado, se trata de un caso real que me presentaron hace pocos días: no es necesario escarbar mucho para encontrar ejemplos a nuestro alrededor.
Un tipo de representación muy utilizado son las tartas y sin embargo desde el punto de vista de la comunicación de resultados son totalmente inadecuadas, hasta tal punto que nuestra recomendación es no emplearlas nunca y mucho menos con tres dimensiones Categoría Frec.abs. % No sabe leer ni escribir 69 7,8 Sin estudios 246 27,9 Estudios primarios incompletos 262 29,7 Estudios primarios completos 129 14,6 Estudios de graduado escolar 85 9,7 Estudios de bachiller superior
57 6,5 Estudios universitarios medios 24 2,7 Estudios universitarios superiores 9 1,0 Total 881 En la tabla de la izquierda se presentan los datos procedentes de un estudio real, correspondientes al nivel cultural de 881 pacientes diabéticos, atendidos en régimen ambulatorio. En la tarta que vemos más abajo se han representado los datos de esa tabla utilizando como lamentablemente es habitual tres dimensiones. No sé qué le parecerá a ud lector, pero a mí, si me fijo en los sectores amarillos (Estudios primarios incompletos) y verde (Sin estudios), me parece que el sector verde es algo más grande que el amarillo, lo que está en clara contradicción con los datos de la tabla. Les aseguro que el gráfico no está "amañado", me he limitado a capturar la pantalla de mi programa. Prueben con su programa favorito. El problema óptico radica en dónde coloquemos cada sector.
Fíjense en cambio en el diagrama de barras de la siguiente figura. Ahora sí se está reflejando adecuadamente los datos en el gráfico y nos permite establecer relaciones visuales fiables entre ellos.
Veamos seguidamente cómo queda en una presentación estándar de PowerPoint. La primera tarta corresponde a los datos de la tabla tal y como los presenta ese programa y en la segunda tarta intercambiamos la posición de los sectores amarillo y verde, sin variar los porcentajes, pero no es eso lo que parece en la imagen, ya que el sector verde parece más pequeño que el amarillo en la primera tarta, y mayor en la segunda. En general es mejor presentar una tabla que una tarta, o un diagrama de barras, sobre todo si se desea comparar con otros datos.
La pereza intelectual nos lleva a adoptar modas, tanto en la utilización de procedimientos estadísticos como en la representación de datos, sin plantearnos si éstas son adecuadas. Conviene siempre reflexionar sobre lo que se hace. Así por ejemplo, viene siendo muy habitual representar los porcentajes con una barra y una línea que marca el intervalo de confianza de éste, como en la primera figura de la izquierda. Pero este tipo de representación tiene un cierto
contenido de engaño, ya que la presencia de esas líneas para el intervalo de confianza marcan sólo el límite superior, y sin embargo es igualmente probable valores por debajo del extremo superior de la barra. Una presentación más adecuada sería la de la segunda figura, que refleja esa característica de simetría del intervalo de confianza. Es igualmente probable obtener valores superiores o inferiores. Otra costumbre, que no tiene mucho sentido, y también muy difundida es la de unir puntos entre los que no existe una relación secuencial. Sí que es lógico construir de esa forma curvas de evolución de crecimiento, de supervivencia, pero no es lógico unir puntos que no guardan relación secuencial. Por ejemplo, en la gráfica anterior, si los 10 ensayos que se representan en el eje de las X son independientes no tendría sentido unir los puntos; sí lo sería, si se trata de ensayos secuenciales. En la siguiente figura vemos el perfil de la media de los resultados del cuestionario de calidad de vida SF-36 en los hombres (rojo) y mujeres (amarillo) en un grupo de pacientes diabéticos. Hay un punto para cada una de las dimensiones, que corresponden a los conceptos de función física, rol físico, dolor corporal, salud general, vitalidad, función social, rol emocional y salud mental. La moda es presentar los puntos unidos por una línea ¿por qué?. No dudo de que haya alguna razón, pero ¿los que así lo presentan conocen el motivo o lo hacen sólo por moda?
La utilización de un escalado adecuado es imprescindible en un buen gráfico estadístico. Es fundamental sobre todo si se van a comparar diferentes gráficas, ya que entonces los ejes deben tener el mismo recorrido y las gráficas tener el mismo tamaño. El recorrido de los ejes contiene en sí mismo también información. Así en la gráfica anterior, se quería indicar que el resultado posible de cada una de las escalas va de 0 a 100, y que las diferencias entre el grupo de mujeres y de hombres, siendo importantes, pueden quedar minimizadas en ese campo de variación. Si pretendiéramos realzar esas diferencias hubiéramos elegido otro recorrido para el eje: En ambos casos el recorrido elegido transmite por sí mismo un mensaje, por lo tanto debe escogerse adecuadamente. Es difícil, sino imposible, dar consejos generales en cuanto a cómo elaborar un gráfico, si acaso sólo unas mínimas normas básicas como las que venimos comentando. Hay que tener en cuenta además que el gráfico cumple también una función estética, que fomenta la lectura del texto y ayuda a su comprensión. Y en el aspecto estético es donde será más complicado lograr un consenso. Quizás la única norma general sea la de buscar sencillez y claridad, incluso el uso del color debe ser moderado y bien elegido. Las líneas debieran ser finas, eliminándose aquellas que son superfluas y enmarañan el gráfico. Solo se utilizarán rejillas si se considera necesario para ayudar a la interpretación y ubicación de los datos. En la imagen debe haber un adecuado balance entre el espacio en blanco y el que contienedatos, aunque en ocasiones el espacio en blanco sí que contiene información y transmite un mensaje, como en la gráfica anterior sobre calidad de vida, cuando decidíamos presentar todo el rango de variación con el fin de minimizar la importancia de las diferencias. En el gráfico ideal no tenemos que acudir al texto para interpretarlo.
Debe existir una adecuada relación entre el texto, las tablas y las imágenes, siendo fáciles de localizar y encontrándose próximas al texto donde son referenciadas y a ser posible en la misma página. También una buena idea puede ser combinar texto y tablas embebidas, para facilitar la Lectura, ya que muchos números seguidos en una misma frase son difíciles de comprender. Veamos un ejemplo. Se encontró una diferencia importante en la PAS entre el grupo de pacientes obesos y el resto, de 5.1 mmHg (Int.confianza del 95% de 3.7 a 7.2), con los siguientes valores en cada grupo: Grupo Media Desv.Típ. Tam. OBESO=NO 136,54 15,04 476 OBESO=SI 141,62 15,00 355 Incluir aquí la tabla con los datos en ambos grupos es mucho más legible que si hubiéramos continuado la frase indicando, a continuación de los valores de la diferencia, los datos de cada grupo. Así, con la tabla, resulta mucho más fácil de leer que si se expresa con un párrafo; por supuesto siempre que la tabla quede embebida en el texto y no vaya colocada en otro punto, y hagamos referencia a ella con el consabido véase tabla n, lo que distraerá la atención. Hay muchas otras posibilidades de gráficos, además de las tartas, barras, nubes de puntos y curvas, que constituyen una alternativa más eficiente de presentación que el texto. Por ejemplo, una información que debería figurar en todo trabajo de investigación, es la relativa al colectivo de sujetos del que se extrajo la muestra analizada, así como el procedimiento utilizado y la evolución del tamaño de muestra durante el desarrollo del estudio. Este tipo información resulta complicado de describir sólo con texto y sobre todo difícil de seguir por el lector, siendo mucho más ilustrativa la presentación de un diagrama de flujo, tal y como proponen las recomendaciones CONSORT, de las que hemos extraído el ejemplo de la figura. Las características globales de un conjunto de datos estadísticos pueden resumirse mediante una serie de cantidades numéricas representativas llamadas parámetros estadísticos. Entre ellas, las medidas de tendencia central, como la media aritmética, la moda o la mediana, ayudan a conocer de forma aproximada el comportamiento de una distribución estadística. Medidas de centralización
Se llama medidas de posición, tendencia central o centralización a unos valores numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una variable estadística. Estas medidas se conocen también como promedios. Para que un valor pueda ser considerado promedio, debe cumplirse que esté situado entre el menor y el mayor de la serie y que su cálculo y utilización resulten sencillos en términos matemáticos. Se distinguen dos clases principales de valores promedio: Las medidas de posición centrales: medias (aritmética, geométrica, cuadrática, ponderada), mediana y moda. Las medidas de posición no centrales: entre las que destacan especialmente los cuantíales.
Las medidas de centralización son parámetros representativos de distribuciones de frecuencia como las que ilustra la imagen. Media aritmética Se define media aritmética de una serie de valores como el resultado producido al sumar todos ellos y dividir la suma por el número total de valores. La media aritmética se expresada como Dada una variable x que toma los valores x1, x2, ..., xn, con frecuencias absolutas simbolizadas por f1, f2, ..., fn, la media aritmética de todos estos valores vendrá dada por:
Media ponderada En algunas series estadísticas, no todos los valores tienen la misma importancia. Entonces, para calcular la media se ponderan dichos valores según su peso, con lo que se obtiene una media ponderada. Si se tiene una variable con valores x1, x2, ..., xn, a los que se asigna un peso mediante valores numéricos p1, p2, ..., pn, la media ponderada se calculará como sigue:
El cálculo de la media aritmética de una serie de valores puede abreviarse si se resta a todos los valores un mismo número elegido convenientemente.
Cantiles Los cuantíeles son medidas de tendencia no centrales, que permiten determinar la proporción de la población de una variable estadística cuyos valores estadísticos son menores o iguales que un valor tomado como referencia. Este valor puede determinarse dividiendo la población en diez partes (deciles), cien partes (percentiles), etcétera. Variables estadísticas En el mundo natural y en las sociedades humanas existen fenómenos cuyo comportamiento no puede establecerse mediante leyes fijas, sino que obedecen a la conjunción de múltiples factores cuya interacción es a menudo incontrolable. En tales casos se recurre a análisis estadísticos, que recogen datos sobre un número elevado de manifestaciones del fenómeno y los relacionan y describen por medio de tablas, gráficos y valores numéricos representativos. Conceptos de estadística En el manejo de modelos estadísticos se utilizan tres conceptos fundamentales: Población, definida como el conjunto de todos los elementos que verifican una cierta característica considerada de interés para el estudio estadístico. Individuo, cada uno de los elementos de una población. El número de individuos define el tamaño de la población. Muestra o subpoblación, entendida como cualquier subconjunto representativo de la población considerada. Por su parte, los individuos de una población poseen una serie de cualidades o propiedades que, genéricamente, se conocen por caracteres. Existen dos clases de estas propiedades: Cuantitativas, susceptibles de expresarse mediante números. Por ejemplo, la edad, el número de hijos, el peso o la estatura. Cualitativas, que sólo pueden explicarse mediante palabras, como el color del pelo, la nacionalidad, el sexo, el estado civil, etc. Clases de variables estadísticas El conjunto de valores que constituyen un carácter estadístico se denomina variable estadística. En términos estrictos, se denomina variable estadística a todo carácter cuantitativo de un individuo, mientras que los caracteres cualitativos se suelen llamar atributos. Las variables estadísticas se clasifican en dos grandes grupos: Variables discretas, que toman únicamente valores puntuales. Por ejemplo, el número de hijos de una mujer es siempre un valor entero: 0, 1, 2, 3, ... Variables continuas, que pueden tomar cualquier valor dentro del conjunto de los números reales R o de un intervalo suyo. Ejemplos de variables continuas son las medidas antropomórficas de los recién nacidos, la altura de los ciudadanos de un determinado colectivo, la medición de temperaturas, etcétera. Se llama recorrido de una variable a la máxima diferencia que existe entre sus valores. Clasificación de los caracteres estadísticos Frecuencias
Si se observa un carácter en los elementos de una población, se determinará que aparece de la misma manera en un cierto número de ellos. Este concepto se denomina frecuencia, de forma que: Se denomina frecuencia absoluta al número de veces que aparece cada valor de una variable dentro del conjunto de datos. La frecuencia absoluta del carácter i se expresa como fi. Se llama frecuencia relativa, y se expresa como hi, al cociente entre la frecuencia absoluta del carácter y el número total de observaciones n. Es decir: hi = fi/n Cuando se ordenan los valores de la variable en sentido creciente o decreciente y se van sumando hasta un cierto valor determinado, se habla de frecuencia acumulada, que puede ser absoluta o relativa según el concepto de frecuencia que se considere. Presentación de tablas Una primera forma de presentación de datos estadísticos se basa en el uso de tablas. Las más sencillas son las tablas de distribución de frecuencias, donde se indican en columnas: El valor de la variable. La frecuencia absoluta, la frecuencia relativa y, en ocasiones, la frecuencia acumulada. En las tablas estadísticas se cumplen algunas propiedades interesantes que sirven de mecanismos de control de su exactitud: La suma de todas las frecuencias absolutas es igual al tamaño de la población de la muestra. La suma de las frecuencias relativas es siempre igual a 1. La última frecuencia absoluta acumulada coincide con el número total de observaciones. La última frecuencia relativa acumulada es igual a la unidad. Clases de estadística La estadística es una ciencia que estudia colecciones de datos numéricos para extraer inferencias de ellos basadas en diversos métodos. A menudo, se emplean cantidades numéricas representativas (de tendencia central, como la media aritmética, y de dispersión, como la desviación típica), para ilustrar las propiedades de estos conjuntos numéricos; esta rama de la estadística recibe el nombre de deductiva o descriptiva. En cambio, cuando recurre al estudio de subpoblación es o muestras (por ejemplo, en encuestas entre ciertos colectivos), hace uso de la teoría de probabilidades, en una especialidad denominada estadística Frecuencia de grafico de líneas EJ: Agrupar en una tabla de datos 10, 1, 6, 9, 2, 5, 7, 4, 3, 8 - 45 - Tablas de frecuencias: Una tabla de frecuencia esta formada por las categorías o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribución de frecuencias. Esta tabla se crea por medio de la tabulación y agrupación, la cual es un método sencillo como lo habíamos empezado a ver en la tabla de datos, Se realiza el mismo procedimiento de tabulación anteriormente descrito si el numero de valores observados para la variable, se trabaja con una sola variable, descontando los repetidos son pequeños, si existen repetidos la frecuencia f es el
numero de repeticiones de un valor de X dado, Sin embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algún tipo de agrupación como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupación son diferentes según sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de X en las observaciones. Para una variable continua, el procedimiento de agrupación es algo más complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga los n valores observados, y divídase el intervalo en cierto numero de intervalos de clase. Todas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y él numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias. Estas clases de tablas son las mas usadas y brindan mayor información de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dará en forma abreviada, una información completa acerca de la distribución de los valores observados. Con estas se pueden utilizar mas a fondo los métodos gráficos al igual que los métodos aritméticos.
Ej: Agrupar en una tabla 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5 Xf 1f 2f 2f 4f 3 3 4 1 5 1 S 11 Agrupar en una tabla las siguientes estaturas: 160, 168, 175, 183, 170, 164, 170, 184, 171, 168, 187, 161, 183, 175, 185, 186, 187, 164, 165, 175, 162, 188, 169, 163, 166, 172, 173, 167, 174, 176, 178, 179, 177 Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras simples, gráfico de sectores o circular (pastel), gráfico de barras múltiples, gráfico de barras compuestas, histograma, polígono de frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple. También haremos una breve referencia a otros tipos de gráfico utilizados en ciertos temas del campo de la Medicina, como son los gráficos semilogarítmicos, los probabilístico y los logísticos Veamos primeramente algunos principios comunes en la construcción de gráficos:
En su gran mayoría los gráficos se inscriben en un sistema de ejes coordenados, siendo el circular o de sectores una excepción. En uno de los ejes se representan las frecuencias observadas o los valores calculados a partir de los datos, mientras que en el otro se representa el criterio principal de clasificación (que aparece en el talón de la tabla correspondiente). La escala relativa al eje donde se representan frecuencias debe comenzar en cero. De ser necesario, se puede interrumpir "adecuadamente" la escala. Decimos adecuadamente porque la forma de realizar esa ruptura depende del tipo de gráfico. La longitud de un eje debe ser, aproximadamente, entre una vez y una vez y media la del otro. Esta proporcionalidad es importante, pues garantiza la comparabilidad entre gráficos. Cada eje debe ser rotulado, es decir, indicar que representa, y en caso de que corresponda, la unidad de medida usada. Un gráfico no debe sobrecargarse de líneas o cifras, el solo da la idea general del fenómeno, pues los detalles están representados en la tabla correspondiente 2.-Componentes deun gráfico. Un gráfico, al igual que una tabla, está compuesto de las partes siguientes: a.- Identificación del gráfico. b.- Título del gráfico. c.- Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta). d.- Pie del gráfico. Las características de estos componentes, salvo el gráfico propiamente dicho, son las mismas de dichos componentes en la tabla o cuadro estadístico, así que no insistiremos en ellas y pasaremos directamente a discutir la construcción de los diferentes tipos de gráficos. Debemos hacer una aclaración antes de continuar. En la actualidad es muy infrecuente encontrar un gráfico hecho a mano. Generalmente se emplean sistemas graficadores de microcomputadoras. Esto no invalida la necesidad de conocer las reglas y convenciones establecidas con respecto a la confección de los mismos. Dada la enorme libertad que brindan algunos de esos sistemas, en más de una oportunidad hemos visto gráficos confeccionados por estos medios que presentan errores, entre otras cosas, por seleccionar un tipo de gráfico no adecuado para la información que se desea representar (4, 5). 3.- Diferentes tipos de gráficos. a) Gráfico de barras simples. Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:
Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras. El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio "a priori" de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados. b) Gráfico circular, de sectores o pastel. El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):
Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. c) Gráfico de barras múltiples. Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas. Veamos un ejemplo de este tipo de gráfico:
Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los "tríos" de barras. d) Gráfico de barras compuestas. Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.
Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras simples, gráfico de sectores o circular (pastel), gráfico de barras múltiples, gráfico de barras compuestas, histograma, polígono de frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple. También haremos una breve referencia a otros tipos de gráfico utilizados en ciertos temas del campo de la Medicina, como son los gráficos semilogarítmicos, los probabilístico y los logísticos (2). Veamos primeramente algunos principios comunes en la construcción de gráficos: 剅 n su gran mayoría los gráficos se inscriben en un sistema de ejes coordenados, siendo el circular o de sectores una excepción. En uno de los ejes se representan las frecuencias observadas o los valores calculados a partir de los datos, mientras que en el otro se representa el criterio principal de clasificación (que aparece en el talón de la tabla correspondiente). La escala relativa al eje donde se representan frecuencias debe comenzar en cero. De ser necesario, se puede interrumpir "adecuadamente" la escala. Decimos adecuadamente porque la forma de realizar esa ruptura depende del tipo de gráfico. La longitud de un eje debe ser, aproximadamente, entre una vez y una vez y media la del otro. Esta proporcionalidad es importante, pues garantiza la comparabilidad entre gráficos. Cada eje debe ser rotulado, es decir, indicar que representa, y en caso de que corresponda, la unidad de medida usada. Un gráfico no debe sobrecargarse de líneas o cifras, el solo da la idea general del fenómeno, pues los detalles están representados en la tabla correspondiente (3). 2.- Componentes de un gráfico. Un gráfico, al igual que una tabla, está compuesto de las partes siguientes: a.- Identificación del gráfico. b.-Títulodelgráfico. c.- Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta). d.- Pie del gráfico. Las características de estos componentes, salvo el gráfico propiamente dicho, son las mismas de dichos componentes en la tabla o cuadro estadístico, así que no insistiremos en ellas y pasaremos directamente a discutir la construcción de los diferentes tipos de gráficos. Debemos hacer una aclaración antes de continuar. En la actualidad es muy infrecuente encontrar un gráfico hecho a mano. Generalmente se emplean sistemas graficadores de microcomputadoras. Esto no invalida la necesidad de conocer las reglas y convenciones establecidas con respecto a la confección de los mismos. Dada la enorme libertad que brindan algunos de esos sistemas, en más de una oportunidad hemos visto gráficos confeccionados por estos medios que presentan errores, entre otras cosas, por seleccionar un tipo de gráfico no adecuado para la información que se desea representar (4, 5). 3.- Diferentes tipos de gráficos. a) Gráfico de barras simples. Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:
Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras. El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio "a priori" de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados. b) Gráfico circular, de sectores o pastel. El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):
Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. c) Gráfico de barras múltiples. Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas. Veamos un ejemplo de este tipo de gráfico:
Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los "tríos" de barras. d) Gráfico de barras compuestas. Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.
Tablas de doble entrada: También llamadas tablas de contingencias, son aquellas tablas de datos referentes a dos variables, formada, en las cabeceras de las filas, por las categorías o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o numero de elementos que reúnen a la vez las dos categorías o valores de las dos variables que se cruzan en cada casilla. Para la tabulación de un material agrupado de observaciones simultáneas de dos variables aleatorias necesitaremos una tabla descrita como anteriormente lo describimos, las reglas para agrupar son las mismas que en el caso de una sola variable. Este tipo de tablas brindan información estadística de dos eventos relacionados entre sí, es útil en casos en los cuales los experimentos son dependientes de otro experimento, mas adelante aparecen mas aplicaciones del análisis estadístico bivariable. Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras simples, gráfico de sectores o circular (pastel), gráfico de barras múltiples, gráfico de barras compuestas, histograma, polígono de frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple. También haremos una breve referencia a otros tipos de gráfico utilizados en ciertos temas del campo de la Medicina, como son los gráficos semilogarítmicos, los probabilístico y los logísticos Veamos primeramente algunos principios comunes en la construcción de gráficos:
剅 n su gran mayoría los gráficos se inscriben en un sistema de ejes coordenados, siendo el circular o de sectores una excepción. En uno de los ejes se representan las frecuencias observadas o los valores calculados a partir de los datos, mientras que en el otro se representa el criterio principal de clasificación (que aparece en el talón de la tabla correspondiente). La escala relativa al eje donde se representan frecuencias debe comenzar en cero. De ser necesario, se puede interrumpir "adecuadamente" la escala. Decimos adecuadamente porque la forma de realizar esa ruptura depende del tipo de gráfico. La longitud de un eje debe ser, aproximadamente, entre una vez y una vez y media la del otro. Esta proporcionalidad es importante, pues garantiza la comparabilidad entre gráficos. Cada eje debe ser rotulado, es decir, indicar que representa, y en caso de que corresponda, la unidad de medida usada. Un gráfico no debe sobrecargarse de líneas o cifras, el solo da la idea general del fenómeno, pues los detalles están representados en la tabla correspondiente (3). 2.- Componentes de un gráfico. Un gráfico, al igual que una tabla, está compuesto de las partes siguientes: a.- Identificación del gráfico. b.- Título del gráfico. c.- Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta). d.- Pie del gráfico. Las características de estos componentes, salvo el gráfico propiamente dicho, son las mismas de dichos componentes en la tabla o cuadro estadístico, así que no insistiremos en ellas y pasaremos directamente a discutir la construcción de los diferentes tipos de gráficos. Debemos hacer una aclaración antes de continuar. En la actualidad es muy infrecuente encontrar un gráfico hecho a mano. Generalmente se emplean sistemas graficadores de microcomputadoras. Esto no invalida la necesidad de conocer las reglas y convenciones establecidas con respecto a la confección de los mismos. Dada la enorme libertad que brindan algunos de esos sistemas, en más de una oportunidad hemos visto gráficos confeccionados por estos medios que presentan errores, entre otras cosas, por seleccionar un tipo de gráfico no adecuado para la información que se desea representar (4, 5). 3.- Diferentes tipos de gráficos. a) Gráfico de barras simples. Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:
Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras. El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio "a priori" de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados b) Gráfico circular, de sectores o pastel.
El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):
Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. c) Gráfico de barras múltiples. Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas Veamos un ejemplo de este tipo de gráfico:
Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los "tríos" de barras. d) Gráfico de barras compuestas. Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio
de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.
1. Métodos gráficos: Primero definiré lo que es un gráfico o diagrama en estadística Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para representar, bien datos estadísticos a escala o según una cierta proporción, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación. Entre las funciones que cumplen los diagramas se pueden señalar las siguientes: Hacen más visibles los datos, sistemas y procesos Ponen de manifiesto sus variaciones y su evolución histórica o espacial. Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlación entre dos o más variables. Sistematizan y sintetizan los datos, sistemas y procesos. Aclaran y complementan las tablas y las exposiciones teóricas o cuantitativas. Algunos de los diagramas más importantes son el diagrama en árbol, diagrama de áreas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histograFIA El estudio de su disposición y de las relaciones que muestran puede sugerir hipótesis nuevas. mas y gráficos de caja y bigote o boxplots. 2.1 Gráficos invariados: Para trabajar los gráficos invariables debemos primero saber lo que es el análisis estadístico invariable y después de esto trabajaremos los métodos pedidos El análisis estadístico que opera con datos referentes a una sola variable o distribución de frecuencias y pretende determinar sus propiedades estadísticas. El a.e.u. proporciona al analista medidas representativas de la distribución o promedios, índices de dispersión de los datos de la distribución, procedimientos para normalizar los datos, medidas de desigualdad de unos datos en relación con otros y por ultimo medidas de la asimetría de la distribución. Gráficos de puntos: Es una variación del diagrama lineal simple el cual esta formado por líneas rectas o curvas, que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia.
Cuando la muestra se agrupa por intervalos se trabaja con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo EJ: Duración de tubos de neón Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras simples, gráfico de sectores o circular (pastel), gráfico de barras múltiples, gráfico de barras compuestas, histograma, polígono de frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple. También haremos una breve referencia a otros tipos de gráfico utilizados en ciertos temas del campo de la Medicina, como son los gráficos semilogarítmicos, los probabilístico y los logísticos (Explicar los elementos básicos necesarios a tener en cuenta para realizar una correcta representación gráfica de los datos. Veamos primeramente algunos principios comunes en la construcción de gráficos: 剅 n su gran mayoría los gráficos se inscriben en un sistema de ejes coordenados, siendo el circular o de sectores una excepción. En uno de los ejes se representan las frecuencias observadas o los valores calculados a partir de los datos, mientras que en el otro se representa el criterio principal de clasificación (que aparece en el talón de la tabla correspondiente). La escala relativa al eje donde se representan frecuencias debe comenzar en cero. De ser necesario, se puede interrumpir "adecuadamente" la escala. Decimos adecuadamente porque la forma de realizar esa ruptura depende del tipo de gráfico. La longitud de un eje debe ser, aproximadamente, entre una vez y una vez y media la del otro. Esta proporcionalidad es importante, pues garantiza la comparabilidad entre gráficos. Cada eje debe ser rotulado, es decir, indicar que representa, y en caso de que corresponda, la unidad de medida usada. Un gráfico no debe sobrecargarse de líneas o cifras, el solo da la idea general del fenómeno, pues los detalles están representados en la tabla correspondiente. 2.-Componentes de un gráfico. Un gráfico, al igual que una tabla, está compuesto de las partes siguientes: a.- Identificación del gráfico. b.- Título del gráfico. c.- Cuerpo del gráfico o gráfico propiamente dicho (incluye la clave o leyenda de ser necesaria esta). d.- Pie del gráfico. Las características de estos componentes, salvo el gráfico propiamente dicho, son las mismas de dichos componentes en la tabla o cuadro estadístico, así que no insistiremos en ellas y pasaremos directamente a discutir la construcción de los diferentes tipos de gráficos. Debemos hacer una aclaración antes de continuar. En la actualidad es muy infrecuente encontrar un gráfico hecho a mano. Generalmente se emplean sistemas graficadores de microcomputadoras. Esto no invalida la necesidad de conocer las reglas y convenciones establecidas con respecto a la confección de los mismos. Dada la enorme libertad que brindan algunos de esos sistemas, en más de una oportunidad hemos visto gráficos confeccionados por estos medios que presentan errores, entre otras cosas, por seleccionar un tipo de gráfico no adecuado para la información que se desea representar (4, 5). 3.- Diferentes tipos de gráficos. a) Gráfico de barras simples. Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:
Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras. El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio "a priori" de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados. b) Gráfico circular, de sectores o pastel. El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):
Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. c) Gráfico de barras múltiples. Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas. Veamos un ejemplo de este tipo de gráfico:
Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los "tríos" de barras. d) Gráfico de barras compuestas. Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.
Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los límites de los intervalos y el centro de cada intervalo es la marca de clase, que representamos en el eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo. Esta proporcionalidad se aplica por medio de la siguiente formula Altura del rectángulo = frecuencia relativa/longitud de base El histograma se usa para representar variables cuantitativas continuas que han sido agrupadas en intervalos de clase, la desventaja que presenta que no funciona para variables discretas, de lo contrario es una forma útil y practica de mostrar los datos estadísticos. EJ: EJ: Agrupar en una tabla de datos 10, 1, 6, 9, 2, 5, 7, 4, 3, 8
X
1
2
3
4
5
6
7
8
9
10
Tablas de frecuencias: Una tabla de frecuencia esta formada por las categorías o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribución de frecuencias. Esta tabla se crea por medio de la tabulación y agrupación, la cual es un método sencillo como lo habíamos empezado a ver en la tabla de datos, Se realiza el mismo procedimiento de tabulación anteriormente descrito si el numero de valores observados para la variable, se trabaja con una sola variable, descontando los repetidos son pequeños, si existen repetidos la frecuencia f es el numero de repeticiones de un valor de X dado, Sin embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algún tipo de agrupación como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupación son diferentes según sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de X en las observaciones. Para una variable continua, el procedimiento de agrupación es algo más complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga los n valores observados, y divídase el intervalo en cierto numero de intervalos de clase. Todas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y él numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias. Estas clases de tablas son las mas usadas y brindan mayor información de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dará en forma abreviada, una información completa acerca de la distribución de los valores observados. Con estas se pueden utilizar mas a fondo los métodos gráficos al igual que los métodos aritméticos. Ej: Agrupar en una tabla 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5
X
F
1
2
2
4
3
3
4
1
5
1
S 11
Agrupar en una tabla las siguientes estaturas: 160, 168, 175, 183, 170, 164, 170, 184, 171, 168, 187, 161, 183, 175, 185, 186, 187, 164, 165, 175, 162, 188, 169, 163, 166, 172, 173, 167, 174, 176, 178, 179, 177
X
F
160-165 6
265-270 6
170-175 6
175-180 7
180-185 3
185-190 5
S 33
Tablas de doble entrada: También llamadas tablas de contingencias, son aquellas tablas de datos referentes a dos variables, formada, en las cabeceras de las filas, por las categorías o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o numero de elementos que reúnen a la vez las dos categorías o valores de las dos variables que se cruzan en cada casilla. Para la tabulación de un material agrupado de observaciones simultaneas de dos variables aleatorias necesitaremos una tabla descrita como anteriormente lo describimos, las reglas para agrupar son las mismas que en el caso de una sola variable. Este tipo de tablas brindan información estadística de dos eventos relacionados entre sí, es útil en casos en los cuales los experimentos son dependientes de otro experimento, mas adelante aparecen mas aplicaciones del análisis estadístico bivariable. Ej:
T1/T2 SÍ
NO
SÍ
12
2
NO
10
4
Métodos gráficos: Primero definiré lo que es un gráfico o diagrama en estadística Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para representar, bien datos estadísticos a escala o según una cierta proporción, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación. Entre las funciones que cumplen los diagramas se pueden señalar las siguientes:
-Hacen más visibles los datos, sistemas y procesos
Ponen de manifiesto sus variaciones y su evolución histórica o espacial.
Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlación entre dos o más variables.
Sistematizan y sintetizan los datos, sistemas y procesos.
Aclaran y complementan las tablas y las exposiciones teóricas o cuantitativas.
El estudio de su disposición y de las relaciones que muestran pueden sugerir hipótesis nuevas. Algunos de los diagramas más importantes son el diagrama en árbol, diagrama de áreas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histogramas y gráficos de caja y bigote o boxplots. 2.1 Gráficos univariados: Para trabajar los gráficos univariables debemos primero saber lo que es el análisis estadístico univariable y después de esto trabajaremos los métodos pedidos El análisis estadístico que opera con datos referentes a una sola variable o distribución de frecuencias y pretende determinar sus propiedades estadísticas. El a.e.u. proporciona al analista medidas representativas de la distribución o promedios, índices de dispersión de los datos de la distribución, procedimientos para normalizar los datos, medidas de desigualdad de unos datos en relación con otros y por ultimo medidas de la asimetría de la distribución.
Gráficos de puntos: Es una variación del diagrama lineal simple el cual esta formado por líneas rectas o curvas, que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuenciapara este valor. Proporciona principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia. Cuando la muestra se agrupa por intervalos se trabaja con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo EJ: Duración de tubos de neón
X(horas)
Xm
F
300-400
350
2
400-500
450
6
500-600
550
10
600-700
650
8
700-800
750
4
S 30
Diagramas de barras: nombre que recibe el diagrama utilizado para representar gráficamente distribuciones discretas de frecuencias no agrupadas. Se llama así porque las frecuencias de cada categoría de la distribución se hacen figurar por trazos o columnas de longitud proporcional, separados unos de otros. Existen tres principales clases de gráficos de barras:
Barra simple: se emplean para graficar hechos únicos
Barras múltiples: es muy recomendable para comprar una serie estadística con otra, para ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado de la otra
Barras compuestas: en este método de graficacion las barras de la segunda serie se colocan encima de las barras de la primera serie en forma respectiva. El diagrama de barras proporciona información comparativa principalmente y este es su uso principal, este diagrama también muestra la información referente a las frecuencias Ej:
CIUDAD
TEMPERATURA
A
12
B
18
C
24
TIENDA
Enero
Febrero Marzo
abril
mayo
Junio
A
800
600
700
900
1100
1000
B
700
500
600
1000
900
1200
Histogramas: Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los intervalos y el centro de cada intervalo es la marca de clase, que representamos en el eje de las abscisas. La altura de cada rectángulo es proporcional a la frecuencia del intervalo respectivo. Esta proporcionalidad se aplica por medio de la siguiente formula Altura del rectángulo = frecuencia relativa/longitud de base El histograma se usa para representar variables cuantitativas continuas que han sido agrupadas en intervalos de clase, la desventaja que presenta que no funcionapara variables discretas, de lo contrario es una forma útil y practica de mostrar los datos estadísticos. Ejempl
X
Xm
F
118-126
122
2
126-134
130
3
134-142
138
8
142-150
146
12
150-158
154
7
158-166
162
5
166-174
170
2
174-182
178
1
S 40
Gráficos de sectores: es un gráfico que se basa en una proporcionalidad entre la frecuencia y el ángulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo central de 360°. Para construir se aplica la siguiente formula: X = frecuencia relativa * 360°/S frecuencia relativa Este se usa cuando se trabaja con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la ventaja que tiene este diagrama es que es fácil de hacer y es entendible fácilmente, la desventaja que posee es que cuando los valores de la variable son muchos es casi imposible o mejor dicho no informa mucho este diagrama y no es productivo, proporciona principalmente información acerca de las frecuencias de los datos de una manera entendible y sencilla.EJ: Representar mediante un gráfico de sectores la frecuencia con que aparece cada una de las cinco vocales en el presente párrafo:
Vocal
a
e
i
o
u
Frecuencia
13
20
4
6
3
S 46
Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras simples, gráfico de sectores o circular (pastel), gráfico de barras múltiples, gráfico de barras compuestas, histograma, polígono de frecuencias, gráfico de frecuencias acumuladas y gráfico aritmético simple. También haremos una breve referencia a otros tipos de gráfico utilizados en ciertos temas del campo de la Medicina, como son los gráficos semilogarítmicos, los probabilísticas y los logísticos ( Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Un ejemplo de este tipo de gráfico es el que se presenta a continuación:
Cada clase se representa con una barra o rectángulo cuya altura (si el eje de frecuencias es el vertical) resulta proporcional a la frecuencia que representa. Todas las barras deben tener el mismo grosor y el espacio entre barras debe ser el mismo, teniendo un ancho de 0,5 a 1 vez el de las barras. El orden de las barras en el gráfico debe ser el mismo que en la tabla que le sirve de fuente. Por ello, si no existe un criterio "a priori" de orden entre las clases establecidas, pueden ordenarse las mismas (y, como es lógico, las barras en el gráfico) en orden ascendente o descendente de las frecuencias, para facilitar la interpretación de esos resultados) Gráfico circular, de sectores o pastel. El gráfico siguiente es un ejemplo típico de gráfico circular (confeccionado con los mismos valores del gráfico anterior):
Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12 en el reloj). Si lo que se representa en cada sector no puede colocarse dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples. c) Gráfico de barras múltiples. Se usa para representar las frecuencias observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de
construcción es similar a la del gráfico de barras simples, sólo que en este caso se representan dos variables. El hecho de ser doble, triple, cuádruple, etc., parte del número de clases que tenga la variable, que no es el criterio principal de clasificación. Las barras que integran una barra múltiple se colocan juntas o ligeramente solapadas. Veamos un ejemplo de este tipo de gráfico:
Este es un gráfico de barras triples. En la leyenda aparece el criterio de clasificación que complementa al que aparece en el eje de categorías. Note la separación entre los "tríos" de barras. d) Gráfico de barras compuestas. Su objetivo es la representación de las frecuencias relativas (%) observadas en clasificaciones dobles, es decir, cuando son dos los criterios de clasificación, para variables cualitativas o cuantitativas discretas. Su forma de construcción es la siguiente: cada barra representa el 100 % de los individuos en cada clase del criterio principal de clasificación y se divide, proporcionalmente, en los por cientos correspondientes a las clases del otro criterio de clasificación. Como es lógico, las diferentes partes en que se dividen las barras compuestas se diferencian con tramas o colores diferentes.
Medidas de Tendencia Central y de Dispersión para un grupo de 20 datos Datos a utilizar
: Selecciona las medidas que deseas sean calculadas:
Tipos de gráficos Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.
En el eje horizontal (o de las abscisas) se representan los intervalos
http://www.monografias.com/trabajos81/presentacion-datos-estadisticos/presentacion-datos-estadisticos3.shtml