La estadística descriptiva es una gran parte de la estadística la estadística que que se dedica a recolectar, orde or dena narr, an anal aliz izar ar y re repr pres esen enta tarr un co conj njun unto to de da dato tos, s, co con n el fi fin n de de desc scri ribi bir r apropiadamente las características de este. comprende aquellas técnicas que se
usan pa usan para ra res esum umir ir la in info forrma maci ción ón (l (lar arga gas s li list stas as de va valo lorres es)) pa para ra prop pr opor orci ciona onarr ín índic dices es si simp mple les s y co comp mprren ensib sible les s y, por lo ta tanto nto,, pa para ra facilit fac ilitar ar des descri cripcio pciones nes y com compar paracio aciones nes,, hac hacién iéndolo dolo de la for forma ma más exacta posible. n estadística se denomina !oblación al con"unto de seres u ob"etos acerca de los que se desea tener información, (#o pensar siempre en personas$ el e"emplo de todos los cantos de una terra%a que veíamos antes, o también la ganadería ovina de la !.&., o la población votante de un pueblo, o el parcelario agrario de un municipio si quiero estudiar su estructura...). 'e conoce como &ndividuo o elemento de una población a cada uno de los miembros de esa población. os elementos de la población se llaman individuos debido al origen demográco de esta ciencia, también lo podéis encontrar referidos como unidades estadísticas. *uestra$ subcon"unto de esa población (al que sometemos a un verdadero análisis). l n+mero de elementos de una muestra se denomina tamao.(e". cantos de una terra%a). 'e denomina -ariable estadística o simplemente variable a cada una de las características o atributos que se miden en los individuos de una población.", aos de edad, talla, diámetro de los cantos, estado civil, el peso de la ganadería ovina.... as variables estadísticas presentan modalidades o valores, que son las diferentes manifestaciones de una variable. 'e distinguen dos tipos principales de variables (seg+n el valor que puedan adoptar)$ cuantitativas y cualitativas a) Cuantitativas *iden alguna cualidad o atributo cuanticable de los individuos. (/0-alor numérico). sa cualidad puede ser numerable , como el n+mero de hi"os de una familia, con lo que tendríamos entonces una variable cuantitativa discreta o medible, como la supercie de una parcela, dando lugar a una variable cuantitativa continua. as variables discretas, al ser numerables, pueden tomar una serie de valores determinados, pero no los valores intermedios. !or e"emplo, el n+ mero de cabe%as de ganado de una explotación puede ser 12 ó 13 pero no 12,1. as variables continuas, las que hemos denido como aquellas medibles, pueden tomar innitos valores dentro de un campo de variación. 4l
menos en teoría puede tomar cualquier valor entre dos valores determinados, por e"emplo una persona que pese entre 51 y 55 6ilos podemos suponer puede pesar cualquier n+mero de 6ilos comprendidos entre 51 y 55 (p.e. 51,781...). b) Cualitativas 'e reeren a los aspectos no medibles o cualidades de los individuos (e". sexo, estado civil, ...). as variables cualitativas toman valores que no pueden ser ordenados ni operados conforme a las reglas aritméticas9 a estos valores se les suele denominar modalidades. n el caso del estado civil :cuáles serían las modalidades;$ soltero
para las cualitativas) as variables cualitativas pueden también clasicarse en 8 grupos seg+n su =nivel de medición> (nivel de información que ofrecen)$ a) #ominal s el nivel de medición más simple y permite la clasicación de los individuos u ob"etos en clases o categorías meramente descriptivas, que deben ser exhaustivas y mutuamente excluyentes. ". lugar de nacimiento, sexo, estado civil, color de coche... b) ?rdinal s el nivel inmediatamente superior al anterior, pues además de clasicar, ordena seg+n se posea en mayor o menor grado la característica que se pretenda medir. !or lo tanto, ordena las categorías y establece un rango. 'e trata de variables cuyos valores pueden ser ordenados de mayor a menor. 'upongamos, por e"emplo, que preguntamos a un con"unto de personas sus preferencias sobre cinco localidades andalu%as en las que les gustaría veranear. stas personas podrían responder$ 3 *arbella 8 *álaga 7 'evilla @ Aádi% 1 Branada. La estadística descriptiva o análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y medidas resúmenes. En este capítulo presentaremos formas simples de resumir y representar gráficamente conjuntos de datos. El objetivo de construir gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del tipo de variable que nos interese representar por esa razn distinguiremos en la presentacin gráficos para variables categricas y para variables numéricas.
3.1 PRESENTACIÓN DE DATOS CATEGÓRICOS 3.1.1 TABLA DE FRECUENCIA El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis que caen en cada una de las clases de la variable cualitativa. abla !. "otificaciones de meningitis en la #rgentina, a$o %&&&. 'uente( !otacin
!umero de notificaciones
"recuencia
&eningitis )*+ bacteriana sin aislar 'aemop(ilus ' infuenzae &eningitis &-) tuberculosa !eisseria !& meningitidis -otal país
#frecuencia$
relativa #%$
/
55.36 %
0
1.2 %
12
7.32 %
34
56.76 %
CD5
322E
3.1.2 GRÁFICO DE BARRAS Este gráfico es útil para representar datos categóricos nominales u ordinales. # cada categoría o clase de la variable se le asocia una barra cuya altura representa la frecuencia o la frecuencia relativa de esa clase. Las barras difieren sólo en altura, no en anc)o. La escala en el eje )orizontal es arbitraria y en general, las barras se dibujan equiespaciadas, por esta razón este tipo de gráfico sólo debe usarse para variables categóricas. Es importante que el eje vertical comience en cero, de modo que no se e*ageren diferencias entre clases. En un gráfico de barras, así como en cualquier tipo de gráfico se debe indicar el número total de datos ya que el gráfico sólo muestra porcentajes o frecuencias relativas y la fuente de la que se obtuvieron los mismos.
3.1.3 GRÁFICO DE TORTAS
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se correponde con la frecuencia relativa correspondiente. +omo en todo gráfico es importante indicar el número total de sujetos. Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en % o más grupos.
3.2 REPRESENTACIÓN GRÁFICA DE UN ÚNICO CONJUNTO DE DATOS NUMÉRICOS 3.2.1 GRÁFICO DE TALLOS Y HOJAS (STEM AND LEAF) Esta tcnica gráfica desarrollada por u-ey es muy sencilla y permite mostrar la forma de la distribución de una variable numérica .
Es apropiada para conjuntos
de observaciones no muy e*tensos. eparamos cada observación en dos porciones, #LL/ y 0/1#. En general, el tallo tendrá tantos dígitos como sea necesario, pero las )ojas contendrán un único dígito. En nuestro ejemplo podemos elegir el dígito correspondiente a la unidad como tallo y el primer dígito despus de la unidad 2dcima3. #LL/ 0/1# %. e listan los tallos verticalmente en orden creciente y se tr aza una línea vertical a la derec)a de los tallos.
4. # continuación de cada tallo se agregan las )ojas correspondientes en la misma línea, arreglándolas de menor a mayor. e debe tomar una decisión sobre qu se )ará con el dígito posterior a la )oja, si se truncará o se redondeará, poco se pierde truncando y esta última opción )ace más simple volver a la lista de datos a partir del gráfico. Los tallos que no están acompa$ados con )ojas tambin se representan, de este modo se respeta la escala de los datos. eleccionando como tallo la unidad se obtiene el siguiente gráfico.
3.2.2 HISTOGRAMA El )istograma es el más conocido de los gráficos para resumir un conjunto de datos numricos y petende responder a las mismas preguntas que un gráfico de tallo5)ojas. 6na virtud del gráfico de tallo5)ojas es que retiene los valores de las observaciones, sin embargo, esta característica puede ser una desventaja para gran cantidad de datos. +onstruir manualmente un )istograma es más laborioso que construir un gráfico de tallo)ojas, pero la mayoría de los paquetes estadísticos producen )istogramas.
3.2.3 POLGONO DE FRECUENCIAS El polígono de frecuencias es similar al )istograma en muc)os aspectos, pero pretende dar una imagen apro*imada de la 7curva8 definida por la distribución de la variable. 9ara cosntruirlo se usan los mismos ejes que en el )istograma. e indica en la escala )orizontal el punto medio de cada intervalo y en la escala vertical la escala densidad para ese intervalo, esto define pares 2*, y3 en el gráfico que se unen con tramos de líneas rectas. e marcan además los puntos medios del intervalo que precede al primero y del que sigue al último.
GRÁFICOS ENGA!OSOS # menudo los gráficos que se presentan son enga$osos, es decir, no reflejan adecuadamente los resultados o e*ageran ciertas características de los datos. :eremos algunas situaciones.