TRANSFORMACIÓN DE DATOS Profesor Juan Barile Sanhueza
¿Y si los datos no siguen una distribución normal?... Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadísticas de estimación y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribución de probabilidad de tipo normal. Pero en muchas ocasiones esta suposición no resulta válida, y en otras la sospecha de que no sea adecuada no resulta fácil de comprobar, por tratarse de muestras pequeñas.
En estos casos se disponen de dos posibles mecanismos: • los datos se pueden transformar de tal manera que sigan una distribución normal, • se puede acudir a pruebas estadísticas que no se basan en ninguna suposición en cuanto a la distribución de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramétricas mientras que las pruebas que suponen una distribución de probabilidad determinada para los datos se denominan pruebas paramétricas.
Considerar que: • Los datos transformados son aún los mismos, solamente están expresados en una escala diferente. Por ejemplo, en vez de comparar largos de la concha de caracoles en mm, se comparan largos de concha en unidades de logaritmos de mm. • Si se cambia la escala (transformamos los datos), todas las observaciones, de todos los grupos a comparar deben ser transformadas. Así, si uno de los grupos o nivel de un tratamiento a comparar presenta desviaciones importantes de la normalidad, mientras la distribución en los otros grupos se ve aproximadamente normal. Debemos buscar una transformación que mejore normalidad en todos los grupos.
Procedimientos para verificar el ajuste a una distribución de probabilidad Existen diferentes pruebas para verificar el ajuste de nuestros datos a una distribución de probabilidad. Las más utilizadas son:
• Prueba de Kolmogorov-Smirnov • Prueba de Shapiro-Wilks •Contraste de Pearson
Prueba de Kolmogorov-Smirnov Este contraste, que es válido sólo para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia (D), que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.
Prueba de Shapiro-Wilks Aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<30). Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal. Este tipo de representación también lo proporcionan algunos programas de estadística, de tal manera que nos permite además apreciar el ajuste o desajuste de forma visual:
En escala probabilística normal se representa en el eje horizontal, para cada valor observado en nuestros datos, la función de distribución o probabilidad acumulada observada, y en el eje vertical la prevista por el modelo de distribución normal. Si el ajuste es bueno, los puntos se deben distribuir aproximadamente según una recta a 45º. En la imagen vemos que en este ejemplo existe cierta discrepancia.
Posibles soluciones cuando se rechaza la hipótesis de normalidad Si se rechaza o se duda de la normalidad de los datos, existen varias soluciones posibles: • Si la distribución es más apuntada que la normal (mayor parte de los valores agrupados en torno de la media y colas más largas en los extremos), se debe investigar la presencia de heterogeneidad en los datos y de posibles valores atípicos o errores en los datos. La solución puede ser emplear pruebas no paramétricas.
• Si la distribución es unimodal y asimétrica, la solución más simple y efectiva es utilizar una transformación para convertir los datos en normales. • Cuando la distribución no es unimodal hay que investigar la presencia de heterogeneidad, ya que en estos casos la utilización de transformaciones no es adecuada y los métodos no paramétricos pueden también no serlo.
Transformaciones para conseguir datos normales La utilización de transformaciones para lograr que los datos se ajusten a una distribución normal es en muchas ocasiones la solución más natural, ya que existen gran cantidad de parámetros biológicos que tienen una distribución asimétrica, figura de la izquierda, y que se convierten en aproximadamente simétricas al transformarlas mediante el logaritmo.
La transformación logaritmica (log x) Cuando la desviación típica de los datos es proporcional a la media o cuando el efecto de los factores es multiplicativo, en lugar de aditivo, está indicado el uso de la transformación logarítmica. Si los efectos de los tratamientos son multiplicativos, se producirán grandes diferencias entre las varianzas de los tratamientos. Si la variable contiene valor 0, o incluso si existen valores muy pequeños, será adecuado emplear la transformación ln(x+n). Donde n es 1,2, 3 etc.
Ejemplo A 40 20 30 15 25
B 80 40 60 30 50 Media Desv. típ. Varianza Asimetría Curtosis
El efecto del tratamiento B es multiplicativo,al aplicar el log x cambiará los efectos multiplicativos por efectos aditivos Estadístico Estadístico Estadístico Estadístico Error típico Estadístico Error típico
A B 26,0000 52,0000 9,61769 19,23538 92,500 370,000 ,590 ,590 ,913 ,913 -,022 -,022 2,000 2,000
Log A 1,3908 ,16301 ,027 -,054 ,913 -,498 2,000
Log B 1,6919 ,16301 ,027 -,054 ,913 -,498 2,000
Al aplicar la transformación, las varianzas se han igualado. Puesto que los datos son inventado se obtienen resultados exactos pero con datos reales lo más probable que las varianzas mostrarán algunas veces rangos aceptables de homogeneidad
Otras transformaciones habitualmente empleadas son √x, 1/x y 1/x2, que también precisan sumar una cantidad a cada valor si existen ceros. Estas transformaciones comprimen los valores altos de los datos y expanden los bajos, en el siguiente orden de menor a mayor:√x , ln x, 1/x, 1/x2
Si la concentración de datos en el lado de la derecha y la cola en la izquierda, se puede utilizar la transformación x2, x3 y antilog nombradas de menor a mayor que comprime la escala para valores pequeños y la expande para valores altos. Cuando los datos son proporciones o porcentajes se utilizan las transformaciones basadas en arcoseno. En este caso, si los valores están distribuidos homogéneamente entre 0 y 100% o entre 20 y 80% etc dando una media cercana a 50% no es necesario transformar los datos. Cuando los datos promedios están por sobre o bajo el 50% sea por ejemplo un 30% o un 90% la curva será muy asimétrica y será necesario una transformación de los datos para acercarse a la distribución normal
Ejemplo Por ejemplo tenemos los siguientes porcentajes A 85 82 83 79 B 45 51 50 56 arcosenA 67,2 64,9 65,6 62,7 arcosenB 42,1 45,6 45,0 48,4
81 53 64,2 46,7
78 47 62,0 43,3
80 55 63,4 47,9
88 52 69,7 46,1
Estadísticos descriptivos
Media Desv. típ.
Estadístico Estadístico
Varianza Asimetría
Estadístico Estadístico
Curtosis
Error típico Estadístico Error típico
A 82,0000 3,29502 10,857 ,767 ,752 ,138 1,481
B 51,1250 3,75832 14,125 -,431 ,752 -,601 1,481
arcsenA 64,9625 2,52922 6,397 ,894 ,752 ,450 1,481
arcsenB 45,6375 2,15402 4,640 -,445 ,752 -,562 1,481
Pruebas de normalidad Kolmogorov-Smirnov Estadístico
gl
Shapiro-Wilk Sig.
Estadístico
gl
Sig.
A
,131
8
,200(*)
,957
8
,785
B
,132
8
,200(*)
,965
8
,856
arcsenA
,150
8
,200(*)
,946
8
,667
arcsenB
,134
8
,200(*)
,963
8
,839
* límite inferior de la significación verdadera.
OJO En todos los casos para los cálculos estadísticos basados en la teoría normal, se utilizarán los valores transformados, pero después para la presentación de los resultados se efectuará la transformación inversa para presentarlos en su escala de medida natural.
Pruebas no paramétricas Son aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre. En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. En estos casos se emplea como parámetro de centralización la mediana, que es aquel punto para el que el valor de X está el 50% de las veces por debajo y el 50% por encima.
•Prueba de Wilcoxon de los rangos con signo. Permite comparar nuestros datos con una mediana teórica (ejemplo: un valor publicado en un artículo).
•Prueba de Wilcoxon para contrastar datos pareados •Prueba de Mann-Whitney:para comparar dos series de valores de una variable continua obtenidas en muestras independientes.
•Prueba de Kruskal-Wallis para comparar K muestras •Prueba de Friedman para comparar K muestras pareadas (bloques)
•Coeficiente de correlación de Spearman para rangos
•Prueba de rachas de Wald-Wolfowitz