Facultad de Ingeniería y Arquitectura
2013
Análisis de Varianza Introducción
Al estudiar los métodos de análisis de datos cuantitativos, primero se trataron problemas que implican una sola muestra de números y luego se abordó al análisis comparativo de dos muestras diferentes. En problemas 1de una muestra, los datos se componían de observaciones sobre respuestas de individuos u objetos experimentales seleccionados de una sola población. En problemas de dos muestras, las dos muestras se tomaron de dos poblaciones diferentes y los parámetros de interés fueron las medias de la población o bien se aplicaron dos tratamientos distintos a unidades experimentales (individuos u objetos) seleccionados de una una sola población; en el último caso, los parámetros de interés fueron las medias de tratamientos verdaderas. El análisis de varianza , o más brevemente, ANOVA, se refiere en general a un conjunto de situaciones experimentales y procedimientos estadísticos para el análisis de respuestas cuantitativas de unidades experimentales. El problema ANOVA más simple se cómo indistintamente como unifactorial, de clasificación única o ANOVA unidireccional e implica el análisis de datos muestreados muestreados de más de dos poblaciones (distribuciones) (distribuciones) numéricas o de de datos de experimentos en los cuales se utilizaron más de dos tratamientos. La característica que diferencia los tratamientos o poblaciones una de otra se llama factor en estudio y los distintos tratamientos o poblaciones se conoce como niveles del factor. Ejemplo de tales situaciones incluyen los siguientes: 1. Un experimento para estudiar los efectos de cinco marcas diferentes de gasolina con respecto a la eficiencia de operación oper ación de un motor automotriz (mpg). 2. Un experimento para estudiar los efectos de la presencia de cuatro soluciones azucaradas diferentes (glucosa, sacarosa, fructuosa y una mezcla de las tres) en cuanto a crecimiento de bacterias. 3. Un experimento para investigar si la concentración de madera dura en la pulpa (%) afecta la resistencia a la tensión de bolsas hechas de la pulpa. 4. Un experimento para decidir su la densidad de color de un espécimen de tela depende de la cantidad de tinte utilizado. En el 1) factor de interés es la marca de la gasolina y existen cinco niveles diferentes del factor. En el 2) el factor es el azúcar con cuatro niveles (o cinco, si se utiliza una solución de control que no contenga azúcar). Tanto en 1) como en 2), el factor es de naturaleza cualitativa y los niveles corresponden a posibles categorías del factor. En 3) y 4), los factores son concentraciones de madera dura y cantidad de tinte, respectivamente, estos dos factores son de naturaleza cuantitativa, por lo que los niveles identifican diferentes ajustes del factor. Cuando el factor de interés es cuantitativo, también se pueden utilizar técnicas e stadísticas de análisis de regresión.
Facultad de Ingeniería y Arquitectura
2013
ANOVA unifactorial El ANOVA es unifactorial se enfoca en la comparación de más de dos medias de población o tratamiento. Sean K = el número de poblaciones o tratamientos que se están comparando. µ1 = la media de la población 1 o la respuesta promedio verdadera cuando se aplica el tratamiento 1. ……
µk = la media de la población ‘k’ o la respuesta promedio verdadera cuando se aplica el tratamiento k. Las hipótesis pertinentes son Ho: µ1 = µ2 =… = µ k Contra Ha: por lo menos dos de las µ k son diferentes. (µ1 ≠ µ2 ≠ µ3 ≠… ≠ µk ) La ecuación lineal que representa el modelo del análisis de varianza de una vía es:
Xik = µ + τk + ξik Tabla ANOVA
Fuente de Variación
Suma de los cuadrado. SC
Grados de libertad. gl
Media cuadrática. MC
Entre grupos de tratamiento A
∑()
k-1
Error
N-k
Total
∑∑
N-1
Relación F
Grados de Libertad: Ft = (v1 , v2; 1 - α ) (v1 = k-1, v2 = N-k, 1 – α), si Fc > Ft entonces se acepta
la hipótesis alternativa y rechazamos la hipótesis nula.
Facultad de Ingeniería y Arquitectura
2013
Ejercicios: 1. Se compararon tres métodos de separación en cierto proceso químico para estudiar sus
efectos sobre la producción. Se hicieron tres operaciones con cada método, y las producciones, en porcentaje de un máximo teó rico, son los siguientes: Método A
84.6
83.3
85.1
Método B
87.3
85.9
88.2
87.2 86 86.3 Método C Construya una tabla ANOVA, y ¿Qué hipótesis aceptará? ¿Puede concluir que hay diferencia entre las medias de las producciones? 2. En el artículo “Calibration of an FTIR Spectrometer”, se usa un espectrómetro para hacer
cinco mediciones del contenido de carbono (en ppmm) de cierta placa de silicio en cuatro días consecutivos. Los resultados son: Día 1
258
390
380
372
366
Día 2
373
376
413
367
368
Día 3
336
360
370
368
352
Día 4 368 359 351 349 343 Construya una tabla ANOVA, y ¿Qué hipótesis aceptara? 3. La eliminación de nitrógeno de amoniaco es un aspecto importante del tratamiento de
filtraciones en basureros. Durante varios días se registró la tasa de eliminación (en % por día) para cada uno de los diferentes métodos de tratamiento. Los resultados se presentan en la tabla siguiente. Tratamiento
Tasa de eliminación
A
5.21
4.65
B
5.59
2.69
7.57
C
6.24
5.94
6.41
D
6.85
9.18
4.94
E
4.04
3.29
4.52
5.16 3.75
Construya una tabla ANOVA ¿Puede concluir que los métodos de tratamiento difieren en sus tasas de eliminación? 4.
Se analizaron seis muestras de cada uno de cuatro tipos de crecimiento de granos de cereal en una región para determinar el contenido de tiamina y se obtuvieron los siguientes resultados (µg/g): Trigo
5.2
4.5
6
6.1
6.7
5.8
Cebada
6.5
8
6.1
7.5
5.9
5.6
Maíz
5.8
4.7
6.4
4.9
6
5.2
8.3 6.1 7.8 7 5.5 7.2 ¿Sugieren estos datos que por lo menos dos de los granos difieren con respecto al Avena
contenido de tiamina promedio verdadero? Use un nivel de alfa de 0.05.
Facultad de Ingeniería y Arquitectura
2013
5. Los datos siguientes se refieren a la cosecha de tomates (kg/parcela) con cuatro niveles de
salinidad diferentes; el nivel de salinidad aquí se refiere a la conductividad eléctrica (CE), donde los niveles seleccionados fueron CE = 1.6; 3.8; 6.0 y 10.2 nmhos/cm: 1.6
59.5
53.3
56.8
63.1
3.8
55.2
59.1 52.8
54.5
6
51.7
48.8
53.9
58.7
49
10.2 44.6 48.5 41 47.3 46.1 Use la prueba F al nivel de alfa de 0.05 para probar en cuanto a cualquier diferencia en la cosecha promedio verdadera debido a los distintos niveles de salinidad. 6. Aun cuando el té es la bebida que más se consume en el mundo después del agua, se sabe
poco sobre su valor nutricional. La folacina es la única vitamina B presente en cualquier cantidad significativa de té y avances recientes en métodos de ensayo han determinado con precisión el contenido de folacina factible. Considere los datos adjuntos sobre contenido de folacina en especímenes seleccionados al azar de las cuatro marcas líderes de té verde. Marca
Observaciones
1
7.9
6.2
6.6
8.6
8.9
2
5.7
7.5
9.8
6.1
8.4
3
6.8
7.5
5
7.4
5.3
6.1
4
6.4
7.1
7.9
4.5
5
4
10.1
9.6
¿Sugiere estos datos que el contenido de folacina promedio verdadero es el mismo para toda las marcas? 7. Se quiere estudiar el efecto de distintas dosis de un medicamento para combatir a los
parásitos de peces criados en acuicultura. Para ello, se tomaron 60 peces al azar, y se dividieron en 5 grupos de 12 individuos cada uno. El primer grupo no fue medicado, pero a los restantes se les suministró el medicamento en dosis crecientes. Tras una semana de tratamiento, se contabilizaron los parásitos existentes en cada individuo, obteniendo los resultados siguientes: Control
50
65
72
46
38
29
70
85
72
40
57
59
25 mg
49
47
30
62
62
60
19
28
56
62
55
40
50 mg
20
59
64
61
28
47
29
41
60
57
61
38
100 mg
20
23
38
31
27
16
27
18
22
12
24
11
125 mg
18
30
22
26
31
11
15
12
31
36
16
13
Contrastar si el medicamento es efectivo contra los parásitos y si existen diferencias según la dosis aplicada.