“REGRESION Y
CORRELACION SIMPLE Y MUL MULTIPLE TIPLE ” Por: Aracelli Aracelli Poèmape 1
•Regresión Regresión y correlación correlación lineal
Simple •Regresión y correlación
lineal Múltiple. 2
•Regresión Regresión y correlación correlación lineal
Simple •Regresión y correlación
lineal Múltiple. 2
3
El objetivo de muchas investigaciones científicas es comprender y explicar las relaciones entre variables .
La importancia de la estadística en la ingeniería, ha sido subrayada por la participación en en la industria, incrementand incrementando o la calidad en sus operaciones y en el producto final
4
CLASIFICACIÓN DE LAS VARIABLES Las variables se clasifican según:
1. Su Naturaleza 2. Su Escala de Medida 3. Su Número 4. Su Relación entre ellas
Y = Variable Dependiente o Respuesta X 1, … X k = Variables Independientes
5
La importancia de la estadística en la ingeniería, ha sido subrayada por la participación de la industria en el aumento de la calidad en sus operaciones y en el producto final
6
El objetivo de muchas investigaciones científicas es comprender y explicar las relaciones entre variables. Frecuentemente, se requiere conocer como y en que medida una variable de respuesta ( Y) se relaciona con un grupo de variables independientes ( X 1, X 2, …, X k).
El análisis de regresión es una técnica estadística para el modelamiento y la investigación de la relación entre dos o más variables.
7
La palabra “Regresión” fue usada por primera vez por Francis Galton ( 1822 – 1911) en sus estudios biológico de la Herencia, refiriéndose a la “ley de la regresión universal
“Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.”
Francis Galton •Primo de Darwin •Estadístico y aventurero •Fundador (con otros) de la estadística moderna para explicar las teorías de Darwin.
8
Regresión : El análisis de regresión es útil para averiguar la forma probable de las relaciones entre las variables, y el objetivo final, cuando se emplea este método de análisis, es predecir o estimar el valor de una variable que corresponde al valor dado de otra variable.
–
Correlación: El análisis de correlación se refiere a la intensidad de la relación entre variables. Cuando se calculan las mediciones de correlación a partir de un conjunto de datos, el interés recae en el grado de correlación entre las variable, calculado con el coeficiente de correlación.
9
ANALISIS DE REGRESION Simple * Lineal Cuando la relación entre las variables es de tipo lineal
Múltiple **
Regresión Simple * No Lineal Cuando la relación entre las variables es de tipo nolineal
Múltiple **
¿recta o cúbica?
* ES SIMPLE: Una variable independiente ** ES MULTIPLE: Varias variables independientes
¿recta o parábola?
10
Analizaremos como más de una sola variable explicativa podría utilizarse para predecir el valor de la variable dependiente. Se considera cuanto más poderoso podría volverse el modelo si se utilizaran más variables explicativas
11
12
El modelo de regresión múltiple con k variable independientes se expresa como:
El Modelo de Regresión Múltiple ^
εi = Yi – Yi recibe el nombre de residuo.
Se estima el modelo utilizando los datos muestrales así:
El Modelo de Regresión Múltiple Estimado
13
COEFICIENTE DE CORRELACIÓN Y COEFICIENTE DE DETERMINACIÓN
Ahora que tenemos una comprensión general de la naturaleza de la relación entre las variables, es conveniente medir la fuerza de ésta relación.
La medida de la fuerza viene dada por el Coeficiente de Correlación .(R )
La medida del poder explicativo o ajuste del Modelo viene dada por el Coeficiente de Determinación . (R 2)
14
COEFICIENTE DE CORRELACIÓN Y COEFICIENTE DE DETERMINACIÓN
R = +/- 1, Existe perfecta correlación positiva o negativa R + / - 1, existe elevada correlación positiva o negativa R + / - 0.8, existe meritoria correlación positiva o negativa R + / - 0.6, existe moderada correlación positiva o negativa R + / - 0.5, existe baja correlación positiva o negativa R 0, existe pobre correlación positiva o negativa R = 0, No existe correlación entre las variables i
15
16
CASO Nº 1: REGRESION LINEAL SIMPLE El procesamiento de carbon sin tratar implica el "lavado", en donde se elimina la ceniza de carbòn( no organico, material incombustible). Una revista proporciona los datos relacionados con los porcentajes de ceniza y el volùmen de una partìcula de carbòn. Se midieron los porcentajes promedio de ceniza para seis volùmenes de partìculas de carbòn. Los datos son los siguientes:
Volumen ( cm 3 )
Porcentaje de ceniza
0.01 0.06 0.58 2.24 15.55 276.02
3.32 4.05 5.69 7.06 8.17 9.36
a) La ecuación de regresión lineal simple del Porcentaje de Ceniza b) Utilizando el modelo pronostique el porcentaje de ceniza para partìculas con un volùmen de 5,0 cm 3 c) Interpretar coeficientes de Regresión y su significancia. d) Pruebe la significancia de la Regresión utilizando α = 0.05; ¿ Cuál es el valor P de esta prueba? Interpretando el cuadro ANVA e) Calcule e interprete R y R
2
17
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO MINITAB
18
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO MINITAB
19
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO MINITAB
20
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO MINITAB
21
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE DE INTERPRETACION a) La ecuación de regresión lineal simple del Porcentaje de Ceniza
4.2871 + 0.8861 X1
22
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE DE INTERPRETACION b) Utilizando el modelo pronostique el porcentaje de ceniza para partìculas con un volùmen de 5,0 cm 3
4.2871 + 0.8861 (5) 8.7176
23
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE DE INTERPRETACION c) Interpretando coeficientes de Regresión y su significancia. bo = 4.2871, es el Porcentaje de Ceniza,
independientemente
del
Volùmen de partìcula ( X 1)
b1 = 0.8861, representa el incremento promedio del Porcentaje de Ceniza por cada variación unitaria del Voùmen de Partìcula.(X1). Individualmente tiene influencia altamente significativa sobre el Porcentaje de Ceniza ( p = 0.003)
24
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE DE INTERPRETACION d) Pruebe la significancia de la Regresión utilizando α = 0.05; ¿ Cuál es el valor P de esta prueba? Interpretando el cuadro ANVA El análisis de varianza nos indica que la variable Volùmen de Partìcula X1) tiene influencia altamente significativa en el Porcentaje de Ceniza. = 0.003)
( (p
e) Calcule e interprete R y R 2 R = 0.9539, nos indica que existe elevada correlación entre las variables R2 % = 0.909 nos indica que el 90.9 % de la variabilidad del Porcentaje de ceniza es a consecuencia del volùmen de partìcula.
25
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO SPSS
26
CASO Nº 1: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA
UTILIZANDO SPSS
27
CASO Nº 2: REGRESION LINEAL MULTIPLE 1. El rendimiento de una reacción química (Y) depende de la Concentración del reactivo ( X1) y de la temperatura de operación.( X2) . Los datos obtenidos son los siguientes: Y X1 X2
81
89
83
91
79
87
84
90
1
1
2
2
1
1
2
2
150
180
150
180
150
180
150
180
a) Ajuste un modelo de regresión lineal múltiple a los datos. b) Utilice la prueba t para evaluar la contribución al modelo de cada variable de Regresión. Si se emplea α = 0.05 , Qué conclusiones se puede obtener? c) Pruebe la significancia de la Regresión utilizando α = 0.05; ¿ Cuál es el valor P de esta prueba? d) Calcule e interprete R y R 2 e) Prediga el Rendimiento de la reacción química cuando la la Concentración del reactivo X1 = 1 y la temperatura de operación X 2 = 170
28
I. FASE OPERATIVA
UTILIZANDO SPSS
29
I. FASE OPERATIVA
UTILIZANDO SPSS
30
II. FASE RESULTADOS
UTILIZANDO SPSS
31
III. FASE ANALITICA a) La ecuación de regresión lineal múltiple del Rendimiento de una Reacción Química es:
39.750 + 3.000 X1 + 0.250 X2
32
III. FASE ANALITICA b) Interpretando coeficientes de Regresión y su significancia. bo
= 39.750 , es el rendimiento de una reacción independientemente de la Concentración del reactivo ( X 1) temperatura de operación.( X 2)
química y de la
b1 = 3.000, representa el incremento promedio del rendimiento de una reacción química por cada variación unitaria de la Concentración del reactivo (X1). Cuando la temperatura de operación (X 2) permanece constante. Individualmente tiene influencia significativa sobre el rendimiento ( p = 0.01)
b2 = 0.250 , representa el incremento promedio del rendimiento de una reacción química por cada variación unitaria de Temperatura de operación ( X2). Cuando la Concentración del reactivo (X 1) permanece constante. Individualmente tiene influencia altamente significativa sobre el rendimiento ( p = 0.000)
33
III. FASE ANALITICA c) Pruebe la significancia de la Regresión utilizando α = 0.05; ¿ Cuál es el valor P de esta prueba? Interpretando el cuadro ANVA El análisis de varianza nos indica que conjuntamente ambas, variables Concentración del reactivo ( X 1) y la temperatura de operación.( X2) tienen influencia altamente significativa en la reacción química ( p = 0.000)
d) Calcule e interprete R y R 2 R = 0.980, nos indica que existe elevada correlación entre las variables R2 % = 0.960 nos indica que el 96.0 % de la variabilidad de la reacción química es como consecuencia de la variabilidad de la Concentración del reactivo ( X 1) y la temperatura de operación.( X2)
34
III. FASE ANALITICA e) Prediga el Rendimiento de la reacción química cuando la Concentración del reactivo X1 = 1 y la temperatura de operación X2 = 170
39.75 + 3 * X 1 + 0.25 * X 2
39.75 + 3 * 1 + 0.25 * 170
85.25
35
CASO Nº 3: REGRESION LINEAL MULTIPLE Se piensa que la potencia consumida por una planta química está relacionada con la temperatura ambiente promedio ( X 1), el número de días al mes ( X 2), la pureza producto del producto ( X 3), y las toneladas del producto producidas (X4). Los datos correspondientes al año pasado son:
Y
240
236
290
274
301
316
300
296
267
276
288
261
X1
25
31
45
60
65
72
80
84
75
60
50
38
X2
24
21
24
25
25
26
25
25
24
25
25
23
X3
91
90
88
87
91
94
87
86
88
91
90
89
X4
100
95
110
88
34
99
97
96
110
105
100
98
a) Ajuste un modelo de regresión lineal múltiple a los datos. b) Prediga el consumo de de potencia para un mes en el que X1 = 75 º F, X2 = 24 dias, X3 = 90% y X4 = 98 toneladas. c) Pruebe la significancia de la Regresión utilizando α = 0.01; ¿ Cuál es el valor P de esta prueba? d) Utilice la prueba t para evaluar la contribución al modelo de cada variable de Regresión. Si se emplea α = 0.01 , Qué conclusiones se puede obtener? e) Calcule e interprete R y R 2 36
I. FASE OPERATIVA
UTILIZANDO SPSS
37
I. FASE OPERATIVA
UTILIZANDO SPSS
38
II. FASE RESULTADOS
UTILIZANDO SPSS
39
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE
Uno de los problemas más desafiantes en el campo del control de la contaminación del agua, lo presenta la industria del curtido de pieles. Los desechos de las curtiembres son químicamente complejos. Se caracterizan por los altos valores de demanda bioquímica de oxígeno, sólidos volátiles y otros. Considérense los siguientes datos que se obtuvieron de 33 muestras de desechos químicamente tratados en un estudio. Donde las variables son el porcentaje de sólidos totales y el porcentaje de la demanda química de oxígeno para las 33 muestras.
40
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE Nº
% de Sólidos
% Demanda química de oxígeno
Nº
% Demanda % de Sólidos química de oxígeno
1
3
5
18
36
34
2
7
11
19
37
36
3
11
21
20
38
38
4
15
16
21
39
37
5
18
16
22
39
36
6
27
28
23
39
45
7
29
27
24
40
39
8
30
25
25
41
41
9
30
35
26
41
41
10
31
30
27
42
40
11
31
40
28
42
44
12
32
32
29
43
37
13
33
34
30
44
44
14
33
32
31
45
46
15
34
34
32
46
46
16
36
37
33
47
49
17
36
38
34
50
51
41
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE PREGUNTAS DEL CASO
a) Construya el modelo de regresiòn lineal simple para estimar el valor del % de Demanda química de oxígeno a partir del % de Sólidos. b) Utilizando el modelo pronostique el porcentaje de Demanda química de oxígeno cuando el % de Sólidos es 35. c)
Interprete el grado de influencia o Contribuciòn de cada variable al modelo.
d) Calcule e interprete R y R 2
42
II. FASE RESULTADOS CASO Nº4: REGRESION LINEAL SIMPLE UTILIZANDO EXCEL
I. FASE OPERATIVA DEL CASO Nº 4
43
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE
I. FASE OPERATIVA DEL CASO Nº 4
REGRESION LINEAL SIMPLE UTILIZANDO EXCEL
44
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE REGRESION LINEAL SIMPLE UTILIZANDO EXCEL
II. FASE RESULTADOS DEL CASO Nº 4
45
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE REGRESION LINEAL SIMPLE UTILIZANDO EXCEL
II. FASE RESULTADOS DEL CASO Nº 4
46
II. FASE RESULTADOS CASO Nº 4: REGRESION LINEAL SIMPLE
II. FASE INTERPRETACIÒN DEL CASO Nº 4
47
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE En la fabricación de productos comerciales de madera es importante estimar la relación entre la densidad de un producto de madera y su dureza.
En una fábrica se produjeron treinta tableros de aglomerados con densidades de aproximadamente 8 a 26 libras por pie cúbico, y se midió la dureza en libras por pulgada cuadrada. La siguiente tabla muestra los datos
48
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE a) Construya el modelo de regresión lineal simple para estimar el valor de la Dureza de la madera a partir de la densidad .
b) Utilizando el modelo pronostique la Dureza de la Madera con una densidad de 8 lb/pies3. c) Interprete el grado de influencia del modelo. Contribución de cada variable al modelo. d ) Calcule e interprete R y R 2
Densidad ( X)
Dureza (Y)
Densidad ( X)
Dureza (Y)
6,4
5,076
15,2
14,028
7
5,304
15,4
14,312
8,2
7,328
16,4
16,792
8,3
7,573
16,7
16,899
8,4
7,592
17,4
18,243
8,6
8,714
19,5
20,207
9,5
8,814 9,007 9,191 9,643 11,036 12,148 12,751 13,319 13,522
19,8 21,2 21,3 21,7 22,8 23,3 23,4 24,4 25,6
20,438 23,218 23,45 23,661 24,453 25,512 25,74 27,594 29,305
9,8 9,9 11 13,6 14,5 14,8 15 15
49
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE
UTILIZANDO MINITAB
50
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE
UTILIZANDO MINITAB
51
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE
UTILIZANDO MEGA STAT
52
II. FASE RESULTADOS CASO Nº 5: REGRESION LINEAL SIMPLE
UTILIZANDO MEGA STAT Densidad y Dureza 16 14
y = 0.8518x + 0.3151 R² = 0.9566
12 ) Y10 ( a z 8 e r u D 6
4 2 0 0
5
10 Densidad ( X)
15
20
53