GUIA DE EJERCICIO PARA REGRESIÓN LINEAL MÚLTIPLE
1) Se desea establecer una ecuación e cuación que permita predecir la resistencia a la abrasión del caucho en función de la cantidad de láminas de sílice adheridas a él por un agente amalgamante cuya cantidad se mide en porcentaje respecto al total de la masa del caucho. Se realizaron seis mediciones obteniendo los siguientes resultados:
Resistencia a la abrasión
Cantidad en miles de láminas
Cantidad de amalgamante
83
6
2
92
2
6
95
4
7
80
4
1
100
7
4
92
1
4
a) A través de una regr esión, determine una ecuación lineal que permita predecir la resistencia en función de las dos variables independientes. Considere que:
̅ ̅ ̅ 1, 9 4 0, 2 0, 2 ′ − = 0,0,22̅̅ 0,0,00425131 0,0,00131425
b) Determine si el modelo de regresión re gresión contribuye significativamente a predecir Y en función de las variables independientes utilizando una significancia de 0,025. c) Realice un intervalo de estimación para con un 95% de confianza d) Calcule el coeficiente de determinación determ inación e interprételo
2) Un mineral metálico es extraído desde una mina de la región. Una vez extraído, se somete a un proceso de depuración, luego es fusionado en un horno industrial y posteriormente solidificado en planchas metálicas. Finalizado este proceso, se mide el porcentaje de impurezas que tienen las planchas metálicas. Se sospecha que ex iste una relación entre la temperatura a la que actuó el e l horno y el porcentaje de impurezas de la plancha metálica. Para determinar una ecuación de regr esión que relaciones ambas variables, se analizaron 15 planchas metálicas. Los resultados del análisis se presentan en la siguiente tabla:
℃
Temperatura ( )
% impurezas
387
4,87
361
3,93
433
6,46
343
3,33
381
4,38
383
4,70
346
3,50
376
4,50
350
3,58
358
3,64
419
5,90
378
4,43
371
4,38
373
4,42
378
4,25
a) Identifique la variable independiente X y la variable dependiente Y b) Formule una ecuación de regresión lineal que permita predecir Y en función de X. (Calcular la inversa de la matriz X’X es relativamente sencillo considerando que será una matriz simétrica de 2x2) c) Realice un análisis de varianza para definir si el modelo es significativo utilizando d) Calcule el coeficiente de determinación del modelo e interprételo. e) Suponga que una plancha metálica de este mineral fue fusionada a 400 . Estime, mediante un intervalo del 90% confianza, el porcentaje de impurezas que la plancha tendrá.
℃
= 0,01
3) Diversos estudios han concluido que, en los días más calurosos, existe un consumo mayor de energía, probablemente debido a la mayor ut ilización de ventiladores, aparatos de aire acondicionado y artículos eléctricos de refrigeración. El gerente de una planta generadora de electricidad busca un modelo que permita predecir cuánta electricidad será consumida diariamente por la población de u na ciudad en función de la mínima y la máxima temperatura que tendrá ese día.
′ −
Para definir una ecuación de regresión, se observaron 10 días del último año seleccionados al azar. La ecuación de regre sión obtenida, parte de la matriz parte del análisis de varianza son mostrados a continuación
̂ = 255,8657+4,873 ′ − = (17,0178 0,0,05387783 0,0,20111 037 ) 0,0089
y
+ 11,6861
Fuente de variación
Suma de cuadrados
Regresión
17867,5344
Grados de libertad
Medias Cuadráticas
Error Total
19263,6
′ −
a) Complete la matriz y la tabla Anova b) Determine si el modelo es significativo para predecir Y en función de X utilizando una significancia de 0,05 c) Determine si cada variable independiente ayuda significativamente a predecir la electricidad consumida utilizando α = 0,05. Interprete los resultados d) Calcule el coeficiente de determinación e interprételo e) Realice una estimación del parámetro con un 97% de confianza f) Si el día de mañana la temperatura en esa ciudad tendrá 19 y 30 de mínima y máxima respectivamente. Realice una estimación con un 95% de confianza del consumo de electricidad en esa ciudad.
℃ ℃
4) Sea Y: ventas de un restaurante de comida rápida (miles de dólares), X1= número de restaurantes competidores a una milla a la redonda, X 2= población dentro de una milla de radio (miles de personas) y X 3 es una variable indicadora igual a uno si el restaurante tiene una ventanilla para automovilistas y 0 si no la tiene. Suponga que el modelo de regresión verdadero es
= 101,2 + 6,8 + 15,3 + a)
b)
c)
¿Cuál es el valor medio de ventas cuando el número de restaurantes competidores es dos, hay 8000 habitantes en un radio de una milla, y el restaurante tiene una ventanilla para automovilistas? ¿Cuál es el valor medio de ventas de un restaurante sin ventanilla para automovilistas, que tiene tres restaurantes competidores y 5000 habitantes en un radio de una milla? Interprete .
5) Un análisis de regresión efectuado para relacionar Y: tiempo de reparación para un sistema de filtración de agua (h), con X1: tiempo transcurrido desde el servicio previo (meses) y X2: tipo de reparación (1 si es eléctrico y 0 si es mecánico), dio el siguiente modelo basado en 12 observaciones:
= 0,950+0,400 + 1.250 √ ∗
Además, Syy= 12,72, SSE=2,09, y a)
b)
c) d)
=0,312.
¿Parece haber una relación lineal útil entre el tiempo de reparación y los dos predictores del modelo? Realice una prueba de las hipótesis apropiadas usando un nivel de significación de 0,05. Dado que el tiempo transcurrido desde el último servicio sigue en el modelo, ¿el tipo de reparación da información útil acerca del tiempo de reparación? Exprese y pruebe las hipótesis apropiadas usando un nivel de significación de 0,01. Calcule e interprete un intervalo de confianza de 95% para . La desviación estándar estimada de una predicción para el tiempo de reparación, cuando el tiempo transcurrido sea de 6 meses y la reparación es eléctrica, es de 0,192. Pronostique el tiempo de reparación bajo estas circunstancias al calcular un intervalo de predicción de 99%. ¿El intervalo sugiere que el modelo estimado dará una predicción precisa? ¿Por qué sí o por qué no?
6) El diseño eficiente de ciertos tipos de incineradores de desechos municipales exige que se disponga de información acerca del contenido energético de los desechos. Los autores del artículo “Modeling the Energy Content of Municipal Solid Waste Using Multiple Regression Analysis” (J. of the Air and Waste Mgmt. Assoc., 1996: 650-656) bondadosamente nos proporcionaron la información siguiente acerca de Y:contenido energético (kcal/kg), las tres variables físicas de composición X 1 : % de plástico por peso, X2 : % de papel por peso y X3: % de basura por peso, y la variable próxima de análisis X 4: % de humedad por peso para especímenes de desechos de cierta región.
Las matrices resultantes de estos datos son:
∗
: 30
599.98
702.41
1180.38
1515.72
599.98
12161.0686
14016.385
23571.5564
30259.6561
702.41
14016.385
16776.8055
27386.9959
35486.8473
1180.38
23571.5564 27386.9959
46918.768
59665.177
1515.72
30259.6561 35486.8473
59665.177
76896.8488
∗ − 31.6471823 -0.2940285
-0.2825810
-0.2420727
-0.1898627
-0.2940285
0.0071791
0.0017252
0.0013749
0.0011076
-0.2825810
0.0017252
0.0054440
0.0029867
0.0000614
-0.2420727
0.0013749
0.0029867
0.0037799
-0.0000807
-0.1898627
0.0011076
0.0000614
-0.0000807
0.0033538
∗ 38438 774525.34 900549.22 1510802.26 1928724.17
∗ = 49939038 a) b)
c)
Calcule los estimadores para los parámetros de las 4 variables explicativas Exprese y pruebe las hipótesis apropiadas para determinar si el ajuste del modelo a los datos especifica una relación lineal útil entre contenido energético y al menos uno de los cuatro predictores. Dado que el % de plástico, % de papel y % de agua permanecen en el modelo, ¿el % de basura da información útil acerca del contenido energético? Exprese y pruebe las hipótesis apropiadas usando un nivel de significación de 0,05.
7) La estatura de un bebé al nacer (en cm.) y el período de embarazo (e n días) son: x y
48 277,1
49 279,3
50 281,4
51 283,2
52 284,8
a) Ajustar una recta de regresión minimizando los desvíos cuadráticos entre los valores de Y y su correspondiente estimación lineal. b) Construir intervalos de confianza para sus coeficientes. c) ¿Es la relación lineal?
8) La variable X representa en miles, el número de asnos en España y la variable Y el tanto por ciento del presupuesto del Estado dedicado a la Educación en distintos años. Sea: Año X Y
1950 1.006 5.5
1955 1.162 4.8
1960 1.479 7.8
1965 805 8.2
1970 795 8.6
1975 747 9.7
1980 732 9.6
1985 683 8.9
1990 686 11.4
1995 493 10.6
2005 476 12.7
2010 386 11.5
2015 368 11.4
Se pide construir una recta de regresión e interpretar los resultados. 9) Galton estudió en 1.877 la relación entre el diámetro de los guisantes y el diámetro medio de sus descendientes con los resultados siguientes: Diámetro Padres Diámetro medio descendientes
21
20
19
18
17
16
15
17.26
17.07
16.37
16.40
16.13
16.17
15.98
Los datos están en pulgadas x 100 (1 pulgada = 2.54 cm.). Se pide:
βi
a) Por medio de las ecuaciones normales (XTX)-1*(XTY) determine los estimadores de los coeficientes . Calcular la recta de regresión. ¿Qué conclusiones puede extraerse? b) Prever el diámetro medio en milímetros de los descendientes de guisantes con diámetro 5 milímetros.
10) Se desea verificar si el personal de un laboratorio es capaz de detectar correctamente la cantidad de un cierto antibiótico presente en muestras de sangre. Se envían al laboratorio 13 muestras de las cuales se conoce la cantidad de antibiótico presente (variable x) y se pide al personal medir la cantidad de antibiótico presente e n cada una de ellas (variable y). Obteniéndose los siguientes datos: Cantidad presente (x) g/ml 0 5 5 5 10 10 10 20 20 20 40 40 40
a)
Cantidad hallada (y) g/ml 0 4,5 5 4,8 8,9 8,9 8,9 17,0 18,2 15,4 32,6 36,1 31,5
Si el laboratorio pudiese detectar exactamente la cantidad de antibiótico presente en las muestras, tendríamos que las variables x e y serían iguales y, por lo tanto la recta de regresión debería ser aquella que tiene pendiente 1 y pasa por el origen. Observe la nube puntos y diga si esta parece ser la situación en este caso. b) Ajuste a estos datos un modelo de regresión lineal simple. En base a lo obtenido diga si cumple la situación planteada en la parte a). c) Utilizando los resultados de la parte b), realice la prueba para la hipótesis nula H0: 1=1, frente a la hipótesis alternativa Ha: 1 1. ¿Cuál es el valor p o nivel de significación de lo observado en este caso?
11) La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad. Para ello se ha recogido datos del volumen de ventas y del gasto en publicidad referido a los últimos años y expresados en miles de euros Año
Ventas Gasto publicidad
2007
50
10
2008
100
15
2009
150
18
2010
200
20
2011
200
25
2012
300
35
2013
400
50
2014
500
55
2015
650
60
2016
700
65
a) Especifica y estima el modelo lineal que explique las ventas de la empresa en función de la inversión publicitaria. Interpreta los parámetros estimados. b) En el año 2017, la empresa va a invertir 450.000 euros en publicidad. Calcula el volumen de ventas esperado. c) Se plantea el modelo Yi = βXi + εi
i = 1, .....n
Hallar el estimador mínimo cuadrático de β. d) Aplicar el resultado del apartado anterior para explicar el volumen de ventas en función de los gastos en publicidad. Comprueba que la media de los residuos no es nula.
12) La tabla siguiente contiene la edad X y la máxima presión sanguínea Y de un grupo de 10 mujeres: Edad Presión
56 14,8
42 12,6
72 15,9
36 11,8
63 14,9
47 13,0
55 15,1
49 14,2
38 11,4
4 14,1
a) Determine las matrices X e Y y realice el proceso matricial necesario para conseguir los estimadores de los coeficientes del modelo e interprete que indican b) Calcular el coeficiente de corre lación lineal entre las variables e interpretar qué indica.
c)
Determinar la recta de regresión de Y sobre X, justificando el ajuste de un modelo lineal. Interpretar los coeficientes del modelo. d) Hacer las predicciones siguientes, considerando la que tenga sentido: Presión sanguínea de una mujer de 51 años. Presión sanguínea de una niña de 10 años. Presión sanguínea de un hombre de 54 años.
13) A menudo se utiliza el tratamiento térmico para carburar partes metálicas como los engranes. El espesor de la capa carburada se considera una característica importante de engrane y contribuye a la confiabilidad general de la parte. Debido a la naturaleza crítica de esta característica, se lleva a cabo una prueba de laboratorio en cada carga del horno. La prueba es destructiva, donde una parte real se corta de forma transversal y se remoja en un químico durante cierto tiempo. Esta prueba implica correr un análisis de carbón sobre la superficie del paso de engranaje (parte superior de los dientes del engrane) y la raíz del engrane (entre los dientes). Los siguientes datos son los resultados del análisis de carbón del paso de engranaje para 19 partes. T.Remojo Engranaje
0,58 0,013
0,66 0,016
0,66 0,015
0,66 0,016
0,66 0,015
0,66 0,016
1,00 0,014
1,17 0,021
1,17 0,018
T.Remojo Engranaje
1,17 0,021
1,17 0,019
1,17 0,021
1,20 0,025
2,00 0,025
2,00 0,026
2,20 0,024
2,20 0,025
2,20 0,024
1,17 0,019
a) Ajuste una regresión lineal simple que relacione el análisis de carbón en el paso de engranaje y contra el tiempo de remojo. Pruebe la hipótesis H0: 1=0. b) Si la hipótesis de la parte a) se rechaza, determine si el modelo lineal es adecuado. 14) Jay Footclamper es presidenta y oficial ejecutivo en jefe de la Fiber Shoes, Inc., una compañía que fabrica suecos de madera para las competencias de danza con suecos. Jay está preocupada por contratar mejor personal de ventas. Uno de los esfuerzos por contratar mejores opciones de vendedores está basado en un análisis del desempeño de la fuerza de ventas actual en cuatro pruebas de aptitud que estas personas hicieron cuando fueron contratadas. Jay ha recabado datos sobre el crecimiento de ventas de 25 vendedores, junto con su resultado en las cuatro pruebas de aptitud (creatividad, habilidad mecánica, pensamiento abstracto, y cálculos matemáticos). Hizo una regresión y obtuvo el siguiente resultado. VARIABLE_DEP. CRECIMIENTO FUENTE MODELO ERROR C TOTAL VARIABLE INTERSECCION CREAT MEC ABSTR MATE
DF 4
AN LISIS DE VARIANZA SUMA DE CUADRADOS 1050,697
24
1134,662
DF
CUADRADOS MEDIOS VALOR F PROB>F
R CUADRADO ESTIMACI N DE PARAMETRO ERROR ESTANDAR 70,065659 2,130314 0,421601 0,171915 0,271403 0,218402 0,745042 0,289818 0,419545 0,068712
0,9261 t
PROB>t
Dé la ecuación de regresión para que Jay pueda predecir el crecimiento en ventas de un vendedor a) ¿Cuánto de la variación en el crecimiento de ventas es explicado por las cuatro pruebas de aptitud? b) A un nivel de significación de 0,05, ¿Cuáles de las pruebas de aptitud son variables explicativas significativas del crecimiento en las ventas? c) ¿Es el modelo completo significativo como un todo? d) El vendedor Paul ha tenido el siguiente resultado en las cuatro pruebas: CREAT=12, MEC=14, ABSTR=18 Y MATE=30. Dé un intervalo de confianza aproximado de 95% para el crecimiento de ventas de Paul.
15) Los datos que se han reunido de 40 muestras, representan el empuje de un motor de turbina (Y) y seis variables de regresión candidatas: X1 = velocidad de rotación primaria, X2 = velocidad de rotación secundaria, X3 = rapidez de flujo de combustible, X4 = presión, X5 = temperatura de escape y X6 = temperatura ambiente al momento de efectuar la prueba Los resultados obtenidos se han procesado obteniéndose la siguiente información: (XTX)-1 8505,21842
0,301897083
0,052095942
-0,405463063
0,635777553
0,693297264
6,986432978
0,301897083
0,000116781
-1,5221E-06
-9,37732E-06
-0,000939899
-2,97837E-05
7,43697E-05
0,052095942
-1,5221E-06
2,08023E-06
-3,19361E-06
-7,1628E-06
8,58106E-07
4,60605E-05
-0,40546306
-9,37732E-06
-3,19361E-06
1,98244E-05
-5,88482E-05
-3,58073E-05 -0,000336697
0,635777553
-0,000939899
-7,1628E-06
-5,88482E-05
0,010268521
0,000510048
0,00321117
0,693297264
-2,97837E-05
8,58106E-07
-3,58073E-05
0,000510048
0,000175071
0,000264616
6,986432978
7,43697E-05
4,60605E-05
-0,000336697
0,00321117
0,000264616
0,009769033
XTY
Además se ha calculado la media de los cuadrados del error 156160
CME = 702,71627976079
287571830 3062352081 4631760166 27708929 259142680 15200200
Pregunta: Analice cada variable, indicando que variables son las que es aconsejable considerar dentro del modelo de regresión lineal múltiple. Justifique sus respuestas
16) La distancia promedio Y requerida para detener un vehículo es una función de la velocidad del vehículo. El conjunto de datos fue observado en 10 automóviles a diferentes velocidades, cuyas observaciones han sido registradas y analizadas.
= +
, .
Modelo 1: Asuma que la distancia de detención promedio varía linealmente con la velocidad. Esto es . Estime y
SUMMARY OUTPUT Regression Statistics
Multiple R R Square
0.985355831 0.970926114
Adjusted R Square Standard Error
0.967291879 6.496098168
Observations
10
ANOVA df
Regression
SS
MS
F
Significance F
1
11274.00567
11274.00567 267.1610184
Residual
8
337.5943313
42.19929141
Total
9
11611.6
Coefficients
Intercept Velocidad (mph)
Standard Error
-9.758193091 1.998582817
t Stat
P-value
1.9769E-07
Lower 95%
Upper 95%
Lower 95.0%
Upper 95.0%
4.151031901 -2.350787304 0.046623921 -19.33048982 -0.185896362 -19.33048982 -0.185896362 0.122274418 16.34506098 1.9769E-07 1.716617503 2.28054813 1.716617503 2.28054813
,, .
Modelo 2: Asuma que la distancia de detención varía con la velocidad como . Estime y Compare ambos modelos.
= + +
SUMMARY OUTPUT Regression Statistics Multiple R 0.986228218 R Square
0.972646099
Adjusted R Square
0.964830699
Standard Error
6.736070903
Observations
10
ANOVA df
SS
MS
F
Regression
2
11293. 97744
5646. 988721 124. 4524987
Residual
7
317.6225584
45.37465121
Total
9
11611.6
Coefficients Intercept
-6.043299815
Standard Error
t Stat
P-value
Significance F
3. 38507E- 06
Lower 95%
Upper 95%
Lower 95.0%
Upper 95.0%
7.062675737 -0.855667178 0.420502775 -22.74387415 10.65727451 -22.74387415 10.65727451
Velocidad (mph)
1.665766841
0.517427028
Velocidad^2 (mph^2)
0.005295599
0.007982032
3.219327074 0.014667084
0.442246342 2.889287341
0.442246342 2.889287341
0.66344001 0.528285139 -0.013578906 0.024170105 -0.013578906 0.024170105
a) Determine el mejor modelo, base su elección en fundamentos estadísticos y los criterios estudiados en el curso. b) Calcule un intervalo de confianza para la media al 9 5% de confianza. c) Calcule un intervalo de predicción para el valor de una única observación al 99% de confianza.
17) Las tablas muestran los resultados de veinte tipos de hojas de acero trabajadas en frío que tienen diferentes composiciones de cobre y temperaturas de templado. Donde se pide una ecuación que relacione la Dureza de Rockwell 30-T (y) con el contenido de cobre(x1) y la temperatura de templado (x2).
Estadí sticas de l a regre sión
Coef. correlación Coef. determinación R^2 R^2 ajustado Error típico Observaciones
0.94712238 0.8970408 0.87416098 12
ANÁLISIS DE VARIANZA G. de Lib.
Regresión Residuos Total
SC
11 Coeficientes
Intercepción Contenido de Cu Temperatura
Cuad. Medios
2
154.388542 40.78125 -0.0805
F
39.2066346 121.3404167 13.4822685 1178.529167 Error típico
t
11.07363741 2.51312464 0.009480601 8.49102313
a) Complete los datos faltantes en las tablas. b) ¿Qué porcentaje de la variabilidad de la dureza de Rockwell 30-T es explicado por el modelo? Interprete. c) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo? d) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la importancia de cada variable independiente? e) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? Fundamente.
x
x
x
x
18) En un artículo se describe un experimento realizado para evaluar el impacto de la fuerza (gm) , potencia (mW) , temperatura (°C) y tiempo (ms) en la resistencia cortante de la unión de la bola (gm). Se entregan los resultados incompletos de un modelo de regresión lineal para estos datos.
SUMMARY OUTPUT
Regression Statistics Multiple R
0.844961111
R Square
0.713959279
Adjusted R Square
0.668192763
Standard Error Observations
30
ANOVA
df
SS
MS
Regression Residual 2325.258667
Coefficients Fuerza
26.60474667
Total
Intercept
F 15.60003578
Standard Error
-37.47666667
t Stat -2.86089247
0.211666667
0.210573608
Temperatura
0.129666667
0.042114722 3.078891695
Tiempo
0.258333333
0.210573608 1.226807745
Potencia
0.070191203 7.099655143
1.
Construcción del Modelo a) Complete los datos faltantes en las tablas entregadas. b) Plantee la ecuación de regresión de acuerdo a los datos ajustados.
2.
Aplicación del Modelo a) Estime la resistencia cortante de la unión de bola cuando la fuerza es de 35 [gm], la potencia de 75 [mW], la temperatura de 200 [°C] y el tiempo de 20 [ms]. b) Interprete y explique el significado del parámetro .
3.
Evaluación del Modelo a) ¿Qué porcentaje de la variabilidad de la resistencia cortante de unión de la bola es explicado por el modelo? Interprete. b) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo? c) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la importancia de cada variable independiente? d) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? ¿qué recomendaciones daría al investigador para mejorar su modelo propuesto? Fundamente.