REGRESION LINEAL MULTIPLE En la regresión lineal múltiple tratamos de determinar la relación existente entre la variable dependiente ( Y) Y) y dos o más variables independientes ( X1, X2, X3, ..., XK ) también llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le agan a las variables independientes en con!unto.
"a relación entre las variables regresoras y la variable dependiente se establece mediante el modelo general de regresión lineal múltiple#
Y
X X X X 0
1
1
2
2
3
3
k
k
donde $, %, &, ..., ' son los parámet parámetros ros del modelo modelo ( se tienen tienen k variable variables s independie independientes ntes y p parámetros ).
En este caso 0 representa la ordenada en el origen, es decir, decir, el punto donde el iperplano corta al a!e 0 representa (al abe aberr más de dos dos varia variable bles s indep indepen endie diente ntes s la relac relación ión qued queda a repres represen entad tada a por por medio medio de un iperplano).
En general i representa el cambio esperado en por cada incremento unitario en i, siempre y cuando las demás variables independientes permane*can constantes.
+or comodidad en la simplicidad de las operaciones, emplearemos en esta ocasión sólo dos variables independientes. uedará al lector utili*ar más de dos variables independientes para futuras aplicaciones.
-l utili*ar dos variables variables independientes independientes,, el modelo general general de regresión lineal lineal múltiple queda queda representado representado por# Y
X 0
1
1
2
X 2
donde# $ repr repres esen enta ta el punt punto o dond donde e el plan plano o cort corta a al e!e e!e (ao (aora ra la rela relaci ción ón entr entre e las las dos dos vari variab able les s independientes y está representada por un plano). % repres represen enta ta el cambi cambio o espera esperado do en por por cada cada incre incremen mento to unita unitario rio en %, siem siempr pre e y cuan cuando do & permane*ca constante. & repres represen enta ta el cambi cambio o espera esperado do en por por cada cada incre incremen mento to unita unitario rio en &, siem siempr pre e y cuan cuando do % permane*ca constante.
Universidad Católica del Norte DAMA 00312
1
"a figura siguiente muestra la relación entre las variables independientes y .
Y
0 1 X 1 2 X 2
&
%
ESTIMACION DE PARAMETROS +ara encontrar los estimadores de los parámetros del modelo, partiremos de una muestra aleatoria de tamao n para valores de %, & y # X1i %% %& %/ . . .
X2i &% && &/ . . .
Yi % & / . . .
%n
&n
n
-l utili*ar una muestra aleatoria para estimar los parámetros, incurriremos en un error en la estimación. 0ebemos agregar dico error al modelo de regresión lineal múltiple# Y
X 0
1
1
2
X 2
donde es un error aleatorio con media $ y varian*a &. 1ada una de las observaciones de se puede representar mediante el modelo anterior# Y i
Universidad Católica del Norte DAMA 00312
X 0
1
1i
2
X 2i
i
2
2i utili*amos el enfoque de vectores y matrices, las observaciones de quedarán representadas mediante#
Y
X
donde#
( ( . Y . . (n 1
2
1 ) 1 ) . . X . . . . 1 ) n
11
12
1
) 21
. ε . . n 1
) . . . ) n
β
22
0
1
2
2
2
El método a utili*ar en la estimación de los parámetros del modelo es el método de m3nimos cuadrados. 0ico método consiste en minimi*ar la función de m3nimos cuadrados. "a función de m3nimos cuadrados está dada por la letra " y es igual a la suma de todos los errores elevados al cuadrado#
"
n
2
i
i 1
2i multiplicamos la transpuesta del vector elevados al cuadrado#
por el mismo vector obtendremos la suma de los errores
ε ε
n
2
i
i1
la función de m3nimos cuadrados quedará como#
" ε ε aora bien, si de la ecuación vectorial del modelo de regresión anterior despe!amos el error# ε
Y Xβ
sustituyéndolo en "# "
ε ε Y Xβ Y Xβ
-l reali*ar las operaciones anteriores y simplificando se llega a lo siguiente# Universidad Católica del Norte DAMA 00312
3
"
Y Y 2X Yβ X Xβ
2
ˆ e igualando a cero# 0erivando la función anterior con respecto de β , evaluando para β " β
ˆ X Y X Xβ
0
ˆ β
ˆ # despe!ando β ˆ β
X X X Y 1
donde#
ˆ βˆ ˆ ˆ
0
1
2
n n XX ) i i n ) i i 1
n
)
1i
1
1
2
1i
1
i1
1
2
2
i1 n
)
)i i n ) i) i i n )i i n
2
1
n
) ) 1i
2
2i
i1
2
1
n ( i i n ) i (i X Y i n ) i (i i 1
1
1
2
1
0e esta manera, el modelo de regresión lineal múltiple a!ustado queda definido por#
ˆ (
Universidad Católica del Norte DAMA 00312
ˆ ˆ ) ˆ ) 0
1
1
2
2
4
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLE PRUEBA DE SIGNIFICANCIA "a prueba de significancia del modelo nos permite determinar estad3sticamente si las variables independientes (en con!unto) tienen efecto o no sobre la variable dependiente. +ara reali*ar esta prueba se requiere descomponer la suma total de cuadrados, representada por 2yy, en dos componentes# 224 y 22E 2yy 5 224 6 22E 0onde# 2yy es la suma total de cuadrados 224 es la suma de cuadrados de la regresión 22E es la suma de cuadrados del error "as ecuaciones apropiadas para calcular las expresiones anteriores son#
n (i n i 2yy (i 2
2
1
n
i1
n (i i 224 β X Y
2
1
n
22E 2yy 224
+artimos de las ipótesis# 7 0 : 1
0 7a : i 0 2
8tili*amos la tabla de análisis de varian*a# Fuene !e "#$i#%i&n
Su'# !e %u#!$#!()
G$#!() !e *i+e$#!
4egresión
224
'
Error
22E
n;p
2yy
n;%
Universidad Católica del Norte DAMA 00312
Me!i# !e %u#!$#!() 224 924 ' 92E
22E
E)#!,)i%( !e -$ue+#
:0
924 92E
np
5
El estad3stico de prueba : $ tiene una distribución : (:iser) con v % 5 ' y v & 5 n ; p grados de libertad en el numerador y el denominador, respectivamente. En este caso, si el estad3stico de prueba es mayor que el valor de tablas : , ', n ; p , se reca*a la ipótesis nula= concluiremos que la variable independiente está relacionada con al menos una de las variables independientes.
PRUEBAS SOBRE COEFICIENTES INDI"IDUALES En la prueba de significancia determinamos si existe o no relación entre la variable dependiente y las variables independientes en con!unto, es decir, no se puede determinar la relación entre y cada una de las variables independientes. 2e pueden reali*ar pruebas individuales para anali*ar la relación entre la variable dependiente y cada una de las variables independientes.
+artimos de las ipótesis siguientes#
! 0 : ! 0
70 : 7a
para ! 5 %, &, ..., '
el estad3stico de prueba apropiado es#
t0
ˆ ! 92E 1 !!
donde 1 !! es el valor de la diagonal principal de la matri* inversa ( ( X.X)>% )#
n n XX ) i i n ) i i 1
1
n
)
1i
2
1
2
i1 n
1
)
2
1i
1
i1
1
2
00
101 102
10
111
20
121
1
n
) ) 1i
i 1
1
) i i 1 n ) i) i 1 i 1 n )i i n
2
2i
1 112
22
2
1
El estad3stico de prueba t $ anterior sigue una distribución t>student con v 5 n ; p grados de libertad.
Universidad Católica del Norte DAMA 00312
6
Entonces, si el valor absoluto del estad3stico de prueba es mayor que el valor de tablas t ?&, n ; p, se reca*a la ipótesis nula. 1omo conclusión diremos que la variable independiente s3 está relacionada con la variable independiente !.
INTER"ALOS DE CONFIAN/A EN LA REGRESION LINEAL MULTIPLE INTER"ALOS DE CONFIAN/A PARA LOS PARAMETROS DEL MODELO 2e pueden también estimar los parámetros del modelo mediante intervalos de confian*a. +ara cualquier parámetro, el intervalo de confian*a de (% ; ) %$$@ está dado por la siguiente expresión#
ˆ ! t
2
,np
92E 1 !!
! ˆ ! t
2
,np
92E 1 !!
para ! 5 $, %, &, ..., '
En cuanto a las conclusiones de los resultados obtenidos en los intervalos de confian*a se aplica un criterio seme!ante al empleado en la regresión lineal simple. 1omo $ indica un punto donde el plano cortará al e!e , la conclusión del intervalo correspondiente no debe presentar problema alguno a la ora del planteamiento. -lgo diferente resulta a la ora de concluir los intervalos de confian*a para los demás parámetros# 2iempre y cuando ! A $, las conclusiones para cualquier intervalo de confian*a, de acuerdo al resultado obtenido, serán las siguientes# 2i el intervalo de confian*a para ! resulta a ! b , concluiremos que por cada incremento en ! la variable dependiente disminuirá, en promedio, por lo menos + y a lo muco # veces= siempre y cuando las demás variables independientes permane*can constantes. 2i el intervalo de confian*a para ! resulta a ! b , concluiremos que por cada incremento en ! la variable dependiente aumentará, en promedio, por lo menos # y a lo muco + veces= siempre y cuando las demás variables independientes permane*can constantes. -ora bien, 2i el intervalo de confian*a para ! resulta a ! b , no se puede afirmar que ! tenga efecto sobre la variable dependiente.
Universidad Católica del Norte DAMA 00312
7
INTER"ALOS DE CONFIAN/A PARA LA RESPUESTA MEDIA Y PARA UNA OBSER"ACION FUTURA0 1omo vimos anteriormente, el modelo de regresión lineal múltiple nos permite establecer la relación entre la variable dependiente () con más de una variables independientes ( %, &, ..., ').
ˆ ˆ ) , ˆ ) 0
1
1 0
2
2,0
En forma matricial# ˆ 0 (
X ! βˆ 0
donde
1 X ) , ) , 0
1 0
2 0
Entonces, el intervalo de confian*a de (% ; ) %$$@ para el valor esperado de está dado por la expresión#
ˆ 0 t (
2
,np
1
92E X ! 0 XX X 0
! ˆ X X X X ( t 92E ( ,np 1
0
0
0
2
El intervalo de confian*a de (% ; a) %$$@ para una observación futura de está dado por#
ˆ 0 t (
2
,np
Universidad Católica del Norte DAMA 00312
1
92E 1 X ! 0 X X X 0
(
0
(ˆ t 0
2
,np
1
92E 1 X ! 0 XX X 0
8
COEFICIENTE DE DETERMINACION MULTIPLE El coeficiente de determinación múltiple nos permite expresar la cantidad de la variabilidad presente en las observaciones de que se explica mediante el modelo de regresión lineal múltiple, cuando se utili*an la variables independientes, en con!unto, como variables regresoras. El coeficiente de determinación múltiple se representa mediante 4 &.
42
Universidad Católica del Norte DAMA 00312
224 2yy
9
EERCICIO - fin de e!emplificar los temas anteriormente vistos, anali*aremos el siguiente problema#
El dueño de un restaurante de hamburguesas en la ciudad de México desea determinar la interrelación entre la introducción de aderezos importados y las utilidades que recibe.
8tilidades 0emanda de catsup nacional 0emanda de catsup importada
C$ & F$
D$ % GF
%$$ / CF
$ & /$
/$ % DF
%$$ / /F
Con esta inormación determinaremos lo siguiente! ".# $a ecuación de regresión lineal m%ltiple. &.# $a prueba de signiicancia del modelo. ' 0.0( ).# *nter+alos de conianza del ,( - para los parmetros del modelo. /.# *nter+alos de conianza del ,0 - para la utilidad esperada y la utura cuando la demanda de catsup nacional sea de / y la de catsup importada de (0. (.# El coeiciente de determinación m%ltiple.
0e acuerdo al enunciado del e!ercicio, representa a las utilidades, % representa a la demanda de catsup nacional y & representa a la demanda de catsup importada. El ob!etivo principal es establecer si las dos variables independientes tienen efecto o no sobre las utilidades del restaurante, a fin de establecer diferencias entre las dos. Es decir, si es indiferente cual de las dos variables utili*ar en el proceso. - fin de solucionar cada uno de los incisos del e!ercicio, empe*aremos calculando las sumatorias de los valores de %, & y . n5 % 5 %& 5 & 5 && 5 Universidad Católica del Norte DAMA 00312
G %& & /$$ %GF$$
%& 5 5 & 5 % 5 2& 5
G$$ D&$ //$$ HC$ &$F$
10
+uesto que
6 ˆ 12 β 300
ˆ β
12 28 600
X X X Y entonces# 1
600 16500 300
1
420 2.833333 0.5 0.033333 420 10 970 0.5 970 32.5 0.25 0 20850 0.033333 0 .0006666 20850 0.1
de aqu3, entonces, el modelo de regresión lineal múltiple solicitado en el in%i)( 1 es#
ˆ (
10 32.5 ) 0.1) 1
2
a partir del modelo anterior, podemos concluir lo siguiente#
El plano de regresión cortará al e!e en y 5 %$. +or cada incremento en la demanda de catsup nacional, las utilidades se incrementarán /&.F veces, en promedio= siempre y cuando la demanda de catsup importada permane*ca constante. +or cada incremento en la demanda de catsup importada, las utilidades disminuirán $.% veces, en promedio= siempre y cuando la demanda de catsup nacional permane*ca constante.
+ara reali*ar la prueba de significancia en el in%i)( 2, calcularemos primero los valores de 2yy, 224 y 22E#
2yy
224
DAMA 00312
2yy
33800
2yy
4400
β X Y
224
10
224
4240
Universidad Católica del Norte
( 2
(
32.5
(
2
n
420
2
6
2
n
420 420 0.1 970 6 20850
2
11
22E 2yy 224 22E
4400
4240
22E 160
+lanteamos las ipótesis# 7 0 : 1
0 7a : i 0 2
el nivel de significancia de la prueba es de $.$F. 4eali*ando la tabla de análisis de varian*a#
Fuene !e "#$i#%i&n
Su'# !e %u#!$#!()
G$#!() !e *i+e$#!
4egresión
D&D$
&
Error
%G$
/
DD$$
F
Me!i# !e %u#!$#!() 924
92E
4240 2
160 3
E)#!,)i%( !e -$ue+#
2120 :0
53.3333
2120 53.3333
39.75
El valor de tablas de la distribución : con 5 $.$F, v % 5 & y v & 5 / grados de libertad en el numerador y el denominador, respectivamente, es H.FF. -l comparar el estad3stico de prueba contra el valor de tablas vemos que : $ es '#($ que : !"!# , & , /= reca*amos la ipótesis nula. +or lo tanto, -(!e'() #i$'#$ 4ue *#) ui*i!#!e) !e* $e)#u$#ne e)5n )i6nii%#i7#'ene $e*#%i(n#!#) %(n *# !e'#n!# !e %#)u- n#%i(n#* & %(n *# !e'#n!# !e %#)ui'-($#!# & %(n #'+#). - fin de determinar exactamente con cuales variables se relaciona la variable , reali*aremos pruebas de ipótesis sobre coeficientes individuales. +ara determinar si la demanda de catsup nacional tiene efecto o no sobre las utilidades, planteamos los siguiente. 7 0 : 1
0 7a : 0 1
el estad3stico de prueba es#
Universidad Católica del Norte DAMA 00312
12
ˆ
t0
t0
t0
8 .9
1
92E 111 32.5
53.3333 0.25
El valor de tablas de la distribución t>student con 5 $.$&F y v 5 / grados de libertad es /.%&. 1omparando el valor absoluto del estad3stico de prueba con el valor de las tablas, notamos que t $ es '#($ que t !"!$# , / por lo que reca*amos la ipótesis nula. 1oncluiremos entonces que *# !e'#n!# !e %#)u- n#%i(n#* ), iene ee%( )i6nii%#i7( )(+$e *#) ui*i!#!e) !e* $e)#u$#ne .
"a siguiente prueba de ipótesis nos permitirá determinar si la demanda de catsup importada tiene o no efecto sobre las utilidades# 70 : 2
0 7a : 0 2
el estad3stico de prueba es#
ˆ
t0
t0
t0
0.53
2
92E 1 22
0.1 53.3333 0.0006666
El valor de tablas de la distribución t>student con 5 $.$&F y v 5 / grados de libertad es /.%&. -l comparar el valor absoluto del estad3stico de prueba con el valor de las tablas, vemos que t $ es 'en($ que t!"!$#, / por lo que no se puede reca*ar la ipótesis nula. "o anterior nos lleva a concluir que n( e8i)en *() e*e'en() )ui%iene) -#$# #i$'#$ 4ue *# !e'#n!# !e %#)u- i'-($#!# en6# ee%( )(+$e *#) ui*i!#!e) !e* $e)#u$#ne .
En el in%i)( 3 se pide calcular intervalos de confian*a del HF @ para los parámetros del modelo ( $, % y &) 1omo el intervalo de confian*a es del HF @, el valor de es igual a $.$F. El valor de tablas de la distribución t>student con $.$&F y / grados de libertad es de /.%& El intervalo de confian*a del HF@ para $ queda de la siguiente manera#
Universidad Católica del Norte DAMA 00312
13
ˆ t 0
10
3.182
2
,n p
92E 1 00
ˆ t 0
0
2
10 3.182 2:011;9 β < 9:011;9
53.3333 2.833333
92E 1 00
,n p
0
53.3333 2.833333
1omo conclusión, )e #i$'#$ %(n un :;= !e %e$e># 4ue *# ($!en#!# en e* ($i6en )e$5 -($ *() 'en() ?2:011;9 # *( 'u%@( 9:011;90 Este es el rango de valores por donde cortará el plano al e!e .
El intervalo de confian*a del HF@ para % lo calculamos de la siguiente manera#
ˆ t 1
32.5
2
,n p
3.182
92E 111
ˆ t 1
1
2
,n p
92E 111
32.5 3.182 2<0AA<: β 1 99011:<
53.3333 0.25
1
53.3333 0.25
1omo los dos valores del intervalo resultaron positivos, )e -ue!e #i$'#$ %(n un :;= !e %e$e># 4ue -($ %#!# in%$e'en( en *# !e'#n!# !e %#)u- n#%i(n#* *#) ui*i!#!e) )e in%$e'en#$5n -($ *( 'en() 2<0<: # *( 'u%@( 99011:< 7e%e) en -$('e!i( )ie'-$e %u#n!( *# !e'#n!# !e %#)ui'-($#!# -e$'#ne>%# %(n)#ne.
+or último, para calcular el intervalo de confian*a del HF @ para
ˆ t 2
0.1 3.182
2
,n p
92E 1 22
53.3333
ˆ t 2
2
2
,np
.000666 0.1 3.182 0E::D β 2 09::D 2
92E 1 22
53.3333 0.000666
En el resultado anterior se tienen un valor negativo y uno positivo a la i*quierda y a la dereca, respectivamente= simplemente n( )e -ue!e #i$'#$ 4ue *# !e'#n!# !e %#)u- i'-($#!# en6# ee%( )(+$e *#) ui*i!#!e).
En el in%i)( 9 se requiere calcular intervalos de confian*a del H$@ para la respuesta media y para una observación futura de la utilidad del restaurante cuando la demanda de castup nacional es de D y la de catsup importada sea de F$. -qu3 el intervalo de confian*a solicitado es de H$@, por lo que el valor de será igual a $.%$ El valor de tablas de la distribución t>student con $.$F y / grados de libertad es# &./F/. +rimero se tiene que calcular la utilidad estimada cuando % 5 D y & 5 F$. En forma matricial#
Universidad Católica del Norte DAMA 00312
14
ˆ ( 0
ˆ X F<β
ˆ ( 0
1
ˆ ( 0
135
4
10 50 32.5 0 1 .
Cu#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 *# !e'#n!# !e %#)u- i'-($#!# )e# !e ;< *#) ui*i!#!e) e)-e$#!#) !e* $e)#u$#ne )e$5n !e 13; uni!#!e) .
El intervalo de confian*a del H$@ para la utilidad esperada está dado por#
ˆ % t ( ( 0
( 135 % 2.353
2
,n p
1
92E X F< X X X <
2.83333 0.5 0.03333 1 0.5 4 53 .33331 4 50 0.25 0 0.03333 0 0.000666 50 11E09; G Y 1;30;;
Se -ue!e #i$'#$ %(n un :<= !e %e$e># 4ue %u#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 *# !e %#)u- i'-($#!# )e# !e ;< *# ui*i!#! e)-e$#!# !e* $e)#u$#ne )e$5 -($ *( 'en() 1109; # *( 'u%@( 1;30;; uni!#!e). El intervalo de confian*a del H$ @ para la observación futura de la utilidad del restaurante ba!o las mismas condiciones de % y & está dado por#
(0
(0
135 % 2.353
ˆ % t ( 0
2
,n p
1
92E 1 X F< X X X <
, & 53.3333+1 1 & *
2.83333 0.5 0.03333 1 ) 0.5 4 & 4 50 0.25 0 ( & 0.03333 0 0.000666 50 ' 1<:0D13: Y< 1E<02AE1
Se -ue!e Ai$'#$ %(n un :<= !e %e$e># 4ue %u#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 *# !e %#)u- i'-($#!# !e ;< *# ui*i!#! !e* $e)#u$#ne )e$5 -($ *( 'en() 1<:013: # *( 'u%@( 1<021 uni!#!e). +or último, en el in%i)( ; se pide calcular e interpretar el coeficiente de determinación múltiple#
Universidad Católica del Norte DAMA 00312
15
42
42
4
2
224 2yy 4240 4400
.9636
e)( in!i%# 4ue e* :03 = !e *# 7#$i#+i*i!#! !e *# ui*i!#! !e* $e)#u$#ne )e e8-*i%# 'e!i#ne e* '(!e*( !e $e6$e)i&n *ine#* '*i-*e
ˆ (
10 32.5 ) 0.1) 1
2
%u#n!( )e ui*i>#n *# !e'#n!# !e %#)u- n#%i(n#* *# !e'#n!# !e %#)u- i'-($#!# %('( 7#$i#+*e) $e6$e)($#). - continuación se muestran los resultados del e!ercicio anterior calculados en una o!a de cálculo diseada para resolver los problemas de regresión lineal múltiple (con & variables independientes).
Universidad Católica del Norte DAMA 00312
16