Apuntes de Econometría I

Profesor Martín Francos Rodríguez Versión: 1.1 Fecha: 13 de noviembre de 2010

Capítulo 1 2 3 4 5 6 7 8 9 10

Tema Introducción Modelo clásico de regresión lineal simple: Estimación Modelo clásico de regresión lineal múltiple: Estimación Modelo clásico de regresión lineal simple: Inferencia Modelo clásico de regresión lineal múltiple: Inferencia Modelo con variables independientes cualitativas Multicolinealidad Multicolinealidad Heterocedasticidad Autocorrelación Autocorrelación Especificación de modelos

Página 1 12 58 74 98 124 133 145 169 183

ii

A continuación se presenta una recopilación de mis apuntes de clase de econometría en la Pontificia Universidad Católica Madre y Maestra desde el año 2003. Este libro está dirigido particularmente particularmente a estudiantes de economía, para un curso de un semestre, tanto para estudiantes de pregrado, como para un curso introductorio a nivel de maestría. El propósito de estos apuntes, no es sustituir ninguno de los libro habituales utilizados por los profesores de econometría en los cursos mencionados anteriormente, sino presentar de forma detallada y concisa, algunos aspectos teóricos y demostraciones, que otros textos habituales en estos cursos suelen dejar en un segundo plano.

Martín Francos Rodríguez, MA Profesor Departamento de Economía Pontificia Universidad Católica Madre y Maestra

Es una pregunta que algunos libros de texto suelen eludir o contestar vagamente. Etimológicamente significa “medición económica”, pero aunque la medición es parte importante de la econometría, el alcance de esta disciplina es mucho mayor. Para tener una mayor profundidad sobre su alcance, veamos a continuación algunas definiciones: 

“…consiste en la aplicación de la estadística matemática a la información económica para dar soporte empírico a los modelos construidos por la economía matemática”1



“La econometría pude ser definida como la ciencia social en la cual las herramientas de la teoría económica, económica, las matemáticas y la inferencia inferencia 2 estadística son aplicadas al análisis de los fenómenos económicos”



“Es la aplicación de métodos estadísticos y matemáticos al análisis de los datos económicos con el propósito de otorgar contenido empírico a las 3 teorías económicas, verificándolas o refutándolas” refutándolas”

Algunos comentarios sobre la Econometría y los econometristas se refieren a:

1

Samuelson P.A., T.C. Koopmans y J. R. N. Stone, Stone, “Report of the Evaluative Committee for Econometrica”, Econometrica, vol 22, núm 2, abril de 1954, pp.141-146 2 Goldberger, Arthur, Econometric Theroy, John Wiley & Songs, Nueva York, 1964 3 Maddala, G.S. (1996). Introducción a la Econometría. 2da. Edición. Prentice Hall.

Introducción a la la econometría econometría

2



“El arte del econometrista consiste en encontrar el conjunto de supuestos que sean suficientemente específicos y realistas, de tal forma que le permitan 4 aprovechar de la mejor manera los da tos que tiene a su disposición” .



“Los econometristas... son una ayuda en el esfuerzo por disipar la mala imagen pública de la economía (cuantitativa o de otro tipo) considerada como una materia en la cual se abren latas vacías, suponiendo la existencia de abrelatas, para revelar un contenido que será interpretado por diez 5 economistas de once maneras diferentes” .

Podemos resumir los distintos elementos aportados por las definiciones en: “Aquella rama que otorga a la economía como ciencia, un carácter empírico mediante el estudio de la aplicación de métodos estadísticos al análisis y predicción de fenómenos económicos”. económicos”. No obstante ello, las herramientas desarrolladas por esta disciplina tienen aplicaciones en muchos campos distintos al económico. Los econometristas son al mismo tiempo:    

Economistas: interpretan o crean teorías para probar empíricamente Matemáticos: formula matemáticamente matemáticamente su teoría Estadísticos aplicados: buscan datos para luego tratar de estimar relaciones económicas Estadísticos teóricos: desarrollan técnicas útiles para resolver problemas empíricos

La econometría no significa estadística económica, ni teoría económica ni aplicación de las matemáticas matemáticas y estadística estadística a la economía. Econometría es una unificación de las tres áreas. A diferencia del estadístico, el econometrista está preocupado por los problemas causados por la violación de los supuestos estadísticos clásicos, la naturaleza de las relaciones económicas y la falta de experimentos controlados. controlados.

4 5

Malinvaud, E. Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p.514 Darnell, Adrian y J. L ynne Evans, The Limits of Econometrics, Edward Elgar Publishing, Hants, Inglaterra 1990.


3

Un modelo es una representación simplificada de algún fenómeno, utilizado con fines explicativos o predictivos. Tienen origen en alguna teoría, y aunque sufren algunas modificaciones, modificaciones, conservan conservan lo esencial esencial de la teoría. teoría. Los modelos modelos constan de una o varias ecuaciones matemáticas que describen la teoría que los origina.

Es un conjunto de supuestos que aproximadamente describen el comportamiento de una economía (o de un sector). Por ejemplo la función de producción producción Cobb   Douglas, Y  AK L . Para poder testear este modelo, es necesario incorporarle elementos estocásticos. Esto lo convertirá de un modelo económico en uno econométrico.

Es un conjunto de ecuaciones de comportamiento derivadas de un modelo económico que involucra:  

Variables observables Elementos estocásticos o shocks, que recogen errores de medición en las variables observadas y factores que no pueden ser recogidos por el modelo.

Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables explicativas, sino por cierta aleatoriedad del comportamiento humano o del contexto.  

El modelo determinístico Y  AK L , se transforma en modelo econométrico:   u Y  AK L e . u

El término e será una variable aleatoria con determinadas propiedades, por lo que deberemos especificar la distribución de probabilidad de u y las consecuencias de estas sobre la estimación.


4

La econometría puede ser dividida en dos amplias categorías: 

Econometría Teórica. Se ocupa del desarrollo de métodos apropiados para medir las relaciones económicas especificadas por los modelos econométricos. En este sentido deben especificarse los supuestos del método, sus propiedades y las consecuencias de las violaciones de los supuestos.



Econometría Aplicada. Aplicada. Utiliza las herramientas herramientas de la econometría teórica para estudiar algunos campos especiales de la economía y los negocios (funciones de producción, funciones de demanda y oferta, etc.)

Los pasos utilizados por la econometría se resumen en: i. ii. iii. iv. v. vi. vii. viii.

Planteamiento de la teoría o de la hipótesis Especificación del modelo matemático de la teoría Especificación del modelo econométrico de la teoría Obtención de datos Estimación de los parámetros del modelo econométrico econométrico Pruebas de hipótesis Pronóstico o predicción Formulación o control de políticas

Veamos a continuación con detalle en que consiste cada uno de los pasos.

Pasos Planteamiento de la teoría

Descripción Teoría Keynesiana del Consumo: El consumo aumenta a medida que el ingreso aumenta, pero no en la misma cuantía del aumento en su ingreso. Es decir, que la propensión marginal a consumir es mayor que cero, pero, menor que uno. Especificación del modelo Según el planteamiento de Keynes: matemático C  f (Y )   1   2Y , donde 0   2  1 . Especificación del modelo La especificación del modelo econométrico econométrico incluye un componente estocástico o de error: C   1   2Y  u


Obtención de datos

Estimación del modelo Prueba de Hipótesis

Proyección o predicción

5

Boletines, Internet, encuestas, etc. En nuestro ejemplo las Cuentas Nacionales del BC son una fuente. C  231.8  0.7194Y A priori se esperaba que β 2<1, por lo que es necesario probar que el valor obtenido es estadísticamente menor que 1. Además se puede puede testear si los coeficientes son estables en el tiempo. Utilización del modelo para fines de control o de política ˆ

ˆ

El diagrama que representa la metodología de la econometría se puede resumir en:

1. Teoría económica 2. Modelo matemático 4. Obtención de datos

3. Modelo econométrico 5. Estimación del modelo

6. Pruebas de hipótesis

7. Predicción

8. Formular políticas

Veamos un ejemplo:

Información a priori

Introducción a la econometría

6

1. Función de producción Cobb-Douglas

α

4. Conseguir los datos de PIB (Y) y Empleo (L) del Banco Central. Construir una serie de Capital (K).

β

2. Y=AK L α

β 

3. Y=AK L e

5. Estimación de  y 

Revisión de resultados obtenidos en otros estudios similares, nacionales e internacionales

6. Verifico hipótesis respecto a los parámetros. Ej: Test  +  = 1

7. Dadas las estimaciones de K y L, pronostico cual será el PIB del próximo año

8. Formular políticas

Al anterior diagrama se pueden presentar algunas críticas:   

Hay feedback entre 1 y 6: no es ciert o que solo se “testean teorías”, los resultados econométricos influyen en las teorías. Hay feedback entre 3 y 5 con 4: también hay aportes en datos Hay feedback entre 6 y 2: como resultado de los test econométricos es posible replantear modelos econométricos

Podemos replantear el diagrama, incluyendo la retroalimentación de la manera siguiente:


7

Teoría Económica Modelo Econométrico

Datos

Estimación Prueba de Especificación y examen de Diagnóstico No

¿Es el modelo adecuado?

Si

Prueba de alguna hipótesis Uso del modelo para predicción y políticas

¿Qué constituye un test para la teoría económica?  Signos de los coeficientes son correctos.  El test más vá lido: “que una teoría económica genere mejores predicciones que una alternativa.  Estabilidad de los coeficientes estimados (Crítica de Lucas)

La econometría no es un elemento para derribar teorías, sino para conocer la realidad. Si los datos no se ajustan a lo esperado en teoría, lo único que se puede decir es que estos datos no verifican la teoría. Es un error común concluir que la equivocada es la realidad, si esta no coincide con el modelo. Fuentes de error en la elaboración del modelo:  El modelo no se ajusta a la realidad.  Mala formulación del modelo  No se dispone de buena calidad y/o cantidad de datos.


8

Proviene de un estudio de Francis Galton (1886) en el que la estatura promedio de los niños que nacían de padres con una determinada estatura tendía a moverse o “regresar” hacia la altura promedio de la población total. Ello aún cuando existía una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran hijos bajos. Galton dijo que existía una “regresión a la mediocridad”

Una curva de regresión establece una relación entre una variable explicada o dependiente (Y) y las explicativas o independientes (X). El objetivo es predecir o estimar el valor medio poblacional de Y conocidos los valores de las variables explicativas X. O sea establecer el valor de esperado de Y, dado el valor de las X. Matemáticamente, Y  E Y / X  el valor estimado de Y será la esperanza condicional de Y dado X. ˆ

Ejemplos:  La relación entre el Consumo y el Ingreso disponible de las familias  La relación entre el desempleo y el nivel de los salarios reales  La relación entre las notas de un grupo de alumnos y el número de horas de estudio

En general llamamos a las variables utilizadas como:  

Variable dependiente, la cual denotaremos con la letra Y , es la variable que queremos explicar o predecir Variable(s) independiente(s), que denotaremos con X k, donde k es el número de variables explicativas.

Estas variables en ocasiones reciben otros nombres los cuales se presentan a continuación:


Y Dependiente Predicha Regresada Explicada Causada Endógena Objetivo 

9

X 1 , X 2…. X k Independiente Predictores Regresores Explicativas Causante Exógena Control

Término aleatorio o estocástico, el cual denotaremos como cualquier conjunto de valores, con una probabilidad dada.

u

y puede tomar

El concepto de regresión implica una relación estadística entre una o más variables X y Y, pero la existencia de una relación estadística, no implica que exista una relación de causalidad entre las variables. La explicación de la causalidad debe venir dado a priori por la teoría. De aquí la importancia del rol de la teoría en la econometría.

Los tipos de datos que se manejan en econometría y que veremos a continuación en detalle son:  Corte transversal (Cross-section)  Combinación de cortes transversales  Series de tiempo (Times series)  Datos de panel (Panel Data)

Los datos de corte transversal o Cross-section son observaciones de una o más variables recogidas en un mismo periodo de tiempo. En la tabla siguiente, por ejemplo, se muestra un grupo de variables representativas de una encuesta de “n” trabajadores, a través de las cuales podríamos estudiar como es afectado el salario por variables como años de escolaridad, años de experiencia y el sexo del trabajador.


Observación 1 2 3 . . . . n

Salario 3.10 3.24 3.00 . . . . 3.50

10

Educación 11 12 11 . . . . 14

Experiencia 2 22 2 . . . . 5

Sexo 1 1 0 . . . . 1

Como su nombre lo dice, es una combinación de muestras de cortes transversales para las mismas variables tomadas en diferentes periodos de tiempo. Supongamos que para los datos mostrados en el ejemplo anterior, tenemos otra muestra con datos de un año posterior para las mismas variables; en este caso podríamos aumentar nuestra muestra sobre los efectos de la educación, experiencia y sexo sobre el salario de los trabajadores.

Las series de tiempo son observaciones sobre los valores que toman una o más variables a lo largo de cierto periodo de tiempo. Ej. el IPC, el PIB, etc. Estos datos tienen un orden cronológico y suelen estar relacionados con su historia reciente y/o mostrar patrones estacionales. A continuación se presenta una tabla con datos de Consumo e Ingreso disponible:

Observación

Año

Consumo

1 2 3 . . 34

1970 1971 1972 . . 2003

90 200 130 . . 115

Ingreso Disponible 110 225 130 . . 125


11

Los datos de panel son combinaciones de series de tiempo con corte transversal, pero a diferencia de la combinación de cortes transversales, una misma variable de corte transversal es seguida a través del tiempo. En otras palabras, los datos de panel dan seguimiento en el tiempo, a las mismas unidades transversales. Por ejemplo, supongamos que para 150 ciudades, tenemos datos de homicidios, desempleo y población en dos años diferentes 1986 y 1990. En este caso podríamos evaluar, no sólo como afectan el desempleo y el tamaño de la población en el número de homicidios, sino también como cambian el comportamiento a través del tiempo.

Obs 1 2 3 4 . 299 300

Ciudad 1 1 2 2 . 150 150

Año 1986 1990 1986 1990 . 1986 1990

Homicidios 5 8 2 1 . 25 32

Desempleo 8.7 7.2 5.4 5.5 4.3 5.2

Población 2 22 2 . . . 5

En este capítulo veremos como se estima el Modelo de Regresión Lineal Simple, los supuestos y las propiedades de este modelo. Antes de iniciar en detalle, es preciso explicar algunos conceptos como las relaciones estocásticas y determinísticas, linealidad, función de regresión poblacional y función de regresión muestral.

Las relaciones entre las variables pueden ser determinísticas o estocásticas. En el caso de la primera, son relaciones matemáticas, en el caso de las segunda son estadísticas. Veamos:  Relación determinística: Y  K

0.3

L0.7 . Si dividimos entre L y aplicamos

logarimo tenemos: Y L



K 0.3 L0.7 L



K 0.3 0.3

L

 K     L 

0.3

ln( LY )  0.3 ln( LK )

Graficamente tendríamos: Ln(K/L) Ln(Y/L)

X Y

12 3.6

14 4.2

20 6

5 1.5

Modelo de Regresión Lineal Simple: Estimación

13

7 6 5 ) L 4 / Y ( n 3 L

2 1 0 0

5

10

15

20

25

Ln (K/L)

 Relación estocástica: Si u es una variable aleatoria

Y  K 0.3 L0.7 e

u

0.3

 K      eu L L  L  ln( LY )  0.3 ln( LK )  u Y

K 0.3 L0.7 e u

Ahora, ln(Y/L) no sólo depende de ln(K/L) sino también de una variable aleatoria. Supongamos que u= +1 con prob 0.5 y -1 con prob 0.5. 8

LN(K/L)

LN(Y/L) si u = 1

Y/L si u = -1

7 6

X

Y

Y

5

12

4.6

2.6

4

14

5.2

3.2

3

20

7

5

2

5 10

2.5 4

0.5 2

1 0 0

10

20

30

Supongamos ahora que u es una variable aleatoria continua que tiene una distribución normal estandarizada (con esperanza 0 y varianza 1). Entonces por cada valor de K/L tendremos infinitos valores de Y/L, dependiendo del valor de u.


14

L / Y n L

E(u)=0 E(u)=0 E(u)=0

Ln(K/L) En términos generales en econometría tendremos una relación estocástica entre la variable dependiente ( Y i) y la explicativa ( X i). La siguiente relación tiene dos componentes: Y i=α+βX i+u  Componente determinístico: α+βX i, donde α y β son los coeficientes de la

regresión. Sus valores serán estimados a partir de los datos disponibles para X e Y .  Componente estocástico: u Fuentes de error u  Variables omitidas.

Aunque el ingreso sea el mayor determinante del consumo, no es el único. Otras variables como la tasa de interés o las tenencias de activos líquidos pueden influir en el consumo. La omisión de estas variables constituye un error de especificación. Existen otras variables que también influyen de manera no sistemática como las variaciones del clima, cambios de gustos, terremotos, epidemias.  Error de medición. Puede ser que la variable explicada no sea medida exactamente, por las dificultades de recolectar los datos o porque es imposible de medir y se utiliza una variable proxy.  Indeterminación humana. Algunos piensan que las acciones de la conducta humana bajo iguales circunstancia difieren de manera aleatoria (sesgo de respuesta).


15

En una ecuación lineal todas las variables están elevadas a la primera potencia, y sin multiplicarse entre sí. Pero en econometría es necesario distinguir entre linealidad en los parámetros y linealidad de las variables.  Linealidad en las variables: La(s) variable(s) sólo aparecen elevadas a

potencia de 1. Contra ejemplo: E (Y / X )   1   2 X i2 .  Linealidad en los parámetros: Lo(s) parámetros(s) sólo aparecen elevadas a potencia de 1. Contra ejemplo: E (Y / X )   1   2 X i . De ahora en adelante, cuando nos refiramos al término regresión lineal, significará una regresión lineal en los parámetros.

Supongamos ahora que el salario de un empleado depende de la educación, siendo el salario mayor cuanto mayor es la educación. Supongamos que tenemos los datos de salario por hora (en dólares) y los años de educación de una “población” de empleados, los cuales se muestran en la tabla siguiente: X Y ) $ S U ( a r o h r o p o i r a l a S

E(Y/X)

8 3.77 4.40 4.09 5.73 5.42 3.80 6.37

9 4.46 4.67 5.30 4.99 6.63 6.32 5.93 7.27

10 5.36 7.05 6.10 5.57 6.20 5.89 7.53 7.49 8.17

Educación (años) 11 12 13 14 6.26 7.16 8.06 8.96 7.95 8.00 9.75 10.65 7.00 7.69 8.80 9.70 7.10 9.33 8.27 9.17 6.79 9.02 8.90 9.80 8.43 7.60 8.59 9.49 8.12 9.97 10.23 11.13 8.54 9.92 10.82 9.07 9.58 10.48 10.87 11.77

4.80

5.70

6.60

7.70

8.40

9.30

10.20

15 9.86 11.55 10.60 10.07 10.70 12.03 11.72 10.67 12.67

16 10.76 12.45 11.50 10.97 12.62 12.11 13.57

17 11.66 13.35 12.40 11.87 12.50 12.19 14.73 14.47

11.10

12.00

12.90

Para un número dado de años de educación (X) existen diferentes niveles de salario por hora (Y). Por ejemplo, para un nivel dado de 8 años de educación, existen


16

empleados con salarios por hora de 3.77, 4.40, 4.09, 5.73, 5.42, 3.80 y 6.37 dólares, sin embargo, el salario esperado de un empleado con 8 años de educación es 4.80 US$/hora. Se puede apreciar en los datos, que los salarios son mayores, mientras más años de ecuación tiene el trabajador. 16 ) 14 $ S U12 ( a r o 10 h r o 8 p o i r 6 a l a S 4

= E(Y/X i )

2 7

8

9

10

11

12

13

14

15

16

17

Educación (años)

La recta que une todas las medias condicionales, se llama función de regresión poblacional (FRP). La media condicional E(Y/X i) es una función de X i. Matemáticamente podemos expresar el concepto de los párrafos anteriores como E(Y/X)=f(X).


17

o i r a l a S

FRP

6.60 5.70 4.80

8

9

10

Educación

Pero ¿qué forma funcional tiene f(X)? La respuesta de esta pregunta va a depender en gran medida de la teoría. Supongamos que f(X) es función lineal de X , entonces la FRP es: E Y / X i   1   2 X i

(3.1)

donde β 1 y β 2 son parámetros no conocidos pero fijos llamados coeficientes de regresión y el subíndice i representa las observaciones de la muestra. Sin embargo para un X i dado, el Y i se desvía de la E(Y/X i), por un término de error estocástico ó perturbación estocástica ui. ui  Yi  E (Y / X i )

Entonces, Yi  E Y / X i   ui

 1   2 X  ui

(3.2)


18

Y i

FRP: E(Y/ X i ) = β 1 + β 2 X i

Y1

β 2

u1 E(Y/X)

u2

Y2

β 1

X1

X2

X i

Entonces, la variable dependiente Y i tiene dos componentes: i. esperado E(Y/X i) o sistemático ii. aleatorio o no sistemático ui

En la práctica, la mayoría de las veces no vamos a conocer la población, sino que vamos a tener una muestra de la población, a partir de la cual estimaremos la FRP, la cual llamaremos función de regresión muestral (FRM): Yi  1   2 X ˆ

ˆ

ˆ

Donde las variables con “^” denotan que es un estimador del parámetro.

(4.1)


19

Población

Muestra

Y

. . . . .

Y

. . . . .

. . . . .

X X X X

X

X

X

Dado que no conocemos la población sino muestras, la estimación de la E(Y/X i) dependerá de la muestra elegida. En el caso del ejemplo de los salarios y la educación, si obtenemos dos muestras al azar de la “población”, el resultado sería similar al gráfico de más abajo. ¿Cuál es la verdadera FRM? No lo sabemos. 15 13 ) a r 11 o h / $ 9 S U ( o 7 i r a l a 5 S

3 1 7

9

11

13

15

Educación (años) muestra 1

muestra 2

FRM 1

FRM 2

17


20

La diferencia entre los Y i poblacionales y los estimados residuos.

Y i , ˆ

es lo que llamaremos

ei  Yi  Y i ˆ

ei  Yi  1   2 X i ˆ

(4.2)

ˆ

ei  ui ˆ

Asimismo, como Yi  Yi  ei , entonces: ˆ

Yi  1   2 X i  ei ˆ

(4.3)

ˆ

Y i

Y1

^

^

^

FRM: Y i = β 1 + β 2 X ^  2

u1

FRP:

e1

 2

E(Y/ X i )

E(Y/ X i ) = β 1 + β 2 X i

^ Y 1

β 1 ^ β 1

X i Existen diferencias entre ui y ei ui  es no observable (no conocemos la población)  es una variable aleatoria a la que se le supone cierta distribución de

probabilidad ei  es observable (se dispone de valores)  satisface ciertas propiedades que veremos más adelante


21

¿Cómo calcular  1 y  2 ?  ¿Método de momentos?  ¿Máxima Verosimilitud?  ¿Método de Mínimos Cuadrados Ordinarios (MICO)? ˆ

ˆ

El método de MICO posee algunas propiedades estadísticas atractivas que veremos más adelante.

Podemos tener varios estimadores para un mismo parámetro, el problema es elegir cuál de estos es el mejor. Para elegir entre varios estimadores de un parámetro, existen varios criterios que nos pueden ayudar, los cuales se presentan a continuación: Insesgamiento

Un estimador  es insesgado de  si el valor esperado del estimador es igual al verdadero  E     . Esto no significa que    , sino que si calculamos el estimador correspondiente para muestras repetidas, “en promedio” estaremos sobre el parámetro poblacional. ˆ

ˆ

ˆ

Eficiencia

Un estimador es más eficiente, mientras más pequeña sea su varianza. En el caso del gráfico siguiente, tanto A como B son estimadores insesgados de θ , pero B es más eficiente que A.


22

Función de densidad de robabilidad Estimador B

Estimador A

Ahora bien, ¿que pasa si tengo un estimador insesgado y otro sesgado, pero con menor varianza? Error cuadrático medio (ECM)

El ECM de un estimador  se define como: ˆ



ECM ( )  E    ˆ

ˆ



2

ˆ

ECM( )  E (   ) 2  ˆ

 var( )  sesgo2 Resto

y

sumo

 

para

E  ˆ

  mantener la igualdad  E (  E ( )  E ( )   )2   E (  E ( )) 2  ( E ( )   ) 2  2(  E ( ))( E ( )   )   E (  E ( )) 2   E ( E ( )   ) 2   E 2(  E ( ))( E ( )   )   var( )  ( E ( )   ) 2  2 E  E ( )    E ( ) E ( )  E ( )   var( )  ( E ( )   ) 2  2  E ( ) E ( )  E ( )  E ( ) E ( )  E ( )  ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

 var( )  ( E ( )   ) 2  0  var( )  ( E ( )   ) 2 ˆ

ˆ

 var( )  sesgo 2 ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ


23

Función de densidad de robabilidad Estimador B

Estimador A

En caso que tengamos un estimador insesgado y otro sesgado, pero con menor varianza, debemos elegir el que tenga menor ECM. En muchos problemas econométricos es imposible encontrar estimadores con las propiedades anteriores. Sin embargo, muchas veces se puede justificar la utilización de un estimador en base a sus propiedades asintóticas. Consistencia

Un estimador  es consistente si se aproxima al verdadero valor de  a medida que el tamaño de la muestra se hace más grande. 1 ˆ

Eficiencia asintótica

Si un estimador  es consistente y su varianza asintótica es menor que la de otros estimadores, entonces  es asintóticamente eficiente. ˆ

ˆ

1

Formalmente se expresa como lim P         1 , donde P indica probabilidad y δ>0. También se pude n 



ˆ



expresar como p lim   , donde plim significa probabilidad en el límite. ˆ


Función de densidad de probabilidad

24

n = 1000

n = 100 n = 20

Otros

Kennedy considera además de los expuestos, otros criterios como:  Costo computacional  Minimizar errores cuadrados  Mayor R-cuadrado

Nuestro objetivo es encontrar la recta que pasé lo mas cerca de nuestras observaciones, para lo cual deberíamos de minimizar la suma de los errores ó residuos. Pero minimizar cuales errores ¿Min Σe? o ¿Min Σe2? La diferencia entre minimizar Σe ó Σe2, está en que de la primera manera estamos ponderando igual un residuo (desviación) pequeña que una grande, mientras que si minimizamos la suma de residuos al cuadrado estamos ponderando más las desviaciones más grandes. Lo que hace MICO, es minimizar la sumatoria de errores al cuadrado, ei2 (para dar peso proporcional a residuos más grandes). O sea, minimizaremos la suma de los cuadrados de las “distancias verticales” desde los puntos a la recta.


25

Sabemos que ei  Yi  Y i y ei  Y i   1   2 X i , entonces: ˆ

ˆ

ˆ

2

 e   Y  Y  2 i

ˆ

i

i

i

i

  Yi  1   2 X i  ˆ

2

ˆ

i

 f  1 ,  2  ˆ

ˆ

Planteando el problema de minimización: min

 e   (Y   2 i

i

  ei 0  

  2 X i )2

ˆ

i

ˆ

1

(6.1)

i

2

ˆ

1

CNPO

  ei 0   2

ˆ

2

  ei 0   2

2

ˆ

1

  ei 0   2

CNSO

2

ˆ

2

Resolviendo para  1 : ˆ

ei

Q  2 (Yi  1   2 X i )(1)  0   1 ˆ

ˆ

ˆ

 (Y    X )  0 Y   1    X  0 ˆ

i

ˆ

i

ˆ

1

2

i

ˆ

1

i

2

Y  1 nn   2 X  0 ˆ

ˆ

(6.2)


26

Despejando  1 tenemos: ˆ

1  Y   2 X ˆ

(6.3)

ˆ

También podemos expresar (6.2) como:

Esta es la 1ª condición que se debe cumplir para minimizar la suma de cuadrados de los residuos.

Q  2 ei (1)  0   1 ˆ

e

i

0


Q  2 (Yi  1  2 X i )(  X i )  0   2 ˆ

ˆ

ˆ

Y X i

 1  X i  2  X i2  0 ˆ

i

(6.4)

ˆ

 1 ˆ

Y X  Y   X   X ˆ

i

2

i

0  2  X i2  ˆ

i

Y X  Y   X   X   X Y X  Y   X  nX    X Y X  nYX   XnX    X Y X  nYX     X  nX  ˆ

i

i

i

i

i

i

i

i

ˆ

2

2

i

ˆ

2

ˆ

2 i

ˆ

2

2

2 i

ˆ

2

2 i

ˆ

2

2 i

2


 2  ˆ

Y X  nYX  X  nX i

También podemos expresar (6.4) como:

i

2 i

2

(6.5)


27

Q  2 ei X i (1)  0   2

Esta es la 2ª condición que se debe cumplir para minimizar la suma de cuadrados de los residuos

(6.6)

ˆ

 e X  0 i

i

A las dos condiciones se les llama generalmente Ecuaciones Normales. Podemos plantear (6.5) de dos maneras alternativas: i.

Recordando las fórmulas de la covarianza y la varianza muestral y transformándolas:

S xy  cov( X , Y ) 



X iYi

n 1

Y

 ( X

X

i

n

n 1 n

i

 X )(Yi  Y )  ( X iYi  X i Y  XYi  XY )  n 1 n 1

X

X Y  nXY  

Y

i

n

n 1 n



n n 1

XY 

 X Y  YX i i

n 1

n n 1

 XY

n n 1

 XY

n 1

i i

n 1

El último término es similar al numerador de (6.5).

 X  X    X  X  X  X    X     2

2 x

S

i

i

n 1

2 i

i

n 1

 2 X X i  X 2   n 1

n X

X  

2 i



 2 X  X i  n X 2  X i2  2 X n n X  n X 2  X i2  n X 2   n 1 n 1 n 1 i

El último término es similar al denominador de (6.5). Por lo tanto, podemos expresar  2 como: ˆ

 2  ˆ

Y X  nYX  nS  X  nX (n  1)S i

i

2 i

XY

2

2 X



S XY 2 X

S

n

(6.7)


ii.

Dada la expresión anterior, podemos plantear  2 como: ˆ

 ( X  2  ˆ

28

S XY

 X )(Yi  Y )  xi yi , donde x  X  X y y  Y  Y . n 1  i i i i  ( X i  X )2  xi2 n 1



2

S X

i

TAREA: Verificar que las condiciones necesarias de segundo orden, corresponden con las de un mínimo. Ejemplo

Supongamos que conocemos los datos de producción y horas trabajadas de 10 trabajadores de una fábrica en un momento de tiempo (corte transversal). Definimos Y = producto, X = horas de trabajo. X  8 Y  9.6 Yi  1   2 X i  e ˆ

ˆ

Y X  nYX 789  10  9.6  8      0.75    X nX 668 10 8  ˆ

i

2

i

2 i

2

Obs. 1 2 3 4 5 6 7 8 9 10 

2

1  Y   2 X ˆ

ˆ

 9.6   2  8  9.6  0.75  8  3.6 ˆ

Yi  3.6  0.75 X i ˆ

Los errores se compensan, o sea, tienen media cero

De la primera ecuación normal tenemos:

X 10 7 10 5 8 8 6 7 9 10 80

Y 11 10 12 6 10 7 9 10 11 10 96

X2 100 49 100 25 64 64 36 49 81 100 668

Y2 121 100 144 36 100 49 81 100 121 100 952

XY 110 70 120 30 80 56 54 70 99 100 789


29

Q  2 ei (1)  0   1

(6.2)

ˆ

e  0 i

La regresión siempre pasa por el punto ( X , Y ) Yi  1   2 X i  ei ˆ

ˆ

Y       X   e Y  n     X  0 ˆ

ˆ

1

i

2

ˆ

i

ˆ

1

i

i

2

i

Y  1   2 X ˆ

(6.8)

ˆ

El valor medio de Y estimado es igual al valor medio de Y observado. Yi

 1   2 X i  ei

Yi

 Yi  ei

ˆ

ˆ

ˆ

Y  Y   e Y   e Y  ˆ

i

i

i

ˆ

i

i

n

n

Y  Y ˆ

La regresión se puede expresar en desvíos

De (4.3) y (6.8) tenemos Yi  1   2 X i  ei ˆ

ˆ

Y  1   2 X ˆ

Restando (4.3) – (6.8)

ˆ

(6.9)


30

Yi  Y  1   2 X i  ei  1   2 X ˆ

ˆ

ˆ

ˆ

Yi  Y   2 ( X i  X )  ei ˆ

yi   2 xi  ei

(6.10)

yi   2 xi

(6.11)

ˆ

ˆ

ˆ

Los residuos no están correlacionados con el valor estimado de Y i ni con los valores explicativos

cov( X , e) 

 ( X  X )(e  e )  ( X  X )(e )  X e   Xe  0  X  e   0

(6.12)

 (Y  Y )(e  e )  (Y  Y )(e )  Y e  Ye   0    

(6.13)

1 n

 1n  1n  1n

cov(Y , e)  ˆ

1 n

 1n  1n 1 n

i

i

i

i

i i

i

i

ˆ

ˆ

i

i

ˆ

ˆ

i

i

ˆ

ˆ

i i

i

Yi ei   n1   ( 1   2 X i )ei          1n  (Y   2 X   2 X i )ei    ˆ

ˆ

ˆ

ˆ

1

ˆ

ˆ

 1n Yei   2 X  ei   2  X i ei  ˆ

ˆ

Descomposición en suma de cuadrados

Sabemos que: obtenemos:

Yi  Yi  ei y Y  Y . ˆ

ˆ

Restando las dos expresiones anteriores


31

Yi  Y  Y  Y  ei ˆ

ˆ

lo que en desvíos respecto de la media puede expresarse como: yi  yi  ei ˆ

Dado que yi   2 xi , entonces yi   2 xi  ei . ˆ

ˆ

ˆ

Elevando al cuadrado:



y   2 xi  ei 2 i

ˆ



2

  yi  ei 

2

ˆ

  22 xi2  2 2 xiei  ei2  yi2  2 yiei  ei2 ˆ

ˆ

ˆ

ˆ

Aplicando sumatorias:

 y     x  2 x e  e     y  2 y e  e     x  2  x e   e   y  2 y e   e    x   e   y   e 2 i

2 2 2 i

ˆ

2 2

2 i

2 2

2 i

ˆ

ˆ

2 i

ˆ

2 i i

2 i

ˆ

2 i

ˆ

2

i i

2 i

ˆ

2 i

2 i

ˆ

i i

2 i

ˆ

ˆ

i i

2 i

2 i

Definimos

 y  y e ˆ

2 i

: Suma de cuadrados totales (SCT)

2 i

  22  xi2 : Suma de cuadrados explicados (SCE)

2 i

ˆ

: Suma de cuadrados residuales (SCR)

Por lo que SCT = SCE + SCR También podemos definir SCE como:

  xi yi  2 2 SCE   2  xi   2  x  i   ˆ

2

2



xi  2

 xi yi    xi2 

2



xi  2

 xi yi  xi yi    x  2 i

  2  xi yi ˆ


32

Es una medida de la bondad de ajuste, y mide la proporción de la variación total de Y que es explicada por el modelo de regresión, o sea: R 2 

SCE SCT



SCT  SCR

1

SCT

SCR

(7.1)

SCT

Sustituyendo por los valores definidos en la sección precedente R

2

y   SCT  y SCE

ˆ

2 i



2 i

x y

 22

2 i

ˆ

2 i

e  1  y

2 i 2 i

(7.2)

Características: 2  0≤R ≤1  Es una medida de bondad absoluta del modelo ya que mide que proporción de la varianza total (varianza de Y) es explicada por el modelo de regresión (por X).  Es una medida de bondad relativa entre modelos. Me permite comparar si la capacidad explicativa es mayor incluyendo una variable Z en vez de X 2. Sin embargo, debe tenerse cuidado al comparar modelos, pues no es posible hacerlo cuando la variable dependiente tiene diferentes unidades de medida en los modelos comparados. Por ejemplo, no es posible comparar entre si el R 2 de los modelos Y  f  K , L  y ln Y  f  K , L  , puesto que la variable dependiente tiene la unidad de medida y por lo tanto las SRC serán de magnitudes diferentes. Otra forma de expresar el R2: 2

 

  y x y      y  x

R 

 22

xi2

ˆ

2 i

 x y  x

2 i

2 i

2

i

2 i

  x

2

i

y

2 i

2

i

2

i i

2



S XY 2 X

2 Y

S S

 r X2 ,Y

Veremos que existen otras medidas de bondad de ajuste mejores que el R-cuadrado.

(7.3)


33

Es decir, en el modelo de regresión simple, el R 2 es igual al cuadrado del coeficiente de correlación simple 3. Propiedades de rX,Y:    

Esta entre -1 y 1 Simetría rxy=ryx Es independiente del origen y de la escala (a diferencia de la covarianza) Si X y Y son estadísticamente independientes r=0, aunque r=0 no implica independencia estadística.  Es una medida de asociación lineal, no tiene sentido utilizarla en asociaciones no lineales.  No implica una relación causa-efecto. En relación al modelo de regresión el R 2 tiene más significado que el coeficiente de correlación, ya que mide que porcentaje de la variación de la variable dependiente es explicada por la(s) variable(s) independiente(s).

Cuando derivamos los estimadores MICO no fue necesario realizar supuestos sobre la muestra o la distribución de ui. En la sección anterior vimos una serie de criterios deseados por los econometristas acerca de los estimadores. Estas características no pueden ser determinantes hasta que no se realicen un conjunto de muestras repetidas de los estimadores, sobre cómo fueron generadas las muestras. Desafortunadamente un estimador no tiene las mismas características para todas las formas en que puede ser generado. Esto significa que bajo algunos situaciones, un estimador tiene propiedades deseables pero en otras situaciones no. El modelo clásico de regresión lineal, consiste en una serie de supuestos acerca de cómo son generados los datos. Modificando estos supuestos, se pueden crear diferentes situaciones de estimación, bajo las cuales MICO no es óptimo.

3

Recordemos que el coeficiente de correlación es una medida de asociación lineal entre X y Y que equivale a:

r X ,Y 

S X ,Y S X S Y



 x y x  y i

i

i

i


34

Para verificar las propiedades estadísticas de los estimadores derivados, requerimos ciertos supuestos Los supuestos describen la forma del modelo y las relaciones entre sus partes, a partir de los cuales se pueden establecer los procedimientos de estimación e inferencia adecuados. Los supuestos clásicos del modelo de regresión son: 1. El modelo de regresión es lineal en los parámetros y se encuentra bien especificado. 2. Los valores de X son fijos en muestreo repetido. La covarianza entre ui y X i es cero. cov(u /X i j)=0. 3. El valor medio de ui es igual a cero. E(u /X i i)=0 2 4. Homocedasticidad o igual varianza de ui. var(u /X i i)=σ . 5. No autocorrelación entre los ui. cov(u /u i j)=0 6. El número de observaciones debe ser mayor que el de variables independientes y no hay relación lineal exacta entre las X. No hay multicolinealidad perfecta.

Esto quiere decir, tal como hemos visto, que el modelo es lineal en los parámetros, aunque puede no serlo en cuanto a las variables. Además el modelo está bien especificado, con cual significa que:  No hay variables omitidas  No hay variables intrusas  Forma funcional correcta

Este supuesto implica que si se repitiera la selección de muestras se podría considerar que las variables independientes serían las mismas. Este es un supuesto bastante fuerte, porque supone que las variables X no son aleatorias; es posible mantener fijo el valor de X, y repetir el experimento, obteniendo en cada observación, un valor de la variable aleatoria Y. De esta manera Cov(u,X)=0.


35

La perturbación aleatoria ui puede tomar valores positivos o negativos, pero no existe razón para esperar que sea sistemáticamente positiva o negativa. Dado que X es fija, E Y / X i   E (  1   2 X  ui )   1   2 X , este supuesto también implica que todo lo que no está incluido en el modelo, se supone que no afecta en forma sistemática el valor promedio de Y, porque se compensan los errores .

Se supone que las perturbaciones se distribuyen con igual dispersión (varianza) respecto a la media. var(ui )  E u i  E (ui ) 

2

 E ui  0

2

  2 Cuando este supuesto no se cumple, decimos que existe heterocedasticidad. f(ui) Homocedasticidad Y

X1

E(Y/ X i ) = 1 + 2 X i X2 X3

X


f(ui)

36

Heterocedasticidad

Y

X1

E(Y/ X i ) = 1 + 2 X i X2 X3

X

Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias en función de su ingreso. Si los datos se refieren a una muestra de corte transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica que independientemente del nivel de ingreso, los gastos de cada familia se desvían del modelo con la misma dispersión. Lo lógico es pensar que a mayores niveles de ingreso, hay un mayor espacio para que las familias distribuyan su ingreso.

Significa que no existe ninguna tendencia a que los errores asociados con una observación estén relacionados a los errores de otra. Si en un momento de tiempo o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna información sobre si el próximo error será positivo o negativo. Este supuesto implica que los errores no tienen un patrón de comportamiento sistemático. Bajo este supuesto, si ut y ut-1 están correlacionados, Y t no sólo depende de X t, sino también de ut-1. Formalmente este supuesto se expresa:


37

cov(ui , u j )  E ui  E (ui ) u j  E (u j )

 E ui , u j   0 u

u * * * u j

*

*

*

*

*

*

* *

* *

u j u j

*

*

Correlación Negativa

Correlación Positiva

u j * *

ui

ui

ui

u j

* * * * * * * * * No existe correlación

u j

ui

Que el número de observaciones sea mayor que las variables independientes, es una condición matemática necesaria para poder estimar los betas. Por ejemplo, en el caso del modelo simple, para poder trazar una línea recta, tenemos que estimar  1 y  2 , por lo que necesitamos al menos dos pares de puntos. ˆ

ˆ


38

Asimismo, se requiere también que no exista una relación perfectamente lineal entre dos o más variables explicativas.

x Y  Y   x Y  Y  x x y       x x   x i

ˆ

2

i

i

i

2 i

i

 x Y  x

 2 

i i

ˆ

Si definimos el ponderador k i 

d)

2 i



(9.1)

2 i

xi



a) No estocástico k i  0 b) c)

i

2 i

 x  0 entonces

Dado que la

  k

i i

2 i

2

xi

, con las propiedades siguientes:

Tarea: verificar estas propiedades. (Gujarati Apéndice 3A.2)

1

 x  k x   k X  1 2 i

i i

i

i

Sustituyendo el ponderador en (9.1), tenemos que:  2  ˆ

 x Y   k Y  x i i 2 i

i i

(9.2)

Se muestra que  2 es un estimador que puede expresarse de forma lineal, donde k i son las ponderaciones de esta combinación lineal. ˆ


Sabemos que Yi

39

 1   2 X i  ui , entonces sustituyendo en (9.2) tenemos:

 k Y   k     X  u     k    k X   k u    k    k X   k u

 2  ˆ

i i

1

i

2

i

i

1

i

2

i

i

i i

1

i

2

i

i

i i

2   2  ˆ

k u

(9.3)

i i

Aplicando el operador de esperanza:

 

E  2  E   2  ˆ

 k u      k E u  i i

2

i

i

 

E  2   2

(9.4)

ˆ

Por lo tanto,  2 es un estimador insesgado. Esto quiere decir que  2 se puede ˆ

ˆ

alejar del verdadero  2 en una muestra, pero si repetimos muchas veces el experimento, estaremos en promedio sobre el verdadero valor del parámetro. Recordar: el estimador insesgado no es necesariamente el mejor estimador. (¿por qué?) De la misma manera se puede demostrarse que  1 es también un estimador insesgado. ˆ

Tarea: Demostrar que  1 es insesgado. ˆ

Calculo de varianzas y covarianza

Necesitamos calcular primero las varianzas de los estimadores MICO.


40

var 2  E   2  E  2 

  ˆ



 

ˆ

2

ˆ

 

Sabemos que E  2   2 , entonces sustituyendo: ˆ

 

var  2  E   2   2 



ˆ

2

(9.5)



ˆ

De (9.3), sabemos que:

 k u , sustituyendo en (9.5) tenemos:     k u

 2   2 

i i

 2

2

i i

 



ˆ

ˆ

var  2  E  ˆ

2 kiui   E  k1u1  k2u2  ...  kn un   2



  E  k1u1  k 2u2  ...  knun  k1u1  k 2u2  ...  kn un    E  k12u12  k1k2u1u2  k1k3u1u3...  k 22u 22  k 2u 2k1u1  ... 

Vamos a tener: n

 n términos

2 2 ki ui ,

o sea



2

2

ki ui

1 n ( n 1) 2



n ( n 1) 2

términos 2k iuik ju j, o sea

 2k u k u i i

j

j

1

 n 2 2  var   2   E  ki ui  2  kik iu ju j  1  1  n ( n 1) 2

ˆ

 E (ui2 )   2 Recordando  y k i es no aleatorio o no estocástico, E u u ( ) 0   i j


41

n ( n 1) 2

n

   k E u   2  k k E u u 

var  2 

2 i

ˆ

2 i

i

1



j

i

j

1

n

2

 k

2 i

 

1

2

2

1



2

xi





x

2 i

 2

   x

var  2  ˆ

(9.6)

2 i

Características de la varianza: 2  La varianza de  2 es directamente proporcional a  (varianza de u) e ˆ

inversamente proporcional a

 x

2 i

(varianza de X)

2

 Dado  , cuanto mayor sea la variabilidad de la variable X, màs centrado

estará el estimador del verdadero valor. 2  Dada la varianza de Xi, a mayor  (mayor variabilidad de los datos a explicar o mayor variabilidad del error aleatorio), mayor será la varianza del estimador. Tarea: demostrar que var( 1 )   ˆ

2

 X n x

2 i 2 i

 X 2 1      2 x   i n  2

(9.7)

Ahora vamos a calcular la covarianza entre  1 y  2 ˆ

ˆ

cov 1 ,  2  E  1  E (1 )  2  E ( 2 ) 



ˆ

ˆ



   E  1  1   2   2     ˆ

ˆ

ˆ

ˆ

ˆ

 1  Y   2 X Sabemos que  con lo que 1   1 : Y  1   2 X  u ˆ

ˆ

ˆ

ˆ



(9.8)


42

1  1  Y   2 X   1 ˆ

ˆ

 1 ˆ

 1   2 X  u   2 X   1 ˆ

Y

  X   2   2   u ˆ

Sustituyendo en (9.8) tenemos: cov 1 ,  2  E   X  2   2  u



ˆ

ˆ



    2   2    E   X   2   2   2   2   E u   2   2      2 u     X  E   2   2   E  n   kiui   



ˆ

ˆ

  X

ˆ

ˆ

ˆ

  i

ˆ

  X



1  E u u u k u k u k u       ... ...    n n    xi2  n 1 2 n 1 1 2 2  2  2



xi2

  2  k i





cov 1 ,  2   X ˆ

ˆ

Los productos cruzados son iguales a cero, por el supuesto de no autocorrelación. E(uiu j)=0  2



  X var   2  ˆ

2 i

x

(9.9)

Características de la covarianza:  Tanto  1 como  2 , dependen entre si.  El signo depende de X , si X  0 la covarianza es negativa y viceversa. ˆ

ˆ

Tanto las varianzas como la covarianza de los estimadores, dependen de datos conocidos  X i , X i2 , n, X ... y de un parámetro desconocido  2 .

 

2

Como no conocemos  , porque es un parámetro poblacional, no conoceremos los valores de las verdaderas varianzas. Estimaremos  2 y eso nos permitirá estimar las varianzas de  1 y  2 . ˆ

ˆ

Modelo de Regresión Regresión Lineal Simple: Simple: Estimación Estimación

43

2

Estimador de σ

Recordando la ecuación (3.2), Yi  1   2 X i  ui

(9.10)

dividiendo entre n y aplicando sumatoria para todo i

Y

 1   2 

i

n

Xi

n



ui

n

Y  1   2 X  u

(9.11)

restando (9.10)-(9.11) tenemos, Yi  Y  1  1   2  X i  X   ui  u

yi   2 xi  ui  u

(9.12)

ei  yi  yi  yi   2 xi

(9.13)

Recordemos de (6.10) que: ˆ

ˆ

sustituyendo (9.12) en (9.13) ei   2 xi  ui  u  yi   2xi  ui  u   2xi ˆ

ˆ



ei   2   2 ˆ

 x   u  u i

i

Elevando al cuadrado: e    2   2    xi   ui  u    2 i

2

ˆ

2

   xi    2   2   ui  u   2xi   2   2  ui  u  2

ˆ

Sumando para todo i

2

ˆ




ei2 

 

xi2 2   2 ˆ

2

   u  u 

2

i

44

 2 xi   2   2  ui  u  ˆ

Aplicando esperanza E 



ei2   E 

 

xi2  2  2 ˆ

   E   u  u    2 E  x   2

2

ˆ

i

i

2

  2   ui  u   

2

2   xi2 E  2  2   E    ui  u    2 E  2   2   xi  ui  u       ˆ

ˆ

A

B

E 

C

 e   A  B  C 2 i

(9.14)

Vamos a desarrollar cada uno de los términos tér minos por separado: A 

 x E   2 i

2

ˆ

2

 2    x 

var(  2 ) ˆ

B

2 i

 2

 x

2 i

  2

2  2

 xi

2  E    ui  u    E  ui2  2uiu  u 2      E   ui2  2 uiu   u 2 

  2 2  E   ui  2u  ui  nu   E  ui2  2u  nu  nu 2    nu  E   ui2  2nu 2  nu 2   E  ui2  nu 2   u 2   E   ui2   nE u 2   E  ui2   nE   i    n    2  2

 E u n

  E ui  2

  2  n  1

n

2

2

i

2   2 n   2 2     n 

n

n

El supuesto utilizado es que las ui son no correlaciona das


45

       C  2 E   2   2   xi  ui  u    2 E   ki ui    xi ui  u  xi        0     k u  ˆ

i i

 2 E   kiui    xi ui   2 E  k1u1  k 2u2  ...  knun   x1u1  x2u2  ...  xn un    2  k1x1E u12   k2 x2 E u22   ...  kn xn E  un2   ...  kn xn 1E  un un 1  2 ki xi 2  2 2  ki xi  2 2 1

Sustituyendo los resultados de A, B y C en (9.14) E 

e   A  B  C   2 i

2

 (n  1) 2  2 2

  2 (1  n  1  2)   2 (n  2) E 

 e    (n  2) 2 i

2

(9.15)

Si definimos que el estimador de la varianza del término de perturbación  2 se basa en la varianza de los residuos corregido por los grados de libertad perdidos en la estimación de los parámetros, es decir: ˆ

  2

ˆ

e

2 i

(n  2)

(9.16)

El resultado de (9.15) nos asegura que estamos definiendo un estimador insesgado de  2 , porque:

  ei2  1 1 2 2   E    E  E e      i   n  2 (n  2) n n 2 2     2

ˆ

 2 ( n  2)

  2 Entonces (9.16) es un estimador insesgado de  2 .


46

Varianzas estimadas

 

Sabemos de (9.6) que var  2     2

ˆ

ˆ

2

 2



y de (9.16) que   2

2 i

x

ˆ

e

2 i

(n  2)

.

Entonces sustituyendo (9.16) en (9.6) tenemos la varianza estimada de  2 estimado:

e

e     x  x (n  2) x 2 i

2



2

  ˆ

ˆ

2

2 i

( n 2)

ˆ

2 i

2 i

2 i

(9.17)

Sustituyendo para  1 : ˆ

    2

ˆ

ˆ

ˆ

1

2

 X n x

2 i 2 i

 X 2 1      2 x   i n  2

ˆ

(9.18)

Tarea: Hallas las varianzas estimadas para el ejemplo de la página 28.

Hipótesis: Si se cumplen los siguientes supuestos clásicos:

1. La variable explicativa X está dada (es no estocástica o no aleatoria). aleatoria). 2.   ui   0

i

 2 si i  j   , homocedasticidad y no autocorrelación 3.   ui , u j   0 s i i j    4. No hay errores de especificación. TESIS: Los estimadores MICO son de mínima varianza entre los estimadores lineales e insesgados.  MICO, son los mejores estimadores lineales insesgados (MELI).


47

Demostración

Sabemos que  es lineal ˆ

2

var(  2 )  ˆ

 2



2

xi

    k Y  ˆ

2

i i

e insesgado  E 2   2  y que

  ˆ

.

* Supongamos que existe otro estimador  2 lineal de  2 .

* * Entonces para que sea lineal  2 deberá ser igual a  2  algún ponderador.

 wY i i

donde wi es

* * Calculemos    2  y veamos qué condición debemos exigirle a wi para que  2

sea insesgado

 w E Y    w E      w    w X

E   2   *

i

1

i

2

i

1

i

i

 2 X i  i    wi  1   2 X i  

i

w  0  w X   w x  1 

*

i

Para que  2 sea insesgado se debe cumplir 

i

i

i i

Veamos las condiciones que tiene que cumplir wi para que la varianza sea mínima:

var( 2* )  var 



wY  i i



wi2 var Yi    2

Sumando y restando

xi

 x

2

i

al término con sumatoria:



wi2  2   2



wi2


48

2

  xi xi  xi  xi  2 2     wi       wi   2 2  2  2      x x x x i i  i   i   

2

2 2      xi xi xi  xi   2      wi    2  wi  2  2  2  2           xi    xi    xi   xi    2 2   2     xi xi w x x 2 2 2 i i i      wi      2    2 2  2  2     2   xi  x    xi     xi  i   2  xi     wi xi  2  x  i  

2

 x  1 2 2 2 x    2   wi  i 2    2   i 2   2 x  x i    i 

1

x

2 i

El término entre paréntesis es cero, Ya que para que exista insesgamiento Se requiere que: x i wi 1



2

2  xi   * 2 var   2      wi   2    x  i   xi2 

(10.1)

 2

Necesitamos minimizar esto, pero el segundo sumando

 x

2

es un número, es

i

var   2*  es equivalente a minimizar

una constante; entonces, minimizar 2

 xi    wi  x2  y este cuadrado se minimiza cuando la base es igual a cero, es i  decir, se minimiza cuando: wi 

xi

 x

2 i

 0 o sea

wi



xi

 x

wi



xi

 x

2

i

* igual a la de MICO, por lo que  2   2 . ˆ

var  



.

i

La condición que minimiza la varianza es que

* 2

2

2



 x

2 i

 var   2  ˆ

, que es una condición


49 *

Este teorema asegura que si existe otro estimador (  2 ) con similares propiedades * al que tiene MICO (linealidad e insesgamiento), para que la varianza de  2 sea mínima, este estimador debe ser el estimador MICO.

Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e insesgados. Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades importantes:  Linealidad.  Insesgamiento.  Mínima varianza dentro de la familia de estimadores lineales e insesgados

(eficientes entre los estimadores lineales e insesgados). Tarea: Verificar cuales de los supuestos del MCRL son necesarios para cada una de las propiedades (linealidad, insesgamiento y mínima varianza)

En el algunas ocasiones tendremos que estimar regresiones como Yi   2 X i  ui , en las cuales no existe el término del intercepto, las cuales son llamadas regresiones a través del origen.

Derivación del estimador  2 ˆ

Ahora tenemos que,



ei  Yi   2 X i ˆ



Procedemos a elevar al cuadrado y sumar para todo i

 e   Y   X  2

i

2

ˆ

i

2

i

Planteando el problema de minimización y resolviendo


 d e

ei 2 

min

2



Yi   2 X i ˆ



50

2

 2 Yi   2 X i    X i   0

i

ˆ

d  2 ˆ

 Y   X   X   0  Y X   X   0 ˆ

2

i

i

i

ˆ

i

i

2

2 i

Despejando obtenemos: Y X     X i

ˆ

i

2

(11.1)

2 i

Sesgo y varianza

Si sustituimos Yi   2 X i  ui en (11.1), tenemos

  X  u  X     X  X   X u    X X u      X i

2

i

i

ˆ

2

2

i

2

2

i

i

i

2

i

i

2

i

2

i

Aplicando esperanza a  2 ˆ

 E  2   E   2   ˆ

 X u    , por lo tanto es un estimador insesgado  X  i i

2 i

2

Ahora veamos la varianza cuál es la varianza

(11.2)


var

   ˆ

2

 E   2 

ˆ

   2   E

51 2

ˆ

 E   2   2 

2

ˆ

  X i ui   E   2    2  2 X    i  X u   E   i 2 i    X i 

2

2

Desarrollando el término dentro del corchete, tomando en cuenta que X i es no estocástica y las ui son homocedásticas y no correlacionadas, obtenemos:  2

   X

var  2  ˆ

(11.3)

2 i

donde ahora, ya que sólo pérdemos un grado de libertad para calcular estimador de  2 es:

e

2 i

  2

ˆ

Regresión sin intercepto Yi X i  2  2 X i

 

ˆ

Varianza de  2

  ˆ

Estimador de  2

  2

ˆ

Regresión con intercepto yi xi  2  xi2



 X e

2 i

2 i

(n  1)

 

ˆ

2

var  2 

2 i

, el

(11.4)

(n  1)

Comparemos con los resultados del modelo con intercepto:

Estimador de  2

e

 

2

var  2  ˆ

  2

ˆ



 x e

2 i

2 i

(n  2)


52

La diferencia consiste en que el modelo de regresión sin intercepto se utilizan sumatorias sencillas, mientras que el modelo con intercepto se utilizan sumas ajustadas por la media (en desvíos).

La sumatoria de los errores es diferente de cero

e  0 i

En el modelo de regresión con intercepto, de la primera ecuación normal, ei  0 . En el caso del modelo sin intercepto, no sucede esto, concluimos que



sino que

e  0 . i

 e  0 , entonces:

Supongamos que Yi

i

  2 X i  ei ˆ

Y    X   e Y    X Y     X ˆ

i

2

i

2

i

i

ˆ

i

i

ˆ

2

i

 2 

Y

(11.5)

ˆ

X

Este estimador de  2 , es diferente al encontrado anteriormente en (11.1). Dado que el estimador de (11.1) se demostró que era insesgado, el encontrado en (11.5) no puede serlo. En el modelo a través del origen, no se cumple concluir que

e  0 , i

aunque si podemos

 X e  0 . (¿Por qué?) i i

El R 2 en el modelo de regresión a través del origen (R 2 simple)

Para el modelo con intercepto R 2 según (7.1) equivale a: R

2

e 1  1  SCT y SCR

2 i 2 i

(11.6)


donde

e   y 2 i

2 i

53

  22  xi2 , o sea SRC≤STC, por lo que R2 es siempre positivo. ˆ

Pero en el modelo sin intercepto, se puede demostrar que

 e  Y 2 i

i

2

  22  X i2 , ˆ

2

pero no existe garantía de que SRC≤STC, lo cual implica que el R como lo conocemos pueda ser negativo.

En el caso del modelo de regresión a través del origen se puede calcular el llamado 2 2 R simple (aunque no es directamente comparable con R convencional):

 X Y     X Y 2

R

2

i i

2 i

(11.7)

2

i

Debido a las características especiales del modelo sin intercepto es preciso ser cauteloso al utilizarlo. Al menos que haya gran certeza de su conveniencia, es mejor utilizar el modelo usual con intercepción, debido a:  Si el intercepto se incluye y resulta estadísticamente no significativo, en la práctica, es como si tuviéramos una regresión por el origen 4.  Si el modelo tiene un intercepto, pero no lo incluimos, incurrimos en el sesgo de especificación, uno de los supuestos clásicos.

Supongamos que el proceso generador de Y está dado por la ecuación XX. Yi  1   2 X i  ui

Llamemos  2 al estimador MICO de  2 de una regresión sin intercepto. ¿Qué sucede si utilizamos  2 estimado de una regresión sin intercepto? En el gráfico tenemos una muestra de 10 observaciones donde el verdadero modelo incluye intercepto, y las rectas de regresión estimadas con 2 modelos: uno con intercepto y otro sin intercepto. ¿A qué se debe la diferencia entre  2 y  2 ? ˆ

4

Sin embargo, es preciso señalar que si el intercepto efectivamente está ausente (de la FRP), entonces es más preciso el estimador de la pendiente.


54

Dado que  2 procede de una regresión cuyo intercepto es cero, tiene una mayor pendiente, ya que está forzado a partir del origen. Se puede demostrar que  2 es sesgado. Tarea: demuestre que  2 es sesgado.

Hemos supuesto que el modelo de regresión es lineal en los parámetros, mas sin embargo puede ser o no lineal en las variables. A continuación se consideran algunos modelos no lineales en las variables. Dado que estos modelos continúan siendo lineales en los parámetros, pueden ser estimados utilizando MICO.

Supongamos el siguiente modelo exponencial, Yi propiedades de los logaritmos tenemos

  X exp , si aplicamos las  2

1

ui

i

ln Yi  ln 1   2 ln X i  ui 

Si derivamos (logarítmicamente) respecto de la variable X,

(12.1)


d ln Y d ln X

Y  X

Y

55

  2 

X

 2 

Y X

X Y

  2

%Y % X

Donde  2 es una elasticidad constante e indica el cambio % en la variable Y provocado ante un cambio % de la variable X. ˆ

t

Consideremos ahora que Yt  Y0 1  r  exput . Aplicando logaritmo tenemos ln Yt  ln Y0  t ln 1  r   ut

(12.2)

que podemos expresar también como ln Yt  1   2t  ut

(12.3)

donde  1  ln Y 0 y  2  ln 1  r  . Supongamos que en (12.3) la variable explicativa no es el tiempo, sino X. Entonces tenemos ln Yi  1   2 X i  ui

Diferenciamos respecto a X, d ln Y dX

 

2

dY Y dX

 

 2 

2

%Y  X

(12.4)


56

En este caso  es una semielasticidad , e indica el cambio % en Y ante un cambio en unidades (absoluto) de la variable X. 2

Supongamos el siguiente modelo, donde ahora la variable en logaritmo está en el lado derecho Yi  ln 1   2 ln X i  ui

(12.5)

Diferenciamos respecto a la variable del coeficiente de pendiente (X) y ten emos, dY d ln X dY

 

2

 

2

dX X

 2 

Y % X

En este modelo  busca explicar cambios absolutos en Y ante cambios % de X. 2

1. La función de producción de una industria que tiene retornos constantes a escala se puede representar como Y  AK  L1 . a) ¿Puede estimarse el parámetro α mediante mínimos cuadrados ordinarios? Si la respuesta es afirmativa, explique cómo.

b) Se tiene la siguiente matriz de varianzas y covarianzas, para una muestra de 27 empresas. LN(Y)-LN(L) LN(K)-LN(L)

LN(Y)-LN(L) 0.0611 0.0809

LN(K)-LN(L) 0.0809 0.2229


Además se sabe que la sumatoria

 ln Q L   45.3594

57

y

 ln  K L   45.4213 .

Encuentre los estimadores de los parámetros, para la función de producción del sector. (Pista: recuerde las fórmulas de la varianza y covarianza muestral). c) Si la suma de residuos al cuadrado es igual a 0.8557, encuentre el estimador de la varianza, las varianzas estimadas de los coeficientes y el coeficiente de determinación

2. Considere los siguientes datos obtenidos de una muestra aleatoria, y calcule los estimadores de la pendiente para un modelo con intercepto y otro sin intercepto. Comente las diferencias entre ambos estimadores. Obs. X Y X2 Y2 XY 1 4.5 6.1 20.3 37.6 27.6 2 2.0 4.0 4.0 15.7 7.9 3 1.0 2.8 1.0 7.8 2.8 4 0.0 2.8 0.0 8.1 0.0 5 3.5 5.0 12.3 24.9 17.5 6 3.0 4.7 9.0 21.7 14.0 7 1.5 3.6 2.3 12.7 5.3 8 2.5 4.3 6.3 18.6 10.8 9 4.0 5.7 16.0 32.6 22.8 10 5.5 6.8 30.3 46.4 37.5  27.5 45.8 101.3 226.1 146.2

El modelo de regresión simple no siempre es útil, pues comúnmente la variable explicada es afectada por más de una variable. En este capítulo se presenta el modelo de regresión lineal múltiple, (MRLM) tanto en su versión de álgebra lineal como matricial, la derivación de los estimadores, sus propiedades y los supuestos del modelo clásico de regresión.

El MRLM se representa de la forma siguiente: Yi  1  2 X 2i  3 X 3i  ....   k X ki  ui

(1)

 1 es el intercepto

 k es el coeficiente parcial

k es el número de regresores y también el número de variables k-1 es el número de variables explicativas i es la iésima observación de una población n

Si tomamos la esperanza condicional de (2) obtenemos: E Yi / X1...X k   1  2 X 2i  3 X3i  ....   k X ki 1

Esta ecuación equivale a la Función de Regresión Poblacional del modelo de regresión múltiple.

1

(2)

Modelo de Regresión Lineal Múltiple: Estimación

59

Entonces  2 mide el cambio en el valor esperado de Y , por unidad de cambio en X 2, permaneciendo el resto de X k constantes (ceteris paribus). O sea, mide el efecto “directo” o “neto” en E(Y) sobre un cambio en X 2. El concepto de X k 2 constantes significa que no se hacen cambios sobre el resto de variables X k ; no significa que todas las iésimas observaciones de las variables X k son iguales a cero, sino que se dejó la muestra constante con el mismo valor.  1 es el intercepto, que al igual que el modelo simple, indica el valor esperado

(promedio) sobre Y i, de las variables excluidas del modelo.

Generalizando la ecuación (1) para cada una de las n observaciones, tenemos un sistema de n ecuaciones simultáneas: Y1  1  2 X 21  3 X 31  ....   k X k 1  u1 Y2  1  2 X 22  3 X 32  ....   k X k 2  u2 Yn  1  2 X 2 n  3 X 3n  ....   k X kn  un

Estas ecuaciones se pueden representar de forma matricial: Y1  1 X 21 Y  1 X 22  2         Yn  1 X 2 n

X 3n

Y n1

X nk

X 31 X 32

X k 1    1 

 u1     u  X k 2  2      2         X kn    k  u n  β

k 1

u n1

es el vector columna de la variable dependiente con dimensiones nx1. X es la matriz de orden nxk que contiene k-1 variables explicativas y la primera columna de 1 que representan el intercepto. También se llama matriz de información. β vector columna de kx1 con los parámetros del modelo. u vector columna de nx1 con los términos de perturbación. Y

2

El concepto es el mismo que el de una derivada parcial.


60

El modelo de regresión se denota matricialmente de la manera siguiente:

Y  Xβ  u

(3)

Primero vamos a derivar los estimadores utilizando el álgebra lineal, al igual que en el modelo simple y luego veremos la derivación matricial. Yi  1  2 X 2i  3 X 3i  ....   k X ki ˆ

ˆ

ˆ

ˆ

ˆ

(4)

Al igual que para el modelo de regresión simple, dada la FRM del modelo de regresión múltiple (4), para obtener los estimadores MICO, debemos de minimizar la sumatoria de los errores al cuadrado. min

 e   (Y   2 i

ˆ

i

i



 2 X 2 i  3 X 3i  ....   k X ki ) 2 ˆ

1

ˆ

ˆ

i

 e  2 (Y     X   X  ....   X )(  1)  0  i 1 2 2i 3 3i k ki   2 i

ˆ

ˆ

ˆ

ˆ

ˆ

1



i

  2 (Y     X   X  ....   X )(  X )  0  i 1 2 2i 3 3i k ki 2i   ei2

ˆ

ˆ

ˆ

ˆ

ˆ

2



(5)

i

 e  2 (Y     X   X  ....   X ) ( X )  0  i 1 2 2i 3 3i k ki ki   2 i

ˆ

ˆ

ˆ

ˆ

ˆ

k

i

De la primera Ecuación Normal podemos obtener:

 (Y  

ˆ

i

1

 2 X 2i  3 X 3i  ....   k X ki )  0 ˆ

ˆ

ˆ

i

Y   

ˆ

i

1

i

i

 2  X 2i  3  X 3i  ....   k  X ki  0 ˆ

ˆ

i

ˆ

i

i

Yi  1  2 X 2i  3 X 3i  ....   k X ki  0 ˆ

ˆ

ˆ

ˆ

1  Yi   2 X 2i  3 X 3i  ....   k X ki ˆ

ˆ

ˆ

ˆ

(6)


61

Si tomamos la presentación del modelo en desvíos y resolvemos el problema de minimización de los errores al cuadrado, tenemos unas CPO similares a las anteriores. yi   2 x2i   3 x3i  ....   k xki ˆ

ˆ

ˆ

ˆ

min

e  ( y 2 i

i



  2 x2i  3 x3i  ....   k xki ) 2 ˆ

i

ˆ

ˆ

i

  2 ( y   x   x  ....   x )(  x )  0  i 2 2i 3 3i k ki 2i   ei2

ˆ

ˆ

ˆ

ˆ

2



i

 e  2 ( y   x   x  ....   x )(  x )  0  i 2 2i 3 3i k ki ki   2 i

ˆ

ˆ

ˆ

ˆ

k

i

Luego, al igual que para el modelo simple se despejan los betas estimados. Por simplicidad, supongamos que el modelo tiene solamente 2 variables explicativas (k =3), o sea Yi  1  2 X 2i   3 X 3i  ui . Tomemos las Ecuaciones Normales de  2 ˆ

y  3 , y haciendo algunas manipulaciones algebraicas: ˆ

Ecuación Normal de  2 ˆ

 ( y   x ˆ

i

2i

2

  3 x3i )( x2 i )  0 ˆ

i

 ( y x i

  2 x 2   3 x3i x2 i )  0 ˆ

2i

ˆ

2i

i

 y x  y x i

2i

 2  x 2   3  x3i x2 i  0

i

2i

  2  x 2   3  x3i x2 i

ˆ

ˆ

2i

ˆ

ˆ

2i

Ecuación Normal de  3 ˆ


 ( y   x ˆ

i

  3 x3i )( x3i )  0 ˆ

2i

2

62

i

 ( y x i

  2 x3i   3 x 2 )  0 ˆ

3i

ˆ

3i

i

 y x  y x i

3i

 2  x3i   3  x 2  0

i

3i

  2  x3i   3  x 2

ˆ

ˆ

3i

ˆ

ˆ

3i

Si despejamos  3 de la última expresión de ambas ecuaciones normales y las ˆ

igualamos, podemos despejar y obtener  2 y  3 . ˆ

ˆ

y x  x   y x  x     x  x    x x  2

i

ˆ

2i

2

i 3i

3i

2

2

2i

3i

2i

2i

3i

2

ˆ

3

i

2i

2

2

3i

2i

(7)

2

y x  x   y x  x     x  x    x x  i 3i

x3i

2i

3i

x2i

(8)

2

3i

2i

Derivación matricial del modelo general A partir de las Ecuaciones Normales (5): min

 e   (Y   2 i

i



ˆ

i

1

 2 X 2i  3 X 3i  ....   k X ki ) 2 ˆ

ˆ

ˆ

i

 e  Y  n     i 1 2  X 2i  3  X 3i  ....   k  X ki  0   2 i

ˆ

ˆ

ˆ

ˆ

ˆ

1



2  e  Y X      3  X 3i X 2i  ....   k  X ki X 2i  0 X X    i i i 2 1 2 2   2 i

ˆ

ˆ

2



ˆ

ˆ

2i

ˆ

2  e  Y X   ....        0 X X X X X X      i ki ki i ki i ki k 1 2 2 3 3   2 i

ˆ

ˆ

k

despejando los términos con Y

ˆ

ˆ

ˆ

ki


63

Y  n     X    X  ....    X Y X    X    X    X X  ....    X ˆ

i

ˆ

1

ˆ

i

2i

Y X i

ˆ

2i

2

2

ˆ

2i

1

ˆ

3i

3

2

2i

k

ki

ˆ

ˆ

3i

3

2i

k

ki

X 2i

(9)

 1  X ki  2  X 2i X ki  3  X 3i X ki  ....   k  X 2 ˆ

ki

ˆ

ˆ

ˆ

ki

Matricialmente (9) equivale a:

 1  X  21    X k1

X X

 n    X X 2 n Y2      2i       X kn  Yn    X ki 1   Y1 

1

1

X 22

X 23

Xk2

Xk3

X

ki

 X      X X     ˆ

2i 2 2i

2i

2 ki

  1   Y 1    Y     2 β n1   2  Yn1          Y     n  n1  k  kx1 ˆ

ˆ

ˆ

ˆ

 n   X 2i X'Xkxk       X ki

X k 1 

X 31

    X kn  nxk

X 33

X k 2

X 3n

X X X

ki

2i 2 2i

X 2i

Podemos expresar (10) como:

X' Y  X' Xβ ˆ

 1  X 21 X 'kxn      X k1

 X  X X

  ki  2i   2 X  ki  kxk ki

1

1

X 22

X 23

Xk2

Xk3

ki

 X

X 2i

Dadas las definiciones de matrices siguientes:

1 X 21 1 X 22 X nxk     1 X 2 n

1

ki

1 

    X kn  k n

X 2n

ˆ

2   (10)       k  ˆ

Modelo de Regresión Lineal Múltiple: Estimación 1

Si X' X 

64 1

existe, puedo premultiplicar por X' X

y obtenemos:

I



X' X1 X'Y  X' X1 X' Xβ X' X1 X'Y  β ˆ

ˆ

1

β   X'X  X'Y

(11)

ˆ

Importante: Una condición necesaria para poder estimar los parámetros es que la matriz  X'X sea invertible (no singular), o sea que sea una matriz cuadrada con determinante diferente de cero. Otra forma de encontrar β ˆ

De (3) sabemos que Y  Xβ  u y de la misma forma Y  Xβ  e , donde β es el vector kx1 de los estimadores MICO y e es el vector kx1 de los residuos. ˆ

La notación matricial de

e

2 i

ˆ

, equivale a e' e , por lo tanto el problema de

minimización de los errores al cuadrado se convierte en: min e'e  (Y  Xβ)'(Y  Xβ) ˆ

ˆ

(12)

Antes de continuar, recordemos algunas propiedades de operaciones con matrices:

 A  B  '  A ' B '  AB  '  B ' A '  A ' '  A

 A   '   A ' 1

1

si A  A ', entonces A es simétrica


65 3

Luego, aplicamos las operaciones con matrices a (12) : min e'e  (Y  Xβ) '(Y  Xβ ) ˆ

ˆ

 (Y ' β ' X ')(Y  Xβ) ˆ

ˆ

 Y ' Y  Y ' Xβ  β ' X ' Y  β ' X ' Xβ ˆ

ˆ

ˆ

ˆ

 Y ' Y  2β ' X ' Y  β ' X ' Xβ ˆ

ˆ

ˆ

Ahora derivamos matricialmente para encontrar el vector β : ˆ

e ' e Y ' Y  2β ' X ' Y β ' X'Xβ    0 β β β β ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

 0 - 2X'Y + 2X'Xβ = 0 ˆ

 2X'Xβ  2X'Y

4

(13)

ˆ

 X'Xβ  X'Y ˆ

-1

β =  X'X  X'Y ˆ

1

β   X'X  X'Y

(14)

ˆ

Así como para el modelo simple, para el modelo de regresión múltiple se puede demostrar que: 1. La línea de regresión pasa a través de las medias Y , X 2 , X 3... X k . 2. El valor medio de Y estimado es igual al valor medio de Y observado Y  Y 3. La sumatoria de los residuos es igual a cero ei  0 . ˆ



4. Los residuos no están correlacionados con las X k .

3

 e X  0 ó X'e = 0 . i

Los términos Y'Xβ y β'X'Y equivalen a un escalar por ser de orden 1x1, donde uno es el transpuesto del otro, por ˆ

ˆ

lo que puedo sustituirlo por 2β'X'Y ˆ

β'X'Xβ ˆ

4

5

i

El término β'X'Xβ equivale a una forma cuadrática, donde ˆ

ˆ

ˆ

β ˆ

 2X'Xβ . ˆ


66

5. Los residuos no están correlacionados con Y . 6. La regresión se puede expresar en desvíos. ˆ

Recordando del modelo simple: SCT  SCE  SCR

 y

  22  xi2   ei2   yi2  ei2

2 i

ˆ

ˆ

STC 

 y   (Y  Y ) Y 2 i

2

i

2

i

 nY 2

(15)

 Y'Y  nY

2

Si definimos y' = (Y - Y )' , entonces la STC también es igual a y'y = Y'Y  nY 2 SEC 

 y   (Y  Y ) Y ˆ

2 i

2

ˆ

ˆ

ˆ

i

2

i

 nY 2

(16)

 Y'Y  nY  β'X'Xβ  nY ˆ

2

ˆ

SRC 

ˆ

2

ˆ

e

2 i

 e'e

(17)

2

Entonces, el coeficiente de determinación R equivale a: R  2

SCE SCT



β'X'Xβ  nY 2

(18)

Y'Y  nY 2

De manera alternativa: R  2

SCE SCT



SCT  SCE SCT

1

SCR SCT

1

e'e Y'Y  nY 2

1

e'e y'y

(19)

Pero en el modelo de regresión múltiple hay un problema. A medida que se agregan variables aunque no sean significativas (algo explican), disminuye 2 SRC  ei2  e'e y R aumenta.



5

En otras palabras, el vector de errores es ortogonal a la matriz X.


67 2

Una forma de resolver el problema es ajustando el R por el número de grados de libertad de la manera siguiente: e'e

SCR

e'e

2 nk n  k  1  e'e n  1   1 R  1  n  k  1  y'y SCT Y'Y  nY 2 y'y n  k n 1 n 1 n 1

(20)

2

Esta expresión la llamamos R ajustado. Sustituimos (19) en (20) tenemos la relación entre ambos coeficientes.



R 2  1  1  R2

Propiedades del R    

n 1

 n  k

(21)

2

R 2  R2 . Son iguales cuando la correlación es perfecta Si aumenta el tamaño muestral, dado k , el R 2 tiende a R 2 Dado n, al aumentar el número de variables explicativas, ( R 2 - R 2 ) aumenta 2 R puede ser negativo

Al igual que en el modelo simple, requerimos una serie de supuestos para determinar las propiedades estadística de los estimadores MICO. Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a los del modelo simple y se pueden expresar en notación escalar o matricial.

Supuesto Notación escalar Notación matricial Y  Xβ  u El modelo es Yi  1  2 X 2i  ....   k X ki  ui lineal en los parámetros y está bien especificado Las X son fijas en X 2 ,X 3 ,…X k son fijas o no La matriz X nk es no muestreo repetido estocásticas estocástica o de números fijos


El valor esperado de la perturbación ui es igual a cero Homocedasticidad y no autocorrelación No multicolinealidad, o sea no hay relación lineal exacta entre la variables X

68 E (u)  0n1

E(ui)=0

0 i j cov(ui , u j )  E(ui , u j )   2  i  j

E (uu ')   2I

 2 X 2i   3 X 3i  ...   k X ki  0 y El rango de X es igual a k,  (X)  k , donde k n , 1  2  ... k  0 siendo k es el número de columnas linealmente independientes en X

Las implicancias de este supuesto son las mismas que en el modelo simple: el modelo es lineal en los parámetros, no hay variables omitidas, no hay variables intrusas y tiene la forma funcional correcta.

La matriz Xnk es no estocástica. Nuestro análisis es condicional a X, que se supone fija y la única fuente de variación de Y viene dada por el término estocástico.

 u1   E  u1   0 u   E u  0  2    2 E                  u E u     0 n   n  

(22)

Entonces E (Y/X)  E(Xβ + u)  Xβ  E (u)  Xβ . Es decir se cometen errores pero en promedio estaremos sobre los valores esperados.


 u1  u  2 E  uu '  E   u1 u2     un  n1  2 0  2 0      0 0

un 1n

0

 E  u12  E (u1u2 )  2  E  u2u1  E (u2 )    E  unu  E (unu ) 1 2 

1 0  0 1 0  2     2   0 0

69

E  u1un  

 E  u2un     2 E un    nn (23)

0

    2I   1 0

Este es un requisito que permite invertir X'X y que es necesario para obtener los estimadores MICO. 6

El rango de una matriz es el máximo número de columnas (o filas) linealmente independientes. Para que una columna (fila) sea linealmente independiente (LI), éste no debe ser resultado de ninguna combinación lineal de las demás. , siendo k es el número de En nuestro caso, el rango de X es  ( X)  k , donde k n columnas linealmente independientes en X .

Si  2 X 2i   3 X 3i  ...   k X ki  0 y k es  cero,  existe colinealidad entre las X k. De forma matricial se expresa λ ' X = 0, donde λ' es un vector fila de 1xk y X un vector columna de kx1. Para el caso del modelo con dos variables explicativas X 2 y X 3, se puede plantear matemáticamente este supuesto como: 6

Propiedades del rango de una matriz: El número máximo de filas LI es igual al número máximo de columnas LI.



 Amn   min  m, n



Rango



Rango A = Rango A '



Si rango



Rango

A mn m=n, entonces A es no singular y su inversa existe y es única.

 X'X

= Rango

 XX '

= Rango X .


70

2 X 2i   3 X 3i  0 , si 1 ó 2 es  cero,  existe colinealidad entre X 2 y X 3.

x3

y

x3

y

5

2

4 1

3 x2

x2

A medida que mayor es el área entre la variable dependiente y las explicativas (área 1 y 2) mayor es la información común y menor la varianza de los coeficientes. Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área 4), mayor será la colinealidad de las variables y mayor será la varianza de los estimadores. A medida que se agregan variables explicativas los parámetros del modelo son calculados cada vez con menos información, provocando un incremento en las varianzas de los estimadores.

1

El estimador β   X'X  X'Y es lineal en Y, ya que cada elemento de β es una ˆ

ˆ

combinación lineal de elementos de Y, ponderadas por los X, los cuales suponemos fijos.


71

1

Sabemos de (14) que β  X' X X' Y y de (3) Y  Xβ  u . Sustituyendo (3) en (14) tenemos: ˆ

1

β   X'X  X'  Xβ  u  ˆ

1

1

  X'X  X'Xβ   X'X  X'u

(24)

1

 β   X'X  X'u Aplicando el operador de esperanza: 1

E (β)  E β   E  X'X  X'u  ˆ





(25)

E (β)  β ˆ

Por lo tanto β es insesgado. ˆ

La expresión matricial de la varianza y la covarianza la tenemos en la matriz varianza-covarianza. Despejando en (24) tenemos que: 1

β  β   X'X  X'u ˆ


72

var  cov β  E  β  E ( β) β  E (β ) '

 ˆ

 

ˆ

ˆ



ˆ



ˆ

   E  β  β β  β '   1 1  E   X'X  X'u  X'X  X'u '   1 1  E  X'X  X'uu ' X  X'X    



ˆ



ˆ





  X'X 

1

  X'X 

1





 

X' E uu ' X X'X 2

  2  X'X 

1







X'X X'X

1

1



X'  X X'X



1

I

  2  X'X 

1



var  cov β  

2

ˆ

 X'X 

1

(26)

La cual se puede representar como:

 var 1   cov  ,  2 1 var  cov β     cov k , 1 

 



cov 1, 2

ˆ

 ˆ



ˆ



ˆ

ˆ

ˆ

ˆ

ˆ



var 2



cov k , 2



  ˆ



ˆ

ˆ

cov 1,  k 

   cov   ,    ˆ

ˆ

ˆ

ˆ

k

2



 

var  k ˆ

    kxk

(27)

2 Por otro lado, se puede demostrar que un estimador insesgado de  es:

2

 ˆ

e  

2 i

nk



e'e nk

(28)

Las expresiones de las varianzas de la forma algebraica para un modelo con k=3 corresponden a:


var(  2 )  ˆ

 2

 x

2 2i

y

(1  r ) 2 23

 x x 

var(  3 )  ˆ

73  2

 x

2 3i

(1  r 23 ) 2

2

Donde r 232 

2

3

 x  x 2 2

2 3

2

, es un coeficiente de determinación (R ) de una regresión

entre las variables explicativas. cov(  2  3 )   ˆ

r 23

ˆ

2

(1  r 23 ) x2i 2

2

x3i

Características de la varianza de los estimadores 

A medida que

r 23

aumenta, aumenta la varianza de los parámetros estimados

 2 y  3 , reflejando el problema de multicolinealidad. ˆ

ˆ



Las varianzas de  2 y  3 son proporcionales a  2 .



Las varianzas de  2 y  3 son inversamente proporcionales a las variabilidad de sus respectivas variables.

ˆ

ˆ

ˆ

ˆ

ˆ

Hasta ahora nos hemos ocupado solamente de la estimación de los parámetros del modelo de regresión lineal simple, lo cual hicimos a través del método de MICO. Bajo los supuestos del modelo clásico, pudimos probar que los estimadores MICO, satisfacen varias propiedades estadísticas deseables, siendo los de mínima varianza entre los estimadores lineales e insesgados (son MELI). Pero los estimadores MICO son variables aleatorias, que cambiarán según la muestra. Nuestro objetivo no es solamente estimar la FRM, sino poder hacer inferencia respecto de la FRP. Para poder hacer inferencia sobre los estimadores, es necesario conocer sus distribuciones de probabilidad, algo que no hemos estudiado hasta ahora. La Inferencia Estadística nos sirve para saber:  Que tan cerca están  1 y  2 de los parámetros poblacionales ˆ



ˆ

Que tan cerca está i del verdadero E(Y/X i) ˆ

Este teorema indica que la distribución de la suma de variables aleatorias tiende a una distribución Normal cuando la cantidad de variables es muy grande.

Modelo de Regresión Lineal Simple: Inferencia

75

Sean X 1 ,X 2 ,..X n una muestra de n variables aleatorias independientes e idénticamente distribuidas (IID) que se toman de una población con media μ y varianza finita  2 . La media muestral X tiene una distribución con media μ y varianza finita  2 n que tiende hacia una distribución normal conforme n tiende a ∞. Veamos: X 

1 n

n

  X i i 1

E  X  

1 n

n

  X i   i 1

 2 1 n  1  n  1 2 var( X )  var    X i   2 var   X i   2 n  n  n i1  n  i 1  n Entonces a medida que n aumenta indefinidamente X ~ N   ,  n  , es decir X se 2

n

acerca a la distribución normal con media  y varianza cumple independientemente del la FDP de X. En otras palabras, si definimos Z   X n   

  n  ,

 2

n

. Este resultado se

tendrá como límite una

distribución normal estándar: lim Z n  n

X n    n



n  X n   



a

~ N  0,1

Si Z 1 , Z 2 ,…Z n, son variables aleatorias que se distribuyen normal e independientes, de forma que Z i~  i , i2  , entonces Z =  k i Z i  N  k i  i ,  k i2 i2 O sea, la combinación lineal de variables aleatorias independientes y normalmente distribuidas, poseen una distribución normal.


76

Una covarianza nula entre dos variables aleatorias que se distribuyen Normal, F(x,y) = f(x) f(y) implica independencia estadística. ·

Si Z 1 , Z 2 ,…Z n son variables aleatorias independientes que se distribuyen N(0,1), entonces Zi2  Z12  Z 22  ...  Z n2 ~  n2 .



P   2 > 2    La probabilidad de

que cualquier valor de la Chi-



2 cuadrado sea mayor a   es igual al área que se acumula arriba y a la 2 derecha de  

2

0

Exactamente el 95% de una distribución Chi-cuadrado caen entre  02.975 y  02.025 .

2

2

~  k , entonces,  Z i ~   k . i O sea la suma de variables aleatorias independientes y distribuidas Chi-cuadrado con k grados de libertad, poseen una distribución Chi-cuadrado, cuyos grados de libertad es la suma de todos los grados de libertad. Si Z i son variables aleatorias independientes y

Si

S

2

Z i

i

es la varianza de una muestra aleatoria de tamaño n tomada de una

población normal que tiene la varianza  2 , entonces el estadístico 

2

tiene una distribución Chi-cuadrado con n-1 grados de libertad.

 ( n 1)S

2

2


S  2

n

 i 1

 n  1 S  2

n

 i 1

 X

X  i 

77

2

n 1 2

 Xi  X 

n

n

 n  1 S    X    X       X      X       2

2

i

2

i

i 1

i 1

n

   X i     2  X i     X      X       i 2

2

1

   X i     2  X i     X       X    2

    X i     2  X      X i     n  X   2

2

2

n

 X

i

n

 n   n  X   

   X i     2  X    n  X     n  X    2

   X i     n  X   

2

  n  1 S    X     n  X  

2

2

2

2

2

2

   X i     2  X     X i     n  X       X i     2  X   

2

2

2

i

 n  1 S

2

2



  X    i

2

2



n X 

Si X i ~N   , 2  , el término



 

2

 2

  X   

2

i

, equivale a la sumatoria al cuadrado de  2 una variable que se distribuye normal estandarizada N(0,1), lo cual según el Teorema 4 equivale a una Chi-cuadrado con n grados de libertad. Los términos del lado derecho tienen n y 1 grados de libertad cada uno, por lo que distribuye como Chi-cuadrado con n-1 grados de libertad.

( n 1) S 2

 2

, se


78

 Z1 Z1 n  ~ t nk Z 2 ~  k2  t  Z  Z 2 n Z1 , Z 2 son independientes   Z1 ~ N (0,1)

2

P(-t /2 < t < t  /2) = 1 - 

 /2

-t /2

t /2

0

Si X es la media de una muestra aleatoria de tamaño n que se toma de una población normal con media  y varianza finita y desconocida  2 , pero varianza estimada

S

2

, entonces el t  X   ~ t se distribuye t-student con (n-1) grados n 1 S

n

de libertad.

Z 1 ~  k 1  2

Z  k Z 2 ~   F  Z ~ F k ,k k  Z independiente de Z  1 2 2 k2

1

1

1

2

2

2


79

 0

F

P  F >F     la probabilidad de que cualquier valor de la F sea mayor a

F 

es

igual al área que se acumula arriba y a la derecha de F  .

El cuadrado de una variable aleatoria con distribución t-student con k grados de libertad, tiene una distribución F , con 1 grado de libertad en el numerador y k en el denominador. 2

 tk   F 1,k 2 ui ~ N  0, 

Para obtener los estimadores de  1 y  2 que sean MELI, no hicimos ningún supuesto sobre la distribución de probabilidades de u. Ahora, para tener intervalos de confianza para los parámetros y probar cualquier



2

hipótesis requerimos el supuesto ui ~N 0,

Existen varias razones:

 i


80

1. El argumento más común es que como u es la suma de muchos factores 1 distintos no observados que influyen en Y , por el teorema del límite central , llegamos a la conclusión de que u tiene una distribución normal. 2. Una variante del teorema del límite central, establece que aunque el número de variables no se muy grande o no sea estrictamente independiente, su suma puede ser aún normal 3. La distribución de probabilidad de los estimadores MICO puede derivarse fácilmente, como veremos en la próxima sección 4. La distribución normal es una distribución sencilla, con tan sólo dos parámetros: media y varianza 2 5. Podemos hacer pruebas de hipótesis ( t, F,  ) sobre los verdaderos parámetros Existen diversas críticas sobre este supuesto: 1. Los factores que afectan a u pueden tener distribuciones poblacionales muy distintas. Aunque puede sostenerse el teorema central del límite, los resultados van a depender de cuantos factores afecten a u y que tan diferentes sean sus distribuciones. 2. Supone además que todos los factores afectan a u en forma lineal y aditiva 3. La normalidad es un problema empírico (no teórico). Por ejemplo, como el salario siempre es mayor que cero, estrictamente hablando no tiene una distribución normal; además hay leyes de salario mínimo que hacen que una parte de la población gane exactamente el mínimo. Una solución es transformar la variable, por ejemplo utilizando logaritmos [ log(salario)], lo cual puede generar una distribución que se acerque más a la normal 2 ui ~ N  0, 

1. ui normal y no correlacionados, es decir, los ui son independientes. 2. Yi

 1   2 X i  ui , por lo que

Y i es una combinación lineal de variables

aleatorias que se distribuyen normal, o sea, Y i se distribuirá normal.

 Yi     1   2 X i  ui   1   2 X i

var Yi   var  1   2 X i  ui   var ui    2 1

El teorema central del límite demuestra que si existe un gran número de variables aleatorias independientes e idénticamente distribuidas, entonces, la distribución de su suma tiende a ser normal a medida que el número de variables se incrementa indefinidamente.


Por lo que Yi

81

 N  1   2 X i , 2 

3. Recordemos que  2 ˆ

  2 

 k u , entonces  ˆ

i i

2

también es combinación

lineal de variables aleatorias normales, o sea que  2 es una variable ˆ

aleatoria que se distribuye normal.

   2    2 ˆ

 

var  2     2

ˆ

ˆ

2

 u2

 x

2 i



 2 ~ N  2 ,  2 ˆ

ˆ

2



4. Estandarizando, Z 2 

 2   2 ˆ

 

~ N  0,1

ˆ

2

Z1 

1   1 ˆ

 

~ N  0,1

ˆ

1

5. Recordando el Teorema 6, podríamos probar que:

 n  2  2 ˆ



2

~  2n2

(1)

6. Sabemos que:

 2   2 ˆ

  ˆ

2

~ N  0,1 ; donde    ˆ

2

 u2



2

xi



 u



2

xi


  

Entonces,

 2   2  u



2   2 

xi2

ˆ

ˆ

82

 

 x

2 i

~ N  0,1

(2)

Podríamos probar que (1) y (2) son independientes. Aplicando el Teorema 7:

 

ˆ

2

 x

  2 

2 i

 u

t

~ t  n  2

 n  2  ˆ

2 u

 u2

(3)

 n  2

Reorganizando (3) y simplificando:

 



2  2 

ˆ

t 



2

xi



2  2 

ˆ

u



u

1

 u2

 u2

 n  2

 u2

ˆ

2  2 

ˆ



u

2   2 





ˆ



2

 2 

ˆ

    2 xi  



 u

ˆ

  

ˆ

 u

ˆ



 u  u

ˆ

2

xi



2

xi

ˆ

 n  2  u2

  

2

xi

2

  2 

  ˆ

ˆ

2

ˆ

ˆ

2

Es decir:

 

ˆ

2

  2 

  ˆ

ˆ

2

 

ˆ

 t n  2

, y por similar procedimiento

1

  1 

  ˆ

ˆ

1

 t n  2


83

Esto nos permitirá obtener intervalos de confianza y realizar prueba de hipótesis sobre  1 y  2 .



1

Estamos





2



P  2     2   2    1   , es

buscando

ˆ

ˆ

decir

que

la

probabilidad de que  2 esté entre dos valores sea 1   . Vamos a buscar un intervalo alrededor del cual estará contenido el verdadero parámetro. Donde llamaremos 1    al nivel de confianza y  al nivel de significancia. Antes de encontrar el intervalo de confianza para  1 y  2 , es preciso recordar que: 1. El intervalo no dice la probabilidad de que  2 esté en el intervalo con una ˆ

probabilidad de 1   ; sino que la probabilidad de construir un intervalo que contenga  2 es de 1   . 2. El intervalo es aleatorio; va a depender de la muestra 3. Si se construyen intervalos de confianza, en promedio contener el verdadero valor

1   

van a

4. Una vez obtenido un  2 , no puedo decir que el intervalo contiene al ˆ

verdadero parámetro con probabilidad 1   , sino que la probabilidad es 1 ó 0. El intervalo es aleatorio (depende de la muestra), pero después que se utilizó una muestra, el intervalo queda fijo y por tanto la probabilidad de que el verdadero valor esté en el interv alo es cero o uno (“está o no está”).

 

ˆ

Dado que

2

  2 

 

 t n  2

, entonces exactamente el

1   

de esta

ˆ

ˆ

2

α /2 α /2 distribución t con n-2 grados de libertad, estará entre los valores – t y t .




 2

84



 2

P tn  2  tn  2  tn  2  1  

   2   2    t n  2   1   P  tn  2        ˆ

 2

 2

ˆ

ˆ

2





  1       t     1   



P tn2 2      2   2  t n2 2    ˆ

ˆ

ˆ

ˆ

ˆ

2

2

P    2  tn2 2   







ˆ



ˆ

ˆ

2



  2

 2

ˆ

n2

2

ˆ

 2 ˆ

Por lo que finalmente:

P   2  tn  2    



ˆ



 2

ˆ

ˆ

P   2  tn  2    



ˆ



        t

 

  1  

        t

 

  1  

 2

ˆ

2

 2

2

2

ˆ

ˆ

ˆ

2

2

2

n2

 2

n 2

ˆ

ˆ

2

ˆ

ˆ

2

Esto implica que el intervalo de confianza para  2 es:

IC



 2

  2   2  t n 2   ˆ

ˆ

ˆ

2



De forma similar:

IC



 2

 1  1  t n  2   ˆ

ˆ

ˆ

1



Interpretación: Dado un nivel de confianza de 1   , el 1    de las veces, el intervalo contendrá el verdadero parámetro.

Nos interesa verificar si las observaciones muestrales son compatibles con determinada hipótesis. Por ejemplo:


85

H 0 :  2  b H1 :  2  b Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o no esa hipótesis en base a la información muestral. Hay dos enfoques de la prueba de hipótesis:

Supongamos que construimos un intervalo de confianza para  2 . Luego es posible discutir si el valor b que me estoy planteando como hipótesis nula cae o no dentro del intervalo. Es decir, buscamos un intervalo IC



  2   2  t    ˆ

ˆ

ˆ

2

2



y luego:

 Si b  IC  No rechazar H 0 .  Si b  IC  Re chazar H 0 . Rechazo H0

No rechazo H0



 2   2  t    ˆ

ˆ

ˆ

2

2



Rechazo H0



 2   2  t    ˆ

ˆ

ˆ

2

2



El tamaño del intervalo de confianza va a depender del nivel de confianza  y de la varianza del estimador. ¿Cómo podemos reducir el intervalo de confianza?  Reduciendo el nivel de confianza (aumentando  )  Aumentando la muestra, para disminuir la varianza del estimador


86

El procedimiento se basa en utilizar un estimador y su distribución, considerando que ésta se cumple bajo la hipótesis nula.

 

  2 

ˆ

Sabemos que

2

 

 t n  2

 2  b ˆ

, entonces bajo la hipótesis nula

ˆ

  ˆ

ˆ

ˆ

2

2

   2  b  t    1   P  t   2 2      ˆ

ˆ

ˆ

2



  1     1     b  t     

P t      2  b  t    ˆ

ˆ

ˆ

ˆ

ˆ

2

2

2

 P  b  t   





ˆ

ˆ

2

2



    2  ˆ

2



ˆ

 2 ˆ

2

Por lo que finalmente:

 P  b  t    



ˆ

2

   

ˆ

ˆ

2

2

  b  t      1   2  



ˆ

ˆ

2



Esto determina la región de aceptación y rechazo de la hipótesis: Región de aceptación



 b  t    ˆ

ˆ

2

2



 t n  2


87

f(t)

Bajo Ho:

 2  b ˆ

t n 2

  ˆ

ˆ

2

0

“Acepto” H0 (no rechazo H0)



Rechazo H0,  2
ˆ

2

ˆ

2



ˆ

Entonces rechazamos H 0 si:

t  t c 

 Re chazo H 0 si t  tc t  t c  Como t 

 2  b ˆ

  ˆ

ˆ

2

Test de 1 Cola H0: 2 = b2

 2  b ˆ

, rechazo Ho si

H1: 2 > b2 Rechazo H0 si t > tc



Rechazo H0,  2 >b  t   

  ˆ

ˆ

2

>t c

ˆ

2

ˆ

2




88



tc Test de 2 colas H0 : H1 :

2 = b2 2  b2

Rechazo H0 si t > tc

 /2

 /2

- tc

tc

Aceptar o Rechazar la H o Al momento de realizar un dictamen sobre la hipótesis nula, este debe de emitirse como “Rechaza H0”, o “No rechaza H0”. No se puede “aceptar” una hipótesis nula, puesto que no conocemos el verdadero valor, sino que hacemos una inferencia de este.

Además, las hipótesis nulas “aceptadas”, pueden ser muchas dependiendo de cuales hipótesis esté planteando.


89

Error tipo I y tipo II

Rechazo H0 No rechazo H0

H0 es cierto Error tipo I

H0 es falso Error tipo II

Si  2 cae en alguna de las colas de la distribución (Rechazo H 0), puede ser por dos ˆ

razones. a) La hipótesis nula es cierta, pero se ha elegido una muestra equivocada b) La hipótesis nula es efectivamente falsa La probabilidad de cometer un error de tipo I está dada por α, el nivel de significancia. La probabilidad de cometer un error tipo II esta dada por  , en tanto que la probabilidad de no cometer este error (1-  ) se denomina potencia de la prueba.  2 bajo H1 ˆ

 2 bajo H0 ˆ

 = P (Error Tipo I) = P (Rechazar H0/ H0 es cierto) Lo deseable sería minimizar simultáneamente tanto los errores tipo I como tipo II, pero como se puede apreciar en los gráficos esto no es posible. En la práctica por lo general el error tipo I es más grave, por lo que se trata de minimizar primero este error y luego el error tipo II.


90

 = P (Error Tipo II) = P (No rechazar H 0 / H0 es falso)  2 bajo H1 ˆ

 2 bajo H0 ˆ



tc

 2 bajo H1 ˆ

 2 bajo H0 ˆ



tc

Valor-p (P-value) En ocasiones, en lugar de seleccionar un α arbitrario (como 1%, 5% o 10%), se puede obtener el valor p o nivel exacto de significancia, el cual se define como el nivel más bajo de significancia al cual puede rechazarse la hipótesis nula , o la probabilidad exacta de cometer un error tipo I . Regla práctica de 2-t “

”

Si el número de grados de libertad es 20 y el nivel de significancia α, se fija en 0.05, entonces la hipótesis nula  2=0 se puede rechazar si el valor t calculado excede en valor absoluto a 2.


91

El test de ANOVA es un test de significancia global del modelo en su conjunto. Intenta medir el ajuste de la recta de regresión con el conjunto de datos provenientes de la muestra. 2

Este test, para el caso del modelo de regresión lineal simple , tiene como hipótesis nula: H0 : H1 :

2 = 0 2  0  2   2 ˆ

Sabemos que

~ N  0,1

 

(4)

ˆ

2

Si elevamos (4) al cuadrado tenemos que (5) se distribuye chi-cuadrado con un grado de libertad.



 2   2 ˆ



2

~  12

2  2



(5)

ˆ

Sustituyendo la varianza estimada de  2 : ˆ



 2   2 ˆ



2 u

2

 



  x 2

 2   2 ˆ

2 u



2 xi

 n  2  2 ˆ

También sabemos del Teorema 6 que

2

 2

2 i

~  12

(6)

~  2n  2  , por lo que:

Para el modelo de regresión simple, tanto la hipótesis como el estadístico son los mismos que en el test de significancia, debido a que sólo existe una variable explicativa. En el caso del modelo de regresión múltiple, que veremos posteriormente, la hipótesis nula es que todos los coeficientes de las variables explicativas, son iguales a cero.


 n  2  2 ˆ



2

e  n  2 

92

2 i



 n  2





2

 

2

ei 2

~  2n  2

(7)

Se puede demostrar que (6) y (7) son independientes, por lo que:



 2   2 ˆ

  x 2

2 i

 u2 F



1

~F 1,n  2

2 ei

 u2

(8)

n2

Simplificando obtenemos:

  F

ˆ

2

  2 



ei2

Si sustituimos la hipótesis nula en (9):

 22 ˆ

F



2

 x

2 i

(9)

n2



2

xi

~F 1,n  2

2

ei

~F 1,n  2

(10)

n2

Recordando, cuando descompusimos la suma de cuadrados teníamos:



yi   2 2

ˆ

2



xi  2



2

ei

SCT  SCE  SCR Asociado a cada suma de cuadrados existen sus respectivos grados de libertad: 

SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al calcular la media de Y.

Modelo de Regresión Lineal Simple: Inferencia  

93

SCE: un sólo grado de libertad de calcular  2 SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad en las ecuaciones normales.

Regresión Residuo Total

ˆ

Tabla ANOVA Suma de Grados de cuadrados libertad SCE 1 SCR n-2 SCT n-1

Suma promedio de cuadrados SCE/1 SCR/n-2

El numerador de (10) es la SCE y el denominador es la SCR divida por sus grados de libertad.

F

SCE ~F 1,n  2 SCR n2

(11)



Entonces, rechazo H0 si el valor calculado del estadístico F, es mayor que F 1,n  2 . La intuición de este test, indica que el modelo es significativo en su conjunto, si el “efecto explicado por el modelo” es suficientemente grande respecto del “residuo”. 

En el caso del ejemplo anterior, si F >F 1,n  2 rechazo que H0, o sea que rechazo

 2=0 si el “aporte de X” respecto del residuo es considerable. Otra forma alternativa de expresar (11):

SCE R 2 SCE SCE STC F  = = = SCR SCT  SCE SCT  SCE SCT  SCE n2 n2 n2 STC   n  2  STC

 n  2  R R 2 = = ~F 1,n  2 2 1  R  SCE  1 1     STC  n  2 2


94

Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto de partida el supuesto de normalidad del residuo, por lo que si u no es normal, estas pruebas no son válidas. Existen diferentes test que permiten verificar si los residuos calculados para una muestra en particular ( ei) provienen de una distribución normal. Uno de ellos es el test de Jarque-Bera.

Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la distribución (asimetría y curtosis respectivamente). Recordando: Coeficiente de simetría: 3

S 

E  X  X 

 3



tercer momento alrededor de la media desviación estandar elevada al cubo

Coeficiente de curtosis:

C 

E  X  X 

 4

4



cuarto momento alrededor de la media segundo momento elevado al cuadrado

En el caso de una distribución normal, el coeficiente de simetría es cero (S=0) y el de curtosis 3 (C=3). Bajo la hipótesis nula de que los residuos están normalmente distribuidos, Jarque y Bera demostraron que asintóticamente el estadístico JB sigue una distribución chicuadrado con dos grados de libertad.

(12)

 S 2  C  32  2  JB  n   ~ 2 24   6 


95

Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la hipótesis nula, o sea, rechazo normalidad.

La normalidad exacta de los estimadores MICO depende crucialmente de la distribución del error en la población ( u). Si los errores u1 , u2 , ...., un son elecciones aleatorias de alguna distribución que no es la normal, las  j no estarán distribuidas en forma normal, lo que significa que los estadísticos t y F no tendrán distribuciones t y F , respectivamente. Este es un problema potencialmente grave porque nuestra inferencia depende de que seamos capaces de obtener valores críticos o valores p de las distribuciones t o F . Recuerde que el supuesto de normalidad de u es equivalente a decir que la distribución de Y dadas X 1 ,, X 2 , ....X n , es normal. Puesto que se observa Y pero no u, es mucho más fácil verificar si Y sigue una distribución normal, algo que como vimos, no siempre sucede. La inferencia basada en los estadísticos t y F exige el supuesto de normalidad. En caso contrario ¿quiere decir que no debemos utilizar el estadístico t para determinar qué variables son significativas estadísticamente? La respuesta es no. Aunque las Y i no provienen de una distribución normal, llegamos a la conclusión a partir del teorema central del límite, que los estimadores MICO están distribuidos aproximadamente en forma normal, por lo menos para tamaños de muestra grandes. Si el tamaño de la muestra no es muy grande, entonces la distribución t es una aproximación insuficiente de la distribución del estadístico t cuando u no está distribuida normal. Pero, por desgracia, no hay reglas generales sobre qué tan grande debe ser la muestra para que una aproximación sea lo suficientemente buena. Algunos econometristas piensan que n = 30 es satisfactorio, pero puede no ser suficiente para todas las distribuciones posibles de u. Dependiendo de la distribución de u, se necesitarían más observaciones para que tenga efecto el teorema del límite central. Además, la calidad de la aproximación no sólo depende 3 de n, sino también de los gl . En resumen, si el tamaño de la muestra no es muy

3

Como veremos en el modelo de regresión múltiple, con más variables independientes en el modelo, es necesario una muestra mayor para aprovechar la aproximación t , debido a que los g.l. están determinado por n – k , donde k es el número de regresores en el modelo.


96

grande y u no se distribuye normal, debemos de tener mucho cuidado al momento de hacer inferencia sobre los estimadores.

Se refiere a la predicción del valor de la media condicional de Y correspondiente a un valor escogido de X , (como X0), el cual es el punto sobre la fecha de la FRP. Dado un valor de X i= X 0, la verdadera predicción media de E(Y 0 /X 0) es

E (Y0 / X 0 )  1   2 X 0 ˆ

(13)

ˆ

El cual se puede estimar a partir de:

Y0  1   2 X 0 ˆ

ˆ

(14)

ˆ

Si sacamos el valor esperado de (14), dado X:

 

 

E (Y0 )  E 1  E  2 X 0 ˆ

ˆ

ˆ

 1   2 X 0

(15)

E (Y0 )  E (Y0 / X 0 ) ˆ

Por lo que Y 0 es un predictor insesgado de E(Y 0 /X 0). Ahora aplicando las ˆ

propiedades de la varianza a (14), sustituyendo por sus respectivas fórmulas y simplificando:

 

 





var(Y0 )  var 1  var  2 X 0  2cov 1 2 X 0 ˆ

ˆ

ˆ

 1 X 0  X      2  n x  i   2



ˆ

ˆ

(16)


97

La predicción individual se refiere a la predicción de un valor individual Y correspondiente a X 0. Para predecir un valor de Y individual, correspondiente a X i= X 0, podemos utilizar la ecuación (14). El error de predicción es Y0

 Y 0 : ˆ



Y0  Y0  1   2 X 0  u0  1   2 X 0 ˆ

ˆ

ˆ



(17)

  1  1     2   2  X 0  u0 ˆ

ˆ

Sacando la esperanza del error de predicción













E Y0  Y0  E 1  1  E  2   2 X 0  E  u0   0 ˆ

ˆ

ˆ

(18)

Elevando (17) al cuadrado y tomando esperanza tenemos:

Y

0

 Y0 

2

  1  1     2   2  X 0  u0  ˆ

ˆ

2

ˆ

2

  1  1   2  1  1   2   2  X 0  2  1   1  u0 ˆ

ˆ

ˆ

ˆ

2

(19)

   2   2  X 0  2   2   2  X 0u0 2  u02 ˆ



E Y0  Y0 ˆ



2

ˆ

 var  1   2cov  1,  2   X 02 var   2  ˆ

ˆ

ˆ

ˆ

Sustituyendo las varianzas por sus respectivas fórmulas y simplificando:

 1 X 0  X  var(Y0  Y 0 )   1   2  n x  i   ˆ

2



(20)

En el Modelo de Regresión Lineal Múltiple o Modelo de Regresión General, hasta ahora no hemos usado el supuesto de que las ui siguen una distribución normal multivariante.

Si

suponemos



u ~ N 0, 2Ι



podremos

derivar

algunas

distribuciones.

β ˆ

Dado que β = β +  ΧΧ  Χu , entonces β por ser combinación lineal de variables -1

ˆ

ˆ

aleatorias es también una variable aleatoria que se distribuye normal multivariante.



Esperanza:  β = β ˆ

 a11 a  12 -1 Varianza: var  β    2  ΧΧ    2    a  1k ˆ

a12 a22

a1k 

     akk 

Modelo de Regresión Regresión Lineal Múltiple: Múltiple: Inferencia Inferencia



Luego β ~ N β, 2  ΧΧ  ˆ

-1

99



Esto es,  j ~ N   j , 2a jj  donde a jj es el j-ésimo elemento de la diagonal ˆ

-1

principal de  ΧΧ  .  j   j ˆ

Por lo que

 a jj

~ N  0,1

Este resultado no es muy útil por si mismo, porque no conocemos  2 . u

Dado que u~ N  0, 2Ι  , esto significa que cada ui se distribuye normal e independiente con media cero y varianza  2 . 2 2 2 u1 u2 un Luego, 2  2   2 ~  n2 , con lo que    1 2 uu ~  n 2  1

2 2 u  Ι  u~ n

Este resultado, nos sirve para recordar como se forman las distribuciones derivadas derivadas de una normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no conocemos u . ee  2 Hemos visto los siguientes resultados:

1



e = Μu , como u ~ N  0, 2Ι  , por lo que e también se distribuye normal.



ee = uΜu



Μ = Ι - Χ  ΧΧ  Χ , siendo simétrica e idempotente . -1

1

Una matriz es idempotente es una matriz que es igual a su cuadrado, es decir: A es idempotente si A · A = A


100



Tr  Μ   Rg  Μ   n  k . Como M es idempotente,la traza



rango; de aquí se deriva que M tiene n-k valores propios . Sea B una matriz que tenga por columnas los vectores propios de M y D una matriz que tiene los valores propios en la diagonal y cero el resto.

2

es igual al

3

   Β   1  2    

   n  y    

  1 0  0  2  D 0 0  0 0 0 0 

0

  0  0  n  0

Sabemos que: ΒΒ = ΒΒ Β Β = Ι n   

ΒΜ Β = D Dado que los valores propios de un a matriz idempotente son cero o uno, sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.

2

La traza de una matriz cuadrada A es la suma de los elementos de la diagonal principal. En álgebra lineal, un escalar λ se llama valor propio ó valor característico de una función lineal A, si existe un vector x distinto de cero, tal que Ax = λx. El vector vector x se llama vector propio o autovector. autovector. Los vectores propios de un operador lineal son los vectores diferentes de cero que, cuando son transformados por el operador, dan lugar a un múltiplo escalar de sí mismo. El escalar entonces se llama el valor propio asociado al vector propio. 3

Por ejemplo, considere la matriz:

 0 1 1   A 1 1 0   1 0 1   

que representa un operador lineal R³ → R³. Uno puede comprobar que:

1  2  1       A 1  2 2 1        1  2   1


1 0    D=    0 

101

0

0 1 1 0

     Ι n-k  0   k   0 

0k 



0k 

Definamos: y = Βu Β Βu = Ιu Luego, premultiplicando por B tenemos que, Βy = ΒΒ u = Βy

Dado que y = Βu , y será una variable que se distribuye normal multivariada. Encontramos la esperanza y la varianza de y . Esperanza: E  y   E  Βu  = ΒE  u   0 Varianza:







var  y   E y - E  y    y - E  y  = E  yy u uΒ  = Β Ε  uu Β yy  = E  Βuu

 Β 2ΙΒ =  2ΒΒ =  2Ι Es decir que y ~ N  0, 2Ι  , con lo que cada estandarizada e independiente. Sabemos que: Βy  y ΒΜΒ y  ee = uΜu = yΒ Μ Βy u

u

D

yi



~N 0,1 se distribuye normal


  y1

y2

ynk

 y  y  2 1

y

2 2

2 n k

1 0    yn      0 

yn k 1

102 0   y1 

0 1 1

n k

 0   yi2

0

1

ee 

nk

 y

2 i

1

2

nk

 y  2 ~ N  0,1 , luego   i  ~  nk Como  1    yi

nk

 

2 1 2

y

 ee 2





2 2 2

y







2 n k 2

y





y

2 i

1



2

~  n2k

~  n2k

Sabemos que:  j   j ˆ

i.

ii. iii.

 a jj ee 2

~ N  0,1 pero  es desconocida

  n - k 

ee  n - k  2

~ n2k

  puede demostrase que i e ii son independientes

0

  y   2      y   n k    ynk 1      0   yn 

Modelo de Regresión Lineal Múltiple: Inferencia

103

Definimos:  j   j

 j   j

ˆ

t

 a jj

ˆ

a jj



ee

 j   j ˆ





 a jj

ˆ

~t nk

ˆ

 2 n  k

Por lo tanto, para las pruebas de significancia individual procedemos de igual manera la estudiada para el modelo de regresión simple.

El test de ANOVA es un test de significancia global del modelo, por lo que la hipótesis nula y alterna se expresan de la manera siguiente:

0 : 2  3    k  0 1 : Al menos algún  i es distinto de 0 Por otra parte, sabemos que: i. ii. iii.

SCE /  2 ~ k 21 ee 2



SCR

2

~  nk

  Puede demostrarse que i. y ii. son independientes.

Por lo tanto: 2 SCE /  F

2

SCE

k  1  k  1 ~F k -1,n -k 2 SCR SCR /  n  k n  k

Asimismo,


104

2

SCE

SCE R / SCT  n  k  R2 1 1 1 k k k    ~F k -1,n-k F    2 SCR SCT  SCE SCT  SCE 1 1 1 k R     / SCT nk nk SCT n  k 





Rechazo H0 si F calculado es mayor que F de tabla 1-

0



Fk-1,n-k

Este test indica que el modelo es significativo en su conjunto, si el “efecto explicado por el modelo” es suficientemente grande respecto al “ruido”, a lo residual. Si el F calculado es mayor que el F de tabla, rechazo que  2  3    k  0 , o sea el “aporte de las X ” respecto al residuo es considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla. Grados de Libertad Asociado a cada suma de cuadrados hay grados de libertad.

Variación Regresión Residuo Total 

Suma de Cuadrados SEC SRC STC

Grados de Libertad k-1 n-k n-1

Suma Promedio de Cuadrados SCE/(k-1) SCR/(n-k) SCT/(n-1)

Suma total de cuadrados (STC): Tiene n-1 grados de libertad. Esto surge como consecuencia de la pérdida de un grado de libertad, necesario para calcular Y .




Suma de residuos al cuadrado (SRC): Tiene n-k grados de libertad. Se pierden k grados de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas condiciones son:

 1   12 Χe      1k 

105

1

22

2 k

  ei  0     n 2  e2   ei i 2  0      e3     ei i 3   0              nk  en    ei ik  0  1   e1 

Suma explicada al cuadrados (SEC): Tiene k-1 grados de libertad ya que se encuentra en función de todos los parámetros estimados, excepto el intercepto.

Supongamos que estamos interesados en estimar una función de producción CobbDouglas:

ln  i  1  2 ln Li   3 ln Ki  ui Repasemos distintas hipótesis a probar: 

Ejemplo 1:

Si queremos testear  0 :  2  0

1 :  2  0 podemos expresar esta restricción en forma matricial  0 : Cβ = r

1 : Cβ  r donde C  0 1 0


  1    Cβ  0 1 0  2   2     3  r = 0 

Ejemplo 2:

Si queremos testear  0 : 2   3  1

1 : 2   3  1 debemos definir la matriz C y el vector r  0 : Cβ = r

1 : Cβ  r donde C  0 1 1   1    Cβ  0 1 1  2   2   3     3  r = 1 (en este caso un vector de 1x1, o sea un escalar) 

Ejemplo 3:

Si queremos testear  0 :  2   3

1 : 2   3  0 : Cβ = r 1 : Cβ  r donde C  0 1 1   1    Cβ  0 1 1  2   2   3     3  r = 0

106




Ejemplo 4:

 0 : 2   3  0 1 : Algún  i distinto de 0   1  0 1 0      2  Cβ      2      0 0 1       3   3 0  r  0  

Ejemplo 5:

ln  i  1  2 ln Li  3 ln Ki   4 ln Zi   5 lnWi  ui  0 : 4   5  0 1 : Algún  i distinto de 0

  1     2  0 0 0 1 0      4    3     Cβ     0 0 0 0 1       5   4   5  0 r  0 Existen distintas formas de desarrollar los test de hipótesis Cβ ˆ

Sabemos que:



β~ N β, 2  ΧΧ  ˆ

-1



107


108

La distribución de probabilidad de una combinación lineal de β será también normal. Debemos encontrar los parámetros de la distribución. ˆ

 



 Cβ  C β  Cβ ˆ

ˆ

  var Cβ  E  Cβ - Cβ Cβ - Cβ   E  Cβ - Cβ βC - βC    

  ˆ





ˆ





ˆ







ˆ

ˆ



    E C  β - β  β - β  C  E C  β - β  β - β  C      ˆ

ˆ

ˆ

ˆ

 -1   C E  β - β  β - β   C   2C  ΧΧ C   ˆ



ˆ

-1

2 Cβ~ N Cβ, C  ΧΧ  C ˆ





-1

Cβ - Cβ~ N 0, C  ΧΧ  C ˆ

2

Si H0 es cierta: Cβ = r

 

-1

Cβ - r ~ N 0, 2C  ΧΧ  C ˆ



Se puede demostrar que dado: i.



-1 -1  2  Cβ - r ~ R2 ; ya que estamos sumando R Cβ - r  C  ΧΧ  C   ˆ





ˆ



normales (0,1) elevadas al cuadrado, donde R es el número de restricciones involucradas bajo la hipótesis nula.  2  n  k  ee ii.  2 ~  n2k 2   iii. i y ii. son independientes. ˆ

Entonces:




-1  2 Cβ - r  C  ΧΧ  C



ˆ



-1

 Cβ - r  ˆ

R

ee

 2

1

 R





~F R ,nk

 n  k 

-1 2 Cβ - r  C  ΧΧ  C ˆ

109



ˆ

1

 Cβ - r  ~F ˆ

R ,n k

Rechazo H0 si F calculado es mayor que F de tabla 1-

0



FR,n-k

Volvamos al Ejemplo 1 Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos la prueba de algunas hipótesis importantes:

 0 :  2  0 1 :  2  0 C =  0 1 0 r = 0 R=1 -1 -1  2    Cβ - r   C  Χ Χ C   Cβ - r  ~ F R,nk R

1

ˆ

ˆ

ˆ


110

1    a 11 a 12 a 13  0   1  2 a  1     ~F 0 1 0   a a    21 22  2 23     2 1, n 3 1 a  a 321 a33   0    31    ˆ

ˆ

ˆ

1

   2  2  a21 a22 

 0    a23  1   2 ~F1, n3    0   

ˆ

ˆ

ˆ

1

 2  2

a22   2 ~F 1, n3

ˆ

ˆ

ˆ

 22 ˆ

 2a22

~F 1,n3

ˆ

Se puede demostrar que: -1  -1 1 Cβ - Cβ ee - ee = Cβ - Cβ C  XX C  





ˆ



ˆ



donde ee es suma de cuadrados restringida, es decir, los obtenidos de la regresión en la que se impone H 0 (la restricción). Entonces, tenemos que: ee

~  n2-k 2 

Por lo tanto

ee

y

2



ee - ee 2



Dado que: ee - ee 2 ~  R i. 2 

~  n2-( k  R )

~  n-2 k-R  nk    R2


ii.

ee 2

111

2 ~  n-k

 iii. ambos son independientes

Entonces:

 ee - ee / R ee / n  k

~ F R , n-k

Para realizar el test se procede de la manera siguiente: 1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y se obtiene la SCR restringida. 2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se obtiene la SCR libres.  ee - ee / R 3. Se calcula el estadístico F  . Si F>FTABLA, rechazo H0 (Rechazo  e e / n  k que la restricción sea válida, si la suma se reduce mucho al calcular dicho estadístico)

Rechazo H0 1-

0



FR,n-k

Una tercera forma equivalente de probar la misma hipótesis es la siguiente:


1  R   y  1  R   y 2

ee  ee

F 

R ee

2 i

2

1  R   y 2

1  R 



1  R 2  1  R 2  R 

2

2

2 i

n  k

1  R 2   1  R 2   

 R

2 i

R



n  k



112

1  R 

R

2

nk

nk

 R2 

1  R  2

R ~ F R ,n k n  k

Supongamos que estamos interesados en estimar el siguiente modelo: Yi  1   2 X 2i   3 X 3i  ui

con los siguientes datos:

3  1    Y  8    3  5 

1 1  X  1  1 1

3

5

1

4

 8   23.7 4.5  1  1 1.5  5 6  , luego  XX   4.5     8 1.5 2.5  2 4 4 6 

Con estos datos podemos estimar la regresión: Dependent Variable: Y Method: Least Squares Sample: 1 5 Included observations: 5 Variable

Coefficient Std. Error

t-Statistic

Prob.


C X2 X3

4.000000 2.500000 -1.500000

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.946429 0.892857 0.866025 1.500000 -4.084761 1.666667

4.474930 0.866025 1.369306

113

0.893869 2.886751 -1.095445

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

0.4657 0.1020 0.3876 4.000000 2.645751 2.833904 2.599567 17.66667 0.053571

y podemos calcular SCT   Y 2 (n -1)  2.6457512  4  28 SCE  STC * R 2  28*0.946429  26.5

Significación conjunta de X 2 y X 3 H0 :  2   3  0

F 

SCE / k  1 SCR / n  k



26.5/ 3  1 1.5/ 5  3

 17.67

Como F0.95(2,2)=19, la F muestral es menor que el valor crítico  no rechazo H0. Significación de X 3 H0 :  3  0 Una forma de probarlo es con un test de hipótesis simple. Observando la salida de Eviews se concluye que este parámetro es no significativo. Otra forma de probar esto es estimando la regresión restringida (es decir aquella donde se supone válida la hipótesis nula). Dependent Variable: Y Method: Least Squares Sample: 1 5 Included observations: 5


114

Variable

Coefficient Std. Error

t-Statistic

Prob.

C X2

-0.800000 1.600000

-0.852803 5.656854

0.4564 0.0109

R-squared Adjusted R-squared S.E. of regresión Sum squared resid Log likelihood Durbin-Watson stat

0.914286 0.885714 0.894427 2.400000 -5.259770 1.366667

0.938083 0.282843

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

4.000000 2.645751 2.903908 2.747683 32.00000 0.010938

Como ahora la SCR=2.4  ee  2.4 Luego, podemos utilizar el estadístico: F 

 ee - ee / R ee / n  k



2.4  1.5/1 1.5/ 5  3

 1.2

F0.95(1,2)=18.51, la F muestral es menor que el valor crítico  no rechazo H0. Los coeficientes de X 2 y X 3 son de igual magnitud pero de signo opuesto

H0 :  2   3  0 o en términos generales: C  0 1 1 Sabemos que:

r=0

con

R=1

Modelo de Regresión Lineal Múltiple: Inferencia F

1



115

-1

Cβ - r   C XX C  Cβ - r  ~ F R -1

2

ˆ

ˆ

ˆ

R ,n-k

1

  XX        1    20.02 3.37 6  0         1       0 1 1   2   0   0 1 1 3.37 1.125  1   0.75   1      6 1.125 1.875  1   3           -1

2

ˆ

ˆ

ˆ

ˆ

    2.5  1.5   3.37  6 0.75  1.125 1.125  1.875   1

 10.75  1.125  1.125  1.875 1 

   1        0 1 1   2   0       3      

1

 0   1   2.5  1.5      1   

2

1

0.375

 2.66

Dado que el valor del test F es muy pequeño, no rechazo la hipótesis nula.  2

Sabemos

que

 3

-1 -1  2    Cβ - r   C  Χ Χ C   Cβ - r  ~ F R,nk , luego podemos R

1

ˆ

ˆ

utilizar este resultado para construir regiones de confianza de los test. Distintas especificaciones de R, darán diferentes regiones de confianza para grupos de parámetros. Supongamos que nos interesa conocer la región en que se cumple que  2 y  3 son conjuntamente significativos.

H0 :  2   3  0 Luego

0 1 0 y R=2   0 0 1

C  

ˆ

ˆ

ˆ


F 



1

 Cβ -Cβ  σ C  XX R 2

ˆ

ˆ

-1

C

-1

 Cβ -Cβ  



Cβ -Cβ ˆ

ˆ

116 



-1

C  XX  C

-1

 Cβ -Cβ  / R ˆ

ee / n  k

Utilizando los datos del ejemplo de la sección anterior: 1

 X'X         1       1      26.7 4.5 8 0 0       1  0 1 0      0 1 0     1      0 1 0        1.5   1 0   1    2    2    0 0 1   4.5    2     2   0 0 1 0 0 1           8 1.5 2.5   0 1              3           3   3       3       1

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

2 0.75

F 

1

  0 0  1.5   1  4.5 1    2   2     1 0  2 2 3  3  8 1.5 2.5         1.5   0 1    3 3     1 1.5   2   2  1  1 10 6   2.5   2  1   2   2 3   3   2.5   2 1.5   3        1.5 1.5 2.5   3   3  1.5  6 41.5   3  26.5  32 2 18 3 12  2 3 10  22  4  32  ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

1.5

Eligiendo, por ejemplo, el valor crítico de F al 5% tenemos: Pr{F
ˆ


117

12 8 4 ) 3 ( C

0 -4 -8 -12 -8

-4

0

4

8

C(2)

El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95% de confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero en forma conjunta. Es importante observar: 

Que la elipse cambia de forma en función de la covarianza entre los parámetros estimados  2 y  3 . Si cov(  2 ,  3 )<0 la elipse se inclina hacia la izquierda, mientras que si cov(  2 ,  3 )>0 se inclina hacia la derecha.



Que los límites que se obtienen en forma conjunta para  2 y  3 son distintos a los que se obtienen en intervalos de confianza individuales. Es perfectamente posible que utilizando test individuales se concluya que los parámetros son individualmente no significativos, pero testeando conjuntamente la hipótesis de que ambos parámetros son cero esta sea rechazada por obtener un elipse tal que el punto (0,0) esté fuera de la misma. En ese caso uno puede decir que al menos uno de los parámetros tiene suficiente influencia sobre la variable explicativa, pero no puede asignar esa influencia a uno de los parámetros en particular.


118

Para predecir debemos recurrir a los parámetros estimados dentro de la muestra: Yi  1   2 X i 2  3 X i 3  ...   k X ik ˆ

ˆ

ˆ

ˆ

ˆ

i=1….n

Ynx1 = X nxk βkx1 ˆ

ˆ

El interés en general es pronosticar el valor de Y en un período posterior a n (por ejemplo el período que denominaremos 0). Si el interés está en predecir Y 0 se hablará de predicción individual. Si, alternativamente, se predice E( Y 0 /X), hablaremos de predicción media o promedio. Ambas alternativas dan lugar a la misma predicción puntual, pero diferentes intervalos de confianza, ya que difieren en la varianza del error de predicción. Ello por cuanto en ambos casos se utiliza para predecir la siguiente ecuación: Y0  1  2 X 02  3 X 03  ...   k X 0 k ˆ

ˆ

ˆ

ˆ

ˆ

Es fácil probar que Y 0 es un estimador insesgado de E Y0 X  ˆ

E( Y 0 )=E( Y 0 )

(porque Y 0 e Y 0 son variables aleatorias.)

ˆ

ˆ

Y0  1  2 X 02  ...   k X 0 k  u 0

(verdadero valor)

E Y0 / X 0   E  1   2 X 02  ...   k X 0 k  u0 

 1   2 X 02  ...   k X 0 k  E  u0   1   2 X 02  ...   k X 0 k





  E     E    X



E Y0 / X 0  E 1   2 X 02  ...   k X 0 k  ˆ

ˆ

ˆ

1

ˆ

ˆ

ˆ

2

 

 ...  E  k X 0 k  1   2 X 02  ...   k X 0 k ˆ

02

Es decir: Y 0 en promedio estará sobre Y 0 promedio. ˆ


119

El punto clave es realizar una proyección correcta de las variables explicativas y verificar si es correcto usar  i históricos hacia delante. ˆ

Que E( Y 0 )=E( Y 0 ) (no hay sesgo), no implica que no haya error de predicción. ˆ

Error de predicción = e0  Y0  Y 0

(es un escalar)

ˆ



e0   1   2 X 02  ...   k X 0 k  u0   1   2 X 02  ...   k X 0 k ˆ

ˆ

ˆ



e0  X0 (β - β )+ u 0 ˆ

1 xk

kx1

1x1

¿Cuál es el valor esperado del error de predicción?

 



E  e0   E X0 β - β  u0  E  X0 β - β   E  u0   0 ˆ







ˆ



E  e0   0

¿Cuál es la varianza de e0 ?

 

  var  e   var  X  β - β    var  u   2cov  X  β - β  u      var  e0   var X0 β - β + u0 ˆ

ˆ

0

0

ˆ

0

0

0

La covarianza está en función de dos variables aleatorias ( β y u0 ). β es función de los (i=1 hasta n) y u0 es un error aleatorio posterior a n. Por lo tanto, cov(ui , u0 )  0 ˆ

ˆ

por el supuesto de no autocorrelación de los errores y cov  X0 β - β , u0   0





ˆ





Modelo de Regresión Lineal Múltiple: Inferencia var(e0 )  var  X0 β - β





ˆ

  

2

   E   X0  β - β   X0 β - β     2        E  X0  β - β β - β  X 0    2     X0 E  β - β β - β  X 0   2 ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

 X0 var  β  X 0   2 ˆ

-1

 X0 2  XX  X 0   2 -1   2  X0  XX  X 0  1  

¿Cómo se distribuye e0 ?





e0  X0 β - β  u0 ˆ

u ~N 0, I  2



β ~N β, 2  XX  ˆ

-1



-1 2 e0 ~ N 0, X0  XX  X 0  1 







e0 ~N 0,var  e0  -1

DS  e0    X0  XX  X0  1

Si se cumple que: i. ii.

e0  E  e0  DS  e0 

 2  ˆ

ee n  k

~ N (0,1)

120


 2  n  k  ˆ

iii.

2



Entonces

121

~  n2k e0

t n-k , ó

-1

 X0  XX  X0  1

e0 DS  e0 

~t n-k

ˆ

ˆ

Intervalo de confianza para el error de predicción Esto nos permite hacer un intervalo para el error de predicción.

  e0 P  t / 2   t  / 2   1   DS  e0    P  t / 2  DS  e0   e0  t / 2  DS  e0    1     IC (e0 )  t / 2DS (e0 ) ˆ

ˆ

ˆ

ˆ

Intervalo de confianza para Y 0 Como e0  Y0  Y 0 , podemos obtener un intervalo de confianza para Y 0 ˆ



IC  e0   INT Y0  Y 0



ˆ





IC Y0  Y0   t / 2 DS  e0  ˆ

ˆ

IC Y0   Y0  t / 2 DS  e0  ˆ

ˆ

TAREA: Demostrar que el intervalo de predicción para una regresión simple es Y0  Y0  t  / 2 1  ˆ

1

ˆ

N

 X 

0  X 

2

x

2 i



En algunos casos interesa predecir E Y / X ˆ




122

E Y 0   X0β ˆ

 



e0  E Y0   E Y0  X0β  X0β  X0 β  β ˆ

ˆ

ˆ



1 2 var  e0   var  X0 β  β   X0  XX  X0





ˆ



1

  2 X0  XX  X0

Para estimar la demanda de combustible diesel (gasoil) en República Dominicana, se consideró que esta depende del precio real del combustible, y de una medida de la actividad económica o ingreso, para lo cual se utilizó el PIB real. El modelo a estimar es del tipo log-log. Considere los siguientes resultados de una estimación mediante mínimos cuadrados para la demanda de gasoil en República Dominicana, para el periodo 1997q1 2006q1: Diesel

Diesel

LOG(Q /IPC t) = 8.2163 - 0.0442*LOG(P t t) + 0.1196*LOG(PIB real) t 0.0788*LOG(PIB real t-1) + 0.2658*LOG(PIB real t-2) + 0.4901*LOG(PIB real t-3) 0.2139*LOG(Oferta de electricidadt) 2

R = 0.655129;

SRC = 0.089947

La matriz de varianzas y covarianzas de los coeficientes está dada por:

C(1) C(2) C(3) C(4) C(5) C(6) C(7)

4

C(1) 3.1871 0.1231 -0.1451 -0.1027 -0.0702 -0.1046 0.0108

C(2) 0.1231 0.0108 -0.0097 -0.0048 -0.0073 -0.0105 0.0095

C(3) -0.1451 -0.0097 0.0241 0.0054 -0.0054 0.0106 -0.0092

C(4) -0.1027 -0.0048 0.0054 0.0161 0.0033 -0.0075 -0.0025

C(5) -0.0702 -0.0073 -0.0054 0.0033 0.0209 0.0093 -0.0106

C(6) -0.1046 -0.0105 0.0106 -0.0075 0.0093 0.0261 -0.0141

C(7) 0.0108 0.0095 -0.0092 -0.0025 -0.0106 -0.0141 0.0194

Tomado de Francos, Martin (2006) “Estimación de la demanda de combustibles en la República Dominicana”. Unidad de Análisis Económico, Texto de discusión No. 6, Santo Domingo.


123

a) Realice la prueba de significancia individual de cada uno de los betas. b) Realice la prueba de significancia global del modelo. c) Considere la regresión auxiliar: Diesel

Diesel

LOG(Q /IPC t) = C(1) + C(2)*LOG(P t t) + C(3)*LOG(PIB real) t C(4)*LOG(PIB real t-1) + C(5)*LOG(PIB real t-2) + [1-C(3)-C(4)-C(5)]*LOG(PIB realt-3) - C(7)*LOG(Oferta de electricidadt)

Coeficiente 2

C(1) 7.30579

R = 0.609596;

C(2) -0.106925

C(3) 0.279455

C(4) -0.20198

C(5) 0.217272

C(7) -0.279354

SRC = 0.101822

Realice una prueba para comprobar la hipótesis de que la elasticidad ingreso de largo plazo es unitaria. Verifique la analogía del resultado utilizando las 3 alternativas: Mediante el desarrollo del test C beta   Residuos libres y restringidos Coeficiente de determinación 

En los temas anteriores, las variables dependiente e independiente del modelo de regresión tuvieron un significado cuantitativo, (como el salario por hora, años de escolaridad, etc.) por lo que la magnitud de la variable proporciona información útil. En algunas ocasiones, es necesario incorporar factores cualitativos como el sexo (hombre o mujer), región (Norte, Suroeste, Sureste), etc. En estos casos se utiliza una variable explicativa que sólo puede tomar dos valores: 1 ó 0. Estas variables se llaman variables binarias, ficticias, dicotómicas o dummy.

Consideremos el siguiente modelo (1.1)

salarioi     1 femeninoi  ui

Donde salario, representa el salario por hora en US$ femenino es una variable que toma valor 1 si la persona es mujer y 0 en el resto de

casos. Salario esperado de las mujeres: E  salarioi      1 Salario esperado de los hombres: E  salarioi    Supongamos que obtenemos la siguiente estimación:

Modelo de Regresión con variables cualitativas

125

Variable dependiente: SALARIO Método: MICO Muestra: 1 526 Variable C FEMENINO

Coeficiente Error estándar 7.099489 -2.511830

0.210008 0.303409

t-estadístico

Probabilidad

33.80578 -8.278688

0.0000 0.0000

En este caso el salario promedio para los hombres es de US$7.09, mientras el de las mujeres es menor al de los hombres en US$2.51, para un salario promedio de US$4.58 (=7.09-2.51). Los coeficientes que acompañan a la variable explicativa miden la diferencia respecto a la variable con la cual se compara, en este caso el salario de los hombres. Supongamos ahora que tenemos otra variable llamada masculino, la cual toma valores de 1 cuando es hombre y 0 en el resto ¿qué pasa si queremos estimar el modelo siguiente? (1.2)

salarioi    1 femeninoi   2 masculinoi  ui

En este caso no va a ser posible estimar el modelo, debido a que existe colinealidad perfecta en las variables, ya que la suma de las variables femenino y masculino será igual a 1, valor de la variable explicativa que implícitamente acompaña a la constante de la regresión. En las regresiones con variables cualitativas, la regla es que si la variable cualitativa tiene m categorías, sólo puede incluirse m-1 variables dicotómicas, al menos que se elimine el intercepto. Una alternativa de es estimar el modelo (1.2) es eliminar el intercepto: (1.3)

salarioi  1 femeninoi   2 masculinoi  ui

En este caso, para el ejemplo anterior, tendríamos los resultados siguientes: Variable dependiente: SALARIO Método: MICO Muestra: 1 526 Variable FEMENINO MASCULINO

Coeficiente 4.587659 7.099489

Error estándar 0.218983 0.210008

t-estadístico 20.94980 33.80578

Probabilidad 0.0000 0.0000


126

Ahora, los coeficientes representan directamente el salario medio para hombres y para mujeres.

Ni  1   2 Si  ui

(2.1)

para i  1,2,....n

Donde: N i es la nota en el curso de Econometría S i es una variable dummy que representa el sexo del alumno

0si es hombre S i   1 si es mujer ¿Cuál es la nota esperada de econometría para las alumnas mujeres? E  Ni / mujer   E  Ni / S  1  1   2

¿Cuál es la nota esperada de econometría para los alumnos hombres? E  Ni / hombre  E  Ni / S  0   1

N i

Supuestos:  2 > 0

 1 +  2

2  1

i


127

En relación al modelo presentado en (2.1), la nota en econometría podría ser función del índice académico acumulado al semestre anterior (IA) Ni  1  2 Si   3 IAi  ui

(2.2)

¿Cuál es la nota esperada de econometría para las alumnas mujeres? E  Ni / mujer   E  Ni / S  1  1  2   3 IAi

¿Cuál es la nota esperada de econometría para los alumnos hombres? E  Ni / hombre  E  Ni / S  0  1   3 IAi

N i  1 +  2+  3 IAi  1+  3 IAi

2

Supuestos:  2 > 0  3= para ambos sexos

IAi

Volviendo al modelo con una variable cuantitativa y una cualitativa de la ecuación (2.2), supongamos que el IA depende del sexo. Entonces: (2.3)

Ni  1  2 Si  3 IAi   4 IAi  Si  ui

¿Cuál es la nota esperada de econometría para las alumnas mujeres?


128

E  Ni / mujer   E  Ni / S  1  1  2   3   4  IAi

¿Cuál es la nota esperada de econometría para los alumnos hombres? E  Ni / hombre  E  Ni / S  0  1   3 IAi

El coeficiente  2 se llama intercepto diferencial y el coeficiente  4 pendiente diferencial. N i

 1 +  2+(  3+  4)IAi

 1+  3 IAi

Supuestos:  2 > 0  4 > 0

2 1

IAi

La nota en econometría podría ser función del sexo y de la región (por ejemplo si es de zona urbana o rural).

0zona urbana Ri   1 zona rural (2.4)

Ni  1   2 Si   3 Ri  ui

para i  1,2,....n

¿Cuál es la nota esperada para las alumnas mujeres de zona rural? E  Ni / mujer, rural  E  Ni / S  1, R  1  1  2   3


¿Cuál es la nota esperada para las alumnas mujeres de zona urbana? E  Ni / mujer, urbana   E  Ni / S  1, R  0  1   2

¿Cuál es la nota esperada para los alumnos hombres de zona rural? E  Ni / hombre, rural  E  Ni / S  0, R  1  1   3

¿Cuál es la nota esperada para los alumnos hombres de zona urbana? E  Ni / hombre, urbana   E  Ni / S  0, R  0   1

Supongamos ahora que la nota depende de la nacionalidad RDi

US i

ES i

1 R.D.  0resto 1EE.UU.  0 resto 1España  0 resto

(2.5)

Ni  1  2 RDi  3USi   4 ESi  ui

¿Cuál es la nota esperada si el alumno es de RD? E  N i   1   2

¿Cuál es la nota esperada si el alumno es de EE.UU.? E  N i   1   3

¿Y si es del resto del mundo (diferente de RD, EE.UU ó España)? E  N i    1

129


130

En general, las series de tiempo económicas tienen cuatro componentes: Z  C  T  S  I

(3.1)

Z es la serie original C es el ciclo T es la tendencia (en función del tiempo) S es la estacionalidad (en función del calendario) I es la parte irregular Veamos la siguiente serie para el “dinero real” 60

50

40

30

20

10

0 86

88

90

92

94

96

98

00

02

04

M1A/IPC

Sabemos que el comportamiento de largo plazo del dinero (componente tendenciaciclo) depende de una variable escala (ingreso) y del costo de mantenerlo (tasas de interés nominal). Pero además la trayectoria del dinero está afectada por factores estacionales, como por ejemplo el aumento de la demanda de dinero en diciembre por las navidades. Los efectos estacionales los podríamos aproximar a través de variables dummy así:


(3.2)

131

 M    1   2 ln Yi   3i   4 D1   5 D2  ...   15 D11  ui P  

ln 

1si es el mes de enero D1   resto 0 1si es el mes de febrero D2   resto 0

, y así respectivamente hasta D 11

Supongamos la siguiente ecuación para en consumo privado en la República Dominicana: CP  1   2Yi  ui

(4.1)

Si usted supone que hay cambio estructural a partir de 1990 debido a las reformas macroeconómicas realizadas ese año. En este caso tendríamos: 1970-1990  1 I ,  2 I 1991-2004  1 II ,  2 II

0economía sin reforma (1970-1990)

Si definimos D1  

1 economía con reforma (1991-2004

Podemos entonces plantear el modelo: (4.2)

CP  1  2 Di  3Yi   4 Di  Yi  ui

Si realizamos la siguiente prueba hipótesis: H 0 :  2   4  0 H 1 :  2 ó  4  0

Esto es equivalente al test de cambio estructural presentado por Chow, sin embargo, tiene la ventaja que permite indicar en forma precisa cuál parámetro es diferente, si cambia el intercepto, la pendiente o ambos.


De igual modo, también es posible realizar pruebas individuales: H 0 :  2  0 H 1 :  2  0 H 0 :  4  0 H 1 :  4  0

132

0B

La multicolinealidad es un problema de la muestra, no de especificación del modelo. Al no controlar las variables explicativas experimentalmente, ellas pueden tener una alta correlación, por lo cual se hace difícil discernir cuál es el efecto individual de cada una de ellas. Considere el siguiente diagrama, donde los círculos representan las variaciones de las variables Y, X 2 y X3.

x3

y

x3

y

5

2

4 1

3 x2

x2

A medida que mayor es el área entre la variable dependiente y las explicativas (área 1 y 2) mayor es la información común y menor la varianza de los coeficientes.

Multicolinealidad

134

Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área 4), mayor será la colinealidad de las variables y mayor será la varianza de los estimadores. Asimismo, según se agregan variables explicativas, los parámetros del modelo son calculados cada vez con menos información, provocando un incremento en las varianzas de los estimadores. Originalmente, el término multicolinealidad significó la existencia de una relación perfecta o exacta entre algunas o todas las variables explicativas de un modelo de regresión. Para la regresión con k variables que incluye las variables explicativas X 1 , X 2 , ..., X k (donde X 1= 1 para todas las observaciones que den cabida al término intercepto), se dice que existe una relación lineal exacta si se satisface la siguiente condición: 1 X 1  2 X 2 

  k X k  0

(1.1)

Donde λ 1, λ 2 ... λ k son constantes tales que no todas ellas son simultáneamente iguales a cero. Sin embargo, hoy en día, el término se utiliza en un sentido más amplio, para incluir tanto el caso de multicolinealidad perfecta de (1.1) , como también el caso en el cual hay variables intercorrelacionadas pero no en forma perfecta, de la siguiente manera: X

1 X 1  2 X 2 

X

  k X k  vi  0

(1.2)

donde vi es un término de error estocástico. La diferencia entre ambos tipos de multicolinealidad la podemos ver a través del siguiente ejemplo: Si tenemos λ 2 ≠ 0 , entonces (1.1) puede escribirse como: X

X 2i  

X

1 2

X 1i 

3 2

X 3i 



 k  2

X ki

(1.3)

Multicolinealidad

135

que muestra la forma como X 2 está exactamente relacionada de manera lineal con las otras variables, o como ésta puede derivarse a partir de una combinación lineal de otras variables X . En esta situación el coeficiente de correlación entre la variable X 2 y la combinación lineal del lado derecho debe ser igual a uno.

En forma similar, si λ 2 ≠ 0, (1.2) puede escribirse como: X

X 2i  

X

1 2

X 1i 

3 2

X 3i 



 k 2

X ki 

1

2

vi

(1.4)

Lo cual muestra que X 2 no es una combinación lineal exacta de otras X porque está determinada por el término de error estocástico νi. Hasta ahora nos hemos referido a la multicolinealidad como lineal. Modelos como el siguiente no se considerarían en este grupo:

Yi  0  1 X i  2 X i2   3 X i3  ui

(1.5) 2

3

Donde Y = costo de producción y X = producción. Las variables X i y X i están funcionalmente relacionadas con X i, pero la relación no es lineal. Por lo tanto, estrictamente modelos como éste no violan el supuesto de no multicolinealidad, sin embargo, el coeficiente de correlación entre las tres variables será alto, por lo que se hará difícil la estimación de los parámetros de (1.5) con mayor precisión. X

X

El modelo clásico de regresión simple supone que no hay multicolinealidad entre las X por lo siguiente: Si la Multicolinealidad es perfecta, los coeficientes de la regresión de las variables X son indeterminados y sus errores estándar son infinitos. Si la multicolinealidad es menos que perfecta, aunque los coeficientes sean determinados, poseen grandes errores estándar, lo cual significa que los mismos no pueden ser estimados con gran precisión o exactitud. La multicolinealidad puede deberse a los factores siguientes:  

El método de recolección de información. La muestra se obtuvo en un intervalo limitado de valores de la población. Restricciones sobre el modelo o en la población objeto de muestreo . Por ejemplo, si estimamos el modelo de consumo incluyendo como variables explicativas el ingreso corriente y la riqueza, estas pueden ser válidas en el

Multicolinealidad

136

modelo teórico, pero van a presentar alta colinealidad, porque familias de altos ingresos suelen tener mayor riqueza.  Especificación del modelo. En el caso que el modelo tenga términos polinomiales.  Un modelo sobredeterminado. O sea, cuando tiene más variables explicativas que el número de observaciones. 1B

En este caso, como mencionamos anteriormente, los coeficientes de regresión serán indeterminados. Esto se puede demostrar mediante el modelo de regresión con tres variables en desvíos: yi   2 x2i   3 x3i  ui ˆ

(2.1)

ˆ

ˆ

Sabemos que en el modelo de regresión múltiple:

 2 ˆ

  y x    x    y x   x    x   x     x x  i

2 3i

2i

2 2i

ˆ

x3i 

2i

(2.2)

3i

es una constante diferente de cero,

X

  y x     x      y x     x  0   0   x    x      x  2

 2

λ

2i

2

2 3i

Si suponemos que X 3i = λX 2i, donde sustituyendo esto en (2.2) tenemos: X

i 3i

i

2 2i

2i

2 2i

2

i

2 2i

2

2 2i

2i

2 2i

2

(2.3)

que es una expresión indeterminada. Debemos recordar que  2 es el cambio en el valor promedio de Y cuando X 2 aumenta en una unidad, manteniendo X 3 constante. Pero si estas dos variables son perfectamente colineales, a medida que X 2 cambia, también X 3 lo hace por el factor λ. Por lo tanto, no hay forma de separar las influencias individuales de cada variable en la variable dependiente para la muestra dada. ˆ

En conclusión, en el caso de multicolinealidad perfecta no se puede obtener una solución única para los coeficientes de regresión individual. Si sustituimos X 3i = λ X 2i obtenemos lo siguiente:

Multicolinealidad

137

yi   2 x2i   3 ( x2i )  ui ˆ

ˆ

ˆ

 (  2   3 ) x2i  ui ˆ

(2.4)

ˆ

ˆ

  x2 i  ui ˆ

ˆ

donde

  ( 2  3 ) ˆ

(2.5)

ˆ

ˆ

Aplicando la fórmula MICO a (2.4) se obtiene: X

X

  ( 2  3 )  ˆ

ˆ

ˆ

 x i yi  x i 2

(2.6)

2 2

Como vemos podemos obtener el estimador individual de  , pero no de  2 y  3 . ˆ

ˆ

ˆ

Si utilizamos del valor de  =0.8 y λ = 2 tenemos de (2.5) que: ˆ

X

X

 2  0.8  2 3 ˆ

(2.7)

ˆ

Entonces si seleccionamos un valor arbitrario para  3 , tendremos un valor para  2 . ˆ

ˆ

Y si seleccionamos otro valor para  3 tendremos otro valor para  2 . Entonces no ˆ

ˆ

existiría un valor único para  2 . ˆ

2B

El caso de multicolinealidad perfecta es casi imposible de observarse en la práctica, especialmente para el caso de información económica relacionada con series de tiempo. Continuando con el modelo para tres variables en desvíos ahora podemos tener: x3i   x2i  vi

donde λ ≠ 0 y donde vi es un término de error estocástico tal que

(3.1)

 x ivi  0 2

En este caso la estimación de los coeficientes de regresión  2 y  3 puede ser realizada sustituyendo (3.1) en (2.2) , y obtenemos: ˆ

X

X

X

X

ˆ

Multicolinealidad

138

y x     x   v      y x   y v     x   x v       x    x   v     x  (3.2) y x     x   v      y x   y v     x       x    x   v     x  2

 2 ˆ

i

2 2i

2i

2 i

2 2i

2

i

2 2i

2i

2 2i

i

2

2 2i

donde se utiliza el hecho de que

i

2 2i

2 i

 x ivi  0 . 2

2 2i

i i

2 i

2 i

2

2i

2

2i

2 2i

2 2i

2

2 2i

i i

2

2i i

2

Podemos hacer lo mismo con  3 . ˆ

En este caso, el coeficiente es determinado. Sin embargo, vale destacar que si vi es muy cercano a cero la colinealidad es casi perfecta. 3B

En los casos de casi o alta multicolinealidad es probable que se presenten las siguientes consecuencias: 1. Varianzas y covarianzas grandes, aun cuando los estimadores MICO son MELI. 2. Intervalos de confianza tienden a ser muy anchos, lo cual lleva a aceptar cualquier hipótesis nula (de significancia individual); esto se debe a la alta varianza. 3. Asimismo, la razón “t” de uno o más coeficientes tiende a ser estadísticamente no significativa. Ahora bien, cuando existe multicolinealidad el hecho de que la ra zón “t” sea baja, no significa que inevitablemente que hay que excluir la variable explicativa. 2 4. Por otro lado, sin embargo, se puede obtener un R alto, que implica significancia global, aun teniendo test “t” bajos. 5. Los estimadores MICO y sus errores estándar pueden ser sensibles a pequeños cambios en la información (incluir o no una variable, etc.). Demostración estimador MICO con varianza y covarianza grandes: Para el modelo (2.1) las varianzas y covarianzas de  2 y  3 están dadas por: 6B

ˆ

X

ˆ

X

 

var  2  ˆ

 2



2 2  x2i 1  r 23



(4.1)

Multicolinealidad

139

 

var  3 

 2

ˆ



ˆ

2 23

2



cov  2  3  ˆ

(4.2)

 x 1  r  2 3i

r 23

(4.3)

1  r   x  x 2 23

2 2i

2 3i

Donde r 23 es el coeficiente de correlación entre X 2 y X3. De estas ecuaciones se entiende que a medida que r 23 tiende a 1, o sea, a medida que la colinealidad aumenta, la varianza del coeficiente aumenta. En el límite, cuando r 23 = 1 la varianza es infinita. Por el mismo argumento también aumenta la covarianza entre ambos coeficientes. La velocidad con la cual aumentan la varianza y covarianza puede verse con el factor inflador de varianza (FIV), que para el modelo (2.1) (2 variables explicativas) se define como: X

FIV 

1

X

(4.4)

1  r  2 23

El mismo muestra como la varianzas de un coeficiente es inflada por la presencia 2 de la multicolinealidad. Cuando r 23 tiende a 1, el FIV ~ ∞. Si no hay colinealidad entre las variables el FIV será 1. Para el caso del modelo de k variables, la varianza de un coeficiente puede ser expresada como:

 

var  j  ˆ

 2

1

 x j 1  R j 2

2

(4.5)

y FIV=

1 2

1  R j

Sustituyendo (4.6) en (4.5) : X

X

X

X

(4.6)

Multicolinealidad

140

 

var  j  ˆ

 2

 x

2 j

FIVj

(4.7)

Que muestra que la varianza del estimador es directamente proporcional al FIV. 4B

No se tiene un método único de detectarla o de medir su fuerza. Lo que existen son ciertas reglas prácticas, algunas informales y otras formales, como son: 2

1. Un R alto y test “t” no significativos. Este es un síntoma clásico de multicolinealidad. Aunque es un diagnóstico razonable, tiene la desventaja de que es muy fuerte, en el sentido de que la multicolinealidad se considera dañina únicamente cuando no se pueden separar la totalidad de las influencias de las variables explicativas sobre la variable Y. 2. Altas correlaciones entre parejas de regresores . Esto se puede ver mediante el coeficiente de correlación de orden cero entre los regresores. Si es alrededor de 0.8 o más, el problema se puede considerar como grave. Sin embargo, hay que tener cuidado. Las correlaciones de orden cero altas son una condición suficiente pero no necesaria para la existencia de multicolinealidad debido a que ésta puede existir, a pesar de que las correlaciones de orden cero sean relativamente bajas. ¿Por qué? El coeficiente de correlación simple muestra solamente la correlación entre 2 variables, sin embargo puede existir una relación entre más de 2 variables explicativas. 3. Regresiones auxiliares. Una forma de encontrar cual variable está altamente correlacionada con las otras, es efectuar la regresión de cada X j 2 sobre las variables X restantes y calcular el R correspondiente, que se 2 designa R j. Cada una de estas regresiones se denomina regresión auxiliar. 2 Siguiendo la relación entre F y R tenemos: 2

R X j  X 2 X 3 F j 

1  R

2 X j  X 2 X 3

X k

k  2

X k



n  k  1

(5.1)

Multicolinealidad

141

que sigue una distribución F con k-2 y n-k+1 g. de l. 2

El R Xj∙X2.X3...Xk es el coeficiente de determinación en la regresión de la variable X j sobre las X restantes. Si F calculado > que F crítico se dice que el X j particular es colineal con las demás X restantes, en caso contrario no es colineal, y por tanto podemos mantener la variable en el modelo. 2

En lugar de probar formalmente todos los R auxiliares, podemos adoptar la regla práctica de Klein que sugiere que la multicolinealidad puede ser un 2 problema complicado solamente si el R obtenido de una regresión auxiliar es 2 mayor que el R global. 4. Factores de Tolerancia y de Inflación de Varianza. Mientras mayor es el FIV, mayor problema o colinealidad tiene la variable X j. Como regla práctica, si el FIV > 10 se dice que la variable es altamente colineal. Otros autores utilizan la medida de tolerancia para detectar el problema. Esta se define como:





TOL j  1  R 2j 

1

(5.2)

FIV j

TOL j = 1 si X j no está correlacionado con los otros regresores, TOL j = 0 si está perfectamente correlacionado. Sin embargo, FIV alto no es condición necesaria ni suficiente para tener varianza y errores estándar altos. Esto es porque como se puede ver en (4.7) , la X

 

var  j ˆ

X

depende de tres factores:  2 ,  x j2 y FIV j los cuales pueden ser

contrarrestados entre si. 5B

Existen 2 opciones básicas: incorporar información adicional ó ¡no hacer nada! Se pueden llevar a cabo las siguientes prácticas: 1. Aumentar la muestra. Ya que la multicolinealidad se puede deber a la “micronumerosidad ” o que la muestra haya sido extraída de un pequeño

Multicolinealidad

142

intervalo de la población, aumentar la muestra puede ayudar a aumentar la ortogonalidad de las variables. Dado que:

 

var  j 



ˆ

2

2

 x  1  R  2 j

2 j





n  var  X j   1  R 2j 

Cuando aumentamos la muestra aumentamos

 x j , y por tanto disminuye 2

la varianza de  j . ˆ

Sin embargo, en economía muchas veces puede ser difícil aumentar la muestra, bien porque puede ser muy costoso ó porque no existen los registros estadísticos necesarios. 2. Especificar una relación entre parámetros. Si se tiene algún dato debido a la teoría o a una regresión previa de la relación entre por ejemplo X 2i y X 3i se puede imponer esta restricción en la regresión. Por ejemplo el caso de la función de producción Cobb-Douglas linelizada: ln Yi  1   2 ln X 2i   3 ln X 3i  ui

(6.1)

Si suponemos rendimientos constantes a escala:  2   3   1 Entonces imponemos esta restricción en la ecuación antes de estimarla. Cabe señalar que estas restricciones deben basarse en algún fundamento teórico. 3. Incorporar estimadores de otros estudios. Conocida como mezcla de datos. Por ejemplo, si queremos estimar la demanda de un bien y tenemos informaciones de series de tiempo, podríamos utilizar la siguiente ecuación: ln Yt  1   2 ln Pt   3 ln I t  ut

(6.2)

Donde Q = cantidad vendida, P = precio promedio, I = ingreso. Necesitamos estimar las elasticidades, pero P e I tienen alta colinealidad. Una solución posible es calcular la elasticidad ingreso mediante datos de

Multicolinealidad

143

corte transversal, (como información generada a través de un grupo de consumidores). Supongamos que la elasticidad ingreso calculada de esta forma es igual a 1.1. Entonces la ecuación de series de tiempo puede estimarse como: ln Yt  1   2 ln Pt  1.1ln It  ut

(6.3)

4. Eliminación de variables y sesgo de especificación. Una solución a la multicolinealidad es eliminar una de las variables colineales. Sin embargo, este método puede causar sesgo de especificación o error de especificación. Lo cual es peor que el problema de multicolinealidad. 5. Transformación de variables. Supongamos que tenemos unos datos de series de tiempo. Si tenemos la relación: Yt  1   2 X 2t   3 X 3t  ut

(6.4)

Si esta relación se cumple en t , también se cumple en t-1: Yt 1  1   2 X 2t 1   3 X 3t 1  ut 1

(6.5)

Restando ambas ecuaciones tenemos la ecuación en primeras diferencias: Yt  Yt 1   2 ( X 2t  X 2t 1 )   3 ( X 3t  X 3t 1 )  vt

(6.6)

Podemos eliminar multicolinealidad porque aunque X 2 y X 3 estén correlacionadas, no necesariamente lo van a estar sus diferencias. Sin embargo (6.6) puede tener el problema de que los errores están serialmente correlacionados, con lo cual el remedio podría ser peor que la enfermedad. 6. Otros métodos. Técnicas estadísticas multivariadas como análisis de factores y componentes principales. Estos no los veremos porque exceden los límites de este curso. 7. ¡No hacer nada! Siempre que el único objetivo de la regresión sea el pronóstico, la multicolinealidad no es un problema grave, ya que mientras 2 más alto el R , mejor la predicción. La multicolinealidad no afecta las propiedades de los estimadores, pues éstos siguen siendo MELI; la varianza

Multicolinealidad

144

es grande pero mínima. Simplemente asumimos que la multicolinealidad es un problema muestral, la realidad es así y la muestra tiene éstos problemas. Pero esto puede suceder siempre que los valores de las variables explicativas para los cuales se desean las predicciones obedezcan a las mismas dependencias lineales casi exactas de la matriz X (de los factores) de diseño original, que es una condición difícil de conseguir en la práctica.

Uno de los supuestos importantes del modelo clásico de regresión lineal es que la varianza de cada término de error ui, condicional a los valores seleccionados de las 2 variables explicativas, es un número constante que llamamos σ . Esto es lo que se conoce como el supuesto de homocedasticidad:

 

E ui2   2 ,

i 1,2,3...n

E (uu ')   2I

(1.1) (1.2)

Gráficamente la homocedasticidad en el modelo con dos variables se puede observar en el primer gráfico de la siguiente página. Se observa que la varianza de Y condicional a las X i dadas permanece igual sin importar los valores que tome la variable X. Esto se refleja en una varianza constante para la regresión, o sea 2 var(Y i)= σ .

En contraste, si vemos el segundo gráfico, éste muestra que la varianza condicional de Y aumenta a medida que X aumenta. Las varianzas no son las mismas, y por lo tanto existe heterocedasticidad. Ahora E  ui2    i2 , entonces la varianza de ui ya no es constante. La heterocedasticidad es más probable de encontrar en estudios de corte transversal que en aquellos de series de tiempo. Un ejemplo de este problema sería en un estudio de corte transversal del ingreso y los gastos familiares, se esperaría que los individuos de ingresos bajos gasten a un ritmo constante mientras que los de ingresos altos tengan patrones de gastos relativamente volátiles.

Heterocedasticidad

146

Y =

1

+

2X i

1

X 1

X 2

X 3

X 4

X 5

Y =

1

X 1

X 2

X 3

X 4

X 5

1

+

2X i

Heterocedasticidad

147

Existen varias razones por las cuales las varianzas de ui pueden ser variables, como son: a) Con base en modelos de aprendizaje sobre errores: a medida que la gente aprende, con el tiempo, sus errores de comportamiento se hacen menores, entonces la varianza tiende a reducir. b) A medida que aumentan los ingresos, la gente posee más ingreso discrecional: por lo tanto, tiene mayores posibilidades de selección con respecto a la forma de disponer de su ingreso. c) A medida que mejoran las técnicas de recolección de la información, es posible que la varianza se reduzca. d) La heterocedasticidad puede surgir como resultado de la presencia de factores atípicos (outliers): La inclusión de una variable de este tipo puede alterar los resultados de la regresión, especialmente si la muestra es pequeña. e) La heterocedasticidad puede surgir por la mala especificación del modelo: Al omitir una variable relevante para el modelo por ejemplo. Una mala especificación puede hacer que los residuos obtenidos den la impresión de que existe heterocedasticidad.

Vamos a considerar el modelo clásico con dos variables, pero ahora vamos a suponer que se viola el supuesto de homocedasticidad,: Yi  1   2 X i  ui

(2.1)

Y aplicando la fórmula conocida de MICO tenemos:  2  ˆ

 x y  x i

i

2 i

Sustituyendo (2.1) en (2.2), utilizando k i y sus propiedades:

(2.2)

Heterocedasticidad

148

 k Y   k     X  u     k    k X   k u    k    k X   k u     k u

 2  ˆ

 2 ˆ

i i

i

1

2

i

i

1

i

2

i

i

i i

1

i

2

i

i

i i

i i

2

Aplicando el operador de esperanza:

 

E 2  E   2  ˆ

 k u      k E  u  2

i i

i

i

 

E  2   2 ˆ

Por tanto, aun bajo la presencia de heterocedasticidad, el estimador sigue siendo insesgado. Obtengamos ahora su varianza: 2

var   2   E   2   2   E  kiui    2  E  k1u1  k2u2  ...  knun      E  k1u1  k2u2  ...  knun  k1u1  k 2u2  ...  knun   ˆ

2

ˆ

 E  k12u12  k1k 2u1u2  k1k 3u1u3...  k22u 22  k 2k1u2u1  ...  k12 E  u12   k1k2 E  u1u2   k1k3 E  u1u3  ...  k22 E  u22   k2k1E  u2u1   ...kn2 E un2   12

0

0

 22

0

 n2

2 2   x  i x  i 2 2 2 i k     i i   i  2 2 x   i  i   xi2  2

La varianza ahora es:

 x  var       x  ˆ

2

2 i

2 i

2 i 2

que difiere de la fórmula habitual bajo el supuesto de homocedasticidad:

(2.3)

Heterocedasticidad

149

 

var  2  ˆ

2



(2.4)

 x

2 i

2 Suponga que  i2   2k i donde σ es una constante y k i son ponderaciones conocidas, pero no necesariamente iguales. Si sustituimos en (2.3), tenemos:

 x  var       x  2 i

ˆ

2

2 i

2 i 2

x  k   x k     x   x  x 2 i

2

2 i i

2

i

2 i

2

2 i

2 i

Donde el primer término del lado derecho es la varianza del estimador MICO de β 2 bajo el supuesto de homocedasticidad.

 

¿Cuál es la relación de var  2 bajo homocedasticad y bajo heterocedasticidad? ˆ

Si el segundo término del lado derecho es mayor que uno,

 x k   x 2 i i

2 i

la

varianza heterocedástica será mayor a la homocedástica, por lo que si utilizamos esta última, subestimamos la varianza heterocedástica, inflando los estadísticos t y F. Si xi2ki  xi2 , ocurre lo contrario. Por tanto, la subestimación o





sobreestimación de la varianza de β 2, depende de la relación entre σ 2 y la variable X i. En cuanto al modelo general expresado en forma matricial, cuando se viola el supuesto de homocedasticidad:

 E  u12  E (u1u2 )  2  E  u2u1  E (u2 ) un 1n     E  unu1  E (unu2 ) 

 u1  u  2 E  uu '  E   u1 u2     un  n1  12 0  2  0 2    0 0

0

 1 0   0  0 2 2       n2  0 0

0 0

   2    n 

E  u1un  

 E  u2un     2 E  un    nn

Heterocedasticidad

150 1

Sabemos que β  X'X ˆ

X'Y

y

Y  Xβ  u .

Sustituyendo tenemos:

1

β   X'X  X' Xβ  u  ˆ

  X'X 

1

X'Xβ 

 X'X

1

X'u

1

 β   X'X  X'u Aplicando el operador de esperanza: 1

E (β)  E β  E  X'X  X'u ˆ





E (β)  β ˆ

Por lo tanto β es insesgado, a pesar de la presencia de heterocedasticidad, debido a que este supuesto no es necesario para demostrar insesgamiento. Ahora veamos la varianza: ˆ

var  cov β  E  β  E ( β) β  E ( β) '

  ˆ

    E  β  β  β  β  '   1 1  E   X'X  X'u  X'X  X'u '   1 1  E  X'X  X'uu ' X  X'X    ˆ

ˆ

ˆ

ˆ

ˆ

ˆ





  X'X 

1

  X'X 

1





 

2

ΩX  X'X

X' E uu ' X X'X X'

1





1

1

var  cov β   2  X'X  X'ΩX  X'X 

1

ˆ

Esta varianza se diferencia de las encontradas bajo el supuesto de homocedasticidad, donde



var  cov β   2  X'X  ˆ

1

(2.5)

Heterocedasticidad

151

El estimador MICO, ya no es el mejor estimador lineal insesgado (MELI). Mantiene la propiedad de linealidad e insesgadez, pero ya no es el mejor de los estimadores, pues no tiene la varianza mínima. Por lo tanto este estimador sería consistente pero no eficiente. Lo que sucede es que la estimación MICO en presencia de heterocedasticidad, trata con igual ponderación una observación de una población de varianza elevada y una de varianza pequeña, cuando lo más razonable sería dar más ponderación a las observaciones provenientes de poblaciones con menores varianzas respecto de las de mayor varianza. Esto afecta los distintos tests y la inferencia se hace inválida. Si utilizamos el estimador MICO ignorando heterocedasticidad, entonces el

 

estimador MICO de la var  2 será un estimador sesgado, que además subestima ˆ

o sobreestima la varianza, por lo tanto las pruebas t y F usuales y los intervalos de confianza resultarán erróneos. El sesgo viene dado porque el estimador de  2 ,  2  ei2  n  k  , no es insesgado cuando se viola el supuesto de ˆ



homocedasticidad. Por tanto, utilizar el estimador MICO en presencia de heterocedasticidad puede provocar errores importantes. Para evitarlos, se utiliza un método de estimación alternativo: Mínimos Cuadrados Generalizados.







var β MCG  var βMICO ˆ

ˆ



Heterocedástico

Este método de estimación tiene en cuenta la existencia de varianzas no homocedásticas, y por lo tanto nos permite obtener estimadores que sí serán MELI. Lo que hace el método de MCG es ponderar de forma diferente las observaciones, dando mayor ponderación a las observaciones con menor varianza, ya que estas son más precisas para señalar por donde pasa la función de regresión poblacional.

Heterocedasticidad

152

Si consideramos nuevamente el modelo de dos variables ya visto: Yi  1   2 X i  ui

(4.1)

Yi  1 X 01   2 X i  ui

(4.2)

que podemos rescribir como:

Donde X0i = 1. Si las varianzas heterocedásticas son conocidas dividimos a ambos lados por σ i:

X  X  1  0i    2  i i  i   i Yi

  ui      i 

(4.3)

Esto podemos rescribirlo como: Yi*  1* X 0*i   2* X i*  u*i

(4.4)

Las variables X con “*” quieren decir las variables transformadas y los beta “*” son para diferenciarlos de los MICO. Para ver el propósito de transformar las variables, veamos la siguiente característica del error transformado: var  ui   E  ui *

*



1



2

u   E i    i 

 

E ui  2

i

2

2 i 2 i

 

2

(4.5)

1

Dado que  i2 es conocida y E  ui    i

2

La varianza de var(ui* ) es igual a la unidad, o sea es una constante, por lo tanto es homocedástica. Entonces si se aplica la estimación MICO al modelo transformado, se producirán estimadores MELI. Por lo tanto  1* y  2* son eficientes.

Heterocedasticidad

153

En resumen, MCG es MICO sobre las variables transformadas que satisfacen los supuestos estándar de mínimos cuadrados. Los estimadores así obtenidos se conocen como estimadores MCG y éstos son los estimadores que son MELI . Para obtener los estimadores MCG se minimiza los residuos al cuadrado del modelo transformado: min

min

e

*2 i



  Yi   X   X *

wi ei  2

* 1

* 0i

ˆ

 

* 2

* i

2

 

(4.6)

2

wi Yi  1 X 0i   2 X i ˆ

*

*

*

donde wi = 1/  i2 , es decir las observaciones son ponderadas inversamente proporcional por la varianza de ui.

 w e

2 i i

 

* 1

ei

 2 wi (Yi  1*   2* X i )(1)  0 ˆ

ˆ

ˆ

 w (Y    X )  0  wY    w    w X  0 Y      X  0 * 1

* 2

ˆ

i

i

* 1

ˆ

* 2

ˆ

i i

*

ˆ

i

* 1

* n n

i

* i

ˆ

Y  1 ˆ

i

* 2

ˆ

i

*

i

  2* X *  0 ˆ


1*  Y *   2* X * ˆ

(4.7)

ˆ


  wi ei2  

* 2

 2 wi (Yi  1*  2* X i )( X i )  0 ˆ

ˆ

ˆ

 wY X i i

 1*  wi X i  2*  wi X i2  0 ˆ

i

ˆ

*

 1 ˆ

 wY X  Y i i

i

*

  2* X *   wi X i  2*  wi X i2  0 ˆ

ˆ

(4.8)

Heterocedasticidad

154

 wY X  Y   X   w X    w X   wY w X      wY X    w X    w X  w   w wY w X w X w X        w X wY X   w w    w X w X  wY w X       w X    w w   wY  w X   w Y X  w    w X  w X   w X w *

i i

i

i i

i

* 2

*

ˆ

ˆ

i

i i

i

i

* 2

ˆ

ˆ

i

i

i

i

ˆ

i

i

* 2

i

i

i

i i

i i

i

i

i

ˆ

* 2

i

2 i

i

i i

 wY X

2 i

i

i

i

i i

* 2

* 2

ˆ

i

2 i

i

i

* 2

i

i

i

i

2 i

i

i

i

i i

i i

ˆ

i

i

i

i

* 2

i

i

i

2 i

i

i

i

*  2  ˆ

 w  wY X   w   w Y  w X   w  w X  w X    w X i

i i

i

i

i

i

i

i i

i

i

i

i

i

2 i

El estimador MCG de  2* es:  2*  ˆ

  w   w X Y     w X   wY    w    w X     w X  i

i

i

i i

i

i

i

i i

2

2 i

i

(4.9)

i

donde wi = 1/  i2 . Su varianza está dada por: w   var       w    w X     w X  i

* 2

ˆ

i

i

2 i

2

i

i

(4.10)

Heterocedasticidad

Sabemos que

155

Y  Xβ  u

y bajo el supuesto de heterocedasticidad E  uu '   2 .

Necesitamos modificar el modelo, de forma tal que el error sea homocedástico, por tanto supongamos una matriz T que transforma los datos: TY = TXβ + T u (4.11) = TXβ + v Donde

v

 Tu y requerimos que E  vv '   2I

var  v   E  vv '   E Tuu'T'   TE uu' T'  T  2ΩT'   2TΩT' Donde necesitamos

por tanto Ω  T1T'1 y:

TΩT' = I ,



Ω 1  T'T

(4.12)

La matriz T debe cumplir el requisito (4.12), para que pueda cumplirse el supuesto de homocedasticidad del modelo trasnformado (4.11). Los estimadores MCG equivalen a los estimadores MICO sobre el modelo transformado (4.11): βMCG =  TX  ' TX ˆ

-1

  X ' T ' TX 

-1

 TX ' TY

X ' T ' TY

-1

  X ' Ω1 X X ' Ω1Y = X 'Ω



1

-1

X  X ' Ω

1

(4.13)

 Xβ + u 

-1

-1

  X ' Ω1 X X ' Ω1Xβ   X ' Ω1 X X ' Ω1u -1

 β   X ' Ω1X  X ' Ω1u Propiedades del estimador MCG Sesgo

  E  β =β



-1

1 1 E βMCG = E  β   E  X ' Ω X  X ' Ω u ˆ

ˆ

MCG



(4.14)

Heterocedasticidad

156

Varianza var β MCG  E  β MCG  E (β MCG ) β MCG  E (βMCG ) ' 



ˆ



  E  β  ˆ



ˆ

ˆ

ˆ

ˆ



 β β MCG  β  '  ˆ

MCG

-1 -1  E   X ' Ω 1X  X ' Ω 1u  X ' Ω 1X  X ' Ω 1u '    -1 -1  E   X ' Ω 1X  X ' Ω 1uu ' Ω 1X  X ' Ω 1X    







-1

  X ' Ω 1X  X ' Ω 1 E  uu '  Ω 1X  X ' Ω 1X    X ' Ω 1X 

-1

X 'Ω

  2  X ' Ω 1X 



1

   2ΩΩ 1X  X ' Ω 1X 

-1

-1



 var βMCG   2  X ' Ω 1X ˆ

-1

-1

(4.15)

Puede demostrarse que (4.15) cumple con el teorema de Gauss-Markov. 2

Estimador de σ

El estimador de  2 es:  2  ˆ

Donde

v ˆ

v'v ˆ

ˆ

n  k

 TY  TXβMCG , y sustituyendo en (4.16): ˆ

(4.16)

Heterocedasticidad

157

 2  ˆ

v'v ˆ

ˆ

nk

TY  TXβ '  TY  TXβ     ˆ

ˆ

MCG

MCG

nk

Y  Xβ ' T ' T  Y  Xβ     ˆ

ˆ

MCG

MCG

n  k

Y  Xβ ' Ω  Y  Xβ     1

ˆ

ˆ

MCG

MCG

n  k

Y  Xβ ' Ω  Y  Xβ     1

ˆ

 2 ˆ

MCG

ˆ

MCG

n  k

(4.17)

Diferencia entre MICO y MCG: MCG minimiza una suma ponderada de residuos al cuadrado donde wi actúa como un ponderador, en cambio que MICO minimiza la SRC sin ponderar. Como lo que tratamos es de estimar una función de regresión poblacional (FRP), la idea es ponderar con un peso relativamente mayor las observaciones más cercanas a la media (poblacional), que aquellas que están más dispersas. Como en (4.6) se minimiza la SRC ponderados, estos estimadores se conocen como Mínimos cuadrados ponderados (MCP), que son un caso particular de los MCG (veremos otra aplicación de MCG en el caso de autocorrelación).

Métodos informales: 

Naturaleza del problema: con mucha frecuencia, la naturaleza del problema en estudio sugiere la posibilidad de que exista heterocedasticidad, principalmente cuando se trabaja con datos de corte transversal.



Método gráfico: Una vez estimado el modelo, la inspección y análisis de los residuos permite detectar la presencia de heterocedasticidad, dado que pueden considerarse como “ proxies” de las perturbaciones aleatorias: ei  Yi  1   2 X i

Heterocedasticidad

158

La representación gráfica de los residuos al cuadrado (o en valor absoluto) frente a los valores de las variables explicativas puede permitir valorar la presencia de heterocedasticidad y, en su caso, la posible causa de ésta. Una pauta clara de crecimiento o decrecimiento del cuadrado de los residuos indicaría un crecimiento/decrecimiento de la varianza de las perturbaciones aleatorias con la variable en cuestión. Otra opción útil en el caso de 2 o más variables explicativas es graficar los residuos al cuadrado (o en valor absoluto) respecto a los valores estimados de la variable dependiente. Un ejemplo claro de presencia de heterocedasticidad se observa en los siguientes diagramas:

Métodos Formales: Existen diversos test de hipótesis que pueden plantearse para valorar el fenómeno de la heterocedasticidad, pero pueden clasificarse en dos grupos:

Heterocedasticidad

159

a. Los que parten de asignar una estructura concreta (heterocedasticidad directa):  Goldfeld y Quandt (1965)  Glejser (1969)  Park (1966)  Breusch, Pagan & Godfrey (1978, 1979) b. Los que no suponen una estructura concreta (heterocedasticidad indirecta):  White (1980)  Test de homogeneidad de varianzas de Barlett (1949)

Park formaliza el método gráfico sugiriendo que  i2 es algún tipo de función de la variable explicativa X i. La forma funcional que sugiere es:

 i2   2 X i  e i v

ln  i2  ln  2   ln X i  vi Esta prueba se realiza en dos etapas: 1. Se corre la regresión por MICO ignorando la heterocedasticidad en los datos, y se recupera el error estimado ui . ˆ

2. Como generalmente no conocemos  i2 utilizamos ui2 como proxy y corremos la siguiente regresión: ln ui2  ln  2   ln X i  vi ˆ

ˆ

Si β es significativo, existe heterocedasticidad en los datos. En caso contrario se acepta el supuesto de homocedasticidad. Esta prueba tiene un inconveniente, y es que el término de error vi puede ser heterocedástico.

Heterocedasticidad

160

Esta prueba es similar a la de Park, pero a diferencia de ésta, no se restringe la heterocedasticidad a una sola forma funcional, y propone varias formas que ésta podría adoptar. Los pasos para aplicar esta prueba son los siguientes: 1. Se realiza la estimación MCO del modelo original y se obtienen los residuos. 2. Se realiza la regresión de los valores absolutos de los residuos frente a los valores de la exógena que parece causar la heterocedasticidad. En sus experimentos Glejser utilizó las formas funcionales siguientes: ui  1   2 X i  vi

(6.1)

ui  1   2 X i  vi

(6.2)

ui  1   2 X i  vi

(6.3)

ˆ

ˆ

ˆ

ui  1   2

1

 vi

(6.4)

ui  1   2 X i  vi

(6.5)

ui  1   2 X i  vi

(6.6)

ˆ

X i

ˆ

2

ˆ

La significación estadística, valorada mediante el estadístico “t” de l coeficiente, indicará tanto la presencia de heterocedasticidad (la variabilidad no es constante) como su estructura (depende de X). Sin embargo presenta inconvenientes, ya que el término de error vi tiene problemas pues su valor esperado es distinto de cero, está correlacionado y puede 1 presentar heterocedasticidad . No obstante, Glejser ha encontrado que para muestras grandes, los cuatro primeros modelos son satisfactorios. Tiene la ventaja de que trata de estimar la verdadera forma de la heterocedasticidad. Por otro lado modelos como el (6.5) y (6.6) son no-lineales en los parámetros, por lo cual no pueden ser estimados por MICO.

Este método es aplicable si se supone que la varianza heterocedástica está relacionada monotónicamente con una de las variables explicativas del modelo de regresión. 1

Ver Goldfeld, S. M. and R. E. Quandt (1972). Capítulo 3. Nonlinear Methods in Econometrics. Amsterdam, North Holland Publishing Company.

Heterocedasticidad

161

Esta prueba se hace mediante los siguientes pasos: 1. Ordenar las observaciones de acuerdo a los valores de X i, empezando por el valor de X más bajo. 2. Omitir “c” observaciones centrales, que han sido especificadas a priori y dividir las observaciones restantes (n-c) en dos submuestras, cada una de (n-c)/2 observaciones. 3. Correr las regresiones MICO por separado cada submuestra y luego obtener las SRC 1 y SRC 2 respectivas. Donde la primera corresponde al grupo de varianzas ( n  c) (n  c  2k )  k o pequeñas y la segunda al de varianzas grandes. Con 2 2 grados. de libertad. 2 4. Calcular el estadístico : SRC 2 F 

nc

2 SRC 1

nc

2

Donde F

SRC 2

 k  k



SRC 2 SRC 1

ó

F 

nc

2 SRC 1

nc

2

 k  2  22 ˆ

 1 ˆ

 k



F nc 2

k ,

n c

2

 k

Si el F calculado es mayor que el crítico, se rechaza la hipótesis nula de 3 homocedasticidad . El numero “c” de observaciones a excluir debe ser aproximadamente una cuarta parte de la muestra, o sea c=n /4. Si se tiene un modelo de regresión múltiple, y no hay seguridad de cual varible X es la causante de la heterocedasticidad, se debe realizar la prueba sobre cada una de las varibles explicativas.

2

El mayor valor debe incluirse en el numerador, por lo que debe comprobarse que SRC 2>SRC1, en caso contrario se debe incluir SRC 1 en el numerador. 3

Si SRC2>SRC1, la hipótesis alterna es que la relación heterocedástica de X es creciente, en cambio si SRC 1>SRC2, la hipótesis alterna es que la relación heterocedástica de X es creciente y viceversa.

Heterocedasticidad

162

Para esta prueba se procede de la siguiente forma: 1. Se realiza la estimación por MICO del modelo original y se obtienen los residuos. Supongamos que nuestro modelo es: Yi  1   2 X 2i   3 X 3i  ui

(6.7)

2. Se realiza la regresión auxiliar de los cuadrados de los residuos frente a todas las exógenas, sus cuadrados y los productos cruzados: ei2  1   2 X 2i  3 X 3i   4 X 22i  5 X 32i   6 X 2i X 3i  vi

(6.8)

3. Se obtiene el coeficiente de determinación de la regresión auxiliar y el producto de éste por el número de observaciones se distribuye, bajo la hipótesis nula de homocedasticidad, como una ji-cuadrado con p grados de libertad, siendo p el número de regresores en la regresión 2 auxiliar, o sea p=k-1 (cinco en nuestro caso). Si el producto nR es mayor que  p2 al nivel de confianza fijado, entonces se rechaza la hipótesis de homocedasticidad y se admite la presencia de heterocedasticidad.

 i2 En este caso el método más directo de corregir la heterocedasticidad es utilizar Mínimos Cuadrados Generalizados (MCG) conocidos también como Mínimos cuadrados Ponderados (MCP), ya que los estimadores obtenidos por este método son MELI. 2

 i

Varianzas y errores estándar consistentes con heterocedasticidad de White Cuando no conocemos  i2 White ha demostrado que existe una forma de obtener estimaciones que sean asintóticamente válidas. Existen diversos paquetes que presentan los errores varianzas y errores estándar bajo la corrección de

Heterocedasticidad

163

heterocedasticidad de White en forma simultánea con los de MICO. Los errores estándar de White pueden ser mayores o menores que los de MICO. Supuestos razonables sobre el patrón de heterocedasticidad Una desventaja del método de White, además de ser un método para muestras grandes, es que los estimadores obtenidos por este medio pueden no ser tan eficientes como aquellos obtenidos por métodos que transforman la información para reflejar tipos específicos de heterocedasticidad. Una alternativa al método de White, es hacer supuestos sobre el patrón de heterocedasticidad y aplicar la transformación de MCG, los cuales pasan ahora a llamarse Mínimos Cuadrados Generalizados Factibles (MCGF). Pueden tenerse diversos supuestos sobre el patrón de heterocedasticidad, y dependiendo de éstos se hace la transformación al modelo original:



Supuesto 1: la varianza del error es proporcional a X i: E  ui2    2 X i2 2

2 2 2 var  ui    X i   Ω

 X 12 0 0  2 X 0 0 2    2  0 0 X 32    0 0 0 

0 



0  0 

0

  2 X n 

Heterocedasticidad

164

     Ω      

1 2 X 1

0

0

0

1 2 X 2

0

0

0

1 2 X 3

0

0

0

-1

0 

0

  0   0     1  2 X n 

Dado que Ω1  T'T , entonces:

     T     

0 

1 X 1

0

0

0

1 X 2

0

0

0

1 X 3

0

0

0

0

  0   0     1  X n 

Estimamos el modelo transformado ó ponderado TY = TXβ + T u = T X β + v , lo cual equivale a transformar el modelo original de la siguiente forma:

u    2   i  X i X i  X i   1   1     2  vi  X i  Yi



 1

Por lo tanto, la varianza es:

u  2 E (vi )  E  i   X i  

1

2

2  E u i 2   

X i

1

2 2 2  X   i 2 X i

Heterocedasticidad

165

que implica que la varianza es homocedástica.



Supuesto 2: la varianza del error es proporcional a X i: E  ui2    2 X i var  ui    2 X i   2Ω 0  X 1 0  0 X 0 2  0 X 3   2  0    0 0 0

     Ω      

1 X 1

0

0

0

1 X 2

0

0

0

1 X 3

0

0

0

-1

0  0 

0

 0    X n  0 

0

  0   0     1  X n 

 Dado que Ω 1  T'T , entonces:

 1  X 1   0  T  0     0 

0

0

1 X 2

0

0

1 X 3

0

0

   0    0     1  X n  0

0

Heterocedasticidad

166

Estimamos el modelo transformado ó ponderado TY = TXβ + T u = T X β + v , lo cual equivale a transformar el modelo original de la siguiente forma:

    u   1    2 X i   i  X X i  X i  i   1   1    2 X i  vi  X  i  

Yi

  

Por lo tanto, la varianza es:

 u  2 E (vi )  E  i   X i  

1 X i

2

2 E ui  

1 X i

 X i   2

2

que implica que la varianza es homocedástica. 

Supuesto 3: la varianza del error es proporcional al cuadrado del valor medio de 2

Y: E  ui2    2  E  Y i   . 2

2 2 var  ui     E Y i     Ω

 E Y 1  2 0 0  2  0 E Y 2  0  2   2  0 E Y 3  0    0 0 0 

  0   0    2 0 E Y n   0

Heterocedasticidad

167

 1 2  E Y 1   0   Ω  0     0  

0

0

1 2 E Y 2 

0

0

1 2 E Y 3 

0

0

-1

   0    0     1 2 E Y n   0

0

 Dado que Ω 1  T'T , entonces:

 1  E Y 1    0  T 0     0 

0

0

1 E Y 2 

0

0

1 E Y 3 

0

0

   0    0     1 E Y n   0

0

Estimamos el modelo transformado ó ponderado TY = TXβ + T u = T X β + v , lo cual equivale a transformar el modelo original de la siguiente forma: Se transforma el modelo original de la siguiente forma: Yi E Yi 



 1 E Yi 

 1

  2

1 E Yi 

Xi E Yi 

  2



X i E Y i 

ui E Y i 

 vi

Se puede demostrar que en este caso también, E (vi2 )   2 .

Heterocedasticidad

168

Por otra parte, una transformación logarítmica tal como log Yi  1   2 log X i  ui con gran frecuencia reduce la heterocedasticidad cuando se compara con la regresión sin logaritmos.

Uno de los supuestos formulados para el Modelo Clásico de Regresión Lineal, es que no existe autocorrelación del término estocástico ui de la función de regresión poblacional. En este capítulo veremos cual es la naturaleza de la autocorrelación, sus las consecuencias teóricas y prácticas, como detectar su presencia y como remediar el problema.

El término autocorrelación se puede definir como “la correlación entre miembros de series de observaciones ordenadas en el tiempo (como series de tiempo) o en el 1 espacio (como dat os de corte transversal)” . En el contexto de regresión, el método clásico supone que tal autocorrelación de los errores ui no existe.





i j





i j

El modelo clásico supone

E ui u j  0

Mientras que la autocorrelación implica

E ui u j  0

Podemos observar los patrones de autocorrelación, observando las gráficas de los errores en el tiempo, o bien los errores en el periodo t versus el errores en t-s, donde s es el orden del rezago de correlación.

Algunas de las causas de la autocorrelación se deben a: 1

Maurice G. Kendall y William R. Buckland, A Dictionary of Statistical Terms, Hafner Publishing Company, New York, 1971, p. 8.

Autocorrelación



170

Error de especificación: Forma Funcional Incorrecta. verdadero de una función de costos es :

Si el modelo

Yi  1  2 X i   3 X i  ui 2

donde Y = Costo marginal, X = producción, pero estimamos: Yi  1   2 X i  vi

Entonces el patrón de errores será sistemático, como se muestra en la siguiente gráfica: l a n i r a m o t s o C

Forma funcional estimada

Verdadera forma

Producción Errores positivos o negativos Algo similar ocurre cuando la muestra presenta cambio estructural, los residuos pueden presentar patrones sistemáticos antes y después del cambio estructural. 

Error de especificación: Omisión de una variable relevante . El no incluir en el modelo una variable autocorrelacionada provocará un residuo autocorrelacionado. Si el modelo es Pero estimamos

Yt  1  2 X 2t   3 X 3t  ut Yt  1   2 X 2 t  vt

Autocorrelación

171

donde: vt  ut   3 X 3t Si X 3 presenta autocorrelación, entonces vt estará autocorrelacionada, en consecuencia, la solución es incorporar X 3 . En adelante, supondremos que la autocorrelación no está provocada por errores de especificación 

Influencia prolongada de shocks. En las series de tiempo, los shocks en general persisten por más de un período. Por ejemplo, en el caso de un terremoto, probablemente este afectará la actividad económica durante varios de los periodos siguientes a que éste ocurra.



Inercia. También conocida como lentitud, es una característica relevante en la mayoría de las series de tiempo económicas, las cuales suelen presentar ciclos que se repiten a través del tiempo, y en el que se hechos pasados tienen efectos en el presente.



Rezagos. Hay modelos que requieren rezagos tanto de la variable dependiente 2 como de una o varias de las explicativas . Si esta relación es ignorada al momento de hacer la regresión, el error recogerá este patrón sistemático de la serie, presentando autocorrelación.



“Manipulación” de datos . En ocasiones los datos trimestrales son el resultado de promediar los datos de los meses pertinentes, lo cual crea un suavizamiento y elimina fluctuaciones de la información mensual. En otros casos, a falta de alguna observación, esta se suele interpolar o extrapolar en base a los datos de la muestra y algunos supuestos.



El Fenómeno de la Telaraña. La oferta de muchos productos agrícolas se refleja lo éste fenómeno, donde la oferta reacciona al precio con un rezago de un periodo debido a que la implementación de las decisiones de oferta toman tiempo, lo cual suele expresarse como ofertat  1   2 Pt 1  ut . Si tras el periodo t , existen excedentes de producción, los agricultores reducirán entonces su producción para el periodo t+1, produciéndose el patrón de la telaraña.

2

Por ejemplo, el consumo de un periodo, no sólo depende del ingreso en dicho periodo, sino también del consumo en el periodo anterior, debido a que las personas suelen tener hábitos en el consumo.

Autocorrelación 

172

Autocorrelación espacial. En datos de corte transversal regional, un shock aleatorio que afecta la actividad económica de una región puede causar que la actividad económica de regiones adjuntas corran la misma suerte, es decir, ocurre el efecto vecindad .

Debemos suponer el mecanismo que genera las ut ya que el supuesto de que E ut  ut s   0 para s  0 es muy general. Podemos pensar en las siguientes

formas: Autorregresivo de primer orden [ AR(1) ] Se define como: ut   ut 1   t

(3.1)

con 1    1 , donde  se conoce como coeficiente de autocorrelación de primer orden y  t es un error estocástico conocido como ruido blanco, el cual cumple con las siguientes propiedades: E  t   0 var  t   

2

cov  t ,  t s   0

(3.2) s0

3 Podemos demostrar, tomando la definición de coeficiente de correlación que :

 



  covu u

E  ut  E ut   ut 1  E ut 1  var  ut  var  ut 1 

t

t 1



var  ut 1 

Demostrar: var  ut  

3

  2

, cov  ut , ut s   

s

1  

2

  2 1  

2

s , corr (ut , ut s )  

Suponemos que E ut   0 y la varianza sigue siendo constante, por lo que var ut   var ut 1  .  equivale al

coeficiente de pendiente de una regresión entre ut y ut 1 .

Autocorrelación

173

El nombre de autorregresivo se debe a que es una regresión del error ut sobre el mismo, pero con rezago. Se dice que es de primer orden, porque solamente está regresado con el primer rezago, así un esquema autorregresivo de orden p, se representa como: ut  1 ut 1  2 ut 2  ...   p ut  p   t , donde 1   t  p  1

(3.3)

Media Móvil de primer orden [ MA(1) ] Se define como:

ut  vt   vt 1

donde v es un término de perturbación aleatorio con media cero y varianza constante; y  es una constante tal que   1. La media móvil de primer orden MA(1), equivale a un promedio de dos variables aleatorias adyacentes. Existen también procesos MA de órdenes mayores. ARMA ( 1,1 ) Es una combinación de procesos autorregresivos de primer orden y media móvil de primer orden, el cual se representa como: ut  ut 1  vt   vt1

Concepto de estacionariedad Una variable es no estacionaria cuando la relación entre las observaciones de t y t1 se tiene un   1. Durante este curso, supondremos siempre, que   -1 y   1 , al menos que se indique lo contrario. Los shocks de una variable no estacionarios, son permanentes ¿por qué?

Supongamos por su simplicidad y amplia utilización, que el proceso de generación de los errores es un AR(1); el estimador MICO sigue siendo:

Autocorrelación

174

 2  ˆ

 x y  x t

t

(3.4)

2 t

Sin embargo, su varianza ahora es: n2  n1  x x x x  t t 1 2  2 t t 2  2 2  t 1 n1 x1 xn t 1     .......   n var   2   n  n 2 2 AR1 2 2  xt  xt   xt2 xt xt      t 1 t 1 t 1 ˆ

(3.5)

Podemos contrastar (3.5) con la varianza sin autocorrelación dada por

 

var  2  ˆ

 2



(3.6)

2

xt

Vemos que (3.5) es igual a (3.6) más un término que depende de  y de las covarianzas muestrales entre los valores que toma X. A priori, no se puede afirmar

 

 

que var  2 es mayor o menor que var  2 ˆ

ˆ

AR1

.

En presencia de autocorrelación nuevamente  2 no es MELI; es lineal e insesgado, pero ya no es eficiente, pues no tiene la mínima varianza. ˆ

Al igual que con heterocedasticidad, podemos utilizar el MCG para obtener estimadores que sean MELI, ya que incorpora información adicional sobre las varianzas-covarianzas, en el procesos de estimación mediante la transformación de variables. Bajo un proceso AR(1) es posible demostrar que el estimador MELI de  2 está dado por: n

MCG

 2 ˆ



  x   x

t 1

t

 yt   yt 1 

t 2 n

  x   x t

t  2

t 1



2

 C

Autocorrelación

175

var  2 ˆ

MCG



 2

 D

n

  x   x t

t 1



2

t  2

donde C y D son factores de corrección de la primera observación que pueden ser ignorados en la práctica. Una forma intuitiva de obtener los estimadores es la siguiente. Supongamos un modelo de regresión de dos variables: Yt  1   2 X t  ut

(3.7)

rezagando (3.7) en un período, tenemos Yt 1  1   2 X t 1  ut 1

(3.8)

Multiplicando (3.8) por ρ se obtiene:

Yt 1  1  2 X t 1   ut 1

(3.9)

Si restamos (3.9) de (3.7): (Yt  Yt 1 )  1 (1   )   2 X t   2 X t 1  (ut   ut 1)

 1 (1   )   2 ( X t   X t 1 )   t Y t   1   2 X t   t

Y

 t

  1   2 X t   t

(3.10)

* * * donde  t  ut   ut 1 , 1  1 1    , Yt  Yt   Y t 1 , X t  X t   X t 1 .

Este modelo se conoce como ecuación en diferencias generalizada o cuasidiferencias y equivale a Mínimos Cuadrados Generalizado (MCG).

Autocorrelación

176

 

Si admitimos la autocorrelación y usamos var  2 ˆ

AR1

, es probable que los

intervalos de confianza sean más amplios que si usamos MCG. Por lo tanto  2 es insesgado y consistente, pero no eficiente. ˆ

Ahora bien, si utilizamos MICO ignorando la autocorrelación, la situación es aún más grave: ut 2 2  Es probable que la varianza de los residuos   subestime la n2 verdadera varianza. 2  Por lo tanto, es posible que se sobreestime R .



ˆ

ˆ

 

 



Aunque no se subestimara  2 , puede que var  2 subestime a var  2



Las pruebas t y F dejan de ser válidas y de ser aplicadas nos llevarán a conclusiones erróneas sobre la significancia estadística.

ˆ

ˆ

AR1

.

Para un proceso de autocorrelación AR(1), puede mostrarse que: n   2  x x   2 t 1 t t 1   n    n   2  2 1   x    t 1 t  2 E    n2

(4.1)

ˆ

  x x  y  son positivos (algo muy probable), entonces E  2   2 , es decir, Si     x n t 1 t t 1 n 2 t 1 t

ˆ

la formula usual de la varianza de los residuos en promedio subestimará la verdadera varianza, o sea que será sesgada hacia abajo, y lo mismo ocurrirá con

 

var  2 . ˆ

Asimismo, aun no sea subestimada, según lo mostrado anteriormente comparando

 

 

(3.5) y (3.6), la var  2 será un estimador sesgado de var  2 ˆ

ˆ

AR1

.

Autocorrelación

177

El simple análisis de los residuos obtenidos puede confirmar la presencia de errores mal comportados. Los residuos y los residuos estandarizados con el tiempo.

ui

ui x x x x x x x x

x

x

x

x x

x x

x x

t

t

x

El estadístico Durbin-Watson se define como: t n

 u ˆ

t

d 

 ut 1 

2

ˆ

t  2 t n

u

(5.1)

2 t

ˆ

t  2

A diferencia de las pruebas t, F o Ji-cuadrado no hay un valor crítico único que lleve al rechazo o aceptación de H 0. Se usa en cambio un límite inferior d L y un límite superior d U tales que si el valor d cae por fuera de estos valores críticos, puede tomarse una decisión con respecto a la presencia de autocorrelación positiva o negativa. Los límites de d son 0 y 4. Estos pueden establecerse expandiendo la fórmula de d anterior:

Autocorrelación

178

u d 

2

ˆ

si hacemos

u

2

ˆ

t

  ut21  2 ut ut 1 ˆ

t



ˆ

ˆ

(5.2)

2 t

u ˆ

 ut 12 , ya que apenas difieren en una observación, entonces ˆ

u d 

2 t 1

ˆ

  ut21  2 ut ut 1 ˆ

ˆ

u

ˆ

2



2

u

ˆ

  

u u u ˆ

t

t 1

ˆ

2 t

ˆ

ˆ

ˆ

u

2 t

ˆ

t

d  2 1 

 2utut 1

2 t

ˆ

  

  ut ut 1  Definiendo    como el coeficiente de autocorrelación muestral de   ut 2    ˆ

ˆ

ˆ

ˆ

primer orden, luego: d  2 1    ˆ

Como 1    1 , entonces 0  d  4

) + ( o n H ó i o c a z l a e h r c r e o R c o t u A

0

n ó i s i c e d n I e d a n o Z

dL

dU

n ó i s i c e d n I e d a n o Z

No rechazo

2

4 -dU

) ( * o n ó H i c o l a z e a h r r c o e c o R t u A

4 – dL

Ho No hay autocorrelación positiva de primer orden Ho* No hay autocorrelación negativa de primer orden Regla práctica si d = 2 no hay autocorrelación,

4

Autocorrelación

179

si  = +1 entonces d=0, por lo tanto hay autocorrelación + si  = -1 entonces d=4, por lo tanto hay autocorrelación – ˆ

ˆ

Pasos: 1. Efectuar regresión por MICO y obtener residuos. 2. Calcular d 3. Encontrar valores críticos d L y d U. 4. Seguir las reglas de decisión del gráfico anterior. Este estadístico es calculado con los residuos de la regresión MICO y es usado para probar autocorrelación de primer orden. Cabe destacar que este test es válido bajo las condiciones siguientes: 1. Hay constante en la regresión. 2. Las variables explicativas, son no estocásticas, es decir, son fijas en muestreo repetitivo. 3. Los errores ut se generan por un proceso AR(1), o sea autocorrelación de primer orden. 4. El modelo no incluye variable endógena rezagada. 5. No hay observaciones faltantes.

Cuando tenemos un modelo con variable endógena rezagada no podemos utilizar el Durbin-Watson, pero tenemos como alternativa la prueba h de Durbin. Ho: ρ = 0 H1: ρ ≠ 0 h   ˆ

n 1  n Var  2 



  ˆ

donde  2 es el coeficiente asociado a Y t-1 (la variable endógena rezagada) y h~N (0,1) por lo que: P[-1.96  h  1.96]  0.95 ˆ

Si h calculado > 1.96, entonces se rechaza H 0 al 5%.

Autocorrelación

180

Esta prueba es similar a la prueba de White de Heterocedasticiad, y es una prueba de multiplicadores de Lagrange para detectar autocorrelación de orden general. En esta prueba la hipótesis nula de un proceso AR( ρ), es: ρ1 = ρ2=...= ρ p= 0. Pasos de esta prueba: 1. Estimar por MICO y obtener los residuos. 2. Efectuar la regresión de los residuos estimados sobre todas las X, más ut 1 , ut 2 , , ut  p . Si p = 4, se introducirían los ut con cuatro rezagos. ˆ

ˆ

ˆ

ˆ

3. Para muestras grandes B-G han demostrado que: 2 2 (n  p)  R   p Si (n  p)  R 2 > p 2 , se rechaza Ho, por lo tanto hay autocorrelación.

Una alternativa para probar la existencia de autocorrelación, es el estadístico Q de Box y Pierce (1970). Para probar la hipótesis nula de que no existe autocorrelación de orden p, se calcula estadístico Q y se compara con una ji-cuadrado de p grados de libertad. p

BP

Q

 n s2

 p2

ˆ

(5.3)

s 1

Donde p

 et et  s  ˆ

s

t  s 1 p

(5.4)

 et

2

t  s 1

Con n=tamaño de la muestra, s= las autocorrelaciones y p=orden de la 4 autocorrelación de la hipótesis nula . Una variante del estadístico de Box y Pierce es el propuesto por Ljung-Box (LB) que se define como:

4

Si el la serie representa los residuos de una estimación ARIMA, el número apropiado de grados de libertad debe ser ajustado para representar el numero de autocorrelaciones menos el numero de términos AR y MA.

Autocorrelación

181 p

LB

Q

 n  n  2  s 1

 s2 ˆ

ns

 p2

(5.5)

Aunque para muestras grandes, tanto el estadístico Q de BP como LB siguen la distribución ji-cuadrada con p grados de libertad, se ha encontrado que la estadística de LB posee mejores propiedades de muestra pequeña que el estadístico de BP.

¿Qué hacemos si hay autocorrelación?    

Verificar que la misma no es consecuencia de variables omitidas (ej. ausencia de rezagos), o forma funcional incorrecta. Para corregir autocorrelación se puede utilizar una transformación del modelo original, utilizando los mínimos cuadrados generalizados. Para muestras grandes se puede utilizar el método de Newey-West . Puede utilizarse MICO en algunos casos, siempre que no se necesite hacer inferencia sobre los coeficientes

A continuación, autocorrelación.

veamos

detalladamente

algunas

formas

de

corregir

En el caso de que conozcamos ρ, aplicamos MCG según lo presentado en la ecuación (3.10). El problema es que la mayoría de las veces no conocemos ρ, entonces tendremos que buscar la forma de estimarlo, para luego utilizar los Mínimos Cuadrados Generalizados Factibles (MCGF). Una vez obtenido un estimador de ρ, para aplicar MCGF sólo tendríamos que incluirlo en la estimación de la ecuación (3.10).

Si tenemos un proceso AR(1) ut  ut 1   t , podemos hacer una regresión entre los residuos para encontrar un estimador de  : ut   ut 1  vt ˆ

ˆ

ˆ

En este caso no es necesario incluir intersección, porque la suma de los errores sabemos por definición son iguales a cero.

Autocorrelación

182

 puede ser estimado a partir del estadístico D-W. Sabemos que d  2 1    . Si ˆ

despejamos  , tenemos: ˆ

  1  d / 2

(6.1)

ˆ

El inconveniente es que sólo es válido para muestras grandes. Para evitar este problema Theil-Nagar propusieron la siguiente modificación:   ˆ

n 2 1  d 2 

(6.2)

n2  k 2

donde n = número total de observaciones, k = número de coeficientes a ser estimados (incluyendo intersección). Luego de obtenido  se procede a estimar la ecuación (3.10), o sea en diferencias generalizada. ˆ

Como su nombre lo indica, deben de seguirse ciertos pasos: 1) Se estima modelo por MICO y se obtienen los residuos. 2) Luego se estima por MICO la siguiente regresión: ut  ut 1   t 3) Con  efectúese la ecuación en diferencia generalizada ˆ

ˆ

ˆ

ˆ







(3.10)



Y t   1   2 X t   t 4) Como no sabemos si  es el mejor estimador de ρ sustituimos los valores ˆ

 1 y  2 en la regresión original y obtenemos los nuevos residuos u  t ˆ

  5) Se estima la regresión ut   ut 1  wt , con esta  se vuelve a hacer el proceso desde el paso 3 repetidas veces hasta que en 2 corridas consecutivas los ρ estimados difieran poco. ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

Se define un conjunto de valores posibles de ρ entre – 1 y 1, donde los intervalos entre los distintos valores de ρ son de 0.1. ut 2 . Para cada  se corre el modelo en diferencias generalizado y se computa la



ˆ

ˆ

Se elige un valor de  que minimice la suma de cuadrados residuales (o sea que 2 maximizamos R ). ˆ

Uno de los supuestos del modelo clásico de regresión lineal es que el modelo que utilizamos está correctamente especificado, o sea que no hay error o sesgo en la especificación. La discusión sobre especificación de modelos econométricos es amplia y abarca diferentes corrientes de pensamiento, por lo que a continuación nos concentraremos en las consecuencias de tener un modelo mal especificado, posible detección del problema y algunas técnicas conocidas para especificar modelos de manera “correcta”. Existen cuatro posibles errores de especificación  Omitir una variable relevante (variables omitidas).  Inclusión de variables irrelevantes (variables intrusas).  Forma funcional incorrecta.  Errores de medición de los datos En un pasado los econometristas tendían a asumir que el modelo provisto por la economía teórica representaba precisamente el mecanismo del mundo real para generar los datos. En este sentido se veía el rol del econometrista en proveer “buenos” estimadores para los parámetros del modelo. Cualquier incertidumbre acerca de la especificación del modelo, la tendencia era utilizar la econometría para “buscar” el mecanismo de la generación de los datos en el mundo real. Esta visión de la econometría es obsoleta y hoy se reconoce que los modelos econométricos son “falsos” y que no se debe esperar o pretender encontrar la verdad a través de la econometría.

Un modelo que está bien especificado tiene los siguientes atributos:

Especificación de modelos   



 

184

Parsimonia. Maximizar la explicación del fenómeno, maximizando la simplificación. Mientras más simple el modelo mejor. Identificabilidad. Dadas las observaciones, los coeficientes estimados deben ser únicos. Bondad del ajuste. R2 alto1, signos correctos de los coeficientes y significativos según las pruebas t y F , etc. Pero ¡cuidado con el uso 2 indiscriminado de variables con la única finalidad de aumentar el R ! (data 2 mining ). Plausibilidad teórica. Los coeficientes deben tener consistencia con el modelo 2 teórico planteado. Aun teniendo un R alto, un modelo puede tener los signos incorrectos. Poder predictivo. El R2 es un indicador del ajuste dentro de muestra, pero también importa predecir fuera de muestra, dentro y fuera del periodo. Estabilidad. Inexistencia de cambio estructural y coeficientes estables.

Si el verdadero modelo es Yi  1   2 X 2i   3 X 3i  ui

(1)

Yi  1   2 X 2i  vi

(2)

Pero el modelo utilizado es:

donde X3 es la variable omitida. Si expresamos (1) y (2) en desvíos yi  2 x2i   3 x3i   ui  u  yi   2 x2i   vi  v 

Al estimar  2 tenemos: ˆ

1

Debemos recordar que MICO maximiza el R 2, ya que minimiza los errores al cuadrado. 2 Ames y Reiter (1961) encuentran que en promedio el R 2 de una regresión entre una variable económica y su rezago es 0.7.

Especificación de modelos

 x y   x   x   x  u  u   x x  x    x x   x  u  u     x  x x   x  u  u       x

 2  ˆ

185

2i

2i

i

2

2i

3 3i

2 2i

2 2i

2

i

2 2i

2i

3

3i

2i

i

2 2i

3

2i

3i

2i

2

i

2 2i

Si aplicamos la esperanza E  2    2 

 3

ˆ

 x  x

2i

x3i

2 2i

Las consecuencias de omitir X 3 son las siguientes: 1. Si la variable omitida está correlacionada con al variable incluida, los coeficientes estimados son sesgados e inconsistentes. 2. Aún cuando X 2 y X 3 no estén correlacionados,  1 es aun sesgado, aunque  2 3 sea insesgado . ˆ

ˆ

3. Si X 2 y X 3 están correlacionados, la varianza del estimador será menor que del verdadero modelo. 2  Modelo original: var(  2 )  2 2 x2i 1  r 2,3  ˆ

Modelo estimado: var( 2 )  ˆ



 2

 x

2 2i

var( 2 )  var(  2 ) , dado que 0  r 2,3  1 2

ˆ

ˆ

Como el estimador  2 es sesgado pero tiene varianza menor que el estimador ˆ

existe un tradeoff , en el que se podría utilizar el criterio del error cuadrático medio.

 2 , ˆ

2

4. La varianza de la perturbación σ está estimada incorrectamente. Dado 1  Y   2 X 2 , y 1  Y   2 X 2   3 X 3 , si aplicamos el operador de esperanza, E 1   Y   2 X 2 , (porque

3

ˆ

ˆ

 x x 2

3

ˆ

ˆ

ˆ

 0 ) en cambio E  1   Y  2 X 2   3 X 3 ˆ

ˆ


186

  ei2   e'e  E  E    u2     n  (k  r)   n  (k  r )  ˆ

r es el número de variables omitidas. La SRC es mayor (porque se omite una variable relevante), mientras que el efecto contrario sobre el denominador es marginal, por lo que el estimador de la varianza está sesgado al alza.

5. En consecuencia, los intervalos de confianza y pruebas de hipótesis en relación a estos parámetros no serán precisos y nos pueden llevar a 4 conclusiones erradas .

Suponiendo que el verdadero modelo es Yi  1   2 X 2i  ui

(3)

Yi  1   2 X 2i   3 X 3i  vi

(4)

pero se utiliza el siguiente:

donde X 3 es la variable intrusa. Las consecuencias de incurrir en este error de especificación son las siguientes 1. Los estimadores MICO de los parámetros del modelo incorrecto son todos insesgados y consistentes. 2. La varianza del error  2 está correctamente computada.

  ei2   e'e  E    2   E    n  ( k  s)   n  ( k  s)  s es el número de variables intrusas La caída en la SRC no es muy grande, porque la variable es intrusa (explica poco) mientras que en el denominador se produce una variación marginal en sentido contrario. 2

4

Adicionalmente los estimadores de las varianzas,    2

ˆ

ˆ

2

2

u

 x 1  r  2 2i

 ó     2

2 2,3

ˆ

ˆ

2

 v

x

2 2i

.


187

3. Los procedimientos usuales de intervalos de confianza y de prueba de hipótesis siguen siendo válidos. 4. Pero la varianza estimada para los parámetros son más grandes que las del modelo original, por lo que son ineficientes. Modelo original:

var(  2 )  ˆ

Modelo estimado: var( 2 )  ˆ

 2

 x

2 2i

 2

 x 1  r  2 2i

2 2,3

2 Dado que 0  r 2,3  1 (siempre habrá alguna relación entre las variables),

 

entonces var  2   var  2 . ˆ

ˆ

En resumen, la inclusión de una variable irrelevante tiene menores costos que omitir una variable; esto no quiere decir que sea poco costoso, pues la varianza del estimador es mayor.

Pueden ser examinados, especialmente en información de corte transversal, para detectar errores de especificación en los modelos, tales como la omisión de una variable importante o la definición de una forma funcional incorrecta. Si en realidad tales errores existen, una gráfica de los residuos permitirá apreciar patrones distinguibles.

Si tenemos un d estimado muy bajo, sugiere que hay correlación positiva en los residuos estimados. La correlación positiva observada en los residuos refleja simplemente el hecho de que hay una o más variables pertenecientes al modelo que están incluidas en el término de error y necesitan ser desechadas de éste y ser incluidas como variables explicativas.


188

Para aplicar este método de probar mala especificación se procede de la siguiente manera: 1. Obtener los residuales MICO. 2. Si se cree que el modelo supuesto está mal especificado porque excluye una variable explicativa relevante, por ejemplo Z, ordenar los residuales obtenidos en el paso 1 de acuerdo con los valores crecientes de Z. 3. Calcular el estadístico d con los residuos así ordenados mediante la fórmula 5 conocida . 4. Con base a las tablas de D-W, si el valor d estimado es significativo, entonces se puede aceptar la hipótesis de la mala especificación.

Ramsey ha propuesto una prueba general de errores de especificación conocida como RESET ( Regression Specification Error Test ó prueba de error de especificación en la regresión). Si suponemos por ejemplo una función de costos es lineal a la producción de la siguiente forma: Yi  1   2 X i  ui (5) Ahora los pasos considerados en RESET: 2 1. A partir del modelo seleccionado, se obtiene Y y R (ecuación restringida) 2. Se vuelve a estimar la regresión introduciendo como variables explicativas, formas funcionales de Y como uno o varios regresores adicionales, como por ejemplo: ˆ

ˆ

Yi  1   2 X i  3Yi 2   4Yi 3  ui ˆ

ˆ

(6)

2

Obtenemos el R de la regresión auxiliar (ecuación no restringida) 3. Entonces, bajo la hipótesis nula de que el modelo está bien especificado, se puede utilizar la siguiente prueba F:

5

 d 

n t  2

 ut  ut 1  ˆ



n t 1

ˆ

2

ut ˆ

2


189

 R

2 NR

F



1  R

 RR2 

2 NR



R

F R ,n k

(n  k ) 2

4. Con esto comprobamos si el incremento en el R al utilizar (6) es significativo. Si el F calculado es significativo, se rechaza la hipótesis nula, vale decir que el modelo está especificado incorrecto. La ventaja de esta prueba es que es fácil de aplicar, sin embargo al no especificarse un modelo alterno también es una desventaja pues no nos proporciona ayuda en la selección de una alternativa.

Supongamos una función cúbica de costos Yi  1  2 X i  3 X i2   4 X i3   i

(7)

Si se compara la función lineal de costos (5) con una función cúbica de costos (7), la primera es una versión restringida de la última. La regresión restringida supone que los coeficientes de los términos de producción elevados al cuadrado y al cubo son iguales a cero  3   4  0  . Para probar esto, la prueba ML se realiza de la siguiente manera: 1. Estimar la regresión restringida (5) mediante MICO y obtener los residuos. 2. Si la regresión no restringida (7) resulta ser la verdadera regresión, los residuos obtenidos al correr la ecuación restringida (5) deben estar relacionados con los términos de la producción elevada al cuadrado y al cubo. 3. Esto sugiere que se efectúe la regresión de los ui obtenidos en el paso 1 sobre todos los regresores (incluyendo los de la regresión restringida) lo que significa: ui  1   2 X i   3 X i2   4 X i3  vi ˆ

ˆ

4. Para un tamaño de muestra grande, Engle ha demostrado que nR donde R es el número de restricciones.

2

asi

 R2 ,


190

5. Si el valor ji cuadrado obtenido excede al valor ji cuadrado crítico se rechaza la regresión restringida. De lo contrario no se rechaza.

Si tenemos el siguiente modelo: Yi  1   2 X 2i  3 X 3i 

  k X ki  ui

Puede ser que no tengamos seguridad de que la variable X k pertenezca a este modelo. Asimismo, si no tenemos seguridad que X 3 y X 4 pertenezcan al modelo. En este caso podemos averiguar de forma sencilla de probando la significancia de β k mediante un test t y un test F para probar si β 3=β 4=0.

Si consideramos el siguiente modelo: Yi     X i  ui

(8)

donde Y i  = gasto de consumo permanente (no observado) X i = ingreso anual ui = término de perturbación estocástica Puesto que Y i  no pueda medirse directamente, puede utilizarse una variable de gasto observable Yi, tal que: Yi  Y i    t (9) donde  t denota los errores de medición en Y i  . Por consiguiente, en lugar de estimar (8) se estima: Yi   i     X i  ui Yi  (   X i  ui )   i

    X i  (ui   i )

(10)

    X i  vi donde vi es un término de error compuesto que contiene el término de error poblacional y el término de error de medición.


191

Bajo los supuestos E ui   E  i   0 , cov  X i , ui   0 , cov  X i ,  i   0 , los errores de medición en la variable Y no deshacen la propiedad de insesgamiento de los estimadores MICO.

Sin embargo, las varianzas y los errores estándar del β estimado de (8) y (10) serán diferentes:  u2 var(  )  Modelo (8) 2 xi ˆ

Modelo (10)

var(  )  ˆ



 v2



2

xi



 u2    2

x

2 i

La última varianza es más grande que la primera. Por consiguiente aunque los errores de medición en la variable dependiente aún producen estimaciones insesgadas de los parámetros y de sus varianzas, las varianzas estimadas son ahora ineficientes (más grandes) que en el caso en el cual no existen errores de medición.

Suponiendo que se tiene: Yi     X i  ui

(11)

donde Y i = gasto de consumo *

X i = ingreso permanente (no observado)

ui = término de perturbación estocástica

La variable que observamos es el ingreso corriente, X i  X i  wi , donde wi representa el error de medición en X i . Entonces en lugar de estimar (11) se estima: Yi     ( X i  wi )  ui

    X i  (ui   wi )

(12)

    X i  zi donde zi es una combinación del termino de perturbación y del error de medición. Si suponemos que E( zi )= 0 :


192

cov( zi , X i )  E  zi  E  zi   X i  E  X i  

 E ui   wi  E  ui   wi   X i  wi  E  X i  wi   E ui   wi  wi  E ui wi   wi2     w2 Ahora la variable explicativa y el término de error de (12) están correlacionados, lo cual viola el supuesto del modelo clásico de regresión lineal de que la variable explicativa no está correlacionada con el término de error estocástico. Si este supuesto se viola, los estimadores MICO no solamente están sesgados, sino que son también inconsistentes, es decir permanecen sesgados aun si el tamaño de la muestra, n, aumenta indefinidamente. Por consiguiente, los errores de medición constituyen un grave problema cuando están presentes en las variables explicativas, porque su presencia hace imposible la estimación consistente de los parámetros. Solución Se puede suponer que  w2 es pequeña comparada con  x2 , en otras palabras, para 

los fines prácticos se puede suponer que no existe el problema y proceder con la estimación MICO usual. El problema con esto es que no es posible observar o medir  w2 y  x2 fácilmente, por lo tanto no hay forma de juzgar sus magnitudes 

relativas. Otro medio sugerido es el conocido como variables instrumentales (VI) o aproximadas, utilizando variables que estén altamente correlacionadas con las variables X originales, pero no estén correlacionadas con los errores ecuacionales y de medición. Si es posible encontrar tales variables, entonces se puede obtener una estimación consistente de β. Pero es mucho más fácil hablar de esto que hacerlo. No es fácil encontrar buenas variables aproximadas.

Es una de las medidas de bondad de ajuste y se define como:


R  2

193

SCE SCT



SCT  SCE SCT

 1

SCR SCT

Desventajas  Mide la bondad de ajuste dentro de la muestra, pero no garantiza un buen pronóstico fuera de la muestra  Para comparar, la variable dependiente debe ser la misma  No disminuye cuando se agregan variables al modelo

2

Debido a este último inconveniente Henry Theil desarrollo la R ajustada:



R  1  1  R 2

2

n  k

 n 1

Aunque continúa siendo necesario que la variable regresada sea la misma para poder hacer comparaciones.

La idea también es imponer penalización por añadir regresoras al modelo: AIC 

2k

n



SRC n

donde k es el número de regresoras y n el número de observaciones. Al comparar entre modelos, se preferirá el que tenga menor AIC.

El criterio de Schwarz impone una penalización mayor a la de AIC, y equivale a: SIC 

k n

 SRC    n 

ln n  ln 

Al igual que con el criterio de Akaike, se preferirá el modelo que tenga un menor valor de SIC. Es preciso destacar, que ninguno de los criterios es superior a los demás.


194

Anteriormente hemos vistos la prueba de Chow para la estabilidad estructural del modelo. El problema de esta prueba es cuando no conocemos el punto de inflexión del cambio estructural. La estimación recursiva consiste en estimar repetidamente el modelo especificado para distintos tamaños muestrales. Si el modelo tiene k parámetros, se utiliza una muestra de las primeras k observaciones para estimar los parámetros, luego se agrega la siguiente observación y se estiman los parámetros, repitiendo este proceso hasta llegar a la última observación (T). En cada estimación obtenemos un vector de estimadores que nos permite a su vez calcular la predicción de la variable endógena para el periodo siguiente y el error de predicción correspondiente. De este modo, con las sucesivas estimaciones, generamos las series de los llamados coeficientes recursivos y residuos recursivos. La idea es que si no hay cambio estructural las estimaciones de los parámetros se mantendrán constantes al ir aumentando la muestra secuencialmente y los residuos no se desviarán ampliamente de cero. Residuos recursivos Los residuos recursivos son los errores de predicción un periodo hacia delante calculados en cada etapa de la estimación recursiva. Por ejemplo, si utilizamos t-1 observaciones, el vector de estimadores se denomina: -1

βt 1   Xt 1'Xt 1  Xt 1'Yt 1 ˆ

Donde

Xt 1

período t-1;

(13)

denota la matriz de orden t-1 por k de regresores del período 1 al Yt 1

el vector correspondiente a las observaciones de la variable

dependiente del periodo 1 al t-1; βt 1 es el vector de los coeficientes estimados con las observaciones 1 hasta t-1. ˆ

Con estos coeficientes podemos pronosticar el valor de la variable dependiente en el período t. El pronóstico es xt βt 1 , donde xt es el vector fila de observaciones sobre los regresores en el período t. Entonces, el error de predicción un periodo hacia delante equivale a: ˆ


195

ft  Y t  xt βt 1 ˆ

(14)

 Yt  1,t 1  2,t 1 X 2,t  ... k ,t 1 X k ,t ˆ

ˆ

ˆ

La varianza del error de predicción equivale a:



 f2t   2 1  xt  Xt 1'Xt 1 

1

xt



(15)

Se define el residuo recursivo para la observación t como: wt 

ft

 f t

Y t - xtβt 1 ˆ





2  1  xt 1  X t1'Xt 1 

1

xt



(16)

Conceptualmente los residuos recursivos se interpretan como el cociente del error de pronóstico y su error estándar. Se pueden calcular los residuos recursivos desde la observación t=k+1 hasta T, los cuales bajo el supuesto de normalidad de ui y estabilidad estructural se distribuyen como una normal con media cero y varianza constante wt





N 0, 2 .

Si comparamos (gráficamente por ejemplo) los residuos recursivos junto con sus bandas de confianza (  2 veces la desviación estándar), podemos detectar inestabilidad en los parámetros cuando uno o varios residuos exceden los límites de confianza. Estadístico CUSUM La prueba CUSUM está basada en la suma acumulada de los residuos recursivos. En esta prueba existe inestabilidad si la suma acumulada está fuera del intervalo crítico. El estadístico CUSUM es: T

w

i

W t 

i k 1

s

;

t=k+1,....T

(17)


196

Donde “s” es el error estándar de la regresión estimada con todas las observaciones disponibles. Si el vector β permanece constante en el tiempo, E W t   0 ; sin embargo, si β cambia, W t tenderá a divergir de cero. El análisis se realiza comparando los residuos W t frente al tiempo con sus bandas de confianza que, para el nivel de confianza de 95% se obtiene de las rectas que unen los puntos:

k , 0.945  t  k   y T , 3  0.948( T  k )      1

1

2

2

La hipótesis nula de estabilidad estructural se rechaza si el valor del estadístico W t sale fuera de las bandas, es decir, si es estadísticamente distinto de cero. Estadístico CUSUM de los cuadrados (CUSUMQ) Esta prueba está basada en el estadístico: t

w S t 

2 i

i k 1 T

w

t=k+1,.....T

(18)

2 i

i k 1

Bajo la hipótesis nula de estabilidad de los parámetros, el estadístico S t tiene esperanza igual a: E  S t  

t  k T  k

La cual varía entre cero cuando t=k, y la unidad cuando t=T. El contraste se realiza al igual que en el caso de CUSUM, comparando los residuos S t , con sus bandas de confianza, por lo que los movimientos de S t fuera de las líneas críticas sugieren inestabilidad en los parámetros. Coeficientes recursivos Si se comparamos los valores estimados de los parámetros cada vez que agregamos una observación, con un intervalo de confianza (±2 su desviación estándar), se


197

observará como cambian a medida que se agregan observaciones. Si el modelo es estable las variaciones de los valores estimados serán mínimas y aleatorias; en cambio si los valores cambian en forma significativa indicaría un cambio estructural.

Esta es una versión de la prueba de Chow para comprobar el poder predictivo de un modelo de regresión. Esta prueba es especialmente útil cuando el número de observaciones luego del quiebre es menor que k . Supongamos que tenemos el modelo: Ct  1   2Yt  ut

donde C = consumo y Y = ingreso para el período 1970-2005 ( n = 36). dividimos la muestra en dos periodos ( I y II ) donde: Periodo I: 1970-2002 ( n = 32) Periodo II: 2003-2005 ( n = 2)

Si

Estimando los parámetros con las observaciones del primer grupo  1 I y  2 I , ˆ

ˆ

podemos utilizarlos para predecir los valores del consumo ( C ) correspondientes al resto de la muestra (2003-2005). Si no hay un cambio estructural en los valores de los parámetros, los valores del consumo estimado ( C ) para el periodo 2003-2005 ˆ

ˆ

en base a los estimadores  1 I y  2 I , no deberían de ser distintos de los valores observados (C ) para dicho periodo. ˆ

ˆ

Para estos fines, bajo la hipótesis nula de estabilidad de los parámetros (  I   II , podemos utilizar el estadístico F: SRC R  SRCNR n2 F F n ,n k SRC NR n1  k donde n1 = número de observaciones del periodo I n2 = número de observaciones del periodo II SRC R = es la SRC de la ecuación estimada para todo el periodo ( n1+ n2) SRC NR = es la SRC de la ecuación estimada para el periodo I ( n1) 2

En resumen:

1

Apuntes de Econometría I

Recommend Documents