Reservados todos los derechos. No se permite reproducir, almacenar en sistemas de recuperación de la información ni o transmitir alguna parte de esta publicación, cualquiera que sea el medio empleado -electrónico, mecánico, fotocopia, grabación, etc.-, sin el permiso previo de los titulares de los derechos de la propiedad intelectual.
ÍNDICE GENERAL
PRÓLOGO
11
CAPÍTULO 1. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 1. 2. 3. 4. 5.
Introducción Muestreo aleatorio simple Generación de una m.a.s. de una distribución conocida Definición de estadístico Distribución muestral de un estadístico 5.1. Distribución muestral de la media muestral 5.2. Corrección por población finita 5.3. Esperanza de la varianza muestral 6. Muestreo de una población normal 7. Teorema central del límite 8. Distribución de la proporción muestral Ejercicios
13 14 15 18 19 19 21 21 22 25 27 29
CAPÍTULO 2. ESTIMACIÓN PUNTUAL 1. 2. 3. 4. 5.
Introducción Insesgadez Criterio del error cuadrático medio Consistencia Método de los momentos 5.1. Introducción 5.2. Ejemplos de estimadores obtenidos por el método de los momentos. 5.3. Propiedades de los estimadores obtenidos por el método de los momentos
39 39 41 43 45 45 45 46
8
6. Método de la máxima verosimilitud 6.1. Introducción 6.2. Ejemplos de estimadores maximoverosímiles 6.3. Propiedades de los estimadores maximoverosímiles Ejercicios
índice
46 46 47 49 50
CAPÍTULO 3. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 1. Introducción 2. Intervalos de confianza bajo normalidad 2.1. Problema de una muestra 2.1.1.Intervalo para la media poblacional, varianza conocida 2.1.2. Intervalo para la media poblacional, varianza desconocida 2.1.3.Intervalos para la varianza poblacional 2.2. El problema de dos muestras 2.2.1.Intervalo para la diferencia de dos medias, varianzas conocidas. 2.2.2.Intervalo para la diferencia de dos medias, varianzas desconocidas 2.2.3.Intervalo para la diferencia de dos medias, muestras apareadas 2.2.4.Intervalo para el cociente de varianzas 3. Intervalos de confianza para muestras grandes Ejercicios
63 66 66 66 67 67 68 68 68 69 69 70 72
CAPÍTULO 4. CONTRASTES DE HIPÓTESIS 1. Introducción 2. Contrastes de hipótesis bajo normalidad 2.1. Problema de una muestra 2.1.1. Contrastes para la media poblacional, varianza conocida 2.1.2.Contrastes para la media poblacional, varianza desconocida.... 2.1.3.Contrastes para la desviación típica poblacional 2.2. El problema de dos muestras 2.2.1.Contraste para la igualdad de dos medias, varianzas conocidas 2.2.2.Contraste para la igualdad de dos medias, varianzas desconocidas 2.2.3.Contraste para la igualdad de dos medias, muestras apareadas 2.2.4. Contraste para el cociente de varianzas 2.3. Problema de k muestras 3. Contrastes de hipótesis para muestras grandes Ejercicios
83 90 91 91 94 97 100 100 102 103 103 106 109 111
CAPÍTULO 5. MÉTODOS ROBUSTOS Y NO PARAMÉTRICOS 1. Introducción 2. Métodos basados en la media recortada 2.1. Intervalos de confianza y contrastes para una muestra
135 137 137
índice
2.2. Contrastes e intervalos de confianza para dos muestras 2.3. Corrección de Satterthwaite para dispersiones desiguales 2.4. El problema de k muestras y el procedimiento FSD aplicado a medias recortadas 2.5. Una aplicación a diferencias apareadas 3. Uso de las transformaciones potencia para homogeneizar dispersiones .... 4. Métodos basados en la transformación rango 4.1. Rangos y un método para calcularlos 4.2. Una aplicación de la transformación rango para un problema de dos muestras 4.3. Un ejemplo de k muestras 4.4. Una aplicación a diferencias apareadas 4.5. Un método de diferencias apareadas basado en los rangos con signo Ejercicios
9
139 142 143 145 147 151 152 152 156 157 159 161
CAPÍTULO 6. BONDAD DE AJUSTE 1. Introducción 2. Test Ji-cuadrado 3. Test de Kolmogorov-Smirnov 4. Comparación de los contrastes Ejercicios
185 186 189 192 194
CAPÍTULO 7. CONTROL DE CALIDAD 1. Introducción 2. Control de calidad de fabricación por variables 2.1. Introducción 2.2. Parámetros conocidos 2.2.1.Límites de control para la media 2.2.2.Límites de control para la desviación típica 2.2.3.Límites de control para el rango 2.3. Parámetros desconocidos 2.4. Resumen 3. Control de calidad de fabricación por atributos 3.1. Cartas de control para la fracción de defectuosos 3.2. Cartas de control para el número de defectuosos 4. Control de calidad de fabricación por número de defectos Ejercicios
PRÓLOGO El presente libro proporciona material de apoyo para un curso cuatrimestral de Inferencia Estadística. Su nivel está adaptado al de los alumnos de los nuevos planes de estudio de las licenciaturas y diplomaturas en Economía y en Administración y Dirección de Empresas de las Facultades y Escuelas Universitarias de Ciencias Económicas y Empresariales. El libro presupone que el lector tiene conocimientos de Estadística descriptiva (incluyendo conceptos básicos de Estadística exploratoria tales como el gráfico tallo y hoja, el gráfico caja y el diagrama esquemático) y de teoría de la probabilidad. Cada capítulo del libro consta de dos partes. En la primera parte se presentan los resultados teóricos necesarios para la resolución de los ejercicios. Después de los resultados teóricos se presenta una colección de ejercicios resueltos. El libro comienza con una introducción a la Inferencia Estadística en la que se presentan los conceptos de muestreo aleatorio y distribuciones muéstrales de los estadísticos asociados al muestreo de poblaciones normales (capítulo 1). En el capítulo 2 se presentan los métodos de estimación puntual y en el capítulo 3 los métodos de estimación por intervalos de confianza. En el capítulo 4 se estudian los procedimientos clásicos de contraste de hipótesis basados en el supuesto de normalidad. En el capítulo 5 se recogen bajo el título de "métodos robustos y no paramétricos" un conjunto de técnicas inferenciales aplicables cuando el análisis exploratorio de la información muestral sugiere que los supuestos clásicos no son adecuados. El capítulo 6 describe los contrastes de bondad de ajuste basados en la distribución Ji-cuadrado y en el estadístico de Kolmogorov-Smirnov. Por último, el capítulo 7 introduce los conceptos básicos del control estadístico de la calidad. Los autores son profesores del Departamento de Fundamentos del Análisis Económico de la Universidad de Alicante y han acumulado una larga experiencia en la docencia de la Inferencia Estadística en la Facultad de Económicas y Empresariales de la citada universidad. Finalmente, los autores agradecen al profesor José Rodríguez Alejandre su paciencia y esmerada colaboración en las tareas técnicas.
This page intentionally left blank
CAPITULO 1 INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 1. INTRODUCCIÓN Si alguien está interesado, pongamos por caso, en evaluar las preferencias políticas de la población formada por todos los votantes españoles, entrevistará lógicamente a una muestra formada por algunos de tales votantes. Después usará la información muestral para sacar conclusiones relativas a la población, por ejemplo, estimar la fracción real de todos los votantes que son favorables a una determinada formación política. Dos preguntas importantes que surgen son cómo seleccionar los elementos de la muestra y cómo aproximar los valores de los parámetros de la distribución poblacional usando la información muestral. Y, si podemos contestar tales preguntas, ¿cómo calcular o hacernos una idea del grado de fiabilidad o precisión de tales estimaciones? Cualquier conclusión basada en una muestra está sujeta a incertidumbre, pues a partir de un subconjunto de la población no podemos sacar conclusiones verdaderas sobre la población sino conclusiones probables. Intuitivamente, podemos afirmar que cuanto mayor sea el número de votantes incluidos en la muestra, tanto mayor será la probabilidad de obtener una buena estimación de la fracción de todos los votantes que son favorables a una determinada formación política. Pero, para tener una estimación que esté cerca del parámetro, la muestra debe ser representativa de la población de la que procede. La muestra representativa ideal sería una en la que la distribución de frecuencias muestral coincidiese con la distribución de frecuencias poblacional, pero para seleccionarla necesitamos justamente la información que buscamos. Para garantizar la representatividad de las muestras, el muestreo ha de ser aleatorio, es decir, generado por algún mecanismo de azar. Si las muestras se extraen aleatoriamente, las observaciones muéstrales son variables aleatorias en el proceso de muestreo repetido. Los estadísticos son funciones de estas observaciones, así que son variables aleatorias también. Los estimadores son estadísticos y tienen, por tanto, distribuciones de probabilidad. Estas distribucio-
14
Introducción a la Inferencia Estadística
nes de probabilidad, llamadas distribuciones muéstrales de los estimadores, hacen posible la inferencia estadística. 2. MUESTREO ALEATORIO SIMPLE Existen diferentes métodos de muestreo aleatorio pero en este libro sólo estudiaremos el prototipo fundamental llamado muestreo aleatorio simple. A menudo se omite el adjetivo simple, siempre que se haga referencia únicamente a este método de muestreo. El muestreo aleatorio simple es el proceso de seleccionar observaciones a partir de una población, de modo que toda observación de la población tiene la misma probabilidad de ser incluida en la muestra que cualquier otra (la observación tiene la distribución de probabilidad de la población) y además toda observación es independiente de cualquier otra (es decir, no afecta a otra selección ni se ve afectada por otra observación). Formalizando estas condiciones, vamos a caracterizar el muestreo aleatorio simple de una distribución de probabilidad. Denotemos por X la variable aleatoria (v. a.) objeto de estudio y supongamos que X tiene función de distribución F(x) y función de densidad f ( x } si es continua o función de masa de probabilidad P( X = x) si es discreta. Supongamos que se ha extraído una muestra de n observaciones de X y representemos los elementos de la muestra por X\,...,Xn. Decimos que X^,...,Xn es una muestra aleatoria simple (m.a.s.) de la distribución F si y solo si X{,...,Xn son v.a. independientes e idénticamente distribuidas con función de distribución común F. Así pues, s i X { , . . . , X n es una m.a.s. de F, la función de distribución de cada X¡ es igual a F y, además, las X¡ son independientes. En consecuencia, la función de distribución conjunta de *„...,*„ es
Si F es continua, entonces la función de densidad conjunta deX¡,...,Xn es
mientras que si F es discreta, la función de masa de probabilidad conjunta de^,,...,^, 7 es
Ejemplo 2.1. Fiabilidad de componentes electrónicos. Para estudiar la fiabilidad de unos componentes electrónicos, el tiempo de vida X (en horas) de un componente dado puede suponerse que es una variable aleatoria con distribución exponencial de media 9. Entonces la función de densidad de X es , y cero en otro caso. Una muestra aleatoria de n
15
componentes se somete a un test. Entonces, la distribución conjunta de la muestra X},...,Xn tiene función de densidad conjunta
si Xj > O,..., jcw > O , y cero en otro caso. En la práctica, el mejor método de conseguir una muestra aleatoria simple es emplear números aleatorios, como veremos en la siguiente sección. 3. GENERACIÓN DE UNA M.A.S. DE UNA DISTRIBUCIÓN CONOCIDA En ocasiones ocurre que las distribuciones de probabilidad de variables aleatorias de determinadas poblaciones son conocidas en su forma y parámetros. Vamos a ver cómo el conocimiento deductivo de lo que ocurrirá al tomar muestras aleatorias de distribuciones conocidas va a ser fundamental en el proceso de inferencia porque, aunque se conozcan las distribuciones de estas variables aleatorias, en ocasiones es difícil obtener las distribuciones de ciertas funciones de ellas. Estas distribuciones de probabilidad representan modelos para el comportamiento de las frecuencias relativas de las funciones en un muestreo repetitivo. Por ejemplo, la distribución de la diferencia de las variables aleatorias Xc = «radio del cilindro» y Xp= «radio del pistón» en el ejercicio 8 es difícil de obtener. Sin embargo podemos obtener m.a.s. simuladas de la distribución conjunta de Xc y Xp, y a partir de ellas aproximar la distribución de la diferencia Xc — Xp. Cuanto mayor sea el número de muestras simuladas que obtengamos, más se aproximarán la distribución de frecuencias muestral y la distribución de probabilidad real. Veamos cómo simular observaciones de una distribución conocida. Las tablas de dígitos aleatorios (o una simple calculadora científica) nos permiten obtener simulaciones de m.a.s. de una distribución uniforme en el intervalo [0,1]. Para obtener una m.a.s. de una distribución poblacional conocida, partimos de una m.a.s. de una distribución £7(0,1) y utilizamos un procedimiento basado en la llamada transformación integral de probabilidad. Si la distribución corresponde a una variable aleatoria continua, la transformación integral considera los valores simulados de una distribución £7(0,1) como si fueran valores de la función de distribución de la variable que queremos simular. Teorema 1.1. Teorema de la transformación integral de probabilidad Sea X una variable aleatoria continua con función de distribución F(x). Sea Y=F(X). Entonces Y ~ £7(0,1). Demostración Como F es monótona creciente por ser la función de distribución de una v.a. continua, la existencia de F"1 está garantizada. La función de distribución de Y, que denotamos por G(y), cumple
16
Introducción a la Inferencia Estadística
Así, G(y) es la función de distribución de una variable £7(0,1) y, por tanto, Y ~ £7(0,1). Además, el recíproco del teorema 1.1 también es cierto: Si F ~ £7(0,1) yF~l(Y) = X, entonces X tiene función de distribuciónF. En efecto, sea// la función de distribución de X. Entonces,
ya que Y ~ £7(0,1). Luego H=F. En este resultado se basa la simulación de variables aleatorias continuas. Si tenemos una m.a.s. yl,...,yn de una distribución £7(0,1), entonces el conjunto de valores xl = F~l(y}),...,xn =F~\yn) constituyen una m.a.s. de X. Por tanto, la transformación integral nos permite generar una m.a.s. de una variable continua cuya distribución es conocida. En resumen, el procedimiento para simular una m.a.s de tamaño n de una v.a. continua consiste en repetir n veces las siguientes etapas: a) Obtener un número aleatorio y entre O y 1. b) Considerar y como un valor de F(x) y tomar * = F~l(y) como observación de^T. Ejemplo 3.1. Sea X una v.a. continua con función de densidad
, y cero
en otro caso. Vamos a generar utilizando la transformación integral una m.a.s. de tamaño 3 de la variable aleatoria X usando la siguiente m.a.s de una distribución uniforme en el intervalo [0,1]: 0.408, 0.225, 0.063. La función de distribución de X Tomando
y = F(x),
obtenemos
• Así, los valores simulados de X para y respectivamente. La figura 4.1 proporciona la relación unívoca entre cada y¡ y su correspondiente x¡ a través de la representación gráfica de la función de distribución de X. Para simular una m.a.s. de tamaño n de una v.a. discreta se repiten n veces las siguientes etapas: a) Obtener un número aleatorio _y entre O y 1. b) Considerar y como un valor de la función de distribución F de la variable X que simulamos, y tomar como observación simulada el valor x más pequeño tal que F(x) > y , es decir, min
17
Figura 4.1.
Ejemplo 3.2 Sea X = «número de niñas en familias de 5 hijos» y supongamos que X ~ 5(5,1/2). La función de distribución de X es 0
si x < O
0.0312
siO
0.1875
sil
F(x) = < 0.5
si 2 < x < 3
0.8125
si3<*<4
0.9688
si 4 < x < 5
1
si x > 5
La representación gráfica de F(x) aparece en la figura 4.2.
Figura 4.2. La regla para encontrar una muestra simulada de X a partir de una m.a.s. de Y es
18
Introducción a la Inferencia Estadística
4. DEFINICIÓN DE ESTADÍSTICO En la práctica solemos observar una función de la muestra. Cuando lanzamos una moneda n veces rara vez nos interesa el resultado de cada prueba. Más bien contamos el número de caras en n pruebas. Si Xl,...,Xn es una m.a.s., cualquier función observable de la muestra es un estadístico. Un estadístico al ser función de las v.a. observadas en el proceso de muestreo repetido es a su vez una v.a. y tiene, por tanto, su propia distribución de probabilidad. Dada una m.a.s. X\,...,Xn, un estadístico Tes cualquier función de dicha muestra que no depende de parámetros desconocidos. Así pues, el cálculo de un estadístico a partir de la muestra no requiere conocimiento de ningún parámetro desconocido de la población. Los estadísticos se utilizan para sacar conclusiones inferenciales sobre los parámetros poblacionales desconocidos. SeaX{,...,Xn una m.a.s. de una función de distribución F. Algunos estadísticos importantes son la media muestral y la desviación típica muestral, que se definen de la siguiente manera: Media muestral: desviacion tipion muestral:S
El cuadrado de la desviación típica muestral se llama varianza muestral y se denota por S2. Si ordenamos las observaciones muéstrales en orden creciente de magnitud y denotamos medianteX^,...,X^ las variables aleatorias ordenadas, entonces el vector(x (l) ,..., X^\ se llama vector de estadísticos ordenados. Los siguientes estadísticos se obtienen como función de los estadísticos ordenados: •
Mínimo: X(l) = min(X } ,..., Xn) .
•
Máximo: X(n) = max(X},...,Xn).
19 •
Rango:
(n)-X(l).
si n es impar
Mediana muestral: Msi n es par
Observamos que los estadísticos muéstrales son simplemente características numéricas de la muestra igual que los parámetros son características numéricas de la población. Sin embargo, los estadísticos muéstrales son variables aleatorias y varían de muestra a muestra, mientras que los parámetros son constantes fijas. La siguiente tabla resume algunos resultados sobre parámetros y estadísticos. Característica numérica
Población Parámetro (constante fija)
Muestra Estadístico (v.a.)
Media Varianza Desviación típica Momento de orden k
5. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO Un estadístico T — T(X\,..., Xn), como una función de observaciones muéstrales que son v.a., es también una v.a. Su valor varía de muestra a muestra. El comportamiento de la variabilidad en sus valores viene dado por su distribución de probabilidad. La distribución de probabilidad de T se llama distribución muestral de T. La deducción teórica de la distribución muestral de T puede ser fácil o difícil (o quizá imposible). A veces, lo más que podemos hacer es obtener una distribución empírica de T mediante simulación. Dos estadísticos importantes en inferencia estadística son la media muestral X y la varianza muestral S2. En los siguientes apartados describimos algunas propiedades de sus distribuciones muéstrales. 5.1. Distribución muestral de la media muestral Supongamos que X\,...,Xn es una m.a.s. de una v.a. X con media// y varianzacr 9 . Recordamos que X— - —1 (X}+...+Xn). Usando resultados conocidos de teoría n
20
Introducción a la Inferencia Estadística
de la probabilidad podemos obtener la esperanza y la varianza de la distribución muestral de X, así como caracterizar la distribución muestral de X por su función generatriz de momentos. La esperanza y la varianza de la distribución de X se expresan fácilmente en términos de los momentos poblacionales. En efecto,
pues las X¡ están idénticamente distribuidas; y como las X¡ son incorrelacionadas dos a dos por ser independientes:
La distribución completa de X, definida por su función generatriz de momentos, puede expresarse mediante la distribución poblacional. Sea Mx (7) la función generatriz de momentos de X. La función generatriz de momentos de la media muestral es
(por ser X (por serX,,...,X
idénticamente distribuidas con función
generatriz de momentos común Mx ( t ) ) .
Ejemplo 5.1. Distribución de X cuando la población es normal Si X se distribuye N(jU,cr2) entonces M
Luego
Vemos que Mx(t) es la función generatriz de momentos de una distribución TV ¿u ,
y, por tanto, X se distribuye TV j u ,
21
Ejemplo 5.2. Distribución de X cuando la población es exponencial Si X se distribuye Exp(Á ) entonces/(je) = Ae go Mj (O = 1
. Lue-
yM
» Q116 es 1a función generatriz de momentos de una distribu-
cion gamma con media — = — y varianza
5.2. Corrección por población finita Si la población es finita y contiene N elementos, una m.a.s. de n elementos es una muestra elegida de modo que todas las combinaciones de n elementos tienen igual probabilidad de ser elegidas. Al ser un muestreo sin reemplazamiento, las variables X{,...,Xn no son independientes y, por tanto, para la distribución de X no es (en el desarrollo aparecen términos de covarianza). Para una m.a.s. de una población finita se cumple que V(X) = donde A^es el tamaño de la población y n es el tamaño de la muestra. El factor (N — n)¡( N — 1) se llama factor de corrección por población finita. Si n es pequeño comparado con N (por ejemplo, cuando n es inferior al 5% de N), entonces
— = 1, y el factor de corrección por población finita se
puede omitir. 5.3. Esperanza de la varianza muestral 'j
Como sabemos, la varianza muestral denotada por S se define mediante Para evaluar la esperanza de S2 observamos que 0=1,..., n) y, por tanto,
22
Introducción a la Inferencia Estadística
Tenemos así, que
6. MUESTREO DE UNA POBLACIÓN NORMAL Supongamos que X},...,Xn es una m.a.s. de una distribución normal con media ¡JL y varianza a2. Nuestro objetivo es obtener las distribuciones de algunos estadísticos que son funciones de X y S . Estos resultados forman la base de la inferencia en el muestreo de una población normal. En la sección 5 se ha demostrado que También hemos probado que X se distribuye por toanto, Z = -\íñ(X-jU)/<7 se distribuye W(0,l). Desde un punto de vista práctico o suele ser desconocido y resulta deseable reemplazar (7 por su estimación S. ¿Cuál es la distribución de la variable aleatoria ^(X-ju)/Sl Para responder esta y otras preguntas relevantes vamos a demostrar el siguiente resultado fundamental en Estadística. Teorema 6.1. Teorema fundamental de muestreo de una población normal Sea Xl,...,Xn,n>2, una m.a.s. de una distribución N(ju ,o ) . Entonces: 1. Z = Jñ(X-fi)/ase distribuye Af(0,l). 2. X y S2 son independientes. 3. (n-l)S21'a2 tiene una distribución Ji-cuadrado conw-1 grados de libertad UÍ-i). 4. *Jn(X-ju)/S
tiene una distribución t de Student con n-l grados de libertad
('«-i).
Demostración 1. Resultado probado en la sección anterior. 21_Vamos ajiemostrar que X es independiente de X¡ - X para todo /. Veamos que X y X¡ - X tienen una distribución normal bivariante. Entonces la solución es fácil: Basta comprobar que Cov(X,X¡ - X) = O .
23
La distribución conjunta de X y X,• - X es normal bivariante. En efecto, la distribución conjunta deX^...,Xn es una distribución normal «-variante con media ju ¡ y matriz de varianzas-covarianzas d 2 /, donde / denota la matriz identidad de rango n . X y Xi•,- X es un vector aleatorio bidimensional formado por dos combinaciones lineales deX\,...,X n y, por t a n t o , ( X , X t • , - X ) sigue una distribución normal bivariante. Hemos demostrado que X y X¡ — X son independientes, para / = !,...,«. Por n * ^
— ^
consiguiente, x y /.(X¡ — X) ¡=\ 3. Por otra parte,
—
<^
son independientes y también lo son X y S .
yaqu Enton bservamos que (X¡-f¿)/
son indepen
dientes, pues el primero depende sólo de S2 y no de X, el segundo depende sólo de teorema
se ha demostrado en la parte 2 que cumpliéndose la hipótesis del son independientes.
24
Introducción a la Inferencia Estadística
2
En conclusión, según el teorema de adición de la distribución X , el estadístico (n-T)S2/
Como hemos visto, sigue una distribución sigue 2
una distribución Xn-\ y ambas distribuciones son independientes. Por tanto, teniendo en cuenta la definición de la distribución t de Student, la v.a. T sigue una distribución tn_\. El teorema 6.1 puede generalizarse a la situación en que tenemos dos muestras independientes. Sean^f n ,...,X l n y X2l,...,X2n^ dos m.a.s. independientes de distribuciones A r (// 1 ,
entonces
tiene esperanza o . En efecto,
2 Además, tiene una distribución/tr«,+M2-2. Esto se deduce del teorema de adición de distribuciones Ji-cuadrado independientes ya que («, -1)5", /
/
9
sigue una distribución ¿ Además, teniendo en cuenta la definición de la distribución F de Fisher, se sigue que tiene una distribución F, En lo sucesivo, la función de densidad y la función de distribución de una distribución normal tipificada las denotaremos por 0(z) y O(z), respectivamente.
25
Para referirnos a los puntos críticos de las distribuciones que han aparecido en el muestreo de poblaciones normales, usaremos la siguiente notación. Para la distribución normal tipificada, denotaremos por za la abscisa que deja a la derecha un área a bajo la curva de densidad 0(z). Para la distribución t de Student, denotaremos por ta.v la abscisa que deja a la derecha un área a bajo la curva de densidad de la variable t con v grados de libertad. De forma análoga, denotaremos mediante Xa\v y ^a;v,,v 2 l°s puntos críticos que dejan a la derecha un área a bajo las curvas de densidad de la distribución Ji-cuadrado con v grados de libertad y de la distribución F de Fisher con (v,, V2) grados de libertad, respectivamente. 7. TEOREMA CENTRAL DEL LÍMITE En la sección 5 se demostró que s\X\,...,Xn representa una m.a.s. de cualquier distribución con media ¿u y varianza
en
esta sección recordamos una aproximación para la distribución muestral de X, que se puede utilizar cualquiera que sea la distribución de la población de donde se toma la muestra con tal de que el tamaño muestral sea grande. Si se extrae la muestra de una población normal, entonces por el teorema fundamental de muestreo de una población normal resulta que X tiene una distribución muestral que es normal. Pero, ¿qué podemos decir de la distribución muestral de X si las X¡ no siguen una distribución normal? Si las X¡ son n v.a. independientes e idénticamente distribuidas con varianza finita, entonces para n suficientemente grande X sigue aproximadamente una distribución normal. El enunciado formal de este resultado constituye el teorema central del límite. Teorema 7.1. Teorema central del límite SeanX\,...,X n una secuencia de« v.a. i.i.d. con media ¿u y varianza cr2
. Entonces
). Es decir,
bajo las condiciones del teorema, Zn converge en distribución a una distribución ./V(0,l) • Podemos observar que Zn puede escribirse en términos de X como Si se cumplen las hipótesis del teorema se tiene que Z donde el símbolo —^—> se interpreta como «converge en distribución o en ley a». Este es un resultado de gran interés en inferencia estadística y se usará más adelante. A continuación ilustramos mediante dos ejemplos de simulación que cuando se muestrea una población binomial el comportamiento de la media muestral se puede aproximar muy bien mediante una distribución normal. Consideramos una v.a. X binomial con parámetros n - 5 y p = 0.3, es decir, X ~ 5(5,0.3). La media y la varianza de X son ju = 5 • 0.3 = 1.5 y o 2= 5 • 0.3 • 0.7 = 1.05, respectivamente. En conse-
26
Introducción a la Inferencia Estadística
cuencia, la media y la varianza de la distribución de la media muestral son E(X) = E(X) = 1.5 y o\ = <72/n = W5/n, respectivamente. Para estudiar el comportamiento empírico de la media muestral, primero consideramos n = 5. Simulamos 1000 m.a.s. de tamaño 5 de la población binomial, y calculamos para cada muestra la media muestral. De esta forma obtenemos 1000 medias muéstrales que representan una m.a.s. de tamaño 1000 de X. Después, el mismo experimento se repite con muestras simuladas de tamaño 10. La tabla 7.1 compara las medias y las varianzas de las muestras simuladas de X con las medias y las varianzas teóricas. Observamos que las medidas resumen de las muestras simuladas aproximan mucho los respectivos parámetros poblacionales, y además que la aproximación es mejor para n = 10 que para n = 5. Tabla 7.1. Resultados teóricos y cálculos empíricos de las 1000 muestras generadas para cada valor de n (5 y 10). Tamaño de la muestra
n =5 « = 10
Promedio de las Media poblacional medias muéstrales
1.4820 1.4882
1.5
1.5
Figura 7.1.
Varianza de las medias muéstrales
0.2065 0.1032
0.210 0.105
27
Figura 7.2.
Las figuras 7.1 y 7.2 presentan para n = 5 y n = 10, respectivamente, el histograma de frecuencias relativas de las medias muéstrales y la función de densidad de la distribución normal con media 1.5 y varianza 1.05/w . Observamos que para ambos tamaños muéstrales los histogramas son campaniformes y bastante simétricos. Vemos además que en cada caso la función de densidad normal aproxima bastante bien el histograma de frecuencias muéstrales de X . En resumen, el estudio empírico de simulación nos proporciona medias de las medias muéstrales y varianzas de las medias muéstrales que están bastante cerca de los valores teóricos esperados. Además cabe esperar que el histograma de frecuencias de la media muestral se aproxime cada vez más a la correspondiente función de densidad de la distribución normal conforme el tamaño muestral aumente. 8. DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL Sea X una v.a. Bernouilli con parámetro p, es decir, una variable categórica que toma sólo dos valores, codificados mediante O y 1, con probabilidad/» de tomar el valor 1. SeaX } ,...,X n una m.a.s. deX . Este modelo es aplicable, por ejemplo, a n lanzamientos de una moneda con probabilidad de cara p. Otras aplicaciones importantes son a muestras aleatorias simples de tamaño n de poblaciones infinitas para las que se requiere estimar la proporción poblacional p de alguna característica (proporción de no fumadores en una ciudad, de piezas defectuosas en la producción de una fábrica, etc.). El estimador que se utiliza para estimar p es la proporción muestral p que se define com donde
porción muestral se puede escribir como sigue una distribución B(n,p). En consecuencia, la distribu-
28
hIntroducción a la Inferencia Estadística
cion muestral de p puede basarse en la distribución B(n,p) para n pequeño. La esperanza y la varianza de p son
' respectivamente. Por
la
desigualdad
de
Chebichev
en
consecuencia
Vf>0
se
cumple esto
que es
cuando n aumenta, la probabilidad de que la proporción muestral se desvíe de la proporción poblacional menos de cualquier £ > O tiende a la unidad. Como Sn es la suma de n v.a. i.i.d. con varianza finita, el teorema central del límite garan
es decir, en terrninos de p
este resul
tado es básico para resolver los problemas inferenciales para variables categóricas mediante muestras grandes. Conviene observar que si el valor de p es desconocido, entonces la desviación típica
29
Ejercicios
EJERCICIOS 1. Una distribución utilizada con frecuencia para modelizar la distribución de las rentas en una comunidad es la distribución de Pareto, cuya función de densidad es/(jc) = aBa I'xa+l si x > /3, y cero en otro caso. Los parámetros a y B han de cumplir las restricciones a > 1 y B > 0. Si 0.378, 0.296 y 0.973 es una m.a.s. de tamaño 3 de una distribución uniforme en el intervalo [0,1], simular una muestra de 3 observaciones de la distribución de Pareto con a= 1.5 y B = 1. Solución La función de distribución de Pareto es
Si Y = F(X], entonces, por el teorema de la transformación integral, Y sigue una distribución uniforme en el intervalo [0,1]. Además, X = F~\Y) sigue una distribución de Pareto. El cálculo de F~l es el siguiente: De
8 = 1 resulta F~*(y) =
obtene-
^-. Para obtener la muestra simulada de X, sustituiré-
mos en F ( y ) cada uno de los valores de la m.a.s. de Y. La m.a.s. de X resulta:
2. El coste total X de producir una unidad de output es la suma de un coste fijo 6 y de un coste variable inobservable (de modo que 6 es un parámetro desconocido). Se sabe que el coste total Xse distribuye con función de densidad / (x) = exp{ -(x- Q}} six>0,y cero en otro caso. Si el coste fijo es 6 = 2, encontrar la muestra simulada correspondiente a la siguiente m.a.s. de la distribución t/(0,l): 0.457, 0.799, 0.878.
30
introducción a la Inferencia Estadística
Solución La función de distribución de X es
es decir, y = l-e (x G ) , de donde obtenemos quel-jy = e (x &). Tomando logaritmos obtenemos ln(l-j)=-(:c-6) y, despejando x tenemos que x = F~\y] = 0-ln(l-y). Luego la muestra simulada de X correspondiente a la m.a.s. y
3. Se sabe que el número de personas que llegan a una carnicería es una variable que sigue un proceso de Poisson de media 3.5. Obtuvimos, utilizando la transformación integral, una m.a.s. simulada de tamaño 4 de dicha variable con valores 1, 4, 3 y 8. Encontrar todos los números aleatorios del intervalo [0,1] que dan lugar a esta m.a.s. Solución Sean xl = 1, x2 = 4 , x3 = 3 y *4 = 8. Entonces los correspondientes números aleatorios del intervalo [0,1], que denotamos por ^ , y 2 , ^3 e>> 4 , han de cumplir respectivamente
donde F(JC) denota la función de distribución de una variable Poisson con media 3.5, es dec
] igual a la parte entera de.
4. Partiendo de una observación y procedente de una distribución U(0,1), indicar cómo se generaría una observación aleatoria de cada una de las siguientes distribuciones de probabilidad: a) La distribución uniforme entre - 10 y 40. b) La distribución uniforme de 25 a 75. c) La distribución de la v.a. X cuya función de densidad es f ( x ) = (x- 40)/200 si 40 < x < 60, y cero en otro caso. Solución a) Es fácil comprobar que si 7~í/(0,l) entonces 50-7-10 ~C/(-10,40). Por tanto, x = 50- y —10 es una observación simulada de una distribución U(—10,40). b) Si r ~ £7(0,1), entonces 50-7+25 ~ £7(25,75). En consecuencia, x = 50- y + 25 es una observación simulada de una distribución £7(25,75).
31
Ejercicios
c) La función de distribución de X es Luego de donde
Como 40 < je < 60, entonces x = 40 + 20 Jy es una observación simulada de X.
5. Generar tres observaciones aleatorias de una distribución normal con media 10 y desviación típica 5. Solución Sea X ~N(n,c>2} con // = 10 y (7 = 5. La función de distribución de X tanto, dado y, * se halla con una tabla de la distribución W(0,l). Por ejemplo, si y = 0.2 tenemos que O
= 0.2 y, por tanto,
=z
-0.84. Obtene-
mos finalmente x - 5.8. De igual modo se pueden generar las otras dos observaciones de X. 6. Generar cuatro observaciones aleatorias de una distribución normal con media O y desviación típica 1. Después emplear estas cuatro observaciones para generar dos observaciones de una distribución Ji-cuadrado con dos grados de libertad. Solución Si X ~ N(0,l) entonces la función de distribución de X es y - OO). Dada una m.a.s. (^,^2'^3'^4) de una distribución £7(0,1), obtenemos una m.a.s. de X haciendo x¡ = O"1 (>>,-). Como la suma de los cuadrados de dos normales tipificadas independientes sigue una distribución Ji-cuadrado con 2 grados de liberes una m.a.s. de tamaño 2 de una distribució tad 1. Generar cuatro observaciones aleatorias a partir de una distribución exponencial con media 1. Después emplear estas cuatro observaciones para generar una observación aleatoria que siga una distribución gamma con parámetros 4 y 1. Solución si Si X~Exp(l) entonces la función de distribución de :c>0- Despejando je tenemos que j = -ln(l-^). Luego si (^1,^2^3,^4) es una m.a.s de una distribución £7(0,1), entonces (xl,x2,x3,x4) es una m.a.s. de X y, por
32
Introducción a la Inferencia Estadística
tanto, en virtud de la propiedad que afirma que si X¡ ~ Exp(Á) entonces sigue una distribución gamma con parámetros aleatoria de una distribución gamma con parámetros 4 y 1.
es una observación
8. Un producto fabricado por una compañía requiere que se perforen cilindros en un bloque metálico y que se inserten pistones en ellos. Es necesario que los pistones tengan un radio de 1.00 centímetro por lo menos y, hasta donde sea posible, muy poco más grande. La distribución de probabilidad del radio del pistón (en centímetros) tiene una función de densidad/ (*) = 400-exp{-400(jt-1.00)} s i x > 1.00, y cero en otro caso. De igual manera, la distribución de probabilidad del radio de los cilindros (en centímetros) tiene función de densidad fc(x) - 100 si 1.00 < x < 1.01, y cero en otro caso. El espacio libre entre el cilindro y el pistón es la diferencia entre sus radios. Como el cilindro y el pistón se seleccionan al azar, en ocasiones hay interferencia (es decir, espacio negativo) entre un cilindro y el pistón que va dentro. El objetivo es determinar con qué frecuencia ocurre esta interferencia en las distribuciones de probabilidad actuales. Describir cómo se realizaría un experimento de simulación para estimar la probabilidad de interferencia. Solución Es fácil comprobar que las inversas de las funciones de distribución para el radio del pistón y para el radio del cilindro son x
respec-
tivamente, donde y = F (x) e yc = Fc(x) siguen distribuciones uniformes en el intervalo [0,1]. A partir de dos observaciones aleatorias de una uniforme en el intervalo [0,1] obtenemos una observación aleatoria(x p ,x c ), de la cual se obtiene una observación aleatoria de la diferencia xc - xp . Repitiendo este proceso un número grande de veces obtendremos una muestra simulada de la variable diferencia. La frecuencia relativa de diferencias negativas en la muestra simulada proporciona una estimación de la probabilidad de interferencia. 9. Los amperímetros producidos por una compañía particular se venden en el mercado con la especificación de que la desviación estándar de las lecturas no es mayor que 0.2 amp. Se utilizó uno de estos amperímetros para efectuar 10 lecturas independientes en un circuito de prueba con corriente constante. Si la varianza de estas mediciones es 0.05 y suponiendo que las lecturas tienen una distribución normal, ¿indican los datos que el amperímetro que se utilizó no satisface las especificaciones del fabricante? Solución La especificación que figura en los amperímetros es <7< 0.2 o, de forma equivalente, o"2 < 0.04. Puesto que E(S2) = o2, S2 tomará valores próximos a cr2 con gran
33
Ejercicios
probabilidad. Dicho de otra manera, la probabilidad de que S2 tome valores alejados de o"2 será pequeña. Por tanto, para decidir si el amperímetro satisface las especificaciones del fabricante, deberíamos calcular PÍS2 = 0.05 / 0.05 / a = 0.2 j (la probabilidad de obtener un valor de S2 al menos tan grande como 0.05, cuando cr=0.2). Si esta probabilidad es pequeña, concluiremos que 0.05 es un valor muy alejado del «centro» G . Este será un argumento en contra de la especificación ya que «nos negamos a pensar que algo tan improbable pueda observarse». Dicha probabilidad es
que no es una probabilidad muy pequeña (usualmente consideraremos que una probabilidad de este tipo es pequeña si es inferior o igual a 0.05). Por tanto, no podemos dudar de la especificación que figura en los amperímetros (no existe fuerte evidencia en contra del supuesto cr= 0.2). 10. De una población normal se extrae una muestra aleatoria simple de tamaño 10, obteniéndose los siguientes resultados: -0.2,0.3,0.2, -0.5,0.4,0.1,0.2, -0.1, -0.3,0.2. Calcular la probabilidad de que la media muestral difiera de la media poblacional menos de 0.3. Solución La probabilidad de que la media muestral difiera de la media poblacional menos
11. Consideremos dos poblaciones independientes X e Y tales que X ~ N(l, a2) e Y ~ N(2,
34
Introducción a la Inferencia Estadística
Según las tablas de la distribución t de Student, esta probabilidad pertenece al intervalo (0.95,0.975). 12. Un economista desea estimar la renta media fi en un barrio de una gran ciudad. Decide usar la media muestral como una estimación de /x, y quiere asegurar que el error en la estimación es no mayor que 40000 pesetas con probabilidad 0.90. ¿Cuál debe ser el tamaño de la muestra si sabe que la desviación típica es 400000 pesetas? Solución El economista desea que PÍ\X - ¿u < 40000] = 0.90. Suponiendo que el tamaño muestral buscado n es grande podemos usar el teorema central del límite de modo que
donde , de donde obtenemos n = 271. Como el ta-
maño muestral calculado es grande, el uso del teorema central del límite está justificado. 13. En una fábrica muy grande donde trabajan mujeres y varones el salario por hora tiene media 1000 pesetas y una desviación típica de 250 pesetas. Un grupo de mujeres de esta planta muestrea 36 trabajadores mujeres y encuentra que el salario medio muestral es 850 pesetas por hora. Suponiendo que la desviación típica del salario de los trabajadores mujeres es de 250 pesetas, ¿existe evidencia para sugerir que el salario medio por hora de los trabajadores mujeres es menor que el salario medio de la fábrica? Solución Denotemos el salario, en pesetas por hora, de los empleados mujeres mediante X_ y sea E( X) = JA . Que£emos decidir si n < 1000. Observamos que en la muestra, X - 850. Puesto que E(X) = // , X tomará valores próximos a (J. con gran probabilidad. Si la probabilidad P(X < 850/// = 1000) es pequeña, concluimos que 850 es un valor muy alejado de// = 1000 y, por tanto, este será un argumento en contra de ju = 1000. Utilizando el teorema central del límite (n = 36), dicha probabilidad es
Ejercicios
35
Como vemos, suponiendo// = 1000 la probabilidad de observar valores de la media muestral menores o iguales al valor muestral de X es muy pequeña. Luego, dudamos de que en la población de mujeres se cumpla que // = 1000, o lo que es lo mismo, sí hay evidencia de que el salario medio de las mujeres es menor que el de todos los trabajadores. 14. Un fabricante de automóviles anuncia que sus modelos compactos XYZ ofrecen en promedio un consumo de 4.35 litros por 100 km. Se sabe que la desviación típica poblacional es
= 0.9768, donde Z ~ N(0,1) aproximadamente. b) La media muestral es 4.48, de modo que la probabilidad de obtener una media muestral mayor o igual que la observada bajo el supuesto//= 4.35 como esta probabilidad es muy pequeña, dudamos de la afirmación del fabricante. 15. Una empresa produce pelotas de golf. De la producción diaria se inspecciona una muestra de 80 pelotas. Si la muestra contiene un 10% o más de pelotas defectuosas se detiene el proceso productivo y se reajusta. Si cierto día la máquina está produciendo realmente un 15% de pelotas defectuosas, ¿cuál es la probabilidad de que se detenga el proceso y se reajuste? Solución Sea p la proporción de pelotas defectuosas y denotemos por p la proporción muestral de pelotas defectuosas. La probabilidad de detener el proceso cuando p = 0.15 es P(p > 0.10 / p = 0.15). Utilizando la distribución asintótica de la proporción muestral (con corrección de continuidad), obtenemos que
36
Introducción a la Inferencia Estadística
16. La media y la desviación típica de la variable X = «renta en millones de pesetas» en la población formada por los 500 participantes de un congreso de economistas es // = 3.25 y <7 = 0.5, respectivamente. Si se extrae una muestra aleatoria simple de 60 participantes del citado congreso, encontrar la probabilidad de los siguientes sucesos:
Solución El tamaño de la población es jV = 500 y el tamaño muestral es n = 60, de modo que la fracción de muestreo es n/N =60/500 = 0.12 > 0.05 . Como la fracción de muestreo es mayor del 5%, en el cálculo de la desviación típica de la media muestral es necesario utilizar el factor de corrección por población finita, es decir, . Además, dado que n es grande, por el teorema central del límite la distribución de —.
es aproximadamente una normal tipificada. Este
resultado se usa a continuación para aproximar las probabilidades de interés.
17. Cuando una máquina está bajo control produce una media del 1 % de artículos defectuosos. Aproximar la probabilidad de que en 100 artículos producidos por la máquina bajo control existan 2 o más defectuosos. Comparar las aproximaciones Poisson y normal con la probabilidad exacta binomial bajo la hipótesis de independencia.
Ejercicios
37
Solución f 1 si el artículo / es defectuoso en otro caso LO número de artículos defectuosos en una m.a.s. de tamaño 100. Entonces, si la máquina está bajo control, X¡ ~ 5(1,0.01), por lo que Y ~ £(100,0.01). La v.a. Y tiene aproximadamente una distribución de Poisson de media A = n-p-100• 0.01 = 1. Por tanto, usando la aproximación Poisson, la probabilidad de que en 100 artículos producidos por la máquina existan 2 o más defectuosos es Con la aproximación normal con corrección de continuidad, la probabilidad es Sea X
La probabilidad binomial exacta es
Vemos que la aproximación Poisson proporciona una aproximación excelente, mientras que el error de aproximación de la aproximación normal es mayor de 0.04. 18. El número de accidentes automovilísticos en un fin de semana de 2 días en una determinada carretera puede modelizarse mediante una distribución de Poisson de media 3. Encontrar la probabilidad de que el número promedio de accidentes en 45 fines de semana de dos días en esta carretera a) sea mayor que 4. b) sea menor que 2.5. c) esté entre 2.8 y 3.5, ambos inclusive. Solución Sea X el número de accidentes automovilísticos en un fin de semana de 2 días en la citada carretera y denotemos por Y el número total de accidentes en 45 fines de semana de dos días. Como es grande, en virtud del teorema central del límite,
Además, como n - sigue aproximadamente
una distribución normal tipificada. a) La probabilidad de que el número promedio de accidentes en los fines de semana no festivos en esta carretera sea mayor que 4 es
38
Introducción a la Inferencia Estadística
b) La probabilidad de que el número promedio de accidentes en los fines de semana no festivos en esta carretera sea menor que 2.5 es
c) La probabilidad de que el número promedio de accidentes en los fines de semana no festivos en esta carretera esté entre 2.8 y 3.5, ambos inclusive, es
CAPITULO 2 ESTIMACIÓN PUNTUAL
1. INTRODUCCIÓN Sea X\,...,Xn una muestra aleatoria simple de una variable aleatoria X. Si la forma funcional de la función de distribución de X es conocida exceptuando los valores numéricos de un número finito de parámetros 9l,...,9k, entonces la familia de posibles distribuciones de X es una familia paramétrica. En este caso surge un problema de inferencia cuando queremos elegir el valor numérico de alguna(s) constante(s) 9 basándonos en la información de la m.a.s. de X. Como sabemos, con frecuencia los valores de 6 están restringidos por la naturaleza del problema. Al conjunto de valores admisibles para 6 le llamamos espacio paramétrico. Un estimador puntual 9 es un estadístico (función observable de la muestra) que sólo toma valores en el espacio paramétrico. El valor que toma el estimador para una muestra concreta se llama una estimación. La abundancia de estimadores de un parámetro hace necesaria la fijación de las propiedades deseables que ha de satisfacer un estimador para considerarlo un «buen estimador». Basándonos en estas propiedades deseables podremos elaborar algún criterio para elegir entre los posibles estimadores. En este tema estudiamos las propiedades de insesgadez y consistencia, y definimos criterios para comparar estimadores alternativos. También estudiamos dos métodos que permiten obtener «buenos estimadores»: el método de los momentos y el método de la máxima verosimilitud. 2. INSESGADEZ El comportamiento de un estimador en el proceso de muestreo repetido viene descrito por su distribución muestral. La calidad de un estimador depende de las propiedades de su distribución muestral. Intuitivamente es deseable que el «centro de gravedad» de la distribución muestral del estimador de 9 coincida con el parámetro 9, Los estimadores que cumplen esta propiedad se llaman insesgados. Formalmente, 9 es un estimador insesgado de
40
Estimación puntual
6 si y solo si E(9} = 6, V0e0, donde 0 denota el espacio paramétrico. Por otra parte, 6 es un estimador sesgado de 6 si E(9} ^ 9 para algún 0e 0. El sesgo de 9 como estimador de 0 se denota mediante b(9,9} y se define como b(9,9} = E(9)-9. El sesgo es un error sistemático (en la misma dirección). La insesgadez de 9 garantiza que 9 es correcto en promedio, esto es, que la media de la distribución de 9 es 9. Si tomamos un número grande de m.a.s. y para cada muestra calculamos el valor correspondiente de 9, entonces esta colección de valores de 9 tendrá una media aproximadamente igual a 9. Ejemplos de estimadores insesgados a) En el capítulo 1 se ha demostrado que E(X) = ju . Por tanto, la media muestral X es un estimador insesgado de la media poblacional ¡i. También se ha demostrado 9 9 . 9 que E(S ) = o . Por tanto, la varianza muestral S es un estimador insesgado para la varianza poblacional b) Si la media poblacional /í es conocida, entonces es un estimador insesgado para o1. En efecto,
Ejemplo de estimador sesgado Vamos a ver que sesgo es
es un estimador sesgado para acuyo En efecto,
y por tanto 9* es sesgado para
-, con lo
41
que S es un estimador sesgado para <7 y 6 =
S es un estimador
insesgado para 3. CRITERIO DEL ERROR CUADRÁTICO MEDIO ¿Es la insesgadez necesariamente una propiedad deseable de un estimador? Para responder esta pregunta veamos un ejemplo.^En te figura 3.1 se han representado las funciones de densidad de dos estimadores 6\ y 92, donde 6\ es insesgado para O pero #2 es sesgado para 6. Observamos que la distribución de 9} tiene una dispersión respecto a 6 muy grande, mientras que la de 92 está concentrada alrededor de & (que es próximo a 6). Entonces el estimador sesgado 62 puede ser preferido al estimador insesgado 0\. Es necesario por tanto observar la variabilidad del estimador respecto a 6 para hacer una elección.
Figura 3.1.
La varianza de un estimador O mide la dispersión de O respecto a E(6}. Si 6 es insesgado, su varianza da una buena medida de su precisión. En cambio, si O es sesgado, la varianza de 9 no es una medida adecuada de su precisión y debemos considerar la variabilidad de 9 respecto a 9. Para medir esta variabilidad usamos el error cuadrática medio, denotado por ECM, y que se define como ECM(9}- E\(9-9)1\. Se puede probar que el ECM es igual a la suma y el del sesgo, es decir, cuadrado de la varianza . En efecto,
yaque Menor ECM significa mayor precisión. Al comparar dos estimadores de 0, el criterio del error cuadrático medio implica elegir el que tenga menor ECM. Así, si
42
Estimación puntual
ECM(0\) < ECM(62), V#G 0, con desigualdad estricta para al menos un 6, entonces el estimador d{ es preferido a 62 • Con frecuencia esta comparación se efectúa mediante el cociente ECM(62}/ECM(6\), llamado eficiencia relativa de 0{ con respecto a #2 Y denotado por ER(6{,62} • Es obvio que, según el criterio del error cuadrático medio,0} es preferido a 92 si ET?^,^)^! con desigualdad estricta para al menos un 6. Si los estimadores 0l y 62 son insesgados para 6, entonces la eficiencia relativa de 9\ con respecto a 0~> es el cociente de varianzas, es decir, ER(6\,62) = V(d2)¡V(6\). En consecuencia, en la clase de estimadores insesgados para 6, el criterio ECM es equivalente al criterio de mínima varianza. Cuando se dispone de dos estimadores insesgados para un mismo parámetro, el criterio del error cuadrático medio conduce a elegir el estimador de menor varianza. /
\
1
y
,
y
\
l
r
y
/
v
i
-
'
Ejemplo 3.1. Estimación de la varianza de una población normal Sea Xl,...Xn una m.a.s. de una distribución normal con media // y varianza
Como , por tanto
Si hacemos w(c) = en c = c* que resuelve
tenemos que . Además el sesgo de
entonces el mínimo de ra(c) se alcanza en . Como
tenemos que c* =
. Entonces,
es el estimador que tiene el mínimo ECM en la clase de todos los estimadores Observamos que 2
de modo que 7
como estimador de
43
4. CONSISTENCIA A menudo deseamos estimar un parámetro O con un error menor que un valor prefijado e. Esto no puede cumplirse con certidumbre porque 6(x,,...,xn) es una variable aleatoria. Sin embargo, podemos calcular la probabilidad P\\0(x¡,...,xn)-0 < e\ como una función de 6, e y n, y usar esta probabilidad como una medida de la proximidad de 0 respecto a 9. Intuitivamente es deseable que cuando el tamaño muestral aumente, el sesgo disminuya. Esto no ocurre necesariamente a menos que la distribución de 0 tienda a concentrarse alrededor de O cuando el tamaño muestral aumenta. Esta propiedad se llama consistencia. Un estimador 0 es consistente para 9 si para todo e > O se cumple que cuand bv O cuando n —» oo , decimos que 9 converge en probabilidad a 9 y escribimos también plim# = 9). Hay que enfatizar que la consistencia es una propiedad de una secuencia de estimadores y es una propiedad de muestra grande. A continuación describimos algunos resultados que son útiles para comprobar si un estimador es consistente. Proposición 4.1. Si lim E(9
entonces 0n es consis-
tente para 9. En particular, si E(9n) = 0 (es decir, 9n es insesgado) y lim V(9n) = O, entonces 9 Demostración Según la desigualdad de Markov, cualquier variable aleatoria no negativa X para la que O < E(X) < °o , verifica la desigualdad P(X >Á)< E ( X ) / Á , VA > O. Para como
y, por tanto, 9 Ejemplo 4.1. Si X^...,Xn es una m.a.s. de una población X con media ¡JL y varianzacr (finita), entonces
satisface
consecuencia, X es un estimador consistente para /n, es decir, X necesitamos estimar el momento poblacional de orden
En >ju. Si usamos el
44
Estimación puntual
momento muestral de orden
que es consistente e insesgado para suponiendo
cs dccir
Proposición 4.2. 1. Sea g una función continua. Si 6n ——>6 entonces g(0n)—^—-»g(0). 2. Si 6 entonces:
entonces 0
es dicir
para todox en
que F es continua. La demostración de este resultado se omite. Sin embargo la utilidad del resultado se ilustra en los siguientes ejemplos. Ejemplo 4.2. Estimación de la varianza poblacional Sabemos que si X^,...,Xn es una m.a.s. de una población con varianza o1 1 n entonces la varianza muestral es un estimador insesgado de a . Supongamos E(X¡ ) < o o . Entonces, por la consistencia de los momentos muéstrales para los momentos poblacionales y la parte 2 de la proposición 4.2, tenemos que
En consecuencia, 52 es consistente para O" 2 . Por la parte 1 de la proposición 4.2 resulta que S es consistente para (7, aunque 5 no es insesgado para a. Observamos que
también es consistente par
Ejemplo 4.3. La variable aleatoria T converge en distribución a una normal Cuando muestreamos una población normal, sabemos que
tiene una
distribución t de Student con (n-l) grados de libertad y puede escribirse como Observamos que (X-ju)^n/(7 normal tipificada mientras S/G
tiene una distribución exacta
>1 (según el ejemplo anterior). Por tanto, la
45
parte 3 de la proposición 4.2 implica que T converge en distribución a una normal tipificada. Si las X¡ no son normales pero tienen varianza finita cr2 y E(Xf} < °°, entonces por el teorema central del límite se obtiene el mismo resultado. Ejemplo 4.4. Consistencia de la función de distribución empírica Sea X\,...,Xn una m.a.s. de una función de distribución F. La función de distribución empírica de la muestra se define por número de X¡ menores o iguales que F = «numero de X¡ meñores o iguales que x». Entonces Y sigue una distribución binomial con parámetros Por la consistencia de la media muestral para la media poblacional resulta que 5. MÉTODO DE LOS MOMENTOS 5.1. Introducción El método de los momentos es posiblemente el método de estimación más antiguo. Consiste en tomar como estimador de la característica numérica de la población (parámetro) la correspondiente característica numérica de la muestra (estadístico); por ejemplo, tomar como estimador de la media poblacional fj. la media muestral X, como 9 9 estimador de la varianza poblacional o la varianza muestral S , etc. Supongamos que se trata de estimar un vector de parámetros 9 = (9^...,9k] cuyas componentes son funciones de los momentos poblacionales:
Entonces, calculamos
los correspondientes momentos muéstrales y los sustituimos en el sistema de ecua-
ciones. Así obtenemos los estimadores por el método de los momentos de 61,62,...,0k. 5.2. Ejemplos de estimadores obtenidos por el método de los momentos a) Sea X\,...,Xn una m.a.s. de una distribución de Poisson con parámetroÁ desconocido. Como m\ = E(X} es A , tenemos que Á = m} y, por tanto, el estimador de A por el método de los momentos es
46
Estimación puntual
b) Sea X\,...,Xn una m.a.s. de una distribución uniforme en el intervalo [0,b] donde b es desconocido. Como w¡ = E(X] es b/2, tenemos que consecuencia, el estimador de b por el método de los momentos es c) Sea X¡,...,Xn una m.a.s. de una distribución normal con media JUQ y varianza
5.3. Propiedades de los estimadores obtenidos por el método de los momentos sabemos que
. Por tanto, si quere-
mos estimar los momentos poblacionales, el método de los momentos proporciona estimadores insesgados y consistentes. Además, en virtud del teorema central del límite, los estimadores de los momentos poblacionales obtenidos por el método de los momentos tienen una distribución asintótica normal. En general, si h es una función continua, el estimador por el método de los momentos 9 es consistente para d. Bajo algunas condiciones débiles sobre la función h, el estimador 9 es también asintóticamente normal. 6. MÉTODO DE LA MÁXIMA VEROSIMILITUD 6.1. Introducción Ya sabemos que la distribución conjunta de la muestra representa la probabilidad de obtener cada combinación de valores de las variables X¡. Más explícitamente, seaXuna v.a. y sea X},...,Xn una m.a.s. de X. La función de densidad conjunta es: si las X¡ son discretas si las x son continuas
Cuando 9 es conocido, esta función permite calcular la probabilidad de aparición de cada muestra particular. Pero en inferencia, en un problema de estimación se conoce un valor particular de la muestra Xl,...,Xn y 9 es desconocido. Como los valores muéstrales de X{,...,Xn son conocidos y Oes desconocido, podemos considerar la expresión de la función de densidad conjunta como una función de 9. Esta función se llama función de verosimilitud y la denotamos por L(9), es decir, L(9}- /(*],...,*„;#). Supongamos que tuviésemos que decidir entre dos valores posibles para B, 0, y 9r Si, por ejemplo, L(0,)>L(0 2 ) intuitivamente pensaríamos que, a la vista de los resultados muéstrales, el valor de 9} es «más plausible» o «más verosímil» que el de 9 . El método de estimación maximoverosímil (o de la máxima
47
verosimilitud) consiste en elegir como estimador de 6 aquel valor 6 que haga máxima la probabilidad de aparición de los valores muéstrales efectivamente observados o, lo que es lo mismo, que maximice la función de verosimilitud. En la práctica, para encontrar el estimador maximoverosímil conviene trabajar con el logaritmo neperiano de la función de verosimilitud denotado por In L. Como el logaritmo es una función monótona creciente, si L alcanza el máximo en 6 entonces In L también alcanza el máximo en 9. Diremos, por tanto, que 6^y es el estimador maximoverosímil de 6 (estimador MV de 6) si LÍ0MV;x{,...,xn} = sup L(6;x\,...,xn} o, equivalentemente, Si la función de verosimilitud es diferenciable en el espacio paramétrico 0, para obtener 9MV podemos resolver las ecuaciones de verosimilitud = O y comprobar que 6.2. Ejemplos de estimadores maximoverosímiles a) Estimación maximoverosímil de la media de una distribución Poisson El número de llamadas equivocadas recibidas en una centralita telefónica se modeliza con frecuencia mediante una distribución de Poisson. Sean X^,...,Xn el número de llamadas equivocadas en n días diferentes. Si suponemos que el número medio de llamadas equivocadas es el mismo, digamos A,, en cada día y que los sucesos son independientes, entonces
En consecuencia
proporciona el estimador maximoverosímil
b) Estimación de 6 para una distribución uniforme U(Q,0) Supongamos que un autobús llega a una parada entre la hora O y la hora 6 (inclusive) y que la probabilidad de llegada en cualquier subintervalo de tiempo es proporcional a la longitud del subintervalo. Entonces el tiempo X que tiene que esperar una persona que llega a la hora O sigue una distribución uniforme en el intervalo [0,0]. Para estimar 9 suponemos que tomamos una m.a.s. de n observacio-
48 nes
Estimación puntual
de
X.
La
función
de
verosimilitud
de
la
muestra
es
en otro caso Pero esta función no es diferenciable para todo 6 (no es continua para todo 0). Observando que Q
cuya representación gráfica aparece en la figura 6.1.
Figura 6.1.
El máximo de la función de verosimilitud se alcanza en Q=x{fl) y, por tanto, el estimador maximoverosímil de 6 es 0(Xl,...,Xn') = max{Jfj,...,X n } = X^, supuesto que Jf(w) * O . Este resultado se obtiene observando que L(6) es una función positiva para G>x^n) (y cero en el resto) y estrictamente decreciente para 0>*(w), de modo que el máximo de L(9) se alcanza en 0=Jt(M). Puede comprobarse que 0 es consistente para O pero no es insesgado. c) Estimación de la media y la varianza de una distribución normal Sea Xl,...,Xn una m.a.s. de una distribución normal con media ¿í y varianza o2 . Supongamos que fJ. y a1 son desconocidos, de modo que 6 = (//, cr 2 ). La función de verosimilitud es L(0',x\,...,xn) = modo que InL(0)
. Diferenciando In L(6)
49
con
respecto
a
//
y
obtenemos . Resolviendo simultáneamente las dos ecua-
cíones de verosim
d = O obtenemos los estimadores
máximo verosímiles Observamos que, aunque // es insesgado para //, cr es sesgado para
para ju y cr 2 , respectivamente. Si // es desconocido y L(6';x 1 ,...,x w ) = L[¿/(<9);A:1,...,Jcw].Portanto, el estimador maximoverosímil de d(6) es d(0). El uso de la propiedad de invarianza de los estimadores MV simplifica en algunas ocasiones el cálculo como se ilustra en el siguiente ejemplo. Ejemplo 6.1. Estimación de p2 en una distribución Bernouilli Sea Xl,...,Xn una m.a.s. de una distribución Bernouilli con parámetro p. Supongamos que queremos estimar 6= p2. Observamos que#= d ( p ) = p1 es una función biyectiva de [0,1] en [0,1] con función inversa p = 01'2 . Es fácil comprobar que X es el estimador MV de p, de modo que por la propiedad de invarianza el estimador MV de 9 es X2.
50
Estimación puntual
EJERCICIOS 1. Se toma una m.a.s. de tamaño n de una población exponencial de media 6, de modo que la función de densidad poblacional es cero en otro caso. a) Obtener el estimador de 6 por el método de la máxima verosimilitud. ¿Es insesgado el estimador obtenido? b) Obtener un estimador maximoverosímil de 62. c) Determinar un estimador insesgado de 62 basado en el estimador maximoverosímil encontrado en b). Solución a) La
función
de
verosimilitud
de
la
muestra
es
y su logaritmo
v
neperiano es In L(6} = —n\n&
¡ . El valor de 0que maximiza esta función
se obtiene resolviendo para 9 la ecuación
= O y comprobando que, en el
punto solución, la segunda derivada de lnL(0) respecto a 6 es negativa. De obtenemos que 6=X. Por otra parte, . Por tanto, ^ = yV es el estimador
maximoverosímil de 6, y es insesgado porque sabemos que la media muestral es insesgada para la media poblacional. b) Como Q = X es el estimador maximoverosímil de 6, por la propiedad de invarianza de los estimadores máximo verosímiles, 62 = X2 es el estimador maximoverosímil de O 2 . c) La esperanza del estimador maximoverosímil de d2 es . Por tanto, X
es sesgado para B . Observamos que El
X
l- d , de modo que
es un estimador insesgado para 6 2 basado en el estimador maximoverosímil de 6. 2. El porcentaje X de un componente en un producto tiene una función de densidad cero en otro caso. a) Dada una m.a.s. de tamaño n, calcular el estimador de 6 por el método de los momentos y analizar su consistencia.
51
Ejercicios
b) Suponiendo que el tamaño muestral es uno, calcular el estimador maximoverosímil de 6 y comparar la eficiencia de los estimadores obtenidos por los métodos de la máxima verosimilitud y de los momentos. Solución a) El primer momento poblacional es
Por tanto, el parámetro 6 expresado como función del primer momento poblacional (¡u) es 9 = 3/1. Sustituyendo el primer momento poblacional por el primer momento muestral (X) obtenemos que el estimador por el método de los momentos de 9 es 6 = 3X . Analicemos la consistencia de este estimador usando la proposición 4.1. Por una n
parte, E(3X) = 3E(X) = 3E(X) = 3— = O, es decir, 3X es insesgado para 6. Por otra
parte,
como
E ( X 2 ) = ¡(
mos que
> O. Luego 3 X es consistente para 9.
b) Sea x el valor muestral obtenido. El logaritmo de la función de verosimilitud de la muestra es In
. El valor de O que maximiza esta fun-
ción se obtiene resolviendo para 9 la ecuación de verosimilitud este caso resulta
= O, es decir,
= O . En
= O, cuya solución es
9 = 2x . Por tanto, 0 = 2X es el estimador maximoverosímil de 9, mientras que el estimador de 9 por el método de los momentos para el caso particular n = 1 es 9 = 3X . Para comparar la eficiencia de estos dos estimadores usaremos el cociente ECM(6)/ECM(6), que mide la eficiencia relativa de 9 respecto a 0 . Para calcular ECM(0), primero observamos que E(9} = 2E(X) = — , de modo que el estimador por el método de la máxima verosimilitud es sesgado para 9 con varianza
Así,
ECM(0) = V(0) + (b(0,0)J
=
+— = — .
Por
otra
parte,
52
Estimación puntual
. Por tan Luego el estimador obtenido por el método de la máxima verosimilitud, 2 X , es más eficiente que el estimador obtenido por el método de los momentos, 3X. 3. Se extrae una muestra aleatoria simple de tamaño n de una variable aleatoria X con función de densidad
y cero en otro caso. Los
parámetros a y fí cumplen las restricciones a) Suponiendo {$ conocido, encontrar un estimador de a por el método de los momentos y demostrar su consistencia. b) Suponiendo oc conocido, encontrar un estimador insesgado de ¡3 basado en el estimador maximoverosímil. Solución a) El primer momento poblacional es
Por tanto, el parámetro a expresado como función del primer momento poblacional es a =
TY1
— . Sustituyendo el primer momento poblacional por el primer ™\-P momento muestral obtenemos que el estimador por el método de los momentos de a Este estimador es consistente para a pues haciendo uso de la proposición 4.2 tenemos que phm b) Veamos cuál es la estimación maximoverosímil de a . La función de verosimilitud es L(fi) =
si x>/3( i = 1 , . . . , n), y cero en otro caso. Aquí el
dominio de definición de la función de verosimilitud depende de fi. Si inconscientes no. " diferenciamos lnL(/7) llegaríamos a — = O que da /? = °° . En casos como este, en los que el dominio de definición de la función de verosimilitud depende del parámetro, se necesita llevar mucho cuidado para encontrar el estimador maximoverosímil. Para escribir L(ff) sin la parte x .> ft (i = 1 , . . . , n) usamos una función indicador. Sea A un conjunto cualquiera. Definimos la junción indicador de A mediante . Las funciones indicador tienen propiedades simples, y la
53
Ejercicios
propiedad más útil que necesitamos es que I A ( x ) - I B ( x ) = IAl^B(x) . Usando la función indicador podemos reescribir L(P) como anBna Además es ¿(l)= > como equivalente a ;c (1) >/3, la función de verosimilitud también se puede escribir como Observamos que L(/3) es positiva para valores P iguales o menores que el mínimo valor observado de la muestra y cero para valores P mayores que el mínimo valor observado de la muestra. Como resulta que L(j3) es una función creciente con p. Por tanto, el dft p máximo de L(p) se alcanza en x (1) . Así, el estimador maximoverosímil de P es ¿ =*(!)•
Si queremos encontrar un estimador insesgado de P basado en el estimador P=X(V), calculamos la esperanza de X^. Para encontrar la esperanza de.Y(1) necesitamos la función de densidad de X(l}, que es de la forma
pues Asi, Luego
es un estimador insesgado de P basado en el estimador maxi-
moverosímil. 4. Se extrae una m.a.s. de tamaño n de una variable aleatoria X con función de densidad a) Demostrar que
y cero en otro caso. como estimador de 6 es insesgado y consistente.
b) Encontrar razonadamente otro estimador insesgado para 6. c) Calcular la eficiencia relativa del estimador insesgado obtenido en el apartado b) respecto al estimador insesgado obtenido en el apartado a).
54
Estimación puntual
Solución a) El estimador
es insesgado para 9 ya que
Por la parte 1 de la proposición 4.2, como nua, entonces
es conti, es decir, el estimador
es
consistente para d. b) La función de verosimilitud de la muestra es e
0
y cero en otro caso. El logaritmo neperiano de la parte
positiva de la función de verosimilitud es lnZ,(0) = «ln3+ ^Zln;*:,- -3«ln0. Como
=
< O, resulta que la parte positiva de la función de verosi-
militud es decreciente con 6. La función de verosimilitud se puede escribir como Observamos que L(9) es positiva para valores 9 iguales o mayores que el máximo valor observado de la muestra y cero para valores 9 menores que el máximo valor observado de la muestra. Por tanto, el máximo de L(9) se alcanza en x(n). Así, el estimador maximoverosímil de 9 es 9 = X(n}. Si queremos encontrar una estimador insesgado de 9 basado en el estimador Q = x(n), primero calculamos la esperanza de X(n). Para realizar este cálculo necesitamos la función de densidad de X^, que es de la forma
Así
Luego es otro estimador insesgado para 9. c) Vamos a comparar la eficiencia de los dos estimadores insesgados mediante el criterio de mínima varianza, considerando la eficiencia relativa de pecto a
res-
55
Ejercicios
El cálculo de las varianzas de estos estimadores se realiza de la siguiente manera.
con
donde
siendo Por
otra
con
parte, donde
En consecuencia,
y, portante, Entonces,
Por tanto, el estimador insesgado
basado en el estimador maximove-
rosímil de 6 es más eficiente que el estimador insesgado — X que se obtiene por el método de los momentos. 5. Sea Xl,...,Xn una m.a.s. de una variable aleatoria X con función de densidad
y cero en otro caso.
a) Encontrar por el método de la máxima verosimilitud un estimador para (a,B). b) Suponiendo 6 conocido, encontrar por el método de los momentos el estimador de a y demostrar su consistencia.
56
Estimación puntual
Solución a) La función de verosimilitud de la muestra es y cero en otro caso. El logaritmo neperiano de la función de verosimilitud es In
. Diferenciando con
v
respecto a a e igualando a O obtenemos
de donde se deduce que a
es el estimador
maximoverosímil de a. Diferenciando con respecto a 6 obtenemos
de modo que L(9) es una función decreciente con 9. Como x< O Vi= 1,... ,n es equivalente a jc(w) < 6, tenemos que L(0) es positiva para 6>X(n} y cero para (n). Entonces el máximo de L(0) se alcanza en X(ny Así, el estimador maximoverosímil de 6 es O = X (w) . Por tanto, el estimador maximoverosímil para (a,0)
b)
El
primer
momento
poblacional
es
6. Expresando a como función de Wj obtenemos « =
— . Sustituyendo el primer momento poblacional por el
primer momento muestral obtenemos que el estimador por el método de los momentos de d es
Este estimador es consistente para a pues haciendo uso de la proposición 4.2 tenemos que plim
57
Ejercicios
6. Sea Xl,...,Xn una muestra aleatoria simple de una población X con función de densidad f ( x ) = — exp{-O -//)/cr} si x > ¿u , y cero en otro caso.
a) Para facilitar la obtención de la esperanza de X observamos que Y = X - fj. sigue una distribución exponencial de media o y, por tanto, m} = E(X)=¡LL+ a. Por tanto, el parámetro ju expresado como función del primer momento poblacional es (JL= m,- cr. Igualando el primer momento poblacional al primer momento muestral obtenemos que el estimador por el método de los momentos de fJ. es // = X - o . b) La función de verosimilitud es Xj > ju, y cero en otro caso. El logaritmo de la parte positiva de la función de verosimilitud es In a w obtenemos
Diferenciando con respecto = — > O, es decir, L(a,
Como x¡ > ¡u Vi = !,...,« es equivalente a x(1) > //, tenemos que L(n,a) es positiva para / / < x(1) y cero para // > jc (1) . Entonces, el máximo de L(n,<3) se alcanza en X^ . Así, el estimador maximoverosímil de ¿u es ju = X(l). Diferenciando con respecto a <7 e igualando a O obtenemos
de donde se deduce que
es el estimador maximo-
verosímil de o. En definitiva, el estimador maximoverosímil para (/i,cr) es
7. Sea X una v.a. continua con función de densidad y cero en otro caso. Obtener el estimador de j3 por el método de los momentos para una m.a.s. de n observaciones y analizar la consistencia del estimador obtenido.
58
Estimación puntual
Solución El
primer
momento
poblacional
es
El parámetro 5 como función del primer momento poblacional es ¡3 = —//. Sustituyendo el primer momento poblacional por el primer momento muestral obtenemos que el estimador por el método de los momentos de /3 es /? = — X. Este estimador es consistente para fí pues haciendo uso de la proposición 4.2 tenemos que X
>//, por lo que
y, por tanto, 8
8. El coste total X de producir una unidad de output es la suma de un coste fijo Q y de un coste variable aleatorio inobservable, donde 6 es un parámetro desconocido. Se sabe que el coste total X se distribuye con una función de densidad. /(#) = exp{#- x] si *> 0, y cero en otro caso. Supongamos que se toma una m.a.s. de tamaño n de dicha variable aleatoria X. a) Encontrar un estimador maximoverosímil del coste fijo 9. b) Estimar el coste fijo O por el método de los momentos y analizar la consistencia del estimador obtenido. c) Obtener los estimadores insesgados del coste fijo Abasados en los estimadores encontrados en a) y b). d) Encontrar la eficiencia relativa de los dos estimadores insesgados obtenidos en c). Solución a) La función de verosimilitud de la muestra es
L(0) es positiva para 0^xü) (y cero para 0>*(1)) y creciente para 9>xw. Luego el máximo se alcanza en jc (1) . Por tanto, el estimador maximoverosímil de 0es 6 = X(^. b) El primer momento poblacional es
El parámetro 0como función del primer momento poblacional es d=[i-l. Sustituyendo el primer momento poblacional por el primer momento muestral obtenemos que el estimador por el método de los momentos de 6 es 6 — X — 1. Este estimador es consistente para 0pues haciendo uso de la proposición 4.2 tenemos que por lo que y, por tanto,
59
Ejercicios
c) Para facilitar la obtención de la esperanza de X(l) observamos que Y=X- 9~Exp(l), es decir, Y se distribuye con una función de densidad f ( y ) = exp{-^} si y > O , y cero en otro caso. Entonces, la función de densidad de
Por tanto, Y
tiene una distribución exponencial con media l/n, es decir,
asi
luego
consecuencia, X({) — es un estimador insesgado de 6. Por otra parte, Luego X -1 es otro estimador insesgado para 9. d) Vamos a comparar la eficiencia de los dos estimadores insesgados mediante el criterio de mínima varianza. La eficiencia relativa de X(]) — respecto a X-l es ER\X(])-- X-l =-r-
_ = __ = -7-3- = / i , que es mayor que la
unidad para n > 1. Luego el estimador insesgado basado en el estimador máximoverosímil es más eficiente que el estimador insesgado obtenido por el método de los momentos. 9. Sea X},...,Xn una m.a.s. de una distribución gamma con función de densidad cero en otro caso. a) Suponiendo que r y A son desconocidos, obtener por el método de los momentos los estimadores de r y A . b) Si r = 3, calcular el estimador de A por el método de los momentos. c) Si r — 3, obtener el estimador maximoverosímil de A . Solución a) Los dos primeros momentos de la distribución gamma con parámetros r y /I son
Resolviendo para los parámetros r y A
se obtienen las siguientes expresiones: A =
^ . Sustituyendo
el primer y segundo momentos poblacionales por los correspondientes momentos muéstrales obtenemos que los estimadores por el método de los momentos de A y r
60
Estimación puntual
son, respectivamente,
b) Como w1 = — , entonces A = — es el estimador de A por el método de los momentos. c) La función de verosimilitud es logaritmo neperiano es ln
el valor de
que maximiza esta función se obtiene resolviendo para A la ecuación que en este caso es
. Así, el estimador maximoverosímil de Á es
10. Sea X},...,Xn una m.a.s. de una población con función de densidad f ( x ) = 2x/62 si 0<;c< 9, y cero en otro caso. a) Encontrar un estimador de Q por el método de los momentos y estudiar si cumple las propiedades de insesgadez y consistencia. b) Obtener un estimador maximoverosímil de 6, calcular su sesgo y estudiar su consistencia. Solución a) El primer momento poblacional es Entonces el parámetro 9 como función del primer momento poblacional viene dado Sustituyendo el primer momento poblacional por el primer momento muestral obtenemos que el estimador por el método de los momentos de 9 es Este estimador es insesgado para Q pues Para estudiar si este estimador insesgado es consistente, comprobaremos si
61
Ejercicios
tenemos
como
que
Luego efectivamente 9 es consistente para 6. b) La función de verosimilitud de la muestra es , y cero en otro caso. El logaritmo neperiano de la parte positiva ;-2nln&
tenemos
=
. Diferenciando con respecto a 9 ob-
< 0 . En consecuencia, L(9) es una función decrecien-
Haciendo uso de una función indicador, la función de verosimilitud se puede escribir como
Es decir, L(0) es positiva para
valores 9 iguales o mayores que el máximo valor observado de la muestra, y cero para valores 9 menores que el máximo valor observado de la muestra. Por tanto, el estimador maximoverosímil de 9 es 9= X(n). Si queremos encontrar un estimador insesgado de 9 basado en el estimador 9 = Xw, calculamos la esperanza de XM . Para encontrar la esperanza de X(n) necesitamos la función de densidad de X ( n ^ . Como la función de distribución de X es
la función de densidad del máximo es de la
forma f caso.
cero en otro
Así, E(X
Para comprobar que el estimador maximoverosímil de 9 es consistente (usando la proposición 4.1), probaremos que lim E(X vemos que lim£'(^ sesgado
como
consistente para 9.
Primero
es decir, X(n) es asintóticamente intenemos que
62
Estimación puntual
11. Sea X{,...,Xn una muestra aleatoria simple de una población con función de densidad f ( x ) = (9 + \)xe si 0< x < 1, y cero en otro caso (siendo 0>-l). a) Obtener el estimador de 6 por el método de los momentos y demostrar que es consistente. b) Obtener el estimador maximoverosímil de 9. Solución a) El primer momento poblacional es
Por tanto, el parámetro 6 expresado como función del primer momento poblacional es 0
. Sustituyendo el primer momento poblacional por el primer
momento muestral obtenemos que el estimador por el método de los momentos de 6 es
. Este estimador es consistente para 9 pues por la proposición 4.2
tenemos que pli b) La función de verosimilitud es no es In obtiene resolviendo para 9 la ecuación que es equivalente a estimador maximoverosímil de
y su logaritmo neperiaEl valor de 9 que maximiza esta función se = O, es decir, . Por tanto, el
CAPITULO 3 ESTIMACIÓN POR INTERVALOS DE CONFIANZA
1. INTRODUCCIÓN En el capítulo anterior hemos estudiado las propiedades que deben poseer los buenos estimadores puntuales y hemos expuesto dos métodos de estimación y las propiedades de los estimadores que producen. En cualquier situación, la elección de un estimador particular depende de factores estadísticos (tales como fiabilidad del proceso de muestreo, validez del modelo asumido, etc.) y de factores no estadísticos (implicaciones económicas, razones prácticas y facilidad de ejecución). Una estimación puntual tiene poco significado por si sola, ya que generalmente difiere del verdadero valor del parámetro. Es además necesario medir la precisión del estimador puntual y tener información sobre el posible error de estimación asociado a la estimación puntual. Para proporcionar esta información adicional, la estimación puntual se suele acompañar de un intervalo de estimación que indica un rango de valores del parámetro y una medida del grado de confianza que tenemos en que el intervalo de estimación incluya el valor verdadero del parámetro. Antes de formalizar el concepto de intervalo de confianza ilustramos las ideas subyacentes en el ejemplo siguiente. Ejemplo 1.1 Sea X ~ N(ju,(J2) con o1 conocido. Supongamos que disponemos de una m.a.s. de tamaño n de X y queremos estimar \i. Sabemos que en esta situación cumple