DISTRIBUCIONES MUESTRALES Unidad # 6
Materia: Estadística Profesora: Gina Verónica Ochoa Jara
FACU ACUL LTAD DE CIENCIAS NATUR TURAL ALES ES Y MATEMÁTICAS
501
Poblaciones y Muestras Aleatorias •
Una muestra para que sea Aleatoria tiene que ser considerada en dos contextos, primero cuando la población X de la que se toma la Muestra es finita y de tamaño N y otro en el que X es infin ita. ita.
501
Poblaciones y Muestras Aleatorias •
Una muestra para que sea Aleatoria tiene que ser considerada en dos contextos, primero cuando la población X de la que se toma la Muestra es finita y de tamaño N y otro en el que X es infin ita. ita.
502
…viene
Poblaciones y Muestras Aleatorias
• Las
observaciones de una muestra se las denotaba x 1,x2,…,xn y ante antes s de toma tomarr una mues muestr tra a alea aleato tori ria a de tama tamaño ño n, las las observaciones se modelan como variables aleatorias X1,X2,…,Xn pues puesto to que que en situ situac ació ión n prepre-ex expe peri rime ment ntal al está están n sujetas a incertidumbre, es decir, no sabemos el valor que tomará la observación.
• Ejemplo: si
la variable es Número de hijos, entonces el valor de la primera observación seleccionada podría ser x 1=1 o x1=2 y muchos otros valores posibles.
• De
la situación anterior se tiene t iene que cualquier Estimador media aritmé aritmétic tica, a, media mediana na muestr muestral, al, desvi desviació ación n estánd estándar ar muestra muestral, l, rango muestral, etc., debe verse como una variable aleatoria.
503
Muestras Aleatorias de Poblaciones Infinitas • Si
la población X es infinita, con Distribución o Densidad f, una Muestra de tamaño n, X = (X1 X2 … Xn)T es constituyen n Aleat Al eato o r i a, si las n variables X 1,X2,…,Xn que la constituye son Independientes e Idénticamente Idénticamente Distribuidas .
• Lo
cual significa que por independencia, la distribución conjunta f x es: f x(X) = f x(X1 X2 … Xn) = f 1(X1) f 2(X2) … f n(Xn)
n
f x(X)
ෑ f i Xi i=
504
Muestras Aleatorias de Poblaciones Infinitas …viene
• Mientras
que por ser Idénticamente Distribuidas, las n Varia ariabl bles es Alea Aleato tori rias as tien tienen en la mis misma Dist Distri ribu buci ción ón de Probab Probabilid ilidade ades s de X o Densidad Densidad de de X, según según que Xi sea continua o discreta. Esto nos lleva a que:
n
f x(X)
• Todo
ෑ f i Xi f X
i=
esto en situación pre –experimental, esto es, antes de tomar la muestra.
505
Muestras Aleatorias de Poblaciones Infinitas …viene
• Cuando
se habla de Poblaciones Infinitas, incluimos en ellas a todas las Variables Continuas así como a las Discretas con soporte infinito contable, Poisson o Binomial Negativa.
•
Además, se debe tener en cuenta que ser Idénticamente Distribuidas significa que las n variables tienen la misma Función Generadora de Momentos, si tal Valor Esperado existe; mientras que al ser Independientes su distribución conjunta es igual al producto de sus marginales para todos los valores en el soporte de X.
• Cuando
n variables son Independientes y al mismo tiempo Idénticamente Distribuidas se las rotula como iid.
506
Muestras Aleatorias de Poblaciones Finitas • Una
Muestra de tamaño n, tomada de una Población X que es finita y de tamaño N, que tiene Distribución de Probabilidades f, es denominada Muestra Aleatoria, cuando y solo cuando, al tomarla, todo subconjunto de tamaño n en la Población X, tiene igual probabilidad de constituir la muestra.
• La
probabilidad de que uno de estos subconjuntos de tamaño n constituya la muestra sabemos que es:
507
Muestras Aleatorias de Poblaciones Finitas …viene
•
En términos de la Población Objetivo, que está constituida por N unidades de investigación, deberíamos decir que la Muestra es Aleatoria si todo subconjunto que cuenta con n “unidades de investigación”, tienen igual probabilidad de ser investigado, acerca de la característica de interés X.
508
Muestras Aleatorias de Poblaciones Finitas …viene
• Si
el tamaño N de la Población Objetivo es “grande”, digamos que de varios miles, para determinar qué unidades deben ser investigadas se necesita, por ejemplo, una representación simbólica de la Población Objetivo a investigarse, a fin de con propiedad y “cobertura” pertinente poder identificar y localizar las unidades de investigación. Esta representación simbólica de la Población Objetivo se denomina Marco Muestral y deberá ser exhaustiva y actualizada.
• Por
lo general, un Marco Muestral se lo construye; siendo estos “marcos” registros administrativos, bases de datos, listas de usuarios, cartografía, etc.
509
Muestras Aleatorias de Poblaciones Finitas …viene
•
A continuación, utilizando ilustraciones numéricas queremos introducir una forma particular de presentación de Variables Aleatorias, que son fundamentales en Estadística Inferencial. Se trata de Variables Aleatorias cuyos valores se listan exhaustivamente y a partir de los cuales se determinan sus Distribuciones y parámetros ; trataremos también de resaltar el efecto que tiene el tamaño n de la Muestra en las medidas de dispersión de ciertas funciones derivadas de estas variables.
510
Muestras Aleatorias de Poblaciones Finitas …viene
• Ejemplo. Dada
una Población X, Uniforme Discreta, de tamaño N = 6 que se representa como: •
{1; 2; 3; 4; 5; 6}
• f(x) • Sx = • Determinar
= 1/6
{1; 2; 3; 4; 5; 6}
la Media y la Varianza.
511
Muestras Aleatorias de Poblaciones Finitas …viene
512
Muestras Aleatorias de Poblaciones Finitas …viene
513
Muestras Aleatorias de Poblaciones Finitas …viene
• Ejemplo 2. Dada
una Población X de tamaño N = 6 que se representa como: •
{1; 2; 3; 4; 5; 6}
• f(x) • Sx = • Si
= 1/6
{1; 2; 3; 4; 5; 6}
se toman Muestras de tamaño n = 2, encuentre la distribución de probabilidad de la variable aleatoria definida como la media aritmética de cada muestra, determine además su valor esperado y su varianza.
514
Muestras Aleatorias de Poblaciones Finitas Muestr as de Media …viene
•
Si N = 6 y se toman Muestras de tamaño n = 2, el total de muestras es quince, puesto que:
6 6! 15 2 4!2! •
Calculamos ahora todas las muestras de tamaño 2
que se pueden tomar de una Población de tamaño N = 6, además del
estimador media aritmética para cada muestra.
Nº
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tamaño n = 2
Aritmética
{1 ; 2} {1 ; 3} {1 ; 4} {1 ; 5} {1 ; 6} {2 ; 3} {2 ; 4} {2 ; 5} {2 ; 6} {3 ; 4} {3 ; 5} {3 ; 6} {4 ; 5} {4 ; 6} {5 ; 6}
3/2 4/2 5/2 6/2 7/2 5/2 6/2 7/2 8/2 7/2 8/2 9/2 9/2 10 / 2 11 / 2
515
Muestras Aleatorias de Poblaciones Finitas …viene
• La
media aritmética de cada muestra es una variable aleatoria, y por lo tanto es posible determinar la Distribución de Probabilidades (Distribución Muestral) para la media aritmética, cuando se toman muestras de tamaño n = 2, así encontramos que: Nº
Muestras de Tamaño n = 2
Media Ari tméti ca
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
{1 ; 2} {1 ; 3} {1 ; 4} {1 ; 5} {1 ; 6} {2 ; 3} {2 ; 4} {2 ; 5} {2 ; 6} {3 ; 4} {3 ; 5} {3 ; 6} {4 ; 5} {4 ; 6} {5 6}
3/2 4/2 5/2 6/2 7/2 5/2 6/2 7/2 8/2 7/2 8/2 9/2 9/2 10 / 2 11 / 2
Variable Aleatoria (n = 15 muestras)
f x (x) =
f x (x) =
f (x) = x
1 15 2 15
3 15
para x =
para x =
para x =
3 4 10 11
, ,
2 2
2
,
5 6 8 9
, , ,
2 2 2 2
7 2
2
516
Muestras Aleatorias de Poblaciones Finitas …viene
•
Finalmente, la Distribución de Probabilidades para la media aritmética, cuando se toman muestras de tamaño n = 2, es:
517
Muestras Aleatorias de Poblaciones Finitas …viene
• Nótese
que el Soporte S x de la población X contiene seis valores, S x =
• Mientras
{1; 2; 3; 4; 5; 6}
ҧ
que el de contiene nueve, ya que:
ҧ
3; ; ; ; 7; 8; 9; 0;
518
Muestras Aleatorias de Poblaciones Finitas …viene
• El
valor esperado de la media aritmética es igual a:
/
ҧ ҧ ത ҧ ҧ =3/
519
Muestras Aleatorias de Poblaciones Finitas …viene
• La
varianza de la media aritmética es igual a:
/
ҧ ҧ ത ҧ ҧ =3/
2
σx =
ҧ 805 60
ҧ
ҧ
2
7 − = 2
7 6
= 1.17
520
Muestras Aleatorias de Poblaciones Finitas …viene
• Histograma
de la Media Aritmética Muestral
521
Muestras Aleatorias de Poblaciones Finitas …viene
Población X: Distribuc ión de Probabilidades de X
Todas las muestras de Tamaño n de la Población X: Distribuc ión de Probabilidades de
ഥ
522
Muestras Aleatorias de Poblaciones Finitas …viene
• Cuando
tomamos muestras de tamaño n de poblaciones finitas de tamaño N tenemos que: • El valor esperado de X es igual al valor esperado de
.ҧ
cambio, es posible probar que si s 2 es la varianza de una población finita X , la medida de la dispersión de es:
• En
ҧ
, para cualquier N y n>1, n ≤ N • Donde
− −
se denomina Factor de Corrección para
Poblaciones Finitas, y es un valor que al crecer N tiende a uno.
523
Muestras Aleatorias de Poblaciones Finitas …viene
ҧ
• Es
posible probar que la medida de la dispersión de es menor o cuando mas igual que la de X.
• Para
≥ ҧ
obtener muestras aleatorias de poblaciones finitas, debe utilizarse muestreo sin reemplazo, que es también conocido como Muestreo Aleatorio Simple , MAS. En este esquema de muestreo, las observaciones que constituyen la Muestra, no son Estocásticamente Independientes pero sí son Idénticamente Distribuidas.
524
Estadísticos y Distribuciones Muestrales • El
propósito fundamental de tomar Muestras Aleatorias de una Población Objetivo es inducir a través de ellas, alguna o algunas de las propiedades que dicha Población Objetivo posee; sea el valor de alguno de los parámetros de sus características o aún para determinar la Distribución o la Densidad de tales características, según sea el caso.
525
Estadístico Muestral •
Una función T: Rn → Rp definida en términos de las variables X1, X2,…, Xn que componen una Muestra Aleatoria, se denomina Estadístico Muestral , si y solo si T(x1 x2 … xn)Rp, no depende de alguno de los parámetros de la Población.
• Es
común llamar Estimador Muestral a un Estadístico Muestral, si la razón para construir dicha función es estimar un parámetro poblacional de X, también se lo denomina Estimador de punto o Estimador puntual.
526
Distribución Muestral • Debido
a que la razón para determinar un estadístico muestral es estimar un parámetro poblacional de X, y dicha función está en términos de las variables aleatorias observadas en una muestra, un estadístico muestral también es una variable aleatoria. En consecuencia, tiene una distribución de probabilidad, la misma que se denomina Distribución Muestral .
527
…viene
Distribución Muestral
X una población infinita, Siendo XT = (X1 X2 … Xn) una Muestra Aleatoria tomada de la Población X, Estimamos la medida de de la Población X con la Media Aritmética Muestral , este estimador muestral es una función:
• Sea
ҧ
ҧ: R
n
→ R,
528
…viene
Distribución Muestral
• Bajo
las condiciones previamente establecidas, tenemos
que:
Las Variables Aleatorias X1,X2,…Xn son idénticamente distribuidas
529
…viene
• En
•
Distribución Muestral
tanto que:
Se sabe que las n variables aleatorias son independientes e idénticamente distribuidas, por lo tanto:
530
…viene
•
Distribución Muestral
La raíz cuadrada positiva de la Varianza de desviación estándar o típica de y es igual a:
ҧ
ҧ es la
se denomina Error Estándar de la media aritmética. • Siendo su estimador: • y
531
…viene
Distribución Muestral
Estimador relevante es la Varianza Muestral s 2, que estima la Varianza s2 de la población, siendo esta función definida,
• Otro
• s2: 2
s (X1 X2
… Xn)
Rn → R =
1 n −1
n 2 (X x) = s − i
2
i =1
532
…viene •
Distribución Muestral
Determinaremos a continuación el Valor Esperado de la Varianza Muestral s 2. Siendo,
n 1 2 2 2 2 1 − = − s = s E(s ) = E (X x) (n 1) n −1 i n −1 i =1 n n 2 2 E (Xi − x) = E(Xi − + − x ) i=1 i =1
n 2 = E (Xi − ) − nE(x − ) 2 i =1
• Se
s2 = n s − n n 2
2 = (n − 1)s
explica ahora la razón por la que se escoge (n – 1) en el denominador del Estimador s 2 de la Varianza Poblacional s.
533
Teorema del Límite Central (TLC) X una Población con Media y Varianza s2 ambas finitas, de la que se toma una Muestra Aleatoria XT = (X1 X2 … Xn) de tamaño n siendo la Media Aritmética de la Muestra; bajo
• Sea
ത
estas condiciones, la Variable Aleatoria
ത − Τ tiende a una
Variable Normal Estándar, a medida que n tiende a infinito.
ത − • Cuando se dice que Τ tiende a una Variable Normal Estándar, a medida que n tiende a infinito, lo que realmente ത − queremos decir es que Τ Converge en Distribución a una Variable Normal con Media cero y Varianza uno.
534
…viene
Teorema del Límite Central (TLC)
• Bajo
las condiciones del Teorema del Límite Central:
σ2 x N μ, n
535
…viene
Teorema del Límite Central (TLC)
• Para
aplicar a muestras aleatorias el Teorema del Límite Central debe cumplirse que:
La población X de la que se toma la muestra es cualquiera, no se exige que sea discreta o continua. • La varianza s2 de la población debe ser conocida. • El tamaño de la muestra debe ser grande (n 30). •
536
…viene
Teorema del Límite Central (TLC)
537
…viene
Teorema del Límite Central (TLC)
• Ejemplo. Se
toma una Muestra Aleatoria de tamaño n = 40 de una Población que es Uniforme con parámetros a = 1 y b = 3, X ~ U(1,3). Determinar la probabilidad de que la Media Aritmética de la Muestra tome valores entre 1.8 y 2.2.
538
…viene
Teorema del Límite Central (TLC)
• Desarrollo. Necesitamos
calcular el valor de P(1.8 ≤
sabiendo que: • n
ҧ ≤ 2.2)
= 40; n es suficientemente grande para que se aplique el Teorema del Límite Central. • La población X de la que se toma la muestra puede ser continua o discreta. • Además es posible determinar la varianza de la población X, pues conocemos que la población de la que se toma la muestra es Uniforme con a =1 y b=3.
X ~ U(1,3) f(x) = 1 ; Soporte: SX = (1, 3) 2
539
…viene
Teorema del Límite Central (TLC)
X ~ U(1,3) f(x) = 1 ; Soporte: SX = (1, 3) 2
540
…viene
Teorema del Límite Central (TLC)
• Sabemos
que bajo las Condiciones del TLC:
σ2 x N μ, n
1 x N 2, 120 • Por
lo que:
σx =
1 120
= 0.09 = Error Estándar de x
541
…viene
Teorema del Límite Central (TLC)
• Entonces:
P(1.8
(
1.8 − 2 x 2.2) = P Z 0.09
2.2 − 2 0.09
= P ( –2.22 ≤ Z ≤ 2.22) = F (2.22) – F ( – 2.22) = 0.9868 – 0.0132 = 0.9736
)
542
Sesgo y Eficiencia de un Estimador Muestral • Supongamos
que es un parámetro poblacional, uno de cuyos Estimadores es . • Entonces , conjunto este último al que llamaremos
Espacio de Parámetros. • Por
ejemplo, si la población es Normal y = , entonces = R, pero si = s entonces = R+.
543
Sesgo y Eficiencia de un Estimador Muestral …viene
• Recordar:
es un estimador del parámetro
si y solamente si es el valor de una función definida de : R n → R tal que solo depende de la muestra aleatoria tomada de la población. • Un estimador es una variable aleatoria por lo tanto tiene distribución de Probabilidades, tiene media y tiene varianza. •
544
Estimador Insesgado • Diremos
que es un Estimador Insesgado de si y solamente si E( ) = .
• De
lo que ya hemos visto en clases anteriores, la Media Aritmética Muestral , es uno de los Estimadores Insesgados de así como s2 es un Estimador Insesgado de s.
ҧ
• Nótese
que decimos “uno de los Estimadores Insesgados de ”, y es que un mismo parámetro poblacional puede tener mas de un Estimador; por ejemplo, no solo es estimada por sino que también es estimada por la Mediana Muestral, por la Media Cortada, la Media Winsorizada, o por la Media Ponderada.
ҧ
545
Sesgo de un Estimador • El Sesgo de un Estimador
lo define como,
es denotado por B() y se
B( ) = E( ) −
546
Error Cuadrático Medio
un Estimador de un parámetro , se define el Error Cuadrático Medio de como:
• Sea
ECM( ) = E[( − )2]
547
…viene
• Es
Error Cuadrático Medio
posible probar que:
ECM( ) = E[( – )2] = Var( ) + [B( )]2 • Si
θ
el Estimador de es insesgado el Sesgo es cero y el Error Cuadrático Medio del estimador es igual a la Varianza del Estimador.
548
…viene
Error Cuadrático Medio
• Relación
entre el ECM, Varianza y Sesgo de un Estimador
549
Estimador más eficiente • Sea
un parámetro poblacional
y sean y Estimadores Insesgados del mismo parámetro ; diremos que es Más Eficiente como Estimador de que cuando y solo cuando,
V ar ( 1 ) ˆ
V ar ( 2 )
1
ˆ
• Es
decir que si existen dos Estimadores Insesgados de un mismo parámetro, se rotula como Más Eficiente, entre los dos, al que tenga menor Varianza.
550
Sesgo y Eficiencia de un Estimador Muestral …viene
Sea XT = (X1 X2 X3 X4 X5) una muestra aleatoria de tamaño cinco tomada de una población infinita X con Densidad f, que además tiene Media y Varianza finita s2. Se postula como estimadores de a los siguientes estadísticos muestrales:
• Ejemplo.
• Verificar
cuales de estos Estimadores son Insesgados y cuáles no. De entre los insesgados identifique al más eficiente y entre los sesgados calcule el correspondiente Sesgo.
551
Sesgo y Eficiencia de un Estimador Muestral …viene
a) Por ser la Muestra Aleatoria, E(θ1 )=E(X1 )=μ , luego θ1 es Insesgado y su Varianza es ˆ
ˆ
σ2 2 Var (X1 ) = =σ 1
b) Para este caso, E(θ 2 ) = ˆ
E(X1 + X2 ) 2μ = = μ . Igualmente es Insesgado y además, 2 2 Var ( 2 ) =
s
2
ˆ
2
c) En el tercer caso se tiene un Estimador de que no es Insesgado, puesto que
4μ 2 2 μ ( X3 + X5 ) = 2μ = 3 3 3
E(θ3 )= E ˆ
Por lo tanto, el sesgo de θ3 es: ˆ
B( θ 3 ) = E(θ 3 ) − 3 = ˆ
ˆ
4 −= 3 3
552
Sesgo y Eficiencia de un Estimador Muestral …viene
d) En el cuarto caso E(θ4 ) = E(x) = μ y además ˆ
Var ( 4 ) = V ar ( x ) =
s
2
ˆ
• Lo
5
cual nos lleva a la conclusión de que no todos los Estimadores propuestos son Insesgados, solo tres lo son; y finalmente que, el Estimador Insesgado Más Eficiente de todos los considerados es el que aparece en el caso d) por ser el de menor Varianza.
553
Distribuciones Muestrales de Poblaciones Normales (X1 X2 … Xn)T una Muestra Aleatoria de tamaño n con Media Aritmética y Varianza s2, que es tomada de una población X que es Normal, X ~ N( ,s2), bajo estas condiciones,
• Sea X =
• Esto
ҧ
nos permite hacer inferencia respecto a la media y a la varianza de una distribución normal, sin importar el tamaño de la muestra.
554
Distribuciones Muestrales de Poblaciones Normales …viene
(X1 X2 … Xn)T una Muestra Aleatoria de tamaño n con Media Aritmética y Varianza s2, que es tomada de una Población Normal, X ~ N(,s2), bajo estas condiciones la variable,
• Sea X =
• Esto
ҧ
permite inferir acerca de la Media Poblacional sin tener que conocer la varianza s2 y sin tener el otro limitante que es el tamaño “grande” de la muestra.
555
Relación entre la variable aleatoria Normal Estándar y una Ji-Cuadrado posible relacionar la Variable Z ~ N(0,1) con la con un grado de libertad. Tengamos en cuenta que Z 2 es también una Variable Aleatoria que tiene Soporte S = {zR | z > 0} = R+.
• Es
•
Calculemos la Función Generadora de Momentos de Y = Z2. M
• Que
Z2
(t) = E[ e
(z2 t )
yt
] = E(e ) =
1
1/2
(1 – 2t)
es la Función Generadora de Momentos de una Variable Ji –Cuadrado, 2(1), con un grado de libertad.
556
Relación entre la variable aleatoria Normal Estándar y una Ji-Cuadrado …viene
• Este
último resultado dice que si Z es Normal Estándar Y = u(z) = Z2 tiene Distribución Ji –Cuadrado con un grado de libertad; en síntesis: • Z
•
~ N(0,1) Z2 ~ 2(1)
Entonces es posible probar que si X 1, X2, …, Xn son variables aleatorias independientes e idénticamente distribuidas (iid) y X i 2(1), la variable Y = X 1 + X 2 + … + X n tiene distribución Ji –Cuadrado con n grados de libertad.