UNIVERSIDAD NACIONAL DE SAN AGUSTIN DE AREQUIPA Unidad de Posgrado de Administración
ESTADISTICA APLICADA A LA ADMINISTRACION
Dr. Armin Becerra Guzmán
UNSA
Dr. Armin Becerra Guzmán
1
ESTADISTICA PARA LA ADMINISTRACION
LA ESTADISTICA ES UNA DISCIPLINA CUANTICA QUE PERMITE OBSERVAR Y MANIPULAR DATOS PARA CONVETIR EN INFORMACIÓN EL MISMO QUE HA DE SERVIR PARA LA TOMA DE DECISIONES
DATOS
UNSA
INFORMACION
Dr. Armin Becerra Guzmán
TD 2
ALGUNAS APLICACIONES ESTADISTICAS EN LOS NEGOCIOS PRODUCCION Diseño de Procesos Control de Calidad Muestras de Adquisición MARKETING Investigación de Mercados Análisis de Gustos y Preferencias Busqueda de Mercados Meta FINANZAS Análisis de Rendimientos Análisis de Riesgos RECURSOS HUMANOS Selección de Personal Evaluación de Personal UNSA
Dr. Armin Becerra Guzmán
CALIDAD TOTAL
TD
3
CLASIFICACION DE LA ESTADISTICA ESTADISTICA DESCRIPTIVA
Es la recopilación, caracterización y presentación de un conjunto de datos con el fin de describir varias de sus características INFERENCIA ESTADISTICA
Son los métodos que hacen posible la estimación de una característica de una población, o la toma de decisión con respecto a una población basada solo en resultados muestrales UNSA
Dr. Armin Becerra Guzmán
4
DATOS
CONSTANTES
VARIABLES
CUANTITATIVAS
CUALITATIVAS
DISCRETAS UNSA
Dr. Armin Becerra Guzmán
CONTINUAS 5
¿Qué se puede hacer con los datos? Identificar características de interés para la gestión.
Organizarlos en tablas, gráficos y figuras Calcular promedios (media, mediana, moda y percentiles) . Calcular su dispersión (varianza, desviación estándar ) y forma de la curva.
Recolección de datos
Determinar una ecuación que represente la relación entre ellos (regresión) Determinar el grado de asociación entre ellos (correlación).
Utilizar datos para mejorar la calidad UNSA
Analizarlos dentro de un horizonte temporal (series cronológicas) Dr. Armin Becerra Guzmán
6
GRAFICOS ESTADISTICOS
GRAFICOS ESTADISTICOS 1. 2. 3. 4. 5.
UNSA
Gráfico de barras Gráfico de columnas Gráfico circular Gráfico lineal Gráfico de dispersión
Dr. Armin Becerra Guzmán
8
GRAFICOS ESTADISTICOS Los gráficos constituyen una forma muy efectiva de presentar información. Su utilización ayuda a una mejor comprensión.
Todo gráfico tiene tres partes: El título: específico, pero completo. El cuerpo: es el gráfico en si mismo. La fuente: especificar el origen de la información.
UNSA
Dr. Armin Becerra Guzmán
9
El Histograma Son barras verticales presentadas una a continuación de otra. Permite presentar datos cuantitativos continuos. Es un gráfico muy utilizado. Propiedades: El ancho de cada columna es igual en todo el gráfico y representa la amplitud de clase).
2. La altura está en función a la frecuencia de la clase. UNSA
Dr. Armin Becerra Guzmán
10
Ejemplo CLASE
Xi
fi
128,6 - 135,4
132,0
2
135,5 - 142,3
138,9
7
142,4 - 149,2
145,8
10
149,3 - 156,1
152,7
8
156,2 - 163,0
159,6
3
TOTAL
Distribución de frecuencias
30
12
Histograma
Frecuencia
10 8 6 4 2 0 132.0 138.9 145.8 152.7 159.6
Marca de Clase
UNSA
Dr. Armin Becerra Guzmán
11
Ejemplo Gráfico 4: Peso de 100 Sacos de Arroz (en Kg.) Número de Sacos
25 20 15 10 5 0 29.5
39.5
49.5
59.5
69.5
79.5
89.5
99.5Peso
(Kgs) UNSA
Dr. Armin Becerra Guzmán
12
¿Cómo leer histogramas? A) Tipo general: El valor medio está al centro, que tiene la mayor frecuencia. Es el más frecuente tiene forma simétrica.
B) Tipo multimodal: Hay valores “mayores”.
UNSA
Dr. Armin Becerra Guzmán
varios
13
C) Tipo sesgo positivo: Forma asimétrica la media está localizada a la izquierda.
D) Tipo precipicio a la izquierda: Forma asimétrica la frecuencia disminuye bruscamente a la izquierda.
UNSA
Dr. Armin Becerra Guzmán
14
E) Tipo planicie: Las clases tienen más o menos la misma frecuencia.
F) Tipo bimodal: Se observa claramente dos valores máximos.
G) Tipo pico aislado: Presenta un pico aislado, además de un histograma general. UNSA
Dr. Armin Becerra Guzmán
15
El Diagrama de Barras Se utiliza para representar datos cuantitativos discretos o datos cualitativos. Las barras son de igual ancho. La longitud es proporcional a la frecuencia de la categoría. El espacio entre barras debe ser homogéneo, para evitar efecto visual.
UNSA
Dr. Armin Becerra Guzmán
16
Ejemplo: Gráfico 2: Número de hijos en edad escolar por Trabajador Nº de 30 Trabajadores 25 20 15 10 5 0 0
UNSA
1
2
3
Dr. Armin Becerra Guzmán
4
5
Número de hijos (escolares) 17
Ejemplo Gráfico 3: Pacientes atendidos en una Clínica
20 15 10 5 0 Nefrología
UNSA
Ginecología
Oftalmología
Neurología
Dr. Armin Becerra Guzmán
Traumatología
18
Ejemplo Gráfico 4: Profesionales de la Empresa FENIX por especialidad
Especialidad
Derecho Administración Contabilidad Economía Otros
Nº de profesionales
0
UNSA
10
20
30
40
50
60
Dr. Armin Becerra Guzmán
70
80
90
100
19
El Polígono de Frecuencias Es otra forma de conocer las distribución de los datos. Se construye uniendo los punto medios del lado superior de las barras del histograma. 25 20 15 10 5 0 29.5 UNSA
39.5
49.5
59.5
69.5
Dr. Armin Becerra Guzmán
79.5
89.5
99.5 20
Gráfico N° 5: Distribución de tardanzas por trabajador en una semana Número de Trabajadores
Tardanza (Minutos)
UNSA
Dr. Armin Becerra Guzmán
21
Diagrama de dispersión de puntos Gráfico 6: Ventas mensuales de Automóviles
Ejemplo: 400 350 Meses Enero
Nº AUTOS 120
300 250
Febrero
210
Marzo
180
Abril
320
150
Mayo
280
100
Junio
200
Julio
350
200
50 0 0
UNSA
Enero Febrero Marzo 2
Dr. Armin Becerra Guzmán
Abril 4
Mayo
Junio 6
Julio
8
22
Diagrama Lineal Ejemplo
Gráfico 7: Ventas mensuales de Automóviles 400 350 300 250 200 150 100 50 0 Enero Febrero Marzo
UNSA
Abril
Mayo
Dr. Armin Becerra Guzmán
Junio
Julio
23
Las Ojivas La frecuencia acumulada son las frecuencias que se van acumulando en cada categoría, desde la más baja hasta la mas alta. Las ojivas, relaciona las puntuaciones con sus respectivas frecuencias acumuladas. DISTRIBUCION DE FRECUENCIAS ACUMULADAS 120 FRECUENCIA
100 80 60 40 20 0 14,5
24,5 34,5
44,5
54,5 64,5
74,5 84,5
89,5
MINUTOS UNSA
Dr. Armin Becerra Guzmán
24
El Diagrama Circular El circulo se divide en segmentos circulares, de tamaño proporcional
a la frecuencia de la categoría.
Ejemplo:
Gráfico 9. Clientes atendidos en Oficina Central 1er trim. 2do trim. 3er trim. 4to trim.
UNSA
Dr. Armin Becerra Guzmán
25
Diagrama radar Útil para visualizar, por ejemplo, el cumplimiento de metas (%) de los vendedores por zonas
Ejemplo: 100 80 60 40 20 0
UNSA
Dr. Armin Becerra Guzmán
Este Oeste Norte Sur
26
Superficie en tres dimensiones Ejemplo: Metas de ventas alcanzadas en la Zona Sur
100 50 4to trim. 0
3er trim. 3er trim. 4to trim.
UNSA
Dr. Armin Becerra Guzmán
27
RECOLECCION DE DATOS
POBLACION Y MUESTRA POBLACION Totalidad de Elementos o Variables
Parámetros
N
medidas n
MUESTRA Parte de los Elementos o Variables UNSA
Dr. Armin Becerra Guzmán
Estadígrafos 29
TIPOS DE DATOS (Variables) Sí Categóricas
No
Discretas
1, 2, 3, 4...
Numéricas Contínuas
UNSA
Dr. Armin Becerra Guzmán
De 100 a 200
30
RECOLECCIÓN DE DATOS Los datos no se recopilan como un fin en sí mismos, sino como un medio para describir los hechos que están tras los datos
UNSA
Dr. Armin Becerra Guzmán
31
¿Cómo se recopilan datos? Las buenas decisiones se basan en un adecuado registro de datos, para lo cual se debe:
A.
UNSA
ESTABLECER OBJETIVOS CLAROS En control de la calidad, los objetivos son: a) Control del proceso de producción b) Análisis de lo que no se ajusta a las normas o estándares. c) Inspección o auditoria. Permite determinar qué tipo de datos se requiere.
Dr. Armin Becerra Guzmán
32
B. DETERMINAR EL TIPO DE DATO
a) Datos para el control: se toman periódicamente para conocer la variación diaria dentro de un proceso; es decir, para verificar su estado de control (estabilidad). Ejemplo: Número de unidades producidas en un mes
UNSA
Dr. Armin Becerra Guzmán
33
b) Datos para el análisis: se registran para conocer la situación actual de nuestro proceso. Ejemplo: la proporción de unidades con fallas producidas mensualmente c) Dato para la inspección: se recopilan al recibir o entregar un material. Son datos que sirven para verificar si el producto cumple con las especificaciones. Ejemplo: fecha de expiración de un lote de productos, antes de su ingreso a almacén.
UNSA
Dr. Armin Becerra Guzmán
34
C.
CONSIDERAR LA CONFIABILIDAD DE LOS REGISTROS
Tener en cuenta la adecuada calibración de los instrumentos de medición y la variabilidad en inspecciones visuales.
UNSA
Dr. Armin Becerra Guzmán
35
D. SELECCIONAR FORMAS APROPIADAS DE RECOLECTAR DATOS.
I. Se debe registrar adecuadamente el origen de datos (el día, la hora, quiénes fueron los responsables, qué lote se uso, entre otros).
II. Los datos deben registrarse de manera que facilite su utilización (hojas de registro).
UNSA
Dr. Armin Becerra Guzmán
36
Escalas de medición ESCALA NOMINAL:
Los valores son nominativos, sirven para designar. Sólo se puede realizar un conteo (frecuencias). No es factible las operaciones aritméticas. Se analizan a través de la comparación: igualdad y no igualdad ( = y ). Ejemplo Sexo del paciente 1: Masculino 2: Femenino Grupo sanguíneo A B AB O Servicio médico 1: Emergencia 2: Ginecología 3: Traumatología 4: Pediatría UNSA
Dr. Armin Becerra Guzmán
37
ESCALA ORDINAL:
Los valores representan un orden. No son cuantitativos, sólo simbolizan una posición. Se analizan a través de la desigualdad :mayor que o menor que (> y <). Ejemplo: Calificación : Lugar (orden) : Color : UNSA
A,B,C,D A>B 1º , 2º , 3º 1º > 2º leve, moderado, intenso Dr. Armin Becerra Guzmán
38
ESCALA DE INTERVALOS:
Se utilizan números cardinales. El cero es relativo o diferencial, es decir no indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas.(+ y -). Es una escala creada por el hombre. Ejemplo: Hora 00:00 Temperatura ambiental 15 ºC El año en que vivimos 2014 UNSA
Dr. Armin Becerra Guzmán
39
ESCALA DE RAZÓN:
Se utilizan números cardinales. Tienen unidad de medida (cms, pulgadas). El cero es absoluto, indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas (+,-,x ,), Ejemplo: Pacientes no atendidos hoy : 0 Nº de hijos en edad escolar : 3 Procesos deficientes : 12 UNSA
Dr. Armin Becerra Guzmán
40
Fuentes de Datos A) FUENTES SECUNDARIAS
Datos recolectados anteriormente para alcanzar otros objetivos. Constituye la primera fuente que se debe analizar. La técnica más utilizada son las fichas. Ejemplo: Datos publicados (en papel o en forma electrónica) en revistas especializadas, tesis, censos y en las hojas de registro anteriores.
UNSA
Dr. Armin Becerra Guzmán
41
La calidad de los datos debe ser comprobada: ¿De donde provienen los datos? ¿La fuente es imparcial? ¿Los datos comprueban o contradicen otras evidencias que se disponen?
¿Hace falta una evidencia conduzca a otra conclusión?
cuya
ausencia
¿Cuantas observaciones se tienen?
¿La conclusión que obtengo es lógica?
UNSA
Dr. Armin Becerra Guzmán
42
Los principales organismos que disponen de publicaciones son: 1. 2. 3. 4. 5.
UNSA
Instituto Nacional de Estadística e Informática (INEI) Organización Internacional del Trabajo (OIT) Organización Mundial de la Salud (OMS) Banco Central de Reserva (BCR) Superintendencia de Banca y Seguros (SBS)
Dr. Armin Becerra Guzmán
43
B) FUENTES PRIMARIAS
1. Constituyen datos recolectados para el trabajo. Son datos que no existían antes. 2. Se registran bajo dos métodos: directo e indirecto
UNSA
Dr. Armin Becerra Guzmán
44
METODOS Y TECNICAS DE RECOLECCION DE DATOS
FUENTE METODOS TECNICAS SECUNDARIA FICHAS DIRECTO OBSERVACION PRIMARIA EXPERIMENTACION INDIRECTO ENCUESTA ENTREVISTA
UNSA
Dr. Armin Becerra Guzmán
45
¿Cómo seleccionar la fuente, el método y la técnica? No toda la información requerida será recopilada de una sola fuente, ni usando un mismo método y técnica. Casi siempre es una combinación de ellos, para lo cual hay que: 1. Definir características que interesan registrar.
2. Identificar la fuente de información apropiada para cada característica. 3. Seleccionar la técnica más conveniente.
UNSA
Dr. Armin Becerra Guzmán
46
Ejemplo :
En un estudio de investigación de mercados para gaseosas, interesa conocer ciertas características, CARACTERISTICA Frecuencia de Consumo
FUENTE Secundaria
Nivel socio-económico de la familia
Primaria
Encuesta
Sabores
Primaria
Entrevista
UNSA
Dr. Armin Becerra Guzmán
TECNICA Fichas
47
El Cuestionario Consiste en un conjunto de preguntas diseñadas de acuerdo a la necesidad de información. Junto con las hojas de registro, es la técnica más común para la recopilación de datos de fuentes primarias.
UNSA
Dr. Armin Becerra Guzmán
48
Recomendaciones para su elaboración 1. Las preguntas deben ser coherentes con el objetivo de la investigación. No hay preguntas de carácter general. 2. La extensión (número de preguntas) depende de la necesidad de información a recolectar por esta técnica. 3. El lenguaje utilizado en la redacción de preguntas debe ser entendible por los encuestados. Es diferente al lenguaje a usarse en el informe final UNSA
Dr. Armin Becerra Guzmán
49
Preguntas cerradas y abiertas Preguntas cerradas 1. Las posibles respuestas se presentan como alternativas. 2. Facilita la codificación y operatividad de los datos. Ejemplo : ¿Posee Ud. un vehículo particular? Si 1 No 2 UNSA
Dr. Armin Becerra Guzmán
50
Preguntas abiertas
1. Los encuestados tienen libertad para emitir su opinión. 2. Se utilizan cuando no se tiene precisión sobre las posibles respuestas. 3. Dificulta la recolección de datos (incomoda al encuestado). 4. Dificulta la interpretación de datos. Ejemplo: ¿ Qué opinión tiene sobre la política del actual Gobierno ? UNSA
Dr. Armin Becerra Guzmán
51
La elaboración de datos: el control de calidad Una vez que se han recolectado los datos referidos a las diferentes variables necesarias para la investigación, se debe proceder a revisarla y presentarla de manera que facilite su análisis. A este proceso se denomina elaboración de datos. Las etapas que abarca son: edición, tabulación y codificación. UNSA
Dr. Armin Becerra Guzmán
52
A. La edición: Se revisan los formularios (cuestionario y fichas de observación) para verificar si todas las preguntas han sido respondidas en todos los ellos. Se debe verificar incongruencias en de las respuestas. a. Reencuestar: Si no se respondieron todas las preguntas y es posible identificar al encuestado (por ejemplo, se tiene su dirección), se podría regresar y formular aquellas preguntas que se obviaron. UNSA
Dr. Armin Becerra Guzmán
53
b. Anular la pregunta: Si una pregunta es dejada de contestar en muchos cuestionarios, sería recomendable anular esa pregunta y buscar la forma de conseguir el dato por otra fuente. Probablemente, la pregunta fue mal formulada. c. Anular el formulario: Si una encuesta o la ficha de observación tiene demasiadas preguntas en blanco, se anulará todo el cuestionario. Es posible que no se contara con la colaboración apropiada del encuestado o tal vez no se aplicó correctamente. UNSA
Dr. Armin Becerra Guzmán
54
B. La tabulación: Consiste en etiquetar o titular con pocas palabras, las respuestas a preguntas abiertas. Para homogenizar el criterio, es recomendable que una persona se encargue de este proceso. Si fueran muchos formularios y varias preguntas abiertas, podrían ser varias personas que tabulen, pero necesariamente solo una persona por pregunta. C. La codificación: Consiste en colocar un código a las respuestas, a fin de poder construir una base de datos. UNSA
Dr. Armin Becerra Guzmán
55
Las hojas de registro (o check list) Son formatos preimpresos que facilitan el registro y la organización de cualquier tipo de datos. Puede ser: 1. Para registro: Se anota sistemáticamente la información. Ejemplo: Tarjeta de Registro de Asistencia del personal que labora en una Empresa 2. Para verificación: Se anota información en determinado tiempo, que debe cotejarse con la realidad. Ejemplo: Registro de reclamos no atendidas por semana.
UNSA
Dr. Armin Becerra Guzmán
56
EJEMPLO DE DATOS (Variables) Datos Originales MESES
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
VENTAS (Unid)
52
42
45
54
47
45
51
45
40
46
54
53
X5 45
X6 46
X7 47
X8 51
X9 52
X10 53
X11 54
X12 54
Agosto Septiembre Octubre Noviembre Diciembre
Datos Ordenados MESES VENTAS (Unid)
UNSA
X1 40
X2 42
X3 45
X4 45
Dr. Armin Becerra Guzmán
57
Ejercicio Aplicativo El Director de Personal de la Empresa “Ramses” desea estimar la tardanza mensual promedio del personal que labora en esta empresa. Con este fin elige al azar la Tarjeta de Control de Asistencia del último mes de 10 trabajadores. En uno de las tarjetas seleccionadas se registró 140 minutos de tardanza.
Identificar:
UNSA
Dr. Armin Becerra Guzmán
58
Identificar: La característica
:
Tiempo de tardanza mensual
La unidad elemental : (o unidad de análisis) El marco poblacional:
Un trabajador de la empresa
La población
:
Registro de tiempo de tardanza mensual de todo el personal que labora en esta empresa
El marco muestral
:
UNSA
Todo el personal que labora en esa empresa
Diez trabajadores Dr. Armin Becerra Guzmán
59
La muestra
:
Registro del tiempo de tardanza de cada uno de los trabajadores seleccionado
Tipo de dato
:
Variable cuantitativa continua
Un dato registrado :
140
La unidad de medida:
minutos
El estimador
:
El tiempo medio de tardanza de los 10 x trabajadores:
El parámetro
:
El tiempo medio de tardanza de todos los trabajadores de la empresa (µ)
UNSA
Dr. Armin Becerra Guzmán
60
MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central 1. En general se denominan promedios. 2. Los más importantes son la media, la mediana y la moda. Aritmética Media Geométrica Medidas de Mediana Armónica tendencia central Moda
3. También es útil conocer los Cuartiles (o fractiles).
UNSA
Dr. Armin Becerra Guzmán
62
¿POR QUÉ SON IMPORTANTES MEDIDAS DE TENDENCIA CENTRAL?
LAS
Porque la mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un dato central. Las medidas de tendencia central son puntos en una distribución, los valores medios o centrales de ésta y nos ayudan a ubicarla dentro de la escala de medición.
UNSA
Dr. Armin Becerra Guzmán
63
La Media (A) La media aritmética ( x ) a) Obtención: Se obtiene sumando los valores registrados y dividiéndolos entre el número de datos. Ejemplo: La siguiente tabla muestra el número de reclamos y quejas presentadas por los clientes en un autoservicio a lo largo de una semana. Calcule e interprete la media.
Día/Semana Reclamos/día UNSA
Lun Mar Mier Jue Vier Sab 8 10 5 12 10 15 Dr. Armin Becerra Guzmán
64
8 10 5 12 10 15 60 Media aritmética = 6 6
x = 10 reclamos
b) Interpretación: Si elige al azar un día de la semana, se espera que los clientes realicen 10 reclamos en ese día.
c) Simbología: Tamaño Muestra n Población N UNSA
Media aritmética x (equis barra) (mu)
Dr. Armin Becerra Guzmán
65
La Media Aritmética Ponderada Ejemplo: Una empresa comercializadora de Seguros dispone de 3 representantes para la zona de Umacollo, cada uno de los cuales cobra diferente comisión por póliza vendida, y realiza diferente número de contratos. Calcule e interprete el valor medio de la comisión
Vendedor
Nº de polizas de Seguro
wi Pedro Juan Pablo UNSA
30 25 20 Dr. Armin Becerra Guzmán
Comisión por venta $ Xi 30 40 50 66
30(30) 25(40) 20(50) 2900 xp $38.67 30 25 20 75 Interpretación: Si se elige al azar un representante se espera que cobre una comisión de $38.67 por póliza vendida.
UNSA
Dr. Armin Becerra Guzmán
67
(B) La media geométrica ( xg ) Se utiliza para calcular tasas medias de variación, como la tasa media de crecimiento poblacional, la tasa media de inflación mensual, la tasa media de mortalidad, entre otros.
a) Obtención Se obtiene extrayendo la raíz enésima del producto de los n valores de una serie.
xg n X1 X 2 X3 ......... X n UNSA
Dr. Armin Becerra Guzmán
68
Ejemplo: La siguiente tabla muestra la tasa de aumento en las quejas durante los últimos meses. Calcule e interprete la tasa media mensual. Meses Aumento de quejas
Enero
Febrero
Marzo
Abril
Mayo
2.6%
5.4%
3.8%
0.5%
1.4%
La tasa 2,6% también se puede expresar como 0,026 , y puesto que se refiere a un aumento a partir de una base de 100%, el factor de variación será 1,026. Para los otros datos se opera igual. UNSA
Dr. Armin Becerra Guzmán
69
b) Cálculos
Por lo tanto, la media geométrica se calcula: x g n x1, x 2, x 3,...... x
x g 5 (1.026) (1.054) (1.038) (1.005)(1.014) x g 5 1.143903377 x g 1,0272540 (Factor de crecimiento medio) Tasa media = (x g 1) 100 de variación UNSA
Dr. Armin Becerra Guzmán
70
= (1,0272540 - 1) x 100 = 2,72% c) Interpretación Si se selecciona al azar un mes entre enero y mayo, se espera que las ventas se hayan incrementado 2.72% con respecto al mes anterior.
UNSA
Dr. Armin Becerra Guzmán
71
(C) La media armónica (xh ) Se utiliza para calcular el tiempo medio, velocidad y aceleración media, como por ejemplo, el tiempo medio para producir una unidad de producto.
a) Obtención: se obtiene calculando el inverso de media aritmética de los inversos de una serie.
xh
la
1 n
1 X i 1
i
n UNSA
Dr. Armin Becerra Guzmán
72
Ejemplo: Los siguientes datos registran el tiempo que utilizan cuatro obreros al producir un artículo. Calcule e interprete el tiempo medio. Médico Tiempo (minutos)
A
B
C
D
45
38
52
40
Conocer el tiempo medio permite contar con una herramienta útil en la planeación de los recursos. Además de poder comparar nuestro desempeño con los estándares de calidad internacionales. UNSA
Dr. Armin Becerra Guzmán
73
xh
4 1 1 1 1 45 38 52 40
4 1976 2340 1710 2223 88920
4 88920 xh 43.117953 minutos 8249
xh 43 minutos
7 segundos
b) Interpretación: Si se selecciona al azar a uno de los cuatro obreros, se espera que realice un artículo en 43 minutos aproximadamente. UNSA
Dr. Armin Becerra Guzmán
74
La Mediana Es la medida que divide en dos subconjuntos iguales a datos, de tal manera que 50% de los datos es menor a la mediana y el otro 50% es mayor a la mediana. a) Obtención: Se obtiene ordenando la serie de datos (en forma ascendente o descendente) y ubicando el dato central.
UNSA
Dr. Armin Becerra Guzmán
75
Ejemplo: Los siguientes datos se refieren al número de participantes que llegaron tarde a una selección de personal, después de la hora programada durante los últimos 11 días de reclutamiento. Calcule e interprete la mediana. 12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16 Primero se ordenan lo datos: 5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17 5 datos menores
5 datos mayores
mediana UNSA
Dr. Armin Becerra Guzmán
76
b) Interpretación: Durante 5 días llegaron menos de 11 participantes tarde a su cita y durante 5 días, más de 11 participantes llegaron tarde a su cita. c) Reglas 1º Si la serie es impar, la mediana ocupa el lugar central de la serie previamente ordenada.
Ejemplo:
UNSA
5, 10, 10, 12, 15 , 17, 20, 21, 24
Dr. Armin Becerra Guzmán
77
2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada.
Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34
18 23 mediana 20.5 2 3º Sea la serie par o impar, la mediana ocupa el lugar ,de la serie previamente ordenada. n 1 2 UNSA
Dr. Armin Becerra Guzmán
78
d) Cálculo a partir de datos agrupados. n 1 F 1 2 Md Li c f Md
donde: Md : mediana L i : limite real (o frontera) inferior de la clase mediana. n : número total de datos. F : suma de todas las frecuencias hasta, pero sin incluir, la clase mediana. f Md : frecuencia de la clase mediana c : amplitud de clase UNSA
Dr. Armin Becerra Guzmán
79
Ejemplo: La tabla siguiente muestra la experiencia laboral (años) del personal de seguridad que labora en una empresa. Calcule e interprete la mediana.
Lugar de la mediana: n 1 69 1 35o 2 2
Experiencia Número de laboral trabajadores (años) de seguridad 0-3 4 4-7 12
69 1 (16) 4 Md 7,5 2 24
Clase 8 - 11
24
12 - 15 16 - 19 20 - 23
16 10 3 69
Mediana
7 ,5
35 16 4 24
Mediana = 10,5 años UNSA
Dr. Armin Becerra Guzmán
80
Interpretación: La mitad del personal de seguridad que labora en esta empresa tienen una experiencia laboral igual o menor a 10 años 6 meses. La otra mitad de este personal tiene una experiencia laboral igual o mayor a 10 años y 6 meses.
UNSA
Dr. Armin Becerra Guzmán
81
La Moda La moda es el valor que más se repite dentro de un conjunto de datos. a) Obtención: se obtiene organizando la serie de datos y seleccionando el o los datos que más se repiten.
Ejemplo: 4, 5, 7, 8, 8 , 10, 12, 15 4, 7, 12,12 , 15, 16, 20, 20 , 24, 27 7, 12, 15, 18, 25, 30, 31, 38 UNSA
Dr. Armin Becerra Guzmán
82
b) Cálculo a partir de datos agrupados
1 Mo L c i 1 2
donde: Mo: moda L : limite real (o frontera) inferior de la clase i modal (la de mayor frecuencia) : frecuencia de la clase modal menos la 1 frecuencia de la clase anterior : frecuencia de la clase modal menos la 2 frecuencia de la clase siguiente c : amplitud de clase UNSA
Dr. Armin Becerra Guzmán
83
Las clases mediana y modal pueden coincidir pero conceptualmente son diferentes. Ejemplo: La tabla siguiente muestra los errores de facturación durante un mes, en una Tienda. Calcule e interprete la moda. Errores de facturación 0-3
Días 6
6
4-7
12
Clase Modal
8 - 11
8
4
12 - 15
3
16 - 19
1
Total
30
1
2
Clase moda : (4 - 7) 6 Mo 3.5 4 64
Mo = 5,9
Interpretación: Durante un mes, el número más frecuente de errores de facturación en esta tienda es 6. UNSA
Dr. Armin Becerra Guzmán
84
Cuartiles n 1 Q1 4 Q2
2( n 1) 4
3( n 1) Q3 4 UNSA
Dr. Armin Becerra Guzmán
85
MEDIDAS DE VARIACION
MEDIDAS DE VARIACION
Varianza n
POBLACION
2
2 ( X ) i i 1
N n
MUESTRA
UNSA
S2
___
2 ( X X ) i i 1
Dr. Armin Becerra Guzmán
n -1
87
MEDIDAS DE VARIACION
Desviación Estandar n
POBLACION
2 ( X ) i
i 1
N n
MUESTRA
UNSA
S
___
2 ( X X ) i i 1
Dr. Armin Becerra Guzmán
n -1
88
MEDIDAS DE VARIACION Uso de la Desviación Estandar para datos normalizados
UNSA
Dr. Armin Becerra Guzmán
89
MEDIDAS DE VARIACION
Coeficiente de Variación POBLACION
MUESTRA
UNSA
CV CV
S ___
X Dr. Armin Becerra Guzmán
90
FORMA DE DISTRIBUCION SESGO A LA IZQUIERDA Media < Mediana < Moda
SESGO CERO Media = Mediana = Moda
SESGO A LA DERECHA Media > Mediana > Moda
UNSA
Dr. Armin Becerra Guzmán
91
DATOS Número de Minutos que ocupan sus asientos 100 clientes en una cafetería 29 51 73 31 15 51 47 82 46 72
UNSA
67 37 48 58 31 31 41 45 40 35
34 45 63 35 34 56 34 26 41 62
39 26 37 82 56 43 47 35 56 28
23 41 19 28 45 39 30 67 37 38
66 55 31 35 27 35 54 73 51 61
Dr. Armin Becerra Guzmán
24 27 38 44 54 23 49 30 33 33
37 96 68 40 46 28 34 16 92 49
45 22 22 41 62 45 53 52 70 59
58 43 35 34 29 48 61 35 63 36
92
Distribucion de Frecuencias
Intérvalo de Clase
Ancho de Intérvalo
Rango Número de Clases Deseado
Ancho de Intérvalo
96 - 15 9 9
TABLA DE DISTRIBUCION DE FRECUENCIAS Tiempo de Ocupación (minutos) 10 19 20 29 30 39 40 49 50 59 60 69 70 79 80 89 90 99
UNSA
Tabulación III IIIII IIIII IIIII IIIII IIIII IIII II II
IIIII IIIII IIIII IIIII IIIII
IIII IIIII IIIII IIII IIIII IIIII II IIII
Frecuencia f 3 14 29 22 14 10 4 2 2 100
Dr. Armin Becerra Guzmán
Frecuencia Acumulada 3 17 46 68 82 92 96 98 100
93
MEDIDAS DE VARIACION PARA DATOS AGRUPADOS n
S
(X i 1
i
X )2 fi
n -1
n
S
___
n
n ( X i f i ) ( X i f i ) 2 2
i 1
i 1
n(n - 1) Una Aproximación
Donde: Xi es la Marca de Clase UNSA
Dr. Armin Becerra Guzmán
94
Distribucion de Frecuencias y Marcas de Clase TABLA DE DISTRIBUCION DE FRECUENCIAS Tiempo de Ocupación (minutos) 10 19 20 29 30 39 40 49 50 59 60 69 70 79 80 89 90 99
UNSA
Marca de Clase (X) 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 89.5
Frecuencia (f) 3 14 29 22 14 10 4 2 2 100
Dr. Armin Becerra Guzmán
X.f
(X - X)2f
43.5 343 1000.5 979 763 645 298 169 179 4420
2646.27 5433.26 2728.61 1.98 1485.26 4120.9 3672.36 3248.18 4104.18 27441.0
95
Histograma de Frecuencias y Marcas de Clase DISTRIBUCION DE FRECUENCIAS 35
FRECUENCIA
30 25 20 15 10 5 0 14,5
24,5
34,5
44,5
54,5
64,5
74,5
84,5
89,5
MINUTOS
UNSA
Dr. Armin Becerra Guzmán
96
Polígono de Frecuencias POLIGONO DE FRECUENCIAS 35 FRECUENCIA
30 25 20 15 10 5 0 14,5
24,5
34,5
44,5
54,5
64,5
74,5
84,5
89,5
MINUTOS
UNSA
Dr. Armin Becerra Guzmán
97
Polígono de Frecuencias Acumuladas (Ojiva) DISTRIBUCION DE FRECUENCIAS ACUMULADAS 120
FRECUENCIA
100 80 60 40 20 0 14,5
24,5 34,5
44,5
54,5 64,5
74,5 84,5
89,5
MINUTOS
UNSA
Dr. Armin Becerra Guzmán
98
Histograma y Normalización de Datos Minutos 20
Frequency
10
Std. Dev = 16,40 Mean = 44,4 N = 100,00
0 15,0
25,0
20,0
35,0
30,0
45,0
40,0
55,0
50,0
65,0
60,0
75,0
70,0
85,0
80,0
95,0
90,0
Minutos UNSA
Dr. Armin Becerra Guzmán
99
Analisis de Datos con El SPSS (Gráfico de Desviaciones) Detrended Normal Q-Q Plot of Minutos 1,0
,8
,6
,4
Dev from Normal
,2
0,0
-,2 -,4 0
20
40
60
80
100
Observed Value
UNSA
Dr. Armin Becerra Guzmán
100
Analisis de Datos con El SPSS (Desviación de la Normal) Normal Q-Q Plot of Minutos 3
2
1
Expected Normal
0
-1
-2
-3 0
20
40
60
80
100
Observed Value UNSA
Dr. Armin Becerra Guzmán
101
Analisis de Datos con El SPSS (Cajas y Bigotes)
79 72
Minutos
0
UNSA
20
40
60
80
Dr. Armin Becerra Guzmán
100
120
102
Los Percentiles Son los valores que dividen en 100 partes iguales a un conjunto de datos a) Cálculo: para datos agrupados.
Kn F 1 100 i P L c K i f P K
UNSA
Dr. Armin Becerra Guzmán
103
donde:
P : percentil K
K : el percentil buscado
n
: número de datos
Fi : frecuencia acumulativa hasta la clase f
anterior a la clase donde se ubica el percentil K
P : frecuencia absoluta de la clase donde se ubica K
el percentil K
c : amplitud de clase
UNSA
Dr. Armin Becerra Guzmán
104
Ejemplo: La tabla muestra la experiencia (en años) de los trabajadores de una empresa
Experiencia Trabajadores (años)
0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27 Total UNSA
18 42 68 120 40 34 12 334
Dr. Armin Becerra Guzmán
105
¿Sobre qué edad se ubica el 25% de los trabajadores de mayor experiencia?
75 %
25 %
P75
Menor Experiencia
Mayor Experiencia
K = 75
Lugar del P75
Kn 75(334) 250,5o (de los números ordenados) 100 100
Para saber en cuál clase se halla este dato, se calculó la frecuencia acumulativa. UNSA
Dr. Armin Becerra Guzmán
106
Experiencia (años) 0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27
Nº Trabajadores fi
Frec. Acumulada Fi
18 42 68 120 40 34 12 334
18 60 128 248 288 322 334
75(334) 248 1 100 P 15.5 4 75 40
F=248 En esta clase se localizan del 249º - 288º
P 15.65 años 75
Interpretación: Para que un trabajador esté comprendido dentro del 25% de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24 días. UNSA
Dr. Armin Becerra Guzmán
107
ESTADISTICA INFERENCIAL PROBABILIDADES
Importancia de las Probabilidades Las probabilidades están presentes en nuestras vidas más a menudo de que podríamos sospechar. Todos tenemos una gran intuición probabilística. Por ejemplo, en días lluviosos, fríos y con mucha humedad es alta la probabilidad de coger un resfrío. Si ingerimos alimentos en lugares poco higiénicos, en ambulantes es muy probable que contraigamos una infección estomacal.
UNSA
Dr. Armin Becerra Guzmán
109
¿Cómo es la probabilidad de ganar el premio mayor en Tinka?. Muy baja, pues hay muchas alternativas en juego. Pero aún sabiendo esto, compramos uno que otro número. La decisión es racional. Si escuchamos una predicción de 80% que llueve, y Ud. tiene planeado un paseo al campo con la familia. ¿Qué hace?. Lo mas racional es que cancele su paseo y se quede en su casa viendo un video.
UNSA
Dr. Armin Becerra Guzmán
110
ESTADISTICA INFERENCIAL
Probabilidades P(A)
a ab
a P(A) n P(A)
UNSA
Eventos Favorables Total de Eventos
Dr. Armin Becerra Guzmán
111
Conceptos básicos (A) Experimento: Ejecución voluntaria de un fenómeno. Se caracteriza por: a) Tener varios resultados posibles b) Existir incertidumbre sobre el resultado Ejemplos: Lanzar una moneda Seleccionar un lote de artefactos Extraer una muestra de pintura para el control de calidad
UNSA
Dr. Armin Becerra Guzmán
112
(B) Espacio Muestral: conjunto de todos los resultados posibles de un experimento. Se simboliza por (omega). Ejemplos: Lanzar una moneda = {cara, sello}
Seleccionar un lote de artefactos = {defectuoso, no defectuoso}
UNSA
Dr. Armin Becerra Guzmán
113
Ejemplo: Se lanzan tres monedas simultáneamente. Los ochos resultados posibles de este experimento pueden detallarse de manera conveniente mediante un diagrama de árbol: Primera Moneda
Segunda Moneda
Tercera Moneda
Resultado Posible
C S C S C S C S
CCC C CCS CSC S CSS C SCC S SCS S SSC SSS ={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
C
UNSA
Dr. Armin Becerra Guzmán
114
(C) Suceso o Evento: subconjunto del espacio muestral, seleccionado de acuerdo a una condición. Se representan por letras latinas mayúsculas. Ejemplo: Se lanzan dos dados. El espacio muestral de este experimento es: = { (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,5) (6,6) } UNSA Dr. Armin(6,4) Becerra Guzmán 115
Podemos considerar los siguientes sucesos: A: la suma de puntajes es 7, es decir A={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1)} B: la suma de puntajes es 11, es decir B={(5,6) (6,5)} C: la suma de puntajes es 7 u 11, es decir C={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (5,6) (6,5)} UNSA
Dr. Armin Becerra Guzmán
116
Probabilidad (A) Concepto: Ponderación asignada a cada punto muestral que mide la verosimilitud de su ocurrencia. (B) Principios para asignar probabilidad: a) La probabilidad de cada punto muestral debe estar entre 0 y 1 b) La suma de las probabilidades de todos los puntos muestrales deben ser iguales a 1. 0 0,5 1 Improbable UNSA
Tan probable como improbable Dr. Armin Becerra Guzmán
Probable
117
Ejemplos:
1. Se lanza una moneda ={cara, sello} P(cara) = 0,5
UNSA
P(sello) = 0,5
Dr. Armin Becerra Guzmán
118
2. Se lanzan 3 monedas = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 A: obtener exactamente 2 caras A = {CCS, CSC, SCC} 1/8 + 1/8 + 1/8 P(A) = 3/8
UNSA
Dr. Armin Becerra Guzmán
119
(C) Conclusiones: De acuerdo a la definición de probabilidad de un suceso, y a los dos principios, tenemos las siguientes conclusiones: (1º) P() = 1 (2º) P( ) = 0
(3º) P(A´) = 1 - P(A)
UNSA
Dr. Armin Becerra Guzmán
120
PROBABILIDADES - EJEMPLOS
1. Un investigador trabaja con un nuevo fármaco para insensibilizar a los pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180 presentaron una disminución en la gravedad de los síntomas tras sufrir una picadura, después de ser sometidos al tratamiento. 2. Un vendedor ha dejado muestras de su producto en 200 posibles compradores ¿Cuál es la probabilidad de que la campaña sea un éxito?.
UNSA
Dr. Armin Becerra Guzmán
121
PROBABILIDAD DEL PUNTO ESTADISTICO
... Quien emplea la estadística aplicada prefiere pensar en la probabilidad como el numero de veces en las que se presentará determinada situación si una experiencia fuera repetida indefinidamente en situaciones de naturaleza repetitiva o que pudiera concebirse de esa manera ...
UNSA
Dr. Armin Becerra Guzmán
122
Reglas de probabilidad Regla de la Adición
A
B
U
(A B)
U
P(AUB) = P(A) + P(B) - P (A B) UNSA
Dr. Armin Becerra Guzmán
123
Ejemplo: Un cliente ingresa a una tienda. La probabilidad de que compre (a) una gaseosa “X” es 0,60 (b) una gaseosa “Y” es 0,50, y c) una gaseosa “X” y una gaseosa “Y” es 0,30 ¿Cuál es la probabilidad de que compre una “X”, o una “Y” o ambos?. Datos P(PUL) = P(P) + P(L) - (P L) P(X) = 0,60 P(PUL) = 0,60 + 0,50 - 0,30 P(Y) = 0,50 P(PUL) = 0,80 P (P L) = 0,30 U
U
UNSA
Dr. Armin Becerra Guzmán
124
Regla de adición para sucesos mutuamente excluyentes Dos sucesos son mutuamente excluyentes, si no tienen elementos comunes
A
B
P(AUB) = P(A) + P(B)
Si : (A B) = Por lo tanto : P(A B) = 0
U U
UNSA
Dr. Armin Becerra Guzmán
125
Ejemplo: Se extrae una carta de una baraja. ¿Cuál es la probabilidad de que sea un as o un rey?
4 P(A) = 52 4 P(R) = 52
UNSA
P(AUR) = P(A) + P(R) 4 4 = 52 52 8 = 52
Dr. Armin Becerra Guzmán
126
Probabilidad Condicional Ejemplo 1: Se dispone de 11 Pases a un concierto, los cuales se entregarán a clientes y no clientes, agrupados en hombres y mujeres. Masculino
Femenino
(M)
(F)
Total
Cliente (A)
5
3
8
No Cliente (B)
1
2
3
6
5
11
Sexo TIPO
Total
a) ¿Cuál es la probabilidad de extraer un pase , este pertenece a un cliente?
UNSA
8 P(A) = 11 Dr. Armin Becerra Guzmán
127
b)¿Cuál es la probabilidad de extraer un pase correspondiente a un cliente y que sea mujer? 3 P(A F) = 11
c) Dado que el pase corresponde a un cliente, ¿cuál es la probabilidad que sea mujer? P(F
UNSA
3 ) = A 8
Dr. Armin Becerra Guzmán
128
Derivación de la fórmula: P(F
comprobando:
P(F A) )= A P(A)
P(F
3
) = 11 A 8 11
P(F UNSA
3 )= A 8
Dr. Armin Becerra Guzmán
129
Ejemplo 2 Se recolectó información sobre el peso del recién nacido y si la madre fumó o no durante el embarazo. Los datos se presentan a continuación: CONDICIÓN
UNSA
PESO R.N.
TOTAL
DE FUMADORA
BAJO
NORMAL
SI
30
10
40
NO
20
140
160
TOTAL
50
150
200
Dr. Armin Becerra Guzmán
130
A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso? 50 P(bajo) 0,25 200
B. ¿Cuál es la probabilidad que una gestante fume? 40 P(si) 0,20 200
C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal? 150 P(normal ) 0,75 200 UNSA
Dr. Armin Becerra Guzmán
131
D. ¿Cuál es la probabilidad de que un recién nacido tenga bajo peso o sea normal? Como son mutuamente excluyentes: P(bajoónorma l) P(bajo ) P(normal )
50 150 1 200 200
E. ¿Cuál es la probabilidad de que el recién nacido tenga bajo peso o la madre haya fumado durante el embarazo? P(bajoósi) P(bajo) P(si) P(bajoysi) UNSA
50 40 30 60 0,30 200 200 200 200
Dr. Armin Becerra Guzmán
132
Aplicación: La probabilidad de que el personal administrativo que labora en una empresa, llegue tarde el día lunes es 0,50 y la probabilidad de que llegue retrasado los días lunes y martes es 0,20. Dado que cierto trabajador llegó tarde el día lunes, ¿cuál es la probabilidad de que llegue tarde el día siguiente?. P(TL ) = 0,50
P(TL TM ) = 0,20 UNSA
P(TM
P(TM TL ) )= TL P(TL )
0,20 = = 0,40 0,50 Dr. Armin Becerra Guzmán
133
Regla de la Multiplicación A partir de
Se despeja
UNSA
P(B
P(A B) ) A P(A)
( A)
P(A B) P(A) P B
Dr. Armin Becerra Guzmán
134
Aplicación: Se sabe que en un lote de pinturas de 50 galones, hay 4 que no están adecuadamente empacados (defectuosos). Si se extraen al azar 2 galones, uno a continuación del otro, ¿cuál es la probabilidad de que ambos sean defectuosos?. P(D1 )
P(D 2
UNSA
4 50
3 ) D1 49
(
P(D1 D 2 ) P(D1 ) P D 2
D1
)
4 3 12 = 50 49 2450
Dr. Armin Becerra Guzmán
135
Regla de la multiplicación para sucesos independientes. Los sucesos A y B se consideran independientes cuando la ocurrencia de uno no influye sobre la probabilidad de ocurrencia del otro; esto significa que, independientemente de que A haya ocurrido o no, la probabilidad asignada a B es siempre la misma.
Entonces,
UNSA
P (B
A
) P(B)
P(A B) P(A) P(B) Dr. Armin Becerra Guzmán
136
Ejemplo: ¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean varones?
P(V1 ) 0,5 P(V2 ) 0,5
P(V1 V2 ) P(V1 ) P(V2 ) = (0,5) (0,5) P(V1 V2 ) 0,25
UNSA
Dr. Armin Becerra Guzmán
137
ESTADISTICA INFERENCIAL Arboles de Decisión P(V)
P(A).P(V)
P(-V) P(A)
P(A).P(-V) P(V)
P(B)
P(B).P(V)
P(-V) P(B).P(-V)
1,00
UNSA
Dr. Armin Becerra Guzmán
138
El teorema de Bayes Consiste en una partición de la probabilidad total. Ejemplo 1: La Compañía de Seguros JL ha desarrollado un novedoso seguro familiar. De acuerdo con una investigación hecha en el mercado, la probabilidad de que el producto tenga éxito es 0,80 si la compañía competidora no introduce un plan similar en el mercado. Luego, la probabilidad de éxito es 0,30 si la empresa competidora lanza al mercado un seguro similar. Además, la compañía JL estima que hay una probabilidad de 0,40 de que la firma competidora comercialice el producto. UNSA
Dr. Armin Becerra Guzmán
139
Dado que el producto de la Compañía JL tuvo éxito, ¿cuál es la probabilidad de que la firma competidora haya comercializado su novedoso plan de seguro?
Solución: P(C) = probabilidad de que la compañía competidora comercialice el producto, P(C´) = probabilidad de que la compañía competidora no comercialice el producto, P(E) = probabilidad de que el plan de seguro familiar de la compañía JL tenga éxito.
UNSA
Dr. Armin Becerra Guzmán
140
P. Marginal
P. Condicional
P(E/C) = 0,30
P(E/C´) = 0,80
P. Conjunta
P(C E) = 0,40 0,30 = 0,12
' P (C E) = 0,60 0,80 = 0,48
P. Total P(E) = 0,60
UNSA
Dr. Armin Becerra Guzmán
141
Luego, de acuerdo con el Teorema de Bayes P(C
P(C E) )= E P(C E) + P(C ' E)
0.12 0.12 0.20 0.12 0.48 0.60
La probabilidad que la compañía de seguros haya participado en el mercado, dado que JL tuvo éxito es de 0,20. UNSA
Dr. Armin Becerra Guzmán
142
Ejemplo 2: El Gerente de una importante fábrica de la ciudad está considerando comprar un lote de 10000 balones de gas a un proveedor nacional. El fabricante de estos equipos estima la proporción de balones defectuosas en el lote, en la siguiente forma.
UNSA
Proporción de balones defectuosos ()
Probabilidad P()
1 = 0,10
P(1) = 0,20
2 = 0,15
P(2) = 0,30
3 = 0,25
P(3) = 0,50
Dr. Armin Becerra Guzmán
143
Esto significa que el proveedor no está seguro acerca de la proporción de balones de gas defectuosos en el lote, sin embargo, basándose en experiencias anteriores, cree que hay una probabilidad de 0,20 de que el lote tenga 10% de piezas defectuosas, una probabilidad de 0,30 de que tenga 15%. Y finalmente, de 0,50 de que tenga 25% de piezas defectuosas. Supongamos que elige un balón de gas de al azar en el lote:
UNSA
Dr. Armin Becerra Guzmán
144
A) ¿Cuál es la probabilidad de qué esta sea defectuoso? B) Dado que el equipo resulta defectuoso, ¿cuál es la probabilidad de que el lote tenga 25% de piezas defectuosas?
UNSA
Dr. Armin Becerra Guzmán
145
P. Marginal
P. Condicional P(D/1)= 0,10 1=0,10
P(2) = 0,30
2=0,15
P(D/2)= 0,15
P(D/3)= 0,25 3=0,25 UNSA
P. Conjunta
P( 1 D) = 0,20 0,10 = 0,0200
P( 2 D) = 0,30 0,15 = 0,045
P( 3 D) = 0,50 0,25 = 0,1250
Dr. Armin Becerra Guzmán
P(D) = 0,1900 146
Respuesta A: Hay tres maneras posibles de obtener un equipo defectuoso del lote. Por lo tanto, la probabilidad de obtener una pieza defectuosa, cualquiera que se la tasa porcentual de defectuosos 10, 15 ó 25 es:
P( D) P( 1 D) P( 2 D) P( 3 D)
0,0200 0,0450 0,1250 0,19
UNSA
Dr. Armin Becerra Guzmán
147
Respuesta B: De acuerdo con el Teorema de Bayes, la probabilidad de que el lote contenga 25% de piezas defectuosas, dado que la pieza elegida es defectuosa, es:
P( 3 D) 0.1250 P( 3 / D) 0.6579 P( D) 0.1900
UNSA
Dr. Armin Becerra Guzmán
148
ESTADISTICA INFERENCIAL
Resumen de Operaciones con Probabilidades Para Eventos
UNSA
Proposición
Operación de Probabilidades
Mutuamente Excluyentes
P(A o B) = P(AUB)
P(A)+P(B)
Independientes
P(A y B) = P(AB)
P(A).P(B)
Mutuamente no Excluyentes
P(A o B) = P(AUB)
P(A)+P(B) – P(A).P(B)
Dependientes
P(A y B) = P(AB)
P(A).P(B/A) P(B).P(A/B)
Condicionales
P(A / B) = P(A dado B)
P(AB) / P (B)
Dr. Armin Becerra Guzmán
149
DISTRIBUCION DE PROBABILIDADES
TECNICAS DE CONTEO Combinación: Es una selección de objetos con independencia en su ordenamiento.
Ejemplo: Un empresario dispone de 10 plantas de producción para producir harina de pescado. Sólo ocho son necesarias para abastecer el mercado. Las ocho plantas necesariamente son seleccionadas aleatoriamente. UNSA
Dr. Armin Becerra Guzmán
151
Permutación: Es una distribución determinado.
de
objetos
en
un
orden
Ejemplo: El numero del DNI.
UNSA
Dr. Armin Becerra Guzmán
152
PERMUTACION Cálculo del número de permutaciones para n objetos tomados de x
n! P donde x n (n x)! n x
Ejemplo: Los nutricionistas de una empresa que produce alimentos envasados están interesados en el orden en que cuatro ribonucleótidos adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar un catalizador. ¿Cuántas cadenas formadas por dos nucleótidos pueden formarse? 4! 4 x3x2 x1 P24 12 (4 2)! 2 x1 UNSA
Dr. Armin Becerra Guzmán
153
COMBINACION Numero de combinaciones de n objetos tomadas de r
n! C donde x n x !(n x)! n x
Ejemplo:
Se realiza un estudio para determinar la opinión de los profesores de la UNSA respecto a la acreditación; si se elige una muestra de cuatro profesores de un total de 45. ¿Cuántas muestras distintas pueden seleccionarse? C445 UNSA
45! 45 x44 x43x42 x41! 45 x44 x43x42 148,995 4!(45 4)! 4! x41! 4! Dr. Armin Becerra Guzmán
154
Las Distribuciones de Probabilidad (A) Concepto: Es una distribución de frecuencias teórica que describe la forma en que se espera que varíen los resultados. Resultan útiles para realizar inferencias y tomar decisiones bajo incertidumbre.
UNSA
Dr. Armin Becerra Guzmán
155
Ejemplo: Se seleccionan en forma consecutivas dos clientes de un autoservicio . El número de clientes será:
Nº de Resultados Probabilidad mujeres 0 V,V 0,25 1 VM,MV 0,50 2 MM 0,25
Probabilidad
0.50
0.25
0
1
2 Nº de mujeres
UNSA
Dr. Armin Becerra Guzmán
156
(B) TIPOS DE DISTRIBUCIONES a) DISCRETAS: La variable toma un número limitado de valores. Abarca : - Distribución binomial - Distribución de Poisson - Distribución hipergeométrica
b) CONTINUAS: La variable puede tomar cualquier valor dentro de un intervalo dado. Abarca: - Distribución normal - Distribución normal estándar o Z - Distribución t - Distribución Ji-cuadrada 2 - Distribución F
UNSA
Dr. Armin Becerra Guzmán
157
Variables Aleatorias Una variable es aleatoria si toma diferentes valores como resultado de un experimento . Puede ser discreta o continua Ejemplo: Se lanzan 3 monedas X : variable aleatoria (ej : número de caras) x : valores que puede tomar la variable (ej : 0, 1, 2, 3)
UNSA
Dr. Armin Becerra Guzmán
158
ESTADISTICA INFERENCIAL Valor Esperado
E(X) X .P( X ) n
i 1
i
i
Desviación Estandar
n
(X i 1
UNSA
E ( X i )) .P( X i ) 2
i
Dr. Armin Becerra Guzmán
159
Esperanza matemática : E (X) Es el promedio de la variable aleatoria, si el experimento se repite un número infinito de veces. Ejemplo : Se lanzan 3 monedas 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 W = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 3 caras. x Número de Cara
0 1 2 3 UNSA
2 caras
P(x) XP(x) 1/8 3/8 3/8 1/8
0 caras =>x
1 cara
( X) = XP( x )
0 3/8 6/8 3/8 12/8 Dr. Armin Becerra Guzmán
=
12 8
= 1,5
caras 160
Aplicación empresarial: uso del valor esperado y las pérdidas monetarias. Un distribuidor de bocaditos sabe que su producto rápidamente se deteriora. Compra cada cajita a 20 u.m. y las vende a 50 u.m.. No puede especificar el número de cajitas que le solicitarán diariamente, pero dispone de los siguientes datos:
Ventas diarias
Probabilidad de venta de cada cantidad
10 11 12 13
0.15 0.20 0.40 0.25 1.00
UNSA
Dr. Armin Becerra Guzmán
161
Tipo de pérdidas (A) Pérdidas por mermas (obsolescencia): oferta > demanda (costo contable) (B) Pérdidas de oportunidad: oferta < demanda (costo económico)
Alternativas de Compra
10 11 12 13
Alternativas de Venta 10
11
12
13
0 30 60 90
20 0 30 60
40 20 0 30
60 40 20 0
Posibles Pérdidas UNSA
Dr. Armin Becerra Guzmán
162
Cálculo de la pérdida esperada Para un stocks de 10 cajitas, la pérdida esperada será: Posibles Ventas Por día
10 11 12 13
Pérdida Condicional
0 30 60 90
Probabilidad que se reciban estos pedidos 0.15 0.20 0.40 0.25
Pérdida esperada
0.00 6.00 24.00 22.50
Pérdida esperada: 52.50
Solución óptima: analizar otros tamaños de stocks y decidir por aquél que genere la menor perdida UNSA
Dr. Armin Becerra Guzmán
163
ESTADISTICA INFERENCIAL Distribución Binomial
n X n -x P(X) p q X
E ( X ) np np(1 p)
n! X n-x P(X) p q x!(n - x)! n! X n -x P(X) p (1 p) x!(n - x)! UNSA
Dr. Armin Becerra Guzmán
Datos Discretos
164
La distribución binomial Se utiliza para describir variables discretas. Es una de las distribuciones mas utilizadas en la estadística aplicada. La distribución se deriva de un procedimiento llamado ensayo de Bernoulli, nombrado así en honor del matemático Suizo James Bernoulli (1654 - 1785).
a) Características: El experimento consiste en una serie de ensayos repetidos. Cada ensayo sólo tiene dos resultados posibles: éxito y fracaso. UNSA
Dr. Armin Becerra Guzmán
165
La probabilidad de éxito, designado por p es la misma para cada ensayo, la probabilidad de fracaso q (igual a 1-p) es también constante. 1. Los ensayos sucesivos son independientes. 2. Puede ser simétrica o sesgada.
3. La información de la muestra se obtiene con reposición de una población finita.
UNSA
Dr. Armin Becerra Guzmán
166
b) Formula: n! P(X = x) = p x q n- x x! (n - x)!
donde: n : número de ensayos x : número de éxitos p : probabilidad de éxitos en un ensayo q : probabilidad de fracaso en un ensayo n - x : número de fracaso en el ensayo Se aplica a la selección de una muestra, sólo cuando el resultado de cada solución es independiente de los resultados de las selecciones anteriores. UNSA
Dr. Armin Becerra Guzmán
167
c) Aplicación: Una muestra de 4 frascos se selecciona sin restitución de un lote de 5,000 frascos de cierto laboratorio farmacéutico. Suponiendo que 20% de los frascos de lote no cumplen con las especificaciones de calidad, ¿cuál es la probabilidad de que la muestra contenga exactamente 2 frascos malos?
UNSA
Dr. Armin Becerra Guzmán
168
Datos: n=4 x=2 p = 0,20 q = 0,80
n! P(X = x) = p xq n-x x! (n - x)! 4! 0.22 0.802 P(X = 2) = 2! (4 - 2)! 0,1536
UNSA
Dr. Armin Becerra Guzmán
169
d) La distribución Cierto proceso de control de calidad se repite cuatro veces. Suponga que existe la probabilidad de 0.50 que el proceso resulte deficiente. En cuatro repeticiones se puede obtener 0,1,2,3 ó 4 procesos deficientes. Se puede calcular la probabilidad de cada uno de estos posibles resultados mediante la distribución binomial.
UNSA
Dr. Armin Becerra Guzmán
170
X (Número de procesos deficientes)
P(X = x) 0
4
0
4! 1 0!4! 2
1
4! 1 1 4 16 1!3! 2 2
2
4! 1 1 616 2!2! 2 2
3
1
3
2
2
4! 1 3!1! 2
3
4
4
1 116 2
1
1 4 16 2 0
4! 1 1 116 4!0! 2 2
A estos resultados se denomina distribución de probabilidad. UNSA
Dr. Armin Becerra Guzmán
171
e) La media y la desviación estándar
Consideramos la distribución del ejemplo anterior (p = 1/2, n = 4)
X P(X = x) La media
UNSA
0 1 2 1/16 4/16 6/16
3 4 4/16 1/16
= XP( x)
Dr. Armin Becerra Guzmán
172
X 0 1 2 3 4
P(x) 1/16 4/16 6/16 4/16 1/16
XP(x) 0 4/16 12/16 12/16 4/16
32/16
32 XP( x) 16
= 2 procesos
También: = np = 4( 12) 2
Interpretación: Si seleccionamos 4 procesos al azar, se espera encontrar 2 procesos deficientes, si este experimento se repite un número infinito de veces. UNSA
Dr. Armin Becerra Guzmán
173
La desviación estándar
2 ( x ) P( x)
x
P( x)
(x )
(x )2
( x ) 2 P( x )
0 1 2 3 4
1/16 4/16 6/16 4/16 1/16
-2 -1 0 +1 +2
4 1 0 1 4
4/16 4/16 0 4/16 4/16 16/16
UNSA
Dr. Armin Becerra Guzmán
174
16 (X ) P( x) 16 2
16 ( X ) P( x ) 1 proceso deficiente 16 2
También:
npq 4(0,5)(0,5) 1
La distribución binomial (p = 1/2, n = 4) tiene una media de 2 y una desviación estándar de 1.
UNSA
Dr. Armin Becerra Guzmán
175
Ejemplo: Supóngase que en cierta población el 52 por ciento de todos los nacimientos que se registraron son varones. Si aleatoriamente se escogen cinco registros de nacimientos dentro de esa población, ¿cuál es la probabilidad de que exactamente tres de ellos pertenezcan a varones?. P = 0.52
q = 1 - 0.52 = 0.48 n=5
P(3,5)
5! 0.523 0.48(53) 0.32 32% 3!(5 3)!
r=3
UNSA
Dr. Armin Becerra Guzmán
176
Uso de Tablas Solucionando el problema anterior usando la tabla de probabilidades binomiales tabla de probabilidades binomiales p n
r
5
n
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0 1 2 3 4 5
r
0.48
0.49
0.50
0.0380 0.1755 0.3240 0.2990 0.1380 0.0255
0.63
0.62
0.61
0.60
0.59
0.58
0.57
0.56
0.55
0.54
0.53
0.52
r
n
5 4 3 2 1 0 5
0.51
0.50
r
n
p
La probabilidad de tener 3 inscritos varones de 5 registros realizados es del 0.324 o 32.4%. UNSA
Dr. Armin Becerra Guzmán
177
ESTADISTICA INFERENCIAL Distribución de Poisson
P(X)
e
X!
e 2.71828
UNSA
x
Dr. Armin Becerra Guzmán
Datos Discretos
178
Distribución de Poisson: Es una distribución muy usada en administración. Se deriva del proceso de Poisson en honor al matemático francés Simeon Denis Poisson (1781-1840).
Debe cumplir las siguientes condiciones: La ocurrencia de los eventos son independientes. El número promedio de veces () que ocurre un éxito por cada unidad de tiempo o de espacio es constante. La probabilidad de un suceso es una unidad de tiempo o de espacio muy pequeña.
UNSA
Dr. Armin Becerra Guzmán
179
Ejemplos de aplicaciones de Poisson: Trabajadores que llegan tarde a su centro laboral
durante un cierto día. Defectos de un producto. Venta por hora en cierta parte de la ciudad.
Clientes que llegan a la caja registradora de una tienda en un determinado horario.
UNSA
Dr. Armin Becerra Guzmán
180
Si el tamaño de la muestra es bastante grande (n>50) y la probabilidad de un evento particular es muy pequeño (p < 0,1) y se desea hallar la probabilidad de un número determinado de éxitos, se puede aplicar la distribución de Poisson, dada por la siguiente ecuación.
P(X = x) =
x e x!
donde
e UNSA
x!
(lambda): media = np = varianza : base de logaritmos naturales =2.71828 : factorial de x Dr. Armin Becerra Guzmán
181
Ejemplo: Supongamos que estamos investigando la seguridad de un autoservicio, los registros indican una media de 5 intentos mensuales por tienda. El número de intentos de robos esta distribuido de acuerdo con una distribución de Poisson y el departamento de seguridad desea que calculemos la probabilidad de que en cualquier mes ocurra exactamente 3 intentos de robo.
X = 3 robos/mes = 5 robos/mes
UNSA
3
P( x 3)
5
5 2.7183 0.14042 14.04% 3! Dr. Armin Becerra Guzmán
182
Uso de Tablas Solucionando el problema anterior usando la tabla de distribución de probabilidades de Poisson: x
UNSA
4.1
.........
4.5
..........
4.9
5
0
0.0067
1
0.0337
2
0.0842
3
0.1404
4
0.1755
5
0.1755
La probabilidad de tener exactamente 3 intentos de robo en un mes cualquiera es 0.1404
Dr. Armin Becerra Guzmán
183
Aplicación La probabilidad de “número equivocado” a pesar de haber marcado correctamente es 0,03. Si se toma una muestra de 100 llamadas, ¿cuál es la probabilidad de tener 2 “número equivocado”? Solución: p = 0.03 n = 100 =3
UNSA
32 (2.71828) 3 P(X = 2) = 2!
= 02240
Dr. Armin Becerra Guzmán
184
La aproximación de Poisson a la distribución Binomial Consideremos una distribución binomial con p=0.02 y n = 100. Supongamos que nos interesa calcular la probabilidad de que X = 3 utilizando la formula binomial, podemos encontrar la probabilidad exacta de la forma siguiente: 100! P(X = 3) = (0,02) 3 (0,98) 97 3! 97!
0,1823 UNSA
Dr. Armin Becerra Guzmán
185
Los cálculos son muy tediosos. Cuando p es pequeño y n es lo suficientemente grande, la formula binomial puede aproximarse mediante una distribución de Poisson con = np Luego, utilizando una distribución de Poisson encontramos que la probabilidad de que X=3 es:
e x
P(X = 3) = UNSA
x!
Dr. Armin Becerra Guzmán
186
np = 100 (0,02) = 2 (2) 3 (2,71828) 2 8 0,1805 2 3! 6 (2,71828) La respuesta es muy ¨próxima¨ a la encontrada con la distribución binomial. La aproximación se considera válida cuando
p 0.05 y n 20
UNSA
Dr. Armin Becerra Guzmán
187
ESTADISTICA INFERENCIAL Distribución Hipergeométrica
P(x/N, X t , n)
UNSA
n -x N n
N-X t
Dr. Armin Becerra Guzmán
Xt x
Datos Discretos
188
La distribución Hipergeométrica Se utiliza para describir variables discretas
P(X =
UNSA
a)Características La información de la muestra se obtiene sin reposición de una población finita, por lo tanto la probabilidad de éxito varía. donde: b) Formula M : número de éxitos en la población M N M k : número de éxitos en la muestra N : tamaño de la población k n k N-M: número de fracasos en la k) = población N n : tamaño de la muestra n n-k : número de fracasos en la muestra Dr. Armin Becerra Guzmán 189
Aplicación Calcular la probabilidad de obtener 10 CHIPS defectuosos en una muestra de 20 CHIPS de radio tomados sin reemplazo de un lote de 30 CHIPS, de los cuales 15 son defectuosos. Datos: k = 10 15 30 15 n = 20 N= 30 P(X = 10) = 10 3020 10 M= 15
20
(3003)(3003) 9018009 = = 0,3001 30045015 30045015 UNSA
Dr. Armin Becerra Guzmán
190
Si erróneamente se usa la distribución binomial con n = 20 y p =15/30 = 1/2 para calcular la probabilidad de tener 10 defectuosos, el resultado será:
10 10 20! 1 1 P(X = x) 2 10!(20 - 10)! 2
184756 0,1762 1048576 Una probabilidad considerablemente menor que la probabilidad real. UNSA
Dr. Armin Becerra Guzmán
191
d) Forma Puede ser simétrica o sesgada. Cada vez que p = 0.5, la distribución hipergeométrica será simétrica sin tener en cuenta qué tan grande o pequeño sea el valor de n; sin embargo, cuando p 0,5 la distribución será sesgada. El grado de sesgo variará, dependiendo de la proximidad del p a 0,5 y del tamaño de n.
UNSA
Dr. Armin Becerra Guzmán
192
e) La media y la desviación estándar La media:
E(X) np
La desviación estándar:
np (1 p )
N n N 1
N n N 1
Donde es un factor de corrección de población finita que se produce debido al proceso de muestreo sin reposición de poblaciones finitas.
UNSA
Dr. Armin Becerra Guzmán
193
DISTRIBUCION CONTINUA DE PROBABILIDADES
ESTADISTICA INFERENCIAL
Distribución Normal
f(x)
1 (1 / 2 ) ( X ) / 2 e 2
e 2.71828 3.14159 UNSA
Dr. Armin Becerra Guzmán
Datos Continuos
195
ESTADISTICA INFERENCIAL
Distribución Normal Estandarizada
f(z)
1 (1 / 2 ) Z 2 e 2
e 2.71828 3.14159 UNSA
Dr. Armin Becerra Guzmán
Datos Continuos
196
ESTADISTICA INFERENCIAL
Distribución Normal Estandarizada (Fórmula de Transformación)
Z
X
X Z
UNSA
Dr. Armin Becerra Guzmán
Datos Continuos
197
ESTADISTICA INFERENCIAL CURVA NORMAL
ESTANDARIZADA Y LA ESCALA X
UNSA
Dr. Armin Becerra Guzmán
198
ESTADISTICA INFERENCIAL CURVA NORMAL
ESTANDARIZADA Y LA ESCALA X
UNSA
Dr. Armin Becerra Guzmán
199
Distribuciones continuas de probabilidad
La distribución normal También conocida como campana de Gauss en honor al matemático Karl Gauss ( siglo XIX). Es importante por: Es aplicable para inferencia estadística
Se ajusta (casi) a las distribuciones de frecuencias reales observadas. Se utiliza para describir el comportamiento de una variable continua. (a) Características 1. Tiene un sólo pico (unimodal). Forma acampanada. 2. La media cae en el centro 3. La media, media y moda coinciden 4. Es asintótica al eje horizontal UNSA
Dr. Armin Becerra Guzmán
200
La distribución normal de probabilidad es simétrica con respecto a una línea vertical que pase por la media
El extremo izquierdo se extiende de manera indefinida y nunca toca el eje horizontal
El extremo derecho se extiende de manera indefinida y nunca toca el eje horizontal
Media Mediana Moda
UNSA
Dr. Armin Becerra Guzmán
201
b) Fórmula La función de densidad: f(x), para la distribución normal tiene la siguiente formula:
f (x)
1 e 2
x 1 2
2
donde: e : constante matemática: 2.71828 :constante matemática: 3.14159 : media de la población : desviación estándar de la población x : cualquier valor de la variable aleatoria continua UNSA
Dr. Armin Becerra Guzmán
202
Areas debajo de la curva normal No importa cuales son los valores de y , para una distribución de probabilidad normal el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fuesen probabilidades. Matemáticamente es verdad que:
UNSA
Dr. Armin Becerra Guzmán
203
1: Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra datos 1 desviación estándar de la media .
68% datos UNSA
Dr. Armin Becerra Guzmán
204
2: Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra datos 2 desviación estándar de la media.
2
2
94.6% datos UNSA
Dr. Armin Becerra Guzmán
205
3: Aproximadamente 99.7% de todos los valores de una población normalmente distribuida se encuentra datos 3 desviación estándar de la media
3
3
99% datos UNSA
Dr. Armin Becerra Guzmán
206
La distribución normal estándar (Z) La distribución normal tiene diferente y para calcular probabilidades habría que integrar la función de densidad. Por este motivo se estandariza la variable. La estandarización es un proceso estadístico que consiste en restar la media a la variable y el resultado dividirlo por la desviación estándar.
Z UNSA
x
Dr. Armin Becerra Guzmán
207
Distribución normal estándar
50 1
UNSA
Dr. Armin Becerra Guzmán
208
La tabla de distribución normal estándar, es la siguiente: z 0.0 0.1 : : 1.1 1.2 : : 2.4 2.5 :
0.00 0.0000 0.0398 : : 0.3643 0.4032
0.01 0.0040 0.0438 : : 0.3665 0.4049
0.02 0.0080 0.0478 : : 0.3686 0.4066
Cuando Z=1.27 UNSA
0.03 0.0120 0.0517 : : 0.3708 0.4082
0.04 0.0160 0.0557 : : 0.3729 0.4099
0.05 0.0199 0.0596 : : 0.3749 0.4115
0.06 0.0239 0.0636 : : 0.3770 0.4131
0.07 0.0279 0.0675 : : 0.3790 0.4147
0.08 0.0319 0.0714 : : 0.3810 0.4162
entonces el área vale: ...... Dr. Armin Becerra Guzmán
209
Ejercicio: Un jefe de personal piensa que los puntajes en una prueba de destreza manual tiene una distribución aproximadamente normal, con una media de 10 y una desviación estándar de 2,5. Si a un individuo, elegido aleatoriamente, se le aplica el examen, ¿cuál es la probabilidad de que logre un puntaje de 15 o mas puntos?. UNSA
Dr. Armin Becerra Guzmán
2.5
10
15
210
Obtenemos la siguiente información:
Calculando Z:
2.5 z
x
2.5
15 10 2 2 .5
10 15
Para Z=2, buscamos en la tabla cual es la probabilidad (o área) que le corresponde: Área = .4772 Como deseamos conocer esta área:
2.5
P( x 15) 0.5 0.4772 0.0228 2.28% 10 15 UNSA
Dr. Armin Becerra Guzmán
211
¿Cuál es la probabilidad de que se logre un puntaje entre 11 y 14? Calculando Z: Cuando x 11 z
11 10 0.4 A 0.1554 2 .5
Cuando x 14 z
14 10 1.6 A 0.4452 2.5
14 11
El área sombreada se encuentra restando del área mayor (0.4452) el área menor (0.1554) P(11 x 14) 0.4452 0.1554 0.2898 28.98% UNSA
Dr. Armin Becerra Guzmán
212
Aplicaciones Una empresa aplica un programa de entrenamiento diseñado para mejorar la habilidades de supervisión en los diferentes procesos que se desarrollan en ventas. Debido a que el programa es autoadministrado, los supervisores requieren un número diferente de horas para concluirlo. Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas.
UNSA
Dr. Armin Becerra Guzmán
213
Pregunta 1. ¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa? Solución: En la figura, podemos ver que la mitad del área bajo la curva está localizada a ambos lados de la media de 500 horas. Por lo tanto podemos deducir que la probabilidad de que la variable aleatoria tiene un valor mayor a 500 es el área sombreada, es decir, 0.5. UNSA
Dr. Armin Becerra Guzmán
P(X>500)=0.5
214
Pregunta 2:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento.
P(500 X 650)=0.4332
UNSA
Solución: La gráfica se muestra la respuesta como zona sombreada, representada por el área entre la media (500 horas) y el valor de X, en el cual estamos interesados (650 horas). Estandarizando la variable tenemos un valor para Z
Dr. Armin Becerra Guzmán
215
Z
x
650 500 Z 1 .5 100 Si buscamos Z = 1.5 en la tabla, encontraremos una probabilidad de 0,4332. En consecuencia, la probabilidad de que un candidato escogido al azar requiera entre 500 y 650 horas para terminar el programa de entrenamiento es ligeramente mayor a 0,4.
UNSA
Dr. Armin Becerra Guzmán
216
Pregunta 3:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome más de 400 horas en completar el programa? Solución: Estamos interesados en el área a la derecha de 700. Estandarizamos
Z
x
P(X >700)= 0..0228
700 500 Z 2 100 UNSA
Dr. Armin Becerra Guzmán
217
Tabla: si Z = 2.0 Area: 0.4772 En consecuencia, la probabilidad mayor a 700 será 0,5 - 0,4772 = 0,0228 Por lo tanto hay un poco más de 2 oportunidades en 100 de que un participante elegido al azar se lleve más de 700 horas en completar el curso.
UNSA
Dr. Armin Becerra Guzmán
218
Pregunta 4:Suponga que el director del programa desea saber la probabilidad de que un participante escogido al azar requiera entre 550 y 650 horas para completar el trabajo requerido en el programa. Solución: Primero calculamos el valor de Z para 650
Z
x
650 500 Z 1 .5 100
P(550 X 650)
A este valor le corresponde un área de 0,4332 UNSA
Dr. Armin Becerra Guzmán
219
Después calculamos un valor de Z para 550
Z
x
550 500 Z 0 .5 100
Correspondiéndole un área de 0,1915
UNSA
Dr. Armin Becerra Guzmán
220
Para responde la pregunta debemos estar restar las áreas: Probabilidad de que la variable aleatoria esté entre la media y 650 horas
0,4332
(-) Probabilidad de que la variable aleatoria esté
0,1915
(=) Probabilidad de que la variable aleatoria esté
0,2417
entre la media y 550 horas
550 y 650 horas
UNSA
Dr. Armin Becerra Guzmán
221
Así pues, la probabilidad de que un supervisor elegido al azar se tome entre 550 y 650 horas para completar el programa de entrenamiento es un poco menor de 1 entre 4
UNSA
Dr. Armin Becerra Guzmán
222
La Distribución t a) Características Al igual que la normal, también es simétrica es algo más plana que la distribución normal hay una distribución t para cada tamaño de muestra cuando el tamaño de la muestra es menor a 30, la distribución t se asemeja tanto a la normal que se prefiere utilizar ésta.
UNSA
Dr. Armin Becerra Guzmán
223
UNSA
Dr. Armin Becerra Guzmán
224
CUANDO UTILIZAR Z o t
¿S E CONOCE
SI ?
US A R
Z
US A R
Z
NO
¿es n 30?
SI
NO
US A R
UNSA
t Dr. Armin Becerra Guzmán
225
TABLA DE DISTRIBUCION t DE STUDENT
d.f.
t .90
t .95
t .975
t .99
t .995
d.f. Grados de libertad1
3.08
6.31
12.7
31.8
63.7
2
1.89
2.92
4.3
6.97
9.92
3
1.64
2.35
3.18
4.54
5.84
26
1.32
1.71
2.06
2.48
2.78
27
2.31
1.7
2.05
2.47
2.77
28
1.31
1.7
2.05
2.47
2.76
d . f . n 1 Ejemplo: n= 28
N.C. = 95% a ,5
a/2 ,25 ,25,975 t=?
d.f. = 28 - 1 = 27 t = 2,0518 UNSA
: : :
:
: : :
Dr. Armin Becerra Guzmán
226
b) Fórmula
x t s n
c) Grados de libertad Se definen como el número de valores que podemos escoger libremente.
UNSA
Dr. Armin Becerra Guzmán
227
La distribución Ji-Cuadrada a) Características Es una distribución asimétrica a la izquierda Sólo considera valores positivos b) Definición La distribución Ji-cuadrada esta definida por n
Z i2 2
i 1
UNSA
Dr. Armin Becerra Guzmán
228
c) Aplicaciones Las aplicaciones más importantes están en la prueba de bondad de ajuste la prueba de independencia estadística d) Distribución
UNSA
Dr. Armin Becerra Guzmán
229
La Distribución F Características Es una distribución asimétrica a la derecha Sólo tiene valores positivos Se utiliza para comparar variancias de dos poblaciones, con distribución normal Fórmula
F
UNSA
2 S mayor 2 S menor
Dr. Armin Becerra Guzmán
230
11-3
• Existe una “familia” de distribuciones F. • Cada miembro de la familia está determinado por dos parámetros: los grados de libertad (gl) en el numerador y los grados de libertad en el denominador. • El valor de F no puede ser negativo y es una distribución continua. • La distribución F tiene sesgo positivo. • Sus valores varían de 0 a . Conforme F la curva se aproxima al eje X. UNSA
Dr. Armin Becerra Guzmán
231
ESTADISTICA INFERENCIAL Curvas Normales
Datos Continuos
UNSA
Dr. Armin Becerra Guzmán
232
La Estadística de Resumen Después de construir tablas y gráficos, a partir de una colección de datos, se requieren medidas más exactas. La estadística de resumen, proporciona medidas para describir un conjunto de datos. Existen tres tipos de medidas de resumen: • De tendencia central. • De dispersión. • De la forma de la distribución. UNSA
Dr. Armin Becerra Guzmán
233
(A) Las medidas de tendencia central Se refieren al punto medio de una distribución Se conocen como medidas de posición Ejemplo: A partir del gráfico siguiente, se observa que la posición central de la curva B está a la derecha de la posición central de las curvas A y C. Observese que la posición central de la curva A es la misma que la curva C.
UNSA
Dr. Armin Becerra Guzmán
234
(B) Las medidas de dispersión 1.Se refieren a la extensión o amplitud de los datos de una distribución 2.Representan el grado de variabilidad de los datos. Ejemplo: Observe que la curva A en el siguiente gráfico tiene una mayor dispersión que la curva B, a pesar que la posición central es la misma.
UNSA
Dr. Armin Becerra Guzmán
235
(C) Las medidas de la forma de la curva Las curvas que representan a un conjunto de datos, pueden ser analizadas de acuerdo a su: a) Simetría b) Curtósis Las curvas simétricas, tienen una forma tal que con una línea vertical que pase por el punto más alto de la curva, dividirá el área de esta en dos partes iguales.
UNSA
Dr. Armin Becerra Guzmán
236
Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de sesgo.
UNSA
Dr. Armin Becerra Guzmán
237
Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden ser: leptocúrtica (concentración al centro) mesocúrtica distribuidos simétricamente) o platicúrtica (aplanada).
UNSA
Dr. Armin Becerra Guzmán
238
MEDIDAS DE ASIMETRIA O SESGO Coeficiente de Asimetría Es un indicador del grado de asimetría que presenta una distribución.
S kp
3( X Md ) S
Valores posibles 3 asimetría S kp 3 asimetría UNSA
Dr. Armin Becerra Guzmán
negativa positiva 239
Si Skp tiende a 3 la distribución es asimétrica hacia la derecha o asimetría positiva.
Si Skp tiende a -3 la distribución es asimétrica a la izquierda o asimetría negativa. En distribuciones simétricas, no existe sesgo, es decir Skp = 0. En la práctica, el coeficiente de Asimetría de Pearson varía entre -1 y +1
UNSA
Dr. Armin Becerra Guzmán
240
Coeficiente de Curtósis Es una medida del grado de apuntalamiento, generalmente comparada con el apuntalamiento de la distribución normal.
0,5( P0, 75 P0, 25 ) Ku P0,9 P0,1
UNSA
Dr. Armin Becerra Guzmán
241
Valores posibles a) Leptocúrtica (concentración al centro): Si el grado de apuntalamiento de una distribución es mayor que el de la distribución normal. Kμ 0,5 b) Mesocúrtica (distribuidos simétricamente): Si el grado de apuntalamiento de una distribución es igual que el de la distribución normal. Kμ 0,25 c) Platicúrtica (aplanada).Si el grado de apuntalamiento de una distribución es menor que el de la distribución normal. 0 ≤ Kμ ≤ 0,25 Leptocúrtica
UNSA
Mesocurtica
Dr. Armin Becerra Guzmán
Platicurtica
242
Ejemplo: La tabla muestra la edad (en años) de 70 clientes atendidos en el servicio de peluqueria local. 4 3 5 6 7 25 13 2 4 5
UNSA
67 85 6 7 7 10 12 15 16 17
18 15 16 17 15 13 13 14 20 14
15 15 15 16 17 17 13 14 16 17
11 14 13 10 6 4 8 14 18 20
3 5 7 8 12 15 17 18 20 21
24 26 21 22 17 16 9 9 15 12
A) Calcular e interpretar la asimetría de la distribución Dr. Armin Becerra Guzmán B) Calcular e interpretar la curtosis de la distribución.
243
Los resultados han sido obtenidos usando Microsoft Excel Media aritmetica Desviacion estandar Mediana Cuartil 1 Cuartil 3 Percentil 90 Percentil10
UNSA
14.27 11.42 13.50 7.00 17.00 23.00 4.00
S kp
3(14,27 13,50) 0,202 11,42
0,5(17,00 7,00) Ku 0,263 23,00 4,00
Dr. Armin Becerra Guzmán
244
TAMAÑO MUESTRAL
Importancia del muestreo En lugar de levantar un censo “completo” se realiza un muestreo, debido a que un censo: 1. requiere demasiado tiempo 2. es muy costoso 3. muy laborioso y muchas veces ineficiente
ESTADISTICA INFERENCIAL
Tamaño Muestral: N n
UNSA
• No Probabilístico •Intencional o de Juicio •Por Cuotas • De Trozos •Probabilístico •Aleatorio Simple • Sistemático •Estratificado •Conglomerados Dr. Armin Becerra Guzmán
247
Tipos de Muestreo A) MUESTREO NO PROBABILÍSTICO: No permite inferencia estadística. 1. M. de Juicio: Abarca el juicio del experto, opiniones de especialista 2. M. de Cuotas: Se decide la estructura del marco muestral, sin tener en cuenta la estructura del marco poblacional. 3. M. de Trozo: La elección de los “racimos” no se hace al azar.
UNSA
Dr. Armin Becerra Guzmán
248
(B)
UNSA
MUESTREO PROBABILÍSTICO: Permite inferencia estadística. Cada elemento del marco poblacional tiene una probabilidad conocida diferente de cero de conformar o ser parte de la muestra. 1. Muestreo Aleatorio Simple (MAS): Concepto: Todas las unidades elementales tienen la misma probabilidad de conformar la muestra. Dicho de otro modo, significa que cada una de las posibles muestras de tamaño n, tenga a la misma probabilidad: 1/N CN de ser seleccionada (muestreo sin sustitución). Es el caso de un sorteo. Dr. Armin Becerra Guzmán
249
2. M. Sistemático: Las unidades elementales son seleccionadas dentro de un intervalo (I) de igual tamaño. Se extrae la muestra de acuerdo a la lista de clientes atendidos por ejemplo I1 I2 I3 I4
X1
UNSA
Dr. Armin Becerra Guzmán
250
3. M. Estratificado: El marco poblacional se divide en grupos homogéneos (estratos); de cada uno se extrae una submuestra, proporcional al tamaño del estrato. Muestreo por tipo de servicio 4. M. por Conglomerado: El marco poblacional se encuentra agrupado en conglomerados o racimos Se selecciona en forma aleatoria, el o los racimos. Todos los clientes que ingresaron un determinado día.
UNSA
Dr. Armin Becerra Guzmán
251
El tamaño de la muestra y el Intervalo de Confianza A.¿De qué depende el tamaño de la muestra (n)? Depende de: 1. La magnitud del máximo error permisible (e) y, 2. El nivel de confianza de que el error en la estimación no exceda del máximo error permisible (1- a )
UNSA
Dr. Armin Becerra Guzmán
252
El Error Estándar Es una medida de dispersión de una distribución muestral. Es equivalente a la desviación estándar. Desviación estándar de la distribución de medias de muestra
Error estándar de la media
Desviación estándar de la distribución de proporciones
Error estándar de muestra de la proporción
UNSA
Dr. Armin Becerra Guzmán
253
ESTADISTICA INFERENCIAL Tamaño Muestral: N desconocida Z
X
n Z
x (1 ) n
UNSA
Z n 2 e 2
2
Z (1 ) n 2 e 2
Dr. Armin Becerra Guzmán
254
ESTADISTICA INFERENCIAL Tamaño Muestral: N Conocida
Z .N . n 2 E ( N 1) Z 2 . 2 2
2
Z 2 .N . p (1 p ) n 2 2 E ( N 1) Z p (1 p )
UNSA
Dr. Armin Becerra Guzmán
255
C) Derivación de la formula Pr{x Z o
Entonces
n
xZ
n
} 1a
Error = e
Z e n
Elevando al cuadrado Z 2 . 2 2 e
n
Z 2 . 2 n e2 UNSA
Dr. Armin Becerra Guzmán
256
Ejemplo 1 A fin de conocer el gasto mensual en golosinas por familia, el Gerente de Marketing de una empresa desea determinar el tamaño de la muestra que le proporcione un nivel de confianza de 0,95 (Z = 1,96). Además conoce por estudios anteriores que las compras medias por familia eran de S/. 120 mensuales, con una desviación estándar de 30. El Gerente busca un tamaño de muestra que le permita estimar el nivel de gasto con un error de 10.
UNSA
Dr. Armin Becerra Guzmán
257
Solución
Datos: 1 - a = 0,95 Z = 1,96 = 30 e = 10
n
n
=
=
n = UNSA
Z
2
s
e
2
2
( 1 , 96 )
2
( 30) 2 (1 0 )
2
35
Dr. Armin Becerra Guzmán
258
Para proporciones se calcula a partir de la formula donde Z : Valor tabular para un 2
n=
UNSA
Z p(1-p)
e
2
nivel de confianza
p(1-p): Varianza
Dr. Armin Becerra Guzmán
259
Ejemplo 2 Un congresista desea determinar su popularidad en zona norte del país. Especifica que la proporción de electores que lo apoyarán debe calcularse dentro del ± 2% de la proporción de la población, ademas, desea tener un grado de confianza de 0,95. En las elecciones pasadas recibió 40% de los votos en esa parte del país. Duda que esto haya sufrido muchos cambios. ¿De cuántos electores debe ser la muestra?.
UNSA
Dr. Armin Becerra Guzmán
260
Solución
Datos: 1 - a = 0,95 Z = 1,96 p = 0,40 e = 0,02
UNSA
(1,96) 2 (0,40)( 0,60) n (0,02) 2 0,921984 n (0,02) 2 n 2305
Dr. Armin Becerra Guzmán
261
ENTONCES A. Para estimar una media poblacional:
Se calcula a partir de la formula siguiente
n donde
Za 2
Za S 2e 2 2
: Valor tabular para un nivel de confianza. Depende del nivel de confianza utilizado por la estimación del parámetro desconocido. Toma un valor de 1,96 para un nivel de confianza de 0,95.
2 e
s : Varianza obtenida de revisión bibliográfica UNSA
Dr. Armin Becerra Guzmán o estudio piloto.
262
2 e
A mayor variabilidad de la muestra , s mayor varianza. A mayor varianza mayor tamaño muestral representa el error de muestreo, llamado error de estimación o precisión de la estimación. El valor debe ser asumido por el investigador. En este caso ( x) Para poblaciones finitas (se conoce N), el tamaño final (nf) queda definido por la siguiente relación
nf
UNSA
n n 1 N
Dr. Armin Becerra Guzmán
263
Ejemplo 2 En cierta población se 1200 maestristas, se desea estimar el nivel promedio de notas en el curso de estadística con 0,95 de confianza. Al realizar un estudio piloto se encontró que x 12,3 y S=1,6. Si los investigadores están dispuestos a asumir un Za 2 1,96 0,5 .Calcular n N = 1200 Se = 1,6 0,5 UNSA
n
Za2 2s2e
2
2 2 1,96 1,6 0,52
Dr. Armin Becerra Guzmán
39,33
264
nf
n n 1 N
39,33 38,08 39 39,33 1 1200
Interpretación El número mínimo necesario de maestristas para realizar el estudio es de 39, si se desea estimar el nivel promedio notas en la población con una precisión de 0,5.
UNSA
Dr. Armin Becerra Guzmán
265
Ejemplo 3 En cierta población de 1200 escolares, de 9 – 11 años se desea estimar el nivel promedio de hierro sérico. Con este fin se va a seleccionar una muestra probabilistica. Si en un estudio similar se obtuvo una media aritmética de 60,6 mg/dl y S = 22,4 mg/dl. Calcular el tamaño mínimo de la muestra si la Za 2 1,96
5
estimación del parámetro se va a realizar con 0,95 de confianza y se asume un 5 N = 1200 Za2 2s2e 1,962 22,42 n 77,10 2 2 Se = 22,4 5
UNSA
Dr. Armin Becerra Guzmán
266
n
77,10 nf 72,44 73 n 77,10 1 1 N 1200
Interpretación : El número mínimo necesario de escolares para realizar el estudio es 73, si se desea estimar el nivel promedio de hierro sérico en la población con una precisión 5
UNSA
Dr. Armin Becerra Guzmán
267
B. Para estimar una proporción poblacional: 2
n donde:
Za 2p e qe
2
pe = proporción “estimada” de sujetos con la característica de interés. Se puede obtener de revisón bibliográfica, estudio piloto o asumiendo pe = qe= 0,50 qe = proporción “estimada” de sujetos sin la caracteristica de interés. = Error absoluto de muestreo o precisión. Debe ser asumido por el investigador.
p
UNSA
Dr. Armin Becerra Guzmán
268
Si se conoce N: nf
n 1
n N
Ejemplo 1: En una población grande, se desea estimar la prevalencia de gripe con 0,95 de confianza. De la literatura se sabe que p = 0,10 si se asume un error muestral de 5%, calcular n
UNSA
Dr. Armin Becerra Guzmán
269
Datos Za 2 1,96 p e 10% 0,10 qe 90% 0,90 0,05
n
Za2 2p e qe
2
n
1,96 2 0,10,9 0,05 2
n
0,345744 138,3 139 0,0025
Interpretación: Si se desea estimar la prevalencia poblacional con 0,95 de confianza y un de 5% se deberá evaluar 139 sujetos. UNSA
Dr. Armin Becerra Guzmán
270
DISTRIBUCIONES MUESTRALES E INTERVALOS DE CONFIANZA
Introducción La estadística se divide en DESCRIPTIVA e INFERENCIAL
DESCRIPTIVA ESTADISTICA
Estimación INFERENCIAL Prueba de Hipótesis
UNSA
Dr. Armin Becerra Guzmán
272
Tipos de estimaciones A) Estimación puntual Un sólo número se utiliza para estimar un parámetro desconocido. Para ser útil debe de estar acompañado del error. Ejemplo: Para el próximo mes se espera que las ventas sean 700 unidades con un error de 10%.
UNSA
Dr. Armin Becerra Guzmán
273
B) Estimación por intervalo Un intervalo de valores se utiliza para estimar un parámetro desconocido. El error se indica de dos manera: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo. Ejemplo: Para el próximo mes se espera que el número de requerimiento en el servicio de lavado de autos sean entre 670 y 730 vehículos, con un error 5%.
UNSA
Dr. Armin Becerra Guzmán
274
CRITERIOS PARA SELECCIONAR UN ESTIMADOR: CESI. • Coherencia: si al aumentar n, el estimador se aproxima al parámetro. • Eficiencia: proporciona menor error estándar que otros estimadores. • Suficiente: utiliza mayor cantidad de la información contenida en la muestra que otro estimador. • Insesgado (o imparcial): si el estimador tiende a tomar valores por encima y por debajo del parámetro que estima, con la misma frecuencia. UNSA
Dr. Armin Becerra Guzmán
275
Las Estimaciones Puntuales (A) De la media poblacional La media muestral
x
estima a la media poblacional
(B) De la varianza y la desviación estándar S2 estima
2
S estima
(C) De la proporción poblacional p estima
UNSA
Dr. Armin Becerra Guzmán
276
Los intervalos de confianza Conceptos • Nivel de confianza: probabilidad que asociamos con una estimación del intervalo. Se representa con (1 - a). Los niveles más utilizados son 0,90 0,95 y 0,99. • Intervalos de confianza: es el alcance de la estimación que estamos haciendo.
UNSA
Dr. Armin Becerra Guzmán
277
ESTADISTICA INFERENCIAL
Distribuciones Muestrales: La Media n
n
N n n
_
X1
n
n
nn
i 1
i
n
_
X4
X2
X i 1
X i 1
n
i
n
_
X5
X i 1
X3
UNSA
X i 1
n
i
n
n
_
i
n
n
_
n
X
n
i
Dr. Armin Becerra Guzmán
X
X i 1
N 278
i
ESTADISTICA INFERENCIAL Distribuciones Muestrales: El Error Estandar de la Media N n n
n
n
nn
X
i
n
n
UNSA
Dr. Armin Becerra Guzmán
279
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Efecto del Tamaño de la Muestra En la Distribución Muestral
Z
X
Z
n X Z
X Z UNSA
X
Dr. Armin Becerra Guzmán
n 280
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Intérvalo que incluye una proporción fija de medias
Xu Z XL Z
UNSA
n
Dr. Armin Becerra Guzmán
n 281
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Intérvalo de Confianza para las Medias
Mis imágenes\2005-08 (Ago)\scan.jpg
UNSA
Dr. Armin Becerra Guzmán
282
2
POBLACION Y MUESTRA
Conocida
800 1,5 X = 799,5
UNSA
Dr. Armin Becerra Guzmán
283
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Intérvalo de Confianza para las Medias
Z
X
Conocida
n X Z UNSA
n
X Z
n
Dr. Armin Becerra Guzmán
284
3
POBLACION Y MUESTRA
Desconocida
800 X = 796 S=1,8
UNSA
Dr. Armin Becerra Guzmán
285
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Intérvalo de Confianza para las Medias
t n -1
X t n 1 UNSA
X S n
Desconocida
S S X tn1 n n Dr. Armin Becerra Guzmán
286
ESTADISTICA INFERENCIAL Distribuciones Muestrales: Intérvalo de Confianza para Proporciones
x Z
x (1 x ) n
(1 ) n
x Z
x (1 x ) n
La proporción muestral Px = X / n = número de exitos/ tamaño de la muestra UNSA
Dr. Armin Becerra Guzmán
287
Intervalo para la media A partir de muestras grandes pero Z =
x -
n -Z0
Z0
Pr Z 0 Z Z 0 1 a x Pr Z 0 Z0 1 a x Pr x Z0 x Z0 1 a n n UNSA
Dr. Armin Becerra Guzmán
288
Ejemplo: En un estudio de mercado, se realizó una encuesta a 400 familias calculando un gasto medio anual en ropa de S/. 740 por familia. La desviación estándar fue S/. 400. Construya e interprete un intervalo de confianza al 0,95 de la estimación del gasto medio anual de ropa por familia en esa ciudad.
UNSA
Dr. Armin Becerra Guzmán
289
Pr x Z0 x Z0 1 a n n 400 400 Pr 740 (1.96) 740 (1.96) 0.95 400 400 Pr700.80 779.20 0.95
UNSA
Dr. Armin Becerra Guzmán
290
Interpretación: Hay 0,95 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional (.
Ls
LI
muestra UNSA
1 2 3 4 5 6 7 8
Dr. Armin Becerra Guzmán
291
A partir de muestras pequeñas Pero, -t0
x - t= S n
t0
Pr t0 t t0 1 a Pr t0 Pr x t0 UNSA
x t0 1 a S n s s x t0 1a n n Dr. Armin Becerra Guzmán
292
Ejemplo Se desea estimar el tiempo medio de estancia en un hotel para cierto tipo de clientes. Se selecciona una muestra aleatoria de 25 clientes y se calculó x 5,7 y S = 4,5 días. Estimar con 0,95 de confianza.
S S Pr x t n1 x t n1 1 a n n 4,8 4,8 Pr 5,7 2,064 5,7 2,064 1 0,05 25 25 Pr3,72 7,68 0,95 UNSA
Dr. Armin Becerra Guzmán
293
Interpretación: Hay 0,95 de confianza que el intervalo construido se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional () de la estancia en el hotel.
UNSA
Dr. Armin Becerra Guzmán
294
Ejemplo 2 n=9 x 41,27
S = 16,23 a = 0,05 S S Pr x t n1 x t n1 1 a n n 16,23 16,23 Pr 41,27 2,306 41,27 2,306 0,95 9 9
Pr 28,80 53,74 0,95 UNSA
Dr. Armin Becerra Guzmán
295
Interpretación: Hay 0,95 de confianza que el intervalo construido se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional ().
UNSA
Dr. Armin Becerra Guzmán
296
Ejemplo: Nueve (9) automóviles del mismo modelo fueron conducidos de idéntica manera usando un litro de gasolina corriente. La distancia media recorrida por estos automóviles fue de 8 Kms. con una desviación estándar de 1,14 Kms. Construya e interprete un intervalo de confianza al 0,95 para estimar el kilometraje medio por litro de gasolina para este modelo de automóvil.
UNSA
Dr. Armin Becerra Guzmán
297
Solución:
GL= n - 1 = 8
t = 2,306
1.14 1.14 Pr8 2.306( ) 8 2.306( ) 0,95 9 9 8,.87628} . 0,95 Pr {7,12372 .
UNSA
Dr. Armin Becerra Guzmán
298
Interpretación: Hay 0,95 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera media poblacional.
UNSA
Dr. Armin Becerra Guzmán
299
Intervalo para la proporción
Pero Z
-Z0
p
Z0
p
donde
Pr{ Z o Z Z } 1 a p Pr{ Z o Z} 1 a `p
p
p (1 p ) n
Pr{ p Z p p Z o p } 1 a UNSA
Dr. Armin Becerra Guzmán
300
Ejemplo: Suponga que 1600 de 2000 trabajadores sindicalizados que se muestrearon de una gran industria dijeron que planean votar por unirse a una federación. Si se utiliza un nivel de confianza de 0,95 ¿cuál es la estimación de intervalo para la proporción de la población?. Interprete.
UNSA
Dr. Armin Becerra Guzmán
301
1600 p 0.80 2000 Z 1,96
(0,80)(1 0,80) p 2000 p 0,00894
Pr{0,80-1,96(0,00894) < < 0,80 +1,96(0,00894) }= 0,95
Pr{0,782 < < 0,818} = 0,95
UNSA
Dr. Armin Becerra Guzmán
302
Interpretación: Hay 0,95 de confianza que el intervalo calculado pertenece al grupo de intervalos que contienen a la verdadera proporción poblacional.
UNSA
Dr. Armin Becerra Guzmán
303
Ajuste para poblaciones finitas El error estándar de la estimación sufre un ajuste, cuando se trata de una población finita. Error estándar de la media
X
N n . n N 1
Error estándar de la proporción p(1 p) . N n p n
N 1
Si la proporción n/N es menor a 0,05 se omite el ajuste.
UNSA
Dr. Armin Becerra Guzmán
304
Ejemplo 1 Hay 250 familias en un pequeño poblado. Una encuesta con 40 familias reveló que la contribución media anual a obras comunitarias es de US $450, con una desviación estándar de US $ 75. Establezca un intervalo de confianza de 0,95 para la contribución media anual. Interprételo.
UNSA
Dr. Armin Becerra Guzmán
305
Solución: Como la muestra es mayor a 5%, procede el ajuste.
N n N n Pr{x Z xZ 1 a n N 1
n N 1
75 250 40 75 250 40 450 1,96 0,95 Pr{450 1,96 } 40 250 1 40 250 1 Pr{450 23,24( 0,8433) 450 23,24( 0,8433)} 0,95 Pr{428,66 471,34} 0,95 UNSA
Dr. Armin Becerra Guzmán
306
Interpretación: Hay 0,95 de confianza que el intervalo elaborado pertenezca al grupo de intervalos que contienen a la verdadera media poblacional.
UNSA
Dr. Armin Becerra Guzmán
307
Ejemplo 2 Hay 300 técnicos en una gran empresa metal mecánica. Una muestra de 50 reveló que 18 cuentan con una experiencia previa en otra empresa similar. Establezca un intervalo de confianza al 0,95 para la proporción de técnicos con experiencia en otra empresa.
UNSA
Dr. Armin Becerra Guzmán
308
Solución: p
18 0,36 50
(036)(1 0,36) p 50 p 0,06788
N n) N n) p Z o p } 1 a Pr{ p Z o p N 1 N 1 300 50 300 50 } 0,95 Pr{0,36 (1,96)(0,06788) 0,36(1,96)(0,06788) 300 1 300 1 Pr{0,36 0,12165 0,36 0,12165} 0,95 Pr{0,23835 0,48165} 0,95 UNSA
Dr. Armin Becerra Guzmán
309
Interpretación: Hay 0,95 de confianza que el intervalo construido pertenezca al grupo de intervalos que contienen a la verdadera proporción poblacional.
UNSA
Dr. Armin Becerra Guzmán
310
Intervalo para la varianza
Pero ,
12-a 2
(n - 1)S2
2
(2n1)
a2 2
2 2 2 Pr 1-a a 1 a 2 2
UNSA
Dr. Armin Becerra Guzmán
311
Entonces: 2 (n 1) S 2 2 Pr 1-a 2 a 2 1 a 2 2 1 1 Pr 2 2 1a 2 a 2 1-a 2 (n 1) S 2 ( n 1 ) S (n 1) S 2 2 Pr 1a 2 2 1-a 2 a 2
UNSA
Dr. Armin Becerra Guzmán
312
Ejemplo: El número de ventas realizadas durante 10 días (n = 10) presenta una varianza de 9 (s2 = 9). Establezca un intervalo de confianza para la varianza poblacional (2 al 0,90.Interprételo.
UNSA
Dr. Armin Becerra Guzmán
313
Solución:
Datos: S2 = 9 n = 10 a = 0,10
9(9) 9(9) Pr 2 0.90 3,325 16,919 81 81 2 Pr 0.90 3,325 16,919
Pr 4.7875 2 24,3609 0.90
UNSA
Dr. Armin Becerra Guzmán
314
Interpretación: Hay 0,90 de confianza que el intervalo hallado se encuentre dentro del grupo de intervalos que contienen a la verdadera varianza poblacional.
UNSA
Dr. Armin Becerra Guzmán
315
PRUEBA DE HIPOTESIS
CONCEPTOS BÁSICOS (A) Hipótesis: Suposición acerca del parámetro. Hipótesis planteada o nula.
Hp ó H0 Es la suposición que el parámetro tome un determinado valor. Ejemplo: La hipótesis nula es que la media de la población es igual a 200. Ho : = 200
UNSA
Dr. Armin Becerra Guzmán
317
Hipótesis alternativa
(Ha o H1) Es el complemento de la hipótesis nula. Se acepta cuando se rechaza la hipótesis nula. Formas Si Ho : = 200 Ha : 200 Si Ho : 200 Ha : > 200 Si Ho : 200 Ha : < 200 La condición “igual” siempre se considera en la hipótesis nula
UNSA
Dr. Armin Becerra Guzmán
318
Las siguientes afirmaciones son hipótesis estadísticas. La media de vida de los peruanos es de 72 años.
La eficacia de dos medicamentos para curar cierta gripe es similar. Las notas de la el aula sigue un modelo normal de media de 12 y desviación estándar de 2.5 Una prueba de hipótesis permite aceptar o rechazar si determinadas afirmaciones son ciertas o falsas en función de los datos observados en una muestra. UNSA
Dr. Armin Becerra Guzmán
319
(B) Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro.
UNSA
Dr. Armin Becerra Guzmán
320
(C) Nivel de significación (a) a /2
a /2
(1 - a ) Zona de Aceptación -Z0
Z0
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. UNSA
Dr. Armin Becerra Guzmán
321
El nivel de confianza (1-a), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.
UNSA
Dr. Armin Becerra Guzmán
322
(D) Tipos de errores Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Hp o de la Ha, puede incurrirse en error: La muestra seleccionada conduce a
UNSA
EN LA POBLACIÓN
ACEPTAR Hp
RECHAZAR Hp
Hp es cierta
Decisión correcta
Error tipo I ó a
Hp es falsa
Error tipo II ó
Decisión correcta
Dr. Armin Becerra Guzmán
323
(1 - a)
Hp 0
Zona de rechazo si Hp es cierta a
0 Poder de la prueba
Ha 0 (1 - )
Zona de aceptación Hp
1 Zona de Rechazo Hp
UNSA
Dr. Armin Becerra Guzmán
324
Si la hipótesis planteada, Hp : 0 , es cierta, la zona de rechazo, a, medirá la probabilidad de que se rechace dicha hipótesis siendo cierta, incurriendo en Error Tipo I o a.
Supongamos que la hipótesis planteada es falsa, Hp: 0 , y que la alternante Ha: > 0 es verdadera, y si los resultados de la muestra nos conducen a aceptar la hipótesis planteada, estamos cometiendo el Error Tipo II ó
UNSA
Dr. Armin Becerra Guzmán
325
La magnitud del Error depende de la magnitud del Error a y de la discrepancia entre 0 y 1 Se observa la existencia de una relación inversa entre la magnitud de los errores a y : conforme a aumenta, disminuye.
UNSA
Dr. Armin Becerra Guzmán
326
Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer a y . En la práctica se establece el nivel a y para disminuir el Error se incrementa el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la hipótesis planteada.
UNSA
Dr. Armin Becerra Guzmán
327
La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar a cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- ) La aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis.
UNSA
Dr. Armin Becerra Guzmán
328
E) Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad
Ejemplo
a/2
Hp : = 200 Ha : 200
Zona de Aceptación -Z0
UNSA
a/2
(1 - a
Dr. Armin Becerra Guzmán
Z0
329
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con o . Hp : 200 Ha : < 200
Hp : 200 Ha : > 200
a a
UNSA
(1 - a)
(1 - a)
Dr. Armin Becerra Guzmán
330
PRUEBA DE HIPOTESIS Prueba con una sola muestra CARGA PARA UN AUTOSERVICIO Nos indican que el cargamento contiene cajas de vino embotellado. Cada caja contiene 24 botellas con 800gr promedio con una desviación estandar de 1,5. La empresa aceptará el cargamento si la prueba de hipótesis indican su aceptación si la media es 800gr. Rechazará si la media es diferente a 800gr
UNSA
La empresa realiza una muestra de 24 botellas Dr. Armin Becerra Guzmán 331
PRUEBA DE HIPOTESIS Prueba con una sola muestra Muestreo: Peso de líquido de 24 botellas con una media de 796 ALTERNATIVAS DE DECISION Aceptar si Ho:
Rechazar si Ha:
Cargamento Cargamento Bueno Malo
N n
UNSA
800 800
Aceptar el Cargamento Rechazar el Cargamento
Dr. Armin Becerra Guzmán
ERROR TIPO II ERROR TIPO I
332
PRUEBA DE HIPOTESIS Planteamiento de Hipótesis Ho : 800 Ha : 800
Cargamento Cargamento Bueno Malo Ho Ha
Aceptar el ERROR TIPO II Cargamento Rechazar el ERROR TIPO I Cargamento Ho : 800 Ha : 800 800 ó 800
UNSA
Dr. Armin Becerra Guzmán
333
PRUEBA DE HIPOTESIS Probabilidad de ocurrencia Ho : 800 Ha : 800
Cargamento Cargamento Bueno Malo
Aceptar el Confianza (1 a ) Ho Cargamento Ha Rechazar el Potencia (1 ) Cargamento
a
Probabilidad de que ocurra =
UNSA
Dr. Armin Becerra Guzmán
334
1
PRUEBA DE HIPOTESIS
Conocida
800 1,5 X = 796 Muestreo: Peso de líquido de 24 botellas con una media de 796 ALTERNATIVAS DE DECISION Aceptar si Ho: Rechazar si Ha: UNSA
800 800
Dr. Armin Becerra Guzmán
335
PRUEBA DE HIPOTESIS
Ho : 800 Rechazar
Aceptar
Rechazar
95%
Z
X
n UNSA
Z
796 800 1.5 24
Dr. Armin Becerra Guzmán
Z 13,06 336
2
PRUEBA DE HIPOTESIS
Conocida
800 1,5 X = 799,5 Muestreo: Peso de líquido de 24 botellas con una media de 799,5 ALTERNATIVAS DE DECISION Aceptar si Ho:
Rechazar si Ha: UNSA
800 800
Dr. Armin Becerra Guzmán
337
PRUEBA DE HIPOTESIS
Ho : 800 Rechazar
Aceptar
Rechazar
95%
Z
X
n UNSA
799.5 800 Z 1.5 24 Dr. Armin Becerra Guzmán
Z 1,632 338
3
PRUEBA DE HIPOTESIS
Desconocida
800 X = 796 S=1,8 Muestreo: Peso de líquido de 24 botellas con una media de 796 y desviación de 1,8
800
ALTERNATIVAS DE DECISION 800 Aceptar si Ho: UNSA
Dr. Armin Becerra Guzmán
339
PRUEBA DE HIPOTESIS
Ho : 800 Rechazar
Aceptar
Rechazar
95% -2,0687
t
UNSA
X S n
2,0687
t
796 800 1 .8 24
Dr. Armin Becerra Guzmán
t
t 10,88
340
Prueba de hipótesis acerca de la media poblacional (A) Con varianzas conocidas (muestras grandes) Ejemplo: Se afirma que el salario diario medio de los técnicos de una cierta zona minera es de S/.65,42, con una desviación estándar S/. 2,32. Una muestra de 144 técnicos que laboran en esa zona reciben un salario diario medio de 64,82 soles. ¿Puede considerarse este resultado como sustento para afirmar que técnicos de esa zona tienen un salario diario diferente de S/. 65,42 a un nivel de significación a = 0,05 ?.
UNSA
Dr. Armin Becerra Guzmán
341
Procedimiento 1) Plantear las hipótesis: Hp : = 65,42 Ha : 65,42 2) Seleccionar el nivel de significación: a = 0.05 3) Elegir la prueba estadística: x -
c
x
Los supuestos son: • la población está normalmente distribuida. • la muestra ha sido seleccionada al azar. UNSA
Dr. Armin Becerra Guzmán
342
4) Determinación de los criterios de decisión a/2
a/2
(1 - a) -Z0
Z0
-1.96
1,96
Si { -1.96 Zc 1.96 } se acepta la Ho, en caso contrario se rechaza. 5) Cálculos: 64,82 65,42 3,10 c
2,32
144 UNSA
Dr. Armin Becerra Guzmán
343
6) Conclusiones (1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba resultó ser significativa. (2) La evidencia estadística permite rechazar la hipótesis planteada. (3) Por lo tanto los datos muestrales confirman que el promedio de salarios diarios de los técnicos de la zona de estudio es menor de S/.65,42.
UNSA
Dr. Armin Becerra Guzmán
344
PRUEBA DE HIPOTESIS Prueba con una sola cola
CARGA PARA UN AUTOSERVICIO Suponga que el cargamento llega con las siguientes especificaciones: Contiene cajas de vino embotellado. Cada caja contiene 24 botellas: Cada botellas tiene mas de 800 gr con una desviación estandar de 1.4grs. La empresa aceptará el cargamento si la prueba de hipótesis indican su aceptación: si las botellas tienen mas de 800gr, rechazará si tiene menos o igual de 800gr. La empresa realiza una muestra de 24 botellas
UNSA
Dr. Armin Becerra Guzmán
345
4
PRUEBA DE HIPOTESIS
Conocida
800 1,4 X = 799,8
Ho : 800 Ha : 800 UNSA
Dr. Armin Becerra Guzmán
346
PRUEBA DE HIPOTESIS
Ho : 800 Rechazar
Aceptar
Aceptar
95% 5%
1,645
-1,645
Z
X
n UNSA
1,645
Z
799,8 800 1.4 24
Dr. Armin Becerra Guzmán
Z 0,699 347
EJEMPLO El administrador de un centro de internet desea saber si el tiempo medio invertido por cliente en la sala de cómputo es mayor que 20 minutos. Una muestra de 100 clientes permanecieron, en promedio, 23 minutos en la sala de cómputo. La desviación estándar de la muestra fue de 10. Sea a=0.05
1. Plantear las hipótesis
Ho : Ha :
20
20
2.Definir la prueba estadística: Como n = 100, aplica PRUEBA Z UNSA
Dr. Armin Becerra Guzmán
entonces se 348
3. Seleccionar el nivel de significación a = 0,05
4. Determinar el valor crítico: Como a = 0,05 y es de una sola cola, entonces Z = 1.645 Criterios de decisión Si prueba Z es mayor que 1,645, se rechaza Ho. Si prueba Z es menor o igual que 1,645, se acepta Ho.
UNSA
0
1,645
Dr. Armin Becerra Guzmán
349
5. Realizar el cálculo del estadístico Z
x 23 20 3 Z 3 10 sx 1 100 6. Conclusiones
(A) Se rechaza la hipótesis planteada, se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba resultó significativa
(B) Los datos disponibles como evidencia empírica, han permitido rechazar la hipótesis planteada. (C) El tiempo que espera un cliente muy probablemente sea mayor a los 20 minutos. UNSA
Dr. Armin Becerra Guzmán
350
(B) Con varianzas desconocidas (muestras chicas) Ejemplo: En un programa de mejoramiento del desempeño en la oficina de marketing, los participantes miden su progreso mediante el tiempo que les toma realizar cierto proceso de venta. Se tomó una muestra de 25 sujetos de esta empresa para medirles el tiempo que requieren para culminar el proceso de venta (en minutos) de otorgar una cita a un cliente, encontrándose una media muestral de 11,7 minutos y una desviación de estándar de 2,3 minutos. ¿Se puede afirmar que el tiempo medio para culminar este proceso es inferior de 12 minutos?. Utilice un nivel de significación a = 0,05.
UNSA
Dr. Armin Becerra Guzmán
351
Solución 1) Hipótesis: Hp : 12 Ha : 12
2) Nivel de significación: a = 0,05 3) Prueba estadística: x-
tc
S n
Los supuestos son: •la población se distribuye normalmente. •la muestra elegida al azar. UNSA
Dr. Armin Becerra Guzmán
352
4) Criterios de decisión
a (1 - a -t0 -1.711
to con GL = 24 y a = 0,05 Si { tc>-1,711} se acepta la Hp en caso contrario se rechaza
UNSA
Dr. Armin Becerra Guzmán
353
5) Cálculos: 12 tc 112,,70 0,6522 3 25
UNSA
Dr. Armin Becerra Guzmán
354
6) Conclusiones • Se acepta la hipótesis planteada a un nivel de significación de a = 0,05. La prueba resultó no significativa. • Los datos muestrales no permiten afirmar que el tiempo requerido para culminar la tarea es inferior a 12 minutos.
UNSA
Dr. Armin Becerra Guzmán
355
PRUEBA DE HIPOTESIS Prueba para proporciones
CARGA PARA UN AUTOSERVICIO Suponga que el cargamento llega con las siguientes especificaciones: Contiene cajas de vino embotellado. Cada caja contiene 24 botellas: Las botellas continen 800gr. De un total de 100 botellas, 92 botellas tienen exactamente esta cantidad. La empresa aceptará el cargamento si la prueba de hipótesis indican su aceptación La empresa realiza una muestra de 24 botellas
UNSA
Dr. Armin Becerra Guzmán
356
4
PRUEBA DE HIPOTESIS
92 / 100 x 22 / 24 Ho : 0,92 Ha : 0,92
UNSA
Dr. Armin Becerra Guzmán
357
PRUEBA DE HIPOTESIS
Ho : 0,92 Rechazar
Aceptar
Rechazar
95%
Z
x (1 ) n
UNSA
Z
0,9166 0.92 0,92(1 0,92) 24
Dr. Armin Becerra Guzmán
Z 0,6139 358
Prueba de hipótesis acerca de la proporción poblacional () Ejemplo: El Gerente de la Empresa Misti afirma que por lo menos 55% de los clientes se encuentra plenamente satisfecho con los servicios recibidos. ¿Qué conclusión puede obtenerse si de una muestra aleatoria de 500 clientes 245 manifestaron su preferencia?. Utilice un nivel de significación a = 0,01 para comprobar la afirmación. Proporción muestral
UNSA
245 : p= 0,49 500
Dr. Armin Becerra Guzmán
359
1) Planteo de Hipótesis: Hp : 0,55 Ha : 0,55 2) Nivel de significación: a = 0,01 3) Prueba estadística: p -
c
p
Los supuestos son: • la población se distribuye normalmente. • la muestra ha sido seleccionada al azar. UNSA
Dr. Armin Becerra Guzmán
360
4) Criterios de decisión
a
(1 - a Z -2,33
Si { Zc>-2,33} se acepta la hipótesis planteada, en caso contrario se rechaza.
UNSA
Dr. Armin Becerra Guzmán
361
5) Cálculos
p p
(1 ) n (0,55)(0,45) 0,022 500
Reemplazando valores en Z:
0,49 0,55 0,06 Z 2,73 0,022 0,022 UNSA
Dr. Armin Becerra Guzmán
362
6) Conclusiones 1) Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación a = 0,01. La prueba resultó ser altamente significativa. 2) La evidencia empírica nos permite rechazar la hipótesis planteada. 3) El Gerente de la empresa está equivocado en su afirmación, puesto que el resultado de la prueba indica que los clientes que se encuentran plenamente satisfechos es menor a 55%.
UNSA
Dr. Armin Becerra Guzmán
363
EJEMPLO Una encuesta en 64 laboratorios clínicos reveló que el precio medio cobrado por realizar cierta prueba es de S/. 12.00 con una desviación estándar de S/. 6.00. ¿ Proveen estos datos la suficiente información para indicar que la media de la población es mayor que 10?. Sea a = 0.01
UNSA
Dr. Armin Becerra Guzmán
364
EJEMPLO Los siguientes datos son los consumos de oxígeno (en ml) durante la incubación de una muestra aleatoria de 15 suspensiones celulares: 14.0, 14.1, 14.5, 13.2, 11.2, 14.0, 14.1, 12.2, 11.1, 13.7, 13.2, 16.0, 12.8, 14.4, 12.9. ¿Proporcionan estos datos suficiente evidencia, aun nivel de 0.05 de significación , de que la media de la población no es igual a 12 ml.?.
UNSA
Dr. Armin Becerra Guzmán
365
EJEMPLO El administrador de una empresa quiere saber si la población que concurre a una oficina A tiene un ingreso medio familiar mayor al de la población que concurre a una oficina B. Los datos consisten en los ingresos familiares de 75 clientes encuestados en la oficina A y 80 clientes encuestados en la oficina B. Las medias de las muestra son S/ 6800 y S/ 5450 respectivamente, y varianzas de S/ 600 y S/ 500 respectivamente.
UNSA
Dr. Armin Becerra Guzmán
366
EJEMPLO Un epidemiólogo desea comparar dos vacunas antirrábicas para averiguar si es posible concluir que existe diferencia en su efectividad. Las personas que previamente habían sido vacunada contra la rabia se dividieron en dos grupos. El grupo 1 recibió una dosis de refuerzo de la vacuna del tipo 1, y el grupo 2 recibió una dosis de refuerzo de la vacuna del tipo 2. Las respuestas de los anticuerpos se registraron dos semanas después:
UNSA
Grupo
n
x
s
1
10
4.5
2.5
2
9
2.5
2.0
Dr. Armin Becerra Guzmán
367
EJEMPLO Doce individuos participaron en un experimento para estudiar la efectividad de cierta dieta, combinada con un programa de ejercicios, para la reducción de los niveles de colesterol en suero. ¿ proporcionan estos datos la evidencia suficiente para concluir que el programa de ejercicios y dieta es efectivo para la reducción de los niveles de colesterol en el suero?. Antes: 201, 231, 221, 260, 228, 237, 326, 235, 240, 267, 284, 201 Después: 200, 236, 216, 233, 224, 216, 296, 195, 207, 247, 210, 209 UNSA
Dr. Armin Becerra Guzmán
368
Ejemplo
Se hizo un estudio de una muestra de 25 registros de clientes mas importantes. El número medio de visitas por cliente fue 4,8 y la desviación estándar muestral fue de 2. ¿Puede concluirse a partir de estos datos que la media de la población es mayor que cuatro visitas por cliente?. Suponga que la probabilidad de cometer error del tipo I es de 0,05.
UNSA
Dr. Armin Becerra Guzmán
369
Prueba de Hipótesis acerca de la Varianza Poblacional Ejemplo: El Gerente de Producción de una fábrica productora de agujas industriales, entre ellos agujas N° 21, desea que la variabilidad de éstas sea a lo más 0,0005 cm y para el efecto, decide tomar una muestra de su producción escogiéndola al azar obteniendo los resultados: 1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20; 1,14; 1,12; 1,19; 1,10; 1,14; 1,13. La probabilidad de cometer error tipo I escogido por el fabricante es 0,01. UNSA
Dr. Armin Becerra Guzmán
370
1) Planteo de Hipótesis: Hp : 2 0,0005 Ha : 2 0,0005 2) Nivel de significación: a = 0,01 3) Prueba estadística: (n – 1) S2 2 Los supuestos son: • la población se distribuye normalmente. • la muestra ha sido seleccionada al azar.
UNSA
Dr. Armin Becerra Guzmán
371
4) Criterios de decisión
a/2=0,01
(1 - a 0,99
a2
2
26,217
Si {2 26,217 } se rechaza la hipótesis planteada, en caso contrario se acepta.
UNSA
Dr. Armin Becerra Guzmán
372
5) Cálculos Datos: n = 13 S2= 0,0011634 (13 – 1) (0,0011634) 0,0005 = 27,92736
UNSA
Dr. Armin Becerra Guzmán
373
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS CARGA PARA UN AUTOSERVICIO Nos indican que la doble carga contiene cajas de vino embotellado. Cada caja contiene 24 botellas con 800gr promedio con una desviación estandar de 1,5. La empresa aceptará los cargamentos si la prueba de hipótesis indican su aceptación
N n UNSA
n
La empresa realiza 1 muestra de 24 botellas por cada carga
Dr. Armin Becerra Guzmán
375
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS 1
2
800 1,5
800 1,5 X = 799,8
n
X = 801,5
n
Ho : 1 2 ó 1 2 0 Ha : 1 2 ó 1 2 0
UNSA
Dr. Armin Becerra Guzmán
376
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS Ho : 1 2 Rechazar
Aceptar
Rechazar
95%
Z
( X 1 X 2 ) ( 1 2 )
12 n1 UNSA
22 n2
Z
(799,8 801,5) (800 800) 1,52 1,52 24 24
Dr. Armin Becerra Guzmán
Z 3,92 377
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE MEDIAS Si no se conoce las desviaciones poblacionales ( X 1 X 2 ) ( 1 2 ) t 1 2 1 Sx ( ) n1 n2
Donde (n 1) S1 (n2 1) S 2 1 (n1 1) (n2 1) 2
Sx
UNSA
2
Dr. Armin Becerra Guzmán
2
378
Prueba de Diferencia de Medias con Varianzas Conocidas Ejemplo: Una empresa de confecciones desea tener información de las estaturas de niños de 10 años. En un estudio comparativo de las estaturas de niños de 10 años, en dos ciudades diferentes, se conoce que la desviación estándar poblacional es 0,8 y 1,1 metros respectivamente. Se desea conocer si existe diferencia entre la media de talla de los niños de 10 años de las dos ciudades; una muestra de 30 y 35 niños determinó una media muestral de 1,30 y 1,35 metros respectivamente. Probar la hipótesis respectiva usando un nivel de significación de 5%. UNSA
Dr. Armin Becerra Guzmán
379
Solución: 1) Planteo de Hipótesis Hp : = 2 Ha : 2 2) Nivel de significación a 0,05 3) Prueba de estadística
c
x
1
x 2 - 1 2
12 n1
con los supuestos – las distribuciones son normales – las muestras se seleccionaron al azar. UNSA
Dr. Armin Becerra Guzmán
22 n2
380
4) Criterios de decisión 2
2 (1 - a 2
a/2 .25
a/2 .25
-Z0
Z0
-1.96
1.96
Si ,9 Zc ,9 se acepta Ho, en caso contrario se rechaza.
UNSA
Dr. Armin Becerra Guzmán
381
5) Cálculos c
1,30 1,35 - 0 2 2 0,8 1,1 30
UNSA
0,2115
35
Dr. Armin Becerra Guzmán
382
6. Conclusiones 1° No se rechaza la hipótesis nula, a un nivel de significación de 0,05. La prueba resultó no significativa. 2° La evidencia estadística disponible permite concluir que no hay diferencias entre las estaturas medias de niños de 10 años en las dos ciudades
UNSA
Dr. Armin Becerra Guzmán
383
Prueba para diferencia de medias con varianzas no homogéneas y n 30 1) Planteo de hipótesis Ho : = 2 Ha : 2 2) Nivel de significación a ,5 3) Prueba estadística
tc
x
1
x2 - 1 2 S12 S 22 n1 n2
con los supuestos las poblaciones se distribuyen normalmente las muestras han sido seleccionada al azar UNSA
Dr. Armin Becerra Guzmán
384
EJEMPLO Se cuenta con dos muestras de tamaño 13 y 10 con medias 11,09 y 13,46 y desviaciones estandar de 1,74 y 8,45 respectivamente, determinar si las medias poblacionales son significativamente diferentes con un nivel de confianza del 95% 1) Planteo de hipótesis Ho : = 2 Ha : 2 2) Nivel de significación a ,5 3) Prueba estadística
tc UNSA
x
1
x2 - 1 2 S12 S 22 n1 n2
Dr. Armin Becerra Guzmán
385
4) Criterios de decisión
S12 S 22 t1 t 2 n1 n2 t 2 2 S1 S 2 n1 n2
t
1,74 8,45 (2,179) 10 13 1,74 8,45 13 10
2 a/2
(2,262) 2,25
2 a/2
(1 - a 2 - t´ -2,25
t´ 2,25
Si 2,25 tc 2,25 se acepta la Ho, en caso contrario se rechaza UNSA Dr. Armin Becerra Guzmán 386
5) Cálculos .37 tc 11.09 13.46 - 0 0.2989 2.4 1.74 8.45 13 10
UNSA
Dr. Armin Becerra Guzmán
387
6) Conclusiones 1° Se rechaza la Ho se acepta la H1 a un nivel de significación de 5%. La prueba resultó ser significativa. 2° La evidencia estadística no permite aceptar la Ho 3° La estatura de los dos grupos de edades no tienen el mismo promedio.
UNSA
Dr. Armin Becerra Guzmán
388
Prueba para diferencia de medias con variancias homogéneas y 2 desconocidos Ejemplo: Una empresa productora de lácteos NESTUI desea determinar si existen diferencias en los promedios de incrementos de peso (gramos) de niños recién nacidos (en un período 20 días) alimentados con leche materna y leche en polvo NESTUI. Leche NESTUI
Desviación estándar
X1 = 366,35 S1 = 16,71
Tamaño de la muestra
n1
Incremento medio de peso
UNSA
= 25
Dr. Armin Becerra Guzmán
Leche Madre
X2
= 369,74
S2
= 14,20
n2
= 20 389
Solución: 1) Planteo de hipótesis Ho : = 2 Ha : 2
2) Nivel de significación a 0,01
UNSA
Dr. Armin Becerra Guzmán
390
3) Prueba estadística
tc
x
1
x2 - 1 2 1 1 S n1 n2 2 p
con los supuestos las poblaciones se distribuyen normalmente las muestras han sido seleccionadas al azar
S p2 Variancia ponderada UNSA
n 1S n 1
2 1
2
1S 22
n1 n2 2
Dr. Armin Becerra Guzmán
391
4) Criterios de decisión
to con (n
1
+ n2 -2) a/2
a/2
(1 - a
- tO -2,6956
tO 2,6956
Si 2,95 tc 2,95 se acepta la Ho, en caso contrario se rechaza UNSA
Dr. Armin Becerra Guzmán
392
5) Cálculos 24(16,71) 2 1914,20
2
S p2
S Entonces
UNSA
10,532.538 244,943 43
2 p
tc tc
25 20 2
(366,35 369,74) 0
1 1 244,943 25 20 3,39 0.72 22,045
Dr. Armin Becerra Guzmán
393
6) Conclusiones 1° No se rechaza la hipótesis planteada a un nivel de significación de 0,01. La prueba resultó no significativa.
2° La evidencia estadística disponible no permite rechazar la hipótesis nula. 3° Los incrementos medios de peso de los niños
alimentados de las dos formas no presentan diferencias estadísticamente significativas.
UNSA
Dr. Armin Becerra Guzmán
394
Prueba de hipótesis para diferencia de proporciones Ejemplo: Se supone que un ambiente mas iluminado es adecuado en personas de ambos sexos, estresadas por el trabajo, para elevar el nivel de productividad. A un grupo de 200 varones estresados se los ubicó en nuevas oficinas iluminadas y 72 de ellos experimentaron una disminución en su nivel de estrés. Lo mismo provocó en 49 de una muestra aleatoria independiente de 200 mujeres con estrés. Pruebe la hipótesis que el ambiente iluminado es igualmente eficiente en personas de ambos sexos, con un a = 0,05 . UNSA
Dr. Armin Becerra Guzmán
395
Solución: 1) Planteo de hipótesis
Ho : 1 = 2 Ha : 1 2 2) Nivel de significación: a 0,05
UNSA
Dr. Armin Becerra Guzmán
396
3) Prueba estadística
(p1 - p 2 ) - (1 - 2 ) Zc p1 -p2 con los supuestos las poblaciones se distribuyen normalmente las muestras se han elegido al azar
UNSA
Dr. Armin Becerra Guzmán
397
4) Criterios de decisión
a/2
a/2
(1 - a
- ZO -1,96
ZO 1,96
Si ,9 Zc ,9 se acepta la Ho, en caso contrario se rechaza
UNSA
Dr. Armin Becerra Guzmán
398
5) Cálculos n p n p ( 200 )( 0 , 36 ) ( 200 )( 0 , 245 ) 2 2 0 , 3025 pˆ = 1 1 n n 200 200 1 2
ˆ
p p 1 2
ˆ
p p 1 2
pˆ qˆ
n
pˆ qˆ
(0,3025 )( 0,6975) ( 0,3025 )( 0,6975 )
n 1
200
200
2
0 , 046
Entonces,
Zc
(p1 - p 2 ) - ( 1 - 2 )
p1 - p 2
(0,36 0,245) 0 0,046
Z c 2,5 UNSA
Dr. Armin Becerra Guzmán
399
6) Conclusiones 1)Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de 0,05. La prueba fue significativa. 2)La evidencia estadística no permite aceptar la hipótesis nula. 3)Existe diferencia significativa en la proporción de hombres y mujeres beneficiadas con el consumo del medicamento.
UNSA
Dr. Armin Becerra Guzmán
400
Prueba de hipótesis para diferencia de medias mediante el apareamiento de variables Ejemplo:
Con la finalidad de reducir la producción defectuosa se calibra las 10 maquinas que se utilizan para encapsular. A continuación se presenta la información de los productos defectuosos (en unidades) antes y después de la calibración. Utilice un nivel de significación de 0,05 para probar que la calibración tuvo efectos positivos en la reducción del número de productos defectuosos.
UNSA
Dr. Armin Becerra Guzmán
401
Los datos registrados se presentan a continuación:
MAQUINAS
1
2
3
4
5
6
7
8
9 10
ANTES
73 77 68 62 72 80 76 64 70 72
DESPUÉS
68 72 64 60 71 77 74 60 64 68
UNSA
Dr. Armin Becerra Guzmán
402
n = 10
Cálculos previos Antes
Después
Diferencias: d
73 77 68 62 72 80 76 64 70 72
68 72 64 60 71 77 74 60 64 68
5 5 4 2 1 3 2 4 6 4
UNSA
Dr. Armin Becerra Guzmán
Diferencia de medias Sd = 3,6
Sd=1.578
d = 3.6 Sd =
Sd 1.578 0.499 n 10 403
1) Planteo de hipótesis Ho : d 0 Ha : d 0 2) Nivel de significación: a ,5 3) Prueba estadística d d
tc
Sd
con los supuestos la población (d) se distribuye normalmente la muestra se ha elegido al azar UNSA
Dr. Armin Becerra Guzmán
404
4) Criterios de decisión
to con (n - 1) (1 - a
tO
a
1,833
Si c , se acepta la Ho, en caso contrario se
t
rechaza UNSA
Dr. Armin Becerra Guzmán
405
5) Cálculos
tc
d d Sd
3.6 0 7.21 0.499
UNSA
Dr. Armin Becerra Guzmán
406
6) Conclusiones 1) Se rechaza Hp y se acepta la Ha a un nivel de significación 0,05.La prueba fue significativa. 2) La evidencia estadística no permite aceptar la hipótesis planteada. 3) El número de defectuosos después de la calibración disminuyó.
UNSA
Dr. Armin Becerra Guzmán
407
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE VARIANZAS
11-4
Prueba de Homogeneidad de Varianzas • Para prueba de dos colas, el estadístico de prueba está dado por: 2 1 2 2
S F S •
S12 y S 22
Son las varianzas muestrales para las dos muestras. La hipótesis nula se rechaza si el cálculo del estadístico de prueba es más grande que el valor crítico (de tablas) con nivel de confianza a / 2 y grados de libertad para el numerador y el denominador.
UNSA
Dr. Armin Becerra Guzmán
409
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE VARIANZAS 2
S1 F 2 S2
Ho : 1 2
2
Ha : 1 2
2
2
2
UNSA
Dr. Armin Becerra Guzmán
410
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE DESVIACIONES 1
2
800
800 n = 24 S = 1,30
n
n = 24 S =1,45
n
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE DESVIACIONES PARA TAMAÑO DE MUESTRAS IGUALES
Rechazar
Ho : 1 2 2
Aceptar
Rechazar Si :
2
S1= 1.30 S2= 1.45
95%
F = 1,69 / 2,1025 F = 0,8038
FL
Fu
0,43
2,33
FU Tabla con a 0.025 y gl1 23 Y gl 2 23 2.33 UNSA
F 2
1 FL FU
Dr. Armin Becerra Guzmán
S1 F 2 S2 412
11-6
EJEMPLO 2 Colin, agente de bolsa del Critical Securities, reportó que la tasa media de retorno en una muestra de 10 acciones de software fue 12.6% con una desviación estándar de 3.9%. La tasa media de retorno en una muestra de 8 acciones de compañías de servicios fue 10.9% con desviación estándar de 3.5%. Para .05 de nivel de significancia, ¿puede Colin concluir que hay mayor variación en las acciones de software?
UNSA
Dr. Armin Becerra Guzmán
413
11-7
H1:s u • Paso 1: H0:s u • Paso 2: H0 se rechaza si F > 3,68 (en la tabla) gl = (9, 7), a= ,05 2 . ) 2 12416 . • Paso 3: F (3.9) / (35 • Paso 4: H0 no se rechaza. No hay evidencia suficiente para asegurar que hay mayor variación en las acciones de software.
UNSA
Dr. Armin Becerra Guzmán
414
Ejemplo: En un programa de salud para pacientes con problemas cardíacos de dos grupos de edades: (40 49) y (50 - 59) años, la Tasa de Recuperación Cardíaca (TRC) es un indicador del progreso del paciente. Una muestra de pacientes de cada grupo de edad fue considerado en un estudio, que consistió en medir la TRC (minutos) de cada paciente después de correr 3 Km.
UNSA
Dr. Armin Becerra Guzmán
415
PRUEBA DE HIPOTESIS PARA DIFERENCIA DE DESVIACIONES PARA TAMAÑO DE MUESTRAS DESIGUALES Datos Tasa de Recuperación Cardiaca (minutos) Grupo 1 (40 - 49): 12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 12,01 11,03 12,01 11,31 Grupo 2 (50 -59): 14,33 10,35 12,51 18,11 13,45
11,28
11,48
14,05
8,28
10,51 18,50
Determine si existe diferencia en la variabilidad de las TRC en los dos grupos de edades. Utilice a = 0,10 UNSA
Dr. Armin Becerra Guzmán
416
Las medias y varianzas muestrales de las TRC en los pacientes de los dos grupos de edades son: Grupo1 (40 - 49)
X = 11,09 S
2 1
n1 UNSA
= 1,74 = 13
Grupo 2 (50 - 59)
X = 13,46 S 22 = 8,45 n2
Dr. Armin Becerra Guzmán
= 10 417
Solución 1) Planteo de Hipótesis:
Ho :
2 2
Ha :
2 2
2 1
2 1
2) Nivel de significación: a = 0,10
UNSA
Dr. Armin Becerra Guzmán
418
3) Prueba estadística: 2 SM Fc 2 Sm
S M2 : Varianza muestral mayor S m2 : Varianza muestral menor con los supuestos: - las poblaciones están normalmente distribuidas. - las muestras han sido seleccionadas al azar UNSA
Dr. Armin Becerra Guzmán
419
4) Criterios de decisión a/2
(1 - a F1- a/2 F0,.95 0, 326
Fa
con a 2 y
2
Fa 1- 2 Si
UNSA
1 F 0,05 (12,9)
con GL
1 3 , 07
a/2
Fa/2 F0,05 2,80
(9,12) = 2,80 0 , 326
Invertimos los grados libertad para buscar F inferior de la tabla
0,326 F 2,80 . se acepta la Ho en caso contrario se rechaza. c Dr. Armin Becerra Guzmán
420
5) Cálculos 2 SM 8.45 Fc 2 1.74 4.86 Sm
UNSA
Dr. Armin Becerra Guzmán
421
6) Conclusiones 1° Se rechaza la hipótesis planteada y se acepta la hipótesis alternante a un nivel de significación de a = 0,10. Las varianzas no son homogéneas 2° La evidencia estadística no permite aceptar la Ho
3° Las TRC de pacientes en los dos grupos de edades tienen variabilidad diferentes.
UNSA
Dr. Armin Becerra Guzmán
422
PRUEBA DE INDEPENDENCIA ESTADISTICA Ji - cuadrada
USOS DE LA 2
La prueba de bondad de ajuste: probar si la estructura de la muestra se “ajustan” (o es representativo) de la estructura poblacional. La prueba de Independencia: permite probar si dos atributos son independientes o no.
Ejemplo: sexo y desempeño laboral
2
UNSA
f
0
fe
2
fe
Dr. Armin Becerra Guzmán
424
PRUEBA DE INDEPENDENCIA ESTADISTICA Ejemplo: Suponga que en cuatro regiones, la Compañía IBM registra las actitudes de los empleados de sus oficinas representantes en nuestro país con respecto al examen de desempeño en el trabajo. A los trabajadores se les da a escoger entre el método actual (dos exámenes al año) y un nuevo método (exámenes cada trimestre). Utilice un a=0,10 para probar que la región es independiente a la preferencia por el método de evaluación.
UNSA
Dr. Armin Becerra Guzmán
425
NUMERO DE TRABAJADORES QUE PREFIEREN UN METODO EN PARTICULAR
NORESTE
SURESTE
CENTRO
COSTA
TOTAL
OCCIDENTAL METODO
68
75
57
79
279
32
45
33
31
141
100
120
90
110
420
ACTUAL
METODO NUEVO TOTAL
UNSA
Dr. Armin Becerra Guzmán
426
1) Planteo de Hipótesis: HO: Son independientes H1 : Son dependientes
2) Nivel de significación: a = 0,10
fe = n. proporción
UNSA
Dr. Armin Becerra Guzmán
427
Prueba estadística:
2
f
0
fe
2
fe
supuestos: * la población se distribuye normalmente. * la muestra se ha seleccionado al azar
UNSA
Dr. Armin Becerra Guzmán
428
Cálculos Primero se determina las fe (frecuencias esperadas) P=279/420 =0.6643
NORESTE Fe = 0.6643*100
METODO ¦o ACTUAL ¦e
SURESTE
CENTRO
Fe = 0.6643*120
COSTA OCCIDENTAL
68
75
57
79
66.43
79.72
59.79
73.07
METODO ¦o NUEVO ¦e
32
45
33
31
33.57
40.28
30.21
36.93
TOTAL
100
120
90
110
UNSA
TOTAL
Dr. Armin Becerra Guzmán
279
141 420 429
Criterios de decisión
a/2=0,05
a/2=0,05
(1 - a 0,90 0,352
12a
7,815
2
a2
2
GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3
12a 02.95 con 3GL = 0.352 2
a2 02.05 con 3GL = 7.815 2
Si 0.352 2 7.815 Se acepta la Ho en caso contrario se rechaza UNSA
Dr. Armin Becerra Guzmán
430
Después se aplica la prueba
2 c
f
0
fe
2
fe
2 2 2 2 ( 68 66 . 43 ) ( 75 79 . 72 ) (57 59 . 79 ) ( 79 73 . 07 ) c2 66.43 79.72 59.79 73.07
(32 3357 . ) 2 (45 40.28) 2 (33 30.21) 2 (31 36.93) 2 3357 . 40.28 30.21 36.93
c2 2.7638 UNSA
Dr. Armin Becerra Guzmán
431
Conclusiones 1) Se acepta Ho, se rechaza la Ha 2) La evidencia empírica disponible no permite
rechazar la hipótesis planteada 3) La actitud sobre le método de evaluación del desempeño laboral, es independiente de la región
en que labore el trabajador.
UNSA
Dr. Armin Becerra Guzmán
432
EJEMPLO En una empresa se somete a cinco programas de adiestramiento a un determinado número de trabajadores que aparece reflejado en la siguiente tabla, Preguntan si al final del programa mejoran o no la calificaciones. ¿Existe diferencia entre los diferentes programas de adiestramiento a un nivel de significación 0.05?
UNSA
Dr. Armin Becerra Guzmán
433
Programa Nº participantes Particip. aprobados
A 50 11
B 52 9
C 46 8
D 54 17
E 48 7
¿Qué concluimos?
UNSA
Dr. Armin Becerra Guzmán
434
EL METODO ANOVA
¿Qué es el ANOVA?
Es un método de cálculo para probar la hipótesis de que las medias de dos o mas poblaciones son iguales. Ejemplos:
Comparación de efectos logrado por cinco clases de pruebas de control de calidad. Determinar cuál de los cuatro métodos de capacitación produce un aprendizaje más rápido. El número de vistas publicitarias en la televisión.
UNSA
Dr. Armin Becerra Guzmán
436
11-8
Suposiciones del ANOVA La distribución F también se usa para probar la igualdad de más de dos medias con una técnica llamada análisis de varianza (ANOVA). El ANOVA requiere las siguientes condiciones: A. La población que se muestrea tiene una distribución normal B. Las poblaciones tienen desviaciones estándar iguales C. Las muestras se seleccionan al azar y son independientes
UNSA
Dr. Armin Becerra Guzmán
437
11-9
Procedimiento para el análisis de varianza • Hipótesis nula: las medias de las poblaciones son iguales. • Hipótesis alterna: al menos una de las medias es diferente. • Estadístico de prueba: F = (variancia entre muestras)/(variancia dentro de muestras). • Regla de decisión: para un nivel de significación a, la hipótesis nula se rechaza si F calculada es mayor que F tabular con grados de libertad en el numerador y en el denominador.
UNSA
Dr. Armin Becerra Guzmán
438
El modelo aditivo lineal : MAL Se aplica como una suma y los exponentes son iguales a 1. Explica cómo está formada una observación
Xi= + i
Donde i = error, es decir la variabilidad (o diferencia) entre la observación y el promedio
Xi i
UNSA
Dr. Armin Becerra Guzmán
439
El MAL para el ANOVA con un factor:
Xij i ij Donde i = efecto del tratamiento N
X ( ) j1
i
ij
i
N
ij
N
1 2 1
2
UNSA
Dr. Armin Becerra Guzmán
440
Si la Hp : 1= 2
Reemplazando tenemos Hp : + 1= + 2
Hp : 1= 2 Sólo se prueba la diferencia entre tratamientos
UNSA
Dr. Armin Becerra Guzmán
441
El modelo de ANOVA con igual número de repeticiones
UNSA
T1
T2
T3
X11
X12
X13
X21
X22
X23
X31
X32
X33
X41
X42
X43
X51
X52
X53
X.1
X.2
X.3
Dr. Armin Becerra Guzmán
442
La tabla del ANOVA Fuentes de variabilidad Entre grupos (Tratamientos)
Suma de Cuadrados t SC trat
X j1
2 j
r
X2 rt
GL
F Cuadrado calculado Medio
SC trat CMe t-1 GL
Fc
CMe trat CMe ee
F teórico Ft con (t-1) y (rt-t)
2 Dentro de los grupos SC X2 X j r t - t CMe SC ee ij r ee GL (Error Experimental)
Total
UNSA
SC total
X2 Xij r t -1 rt 2
Dr. Armin Becerra Guzmán
443
La tabla del ANOVA (Simplificado) Fuentes de variabilidad
Suma de Cuadrados
GL
Cuadrado Medio
n
Entre grupos (Tratamientos)
Dentro de los grupos (Error Experimental)
SSA n j ( X j X )
2
c- 1
j 1
SSW X ij X j
2
SST X ij X
n-c
SSW
n -1
SST
2
Total
UNSA
SSA
Dr. Armin Becerra Guzmán
Suma de Varianza MSA
SSA c 1
MSW
SSW nc
F
F
MSA MSW
444
11-12
Aplicación 1 Se realiza un estudio para comparar la eficacia de tres programas terapéuticos para el tratamiento del acné de tipo medio a moderado. Se emplean tres métodos: I. Este método, el más antiguo, supone el lavado, dos veces al día, con un cepillo de polietileno y un jabón abrasivo, junto con el uso diario de 250 mg. de tetraciclina. II. Este método, el utilizado actualmente, consiste, en la aplicación de crema de tretinoína, evitar el sol, lavado dos veces al día con jabón emulsionante y agua, y utilización, dos veces al día, de 250 mg. De tetraciclina. UNSA
Dr. Armin Becerra Guzmán
445
11-13
III. Este es un método nuevo que consiste en evitar el agua, lavado dos veces al día con limpiador sin lípidos, y uso de crema de tretinoína y de peroxido de benzoilo. Se comparan estos tres tratamientos en cuanto a su eficacia en la reducción del número de lesiones de acné en los pacientes. En el estudio participaban treinta pacientes. Se les separó aleatoriamente en tres subgrupos de tamaño 10. A uno de los subgrupos se le asignó el tratamiento I, a otro el tratamiento II y al tercero, el tratamiento III. Después de 16 semanas se anotó para cada paciente la tasa porcentual de mejoría, medido en número de lesiones. UNSA
Dr. Armin Becerra Guzmán
446
Se obtuvieron los siguientes datos:
UNSA
I
II
III
48.6
68.0
67.5
49.4
67.0
62.5
50.1
70.1
64.2
49.8
64.5
62.5
50.6
68.0
63.9
50.8
68.3
64.8
50.8
71.9
62.3
47.1
71.5
61.4
52.5
69.9
67.4
49.0
68.9
65.4
50.6
67.8
63.2
549.3
755.9
705.1
Dr. Armin Becerra Guzmán
447
Solución 1.
Planteamiento de hipótesis: Hp : 1= 2= 3 Ha : 1= 2= 3 (no todas las medias son iguales) 2. Nivel de significación a = 0.05 3. Prueba estadística
CMe trat Fc CMe ee
UNSA
Dr. Armin Becerra Guzmán
448
4. Criterios de decisión
3,3158
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta. 4. Cálculos Resolviendo tenemos los siguientes resultados: P valor < 0,05 se rechaza la Ho Fuente de variabilidad
SC
GL
CMe
Tratamientos
2107.20727
2
1053.60364
Error experimental
105.121818
30
3.50406061
Total
2212.32909
32
UNSA
Dr. Armin Becerra Guzmán
F cal
p-valor
F teórico
300.680769
1.42117E-20
3.31583294
449
6.
Conclusiones A. Se rechaza la hipótesis planteada, se acepta la hipótesis alterna a un nivel de significación de 0,05. La prueba fue significativa. B. Al menos un método de capacitación es diferente a los demás
UNSA
Dr. Armin Becerra Guzmán
450
El modelo de ANOVA con diferente número de repeticiones T1
T2
T3
X11
X12
X13
X21
X22
X23
X31
X32
X33
X42
X43
X52 X.1
UNSA
X.2
Dr. Armin Becerra Guzmán
X.3
451
La tabla del ANOVA Fuentes de variabilidad
Suma de Cuadrados X2j X2 r j1 rj j
GL
F Cuadrado calculado Medio
t
Entre grupos (Tratamientos)
Dentro de los grupos (Error Experimental)
Total
UNSA
SC trat
t-1
CMe
SC trat GL
Fc
CMe trat CMe ee
F teórico Ft con (t-1) y (rtt)
Xij2 SC ee X r t - t r SC ee j CMe 2 ij
GL
SC total
X2 Xij rj r t -1 2
Dr. Armin Becerra Guzmán
452
Aplicación 2 El director de entrenamiento de una compañía está tratando de evaluar tres diferentes métodos de entrenamiento para empleados nuevos. El primer método consiste en asignar un empleado nuevo con un trabajador experimentado para que éste lo asista en la fábrica. El segundo método consiste en ubicar a todos los empleados nuevos en un salón de entrenamiento separado de la fábrica, y el tercer método consiste en utilizar películas de entrenamiento y materiales de aprendizaje. UNSA
Dr. Armin Becerra Guzmán
453
El director de entrenamiento escoge al azar 16 empleados nuevos asignados a los tres métodos y registra su producción diaria después que terminaron sus programas de entrenamiento: Metodo 1
15
18
19
22
11
Metodo 2
22
27
18
21
17
Metodo 3
18
24
19
16
22
15
El director pregunta si existen diferencias en cuanto a la efectividad entre los tres métodos. UNSA
Dr. Armin Becerra Guzmán
454
Solución 1.
Planteamiento de hipótesis: Hp : 1= 2= 3 Ha : 1= 2= 3 (no todas las medias son iguales) 2. Nivel de significación a = 0.05 3. Prueba estadística
CMe trat Fc CMe ee UNSA
Dr. Armin Becerra Guzmán
455
4. Criterios de decisión
3,81
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta. 4. Cálculos Obtenemos los siguientes resultados:
ANÁLISIS DE VARIANZA
UNSA
Fuentes de Variabilidad
SC
GL
CMe
F cal
p-valor
F tabular
Entre grupos
40
2
20
1.35
0.29
3.81
Dentro de los grupos
192
13
14.7692308
Total
232
15
Dr. Armin Becerra Guzmán
456
6.
Conclusiones A. Se acepta la hipótesis planteada, se rechaza la hipótesis alterna a un nivel de significación de 0,05. La prueba no resultó significativa. B. Los datos muestrales no proporcionan evidencia para afirmar que los tratamientos son diferentes.
UNSA
Dr. Armin Becerra Guzmán
457
REGRESIONES SIMPLES
El diagrama de dispersión Es un gráfico que permite detectar la existencia de una relación entre dos variables. Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables.
UNSA
Dr. Armin Becerra Guzmán
459
(b) Lineal inversa
(a) Lineal directa Y
Relaciones posibles entre X y Y vistos en diagramas de dispersión
Y
• • • • • • • •• Y
Y
•
X
• • •• •• • • •• • • •••
(d) Curvilinea inversa
X Y
• • •• • •• X (e) Lineal inversa con más dispersión
Dr. Armin Becerra Guzmán
•
• •• • • •• •• • •••
•
X
UNSA
(c) Curvilínea directa
Y
X
• •• •• • • • • • • • •• •• • • • ••• • • • X (d) Ninguna relación
460
Aplicación Los datos siguientes muestran las cantidades consumidas de leche del programa alimentario (en Kg.) y el aumento de peso de niños con signos de desnutrición. PACIENTE
COMPLEMENTO
1
2
3
4
5
6
7
8
9
10
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
8
10
9
12
14
13
15
17
14
14
EN Kg: X AUMENTO DE PESO : Y
Presente la información en un diagrama de dispersión UNSA
Dr. Armin Becerra Guzmán
461
Procedimiento 1er Paso: Reúna pares de datos (X,Y), cuya relación desea estudiar y organice la información en una tabla. NIÑOS COMPLEMENTO
1
2
3
4
5
6
7
8
9
10
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
8
10
9
12
14
13
15
17
14
14
EN Kg: X AUMENTO DE
PESO : Y
UNSA
Dr. Armin Becerra Guzmán
462
2do Paso: Encuentre los valores mínimos y máximos para X e Y. Elija las escalas que se usarán en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama.
20 15 10 5 0 0.0
UNSA
2.0
4.0
Dr. Armin Becerra Guzmán
6.0
463
3er Paso: Registre los datos en el gráfico. Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo círculos concéntricos (o), o registre el segundo punto muy cerca del primero.
20 15 10 5 0 0.0 UNSA
2.0 Dr. Armin Becerra Guzmán
4.0
6.0 464
4to Paso: Agregue toda la información que puede ser de utilidad para entender el diagrama, tal como: título del diagrama, período de tiempo, número de pares de datos, nombre de la variable y unidades de cada eje, entre otros.
Aumento de peso (Kg)
Relación complemento nutricional y aumento de peso
UNSA
20 15 10 5 0 0.0
2.0
4.0
6.0
Complemento nutricional (Kg) Dr. Armin Becerra Guzmán
465
Las Ecuaciones Lineales Simples Si dos variables, como X e Y, están relacionadas, se puede expresar como una relación, por ejemplo: Y = 3 + 1,5X Al conocer la ecuación se puede: a) Calcular el valor de Y para cualquier valor dado de X b) Conocer el cambio en Y, cuando X varía en 1
UNSA
Dr. Armin Becerra Guzmán
466
Por ejemplo: Y = 3 + 1,5X Valor Valor Cambio dado de X calculado de Y de Y 1 4,5 2 6,0 1,5 3 7,5 1,5 4 9,0 1,5 5 10,5 1,5
UNSA
Dr. Armin Becerra Guzmán
467
El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X. Ejemplo: En Y = 10 + 2X cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X cuando X aumenta en 1, Y disminuye en 0,8 UNSA
Dr. Armin Becerra Guzmán
468
A) Tipos de Variables En una ecuación como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente. Y = b0 + b1 X
Variable Dependiente UNSA
Variable Independiente Dr. Armin Becerra Guzmán
469
B) Tipo de Relaciones Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo + Ejemplo: Y = 30 + 5X
Y
o
o
o
o o o
o o
o
X UNSA
Dr. Armin Becerra Guzmán
470
Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo -. Ejemplo: Y = 20 - 3X
Y o o o
o o
o o o
X UNSA
Dr. Armin Becerra Guzmán
471
C) Grado de la ecuación: La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica genera una línea recta (por lo que también se le llama ecuación lineal) Ejemplo: Y = 30 + 4 X
UNSA
Dr. Armin Becerra Guzmán
472
Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. Su gráfica no es una línea recta. Ejemplo: Y = 10 + 3 X + 4 X2 : ecuación de segundo grado Y = 3 + 7X + 5 X3 : ecuación de tercer grado
UNSA
Dr. Armin Becerra Guzmán
473
D) Ecuaciones simples y múltiples: Simples: Muestra la relación entre dos variables Y = 30 + 2X Y = 10 - 3X2
Múltiple: Muestra la relación entre tres o más variables Y = 3X + 8 Z Y = 5 + 2X2 + 4W
UNSA
Dr. Armin Becerra Guzmán
474
D) Gráfica de una ecuación de primer grado: Ejemplo: Y = 3 + 1,5X X Y
1 4 ,5
2 6 ,0
3 7 ,5
4 9 ,0
5 1 0 ,5
Los cinco pares de valores se diagraman de la forma siguiente. Y 12 11 10 9 8 7 6 5 4 3 2 1
UNSA
. . . . .
(5,10.5)
(4,9)
(3,7.5)
(2,6)
(1,4.5)
1
2 Becerra 3 4 5 Dr. Armin Guzmán
X
475
E) Forma general: La ecuación simple de primer grado tiene la siguiente forma general Y = b0 + b1 X Donde: b1: pendiente, o sea, el cambio en Y cuando X = 1. b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En la gráfica es la intersección con el eje Y Ejemplo: Y Y = 3 + 1.5X
.
b0 = 3
X
UNSA
Dr. Armin Becerra Guzmán
476
Regresión Lineal Simple Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas.
Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.
UNSA
Dr. Armin Becerra Guzmán
477
A) Suposiciones de regresión y correlación a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X. b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X. c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. d) Linealidad: la relación entre las variables es lineal. UNSA
Dr. Armin Becerra Guzmán
478
B) El método de Mínimos Cuadrados
Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1
= b0 + b1X se llama ecuación de La ecuación general Y regresión y permite estimar o predecir los valores de Y.
UNSA
Dr. Armin Becerra Guzmán
479
El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima.
Y
= error Yi - Y
Min Y - Y
.
10
8
Línea de estimación
Yˆ
6
•
2
4 Error= -6
i
2
.
•
•
Error= 2
X 2 UNSA
Dr. Armin Becerra Guzmán
4
6
8
10
12
14 480
El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma:
Y nb + b X XY b X b X 0
0
1
2
1
Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente:
X
Y
X2
XY
1.0
8.0
1.0
8.0
1.5
10.0
2.3
15.0
2.0
9.0
4.0
18.0
2.5
12.0
6.3
30.0
3.0
14.0
9.0
42.0
3.5
13.0
12.3
45.5
16.0
60.0
4.0
15.0
4.5
17.0
20.3
76.5
5.0
14.0
25.0
70.0
5.5
14.0
30.3
77.0
126.3
442.0
32.5 126.0 X Y UNSA
Dr. Armin Becerra Guzmán
X
2
XY 481
Sustituyendo los valores ,
XY 442
n = 5, 2
X
Y 126,0 X 32,5 126,3
en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones. 126 = 10b0 + 32,5b1 442 = 32,5b0 + 126,3b1 Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por lo tanto,
ˆ 7,479 1,576X Y UNSA
Dr. Armin Becerra Guzmán
482
c) Interpretación b0 = 7,478 :
Es probable que un niño desnutrido que no sea considerado dentro del Programa de Alimentación Complementaria tenga un peso de 7,478 Kg.
b1 = 1,576:
Por cada Kg. del alimento complementario, se espera que probablemente el niño aumento su peso en 1,576 Kg.
UNSA
Dr. Armin Becerra Guzmán
483
D) Valor observado y valor estimado de Y El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras ˆ ), es el nivel estimado de la que el valor estimado ( Y i variable (peso esperado), obtenido utilizando la X Y Yˆ ecuación de regresión. Y
Yi
Valor observado
UNSA
. .
Y
Valor estimado
xo
X
1.0
8.0
9.055
1.5
10.0
9.843
2.0
9.0
10.630
2.5
12.0
11.418
3.0
14.0
12.206
3.5
13.0
12.994
4.0
15.0
13.782
4.5
17.0
14.570
5.0
14.0
15.358
5.5
14.0
16.146
Dr. Armin Becerra Guzmán
484
Error estándar de estimación (Syx) Mide la disparidad ¨promedio¨ entre los valores observados y estimados de la variable Y. Se calcula por la siguiente relación ˆ) (Y - Y
S yx =
2
n2
14
UNSA
Dr. Armin Becerra Guzmán
485
UNSA
ˆ Y
Y Yˆ
2 ˆ Y Y
X
Y
1.0
8.0
9.055
-1.1
1.112181
1.5
10.0
9.843
0.2
0.024806
2.0
9.0
10.630
-1.6
2.658204
2.5
12.0
11.418
0.6
0.338375
3.0
14.0
12.206
1.8
3.217718
3.5
13.0
12.994
0.0
3.48E-05
4.0
15.0
13.782
1.2
1.483524
4.5
17.0
14.570
2.4
5.905386
5.0
14.0
15.358
-1.4
1.843621
5.5
14.0
46
-2.1
4.604028
32.5
126.0
126.0
0.0
21.2
Dr. Armin Becerra Guzmán
486
Reemplazando en la formula S yx
=
21,20 21,20 2,65 10 2 8
Syx =1,628 El Syx es un indicador del grado de precisión con que la ecuación de regresión describe la relación entre las dos variables: cuanto más pequeño, los valores observado y estimado de Y son razonablemente cercanos y, la ecuación de regresión es una buena descripción esa la relación.
UNSA
Dr. Armin Becerra Guzmán
487
El Análisis de Correlación El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada con otra.
Hay dos medidas que se usan para describir la correlación El coeficiente de determinación El coeficiente de correlación
UNSA
Dr. Armin Becerra Guzmán
488
A) El coeficiente de determinación Al construir un modelo de regresión, se define que “el valor Y depende de X”. Y = f (X) Si la relación es lineal: Y = b0 + b1X Pero en la práctica Y depende también de “otros factores” diferentes a X: Y = b0 + b1X + Parte de los cambios en Y pueden explicarse por X, a otro se llama variación explicada. Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada. UNSA
Dr. Armin Becerra Guzmán
489
Yi
Y Variación Total Yi - Y
Variación no explicada
Yi - Y Variación Explicada
Y
- Y
y
X VARIACION TOTAL
UNSA
=
VARIACION EXPLICADA
Dr. Armin Becerra Guzmán
+
VARIACION NO EXPLICADA
490
El coeficiente de determinación se puede calcular del modo siguiente: r2
variacion explicada variacion total
2 ˆ r2 = Y - Y 2 Y - Y i
Se elevan al cuadrado, para evitar que obteniéndose un número positivo. UNSA
Dr. Armin Becerra Guzmán
Y - Y 0
491
1er Paso: Cálculo de la venta media por vendedor son ( Y ) n
Y=
Y
i1
i
n
Y1 Y2 Y3 Y4 Y5 Y= 5
9 5 7 14 10 45 Y= 5 5 Y = 9 unidades UNSA
Dr. Armin Becerra Guzmán
492
2do Paso: Se calcula la variación total, es decir, la sumatoria de las desviaciones de las ventas observadas (Yi) con respecto a la media: Y - Y 2 i
UNSA
Y
Y
Y Y
Y Y2
8.0
12.6
-4.6
21.16
10.0
12.6
-2.6
6.76
9.0
12.6
-3.6
12.96
12.0
12.6
-0.6
0.36
14.0
12.6
1.4
1.96
13.0
12.6
0.4
0.16
15.0
12.6
2.4
5.76
17.0
12.6
4.4
19.36
14.0
12.6
1.4
1.96
14.0
12.6
1.4
1.96
126.0 Y
126.0
0.0 Y Y
72.4 2 Y Y
Y
Dr. Armin Becerra Guzmán
493
3er Paso: Se calcula la variación explicada, es decir, la sumatoria de las desviaciones cuadráticas entre las ventas esperadas y la venta media de la muestra: Y - Y
2
Y
9.055
12.6
-3.545
12.5699
9.843
12.6
-2.758
7.6038
10.630
12.6
-1.970
3.8793
11.418
12.6
-1.182
1.3964
12.206
12.6
-0.394
0.1551
12.994
12.6
0.394
0.1553
13.782
12.6
1.182
1.3971
14.570
12.6
1.970
3.8805
15.358
12.6
2.758
7.6055
16.146
12.6
3.546
12.5720
126.0
126.0
0.0
Yˆ UNSA
Yˆ Y Yˆ Y2
ˆ Y
Y
Yˆ Y
51.2 2 Yˆ Y
Dr. Armin Becerra Guzmán
494
4to Paso: Se compara la variación explicada y la variación total. r2 r2
variacion explicada variacion total =
r2 =
2 ˆ Y-Y
Yi - Y
2
51,2 0,707 72,4
5to Paso: Interpretación: 70,7% de las variaciones en el incremento de peso, pueden explicarse por el consumo del complemento nutricional. UNSA
Dr. Armin Becerra Guzmán
495
Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda variación de Y puede explicarse por X Si r2 = 0 : no existe correlación entre X e Y. La variación explicada es 0. La variable X no explica nada de los cambios en Y Resumen 0 r2 1 Cuanto más cerca a uno, las variables tendrán mayor correlación. UNSA
Dr. Armin Becerra Guzmán
496
B) El coeficiente de correlación Es la raíz cuadrada del coeficiente de determinación.
r=
r2
Sus valores oscilan entre -1 y 1 Cuando r es positivo, indica que X e Y están directamente relacionados.
UNSA
Dr. Armin Becerra Guzmán
497
Cuando r es negativo, indica que X e Y están inversamente relacionados. El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de regresión
UNSA
Dr. Armin Becerra Guzmán
498
Interpretación del coeficiente de correlación de Pearson
Débil Negativa
Fuerte Moderada Negativa Negativa
-1 -0,9 Perfecta Negativa
UNSA
-0,5
Débil Positiva
0 No existe correlación
Dr. Armin Becerra Guzmán
Moderada Positiva
0,5
Fuerte Positiva
0,9
1 Perfecta Positiva
499
Ejemplo:
r2= 0,707
r = 0,707 r = 0,84
el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b1 en la ecuación de regresión ˆ 7,479 1,576X Y
UNSA
Dr. Armin Becerra Guzmán
500
Interpretación: El incremento de peso (Y) y el consumo del complemento nutricional (X) se encuentran directamente asociados.
UNSA
Dr. Armin Becerra Guzmán
501
Diagnóstico de la regresión: análisis residual El análisis residual permite evaluar lo adecuado del modelo de regresión que ha sido ajustado a los datos. También sirve para detectar si los supuestos se cumplen. A. Evaluación de lo adecuado de modelo ajustado Los valores del error residual o estimado (i) se define como la diferencia entre los valores observados (Yi) y los estimados (Yˆ i ) de la variable dependiente para los valores dados de Xi i = Yi - Yˆ i UNSA
Dr. Armin Becerra Guzmán
502
Podemos evaluar lo adecuado del modelo de regresión ajustado mediante el gráfico de los residuos (eje vertical) con respecto a los correspondientes valores de Xi de la variable independiente (eje horizontal). Variable X 1 Gráfico de los residuales
3 2
Residuos
Ejemplo: El gráfico muestra un adecuado ajuste entre el incremento de peso y el consumo del complemento nutricional. No se observa una tendencia.
1 0 -1
0
1
2
3
4
5
6
-2 -3
Variable X 1 UNSA
Dr. Armin Becerra Guzmán
503
El análisis del gráfico nos brinda el criterio para adoptar el modelo lineal o dejarlo de lado. Si fuese así, podríamos probar con modelos no lineales como el cuadrático, logaritmo o exponencial. El análisis de residuos se complementa con el cálculo de los residuos estandarizados (SRi), que resultan de la división del residuo dividido por su error estándar.
SR i En donde UNSA
S YX
1 hi n
i 1 hi
Xi X2 n
Xi2 nX
i 1 Guzmán Dr. Armin Becerra
2 504
Los valores estandarizados nos permiten tomar en cuenta la magnitud de los residuos en unidades que reflejen la variación estandarizada alrededor de la línea de regresión. Análisis de los residuales Observación
Pronóstico para Y
Residuos
Residuos estándares
1
9.138461538
-0.138461538
-0.101107641
2
3.276923077
1.723076923
1.258228423
3
6.207692308
0.792307692
0.578560391
4
15
-1
-0.730221853
5
12.06923077
-2.069230769
-1.510997526
6
44.30769231
0.692307692
0.505538206
UNSA
Dr. Armin Becerra Guzmán
505
En el gráfico siguiente, los residuos estandarizados fueron graficados en función de la variable independiente (cantidad del complemento nutricional). Se puede observar de que existe una dispersión amplia en la gráfica de residuos, no existe un patrón evidente o una relación entre los residuos estandarizados y Xi . Los residuos parecen estar equitativamente distribuidos por arriba y por debajo de 0, para diferentes valores de X. Podemos concluir que el modelo ajustado parece ser adecuado. UNSA
Dr. Armin Becerra Guzmán
506
Residuos estándares 1.5 1 0.5 0 -0.5 0
5
10
15
20
-1 -1.5 -2
UNSA
Dr. Armin Becerra Guzmán
507
B. Evaluación de las suposiciones a. Homoscedasticidad b. Normalidad
c. Independencia: Los datos recolectados
UNSA
Dr. Armin Becerra Guzmán
508
Medición de la autocorrelación: Durbin-Watson Una de las suposiciones del modelo de regresión básico es la independencia de los residuos. Esta suposición es violada con frecuencia cuando los datos son recopilados en periodos secuenciales, debido a que un residuo en cualquier punto del tiempo puede tender a ser parecido a los residuos que se encuentran en puntos de tiempo adyacentes. El estadístico D de Durbin-Watson mide la correlación de cada residuo y el residuo del periodo inmediato anterior al periodo de interés. UNSA
Dr. Armin Becerra Guzmán
509
El estadístico D (Durbin-Watson) n
D
2 i i1 i2
n
2 i i1
En la que i representa el residuo en el periodo i. UNSA
Dr. Armin Becerra Guzmán
510
Interpretación de D: Cuando residuos sucesivos están correlacionados positivamente, el valor de D se aproximará a cero. Si los resultados no están correlacionados, el valor D estará cercano a 2. Si se presentase una autocorrelación negativa, lo cual rara vez sucede, de valor D tomará un valor mayor a 2 e, incluso podría aproximarse a su valor máximo que es 4. UNSA
Dr. Armin Becerra Guzmán
511
Los resultados de SPSS nos proporciona el valor de D de Durbin-Watson Mode l Summaryb Change Statistics Model 1
R Square Change F Change .707a 19.336
df1
df2 1
8
Sig. F Change .002
Durbin-Watson 1.517
a. Predictors: (Constant), Complemento b. Dependent Variable: AUMENTO
Según este resultado permite afirmar que los residuos no están correlacionados.
UNSA
Dr. Armin Becerra Guzmán
512
Resultados con Excel Estadísticas de la regresión 0.99582747
Coeficiente de correlación múltiple Coeficiente de determinación R^2
0.99167236
R^2 ajustado
0.98959045
Error típico
1.5310881
Observaciones
6 ANÁLISIS DE VARIANZA
GL
SC
CMe
Regresión
1
1116.62308
1116.62308
Residuos
4
9.37692308
2.34423077
Total
5
1126
Coefic ientes
Error típico
Estadíst ico t
Intercepción
0.346154
0.9173433
Variable X 1
2.930769
0.13428531
UNSA
F cal
P-valor
476.328138
2.60786E-05
P-valor
Inferior 95%
Superior 95%
Inferior 95.0%
Superior 95.0%
0.37734384
0.72508508
-2.200804756
2.893112448
-2.200804756
2.893112448
21.824943
2.6079E-05
2.557932668
3.303605794
2.557932668
3.303605794
Dr. Armin Becerra Guzmán
513
Ejemplo: En la Empresa Santa Rita, se desea determinar la relación lineal simple entre la experiencia del vendedor y las ventas durante un mes. Se seleccionan 5 vendedores, los datos registrados se presentan a continuación: VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL EXPERIENCIA (años):X 3 1 2 5 4 VENTAS (unidades) : Y 9 5 7 14 10
UNSA
Dr. Armin Becerra Guzmán
514
18.1 El modelo La regresión múltiple y el análisis de correlación múltiple consiste en estimar una variable dependiente, utilizando dos o más variables independientes.
El modelo genérico será
Yˆ f (X1 , X2 , X3 ,....) Variable dependiente UNSA
Variables independientes Dr. Armin Becerra Guzmán
515
REGRESIONES MULTIPLES
La ventaja Permite utilizar más información disponible para estimar la variable dependiente de una manera confiable.
UNSA
Dr. Armin Becerra Guzmán
517
Proceso En el proceso de regresión y correlación múltiple, se debe: 1. Describir la ecuación de regresión múltiple. 2. Examinar el error estándar de regresión múltiple de la estimación. 3. Utilizar la ecuación de regresión para determinar qué tan bien describe los datos observados.
UNSA
Dr. Armin Becerra Guzmán
518
Alcance 1. Permite ajustar los datos tanto a curvas como a rectas. 2. Se puede incluir variables cualitativas, haciendo uso de las “variables ficticias”.
UNSA
Dr. Armin Becerra Guzmán
519
La ecuación de regresión múltiple La forma simbólica de la ecuación lineal con dos variables independientes: ˆ b 0 b1X1 b 2 X 2 donde: Y ˆ : Valor estimado correspondiente a la variable Y dependiente b0 : intersección con el eje Y. X1 y X 2 : valores de las dos variables independientes. b1 y b2 : pendientes asociadas con X1 y X2 respectivamente UNSA
Dr. Armin Becerra Guzmán
520
Visualización: se puede representar una ecuación de regresión múltiple con dos variables, como un plano
UNSA
Dr. Armin Becerra Guzmán
521
El método de mínimos cuadrados El problema consiste en decidir cuál de los planos posibles que podemos dibujar, será el que mejor se ajuste El método de mínimos cuadrados garantiza que la suma de los cuadrados de los errores es mínimo. Las ecuaciones normales serán
Y nb b X b X X Y b X b X b X X X Y b X b X X b X 0
UNSA
1
1
0
2
0
1
1
2
2
1
1
2
2 1
1
2
2
1
2
2 2 2
Donde bo, b1 y b2 son los coeficientes de regresión estimados. Dr. Armin Becerra Guzmán 522
El error estándar de la regresión múltiple (Syx) Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas pequeño.
UNSA
Dr. Armin Becerra Guzmán
523
Para medirla se utiliza la formula: 2 ˆ ( Y Y ) Syx n k 1
donde:
Y Yˆ
n k
UNSA
: Valores observados en la muestra : valores estimados a partir a partir de la ecuación de regresión : número de datos : número de variables independientes
Dr. Armin Becerra Guzmán
524
El coeficiente de determinación múltiple (r2) Mide la tasa porcentual de los cambios de Y que pueden ser explicados por X1, X2 y X3 simultáneamente. r2
SCregresión SCtotal
19950,57 r 0,95 20837,5 2
UNSA
Dr. Armin Becerra Guzmán
525
Coeficiente de determinación múltiple ajustado (r2a) Hay personas que prefieren “ajustar” el r2 de acuerdo a: n = número de datos k = número de variables independientes
n 1 r 1 1 r n k 1 2 a
2
8 1 r 1 1 0,95 0,9125 8 3 1 2 a
UNSA
Dr. Armin Becerra Guzmán
526
Coeficiente de correlación: r r r2 Para el caso de colesterol, tenemos:
r 0,95 0,9746 De acuerdo al valor de r podemos afirmar que las variables peso, perímetro abdominal y hemoglobina se encuentran asociadas en forma directa, de una manera muy fuerte.
UNSA
Dr. Armin Becerra Guzmán
527
Los resultados de Excel nos da la siguiente información: Estadísticas de la regresión Coeficiente de correlación múltiple 0.97
r
Coeficiente de determinación R2
0.95
r2
R2 ajustado Error típico
0.92 14.89
r2a
Observaciones
UNSA
Syx
8
Dr. Armin Becerra Guzmán
528
tc
5) Cálculos
Sb1
b1 B10 Sb1
S yx
X
2
nx
2
0,704
Resultados en Excel Coeficientes
Error típico
Estadístico t
Probabilidad
Inferior 95%
Superior 95%
Inferior 95.0%
Superior 95.0%
121.704
83.00
1.466
0.216
-108.752
352.161
-108.752
352.161
PESO
2.949
0.70
4.189
0.014
0.995
4.904
0.995
4.904
CINTURA
0.276
0.49
0.558
0.607
-1.095
1.646
-1.095
1.646
HEMOGLO BINA
-7.843
5.73
-1.37
0.24
-23.74
8.06
-23.74
8.06
Intercepción
UNSA
Dr. Armin Becerra Guzmán
529
Reemplazando en la ecuación:
2,949 0 tc 0,704 t c 4,189
UNSA
Dr. Armin Becerra Guzmán
530