,.,
r-
i~
. _; -.
e
11ª
Edición
Douglas A, Lind Coastal Carolina University y The University oí Toledo
The University of Toledo
The University of Toledo
ESCUELA POLITECNICA DEL EJERCITO BIBLIOTECA E.SPE·l lATACUNGA
1
No?lt/JQ Fechol!::f? ..2(J(;if/1
Preci~: .1:!..'l1!?..Ooncció;;: ............. .
Í1. Alfaomega
Traducción: María del Carmen Hano Roa Universidad lberoamericana Maestría en matemáticas Revisión técnica y genera!: !ng. Francisco Paniagua Bocanegra, f.M.E. Sociedad Mexicana de Geografía y Estadística -Comunicación educativa en estadística y economía Al cuidado de la edición: Felipe de Jesús Castro Pérez Martha Cupa León
Producción: María Teresa Barajas S.
Versión en español de la obra en inglés: Statistica/ Techniques in Business and Economics, 11ª. ed., por Douglas A. Lind, Wllliam G. Marchal y Robert O. Mason, publicada originalmente por © The McGraw-Hill Companies, !ne.
© 2004 ALFAOMEGA GRUPO EDITOR, S.A. de C.V. Pitágoras 1139, Col. del Valle. 03100 México, D. F. Miembro de la Cámara Nacional de la Industria Editorial Mexicana Registro No. 2317 Internet: http://www.alfaomega.corn.mx e-mail:
[email protected] ISBN 970-15-0974-9 ISBN 0-07-240282-2, versión original porThe McGraw-Hill Companies, lnc.
© 2004 ALFAOMEGA COLOMBIANA, S. A. Calle 106 A No. 22-56, Bogotá, D. C. Tel.: 619 7677 e-mail:
[email protected] ISBN: 958-682-513-2 Derechos reservados Esta obra es propiedad intelectual. de su autor, y los derechos de publicación en lengua española han sido legalmente·tra_nsferidos al editor. Prohibida su reproducción parcial o total por cualquier medio, sin pern1iso por escrito del propietal"io de los derechos del copy_right. NOTA IMPORTANTE La información contenida en esta obra tiene un fin exclusivamente didáctico y, por tanto, no está previsto su aprovechamiento a nivel profesional.o industrial. Las indicaciones técnicas _y programas_ incluido,s, han sido. elaborados con gran cuidado por el autor y íeProducidos bajo estrictas normas de control. ALFAOMEGA GRUPO EDITOR, S.A. de C.V. no será jurídicamente responsable por: errores u omisiones; daños y perjuicios que se pudieran atribuir al uso de la información comprendida en este libro y en el CD-ROM adjunto, ni por la utilización indebida que pudiera dársele.
Impreso en Colombia - Printed in Colombia
A Jane, mi esposa y meior amiga, y a nuestros hiios l\/Iike, Steve y Mari?. Douglas A Lincl A Andrea, mi corazón y madre ele mis hiios: Rache! Anne (y Eric), Joseph Anclrew, Sarah Louise, Christopher Brophy, y Nimy Bridge!. William C. Marcha/
\ \
Como el título indica, el objetivo de Estadística para Administración y Economía es proporcionar a los estudiantes de economía, finanzas, mercadotecnia, contaduría, administración y de otras áreas de la administración de negocios, una revisión introductoria a las numerosas aplicaciones de la estadística -descriptiva e inferencia!- a la administración, el comercío, la economía y los negocios. Aunque nuestro principal interés son las aplicaciones económico administrativas, hemos tratado ele usar ejemplos enfocados a los estudiantes, que no requieran conocimientos previos en administración o economía. En 1967, cuando Robert Masen escribió la primera edición de este libro, la localización de datos relevantes era difícil. ¡Esto ha cambiado! Hoy la obtención de datos no es un problema: la cantidad de artículos que se compran en una tienda de comestibles es registrada en la caja automáticamente; las compañías de teléfonos llevan un registro de la duración de cada llamada, la hora a la que se hizo y el nC1mero de la persona a la que se llamó; existen aparatos médicos que de manera automática monitorean y registran e! ritmo cardíaco, la presión sanguínea y la temperatura del cuerpo de un ser humano; gran cantidad de información económica y de negocios se registra y reporta casi instantáneamente. Empresas como CNN, USA Today (en Estados Unidos) y Yahoo!, por ejemplo, cuentan con sitios en la Red (websites) en los que se puede consultar los precios ele las acciones financieras en menos de 20 minutos. En la actualidad se requiere habilidad para poder utilizar todo este cúmulo de información. En primer lugar se necesita ser crítico al utilizar la información que otros generan. En segundo, es necesario saber transformar grandes cantidades de datos a un formato accesible y comprensible, de manera que uno pueda interpretar y juzgar estos datos, y con base en eso tomar decisiones. Hoy, todos los estudiantes no sólo poseen calculadoras, sino que mucl1os de ellos cuentan Incluso con su propia computadora o cuando menos tienen acceso a una en la inst'1tución educativa a !a que pertenecen. También se cuenta ya con una gran cantidad de software para estadística, y de datos almacenados electrónicamente, En repuesta a estos cambios introducimos, en los capítulos, pantallas de Excel y de MINiTAB, Esto permite a los estudiantes ver realmente los resultados que se obtienen con estos programas; las instrucciones necesarias para llegar a estos resultados se dan al final del capítulo, Hemos sustituido muchos de los cálculos de los ejemplos por la interpretación de los mismos, para ayudar al estudiante en su aprendizaje de comunicar los resultados estadísticos. Al hacer estos cambios no nos hemos apartado de nuestro esfuerzo por presentar, lo mejor pos'1ble, los conceptos clave junto con ejemplos de apoyo. La onceava edición de Estadística para Administración y Economía es producto del trabajo de muchas personas: estudiantes, colegas revisores y el equipo editorial de McGraw-Hill/lrwing. A tocios ellos les damos las más cumplidas gracias. Queremos expresar también nuestro 111ás sincero agradecimiento a los revisores: Douglas Barrett University of North Alabama Darl Bien University of Denver Wendy Brown Southem A/berta lnstitute of Technology Mary Elizabetll Camp Indiana University
VI
Sllarad Chitgopekar 11/inois State University G'1opal Dorai William Paterson University Bernice Evans Margan State University Burdette Hansen University of Phoenix
vii
Prefacio Clifford B. Hawley
Louis A. Patille
West Virginia University
University of Phoenix - Colorado
Lloyd R. Jaisingh
Christopher W. Rogers
Morehead State University Valerie M. Janes Tidevvater Community Col/ege
Miami-Oade Community Co//ege Charlene Robert
Louisiana State University
Creig Kronstedt
Linda Stephanchick
Cardinal Stritch University
OeVry lnstitute of Technology
Denise Kummer
Andrew Welki
St. Louis Community Co//ege
John Carro// University
Jack Muryn
Kathleen Whitcomb
Cardinal Stritch University
University of South Carolina
Julia A. Norton
Charles W. Williams
California State University - Hayward
Troy State University
Sus sugerencias y la revisión exhaustiva de la edición anterior, así como de los originales de ésta, han dado como resultado un mejor libro de texto. Un agradecimiento especial para las siguientes personas: el Dr. Leonard Presby, de la William Paterson University; el Dr Jerzy Kamburowski, de the University oí Toledo; y la Dra. Roberta Thomas, de la University of Phoenix; quienes revisaron el manuscrito y comprobaron que los ejercicios estuvieran correctos; el Profesor Walter H. Lange, de The University of Toledo, que preparó la guía de estudio (disponible en la versión en inglés de este texto); el Dr. Samuel Wathen, de la Coastal Carolina University, que elaboró un banco de exámenes y verificó la exactitud del texto (disponible en la versión en inglés de este texto); la Srita. Denise Heban y los autores de este libro elaboraron el manual para el profesor (disponible en la versión en inglés de este texto); y la Srita. Jane Lind realizó la presentación en PowerPoint Agradecernos su co!aboración para la realización de este proyecto. Quisiéramos dar las gracias también al equipo editorial original de McGraw-Hill/lrwing, y otras personas, que aunque no las conocemos personalmente, sabemos que aportaron valiosas contribuciones a este libro.
Hemos tratado de que este libro "no sea más difícil de lo necesario". Lo que queremos decir con esto es que hemos procurado que las explicaciones sean prácticas pero sin una exagerada simplificación. Usamos ejemplos parecidos a los que se encuentran en el mundo de la administración, la economia y los negocios. El material de este libro ayudará al lector a utilizar las herramientas estadísticas para la toma de decisiones en la admin·1stración, la economía y los negocios. Además, el lector observará que muchos de los tópicos y temas de este libro, podrán ser usados en otros de sus cursos, y que son consistentes con lo que encontrará en otros cursos en los que se tratan temas cuantitativos o de estadística. No hay duda de que hoy se d'1spone de muchos más datos útiles que en el pasado. Sin embargo, no se cuenta con suficientes personas capaces de convertir estos datos en información útil, y de interpretarlos correctamente. Si el lector estudia con atención y perseverancia el contenido de este libro, estará en condiciones de contribuir al éxito y desarrollo de cualquier empresa en la que colabore. Recuerde que como leyó, no hace mucho, uno de los autores en una galletita de la suerte "Ningún secreto para llegar al éxito funcionará si usted no funciona".
Ayudas para el aprendizaje Este libro está pensado para ayudar a los estudiantes a acercarse a la materia y aprenderla sin la angustia que suele causarles la estadística a algunos de ellos. Los siguientes elementos de ayuda les facilitarán en gran medida el estudio. Objetivos. Cada capítulo inicia señalando un conjunto de objetivos, lo que ayuda a enfocar y motivar el aprendizaje. Éstos determinan los conocimientos que se habrán adquirido al terminar el estudio del capítulo. Una foto ilustrativa, al lado de los objetivos, los relaciona con uno de los ejercicios del capítulo. Introducción. Al inicio de cada capítulo se repasan los conceptos importantes de los capítulos anteriores, y se describe su relación con el tema del capítulo en estudio. Definiciones. Las definiciones de térmlnos nuevos y de términos exclusivos de !a estadística se separan del texto principal y se destacan para facilitar referirse a ellos nuevamente o hacer un repaso. Fórmulas. La primera vez que se usa una fórmula se encierra en un recuadro y se nu:.. mera para facilitar referirse a ella. Además, el libro contiene un formulario desprendible con todas las fórmulas principales, para que el lector las tenga siempre a mano cuando hace las tareas o en los exámenes. Notas al margen. Hay más de 300 notas concisas que se colocan al margen. Cada una pone énfasis en el concepto clave que se presenta inmediatamente. Ejemplos/Soluciones. Presentamos numerosos ejemplos con solución. Éstos tienen la finalidad de mostrar al lector, inmediatamente y en detalle, la aplicación de los conceptos a situaciones reales. Estadística en acción. En cada capítulo se presentan generalmente dos artículos, titulados La estadística en acción. Estos articulas proporcionan aplicaciones especiales e interesantes de la estadistica y dan una perspectiva histórica de la misma.
Vlll
Nota para el estudiante
IX
Au!oexamen. En todo el capítulo se encuentran autoexámenes que siguen estrechamente el patrón del Ejemplo/Solución que los precede. Esto ayudará al lector a monitorear su progreso y reforzar la técnica en cuestión. Las respuestas, junto con el método ele solución, están al final del capítulo. Ejercicios. En cada capítulo se han incluido ejercicios, después c!e ios autoex8.n1enes,- y al 'final del capítulo. Las respuestas y métodos de solución de los ejercicios ele número impar se encuentran al final del libro. Los datos para la mayor parte de los ejercicios con más de 20 datos están en el disco compacto (CD-ROM) que acompaña al libro. Resumen del capítulo. Al final de cada capítulo hay un resumen. Éste es un apoyo para el aprendizaje que brinda al lector la oportunidad de revisar el material, especialmente e! vocabula:io, además de ver y revisar, una vez rnás, las fórmulas. Ejercicios de la red. En casi todos los capítulos se presentan referencias a direcciones de Internet donde se pueden obtener conjuntos de elatos de empresas, organismos gubernamentales y universidades. Ejercicios con datos para computadora. En la mayor parte de los capítulos, los cuatro últimos ejerclcios se refíeren a cuatro grandes conjuntos de datos económicoadministrativos. Estos conjuntos de datos se encuentran al final del libro y también en el disco co111pacto que lo acompaña. Secciones de repaso. Después de algunos capítulos se presenta una sección de repaso. Esta sección contiene un breve repaso de los capítulos, un simbología con los términos clave y un examen práctico del material visto. En esta sección de repaso también se presentan casos que permiten al lector tomar decisiones usando !as herramientas y técnicas de algunos capítulos.
Suplenntento El disco compacto que se incluye, sin costo extra, en cada ejemplar de esta obra, contiene principalmente materiales de apoyo para el aprendizaje: tutoriales para computadora; diapositivas en PowerPoint; archivos con los datos (en formatos para MINITAB, Excel, y ASCII), para los ejercicios al final del capítulo, y para los ejercicios con 20 o más datos. Contiene también un vínculo a Internet para el sitio de este libro en la Red, y vínculos a los sitios de la Red que se mencionan en los ejercicios del libro. También contiene MegaStat para Excel, de J.B. Orris, programa para computadom que aumenta la capacidad de Excel en el análisis estadístico. Además contiene Visual Statistics 2.0, escrito por Doanne, Tracy y Mathieson. Visual Statistics es un programa de computadora para la enseñanza y aprendizaje de estadística a través de la experimentación y visualización interactiva. Una amplia y muy completa Guía de Estudio (disponible en la versión en ingiés de este texto), escrita por el profesor Walter Lange de The University of Toledo, organizada de manera muy parecida a un libro de texto. Cada capitulo contiene objetivos, un breve resumen del capítulo, problemas con solución, ejercicios de autoexamen y problemas para e! alumno. Douglas A Und William G. Marcha!
1
¿Qué es la Estadística? ]
2
Descripción de los datos. [)istribuciones lle frecuencias y representacione::i· gráficas 2]
3
Descripción de los elatos. f\!ledidas de tendencia central 64
"t
/1
Otras n1edidas descripÜ\'as 99
5
Revisión de algunos conceptos de probabilidad 149
6 7
Distribuciones de probabilidad discreta 191
8
Métodos de muestr·eo y el teorema de límite central 263
9 10 11 ~¡
2
Distr·ibución de probabilidad normal 226
Estin1ación e intervalos de confianza 297
Pruebas de hipótesis para dos muestras 377
Análisis de vari,mza 413
13
!:Zegresión Hnea1 ;l co1Telació:rQ 456
14,
1\.n3Hsis de regresió11 y corre]ación n1ú.ltiples 502
15
Métodos no parnmétricos. Aplicaciones de ji cuadrada 548
16 17
l'\!Iétodos no paramétricos. Análisis de elatos ordenados íJor rango Conlrnl estadístico de calidad 622
18
Números índice 655
19 20
Series de l:iemJ)o y pronósticos 689
580
Introducción a la teoría de decisiones 726 Apéndices: 1i1blas y conjuntos de datos 745 Guía de referencia rápida de IVlegaStat
777
l{espnestas a los ejercicios de cada capítulo con núrncros irnpares 780 [~espnest::11s a los
Índice 825
X
ejercicios de re¡)aso con nún1eros in1pares 8]_9
Capitulo
Representaciones de tallo y hoja
1 Qt1é es ]a :E~stac]ístTii~a? lntroducción
l Representación gráfica de una distribución de 'frecuencias 34
2
¿Qué se entiende por estadística? ¿Por qué estudiar estadística? Tipos de estadística
Histograma
4
Ejen:;icios
36
39
Distribuciones de frecuencias acumuladas 40
7
8
Niveles de medición
35
Polígono ele frecuencias
6
Estadística inferencia! Tipos de variables
2
6
Estadística descriptiva
E:jerc1cJos
9
43
Otras representaciones gráficas de datos
Datos de nivel nominal
9
Datos de nivel ordinal
íO
Gráficas engañosas
íí
Datos de nivel de intervalo Datos de nivel de razón
Ejerc¡cios
29
i2
13
Resumen del capítulo
52
Ejercicios del capítulo
53
ejercicios.com
59
Usos y abusos de la estadística
13
Ejercicios con datos para computadora
Aplicaciones para computadora
15
Comandos para computadora
Resumen del capítulo
17
Ejercicios de! capítulo
i 7
ejercicios.com
Respuestas al autoexamen
18
Capitulo
Ejercicios con datos para computadora Respuestas al autoexamen
i9
59
60 62
.
3 Descrinción de los datos.
20
44
48
.
1\iledidas de tendencia central 64 Introducción
Capitulo
65
Media poblacional
2 Desciiución de los datos. ' Dístribuciones de frecuencias
Media muestra!
65 67
Propiedades de la media aritmética
68
21 lntroducción
22
Media ponderada
Elaboración de una distribución de frecuencias 22
Ejercjcjos
Moda
Ejemplo con un programa de computación Distribución de frecuencias relativas Ejercicios
28
?i
Mediana
Intervalos de clase y puntos niedlos de clase 26 28
27
70
1·¡
74
Solución por con1putadora Media geométrica
76
77
XI
Contenido
xii
Media, mediana y rhoda de datos agrupados 79 Media aritmética Ejercicios
Mediana Moda
Ejercicios
·¡ 20
Otras medidas de dispersión
79
Cuartiles, deciles y centiles
í.Y!
121
i24
82
Diagramas de caja
85
125
Ejercício.::;
Resumen del capítulo Posiciones relativas de la media, la mediana y ia moda 87 Resumen del capítulo Sin1bología
121
ejercicios.corn
89
ejercicios.com
i 30
Ejercicios del capítulo
88
Ejercicios del capítulo
·¡ 28
i 30
Simbología
i 36
Ejercicios con datos para computadora
90
Comandos para computadora
95
Ejercicios con datos para computadora Comandos para computadora Respuestas al autoexamen
Respuestas al autoexamen
96
i 38
140
97 98
Capítulo
4 Otras Inedidas desc1iptivas Introducción
Capítulo
100
¿Por qué estudiar la dispersión? Medidas de dispersión Desviación media
5 Re,isión de algunos conceptos
100
101
Amplitud (o íntervalo) de variación Ejercicios
99
101
102
de piybabilidad Introducción
149
i 50
¿Qué es una probabllidad?
103
Varianza y desviación estándar
104
Caso 1
153
Caso 2
153
151
Enfoques de la probabilidad Ejercícios
-¡ 0.8
Probabilidad clásica
Medidas de dispersión para datos agrupados en una distribución de frecuencias 108 Amplitud de variación
108
Desviación estándar
109
Concepto empírico
Teorema de Cl1ebyshev
Regla empírica
112
i SG
Ejen::icios
Reglas de multiplicación
Diagramas de árbol Teorema de Bayes
117
·1 s8
163
115
164
i 68
170
E.jercic:ios
Principios de conteo Asimetría
158
113
Ejercic¡os
Dispersión relativa
155
Algunas reglas de probabilidad Reglas de adición
Interpretación y usos de la desviación estándar 1i2
155
Probabilidad subjetiva E:jercicJos
153
153
175
Fórrnula de la multiplicación
175
137
Gonlenído
XlB
Fórmula ele la permutación
177
Capítulo
Fórmula de la combinación
178
·~
Resumen del capítulo
Simbología
//
180
normal
13-1
Introducción
181
Ejercicios de! capítulo ejercicios.com
'l
'1 l ·1-'
'
226 227
La familia de distribuciones de probabilidad normal 227
i 88
Ejercicios con datos para computadora Respuestas al autoexamen
,,
11 JIJ~1strrr;1~c1orh ' C[e ·1?ilTJoabb]_\C~.8JC[
188
Distribución de probabilidad normal
i 89
estándar
229
Usos de la distribución normal estándar 230
Capítulo
Ejercicios
Introducción
Ejercicios
237
Ejercicios
240
Ejercicios
243
¿Qué es una distribuc!ón c!e
i 92
Variables aleatorias
194
Variable aleatoría discreta Variable aleatoria continua
i 95
de una distribución de probabilidad
195 196
Varianza y desviación estándar
Ejercicios
Factor de corrección de continuidad
243
Cómo aplicar el factor de corrección
246
Ejercicios 195
Resumen de! capítulo
248
Ejercicios del capítulo
248
Comandos para computadora
200
Dístribución de probabilidad binomial
247
Ejercicios con datos para computadora
-¡ 98
EjeTclcios
253
254
255
Respuestas al autoexamen
¿Cómo se calcula una distribución de probabilidad binomial? 201 Tablas de probabilidad binomial
234
243
Aproximación norma! a la binomial
195
Media, varianza y desviación estándar
Media
233
Cálculo del área bajo la curva normal
·----192
probabilidad?
231
Áreas bajo la curva normal
Distriibt1ciornes ele 1Jrc~lJal1ilicl21d discreta 191
202
207
Distribuciones de probabilidad acumulada 208
Ej10rcicios
209
Capítulo
Distribución de probabilidad
hipergeométrica
Eje·rcic!o:s
iJ I;;Iétodos ele ]_TI~Jestrreo ) el -U:eorer~_1a
21 O
1
2-¡ 3
Distribución de probabilidad de Poisson
2i 4
Ejercicios
de hn1ite central lntroducción
263
264
Muestreo de !a población
Resumen del capítulo
2"17
Ejercicios del capítulo
218
Métodos de muestreo de probabilidad Muestreo aleatorio simple
Ejercicios con datos para con1putadora
Co1nandos para computadora Respuestas al autoexamen
264
223
225
222
266
Muestreo aleatorio sistemático Muestreo aleatorio estratificado Muestreo por conglomeración
Ejercick)s
270
268 269
270
265
Contenido
XlV
"Error" de rnuestreo
273
329
Respuestas al autoexamen
Distribución de muestreo de medias muestrales 273 Ejercicios
2"16
Teorema de límite central
277
Uso de la distribución de muestreo de la media muestra] 285 Ejercicios
Capítulo
288
Resumen del capítulo
-~ O ]3 ra_1eb~1s lle !1irPóteslis
289
]J.CJtra uJx1a 1ll.l.ltestr~1
290
Simbología
Ejercicios del capítulo
¿Qué es una hipótesis?
295
ejercicios.com
335
Introducción
290 295
Ejercicios con datos para computadora Respuestas al autoexamen
334 335 336
¿Qué es una prueba de hipótesis?
Procedimiento de cinco pasos para probar una hipótesis 336
296
Paso í: Plantear la hipótesis nula (H8 ) y la hipótesis alternativa (H1) 337
Capítulo
Paso 2: Seleccionar el nivel de significancia 338
9 Estimación e intervalos de confianza 297
Paso 3: Calcular el valor estadístico de prueba 339
298
Introducción
Paso 4: Formular la regla de decisión
Estimaciones puntuales e intervalos de confianza 298
s conocida o muestra grande
304
305
s desconocida y muestra pequeña
306
Prueba para una media pob!acionai, con una desviación estándar poblacional conocida 343
Ejercicios
Prueba de dos colas
Un intervalo de confianza para una proporción 313
Prueba de una cola
Ejercicios
3'j
341
Pruebas de significancia de una y de dos colas 341
298
Una simulación por computadora Ejercicios
Paso 5: Tomar una decisión
340
343 346
Valor p en las pruebas de hipótesis
5
347
Factor de corrección para población finita 316
Pruebas para una media poblaciona!: muestra grande y desviaclón estándar poblaciona! desconocida 348
Ejs·rc!cios
Ejercicios
3-¡ 8
Elección del tamaño de muestra apropiado 318 Ejercicios
Prueba para una media pobiacional: muestra pequeña, desviación estándar poblaciona! desconocida 351
32-~
Resumen del capítulo Sirr1bología
321
Una solución por co111putadora
322
Ejercicios del capítulo ejercicios.com
350
Ejerclcios
323
Ejercicios con datos para computadora Comandos para computadora
359
Pruebas respecto a proporciones
326 327
356
326 Error de tipo 11
364
360
XV
Ejercíclos
Resumen del capítulo Simbología
la prueba ANOVA
367
Ejercicios
369
Ejercicios del capítulo ejercicios.com
419
Suposiciones para e! ANOVA
367
373
Ejercicios con datos para computadora
43i
Ejercíc!os
373
Ejercicios
375
Resumen del capítulo
Capitulo
Ejerc!cios del capítulo
·11 Pmebas de hipótesis
ejercicios.con1
377
438
440
Simbologia
parn dos 1nuesl:rns
440
445
Ejercicios con datos para computadora
·~-----
378
!ntroducclón
Respuestas al autoexamen
G'!osario
Comparación de poblaciones con muestras pequeñas 384
389
Capiiulo
393
Muestras dependientes
13
394
Regresión lineal 456 y conefación
Comparación de rnuestras dependientes e independientes 397
Ejercicios
452 454
388
Pruebas para proporciones
Ejercicios
450
451
Ejercicio$ Gasas
Ejemplo de software en e! que se utiliza el programa Excel 387 Ejercicios
449
Repaso·de los capr~u!os-10·- -12
383
Introducción
399
Coeficiente de correlación
402
Ejercicios de! capítulo ejercicios.con1
Una advertencia
403
Ejercicios
408
Ejercicios con datos para computadora Comandos para computadora Respuestas al autoexamen
465
436
Prueba de significancia de! coeficiente de correlación 468
409
41 O 412
465
·,-1 -Análisis
de regresión
470
-"Principio de mínimos cuadrados
Capítulo
-.',-Trazo de la línea de regresión
'12 J\11álisis de vmianza 414
Comparación de dos varianzas poblacionaJes 415 E'.js·rclcios
419
4B
Ejercicios
·?
471
473
474
·.. El error estándar de estirnación
414
la distribución F
457
460
Coeficiente de determinación
402
Simbología
457
¿Qué es un análisis de correlación?
Resumen de! capítulo
!ntroducción
446
447
Comandos para computadora
Pruebas de hipótesis: medias poblacionales 378
Ejercicios
433
AnáHsis de varianza en dos direcciones
374
Comandos para computadora Respuestas a! autoexamen
427
Inferencias acerca de pares de vaiores medios de tratan1iento 429
369
476
Consideraciones básicas para !a regresión !inea.I 479 EJercicios
;;,~lnterva!os
480 de confianza y de predicción
481
XVl
Ejercicios
Respuestas al autoexamen
543
Algo más acerca del coeficiente de determinación 485 Ejercicios
/i.87
Relaciones entre el coeficiente de correlación, el coeficiente de determinaclón y el error estándar de estimación 488 Ejercicios
f.!.SG
Capítulo
Resumen del capítulo Simbología
491
15 J\!Iétodos no paraméhicosº
492
Ejercicios del capítulo
Pt:blic(gciou1es cle ii ctJ.cldrll(Í
'
493
Introducción
497
ejercicios.com
499
Comandos para computadora Respuestas al autoexamen
E_ietcicios
50i
!55t:
Limitaciones de ji cuadrada
Introducción
EjercJc~os
503
562
Análisis de tablas de contingencias
507
Ejercicios
Error estándar múltiple de estimación
509
La labia ANOVA
Simbología
ejercicios.com
v 'J 0
Uso ele un diagrama de dispersión Matriz de correlación
514
576
Respuestas al autoexamen
579
Capítulo 1
pi·,);10" J;¡'JL'-'~-1_ "--'-· ,) J> •-"- 0 1J"'"l"'"l1C"'"Tº¡''')S _ij:'O:R" OlR'._ U <,_.-;_e o 0
Análisis de datos ordenados
517
Variables cualitativas independientes
520
523
por rango
Introducción
Análisis de residuales
523
Resurnen del capítuio
526
581
Uso de !a aproximación normal a !a binomial 586
527
539
Ejerck~i-os
Ejercicios con datos para computadora Comandos para computadora
580 581
La prueba del signo
527
Ejercicios del capítulo
576
514
Evaiuación de cada uno de los coeficientes
de regresión
Comandos para computadora
Sí 4
Prueba global: verificación de la validez del modelo de regresión múltiple 515
ejercicios.com
572
Ejercicios con datos para computadora
Evaluación de !a ecuación de regresión
Simbología
571
572
Ejercicios de! capítulo
511
566
570
Resumen del capítulo
Hipótesis para la regresión múltiple y !a correlación múltiple 51 O
Ejetc1cios
559
56'1
Utilización de la prueba de bondad de ajuste para probar normalidad
502
556
503
Análisis de regresión múltiple
E.jetck:ios
549
Prueba de bondad de ajuste: Frecuencias esperadas diferentes
Capítulo
"14 Análisis de regresión y correlación i11últiples
548
"
Prueba de bondad de ajuste: Frecuencias esperadas iguales
498
Ejercicios con datos para computadora
549
54i
540
588
Prueba de una hipótesis acerca de la mediana 589
576
Coíl!enido Ejerc::ic:¡os
XVH
5~JO
Diagramas de control de atributos
Prueba de rangos con signo de Wilcoxon 590
Diagrama de porcentaje de defectos Diagrama de e con barra
Prueba de suma de rangos de Wilcoxon
596
~/luestreo
Prueba de Kruskat-Wallis: análisis de varianza por rangos 600 Ejerc~cios
Simbología
604
609
ejercicios.com
647 654
655
6i i
656
Introducción
613
Ejercicios con datos para computadora Comandos para computadora
Respuestas a! autoexamen
651
Capítulo
61-¡
Ejercicios dei capítulo
646
Respuestas al autoexamen
60[3
Resumen del capítulo
645
Comandos para computadora
607
639
640
642
Ejercicios de! capítulo
605 Prueba de la significancia de rs
Silnbología
de aceptación
Resu1nen del capítulo
Correlación rango-orden F::jercicJcJS
638
614
656
Números índice simples
¿Por qué convertir datos en índices?
615
Obtención de los números índice
617
Ejerck:!o.s
659
660
661
Índices no ponderados
662
Promedio simple de índices de precios Índice agregado simple Índices ponderados
663
663
Índice ele precios de Laspeyres
Capitulo
664
Índice de precios de Paasche
11 Control estadístico de calidad 622 introducción
Índice ideal de Fisher
Índice de valor
623
Breve historia del control de calidad Causas de variación
Índice de precios al consumidor
628
Desp!azamiento de !a base
630 Objetivo y tipos de los diagramas de control de calidad 630 Diagramas de control para variables Diagrama de amplitudes de variación Ejemplos de situaciones bajo control y fuera de control 636 !338
670 675
Usos especiales del Índice de Precios al Consumidor 676
Diagrama de causa y efecto (o diagrama
E.jercicios
670
626
626
de espinazo de pescado)
Ej2rcícios
669
Índices para propósitos especiales
625
Diagramas de diagnóstico
Diagramas Pareto
623
665
667
631 634
Resumen del capítulo
682
Ejercicios del capítulo
683
ejercicios.com
679
687
Comandos para computadora Respuestas al autoexamen
687 688
662
XVlll
Capítulo ~(\1 ru :;;¿!
series «.Je' tiern1Jo y pronósticos Introducción
690
Componentes de üna -serie de tiempo Variación cíclica
Valor de la información perfecta
692
t:YO
693
Método de mínimos cuadrados Trazo ele la recta Estimación
737
737
Árboles de decisión
694 695
696
734
736
Anál!sis de sensibHidad
693
Variación irregular Tendencia lineal
732
Estrategias de deploración rnaxirnín, maximax y minimax 733
690
690
Variación estacional
732
Pérdida esperada de oportunidad
689
Tendencia secular
731
Pérdida de oportunidad Ejercicios
Resumen del capítulo
739
Ejercicios del capítulo
739
Respuestas a! autoexamen
744
697
i\péndices 699
Método del promedio móvil Tendencias no lineales F:'.jercicios
705
Variación estacional
706
7i 2
Utilización de datos desestaciona!lzados para pronóstico 713 Resumen del capítulo
716
Ejercicios de! capítulo
717
723
Ejercicios con datos para computadora Con1andos para computadora Respuestas al autoexamen
724
l~11ctores para cliagra1nas
J\péndicc
c
1hTtro(!_t11cció]_1 a 1~1 teoría de decisiones 726
Arcas b<:1jo la curva norn1al
;\pénclice E
Tabla de nún1cros aleatorios
l\péndicc F
l)istribución tele Sh1clcnt
/\pénclice G
\'alores críticos ele la distribución F' para un nivd ele si¿,rrüficancia 5% 761
Apéndice l-1
\1c1lores T de \Vilcoxon
727
Un caso referente a toma de decisión en condiciones de incertidumbre 728 Ganancias esperadas
728 729
758 759 760
763
/\péndicc I
\1<1lores críticos ele ji cuadréKla
Apéndice J
Conjunto de datos 1- Bienes raíces (Real State) 765
,'\pénclice K
Conjunlo de elatos 2- Liga n1ayor ele béisbol (Basehall 2000) 768
723
764
Apéndice L
Conjunto ele elatos 3-0CDE:
Apéndice M
c:onjunto de datos 4- l)istrilos escolares del Noroeste ele ()hio (Schools) 772
/\péndice :_\l
Conjunto de dai-os bancaríos- CélSO
1\péndice ()
c::uía ele referencia r;Jpida de lVlegaStat
Elementos de una decisión
757
ApéndiceD
727
Tabla de ganancias
756
Distribución de Poisson
725
Capítulo
EjerGicios
Apéndice B
ele contl"ol
Desestacionalización de datos
Introducción
l)istribución de probnbiliclad binoniial 746
705
Determinación de un índice estacional
ejercicios.com
Apéndice f\
703
777
Respuestas a los ejercicios de cada capítulo con nún1eros in1pares
780
H.espucstas a los ejercicios de repaso con núnieros
in1pares Índice
819 825
771
775
Cl~!CO
Diferenciar entre los nive!es de medición nominal, ordinal, de intervalo y de razón.
SEIS Definir los términos mutuamente excluyente y exhaustívo.
2
Capítulo 1
Introducció11 Hace más de 100 años, H. G. Wells, historiador y autor inglés, señaló: "Algún día el conocimiento estadístico será tan necesario para ser un buen y eficiente ciudadano, co1110 lo es saber leer." En ese momento no mencionó al sector empresarial porque !a Revolución lndustria! estaba comenzando. Si tuviera que hablar.sobre el conocimiento estadístico en la actualidad, probablemente diría que "el conocirniento estadístico es necesario no sólo para ser un buen y eficiente ciudadano, sino también para una toma de decisiones efectiva en varias áreas de los negocios". El fallecido W. Edwards Deming, importante estadístico y expe1·to en control de calidad, insistía en que la educación estadística debería comenzar antes de la enseñanza media superior. Le gustaba contar la historia de un niño de 11 a11os de edad que diseñó un diagrama de control de calidad para monitorear las llegadas a tiempo de su autobús escolar. Deming comentó: "este niño tuvo un buen comienzo en la vida"_ Esperamos que este libro le proporcione al lector una base sólida de estadística para su vida futura en la mercadotecnia, la administración, la contabilidad, las ventas o cualquier otra área de los negocios_ Casi todos los días utilizamos los conceptos estadísticos en las diversas facetas de nuestra vida. Por ejemplo, al comenzar el día uno abre la llave de la ducha 6 regadera para probar la temperatura del agua y decidir si añade más agua caliente o más agua fría y, si la temperatura es idónea, empieza a bañarse., Como segundo ejemplo, supongamos que se está en una tienda de comestibles decidiendo qué pizza congelada se va a comprar. Una de las empresas productoras de pizzas cuenta con un mostrador donde se ofrecen pequeñas pruebas de su producto_ Después de probarlo, uno decide si. lo compra o no_ En ambos ejemplos, el del baño y el de la pizza, se toma una decisión y se elige un curso de acción basándose en una muestra. Las empresas enfrentan problemas similares. La Compañía Kellogg debe asegurarse de que la cantidad promedio de cereal en el paquete de 25.5 gramos cumpla con las especificaciones de la etiqueta. Para hacerlo, selecciona muestras periódicas del área de producción y pesa el contenido. A nivel nacional, un candidato a la presidencia de Estados Unidos quiere saber qué porcentaje de electores en el estado de lllinois lo apoyará en la siguiente elección. Existen diferentes formas de saber esto: puede hacer que su equipo llame por teléfono a todas las personas registradas en el padrón del estado y les pregunte por quién votarán. Puede salir él mismo a las calles de Chicago, detener a diez personas adultas y preguntarles por quién van a votar. Puede seleccionar en forma aleatoria a 2 000 electores del estado, hablar con ellos y, basándose en esta selección, realizar un cálculo del porcentaje de personas que votarán por él en la elección. En este texto le mostraremos por qué motivo la tercera opción es la mejor.
¿Cómo definimos la palabra "estadística"? Es un término que encontramos frecuentemente en nuestro lenguaje diario. En realidad tiene dos significados. En e! uso más coml!n, la estadística se refiere a información numérica. Como ejemplos de lo anterior tenemos el salarlo inicial promedio de los egresados de una licenciatura, el nlimero promedio de autornóviles Ford vendidos mensualmente en el año pasado en la Agencia Kistler de Autos Ford, el porcentaje de estudiantes de Harvard que terminarán su educación a nivel licenciatura, el número de n1uertes por a!coho!ismo durante el último año, la variación en el Promedio Industrial Dow Jo-
3
¿Qué es la Es!ad;slica?
nes de ayer a hoy, o el nllmero de jon1·011es realizados por el equipo ele los Cachorros de Chicago durante la ten1porada de 2000. En los ejemplos anteriores una "estadística" es un nún1ero o un porcentaje. Otros ejemplos incluyen: f[)
La esttadística eri acciórn
'1l
0 0
E! auto1nóvil típico en Estados Unidos recorre 11 099 rnillas por año. El autobl1s típico viaja 9 353 millas prn· año, y el camión típico, '13 942 millas por año. En Canadá las cifras co· rrespondierrtes son 1O 371 mil!as para automóviles, 19 823 millas para autobuses, y 7 001 111illas para cainiones. El tiempo de espera prornedio para recibir asistencia técnica es de í 7 minutos. La Oficina clel Censo calcula que la población de EUA será ele 335 050 000 en el año 2025. La extensión promedio de los ciclos empresariales desde 1945 (medidos ele pico a pico) es ele 61 rneses.
Los anteriores son ejemplos de estadrstícas. A una colección de información numérica se le conoce como estadísticas (en plural). Las estadísticas pueden presentarse gráficamente o en forma de enunciado. Por lo gene· ral se utiliza una gráfica pera capturar la atención del lector y mostrar una gran cantidad de información. Por ejemplo, el diagrama 1.1 indica e! volumen de ventas y la participación en el mercado de Frito-Lay respecto a los principales tipos ele frituras vendidos en los supermer· caclos ele Estados Unidos en 1999. Basta una ojeada para saber que en 1999 se vendieron casi 800 millones ele libras de frituras de papa, y que de esta cantidad Frito-Lay vendió 64%. También se observa que Frito-Lay tiene 82% del mercado de frituras de maíz. Frituras de papa To topos Pretzels
121 frito-Lay
Frituras diversas
El lnclustria
Frituras de maíz
o co_s. \V!l.limn G
100
200
300
1
1
400
500
600
700
800
Millones ele libras íl~tH3ílAMl'~
1.1
\lo1un1en de ventas y participación en el n1ercado de Frito-Lay, respecto a los principales tipos de frituras en los snpcrn1crcados de Estados Unidos. Fue11lc: 1999 Annual Report, p.6.
inaci<; ~:lf60:_11iir-n1i~_ ·:-
Hones de dól8res. ~ LaS:_cl1al~:p 'efr\r)_rCs_aS
estadounidel1scs
La materia estadística, corno se presenta en este libro, tiene un significado mucho más amplio que la mera recopilación y publicación de información numérica. La estadística se defi· ne como:
ú;~s i'í~1pürt'.1~1te~~--éti ·or~!éirde vcnti1s, sob: .-Cei-1étal-~Ao
·E_S_ta~~ti_~a_ -~~{¡fi_-¿ieliyla::qúé' -~e 09up·á:d;e-rec,_01~6t~r,_·:o_rganiZ9_r,, presentarj analizar e interpretar datos para ayudara Una toma de decisiones más efectiva.
tors;.·\Val~Ñfafr; 'Fórd
y Cencial El'ecl'ri'c. ~
El.nortean1erica'rio pron1cdio_ gana l_ 235 720 dólares y paga 178.364 d
Como indica la definición anterior, el primer paso en la investigación de un problema es la recolección de datos importantes. Estos datos deben organizarse de cierta manera, y tal vez. presentarse en un gráfico, similar al diagrama 1.1. Sólo hasta que los elatos hayan siclo organizados es posible analizarlos e interpretarlos. A continuación se presentan algunos ejemplos que muestran la necesidad de la compilación ele datos. '/fJ
Los analistas ele investigación de la empresa Merrill Lynch evalúan muchas facetas de una determinada acción antes de elaborar una recomendación de "compra" o de "ven-
4
Capitulo 1
'
ta". Recolectan datos de ventas pasadas de la compañía y calculan las ganancias futuras. Asimismo, antes de hacer una recomendación, consideran otros factores como son: la demanda mundial esperada de los productos de la compañía, la fortaleza de la competencia, así como el efecto del nuevo contrato entre gerencia y sindicato. 0 El departamento de mercadotecnia en Lever Brothers, compafiía productora de artículos de jabón, tiene la responsabilidad de presentar recomendaciones acerca de la rentabilidad potencial de un nuevo grupo de jabones faciales recién desarrollados con olor a frutas, como uva, naranja y piña. Antes de tomar una decisión final, realizarán pruebas en diferentes mercados. Esto quiere decir que los jabones podrían promoverse y venderse en Topeka, Kansas, y en Tampa, Florida. La empresa Lever Brothers tomará la decisión de introducir o no los jabones a nivel nacional, basándose en las pruebas de mercadotecnia en ambas regiones. ' El gobierno de Estados Unidos está interesado en las condiciones actuales de su economía y en la predicción de las tendencias económicas futuras. Realiza un gran número de encuestas para determinar la confianza del consumidor y las perspectivas ele la gerencia respecto a las ventas y la producción en los siguientes doce meses. Cada mes se desarrollan ciertos índices para evaluar la inflación, como el Índice de Precios al Consumidor (descrito en el capítulo 18). La información sobre ventas en tiendas deparcamentales, compras de viviendas, movimiento de dinero, y producción industrial, es tan sólo una parte de los centenares de artículos que se utilizan como base de las proyecciones. Los bancos emplean estas evaluaciones para decidir su prima de préstamo; asimismo, la Junta de la Reserva Federal las utiliza para decidir respecto del nivel de control a colocar en el abasto de dinero. La gerencia debe tomar decisiones sobre la calidad del producto. Por ejemplo, los taladros automáticos no hacen un barreno perfecto que siempre tenga 1.30 pulg de diámetro cada vez que se taladra (a causa de desgaste de la broca, vibración de la máquina y otros factores). Hay ciertas tolerancias permitidas, pero cuando el barreno es demasiado pequeño o muy grande, la producción es defectuosa y no se pueden utilizar los productos. El departamento de aseguramiento de calidad es el encargado de monitorear continuamente la producción utilizando técnicas de muestreo (descritas en el capítulo 17).
¿Por qué estu~Üff estadística? Si se revisan los programas de estudio de una universidad, se descubrirá que la educación estadística se requiere en muchos programas escolares. ¿Por qué pasa esto? ¿Cuáles son las diferencias en los cursos de estadística que se imparten en una Facultad ele Ingeniería, en los Departamentos de Psicología o Sociología de una universidad, o en una Escuela de Administración? La diferencia principal está en los ejemplos que se utilizan. Básicamente, el contenido de !os cursos es el mismo. En una Escuela de Administración interesan cosas como ganancias, horas de trabajo, y sueldos o salarios. En un Departamento de Psicología interesan los resultado.s de las pruebas, y en una Facultad de Ingeniería el interés puede centrarse en saber cuántas unidades se producen con una máquina en especial. Sin embargo, las tres áreas desean saber lo que es un valor típico y la cantidad de variación que existe en la información. Es posible que también exista una diferencia en el nivel de matemáticas necesario. Normalmente un curso de estadística para ingenieros requiere del cálculo diferencial. Los cursos de estadística en escuelas de administración y en la educación básica, generalmente se imparten a nivel de aplicaciones de la estadística. Si se terminó bien el curso de álgebra de la preparatoria, el lector podrá manejar las matemáticas que se presentan en este texto. Entonces, ¿por qué es necesario estudiar estadística en tantas carreras? La primera razón es que en todos lados encontramos información numérica. Si se revisan periódicos (como
5
Ejemplos de las razones para estudiar estadística.
USA Today), revistas de información (como Time, Newsweek, y US, News and World Fieport), revistas de negocios (Business Week, o Forbes), publicaciones de interés general (Peop/e), revistas femeninas (Home and Garden), o revistas de deportes (Sports 11/ustrated o ESPN The lVlagazine), se verá bombardeado con información numérica. A continuación presentamos algunos ejemplos: 0
0
'
•
La empresa General E!ectric repo11ó que en 1999 sus ganancias fueron de $111 630 000 (dólares), mayores que los $100 469 000 que obtuvo en 1998, El precio de cierre al final de 1999 de una acción de títulos comunitarios fue $154,75, superior al de $102,00 que tenía la acción al final de 1998. Los egresados de posgrado del Programa de Maestría en Adn1inistración de Empresas en la Universidad de Notre Dame, contaron con un sueldo promedio inicial de $54 000 dólares y 91 % de ellos consiguieron trabajo a los tres meses de la graduación. En Estados Unidos hay 26.4 millones de jugadores de golf cuya edad es igual o superior a 12 años. Aproximadamente 6.1 millones son jugadores ávidos, es decir, juegan en 25 o rnás circuitos por año. El jugador de golf típico es hombre, tiene 40 años, percibe un sueldo de 68 209 dólares y juega 21.3 circuitos por año. En Estados Unidos se consume mayor cantidad de café que en cualquier otro país; en promedio, i .75 tazas diarias por persona. ¿Cótrio podernos determinar sí las conclusiones presentadas son razonables? ¿Acaso las
muestras fueron suficientemente grandes? ¿Cómo se seleccionaron las unidades de la muestra? Para poder ser un consumidor capacitado a fin de entender esta infor111ación, se necesita poder leer diagramas y gráficas, y entender el análisis de la Información numérica. La comprensión de los conceptos básicos de la estadística será de gran ayuda. La segunda razón para tomar un curso de estadística es que las técnicas estadísticas se utillzan para tomar decisiones que afectan nuestra vida diaria. Esto quiere decir que influyen en nuestro bienestar personal. He aquí algunos ejemplos: '?
'
"'
Las compañías de seguros utilizan análisis estadísticos para establecer las tarifas de los seguros de casa, automóvil, vida y salud. Existen tablas que indican la probabilidad de que una mujer de 25 años de edad viva un año más, cinco años más, etcétera. Las primas de ios seguros de vida se establecen basándose en estas probabilidades. La Agencia de Protección al Medio Ambiente (en EUA) está interesada en la calidad del agua en el Lago Erie. Periódicamente toman muestras del líquido para establecer el nivel de contaminación y mantener el nivel de calidad. Los investigadores médicos estudian las tasas de curación de enfermedades, basándose en el uso de diferentes medicamentos y distintas formas ele tratamiento. Por ejemplo, ¿cuá! es el efecto de trc:tar cie1io tipo de daño a la rodll!a con cirugía o con terapia física? Si uno toma una aspirina diaria, ¿esto reducirá el riesgo de sufrir un ataque cardiaco?
La tercera razón para tomar un curso de estadística es que el conocimiento de los rnétodos estadísticos ayuda a entender por qué se toman ciertas decisiones, y aporta una mejor comprensión respecto a la -forma en la que nos afectan las decisiones. Sin importar el tipo de trabajo que se elija, el lector tendrá que enfrentarse con la toma de decisiones, para !o cual una comprensión del análisis de datos será ele gran ayuda. Para poder tomar una decisión basada en la información, se necesita:
·1. Determinar si la infor111ación existente es adecuada o si se requiere información adicional. 2. 3. 4. 5.
Reunir inforn1ación adiciDnal, si es necesario, de tal forma que no haya resultados erróneos. Resumir la información de modo útil e informativo. Analizar la información disponible. Sacar las conclusiones y realizar las inferencias necesarias, al tie111po que se evalúa el riesgo de llegar a una conclusión incorrecta.
6
Capitulo 1 Los métodos estadísticos que se presentan en este texto le proporcionarán un marco de trabajo en el procedimiento de la toma de decisiones. En resumen, existen por lo menos tres razones para estudiar la estadística: (1) los datos se encuentran en todos lados, (2) las técnicas estadísticas se utilizan para la toma de muchas decisiones que afectan nuestra vida, y (3) sin importar su línea de trabajo futura, usted tendrá que ton1ar decisiones que involucran datos. El conocimiento de los métodos estadísticos ayudará a tomar esas decisiones con mayor efectividad.
'li''
]
l' .
i ~P'.:::~_::::_eS[¡j·~il~I~~ F s r-1r~;Qt¡: "":-1 "lF·('CJ/~-.-,t·1'·110 -"-',,_ca._~-"'"-'"-'"--•"-'~..:~
-'_¡¡_-''e~
Generalmente, el estudio de la estadística se divide en dos categorías: estadística descriptiva y estadística inferencia!. La definición de estadística que se presentó con anterioridad menciona la "organización, presentación, aná!isis ... de datos". Esta área de la ciencia estadística se conoce comúnmente como estadística descriptiva.
JEsradfoticafl_escriptiva
ConjiJn!Q,dE) métodos paraorganizar, resumir y presentar los dalos de manera informativa.. / /''·
Por ejemplo, cuando el gobierno de Estados Unidos reporta que la población de ese país era de 179 323 000 en 1960; 203 302 000 en 1970; 226 542 000 en 1980; 248 709 000 en 1990, y 265 000 000 en 2000, presenta información que pertenece al carnpo de la estadística descriptiva. Seria el rnismo caso si se calcula el porcentaje de crecimiento de una década a la siguiente. Sin embargo, no sería el caso si se utilizan estos datos para predecir la población de Estados Unidos en el año 2010, o el porcentaje de crecimiento de 1990 a 201 O. Los siguientes son otros ejemplos de estadística descriptiva. En Estados Unidos hay 42 796 millas de carreteras interestatales. El sistema interestatal representa sólo 1 % de las carreteras del país, pero transporta 20% de lodo el tráfico. La carretera interestatal más larga es la 1-90, que va de Bos!on a Seattle, y tiene una longitud de 3 081 millas. La más corta es la 1-878 en la ciudad de Nueva York, que mide 0.70 millas. Alaska no tiene carreteras interestatales. Texas posee la mayor cantidad de millas en carreteras interestatales: 3 232 millas, y Nueva York tiene el mayor número: 28 carreteras interestatales. De acuerdo con la Oficina de Estadística Laboral, el salario semanal promedio tuvo un aumento de 3.7%, ajustado estacionalmente, de rnarzo de 1999 a marzo de 2000. Después de la deflación y mediante el Índice de Precios al Consumidor, el salario semanal promedio disminuyó 0.2%. Antes de los ajustes debido a la variación estacional y la inflación, el salario semanal promedio fue de $465.80 (dólares) en marzo de 2000, en comparación con $448.70 en el año anterior. El Servicio de Recaudación de Impuestos reportó que el tiempo promedio para archivar el formato ·1040EZ era de 2 horas y 46 minutos. Lo anterior se puede comparar con las 7 horas y 34 rninu!os que toma archivar el formato 1040A, y las 1O horas y 53 minutos para el formato 1040. El tiempo promedio para realizar un reembolso mediante un sistema TeleFile es de 37 minutos. Los conjuntos de dalos no organizados (corno el censo de población, los ingresos semanales de miles de programadores en informática y las respuestas individuales de 2 340 electores registrados acerca de su selección para el presidente de Estados Unidos) son de poco valor. Sin embargo, hay técnicas estadísticas para organizar este tipo de información de manera significativa. Algunos datos pueden organizarse en una distribución de frecuencias. (El procedimiento para hacer esto se expone en el capítulo 2.) Suelen utilizarse diversos tipos de
7
¿Qué es la Esladís!ica?
gráficas para describir !os datos; en el capítulo 2 también se presentan varias ·formas básicas de gráficos. Determinadas medidas de tendencia central, como la media, pueden calcularse para describir el valor central de un grupo de datos numéricos. En el capítulo 3 se presentan estos
promedios. Pueden utilizarse varias medidas estadísticas para describir qué tan estrechamente se agrupan los datos con respecto a un promedio. Estas medidas se analizan en el capítulo 4.
'' > ]'1s¡1ca I' . e . 1 a:!.,st-a( 1NT~ere]_1c1.ad Otra área estadística es !a estadística inferencia!, tan1bié11 denominada inferencia estadística y estadística inductiva. El principal objetivo de la estadística inferencia! es encontrar algo sobre una población basándose en una muestra tomada de esa población. Por ejemplo, con fundamento en una encuesta realizada por el gobierno federal y publicada en el periódico USA Today, solamente 46% de alumnos en el (rltimo grado de la educación media superior pueden resolver problemas relacionados con fracciones, decin1ales y porcentajes. Además, sólo 77% de los rnismos alumnos evaluaron correctamente el costo de la sopa, las hamburguesas, las papas a la francesa y los refrescos en el menú de un restaurante. Ya que estas son inferencias relativas a la población (todos los estudiantes del último grado de tal instrucción) basadas en una n1uestra de datos, se denominan estadística inferencia!.
Esfadísti.ca iilferencial
Conjunto de métodos utilizados para saber algo acerca de una población, basándose en una muestra.. .
.
.
----,·~-',
Observe las palabras "población" y "muestra" en la definición de la estadística inferencia!. Frecuentemente se hace referencia a ta población que vive en Estados Unidos o a ta población de mil millones que reside en China. Sin embargo, en estadística la palabra población tiene un significado más amplio. Una población puede constar de individuos, por ejemplo tos estudiantes inscritos en ta Universidad del Estado de Utah, los alumnos de la clase de contabilidad 201. o todos los reclusos en la prisión de Attica. Una población también puede incluir objetos, como las llantas XB-70 producidas durante una semana en la compaííía Cooper Tire and Rubber, en Findlay, Ohio. o todas las truchas que se encuentran en un estanque. Una población también puede estar formada por un grupo de medidas, como podrían ser los pesos de todos los jugadores de la línea defensiva del equipo de futbol americano de la Universidad Estatal Penn, o las estaturas de los jugadores de basquetbol de la Conferencia del Sudeste. Por tanto, una población, en el sentido estadístico, no siempre se refiere a personas.
Población
Conjunto de todos los posibles individuos, objetos o medidas de interés.
Generalmente se toma una muestra de una población para inferir algo acerca de la misma.
Mues!J'a Razones para el muestreo.
.Urta.porcíón; rn parte, dela.póblación de interés:
¿Por qué se toma una muestra en vez de estudiar a cada miembro de la población? Una muestra de electores registrados es necesaria por el a!to costo que representaría comunicarse con millones de electores antes de una elección. A! someter a una prueba el contenido de humedad en el trigo, se destruye el mismo, por tanto tomar una muestra es de suma importancia. Si los catadores de vino lo probaran todo, no habría vino disponible para su venta. Sería físicamente imposible que unos cuantos biólogos marinos capturaran y marcaran a todas las focas del océano. (Estas y otras razones para el muestreo se presentan en el capítulo 8). Como se observó, el hecho de tomar una muestra para obtener información acerca de una población es una práctica común en los negocios, la agricultura, la política y el gobierno, como lo indican los siguientes ejemplos:
8
Capfü•lo i 0
~
"'
Las en1presas de televis~ón constantemente monitorean la popularidad de sus programas contratando a la empresa Nieisen y a otras organlzaciones para conocer las preferencias de los telespectadores. El índice de televidencia (rating) de estos programas se utiliza para establecer los precios de la publicidad y cancelar programas. Una empresa de contabilidad púbnca selecciona una muestra aleatoria de ·100 facturas y verifica que sean correctas. En cinco de las mismas se encontraron errores, por tanto la empresa estima que 5% de toda la población de facturas contiene algl1n error. Una muestra aleatoria de i 260 egresados de la carrera de contadui-ía con un programa de cuatro años de estudios mostró que su salario inicial promedio fue $32 694 (dólares). Por tanto, se llega a la conclusión de que para estudiantes egresados de una escuela de contaduría (cuyo programa de estudios abarque cuatro años) el promedio de sueldo al comenzar actividades laborales es de $32 694.
A continuación se presenta la relación entre una n1uestra y una población.
Población Todas las par:es
Muestra Las pa1ies se seleccionan de !a pob!aclón
Se recomienda realizar los ejercicios de autoexamen.
En seguida se presenta un problema de auloexamen. En cada capítulo se expone un cierto número de estos problemas, los cuales sirven para poner a prueba la comprensión del lector respecto al material precedente. Al final del capitulo se indican la respuesta y el método de solución. Se recomienda resolver cada uno de los problemas y después verificar la contestación.
Las respuestas se encuentran al final del capítulo. La có111pañía rvlarket Facts con baSe en Chicago pidió a una muestra de 1 960 consun1idores que probaran un platillo de pescado congelado producido por la empresa Morton, y denominado Fish Delight De los 1 960 consumidores consultados, 1 176 dijeron que comprarían el platillo si se· pusiera a !a venta. a) ¿Qué informaría Market Facts a Morton Foods respecto a la aceptación del Fish Delight? b) ¿Se trata de un ejemplo de estadística descriptiva o de estadística inferencia!? Jushfique su respuest_a.
Variable cualitativa.
Existen dos tipos básicos de datos: (1) los obtenidos a partir de una población cualitativa, y (2) los que resu!tan de una población cuantitativa. Cuando la característica o variable en estudio es no numérica, se la denomina variable cualitativa o atributo. Ejemplos de estas variables son:
¿Qué es !a tstadística?
Variable cuantitativa
9
género sexual, religión, tipo de automóvil, estado o lugar de nacimiento, y color de los ojos de la persona. Cuando la información estudiada es cualitativa, generalmente interesa saber Cuántas o qué proporción entra en cada categoría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules? ¿Cuántos católicos y cuántos evangélicos hay en Estados Unidos? ¿Qué porcentaje de la cantidad letal de automóviles vendidos el mes pasado fue de la marca Buick? Normalmente, los datos cualitativos se resumen en diagramas o gráficas de barras (capítulo 2). Cuando !a variable estudiada se puede expresar numéricamente, ·se ... d8nomina variable cuantitativa, y la población se conoce como población cuantitativa. Ejemplos de variables cuantitativas son: el saldo en una cuenta de cheques, la edad de los presidentes de compañías, la duración ele un acumulador de automóvil (42 meses), las velocidades de los vehículos que circulan por la carretera interestatal 5, cerca de Seattle, o bien e! 11ún1ero de hijos en una familia.
Las variab!es cuantitativas pueden ser discretas o continuas. Las variables discretas
La e§tadística en accJlón
estádístiCa.
pueden asumir sólo ciertos valores, y generalmente existen "brechas" o "huecos" entre ellos. Ejemplos de variables discretas son: el número de recámaras en una casa ('I, 2, 3, 4, etc.), la cantidad de automóviles que pasan por la caseta de cobro en la carretera 1-75 en Berea, Kentucky, en una hora (16, 19, 30, etcétera), y el número de estudiantes en cada grupo del curso de estadística (25 en el grupo A, 42 en el grupo 8, y ·1 sen el grupo C). Se cuenta el número de automóviles que llegan a Berea en la carretera interestatal 75, y se evalúa la cantidad de estudiantes de estadística en cada grupo. Nótese que una casa puede tener 3 o 4 recámaras, pero no 3.56 dormitorios. Por tanto, existe una "brecha" entre los posibles valores. Por lo común, las variables discretas son resultado de un conteo. Las observaciones de una variable continua pueden tomar cualquier valor dentro ele un intervalo determinado. Ejemplos de variables continuas son: la presión clel aire en un neumático de automóvil y el peso ele un cargamento de granos (que según la precisión de las básculas podría ser igual a 15.0, 15.01, 15.013 toneladas, etc.). La cantidad de cereal en una caja y el tiempo de vuelo para transportarlo por vía aérea desde Orlando hasta San Diego, son otras variables de indole continua. El vuelo de Orlando a San Diego puede tomar 7 horas y 30 minutos, o 7 horas con 30 minutos y 45 segundos, o bien 7 horas con 30 minutos y 45.1 segundos, dependiendo ele !a precisión cronométrica. Las variables continuas resultan generalmente de medir algo.
Los datos pueden clasificarse de acuerdo con los niveles de medición. Generalmente, e! nivel de medición de un dato determina los cálculos que se pueden realizar para resumir y presentar la información, y las pruebas estadísticas que pueden desarrollarse. Por ejemplo, hay seis colores de dulces en una .bolsa de ·lunetas M&M. Supongamos que al color café le asignamos el valor 1, al amarillo el 2, al azul 3, al naranja 4, al verde 5, y al rojo 6. Para una bolsa de lunetas se suman los valores asignados a los colores, y el resultado se divide entre el número de dulces, resultando que el color medio es 3.56. ¿Esto significa que el color promedio es azul o naranja? Como segundo ejemplo tenen1os una co_mpetencia de carreras en la ¡)íSta de una escuela. Hay 8 competidores en la carrera de los 400 metros. Se repo1ia el orden de llegada y se indica que el valor promedio en el or-· den citado es 45. ¿Qué indica este valor promedio en el orden de llegada? En ambos casos, el nivel de medición no se ha utilizado en la forma adecuada. Existen cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. El nivel "más bajo", o más primitivo, es el nominal. El más alto, o el que proporciona la mayor cantidad de inforn1ación acerca de la observación, es el nivel de medición de razón.
Datos En el nivel nomina! de la n1edición, las obsetvaciones solamente se pueden clasificar o contar. No existe algé1n mden específico entre las clases. Un ejemplo del nivel nominal de medi-
10
Capit"lo 1 ción es la clasificación en seis colores de las lunetas IVl&M. Simplemente se clasifican las lunetas según el color. No hay un orden natural. Esto quiere decir que primero se puede reportar la cantidad de lunetas ele color café, o las anaranjadas, o las de cualquier otro color. El género sexual es otro ejemplo del nivel de medición nominal. Supóngase que se cuenta el número de estudiantes que asisten a un juego de futbol utilizando su identificación escolar y se reporta cuántos son hombres y cuántos son mujeres. Se puede reportar primero la cantidad de varones o la de féminas. Para e! nivel nominal de medición la única medición posible es un conteo. La tabla 1.1 muestra un desglose del uso de telelonía de larga distancia en Estados Unidos. Este es el nivel nor1inal de n1edición porque se cuenta e! nl1mero de veces que se utilizó cada compailía que proporciona servicio de larga dlstancia. No conviene distraerse con el hecho de haber resumido los datos para indicar cuántas veces se utilizó a un proveedor de los servicios de larga distancia.
il\Bll\ 1.1
Uso de la telefonía de larga distancia según el proveedor del servicio. Compañía AT&T MCI Sprint Otros
Total
Número de llamadas
Porcentaje
108115800 20 577 310 8 238 740 7130620
75 14 6 5
144062470
100
La forma en que se presentan los nombres de las compañías ele la tabla 1.1 puede ser diferente. Esto es, se podía haber colocado primero a MCI, luego a Sprint, etcétera. Básicamente esto indica la característica principal del nivel nominal ele medición: no hay un orden específico entre las categorías. Tales categorías son mutuamente excluyentes, lo cual quiere decir que, por ejemplo, una llamada en especial no puede iniciarse tanto en AT&T como en MCI. Muhrn1mente exefoyenfo Propiedad dé un conjJntO de Categorías, irpplica persona, objeto o medición se ha de incfuir en sólo. una categ()ría. ·
t¡UfLJrl~
Las categorías en la tabla 1.1 también son exhaustivas, lo que significa que cada miembro de la población, o de la muestra, debe aparecer sólo en una ele las categorías. Por tanto, si la llamada no se originó en AT&T, MCI o Sprint, entra en la categoría "Otras". Exhausl:lyo•f'ropie?addeurl conjunto d~..·categorí~s.qlle implica qu., cada··individuo, objeto o medición debeapárecer en .sólo una categoría, Para poder procesar los datos acerca del uso del teléfono, el género sexual, el empleo por industria y otras áreas, generalmente se codifican las categorías en 1, 2, 3, etc.; en este caso el 1 representaría AT&T; el 2, MC:, y así sucesivamente. Esto facilita el conteo por computadora. Sin embargo, haber asignado números a las diferentes empresas no permite manipular los números. Por ejemplo, 1 + 2 no es igual a 3; esto es, AT&T + MCI no es igual a Sprint En resumen, los datos de nivel nominal tienen las siguientes propiedades:
1. Las categorías para los elatos son mutuamente excluyentes y exhaustivas. 2. Las categorías para los datos no tienen un orden lógico.
Datos de nivel ordinal El siguiente nivel de datos es el nivel ordinal. La tabla 1.2 presenta las calificaciones dacias por !os estudiantes al profesor James Brunner en un curso de "Introducción a las Finanzas".
¡¡
¿Qué es la Estadislica?
Cada estudiante respondió a la siguiente pregunta: "En general, ¿cómo califica al profesor de este curso?" Esto muestra el uso de la escala de medición ordinal. Una categoría es "n1ás alta" o "mejor" que la siguiente. E!lo quiere decir que "Exce!ente" es mejor que "Bueno", "Bueno" es mejor que "Regular", etcétera. Sin embargo, no es posible distinguir algo referente a la magnitud de la diferencia entre los grupos. ¿Acaso la diferencia entre "Excelente" y "Bueno" es la misma que la existente entre "Malo" y "Muy malo"? Es algo que no se puede responder. Si "Excelente" equivale a 5 y "Bueno" a 4, podemos concluir que la calificación de "Excelente" es mejor que "Bueno", pero no se puede sumar una calificación de "Excelente" y otra de "Bueno" y obtener un resultado significativo. Además, no es posible concluir que una calificación de "Bueno" (con valor de 4) sea necesariamente el doble de buena que "Malo" (con valor de 2). Lo único que puede concluirse es que una cali·ficación de "Bueno" es mejor que la de "Malo". Lo que no es posible elucidar es qué tanto "mejor" es una calificación que la otra. TPJ~lA íl .2
Calificación de nn profesor de finanzas.
Ga!ificación Excelente Bueno Regular Malo Muy malo
Frecuencia 6
28 25 12 3
En resumen, las propiedades del nivel de datos ordinal son: 1. Las categorías para los datos son mutuamente excluyentes y exhaustivas. 2. Dichas categorías para los ídatos se clasifican por intervalos, o se ordenan de acuerdo con las características particulares que poseen.
Datos C1e 11_ivel de :h1terva1o El nivel de intervalo de la medición es el siguiente nivel en orden ascendente. Incluye todas las características del nivel ordinal pero, ade111ás, la diferencia entre los valores tiene un tamaño constante. Un ejemplo del nivel de medición de intervalo es la temperatura. Por ejemplo supóngase que las temperaturas más altas en tres días consecutivos de invierno en la ciudad de Bastan son 28, 31 y 20 grados Fahrenheit (ºF). Estas temperaturas suelen ordenarse fácilmente, pero ta111bién se puede determinar la diferencia entre las mismas. Esto es posible gracias a que un "grado Fahrenheit" representa una unidad constante de medición. Las diferencias iguales entre dos temperaturas son las 111ismas, sin importar la posición en la que se encuentren en la escala. Esto quiere decir que la diferencia entre 1O ºF y 15 ºFes 5, y la diferencia entre 50 y 55 grados también es 5 grados. Es importante señalar que o es solamente un punto de la escala, y no representa la ausencia de la condición. "Cero grados Fahrenheit" no representa la ausencia de calor, sino que indica que "hace frío". De hecho, O "F corresponde a un valor de -18 grados aproximadamente en la escala Celsius. Las propiedades de la escala de intervalo son:
-1. Las categorías para los datos son mutuamente excluyentes y exhaustivas. 2. Las categorías en cuestión están ordenadas de acuerdo con la cantidad de la característica que poseen. 3. Diferencias iguales en la característica se representan por diferenclas iguales en la 111edición. Hay pocos ejemplos de la escala de medición de un intervalo. La temperatura, antes mencionada, es uno de los ejemplos. La medida de calzado es otro.
GapíllllO 1
12
Datos ele Prácticarr1ente todos los datos cuantitativos son el nivel de razón de la medición. Ei nivei de razón es el nivel de medición "111ás alto". Esta medida tiene todas las características del nivel de iniervalo, pero además el punto O sí tiene significado, y la razón (o cocienie) entre dos números también es significativa. Ejemplos de la esca!a de razón son los salarios, las unidades de producción, e! peso, los.cambios en !os precios de !as qcciones, la distancia entre un conjunto de oficinas y la estatura. El dinero es un buen ejemplo. Si se tienen O dólares, entonces no se poseen fondos. El peso puede ser otro ejemplo, ya que si ia escala de una báscula está en cero, hay una total ausencia de peso. La razón entre dos nl1meros también tiene significado. Si una persona gana $30 000 dólares al año vendiendo seguros, y otra gana $60 000 al año vendiendo automóviles, la segunda persona gana el doble de lo que percibe la primera. La razón o cociente vale 2. Las propiedades del nivel de razón de los daios son:
i. Las categorías de los datos son mutuamente excluyentes y exhaustivas. 2. Dichas categorías tienen un intervalo u orden de acuerdo con la cantidad de la característica que poseen. 3. Diferencias iguales en la característica están representadas por diferencias iguales en los números que se han asignado a las categorías mencionadas. 4. El punto (o valor) O representa la ausencia de la caracteíÍstica. La tabla 1.3 presenta el uso de !a escala de medición de razón. Se indican los ingresos de cuatro combinaciones de padres e hijos.
TA[]Lj}, !J.3
Con1binación de Jos ingresos (en dólares) de padres e hijos.
Nombre de ia familia
Jiménez Blanco Rulz Sánchez
Ingresos del padre 80 90 60 75
Ingresos de! hijo
000 000 000 000
40 30 120 130
000 000 000 000
Observe que en la familia Jiménez ei padre gana el doble de lo que gana su l1ijo. En la familia Ruiz el ingreso del hijo es el doble del ingreso de su padre. El diagrama 1.2 presenta las características principales de los diferentes niveles de medición.
____ ____ [
[
l l_~_o_r"'di_n,_a1_._·.-:~S]_••••··_ . ·.•·~·
Nominal
~L_____
~.·.t·o.·
L._.é2ri~:~~ca
in,te_rv_a_lo~···_.J
'--'--"--D_e__
e.
1
Derón_·._._·._._¡
1
o.rde.na.los ..'.l. $. .•·.• .· .••. ••. ] por Jerarquias
.
E! Oyet cociente entr_e valores tienen sighificadb
..
1
~
---
Número en !a ca[f:r{~;eta:de ün· jugador de futbol .~arca de un automóvil
D~,.;l-&;fl;p;~J!jl,
·J.2
Calificación- ele _un ·esfudianté.'e·n ·sli· ciase .e. P_o?i_ción det equipo en el Pacrn e;
H.esu1nen de las características de los niveles de tnedición.
J.
.Número de pacle.nÍ~ aténclídos e Número d_e. llam._ ac.!a_s ele venta realizadas w Distancia a la escuela
13
¿Qué es la Estadistica?
¿Cuál es el nivel de medición que reflejan los siguientes datos? a) Las edades ele los adultos que escuc.han las casi 700 estaciones de radio con canciones "de antaño" en Estados Unidos son:
44
29 36 37 39
35
37
35
30 47
41 41 41 35 38
34 39 27 35 43
44
44 33 41 40
46 39 33 42 48
42
42
43
43 38
39 37 42
42 31
37 44 43 38
51
47 40 22 43 34
b) En una encuesta a 200 propietarios de automóviles de lujo, i 00 eran de California, 50 de
Nueva York, 30 de lllinois, y 20 de Ohio.
Las respuestas a los ejercicios con nú1nero írnpar se encuentran al final del libro. i. ¿Cuál es el nivel de medición para cada una de las siguíentes variables? a) Promedios de calificación de los estudiantes. b~ La distancia que reco-ren Jos estudiantes para llegar a clases. e) Calificaciones de los alumnos en el primer examen de estadística. d) Clasificación de los alumnos de acuerdo con el estado donde nacieron. e) Clasificación de alumnos segl1n el año escolar que cursan. f} Cantídad de horas de estudio por semana de los estudiantes. 2. ¿Cuál es el nivel de medición en los siguientes conceptos relacionados con el negocio de publicación de periódicos? a) La cantidad de diarios vendidos cada domingo durante i998. b} El número de empleados en cada departamento; por ejen1plo, editorial, publicidad, deportes, etcétera. e) Un resu111en de la cantidad de períódícos que se venden por país. d) El número de años que cada empleado ha trabajado en el medio periodístico. 3. Busque en la últlma edición de su periódico local, ejemplos de cada uno de los niveles de medición. Escriba un breve resumen acerca de sus observaciones. 4. Para cada uno de los pur.tos siguientes, determine si el grupo utilizado es una muestra o una
población: a) Los participantes en e! estudio de un nuevo medicamento para la diabetes. b) Todos los conductores que se hicieron acreedores a una multa por conducir a exceso de velocidad en la ciudad ele f
Probablemente ya ha escuchado el dicho que expresa: "hay tres tipos de mentiras: las mentiras, las mentiras malditas y las estadísticas". Este dicho se atribuye a Benjamín Disraeli y tiene más de un siglo. Asi111ismo, se ha dlcho que "las cifras no mienten; los mentirosos las imaginan". Ambas declaraciones se refieren al abuso en las operaciones estadísticas, cuan-
do los datos se presentan el tal forma que llevan a un engafio. Muchas de las personas que abusan de la estadística son sencillamente ignorantes o descuidadas, mientras que otras se
proponen engañar al lector enfatizando datos que apoyan su punto de vista, mientras que
l4
Un promeclio puede no rep1·esentar la totalidad de los elatos.
Capíll!lo 1 dejan fuera los datos que pueden perjudicar su posición. Una de las metas principales de este texto es hacer que el lector sea un consumidor de información mucho más crítico. Al observar gráficas o datos en algé1n periódico, revista o programa de televisión siempre hay que preguntarse: ¿qué trata de decirme? ¿Tiene el autor alg(1n propósito "especial"? A continuación presentamos varios ejemp!os ele abusos en el anális!s estadístico. El término promedio se refiere a las diferentes medidas de tendencia central que se analizarán en e! capítulo 3. Para la mayoría de las personas, un promedio se obtiene sumando los valores considerados y dividiendo la suma entre el n(1mero de ellos. Por tanto, si un agente de
bienes raíces dice a su cliente que la casa promedio en cierta subdivisión se vendió en $·150 000 (dólares), se supone que $150 000 es el precio de venta representativo de tocias las casas. Pero supóngase que soamente hay 5 casas y se vendieron en $50 000, $50 000, $60 000, $90 000 y $500 000. Se puede expresar correctamente que el precio de venta promedio es $150 000, pero ¿acaso este elato realmente representa el precio ele venta "típico"? ¿Al cliente le gustaría saber si se vendió el mismo número de casas en más de $60 000 o en menos de $60 000? Quizá tamb én le interese saber que el precio de venta que más se presentó fue $50 000. Por tanto, ¿cuál es el precio de venta que resulta realmente el precio "típico"? Este ejemplo muestra que un promedio puede ser engañoso, ya que puede ser uno de varios números que se utilizan para representar los datos. En realidad no existe un grupo de criterios objetivos que especifique el promedio que debe reportarse en cada caso. En esta parte se quiere mostrar al lector, como consumidor de datos, ele qué modo una persona o un grupo puede indicar un valor que favorezca su posición y excluir otros valores. En el capítulo 3 se estudiarán los promedios, o medidas de tendencia central. Los diagramas y las gráficas también suelen utilizarse para engañar visualmente. Supongamos que los impuestos escolares en cierto distrito escolar aumentaron de $100 (dólares) en el año 1990 a $200 en 2000, es decir, en diez años los impuestos se duplicaron. Paramostrar este cambio, el símbolo del dólar que se presenta a la derecha duplica la altura del símbolo de la izquierda. Además, el símbolo de la derecha tiene el doble de ancho que el de la izquierda, de manera que el áree. que cubre es cuatro veces mayor (no dos) que el área que cubre el símbolo de la izquierda.
$300
u u
"' ~ "'
ü
200 100
o
-~~
:p 1990
2000 Año
~!AGRf..\.iViti
Estudio de los métodos de muestreo.
·¡,3
Itnpuestos escolares para 1990 y 2000 en una escuela.
La figura es engañosa porque visualmente el aumento aparece mucho mayor de lo que realmente es. En el capítulo 2 analizaremos la elaboración de tablas y gráficas. Hace varios años se presentó una serie de anuncios por televisión que indicaban que 2 de cada 3 dentistas recomendaban cierta marca de pasta dental a sus pacientes. La deducción es que 67% ele todos los dentistas recomendarían el producto. El truco está en que el productor del dentífrico pudo haber interrogado a muchos grupos de 3 dentistas y solamente reportó los grupos en donde 2 de los 3 especialistas indicaron que recomendarían ese producto. Sin lugar a dudas, se requiere una encuesta de más de 3, la cual no debe ser favoritista y debe ser representativa de toda la población de odontólogos. En el capítulo 8 se analizan los métodos de muestreo.
15
¿Qué es la Estadísllca?
Otra área donde puede haber tergiversación de datos es la asociación entre variables. A menudo, en los análisis estadísticos se encuentra que hay una fuerte asociación entre las variables. La descubrimos entre el número de horas que un alumno estudia para un examen y la calificación que obtiene. ¿Esto quiere decir que estudiar permite obtene1· calificaciones más altas? No. Lo que significa es que an1bas variables están relacionadas, es decir, tienden a actuar juntas en una manera predecible. La asociación entre variables se estudiará en los capítülos 13 y 14. Algunas veces aun los mismos números pueden ser engañosos. El precio promedio ele las casas vendidas en el área ele Tampa, Florida, el mes pasado fue $134 891.58 (dólares). Esto parece ser un va!or n1uy preciso y puede crear un alto grado de confianza en su exactitud. Reportar que el precio ele venta promedio es $·135 000 no incluye la misma precisión y exactitud. Sin embargo, una cifra estadística que es muy precisa e incluye 5 o hasta 1O decimales, no necesariamente es exacta. Existen otras formas en las que la información estadística puede resultar engañosa. Se han escrito libros completos sobre este tema. El más famoso es el que lleva por título How to Lie with Statistics (¿Cómo mentir con la estadística?), escrito por Darrell Huff. Entender estas prácticas hará que el lector sea un mejor consumidor de información estadística, y puede ayudarle a defenderse en contra ele aquellos que deseen engañarlo.
En la actualidad las computadoras están al alcance de los estudiantes en la mayor parte de los colegios y universidades. Las hojas de cálculo como Excel de Microsoft, y los paquetes de computación para estadística como MINITAB, están disponibles en un gran nlimero de laboratorios de computación. Gran parte de las computadoras personales que se usan en los hogares incluyen la aplicación Excel de Microsoft. En este texto se utiliza tanto Excel como MlNITAB para las aplicaciones estadísticas. También se emplea una extensión de Excei, MegaStat, la cual proporciona a Excel la capacidad de producir reportes estadísticos adicionales. El siguiente ejemplo muestra la aplicación ele las computadoras en el análisis estadístico. En los capítulos 2, 3 y 4 mostraremos métodos para resumir y describir los datos. Un ejemplo que se utiliza en esos capítulos se refiere al precio de 80 vehículos que se vendieron el mes pasado en la agencia Whitner Pontiac. La siguiente pantalla de Excel revela, entre otras cosas, que a) el último mes se vendieron 80 automóviles, b) el precio promedio de venta fue $20 218
lvle,J1a Error iipico lvl•ldi~no
ModJ%lre Cl1oi(1,;ic, Coeílci~nte !Je aoimel1i8
20218 'IG
,:% f.1'109 19331 l/G.\2 •iS'S·U3B 1806 11~8 0.5,l330S 0.72G51G 21J37S 1:;;5.'IG
32',12$
16
Capítulo 1 (dólares) y, c) los precios ele venta variaron desde un mínimo de $12 546 hasta un máximo de $32 925. La siguiente pantalla muestra los resultados del sistema MINITAB. Contiene casi la misma información que la pantalla anterior.
Rasu!ts for: Tbl2-1.Mi'N Oascriptive Statlstics: Vaolol>!~ Pdc~ >anolll~ ~~~~e
"'' füm;;'-"' 12540
Pri~<>
¡!<:.,,,
lli>
Ta,,=
~0~!1'
l.'JliJ:
~O~il·'i
lb:d'1-'41.
~'
J~:;m;
u~'~
1
Si se hubiera utilizado una calculadora para obtener estas medidas
y otras necesarias pa-
ra analizar completarnente los precios de venta, se hubieran requerido muchas horas de cálculos. La posibilidad de cometer un error aritmético es alta cuando se tienen graneles cantidades de valores. Por otro lado, los paquetes de computación para estadística y las hojas de cálculo respectivas pueden proporcionar información exacta cuestión de segundos. Siguiendo los consejos de su profesor, y dependiendo del sistema operativo disponible, se recomienda el uso de un paquete de computación para realizar los ejercicios que se pre-
en
sentan en la sección de Ejercicios con datos para computadora en cada capítulo. Esto evitará realizar cálculos tediosos,
y permitirá concentrarse en el análisis de los elatos.
¿Qué es la Esladíslica?
17
Res.gmen delcapítulo L.~·e_st~-~ística,es'l'á_cieriCiá'qL_1_e reéol_ecta, orga1iiza,:artaliZa e-interpreta los· datos para obtener una toma ·de decisiones·m'áS· efectiva; 11. Exístendos enfoques de estadística. A. Estadísttca·_-déScrfptiva;--que·.ínCluye 1·os procédiÍtlientOs--p_ara organizar y r8sUmir datos.
L
- . ,.
e~-
EStadíSti_Cá'liifEffái'ú5iai;'"QUé\j'Q'f'fi'¡JfSffae·-·ra.·tóifiá"d8:üna:-YfiUSStfá"d8'úñá"PóbfEí"Cí6ii"{/fa·re·a.:: lizEit:ión .de'eStiniacidnSS- ac·er_ca de-'esa-·pobl_a:Ció!i/Ccin _base en Jos. resultados para la
muestra. t. Una po~l~ción E'8 ~¡ conjunto total de. los individuos u objetos de interés. 2;· l:)ha f11Uestra es una parte de.la pobladóq. 111. Existen dos tipos de vari¡¡b[es, A. Unayadab!e__c_u~lit_ativa-_ e:;;.)lC{hüm_érica. 1•. Generalrn8nt8'nos int13re_sa el_ número·O:_porcent~j_e de las observaciones en cada cate-
(Jáia.
. ·····•··
>.•·
2; Los_·d:;ttq~: CLJ,~fit_a1!_vo_~-f¡bírn_alrilente_ se:~esul-nen en cuadros o gráficas de barras. B. _H.aY_~()-~:t_i_P?_s _d~·_v_ari_CI?l~~--c:u,_~_otitat[~as,.-y -~-en~ra_!rnente se reportan de manera_ nu_mérica. t. Las.v~r_ia~-f~_s:_d_í!;)cr~t_as;_ _ q_u_e-_:sol_¡;¡me_nt~ pueden_asumir ciertos_ valores y, normatmente, e~i~~e~ :_huec?q__ o-.brecha~_ .;EJ11tre _esds _ valores. 2; Un¡i:variable contiqu.a pu"de.m>umír cualquier valor dentro de un intervalo (o amplitud de variación)e.epecífico. IV. ExiStet:r _c~_at_ro _niy$lfJS__ d_e__ ~-~9i:qi_ón.-. A~ En_·eLn_iv~_f no_minal._los:dato~_se Pl8síHGal1 en.categorías sin nlngl1n· orden específico entre
!as:Qlis~a~:-::
:<:: : :., ._____ ,_._ _ . _. -
1-~ LEIS.cat~go_r_ía~--sc:iri-rnutu_aftieílte- exc!Liyentes. una. persona u objeto Elparece Sólamen~e _en_·_un_~:cat_e_gorí~L
2. .Las categorías ssn E>XhausUvas. Cad.a.Jndividuo u objeto aparece sólo en una de las 9ateqoría3, •.,· > B. El nive!or?iri<>lsupone qy13 cadacategoría tiene mayor jerarquía que Ja siguiente. C. El nivel de intervalo posee las características de jerarquía de.1 nivel .de medición ordinal, peró ,a_de_más_·ti,~_pe !_a -~a~a~t~rística de,_q~e _ra__ distan_ci~ -?ntre. !°'s_·_ v_a!o_res· es conStante.: !); El nivel detazón (o reiación} tiene las caracteristí.cas del nivel de intervalo, pero además el punto cero'- es significativo· y tambi_éii lo es la razóli (o cciciente) entre dos valores.
<
Ejercicios del capítulo ~~pliq~<'> la c!if~r~nc:i~ entredatos cuaHtativ9.s ycu.alititati.\/Ós. Proporcione un ejeniplode d~-
J9_s_:-~_LÍ~lit~_~ivéJ2.-_y.: ~--rpc:d~. :9a~q7. cuantit=~t_iV,O?_~-.. _ .__ :._. _-
Expliqu<> ta dtfoienc,ia.e.ntr<¡.Hnamuesjray. una p91Jlacióri •..•
8. 9;
10. 11.
12.
_E_n,-u,9c_i~-, kJsj;~_ftt_(9 .._n_iyer_~S-;cte :m_8dí_qí_ó_f1--·i 9-~ un_ _ e_iérnpl() _ (difereílte de los utilizados en e! !ibr?) de cadc" ~iyel d'.',m<0diqiq~; . · .••.• >.......•. · •·• ···•· . . < ... .
~Xpliquelo qu~ iqdica la E)XPffS.i.ór mut~~meJ]te excluyente. Dig_a: 1_9-:_qu_~:-_s_i_Qni_f\qa; e,! tér_ryiihq:,e,x~al{~fivo_·,,_ -,_,'", _ _. _ _ _ , Q.tiliza~c:fo tos¡:J~tos qy~·Pr?yi~~E)h d(Opublicacione? cqnip Statistica/Abstract ot the United $tates, elWorldAlmanac (oAlmanaqueMundi.al),)a~evisÍ~f'orbes o un periódicoloc~I, proc porclone ejemptosde 1.os niveles de medición nominal,. ordinal, de intervalo y de razón. Una_111uestra_ aleatoria ?e.3-0.0- ejecutivos de los 2 5_00_-emp_leados por una.empresa, mosfró que _270 _ejecut_ívos se mlldarí?n :(3; o~ra compañía :s=í esorepresenta !a obtención de .un asc~~so imp_~rtan_te. Basándose-en- estas cifras, redac_te.una nota breve:a la gerencia-relacionada con t~dos los ejecutivos de la compañia.. · Se.·pidió·a,u_n_a-_mu_estra aleatoria cte_.500 clfentes que probara_n una:-'nueva crema· dental. De los 500 consultados, 400 dijeron. que era excelente; 32, que era regular, y el resto no opinó. Basátidose. en-estaS cifras, lnfie'ra 6 ded_Uzca la reá.cción-de-todos !Os consumidbres ton res-, pécto a- ese pr()tjucto.
18
Capil"lo 1 "í3.
Explique fa diferencia eíltre. u_na varia!J!e diScreta y una contíriu_a-.. Proporcione un ejemplo de cadaJ111a que no esté inc!uida_en_él_teXto. 14. Una- e,ncuesta realizada-a hogares estadounidenses: a,c_e_r_ca de su satisfacción respeé:to al desempeño_de las escuela$ pl1blicas,.en:su-_país,_ rev_e_ló !os-siguientes datos, los_ cLia!es se presentan gráficamente. Observe que 1993. ~ i_OO. Un valocde "IOO señalaría una satisfacción <'pro_m_edío'! _de los estadounidenses._durantsi:_ese-_afío. Un va!oi" de 75 indicaría que el ·•· ··················· ······ · ············ agrado--dE:JJ--conSurr'1i.dor-:con:tqs --es_cuefas-·_en-··ese:·:añ_o--se:·enc_tJ!?n-tra-25%-"abajo -ele- !o- nbrmaL Escriba_un.-aná!isís sobre la satísfaccióri-Qe:fos . encuestac!os- de i988 a i999.
15.
Bill Clegg es uno de _los ases?res financier?s de.. la empresa Pa.ineWebber Financial Servi-
ces. Debe__ases:?r~r _a _~1n_o,,de . su~ -~1.i_~frt~,~- _reSp_e?:.t?,-~ ia:.· co_n:i_pra·de_accion_es. de Joh_n.s(Jn_ and
Johns9n •• lnc)una empresa farmacéútica) o de Pepsico (la progenitora de Pepsi y Frito Lay). BiH Clegg busca en Internet yen:ue~tra que 23 corredores han evaluado ambas acciones,
El!o·s 'CéÍl_ifican' una ·.ac_cló.n _co,i1_ "_i_",._,~i_ ~S a!_f~rtl.e_r;t!~_ r_~~_om_endable_ c_omprarla y _co.n "5n si es altamente rec?mendableyenderla. Bu"cque e~ iaRed elsítio http://quote.yahoo.com. A la izqc1ierda de "Get Quote" escnb_alos. dos.~ín;bolos de las accion~s, JNJ y PEP, después pulse ~n (>etQ~?te. Fi0a1ni.~n¡e .en 1~ colunina con.el e~cabe~ado "More lnfo"; pulse en
Rlas;e~_.rc_h,· ¿De.q~1é nive! sO,il lps.datcx3? C_otTip~:re, !_os t'esul:tados. ¿Qué accíon_es recomen": daría:· usted?
'"'--·-
19
¿Qué es Ja Estadística?
Ejercicios con datos para computadora.~~-~-16.
consu1te ei conjunto de datos de bienes raíces (Real State) que está al final de este libro. Ahí se. reporta informaci.óq .0e::.1El~·: c.ª-~ª~.-9:L!e ~-~;_v~_~d.iero,~:, eii::.~!_..hr~a,:. de V8_nic_~·.:FJorJd_a; _ eLaño_ pasado: Considere ras Siguí_~nt.es ..vari.ªbt~s: .pre,g!p-=de-_vé.nta; ·número ,de__ do,rmitorios_· .o_ recá-. maras, _localidad. y distancia al centro de la ciudad. ·--ar·¿-q·ya_t_e_~·-ae~:~st~s_··
Váflá&1es . ·san·;cua1ífatrvás;:.y.--·cL1aie~rs:O"ñ::·cliaQtrtafívas'r
b) Deterrnine el nivel de medición de cada vari.a~le. 17. Consu}t~ el 9onjunto de datos de béisbol (fjaseb~lt2°p0), en el qJ? sepreseptainformación sobre los ;JO equipos de _la Liga Mayor de Béis~ 0 1 en El)A, Para IE\ tempprad~del año 2000. Considerelas sig~1íentes variables: rúmer9 dejueg9s9anados, sueldo en el equipo, asisten-· c1a,_ si. e! equipo jug_ó coino !ocal, s¡_.e! ju.~go._se re~tízó_ s,obre_ p9;stcr riatur
20
Capítulo 1
!!NO Organizar los datos en úna distribución de frecuencias.
DOS Presentar una distribudón de frecuen~ cías en un histograma, un polígono de frecuencias y un polígono de frecuencias acumuladas. TRES Elaborar e interpretar Una representación de tallo y hoja. CUATRO Presentar datos utilizando técnicas de. graficación cómo gráficas de líneas, gráficas de barras y gráficas circulares.
22
Capítulo 2
Rob Whitner es el propietario de la empresa Whitner Pontiac, en Columbia, Carolina del Sur. El padre de Rob fundó la agencia en 1964, y durante más de 30 años vendieron exclusivamente automóviles Pontiac. A principios de la década de 1990, la salud de su padre comenzó a deteriorarse, y Rob se encargó de la operación diaria de la agencia. Al mismo tiempo, el negocio de los automóviles comenzó a camb.iar, las agencias empezaron a vender vehículos de otras marcas, y Rob se enfrentó con varias decisiones importantes que debía tomar. La primera fue cuando otra agencia local -que vendía autos Volvo, Saab y Volkswagen- habló con Rob para venderle su concesión. Después de pensarlo y analizarlo en demasía, Rob compró la concesión. Tiempo después, la agencia local de automóviles Eagle Jeep tuvo problemas y Rob la adquirió. Actualmente, Rob vende en el mismo lote la línea completa de Pontiac, los caros productos Volvo, Saab, Volkswagen y Chrysler, incluyendo la popular línea Jeep. La agencia Whitner Pontiac emplea a, 83 personas, incluyendo a 2:3 vendedores de tiempo completo. A causa de la diversidad en la línea de productos, hay bastante variación en los precios de venta de los vehículos. Un automóvil Volvo de tecnología de punta se vende en más del doble de lo que cuesta un Pontiac Grand Am. A Rob le interesa desarrollar algunos diagramas y gráficas que pueda revisar mensualmente para determinar en dónde tienden a acumularse los precios de venta, para analizar la variación de los mismos y poder apreciar cualquier tendencia. En este capítulo se presentan técnicas que serán útiles a Rob y a cualquier otra persona en la administración de su negocio.
Recuerde que en el capítulo 1 se describieron las técnicas que se utilizan para describir un conjunto de datos como concepto de la estadística descriptiva. Para expresarlo de manera diferente, utilizamos tal enfoque para organizar los datos de varias maneras e indicar.los sitios donde los valores de datos tienden a acumularse, y ayudar a distinguir los valores mayores y menores. El primer método que se utiliza para describir un conjunto de datos es la distribución de frecuencias.
Agruga~Wntod~·f1at6~.~.n~at~¡j9rí~~Rigtu'3.rri~6t~~~
Disfr1ilmdr\ú de fi·eccie11cias cluyentes, que indican el número dl)g.ps~rv!'cil)n~".·~~cad!' cat~gOf.ͪ·<
¿Cómo se elabora una distribución de frecuencias? El primer paso es anotar los datos en una tabla que muestre las clases (categorías) y el número de observaciones en cada categoría. Los pasos para elaborar una distribución de frecuencias se describen mejor utilizando un ejemplo. Recuerde que el objetivo es obtener una tabla que muestre a simple vista la forma de los datos. En la introducción se describe un caso en el que Rob Whitner, propietario de Whitner Pontiac, está interesado en reunir información sobre. los precios de venta de los vehículos que se venden en su agencia. ¿Cuál es el precio de venta típico? ¿Cuál es precio de venta más alto? ¿Cuál es ei más bajo? ¿Alrededor de qué valo.r tienden a acumularse los precios de venta? Para poder responder a estas preguntas, es necesario recolectar datos. De acuerdo con los registros de venta, Whitner Pontiac vendió 80 vehículos el mes pasado. La tabla 2.1 muestra el precio que pagaron los clientes por cada vehículo. Resúmanse los precios de venta de los vehículos que se vendieron e! mes pasado. ¿Alrededor de qué valor tienden a acumularse los precios en cuestión?
23 Precios de venta_::_:~~ vc:ícul:~ vcndi(~os en el_::~ /1sado en la ~::~~ia. _
lABLP, 2.'1
$20 197 $20 372 $17 454 16 ~IÍ7 2016,9 J2851 12'55 16 &Í.3 22 251 17 55 16 688 20 657 115b 18 93i 21 052 18442 18 722 16 3'31 26076 29492 15 890 21 220 27 655 19 442
L____ SOLUCIÓN
Pasos para organizar los datos en una distribución de frecuencias.
$20 59_1 $23 651 $24 453 S14 266 s15Íz1 , $25 683 $27 872 16251 17047 21 285 21 324 21 60,9 25670 12 546 22277 25 034 2-1 533 24443 16 889 -17JÍ04 -¡4357 ti menor 23613 17 G95 '17 203 20765 22783 2366'1 29 277 22 799 12 794 ·15 263 i4 399 14 958 -¡ 7/356 • 17 633 • 'i9 817 16 766 19 845 23285 24896 18 740 19 374 21 57·1 22449 25337 17642 20 613 14891 17 sís 23 237 17 ~45 13 556 18 639 21296 El mayoí
Nos referimos a la ínformaclón desorganizada de la tabla 2. i como datos sin procesar1 datos inicia!esj o no agrupados. Con un poco de investigación se encuentra el precio ele venta (en dólares) más bajo ($12 546) y el más alto ($32 925), pero eso es casi todo. Es difícil determinar cuál es el precio típico. También es difícil visualizar dónde tienden a presentarse los precios típicos de venta. Los datos sírnp!es se interpretan con mayor 'facilidad si se organizan en una distríbución de frecuencias. Paso i: Determinar el número de clases. El objetivo es usar su'ficientes grupos, o ciases, que ind!quen la ·forma de la distribución. Aquí se necesita algl1n criterio. Demasladas clases o muy pocas pueden no revelar la forma básica del conjunto de datos. En el problema de ios precios de venta ele los vehículos, por ejemplo, tres clases no permitirían una mejor comprensión de la dist:-!bución de los datos (ver la iabla 2.2).
TABLA 2.. 2
Eje111plo con
11111y
pocas clsscs.
Precio de venta
de~
vehiculo (en dólares)
12 ooo hasta 21 ooo 21 000 hasta 30 000 30 000 hasta 39 000 Tota!
!\lúmero de vehicUJlos
48 30 2 80
Una receta útil para detern1inar el número de clases es la regla "2 a la k". Esta regla sugiere utilizai· como nümero de ciases el menor nl!mero (k) tal que 2'' (en palabras, dos elevado a la potencia k) sea mayor que el nl!mero de observaciones (n). En el ejemplo de la agencia Whitner Pontiac se vendieron 80 vel1ículos, de manera que n ~ 80. Si tomamos k ~ 6, lo que significaría usar 6 clases, entonces 2 6 ~ 64 es menor que 80. Por tanto 6 clases no son suficientes. Si escogemos k = 7, entonces 2 7 = 128, que es mayor que 80. En consecuencia, el núir1ero de clases que se recomienda considerar es 7. Paso 2: Determinar e! intervalo o amplitud. Generaln1ente el intervalo o amplitud de las clases debe ser el mismo para tocias ellas. Todas las clases juntas deben cubrir por lo 111enos la distancia que hay desde e! 111enor hasta el mayor valor que se tiene en los datos sin procesar. Expresando esto 111ediante una fórmula
tene111os:
24
Capi!t1lo 2 donde i es el intervalo de clase, Hes el mayor va!or observado, L es el menor valor observado y k es el 111.Jmero de clases. De nuevo en el caso de la agencia Whitner Pontiac, ios valores n1enor y mayor son 12 546 y 32 925 dólares respectivamente. Si necesitamos 7 clases, el intervalo total deberá ser (32 925 - ·12 546) "" 2 9-1 i dólares. En la práctica este valor se redondea hacia arriba a algún ml1ltiplo de i O o de 1OO. En este caso se puede asignar el valor de 3 000 dólares como extensíón del intervalo. Los intervalos de clase desiguales o-frecen problemas al representar en forn1a gráfíca la distribución y al hacer algunos de los cá!culos, como veremos en capítulos posteriores. Sin en1bargo, en algunos casos pueden ser necesarios intervalos de ciase desiguales para evitar un gran número de clases vacías, o casi vacías. Tai es el caso en la tab!a 2.3. El servicio de Recaudación de Impuestos (Interna! Revenue Service, IRS) en Estados Unidos, utiiizó intervalos de clase de tan1años desiguales para reportar el ingreso bruto ajustado de las deciaraciones de in1puestos individuales. Si e! JRS hubiera utilizado un mismo intervalo de clase, por ejemplo 1 000 dólares, se habrían necesitado más de í 000 clases para abarcar todos !os ingresos. Una distribución de frecuencias con i 000 clases sería difícil de interpretar. En este caso, la distribución de frecuencias se interpreta con mayor facilidad, a pesar de la desigualdad de las clases. Asimismo, note que el n\Jmero de declaraciones, o "frecuencia", se reporta en n1illares. Esto también hace que la información sea n1ás con1prensibie.
TABLA 2.3
Ingresos brutos ajustados de las declaraciones de in1pucstos incli,,idualcs. !\lúmero de dec!aracii:mes 1
Ingresos brutos ajustados
(en miles de rU:iia!res)
2 000 o $ 2 ooo hasta 3 000 5 000 3 000 hasta 5 ooo hasta íO 000 1O000 hasta i5 000 15 000 hasta 25 000 25 000 hasta 50000 100 000 50 000 hasta 100 ooo hasta 500 000 500 000 hasta 1 000 000 $1 ooo ooo y más
135 3 399 8175 19740 15 539 14944 4451 699 162 3
$
Paso 3: Establecer !os límites de cada c!ase. Es necesario establecer lín1ites de clase claros de n1anera que cada observación pertenezca sólo a una clase. Esto signi·fica que se deben evitar los límites de clase que se sobrepongan o que no sean claros, Por ejemplo, clases (en dólares) como las siguientes: -¡ 300 - 1 400, y 1 400 - 1 500, no deben usarse porque no es ciara si ei valor de 'I 400 dólares pertenece a la primera o a la segunda clase. Con frecuencia, se usan clases como estas: 1 300 - 1 400 y 1 500 - 1 600, pero también pueden llevar a confusión si no se establece la convención de redondear hacia arriba todos los valores mayores que o igu_a!es a ·1 450 para que pertenezcan a la segunda clase, y íedondear hacia abajo los valores n1enores que i 450 para que pertenezcan a la primera clase. En este texto usaren1os el siguiente ·formato (en dólares): i 300 a 1 400, y 1 400 a 1 500, y así sucesivamente, De este modo es claro que 1 399 dólares pertenece a la pri111era clase, y 1 400 dólares a la segunda. Se redondea el intervalo de clase hacia arriba para obtener un tamaño de clase adecuado, abarcando una amplítud mayor que !a necesaria. Por ejemplo, en
25
La esta.clística en acción
ei caso de la agencia VVhitner Pontiac, 7 ciases con una amplitud de 3 000 dólares, dan como resultado una amplitud total de 7 x (3 000) ~ 21 000 dólares. El intervalo actual es 20 379 dólares, que corresponde a 32 925 ~ 12 546 dólares; si comparamos este valo1· con 2i 000 dóiares, obtenemos un exceso de 62-1 dólares. Como sólo necesitarnos cub1·ir la distancia(}-/ - L), resulta natun;i.I distribuir aproxin1adar11ente la n1isma cantidad del· exceso en cada una de las colas. También seleccionaremos ml1ltiplos adecuados de diez para los límites ele c!ase. Por tanto, las clases que usaríamos para estos datos son las siguientes:
SI 2 000 hasta 15 000 15 000 liasta ·1 s 000
18 ooo hasta 21 ooo 21 000 l1asta 24 000 24 000 liasta 2'/ 000 27 ooo hasta 30 000 30 000 liasta 33 000
a kis l~
1"!iiC0;·;_.\~At>tiú~:-d~BCi. -.: · rfaú~--i:áti°fl_cdi';!it(;crttÚi;,. \Úci'ón~: Eh:_ tl::dcsrtno !lode b_: tí'isfo(iá, d_)lUt_o(
1ná1_~éciercii_1_ -~n,_-?_Lsc_U_.: sión. LVfecfün1te el tJso dd ancí!isi> csta
el estudio de lá frecuencia de uso di::: vúrlas palabras, se puede conchiir tú la ~-\ctw1li~ dad que James IVfodison es d probablé autor de los l:Z ensayos.· De hecho, es ;ihnunado'ra ta cvíclcr1cia cstadíslíca que indica que lVbdison es d autor di tücfos los artículos.·
Paso 4: Distr!buk !os precios de verit8! de
~os
vehículos en las distintas ciases.
Para empezar, el precio de venta del primer vehículo -que aparece en la tabla 2. 1- es 20 197 dólares, este precio corresponde a la clase 18 000 a 21 000 dólares. El segundo precio en la primera columna de la tabla es 16 587 dólares, por tanto se coloca una marca en la clase 15 000 a 18 000 dólares. Los precios restantes se distribuyen de n1anera similar. Una vez distribuidos todos los precios en las clases, la tabla se verá como sigue: ~---------·--·---
Clase SI 2 000 S15 000 S18 000 S21 000 S24 000 S27 000 $30 ooo
hasta $15 000 hasta $18 000 hasta $21 000 hasta $24 ooo hasta $27 000 hasta $30 000 !lasta $33 ooo
Precios en esta clase
111
JHI
11!
1111
.IHI 111
Paso 5: Contar el número de elementos en cada clase. Al número de observaciones en cada c!ase se !e llama frecuencia de cías-e. En !a clase 12 000 a 15 000 dólares hay 8 observaciones, y en la clase 15 000 a 18 000 dólares existen 23. Por consiguiente, la frecuencia de clase en la primera clase es 8, y la frecuencia en !a segunda es 23. En todo e! conjunto de datos !lay 80 observaciones o frecuencias. Suele ser útí! expresar los datos en miles, o en algunas otras unidades adecuadas, en lugar de las cifras reales. La tabla 2.4, por ejemplo, presenta los precios de venta de los vehículos en n1íles de dólares, y no en dólares. Una vez que hemos organizado los datos en una distribución de frecuencias, pode111os resumir !a con·figuración de !os precios de venta de los vehículos, en la agencia de Rob VVhitner. Observe !o siguiente: 1. Los precios de venta van desde 12 000 hasta aproximadamente 33 000 dólares. 2. Los precios de venta se concentran entre 15 000 y 24 000 dólares. En total 58, o 72.5% de los vehículos vendidos se localizan en este intervalo. 3. La mayor concentración está en la clase de 15 000 a 18 000 dólares. El valor central de la clase es ·16 500 dólares, por tanto se dice que el precio típico de venta es 16 500 dólares.
26
Gapiíl1lo 2 4. Dos de ios vehículos se vendieron en n1ás de 30 000 dólares, y 8 se vendieron en menos ele -15 000 dólares. Al presentar esta in-formación al señor VVhitner, se le proporciona una imagen clara de la distribución de los precios de venta del mes anterior. Ti4HLJ.'~
2.4
1)istribut:ión de frecue11cias de los p:rccios de vent~ del 111cs pasado en la agencia \i'1/hitncr Fontiac. Precios de venta {iniles de (lfüaaes)
IFrecuenda
12hastai5
8
·¡5 hasta 18 1811asta21 21 liasta 24 24 hasta 27 27 hasta 30 30 hasta 33
23 17 rn
8 4 2 80
Total
Adrnitin1os que colocar la in'fon11ación de los precios de venta en una distribución de frecuencias da como resultado la pérdida de infor111ación detallada. Esto quiere decir que al organizar los datos en una distribución de frecuencias, se pierden los precios de venta exactos, como por ejemplo, 20 197 o 23 372 dólares_ Tampoco es posible informar que el verdadero precio de venta del vehículo más económico 'fue i 2 546 dólares y e! del más caro, 32 925 dólares. Sin embargo, el límite inferior de !a primera clase y el límite superior de la última tienen esencialmente el misn10 significado. Rob llegará a la misma conclusión si sabe que el precio más bajo fue aproximadamente 12 000 dólares, que si advierte que el precio exacto íue 12 546 dólares. Las ventajas de condensar los datos en una forma más comprensible co111pe11san con mucho tal desventaja.
Las respuestas se encuentran al final del capítulo Las comisiones (en dólares) que recibieron ocho n1ie111bros clel equipo de ventas de la empresa Master Cheinical Ca. durante e! prin1er trimestre dei a1lo pasado fueron:
1..$1 650
$1475
$1 510
$1 670
$1 595
sn6o
$1 540
$1 495
s1 sgo
s1 525
$TStiJJ
a) ¿Cón10 se les denomina a valores tales como 1 650 y "I 475 dólares? b) Usando i 400 a i 500 dólares como !a primera clase, 1 500 a í 600 dólares como !a segun-
da, y así sucesivamente, organice las comisiones trimestrales en una distribución de frecuencias. e) ¿Cómo se les llama a los números que apaJecen en la colun1na derecha de su clistrlbución de frecuencias? d) Describa la distribución de los 'ngresos n1ensuales con base en !a distribución de frecuencias. ¿Cuál es el mayor i1npo1ie de comisíón ganada? ¿Cuál es el menor? ¿Cuál es el monto ganado típicarilenté?
Con frecuencia se utilizarán dos tén11inos: punto medio de clase e intervalo de clase. El punto 111edio, también conocido co1no marcas de clase, se localiza a la mitad entre los límites inferiores de dos clases consecutivas. Se puede calcular sumando el lí111ite inferior de !a
27 clase al límite superior de la misma, y dividiendo el resultado entre 2. En la tabla 2.4 se observa que el límite inferim de la primera clase es $12 000 (dólares) y el siguiente límite es $15000. El punto medio de clase es $13500, que se obtiene de ($·12000 + $15000)/2. El punto medio $·13 500 es el más repmsentativo, o el iípico, de los precios de venta de los vehículos en esa clase. Para determinar el inteívalo de c!ase, se resta el lírnite inferior de una clase, del lín1ite inferior de la siguiente. El intervalo de clase ele los datos de precio de venta de los vehículos es $3 000, el cual se obtiene al restar el límite inferior de la pri111era c!ase, $i2 000, del límite inferior de la siguiente. Esto es, $15 000 - $12 000 ~ $3 000. Asimismo, se puede determinar el intervalo de la clase encontrando la distancia entre los puntos medios consecutivos. E! punto medio de la primera clase es $'13 500 y el punto medio de la segunda es $16 500. La diferencia es $3 000.
CtJI1 lJlf] Co1110 ya se mencionó en el capítulo -¡, existen muchos paquetes ele software que realizan cálculos estadísticos y presentan los 1·esultados. A io largo de este texto se mostrarán los resultaclos que se obtienen con Microsoft Excel, con MegaStat (que es un complemento de Excel) y con M!N!TAB. Los comandos requeridos para generar los resultados se encuentran en la sección Comandos para computadora, a! final de cada capítulo. La siguiente es una distribución de frecuencias, producida por MegaStat, que n1uestra los precios de venta de 80 vehículos que se vendieron en el mes considerado, en la agencia Whitner Pontiac. La presentación de ios resultados es un tanto diferente de la distribución de frecuencias de !a tabla 2.4, pero !as conclusiones generales son las mismas.
Durante la ten1porada de béisbol de í 998 en EUA, Mark MCGuire rornpió el récord de carreras realizando 70. La más !arga fue de 550 pies, y !a 111ás corta, 340 pies. Es interesante hacer notar que la carrera, que ron1pió ei récord fue "sólo" de 34 í pies. Se desea elaborar una distribución de frecuencias con las longitudes de estas carreras. a) ¿Cuántas clases deberán emplearse? b) ¿Cuál deberá ser la an1plitud ele las clases? e) ¿Qué clases usaría usted realmente?
28
Gapilulo 2
Distribución de frecuencias relativas Una distribución de fre-
cuencias relativas convierte la "frecuencia en porcentaje.
Puede resultar conveniente convertir las ·frecuencias de clase en frecutffllC~ats de c~ase re~a~ tlvas pa1·a mostrar e! porcentaje del núrnero total de observaciones en cacla clase. En el ejemplo de las ventas de vehícu:os, se podría desear saber qué porcentaje de los precios de los automóviles están en la clase de $"18 000 a $21 000 (dólares). En otro estudio, se desearía determinar qué porcentaje de los empleados están ausentes por enferrnedad entre uno y tres días al año. Para convertir una distribución de "frecuencias en una distribución de frecuencias relativas, cada -frecuencia ele clase se divide entre e\ número total de observaciones. Utilizando de nuevo la distribución de la venta de !os vehículos (tabla 2.4, donde ei precio de venta se repo1·ta en miles de dólares), !a frecuencia relativa para !a clase de $12 000 a $'15 000 es 0.10, que se obtiene de divid!1· 8 entre 80. Esto quiere decir que el precio de venta de 10% de los vehículos vendidos en la agencia Whitner Pontiac se encuentra entre $12 000 y $'15 000. Las frecuencias relativas para las clases restantes se rnuestran en la tabia 2.5. TABLA 2.5
J)istribución de frecuencias relatívas de los precios de venta de lvs vehículos vendidos el tncs pasado en la agencia "\i\-'hitncr Pontiac.
Precio de venta {miles de dólares)
12hasta15 ·15hasta18 18 hasta 21 21 hasta 24 24 hasta 27 27 hasta 30 30 !lasta 33 Total
Frecuencia 8 23 17 18 8
4 2 80
Frecuencia
Ga!cu~ado
relativa
n1ediarite
0.1000-8/80 0.2875 23/80 0.2125 17/80 0.2250 18/80 8/80 0.1000 0.0500 4/80 0.0250 2/80 'l.0000
Consulte la tabla 2.5, la cual muestra la distribución de frecuencías relativas de los vehículos vendidos el mes pasado en la agencia Vl/hitner Pontlac. a) ¿Cuántos vehículos se vendieron entre $15 000 y $18 000 (dólares)? b) ¿Qué porcentaje de los vehículos se vendieron a un precío ent1·e $i5 000 y $·13 000? e) ¿Qué porcentaje de los vehículos se vendieron en $27 000 o más?
Ejercicios Las respuestas a .lo.s ejercicios de ntímero impar se encuentran al final ele/ libro. 1. Un conjunto de d_atos consta de 38 observaciones. ¿Cuántas clases recornendaría para la distribución de frecuencias? 2. Un conjunto de datos está integíado por 45 observaciones que van desde O hasta 29 dólares. ¿Qué tamaf1o del intervalo de clase recomendaría? 3. Un coojunto de datos consta de 230 observaciones que oscilan desde $235 hasta $567 (dólares). ¿Qué intervalo de clase recomendaría? 4, Un conjunto de datos contiene 53 observaciones. El valor rnás pequel°io es 42 y el más grande es ·129. Los datos deben organizarse en una distribución de frecuencias. a) ¿Cuántas clases se deben establecer? b) ¿Cuál sería el lfn1ile inferior de la primera clase que sugeriría? 5. El centro médico Wachesaw que se inauguró el 111es pasado fue diseilaclo para cirugías menores que no requieren rnás de un día de hospitalización. A continuación se indica el número de pacientes que se atendieron du1·ante los pri111eros í 6 días:
Descri¡~cióíl
29
{]e los da.tos. fJistrfbucianes de frecuencias y representaciones gráficas
27
27
26
28
27 26
28 28
27
25
25
28
31
30
26
26
La información se debe organizar en una distribución de frecuencias. a) ¿Cuántas clases recomendaría? b) ¿Qué intervalo de clases sugeriría? e) ¿Qué lirnite inferior sel"ia recomendable para la primera clase? d) Organice la información en una distribución de frecuencias y determine la distribución de frecuencias relativas. e) Realice comentarios acerca de la forma de la distribución. 6. La con1pañía Quick Chan\;e Oil cuenta con cierto n(1mero de distribuidores en el área metropolitana, en Seattle. El número cie can1bios de aceite realizados en !a distribuidora de la Calle Oak en los últimos 20 días es:
7.
65
98
55
62
70
62
66
80
79 94
59 79
51 63
90 73
72 71
56 85
Los dat6s deben organizarse en una distribución de frecuencias. a) ¿Cuántas clases recor:iendaría? b} ¿Qué intervalo de claso:: sugeriría? cj ¿Cuál es el lín1ite inferio1· que recomendaría para la primera clase? d) Organice el número de cambios de aceite en una distribución de frecuencias. e) Comente sobre la forma de la distribución de frecuencias. Asimismo. determine la distribución de frecuencias relativas. El gerente local ele Food Queen está interesado en conocer el número de veces que un cliente realiza con1pras en su almacén du1·ante un periodo de dos semanas. Las respuestas de 5í clientes ·fueron:
5
3
1
14
8
4
7
6
4 5
10
8
9
2
4
3 2
4 4 9 12
5 4 11
6 5 3
4
2
6
3
6 5
3
12
4
7
6
6
6 4 5
7 5 15
6
1
Comenzando con el O como el límite inferior de Ja prime1·a clase y utilizando un intervalo de clase de 3, organice los datos en una distribución de frecuencias. b} Describa la distribució1. ¿Dónde tienden a agruparse los elatos? e) Convierta la distribución en una distribución de frecuencias relatívas. La agencia de viajes Moore, que opera a nivel nacional, ofrece tarifas especiales en ciertas travesías por el Caribe a personas de la tercera edad. El presidente de la agencia quiere información adicional sobre las edades de las personas que viajan. Una muestra aleatoria de 40 clientes que viajaron en un crucero el afio pasado dio a conocer las siguientes edades. a)
8.
77
)8
4:¡
!}8
JiO
60
6,3
84
_38
58 / 45 /
.53
.51 83
/
!3!3
-~.4 6]. .71
/
50 q,3
§'!.
)9
54
.56·
.36
.26
52 j.S-
.?3
93
62
.62
6.1
.71
,50 65
34 61
.44 .52
a) Organice los datos en una clistrlbución de frecuencias utilizando siete clases y i 5 como el lími-. te ínferio1· de la prin1era clase. ¿Qué Intervalo de clase seleccionó? bj ¿Dónde tlenden a agruparse los datos? e) Describa !a distribución. d) Detennine la distribución de frecuencias relativas. ,·;:
Representaciones de taltlo y h_oja En la sección anterior se mostró cómo organizar los datos en una distribución de frecuencias, para resumir los datos originales y facilitar su comprensión. La principal ventaja que se obtiene al organizar los datos en una distribucíón de frecuencías es que se consigue una ima-
30
Ga¡ií!ul
Frecu;e~cial
80 hasta 90 90 l1asta 100 100hasta110 110 hasta 120
6 9
120 hasta 130
8
130 hasta 140 140hasta150 150 hasta ·150
7 3 3
1
~~~~~"-ºt_al~~~~~~~~4·5 __j La representación de talio y hoja es una técnica que se utiliza para mostrar información cuantitativa en forn1a condensada. Una ventaja de esta representación sobre la distribución de 'frecuencias es que no se pierde la identidad de cada obseívación. En el ejemplo anterior, no se sabría la identidad de los valores en la clase de 90 a i OO. A fin de ilustrar la elabora-· ción de una representación de tallo y hoja para la cantidad adquirida de anuncios de publicidad, supóngase que las siete observaciones en la clase de 90 a ·100 son: 96, 94, 93, 94, 95, 96 y 97. El valor de tallo es el del dígito o digitos principales, en este caso el 9, Las hojas son los dígitos siguientes. Los vaiores de tallo se colocan a la izquierda de una barra vertical,
y los de hoja a su derecha, Los valores en la clase de SO a "100 aparecerían como se indíca a continuación:
Finalmente, se ordenan los valores dentro de cada tallo, del menor ai mayor. Así, el segundo renglón de la representacíón de tallo y hoja aparecería con10 se indica a continuación:
¡__ 9 13 4 4 5 6
s!J
Con la representación de tallo y hoja, se puede obserc1ar rápidamente que dos de los agentes de ventas compraron 94 anuncios y que el 11ún1ero de anuncios adquiridos osciló entre 93 y 97. Una íepresentación de tallo y hoja realrr1ente es un histograma con más in'forn1ación; es decir, valores de datos en vez de grupos.
l.1<~.J
[
ª..
,.~;~uestr~~ -~njun--
1
to der.es. datos: numérico en los dígitos principales se R..ep·. e.-'n..t···.ª. c.1.'Cada o.'··.•.·1·.... c'.'·.... ·.evalor tª.·.'· l·,l·o·• Y .. . a·.·..E·se ..··s. -..u . divide . ·.n.· ª·· t. ;;.,··c.·.·n . . _i.·....c·-dos ·e·.·s·. t.•partes: ,ª.·.·.d· · · · í· .s· ·t· .·.ic· .·.·.ª.·.-: q·. un 1¡1. el tallo, y el dígito siguiente es la rioja, Los tallos.se ubican a lo largo del toman comó . eje.vertical principal, y las hojas de cada observación, a lo largo del eje horizontal, ! , . . . . .. . . . . .. _J
Descripció" de los dalos. Disírilwcio11es de iremencias y representaciones gráficas
31
El siguiente ejemplo muestra los pasos necesarios para elaborar una representación de tallo y hoja,
La tabla 2.6 presenta la cantidad de anuncios de 30 segundos que se transmitieron por radio y fueron adquiridos por cada uno de !os 45 rniembros de !a asociación de agentes de ventas de automóviles Greater Buífalo, el año pasado. Organice los datos en una representación de ta!lo y r.oja. ¿Alrededor de qué valores tiende a agruparse el número de anuncios de publicidad? ¿Cuá! es el menor nl1n1ero de anuncios adquiridos por un agente de ventas? ¿Cuál es el mayor número de anuncios?
IA.lBlA 2.:6
96 139 112 118
SOLUCIÓN
Cantidad de anuncios de pubíicidad adquiridos durante 1997 por los n1ien1bros de la 1\sociación de Agentes de \Teni'as de ,\uton1óviles Greater Buffalo.
93 142 135 B6
88 94 132 125
117 107 111 143
127
125 125 120
95 155 104 103
113 155 106 ·113
96 103 139 124
108 112 134 138
94 127 119
148 117 97
156 120 89
Al observar los datos de la tabla 2.6 se advierte que la menor cantidad de anuncios adquiridos es 88, por tanio el primer valor de tallo es 8, El valor más grande es 156, por !o que los valores de tallo comenzarán en 8 y continuarán hasta i5. El primer valor en la tabla 2.6 es 96, que tendrá un valor de tallo de 9 y un valor de hoja de 6. Recorriendo el renglón superior, el segundo valor es 93 y el tercero es 88. Después de considerar los primeros 3 valores de datos, !a gráfica aparecerá como se indica a continuación: Tallo
Hoja
8 9
8 63
10
Ulll
Luego de organizar todos los datos, la gráfica de tai!o y hoja queda corno se indica
a continuación. Hoja
Talio 8 9 10 11 12 13 14 ·15
89
6356447 873463 732721983 75705504 9529468 823 655
El procedimiento normal es ordenar los valores de hoja, de menor a mayor. El último renglón, el que contiene los valores en el grupo de 150, aparecería como:
li~
32 La tabla 'final aparecería como se indica a continuación, donde se han ordenado los valores de todas las hojas. Ta¡Jo
Ho]a
]
~~-------
8 9 i
i
10
.34.456.67 334678
1·1 12
-¡ 22337789 00455577
13
2456899
14 15
238
1
556
Se pueden obtener varias conclusiones a partir de la representación de talio y hoja. Primero, el 111enor nt'.1n1ero de anuncios adquiridos es 88, y el mayo1· es ·156. Dos agentes de ventas co111praron menos de 90 anuncios, y tres i 50 o más. Asimismo, puede observarse que !os tres agentes de ventas que adquiríeron más de i 50 anuncios realmente compraron 155, i 55 y í 56 anJncios. El número de anuncios adquiridos se acumula entre ·11 O y 130. Nueve agentes adquirieron entre i i O y ·¡ i 9 anuncios, y 8 cornpraron entre 120 y 129. También puede verse que dentro del grupo de 120 a 129, el né1mero real ele anuncios adquiridos se encuentra esparcido equitativamente. Esto quiere decir que dos agentes vendedores compraron 120 anuncios. uno 124, tres 125, y dos 127 anuncios. ·' Esta información también puede generarse con el programa MINIT!\B. Las variabies se denominan Spots. La pantalla de resultados de MINITAB se muestra a continuación. Los comandos de MINllAB que producen esta pantalla se indican al final del capítulo.
La solución ele iVllNITAB proporciona infor111ación adicional de los totales acumulatívos. En la co!un1na a la izquierda de los valores de tallo se encuentran 11L1meros corno 2, 9, ·¡ 5 y demás. E! número 9 incica que se presentaron nueve observaciones antes del valor 1OO. El número 15 indica que se han presentado quince observaciones antes de 1 "ID. Casi a la mitad de la columna aparece el nún1ero 9 entre paréntesis. Dicho paréntesis indica que el valor intermedio ocurre en ese renglón. En este caso se describe el valor intern1edio como el valor por ab3.jo de! cual se presentaron la rnitad de las observaciones.
IGescr~¡Jcióíl ~e i~s DJatos.
DistrffbiuciorNJS de frecuencias y representaciones grráficas
33
Hay un total de 45 observaciones, por tanto ei vaior lntennedio, si se ordenaron los datos de menor a n1ayor, será e! que corresponde a la 23a. observacíón. Después clel renglón ele en n1edio, los valores comienzan a disminuir. Estos valores representan los totales acumulados "n1ayores que". Hay 21 observaciones de '120 o n1ás, i 3 de i 30 o más, y así sucesivarnente.
,, .... t\!1t~exameíl 2.4
.. ,,
~~-·-··~·~~,-~~·~-~·
···-~--·--~~~--~-~--~~~~--~-·~··--¡
Las razones precio-ganancia de 21 acciones en ia categoría de comercio al menudeo son:
l
1~; ~.~ ~·~ ~.~ 1~~ I~~ ~.~
Org~nice
a) b) e) d)
1
~~ 1~~
1
~~ ~
.
"
-
"'"'~"
1
1
esta información en una representación de tallo y hoja. ¿Cuántos valores son menores que 9.0? Enumere los valores en la categoría de 10.0 a 11.0 ¿Cuál es el valor intermedio? ¿Cuáles son las razones precio-ganancia 111ás grande y n1ás pequeña?
-~--
1
¡
u 11
..
·-~-,,~~
Ejercicios 9. El primer renglón de una representación de tallo y hoja es: 62 j '1 3 3 7 9. Considere números enteros.
a) ¿Cuál es el Intervalo ·iotal de los valores en este renglón? b) ¿Cuántos valores de datos hay en este renglón?
e) Enumere los valores reales de este renglón de elatos. ·10. El tercer renglón de una representación de tallo y hoja aparece como: 21
1 O ·1 3 5 7 9. Considere números enteros. a} ¿Cuál es la amplitud ele variación posible (o intervalo total) ele los valores en este renglón? b} ¿Cuántos valo1·es de elatos hay en este renglón? e} Enu111ere los valores reales de este renglón de elatos. i i. La siguiente representación de tallo y hoja n1uestra el nún1ero de unídades producidas por día en una fábrica.
3
2 9 (7)
9 7
2
8 4 5 6 6 0133559 7 0236778 8 59 9 00i56 10 36'
a) ¿Cuántos días se estudiaron? bj ¿Cuántas observaciones hay en la prirnera clase? e) ¿Cuáles son el valor más peque1lo y el valor rnás grande? d} Indique ios valoras reales en el cuarto renglón. e) indique los valores reales en el segundo renglón. f) ¿Cuántos valores son inferiores a 70? g) ¿Cuántos valores son iguales o superiores a 807 h} ¿Cuál es el valor interrnedio? i) ¿Cuántos valores l1ay entre 60 y 89 inclusive? 12. La siguiente representación de tallo y hoja inforn1a el número de películas rentadas por día en la ernpresa Video Connectíon.
34
Capítulo 2 689 123 6889 589 35 24568 268 13456 034679 2239 789
12 13 ·14 15 16
3
6 10
13 ·15 20 ! 23 (5) 22 ·15 12 9 4
17
18 19 20 21 22 23 OOH9
3
24
8
25 26 27
13
o
a) ¿Cuántos días se estudiaron? b) ¿Cuántas observaciones hay en la última clase? e) ¿Cuál es el valor más grande y el rnás pequeño en todo el conjunto de datos? d} Enumere los valores reales del cuarto renglón. e} Enuncie ios valores reales de! penúltimo renglón. f) ¿En cuántos días se rentaron menos de í 60 películas? g) ¿En cuántos días se alquJaron 220 películas o más? h) ¿Cuál es el valor intermedio o mediano? 1) ¿Cuántos días se rentaron entre i 70 y 21 O películas? 13. Una encuesta del número de llamadas recibidas por una muestra de suscriptores de una compañía telefónica, día a conocer la siguiente información. Elabore una representación de tallo y hoja. ¿Cuántas llamadas recibió un suscriptor típico? ¿Cuáles fueron el mayor y el menor nl1mero de llamadas recibidas?
¡:; 37 1
43 34
30 46
38 32
30 18
42 41
12
46
5
14. El banco Aloha Banking Co. está analizando el nL1mero ele veces que se utíliza cada día su cajero automático en el Superrr:ercado Loblaws. El siguiente es el nl1mero de veces que se usó durante cada uno de los t'.1ltímos 30 días. Desarrol!e una representación de tallo y hoja. Resuma los datos referentes al número cie veces que se utilizó el cajero automático. ¿Cuántas veces se usó en un día típico? ¿Cuáles son el rnayor y el menor número de veces que se e111pleó el cajero? ¿Alrededor de qué valores tiende a concentrarse la cantidad de veces de uso del cajero? ·~---------··---------~-·~
83 63 95
64 80 36
34 84 78
76 73 61
84 68 59
54 52 84
75 65 95
59 90 ~7
70 52 87
5·1 77 60
Los gerentes de ventas, analistas de valoi-es, administradores de hospitales y otros ejecutivos, con frecuencia necesitan tener una percepción rápida de !a tendencia en ventas, precios de acciones o costos de administración. Estas tendencias pueden mostrarse utilizando dia·gramas o gráficas. Tres diagramas que representan de manera adecuada una distribución ele frecuencias son el histograma, el polígono de frecuencias y e! polígono de frecuencias acu111uladas.
Descril']ció~i
de !Ds []atos. !Jistribuciones de frecure1u1ias y representaciones gráficas
35
Uno de los medios que se utilizan con 111ayor frecuencia para representar una distribución de frecuencias es el hlstogirama.
P::1:;:::~~1;,~!"~1i;;~;,;~~~;f~~;:;;,::~~~:: ·De esta manera, el histograma describe una distribución de frecuencias utilizando una serie de rectángulos adyacentes, la altura de cada rectángulo es proporcional a la frecuencia que representa la clase. La elaboración de un histograma se ilustra mejor volviendo a considerar los precios de venta ele los 80 vehículos que se vendieron en la agencia \11/hitner Pontiac.
Considere la siguiente distribución de frecuencías para este caso.
Precios de venta {miles de rló!ares) 12 hasta t5 í5hasta18 18 hasta 21 21 hasta 24 24 hasta 27 27 hasta 30 30 hasta 33 Total
frecuencia 8
23 t? t8 8 ~
2 80
Construya el hlstograma. ¿Qué conclusiones puede obtener basado en la información que presenta dicho histograma?
SOUJCIÓN
Para construir un histograma, las frecuencias ele clase se marcan en una escala en el eje vertical (eje Y) y los límites de clase, o bien los puntos medios de clase se marcan a lo largo del eje horizontal (eje X). Para mostrar la elaboración de esa gráfica, en el ciiagra·n1a 2. i se muestran !as primeras tres clases.
P1·ecio de venta
15 de dólares) t 8 ----21_.- - - - - - - -.. ' (miles ~-----------------·
i!J!f.\GHJ.HV'!A 2,·¡
Elaboración de n11 histogran1a.
1
36
Capítulo 2 En el diagrama en cuestión se observa que hay ocho vehículos en la clase de $12 000 a $15 000 (dólares). Por tanto, la altura de la columna de esa clase es 8. Hay 23 vehículos en la clase de $15 000 a$! 8 000, por lo que, lógicamente, la altura de esa colun1na es 23. La altura ele !a barra representa el número de observaciones en la clase. Este procedimiento se realiza en todas las clases. E! diagran1a 2.2 muestra el histograma completo. Note que no hay espacio entre las barras. Esta es una de las características del histograma. En las gráficas ele barras, que se describirán en una sección posterior, !as barras ve1iicales están ligeramente separadas.
ro
40.r
.9 .9
30 .
'"
20
" = '">
-o
~
23
u
""me
10
ü
·12
DlAGRAfJlA 2,2
15
18
21 24 Precio de venta (miles de dólares)
27
30
33
X
1-iistogran1a de los precios de venh! de 80 vehículos en la agencia \/l/hi!:ner Pontiac.
Del histograma que se ilustra en el diagrama 2.2 se puede concluir lo siguiente: 1. El precio de venta 111ás bajo está a!rededor ele $"12 000, y el más alto alrededor de $33 000. 2. La mayor ·frecuencia de clase corresponde a la clase de$·! 5 000 a $18 000. En total, 23 de los 80 vehículos vendidos se encuentran en este intervalo de precios. 3. Cincuenta y ocho de los vehículos, o bien 72.5%, tenían un precio ele venta entre $"15 000 y $24 000.
Por tanto, el histograma proporciona una representación visual -fácil de interpretar- de una distribución de frecuencias. Debe indicarse que se habría llegado a las mismas conclusiones y la forma del histograma habría sido la 111isma, si se hubie1·a utilizado una distribución de frecuencias relativas en lugar de la distribución de frecuencias reales. Esto quiere decir que si se hubieran usado las frecuencias relativas de la tabla 2.5, página 28, se habría obtenido un histograma de la misma forma que el del diagrama 2.2. La (1nica diferencia es que en el eje vertical estarían los porcentajes de vehículos, en vez del número de autos.
Para generar e! histogra111a anterior con los datos de ventas de la agencia Whitner Pon-· tíac usa111os el sistema Excel de ~Jlícrosuft. Los comandos para obtener estos resultados se encuentran a! fina! del capítulo en !a sección Comandos para computado1·a.
En un polígono de frecuencias los puntos medios ele clase se unen con un segmento ele recta.
Polígono de frecuencias Un polígono de frecuenclas es sin1ilar al histograma. Está formado por segriientos de recta que unen a los puntos n1edios de clase y las frecuencias de clase. El diagran1a 2.3 muestra la elaboración de uíl polígono de frecuenCias. Se utilizan los precios de venta ele los
37
Precios de venta de 80 vehículos vendidos en VVhitner Pontiac
i3.5
·11\5
'195
22.5
25.5
235
3·1_5
Precio da venta (en miles de dólares)
La estadlist.ica en acción
vellículos vendidos en la agencia Whitner Pontiac. El punto medio de cada clase se n1arca en e! eje X, y las frecuencias de clase, en el eje Y. Recuerde que el punto medio de clase es el valor que se encuentra al centro de una clase, ·y representa los valores en ésa. La frecuencia de c!ase es el número ele obseritaciones en una clase determinada. Los precios de venta de los vehículos en Whitner Pontiac son:.
P;ecio de venta
Punto
{miles de dólares)
medio
12hasta15 15ilasta18
13.5 16.5 19.5
18 hasta 21 21 24 27 30
'"'e'"'""" tnéchca,-_soJJrC tod_o en Hspedos de higiene. Dcsarrolló_gni:: Reas originales para dcrnosfrár que, d'í_ú·c!útC'b Cuerra de Crin1ea, fallecieron mtiS solclfidos ;¡ co1usa de bs condicio11cs insalubres que de-
bido al
combate~.
hasta 24 hasta 27 hasta 30 hasta 33 Total
22.5
25.5 28.5 31.5
Frecuencia 8
23 17 18 8 'i
2 80
Como ya se mencionó, la clase de $'12 000 a $15 000 (dólares) está representada por el punto medio de $13 500. ?ara elaborar un polígono de frecuencias, se localiza horizontalmente sobre !a gráfica al ¡junto n1edio, $i 3.5, después en sentido vertical hasta 8, la frecuencia. de clase, y se marca un punto. Los valores de X y Y de este punto se de¡1ominan las coordenadas. Las coordenadas del siguiente punto son X= $'16.5 y Y= 23. Este proceso continl1a para todas las clases. Después se unen los puntos- en orden. Esto quiere decir que el punto que representa !a clase más baja se une a! que representa la segunda clase, y así sucesivamente. Observe en el diagrama 2.3, que para completar el polígono de frecuencias se marcan los puntos 111edios de $10.5 y $34.5 en e! eje X para "anclar" el polígono en las frecuencias cero. Estos dos valores, $·10.5 y $34.5, se obtienen al restar el intervalo de clase de $3.0 al punto medio más bajo ($13.5), y sumar $3.0 al punto medio más alto ($31.5) en la distribución de frecuencias.
38
Capítulo 2
10
10.5
D!f.tJ3J~Af\/~A
2.. 3
13.5
'16.5
19.5
Polígono de frecuencias de los precios de Yen ta de 80 ·vehículos en la agencia \Vhih1cr Pontiac.
Tanto el histograma como el polígono de frecuencias permiten obtener una imagen rápida de las principales características de los datos (altos, bajos, puntos de concentración, etc.). Aunque el objetivo de ambas representaciones es similar, el histograma tiene la ventaja de indicar cada clase como un rectángulo, cuya a!tura representa e! nl1mero total de frecuencias en la c!ase. El polígono de frecuencias, a su vez, tiene una ventaja notable con relación al histograma, ya que permite comparar en forma directa dos o más distribuciones de frecuencias. Supóngase que Rob Whitner, propietario de Whitner Pontiac, quiere comparar las ventas del mes pasado en su agencia con las de Midtown Cadillac. Para hacerlo se elaboran dos polígonos de frecuencias, uno sobre el otro, como se observa en el diagrama 2.4. Al observar la figura queda claro que el precio de venta típico de un vehículo es más elevado en la agencia Midtown Cadillac. El número total de frecuencias en Whitner Pontiac y en Midtown Caclillac es casi el mismo, por tanto se puede realizar una comparación directa. Si la diferencia en e! número total de frecuencias es grande, e! hecho de convertir las ·frecuencias reales a frecuencias relativas y después graficar las dos distribuciones, permitirá obtener una comparación más clara.
19.5
22.5
25.5
Precio de venta (miles de dólares) D!AGHJ'!lf\J!ft. 2.4-
!)istrihucíón ele l.os precios de venta de los vehículos en las agencias '\'Vhitncr Pontiac y l\ Iidto,vn Cadillac. 1
Descripción de los
dalos. Distribuciones de frecuencias y representaciones gráficas
39
Las in1portaciones anuales de un grupo selecto de proveedores de componentes electrónicos se muestran en la siguiente ciistribución de frecuencias. ~·
..
Importaciones {millones de dólares)
Número de proveedores
2 hasta 5
6 13
5 hasta 8 8 l1asta 11 11hasta14 14 hasta 17
a}
20 10 1
Muestre !as importaciones en forma de un histograma.
b) Represente las importaciones mediante un polígono ele frecuencias relativas. e) Resuma los aspectos importantes de la distribución (como el bajo y el alto, concentración, etcétera)
T'o
o
o
E11erCliCliü§
'
~~~-~~~~=•"m=
15. La franquicía de velas Molly's Candle Shop tiene varias tiendas al menudeo en las áreas costeras de Carolina del Norte y Carolina del Sur. Muchos de los clientes de Molly piden que les envíe sus compras. La gráfica siguiente muestra el número de paquetes que envió diariamente en los últimos 100 días.
Número de paquetes a) ¿Cómo se llama esta gráfica? b) ¿Cuál es el número total de frecuencias?
e) ¿Cuál es el intervalo de clase? d) ¿Cuál es la frecuencia de clase para la clase de iü a 15? e) ¿Cuál es la frecuencia relativa de la clase de 10 a 15? f) ¿Cuál es el punto medio de la clase de 10 a 15? g) ¿En cuántos días se enviaron 25 paquetes o más? 16. La siguiente gráfica muestra el número de pacientes que ingresaron diariamente a la sala de urgenclas del Hospital Memorial.
o
2,
4
6
8
Nlimero de pacientes
10
12
40
Capil"lo 2 aj ¿Cuál es el punto medio ele ia clase de 2 a 4? b) ¿Cuántos días ingresaron de 2 a 4 pacientes? e) ¿Cuántos días se estudiaron? d) ¿Cuál es el intervalo de clase? e} ¿Cómo se llama esta gráfica? i7. La siguiente distribución de 'frecuericias representa el nlimero ele días en que los empleados de !a Compañía industrial EJ. \J\/ilcox estuvieron ausentes a causa de enfermedad,.dlirante' un afio.
Número de dias ausentes
Número de empleados
Ol1asta 3 3 hasta 6 6 llasta 9 9 t1asta 12 12 hasta 15 Total
5 12
23 8 2 50
---··--------~
a) b) e) d)
Suponiendo que lo anterior es una muestra, ¿cuál es su tamaño? ¿Cuál es el punto medio de la primera clase? Elabore un histogran1a.
Debe obtenerse un polígono de frecuenci'as. ¿Cuáles son las coordenadas en !a gráfica para la Primera clase?
e) Elabore un polígono ele fretuencias. fj Interprete la tasa de ausentismo de los empleados utilizando ambas gráficas. 1B. Un minorista grande estudia el tiempo de surtímiento (el tiempo que transcurre entre la elaboración de un pedido y la entrega del mismo) para una muestra de órdenes recientes. Los tiempos de su1ilmiento se reportan en días.
Tien1po de
a) b} e} d} e} f)
surtimiento
Frecuencia
Ohasta 5 5 hasta 10 ID hasta ·15 15 hasta 20 20 hasta 25 Total
6 7 12 8 7 40
¿Cuántos pedidos se estudiaron? ¿Cuál es e! punto medio de la prin1era clase? ¿Cuáles son !as coordenadas de la primera clase para un polígono de 'frecuencias? Construya un histogra111a. Elabore un polígono de frecuencias. Interprete los tiernpos principales utilízando ambas gráficas.
Dish·ibuciones de frecuencias aennmladas Considere una vez más la distribución de los precios de venta de !os vehículos en la agencia Whitner Pontiac. Suponga que interesa el número de vehículos que se vendieron en menos de $18 000 (dólares), o el valor por abajo del cual se vendieron 40% de los vehículos. Estos números pueden calcularse desarrollando una distribución de frecuencias acumuladas y mostrándola gráficamente en un polígono de frecuencias acumuladas.
!lescripciói1 de los d~!os. Distrib11cior1es die fremencias y representaciones gráficas
41
La distribución de frecuencias de los precios de venta de los vehículos en la agencia Whitner Pontiac se repite a partir de la tabla 2.4. Precio {miles de dó!ares)
FrecueíldaJ
12hasta15 15 hasta 18 18 hasta 2·1 21 hasta 24 24 hasta 27 27 liasta 30 30 hasta 33 Total
8 23 17 18
8 4 2 80
Elabore un polígono de frecuencias acumuladas. Conteste a estas preguntas: ¿50% de los vehículos se vendieron en menos de qué cantidad? ¿En 111enos de qué cantidad se vendieron 25 de los vehícu!os?
SOUJCIÓN
Como su nombre lo indica, en una distribución de frecuencias acumuladas y un polígono de frecuencias de tal clase, se necesitan !as frecuencias acumuladas. Para elaborar una distribución de frecuencias acumuladas, consulte la tabla anterior y observe que ocl10 vehículos se vendieron en menos de $15 000 (dólares). Esos 8 vehículos, más los 23 que están en la siguiente clase más alta -que dan un total de 3·1- se vendieron en menos de $18 000. La frecuencia acumulada en la siguiente clase más alta es 48, obtenida de 8 + 23 + 17. Este proceso se repite con todas las clases. Todos los vehículos se vendieron en menos de $33 000. 0fer tabla 2.7.) TJ1,BL,ll¡ 2.7
Distribución de frecuencias acurrntlaclas para los precios ele venta de los vehículos.
Precio de venta {miles de ció!ares)
--·---"--
·¡2 hasta 15 15 hasta 18 18 hasta 2·1 21 hasta 24 24 hasta 27 27 hasta 30 30 hasta 33 Total
Frecuencia
8 23 17 "18 8 4 2
80
Frecuer.cia acumulada
8 31 48
66 74 78
80
Obtenida de
8 + 23 8 + 23 +"17 8+23+17+18
j
42
Capítulo 2 Para graficar una distribución de frec.uencias acumuladas, localice el límite superior de cada clase en el eje X, y las frecuencias acumuladas correspondientes a lo largo del eje Y. Para proporcionar info:-mación adiciona!, puede graduarse el eje vertical de la izquierda en unidades, y el de la derecha en porcentajes. En el ejemplo de Whitner Pontiac, el eje izquierdo se marca con escala de O a 80, y el de la derecha, de 0% a 100%. El valor de 50% corresponde a 40 vehículos vendidos. ·Para comenzar el trazo considere qüe se vendieron 8Vehículos en menos de $·15 000 (dólares), entonces el primer punto se ubica en X= 15 y Y= 8. Las coordenadas para el siguiente punto son X= 18 y Y= 31. El resto de los puntos se marcan luego para después unirlos y formar la gráfica (ver el diagrama 2.5). Para encontrar el precio de venta por abajo del cual se vendió la mitad de los automóviles, se traza una recta horizontal desde la marca de 50% en el eje vertical de la derecha hasta el polígono, después se ba·· ja llasta el eje X y se lee el precio de venta. El valor en el citado eje X está aproximadamente en i 9.5, por lo que se estima que 50% de !os vehículos se vendieron en menos de $19 500.
80
~-
7Í'___,__ ~
g ::
!5º i®
I Il
~
rno 75
~
~
~i§;
1
~~---L'L___l__IL_l__L_f_J_-----L~ '12
15
18
21
24
27
30
33
Precio de venta (miles de dólares)
D~1'.'l,GifU\fül.A.
2.5
Distribución de frecuencias acun1uladas para el precio de venta de los '{ehículos.
Para encontrar el valor por abajo del cual se vendieron 25 de los vehículos, se iocaliza e! valor 25 en el eje vertical de la izquierda. A continuación se traza una línea hor!zontal desde ei valor 25 al polígono, y después se baja al eje X y se lee el valor con·espondiente. Es alrededor de 17.5, por lo que se estima que 25 de los vel1ículos se vendieron en menos de $17 500. Asimismo, se puede calcular el porcentaje de vehículos que se vendieron en 111enos de una cantidad determinada. Para explicarlo 111ejor, supóngase que se quiere calcular el porcentaje de vehículos que se vendieron en menos de $25 500. Comenzamos por ubicar el valor de 25.5 en el eje X, luego se desplaza en forma vertical al polígono, y después de manera horizontal hasta el eje vertical de la derecha. El valor se encuentra aproximadan1ente en 87, por lo que se concluye que 87% de los vehículos se vendieron en menos de $25 5:JO.
[]escriptióíl d!B ios datos. !Jisfrfbucf(Jnes de ff!'ecuencias y representaciones gráficas
43
En la siguiente tabla se presenta una n1uestra de los sueldos por hora de 80 empleados en los supermercados Food City.
1
1
Sueldos por hora
N(!mero de empleados
$ 6 hasta$ s s hasfa 10 -1 O !1asta 12 ·12 hasta 14
3
7 4
a) ¿Córno se llama esta tabla? b) Desarrolle una distribución de frecuencias acumuladas, y n1uestre la distribución en un polígono de frecuencias acumuladas. e) Basándose en el polígono anterior, ¿cuántos empleados ganan 9 dólares por hora o menos? ¿La mitad de los empleados gana un sueldo de tal cantidad o 111ayor a qué cifra? ¿Veinte empleados ganan un salario de cuánto o inferior a qué cifra? -··-----,-=~~~~~---~ -
----·
J1
---:.C~-~~~=-~~~~~~~~·~~,=~~=~··~~·~·~~~
- =Ó<-.
Ejercicios ------
_,e~~~--·
19. La siguiente gráfica muestra los sueldos por hora ele técnicos soldadores en e! área de Atlanta, Georgia.
,_t'.',':::...::·;;?:'.·.:·:.·:._.¡>_<:,_/<;",:;\:'.·:.-.i_:· _: ' --.:".:·. ,' '' ':··: ,' .·."·.' - '' ·:
~~~~-:i~r1 o
5
rn
15
20
25
30
Salario por hora
¿Cuántos soldadores se consideraron? ¿Cuál es el intervalo de clase? ¿Cuántos soldadores ganan menos de $10.00 (dólares) por hora? ¿Alrededor de 75% de !os ·soldadores ganan menos de qué cantidad? ¿Diez de los soldadores incluidos ganen menos de qué cantidad? f) ¿Qué porcentaje de soldadores gana menos de $20.00 por hora? 20. La siguiente gráfica muestra el precio de venta (en miles de dólares) de casas vendidas en el área de Bi!lings, Montana. a) b) c) d) e}
a) b) e) d)
¿Cuántas casas se estudiaron? )_)0 t ¿Cuál es el intervalo de clase·'./ ¿Cien casas se vendieron en una cantidad inferior a? ¿Alrededor de 75% de las edificaciones se vendieron en menos de qué cantidad?
44
Capílt1lo 2 e} Calcule el nl1mero de casas en la clase de 150 mil a 200 mil dólares.
f)
¿Aproximadamente cuántas casas se vendieron en menos de 225 mil dólares?
2"L La distribución de frecuencias --que se consideró en el ejercicio 17 y se repite aquí- representa el número ele días al afo en que los empleados de la compañía E.J. Wilcox Manufacturing Co. no se presentaron a trabajar debido a enferrneclad.
Frecuencia Ol1asta 3 3 hasta 6 6 tlasta 9 9 hasta i2 12liasta15 Total
5 ·12
23 8 2 50
a) ¿Cuántos empleados estuvieron ausentes menos de tres días al año? ¿Cuántos lo estuvie-
ron menos de seis días debido a la enfermedad? b) Convierta la distribución de frecuencias en una distribución de frecuencias acumuladas. e) Represente la distribución de tipo acumulado mediante un polígono de frecuencias acumuladas. d) Basándose en el polígono en cuestión, ¿alrededor de tres de cada cuatro empleados estuvieron ausentes por cuántos días o menos clebido a enfermedad? 22. La dístribución de frecuencias del tiempo necesario para surtir un pedido se toma del ejerci-
cio 18. Tiempo para surtir (días)
Frecuencia
o hasta 5 5 hasta 10 10 hasta 15 15 hasta 20 20 hasta 25 Total
6 7 12 8 7
40
aj ¿Cuántos pedidos se entregaron en n1enos de 1O días?¿ Y en menos de í 5 días? b) Convierta la distribución de frecuencias en una distribución de frecuencias acumuladas. cj Desarrolle un polígono de 'frecuencias acun1uladas. d} ¿Alrededor de 60% de los pedidos se entregaron en menos de cuántos días?
(J'Í"'"'"'"
'
.,¡~
.¡¡..,.,.,
~
,...,,
º"' . --¡¡~ .f~
. . .,
~
] rtt
~~, 1,1~~)2~~'.:,~:'.'2:::~:?1:!:,~~~:ar~,~~~~~e. ~!«~~~. -o
,--, et."'1
".'
El histograma, el polígono de frecuencias y el polígono de frecuencias acumuladas poseen en general un fuerte atmctivo visual. Esto quiere decir que están diseñados para captar la atención del lector. En esta sección se examinarán otras formas gráficas, específicamente la
gráfica de líneas, la gráfica de barras y la gráfica circular. Estas gráficas aparecen continuamente (en EUA) en publicaciones como USA Today, U.S. News and World Report. Business Week, así como en otros periódicos, revistas y reportes gubernamentales. Los diagramas 2.6 y 2. 7 son ejemplos de gráficas de líneas. Estas representaciones son especialn1ente efectivas en los negocios porque se puede mostrar el cambio en una variable
a través del tiempo. La variable, por ejemplo el número de unidades vendidas o el valor total de ventas, se marca en la escala a lo largo del eje vertical, y el tiempo en la escala a lo largo del eje horizontal. El diagrama 2.6 muestra los valores del Promedio Industrial Dow Janes y del Nasdaq, los dos indicadoms más utilizados de la actividad económica, el jueves 6 de junio de 2000. Ambos estuvieron a la baja ese día. El Dow Janes cerró en 10735.57, bajando en 79.73, y el ~lasdaq cerró en 3 756.39, bajando 65.37.
Descri~ciórll
45
de los datos. DistrribucioruJs de frecuencias y representaciones gráficas
i\!ilpb)l,()
3,756.39
......... 4:3t PIVI .ESL ..............
4:48... PM .. ESI
@BigG\1arts.com ........•...........
".),;
-1.71%
@BigChmts.com
10,850
3,900
l
~~,riJV'~~..~."~~;~ 10,7so . .
_¡_
10 11 []~AGPiJUifiA
2,lJ
'
12
10,800
L_.L.. ~
1
2
3
10700 '
~10-1~1-1~2-~~2-~3-~
3·700
H.estnnen del rnercado el día 6 de íu:nio de 2000.
El diagrama 2.7 ta111biér, es una gráfica de líneas. Esta representación muestra la circulación del periódico .Sun Times desde 1995 hasta el año 2000; indica que las ventas del periódico han aumentado, pero desde 1997 parece haber disminuido la tasa de crecimiento de las ventas.
200 000
Año D~AGíllHv'lA
2.7
Circulación del diario Sun Tinies desde 1995 hasta 2000.
Con frecuencia, en la misma gráfica de líneas se representan dos o má.s series de cifras. Por tanto, una gráfica puede mostrar la tendencia ele varias series. Esto permite una comparación rápida de varias series en un periodo o intervalo de tiempo. E! diagrama 2.8 muestra !as ventas nacionales e internacionales (en millones de dólares) de Johnson & Johnson, lnc., de 1990 a 2000. Se observa fácilmente que las ventas en ambos rubros han crecido, siendo !as ventas nacionales superiores a las internacionales, en la 111ayor parte de los años. Una gráfica de barras es especia!mente útil para mostrar cualquiera de los niveles de medición: nominal, ordinal, ele intervalo o de razón (o cociente). Cabe recordar que los niveles de medición de los datos se analizaron en el capítulo 1. Supóngase que se quiere mostrar la diferencia en los ingresos con base en el nivel de estudios. De acuerdo con los Reportes acerca de la Población Actual ele la Oficina de Censos (en Estados Unidos), el ingreso promedio de una persona de 18 años o más, es 22 895 dólares, si el nive! de estudios más alto que posee es el de !a educación secundaria. Para !as personas con nivel de bachillerato el ingreso promedio aumenta a 40 478 dólares, y con un grado de licenciatura o maes-
46
Capítulo 2
Año DU.t.Gílt:\lV~A
2.8
Ventas nacionales e internacionales de Johnson & Johnson, Jnc.
tría la cifra aumenta a 73165 dólares. El diagrama 2.9 sintetiza esta información. A este tipo de representación se le conoce como gráfica de barras horizontales, debido a su configuración. En el diagrama es fácil darse cuenta de que una persona con nivel de bachillerato puede ganar casi el doble de lo que puede percibir una persona que sólo tiene nivel de secundaria. El ingreso de una persona con licenciatura o maestría es casi el doble que el ingreso de una persona que sólo ha terminado el bachillerato, y más del triple del de una persona que só!o cursó la educación secundaria.
Bachillerato
Licenciatura o maestría
[!t!!JSJJRAlV~P,
2.9
$73165
J
Ingreso pro1neclio de acuerdo con el nivel de estudios.
Una gráfica en U.S. News and World Report muestra que en la actualidad los estadounidenses están adoptando las nuevas tecnologías con mayor rapidez. En el diagrama 2.1 O, una
gráfica de barras verticales, se muestra el número de años que tomó a cinco tecnologías clave, después de su introducción, entrar a una habitación de los hogares estadounidenses. En el diagrama se observa que a Internet le tomó sólo 7 años entrar a la cuarta palie de los hogares en EUA, mientras que al teléfono le tomó 35 años. La altura de las barras corresponde a los años. Es importante observar que hay un espacio entre las barras que representan diferentes tecnologías. Esta es una característica que diferencia a las gráficas de barras respecto de los
47 histogramas. En un histograma no hay espacio entre las barras (ver el diagrama 2.2 de la página 36), debido a que los Catos pertenecen a una escala de intervalo o de razón. Este no es el caso en las gráficas de barras. Las diversas tecnologías se rniclen en la escala nominal, y en consecuencia, las barras estarán separadas. 40
30
,@
25 20
""
15 10 5
o lrr~ernel
ll)!AGRP~fü~J~
2.1D
PCs
Tecnologías ele radio
T1/
Teléfono
Núrncro
Una gráfica circular es especialmente útil para mostrar ios datos de nive! nominal. Se utilizará la infor111ación de la tabla 2.8, que muestra una distribución de las utilidades obtenidas por una lotería estatal desde i 964, para explicar los detalles y elaborar una gré.fica círcular (o gráfica de sectores circulares).
( TABlA 2,8
Utilidades de una Idtcría estatal Uso de las utmdades Educación Fondo general Citdades Cit.:dadanos de la tercera edad Otms Total
Po1n:::entaje
56 23 10
9 2 100
El primer paso es n1arcar los porcentajes O, 5, i O, i 5 y demás, de manera unifonne sobre la circutTferencia de un círculo. Para representar el 56% que corresponde a !a educación, se traza una línea del O al centro del círculo y después otra del centro al punto de 56% en la circunferencia. El área de este sector ci1·cular o "rebanada" representa las utilidades obtenidas por la lotería que se destinaron a la educación. Después, se suma el 56% destinado a la educación a! 23% destinaCo al fondo general; el resultado es 79%. Se traza una recta de! centro del círculo al punto del 79%, por tanto el é.rea ele! 56% al 79% representa el porcentaje de las utilidades obtenídas por la iotería destinadas a! fondo general del estado. Continuando, se suma 10%, la cifra del porcentaje dado a las cludades, lo cual hace un total de 89%. Se traza una recta dei centro hasta el punto clei valor 89, por lo que el área entre 79 y 89 representa la parte destinada a las ciudades. Se continúa e! mismo proceso con los progra111as para ciudadanos c!e la tercera edad y para "Otros". Co1110 las áreas de los sectores representan la parte relativa de cada categoría, puede comparárselas rápida111ente: el porcentaje más grande de utilidades va a la educación; esta cantidad es 111ás de !a mitad de! total, y es rriás del doble de la cantidad dada a la categoría mayor que sigue.
48 Ciüd8danós Ofrüs de la 1ercera , ',, ,,,, ó; 1 00 ; _ecad -.-.~- 9- 8 io 1 'º89%
75°/o
25°/o
70°/o
30°/o
50°/o Porcentaje de las utilidades de una lotería estatal.
El sistema Excel puede desarrollar una gráfica circular y presentar el resultado. fa, continuación se tiene una gráfica de Exce! que rnuestra el porcentaje de espectadores que cap-
tan cada una de las principales cadenas televisivas durante las principales horas de programación de las emisoras más importantes de televisíón en EUA.
G CBS 24o/0 11 o/o
Porcentaje de espectadores durante las principales horas de sintonía en lss cadenas de tele-visión n1ás in1portantcs en EUA...
Los comisionados de! Condado de Clayton (en EUA) quieren diseñar una gráfica para mostrarla a los contribuyentes que asistan a la siguiente reunión que sucederá con el pago de sus impuestos. La cantidad total de in1puestos recaudados es Igual a 2 millones de dólares ($). Los gastos son: $440 000 para escuelas, $i 160 000 para carninas, $320 000 pa1·a la administración, y $80 000 para abastecl111iento. Una gráfica de sectores parece ser la ideal para mostrar la porción de cada dólar recaudado que se destina a escuelas, ca1T1inos, adn1inistración, y
abasteclmiento, Convierta las cantidades en dólares a po1·centajes del total, y presente los valores porcentuales en una gráfica circular.
Al elaborar una representación gráfica se debe tener cuidado de no hacer una que !leve a confusión o a una interpretación errónea. En esta sección se presentan varios ejemplos de diagramas o gráficas engañosas.
49 Siempre que observe una gráfica o un diagrarna, analícelos culdadosan1ente, PregL1ntese: ¿Qué trata ele mostrarme el autor? ¿Puede tener alguna predisposición? Una de las formas más ·fáciles para conducir al lector a una interpretacíón errónea es hacer que !a extensión del eje Y sea muy pequeña en tér111inos de las unídades que se utllizan para ese eje. Un segundo 111étodo es comenzar en algún valor di·ferente de O sobre el eje Y. En la siguiente gráfica, parece que hubiera un au111ento dramático en las ventas de 1989 a 2000. Sin embargo,- durante el periodo, las ventas aun-;entaron soiarnente 2% {de 5.0 millones a 5. i millones de dólares). Aden1ás, observe que el eje Y no comíenza en O. Para ser claro, no es un error que la escala el eje vertical u horizontal comience en un valor diferente de cero, pero el lector clebe considerar e! efecto que esto produce.
Gráfica
rmlgaílvsa
5.0
~'~-~-~-~--'--~'--~-~-~-~-~
1989 '90
'91
'92
'93
'94 '95 Año
'96
'97
'98
'99 2000
'/entas de furgonetas TV1atsui de nueve pasajeros, 1989-2000.
La siguiente gráfica da la impresión correcta de !a tendencia de las ventas. Las ventas casi son planas de i 989 a 2000, !o cual quiere decir que prácticamente no ha habido can1bio alguno en ventas durante el periodo de 1O años.
'"2' "'
"3
w 'O
~.{:15
m w >m e
g
g
'!
Gráficri c·nrrectfR
1
!l
1989 '90
.,
'91
'92
'93
'94
'95
'96
'97
'98
'99 2000
Año \lentas de fu.rgonetas l'vlatsui de nueve pasajeros, 1989-2000.
Ahora observe las gráficas que se rnuestran a continuación y decida cuidadosamente si el mensaje es exacto. 1. La siguiente gráfica se tomó de un anuncio de la nueva pelota de golf ULTRA DISTANCE, de Wilson. La gráfica 111uestra que esta pelota consigue ia dístancia n1ás grande, pero ¿cuá! es la escala en ei eje horizontal? ¿Cón10 se realizó ia prueba? 2. La en1presa Fibre Tech, en Largo, Florida, ·fabrica e instala revestin1ie11tos de ·fibra de vidrio para piscinas. El siguiente diagrama y texto se incluyó en un fol!eto. ¿Es correcta la comparación? ¿Cuál es ia escala para el eje vertical? ¿La escala está en dólares o en porcentaje?
50
Quizá no todos pueden pe9arle a la pelota corno lo hace John Daly, pero todos quieren intentarlo. Por esta razón \/Vilson© ha !anzado al mercado la nueva pelota ULTRA© DISTANCE. Es la pelota con mayor alcance y precisión que haya utilizado alguna vez. V\filson rediseñó !a pe!ota desde su interior, y debido a esto ULTRA DISTANCE 1·epresenta una avance importante en la tecnología del golf.
ULT1A;;;i DJSTANCE
Dístancia con un palo de golf iron #5 e iron #9. Se observa claramente que ULTRA DISTANCE proporciona mayor alcance.
reduce e! uso tie prodt~ctos c~uifrmi~cos 9 ahorrálndolie tiempo y d~n
0
°
Ahorra hasta 60% solamente en costos de sustancias químicas. Reduce !a pérdida de agua, lo cual signHica menor necesidad de reemplazar prodJctos químicos, y permite obtener hasta 10% de agua más caliente (dísn:inuyendo también ios costos cie calenta111iento). Fibre Tech se paga a sí 111is1110 debido a la reducción en !oscostos de mantenimiento y de los productos químicos.
Nueva111ente se aconseja tener cuidado. Cuando se observa una gráfica o un diagrama, sobre todo sí ·forma parte de un anuncio, se debe tener precauc!ón. Observe las esca!as que se utilizan en el eje X y en el eje Y.
51
23. Un consultor de negocios está investigando el desarrollo de varias empresas. Las ventas durante el ailo 2000 (en miles de dólares) en las compañías elegidas fueron: ·--·---·-·--~-~-·---
..
·--·--~-
'lfeíl[i?!.S en e¡ ctJ1arto üinieüe 1 - •' 1 (m1~es de ílolairesl______J
Empresa
$ i 645.2 4 757.0
Haden Buil:!ing Proclucts J & R Printing, lnc. Long Bay Concrete Construction Mancell Eiectric and Plumbing Maxwell Heating ancl Air Conditioning Mizelle Roofing & Sheet iVletaJs
39'i3.0 627.1 24612.D 191.9
E! consultor desea presentar en su informe una tabla que co111pare las ventas de las seis empresas. Use un díagra111a de barras para cornparar las ventas de estos negocios en ei cuarto trimestre, y redacte un informe breve que resurna lo que expresa la gráfica de barras. 24. La corporación Blair, ubicada en Warren, Pennsylvania, vende ropa de moda para dan-1as y caballeros, además de una amplia gama de productos domésticos. Atiende a sus clientes por correo. A continuación se enlistan las ventas netas de Bla\r, desde -¡ 995 hasta 1999. Trace una gráfica de líneas que 111uestíe las ventas netas en ese periodo, y redacte un informe que resuma información de la gráfica de barras.
AfíD
Vaíltas netas {miilones cie dólares)
1995 1996 1997 1998
500.0 519.2 526.5 550.7
¡999
562.9
25. Un titular en e! diario Toledo .8/ade inforn1ó que el cri111e11 estaba declinando. Se ilustra enseguida la relación del número de hornicidios, de 1986 a 1999. Trace una gráfica de líneas para resurr1ir los datos, y elabore un resumen respecto a las tasas de homicidio para los últin1os -14 años.
j
¡\\fto ·----~-~-~~~~~~-1986 21 1987 34 1988 26 42 1989 1990 37 1991 37 1992 44
Momlcidios 1993 1994 1995 1996 1997 1998 ·1999
45 40
35 30 28 25 21
26. Un infon11e elaborado para e! goben1ador de un estado occidental en EUA, indicó que 56% de ios in1puestos recaudado-s se destinaron a la educación, 23% al fondo general, ·¡ 0% a los condados, 9% a los progra1T1as de la tercera edad, y el remanente a otros programas sociales. Trace una gráfica circular para 111ostrar la distribución del p1·esupuesto. 27. A continuación se indica la población de Estados Unidos (en 111illones de habitantes) a intervalos de 5 años, de i 950 a i 995. Desarrolle una gráfica de líneas que 111uestre el crecímiento de la población, y redacte un informe breve resun1\endo los resultados.
52
C:a1pit~~lo
2 Año
Peblac¡ón
Afio
Poblaciólrl
1950 1955 1960
"52.30 -.65.90
1975 1980 ¡935 i990
216.00 227.70 238.50 249.90 253.00
1965 1970
C80.70 194.30 205.10
·¡995
28. A continuación se muest1·an los gastos (en dólares) del personal militar y civil en las ocho bases militares más grandes en Estados Unidos. Elabore una gráfica de barras y resuma los resultados en un informe breve.
Base St. L.ouis) MO San Diego, CA Pico Rivera, CA Ariington, VA
Cantidad gastada {miHones)
S6 087 4 747 3 272 3 284
Base
Morfolk, VA ,,'"t Marietta, GA Fort Worth. TX VVashíngton, DC
Cantidad gastada (mmones)
$3 228 2 828 2 492 2 347
l~esurnen del capítulo t
!t !!t
iV.
\f. VI.
Una distribución de frecuencias es una agrupación de los datos en categorías n1utuamente excluyentes que muestran e! núníero de observaciones en cada clase. A. Los pasos para elaborar una dist1·ibución de frecuencias son: ·i. Determínar el nl1mero de clases que se desea tener. 2. Establecer !a amplitud o intervalo ele clase. 3. Determinar !os límites de cada una de las c!ases. 4. Distribuir los datos sin procesar en las distintas clases. 5. Contar el nlimero de elernentos en cada clase. B. La frecuencia de clase es el nú111ero de observaciones en cada clase. C. E! lntehta!o de clase es la· diferencia entre los límites·de dos clases consecutivas. D. Ef punto nledio de clase se enCuentrá·a la mit8.d entre los límites de dos clases consecutivas. Una distribución de frecuencias relativas muestra e! porcentaje de observaciones en cada clase. LJna r¡:¡prese11,t;S.ción de. t0l!o.y.hoja es .una alternativa con respecto a una dí.Stribución de frecuencias. A. El dígito príncipal es el tallo. y el dígito siguiente es la hoja. B~ Las ventajas de la gráfica de tallo y hoja sobre una clistríbución de frecuencias son: i. No se Píerde la identidad. de ca.era observación. 2. Los dfgitos en sí dan una imagen de !a distribucíón. 3. Tanibtén se reportan 18s·frecúencias acu111uladas. EXisten dos métodos para r8'presentar· gráficamente una distribución de frecuencias. A'." Un histograma muestra ·et 11l1mero dé frecuencias en cada clase, en forma de rectángulos. B, Un polígono de frecuencias está fonnado por segmentos de recta que unen los puntos det.erminados- po_r las intersecc~ones provenientes de los puntos n1edios de clase y las freCuenciás 'dS c!aSe. · Un Pofígohb" de fréctJe.i1ci3.S acumU!S:daS mues-ti-a el 'núrnéro de' observaciones 111enores que un valdr determinado. Hay m'uChas. gi"áfiéas C¡ue se ·utilizan eh p9riódic'os·Y revístas. A; Una··grática de· lfnea's· es adecuada para' mostrar la téndenCia de ventas o de ingresos en t1n periodo. cleterminado. B, Las gfáf/cas de- barras son similares a- las· gráficas ele líneas, y resultan útiles para mostrar cambios en !os datos de nivel de medíción nomina!.
53
DescripcJón de los datos. Distribuciones de frecuencias y representaciones gráficas
C. Las gráficas circulares son L1ti!es para mostrar los porcentajes del total, que corresponden a diversos componentes.
~jercicios de}~ap!t~i!
datOs consiste én'83 observac_io0es. ¿Cuántas clases recon1endaría.para una
30. Un conjunto de datos consta de 145 observaciones que van de 56 a 490. ¿Qué tamaño de in- . tervalo de cla:se recomendaría? 3i. A continuación se pre·senta ta cantidad de n1inutos que tüma Viajar desde el hogar al trabajo, para un grupo ele éjecutlvos con automóvll.
28 3·1
25 26
48 21
37 32
41 25
19 31
32 43
26 35
16 42
23 33
29 28
23 33
~-------·---
a) ¿Cuántas qlases serí2,n recon1enclabl8s? b} ¿Qué intervalo ele clase sl1gi.ere? e) ¿Qué valor sugeriría como límite lnferior de la primera erase? d) organice los. datos en una' distribución de frecuencias. e) Comente acerca de_ !a forma de la distrlbucíón recomendada. 3:2. Los sigulentes clat_os Obtenidos de una muestra de hogares presentan las cantidades semanales (en dólares), que se gastan en comestibles.
$271
2.'??i 192,..
.n6 429
$363 205 181 1ioq 294
$159
f¡g) 32·1 ljJf_ 5].0
}-~
266 309 240 342
$227 ·¡99 246 474
z§J
$337
177 278 297 235
$295 162 -~--170 434
$250 303 AY_,.-- 335 188 320 325 i2f
$319 232
a) ¿Cuántas clases recom_er:idaría?_ b) ¿Qué intervalo de c!as$. sugeriría? e) ¿Qué valor sería recon1endab!e como el.límite inferior,de ta: primera clase? d} Organíc.e !os elatos en una distribución de.frecuencias. e) Comente la forma de la distribución ele frecuencias. 33. La siguíente representación de tal!o y hoja 1nuestra el número de minutos que ve televisión clil.irna una muestra de estudiantes Universitarios.
2 3
6 10 13 24 30 (7) 33 28
21 12 8 4
o
05 ·1 o 2 137 3 0029 4 499 5 00155667799 6 023468 7 1366789 8 01558 9 1122379 10 022367899 11 2457 12 4668 13 249 14 5
a) ¿Cuántos e'studiantes Se consideraron? b} ¿Cuántas.observaciones hay én leí segunda c!á.se?
.)!:J
54
Capítulo 2 e} ¿Cuáles sorr!os valores· menor· y inayor? d) Enumere los valores reales en !a.cuarta hilera. 'e) ¿Cuántos estudiantes vieron .menos de 60 minutos. de TV? f) ¿Cuántos vieron i 00 minutos o rnás de TV? g) ¿Cuál es el-valor central? h) -, ¿Cuá,ntüs _e7tlidiantes. _Vieron_· pq_r _fo_ menos 60__ m_ínutos, perO menos ele 100? ~_$_4_~__~ª-? !-9.~_1.i_t?_O~~? J~_pr~~-en_t¡:¡gi Q_Q _ (j_e:,Ja_l_IQ_ Y,,h.Qi;:i__ i!JfQrrl1.?,_ t;_!_ ..n~I)lJ3[Q. ___ctfJ: J¿e_Q_i d_ o_s,, rq_c i_bJC]_qs _pq( Q_ í.a,,_e,n, una e~presa ele_ verita por: c_orreo.
9 2 5 7 8 H 15
22 27 (11) 17 12 8
4 2
10 11 12 13 14 15 16 17
rn 19 20 21 22
23
2 235
69 2 135 ·1229 2266778 01599 00013346799 03346 4679
OH? 45 17
¿Cuántos días se estudiaron? ¿Cuántas observaciones hay en 18. cuarta clase? ¿Cuál_ es e! valor más pequeño y el más gra_nde? Enuncie los valores reales en la sexta clase. ¿Cuántos días recibió la emp.resa menos de i40 pedidos? ¿Cuántos días recibió 200 pedidos o más? ¿Alrededor de .cuántos días recibío 180 pedidos? ¿Cuál es el valor central? 35. El siguiente pÜ!ígotio de fr8Cu8ílCias muestra 1as ca!íficaciiónes de un primer examen de estadística. a) b) e) d} e) f) g) h)
a) b) e) d} 36. La
en aj b) e)
¿Cuántos estudiantes hicí_eron ef. examen? ¿Cuál es el intervalo de clase? ¿Cuál' es.e! punto medi.o.de·ciase. para !a primera de eilas? ¿Cuántos estudiantes obtuv(eron una cal.ificac!ón menor·que 70? siguiente: gráf_ic~_resuin~.-el .precio de venta de !E!s casas que se vendieron el rnes pasado e! área de Saíásota: Florida. ¿Cómo se llama la gráfica? ¿Cuántas ·casas se v_en_di_er.o_~ e! mes P8:Sé1,d.o? ¿Cuál es e! intervalo de- ctase'.?
55
Descripc;ón de los datos. Díslri/Jucio11es de frecuencias y representaciones gráficas
f
75 50 2 25 ti: 300
350
Precio de venta (miles de clólares)
d} ¿Alrededor de 75% de las casas se vendieron en menós ele qué cantidad? e) ¿Cieílto setenta y cinco· de estas casas se vendieron en menos de qué cantidad? 37. Una.cadena de tiendas de. artículos deportivos, cuya sede se localiza en Aspen, Colorado, vende productos a los esquiador_es novatos, La cadena planea real1zar un estudio de cuánto gasta ün esquiador en su compra ini_ciar d_e equipo y abastec!miento. Con base en estas cifras, quieren explorar !a po_si_bUi9a_d d_e ofr_ecer paquetes, como un par de botas y un par de esquís, para motivar a los clientes para' que--_ co,mpren más artículos. Una muestra de sus recibos ele caja registradora revefó las siguientes:· com.pras inlciafes (en dólares):
------··----$140 86 139 161 175
$ 82 125
$265
149
132 172
135 127
235
-149
$168 212 ·105 220 ·126
$ 90 171 rn2 229 121
$114 149 126 129 ·11s
$172 156 216 87 "172
$230 162 195 128 126
$142 1"18 127 ·126
a) .sugíera un intervaJó de clase: Utilice cinco cfaSes, y emplee como límite inferior de la primera, e! ·valor 80. b} ¿Cuál sería un mejor intervalo de clase? i::J Organíc8 tóS datbs eri una diStribución de -frecuericias, ·uSe el lín1ite inferior ele 80. d) Interprete sus resultados. 38. Las cantidades de accldnistas· para: un grupo selecto de compañías estadounidenses grandes (en miles de dólares) son:
---Cantidad de
Canlidad de
accionistas
accionistas Comp.añía Pan Americ_an. \,IVor!d Airways General Publlc Utilities Occidental Petroleum Middle South Utilities DaimlerChrysler Standard Oil of California Bethlehem. Steel Long lsland Lighting RCA Greyh~und_ ~drporation
Pacilic Gas & Electric Niai:Ja.ra Mohawk Power E. l. du Pont de Nemours Westi_ngllouse. Electric Union Carbide s3nkAh18rica
{en miles) 144 177 266 133 209 264 160 143 246 151 239 204
204 195 176 "175
Compciñía ----
Northeast Ufüities Standard Oi.1 (Indiana) Home Depot DetroitEdison Eastman Kodak Dow.Chemica! PenrisY-tvania PoV11er American Electric Power 011io Ec!lson Transarílerica Corporatlon Columbia Gas System lnte_rn_atlonal Tetephone & Telegraph Unían Electrlc Virginia Electr1c ·a_nd Power Public Service Electric & Gas ConsurTiers Power
(en miles) 200 173 195 220 251
·¡37 ·150 262 ·15s 162 165 223 158 162 225 161
56
Capí!Ulo 2 La cantidad de accíonistas debe organ-izarse eri ulia distribución ele frecuencias, y se deben realizar' varias gráficas para representar !a distribudón. a) Utilizando siete clases y un límite inferior de 130, elabore una distribución de frecuencias. b) Represente !a distribución en un p'olígono· d~ frecuencias. e) Haga ahora la representación en un polígono de frecuencias acumuladas. d} Con base en el polígono acumulativo, ¿t1·es de cada cuatro (75%) de las empresas tienen menos de qué cantídad de_ acd_onlstas? eJ Reali'Cé ·urf bréve:ahálfsis--sobra-·e1 ·n'Lrn;e-ro· c1e ·acc1oriístas·;--basado. eiT!a-c11stribDCíótt-de'fre:.:: cuencias y en las gráficas.. 39. Una encuesta reciente mostró que-el propietario-típico de- auto en Estados Unidos destina 2 950 dólares al a1io en gastos_ de operación. A continuací.ón se muestra Lina clasificación de !os diversos conceptos de· gastos. Trace un diagrama apropiado para presentar !os datos y resuma sus resultados en· un.breve informe.
Importe (en dólares)
Cbncepto de gastos
$ 603
Combustible fritereses- c!e! crédito autonió.trii R.eparacl_onés · Seguros y permísos Depreciación Total
279
930 646 492
$2950
40, El Mídland National Bank seleccionó una muestra de 40 cuéntas de cheques de estudiantes. Enseguida se presentan los saldos (en dólares) a fin de mes.
$404
s 74
87
234 125
$234 68 350
712
503
703 968
$149 489 440 489
$279 57
$215
$123
185
141
37
252 608
358
327
27
$ 55 758 521 425
$ 43 72 302 303
$32'1 863 127
203
a) Coloque los datos en una clístríbucíón de frecuencias usando el valor de 100 dólares como. intervalo de clase y O.como et punto de partida, b) Trace un polígono de frecuencias acumuladas. e) El banco considera como "cliente preferencial" al estudl'ante que tenga un saldo fina! igual o superior a 400 dólares en su cuenta. Estime ·e1 porcentaje de clientes preferidos. d) El- banco también está co_nsiderando un cargo por manejo de cuenta a 10% de los. cuen~ ta_habientes cuyo sardo f,ir_á_I es más bajo. ¿Qué recof!leqdaría como punto. de corte entre los que tienen que pagar un 'Cargo por servicio Y. tos· que no están en tal caso? 41, El Departamento de Transporte, del gobierno de Estados Uní dos, rastrea el porcentaje devuefos· Que· !legan dentro de !os· 15 minutos de-· su ·!legada programada por ta. aerolíhea. A- continuación se encuentra la ínfornlacíón más reciente, E!abóre una gráfica-de tallo y hOja con estós datos, Resuma su conclusión.
r1
Aerolínea
PcfrrAffi AitieriCa West Morthwest USAir Soutl1west AlaSka
Porceíltaje. a _tie¡t¡po 82.7 82.7 81.0 80.1 79.7 79.7
A8fólínea Ámer!taíl Unítecl Delta Continental Bri.tl.s._~:~dways Japan Airlines
Porcentaje a tierripo 78.1
76A 76.1 76.9 80.4 81.4
42.. Un es~údió'-íeciente sobre tecnología en el hogar sB-r~aHZó_ con üna muestra de-60 personas, Y. reporta la cantidad ele horas semanales de uso_ de yn_a}:;ot1)p~tadora ·persona! en casa. Oef estudio se excluyeron las personas que usan la computadora corno parte de su trabajo;
Descripción de los datos. Distribuciones de frecuencias y representaciones gráficas
6.3 8.8 2.7 0.4 7.7 5.2 2.1 IO.I 1:1 6.7 7.9 4.6 -----------
9.3 6.3 4.3 5.4 2.0 4.5
5.3 2.1 9.7 4.8 6.7 9.3
6.5 3.7 '1.7.
'1.3 2.2 4'3
0.6 3.3 8.5 5.6 2.6 4.5
6.6 2.7 5.5 2.4 6.4 8.5
5.2
1:1 4.2 2.4 9.3 9.2
9.3 6.7 5.1 4.7 4.9 6.0
57 4.3 6.5 5.6 '1.7 5.2 8.1
a) OrQanice los datos
e,1 una distríbüción de frecuencias. ¿Cuántas erases recomendaría? ¿Cuál debería ser la amplitud de clase? · b)' .Elabore un histograma e interprete los resultados. 43. Merril Lynch acaba de terminar uh estudio respecto al tamaño de los portafolios (acciones, bonO:s_,. fondos y cerUficados d6 dep_ósito}- de inversiones en una muestra de sus clientes cuya edad está comprendida entre 40 y 50 años. A continuacíón se indican los 1nontos de !as inversiones de los 70 participantes en el. estudio.
------669.9 301.9 136.4. 380.7 228.6 39.5 31.3 221.1 295.7
7.5 235.4 616.9 3.3 308.7 '124.3 301.2 43.4 437.0
77.2 716.4 440.6 363.2 126.7 118.1 35.7 212.3 87.8
7.5 145.3 408.2 51.9. 430.3 23.9 154.9 243.3 302.1
125.7 26.6 34A 52.2 82.0 352.8 174.3 3'15.4 268.1
516.9 187.2 296:1 107.5 227.0 156.7 100.6 5.9 899.5
219.9 315.5 185.4 82.9 321.1 276.3 236.7 1002.2
645.2 89.2 526.3 63.0 403.4 23.5 '171.9 '171.7
a). O_rganice_ los-datos. _en_ .una ·distribución de frecuencias~_ ¿Cuántas clases recomendaría?
¿Cüá! debería ser el intervalo de clase? b) Elabore un h_tstograma e. i11terprete los resu_ltados. 44. En s.u informe anual la compañía petrolera ExxonMobil reporta un total de 5 886 millones de dólares como ingresos r:iundiales. De este total (cantidades en millones de dólares), obtuvo 1 541 en Estados Unidos, 1757 en Europa, .·1219 en Asia, 439 en Canadá, y 930 en otras par, _tés,_del munclo._ E!abüre una gráfica de: barras.que pfesente e_sta información. 45. La Amed_can Heart As_sociation reporta la-síguiente dist~ibución porcentual de sus gastos. Realice una gráfica circular con esta información e interprete el d!agrama. ~-~-------·-------~
Categoría
Porcentaje
Investigación
Obtención de fondos
32.3 23.5 "12.6 12.1
C_apac;i_t~ció_n _¡)rofesi.~nal -Y_ ec_l_uc_atlv~ Aclmin_istr8.c_íón y gastos_genera!es_
'I0.9 8.6
Educatión en salud pública
Servicios a la comunidad
~-~-----·-----·----~--~
46: En su lnforme·_anua! de 1999,-._la_ corpora:Ción Schéring"."P!oughJeportó sus ingresos en mil!ones c1e tjó!ares de~deJ 995 h8.sta-i 999. Rea!iCe _una-gráfica-de. línea_s con estos datos e interpréte!a,
,--
Año
!'ngfesoS,(mil!o'nes-de dólares)
1995 1996 1997 1998 1999
1 053 1213 1444 1 756 2 1'10
58
Gapílolo.2 41. A co1ltinuación, se presentán los· ingresos anuales, por típo ere impuesto, en e! estado de Georgia ..Desarrolle L!n diagrama o :..1na gráfica adecuaclo's y redacte un documento que resuma !a información. · Tipo de impuesta
Cantidad (miles de dólares)
-------·--···-·-----------1 Ventas $2812473 lngc8sos__ (indiv1dual) . 2732.045. Permisos 185.198 .corporación 525015 Propiedad 22647 Defunción. y. donaciones 37326 Total $6314 704
48. Las importaciones anuáleS de algunos socios· comercialéS ca·nadienses se presentan en !a si-:guíente tabla._E!abore un diagrama o' una gráfica adecuados. y escriba un breve informe que resuma fa información:
Socio
importaGi.óri ·anual (nii!lOneS de dólares} .
Japón Reino Unldo Corea del Sur China Australia
$9550 4556 2441 1182 618
.·.
49. La actividad del cultivo agrícola ha cambiado desde los inicios ele ·1900. Casi al principio del siglo XX, la maquinaria reemplazó gradualmente a la fuerza animal. Por ejemplo, en 191 o las granjas en EUA utilizaban 24.2 millones de caballos y mulas, y sól.o alrededor de 1 000 tractores. En cambio, en 1960 se usaban 4.6 mi!!ones·de tractores, y solamente 3.2 miHones de caballos y mulas. En 1920 había alrededor de 6 .millones de granjas en Estados Unidos. Actua!niente hay· nlenos·de 2 milfones. A contint}<:icióh se indié:a el número de granjas, en millares, para e.acta uno de los 50 estados. Muestre estos datos en un diagrama o gráfica acle· cuados,- y -redacte 'un escrito que resllma süS resultados. ----·-·
47 4 7 14 35
8 21 52 38 86
80
87 59 185
46 63 39 33 ·13
76 100 ·106 76 7
26 65 25 71 43
4 91 55 37 36
3 29 2 51 20
39 7 3 79
45 15 8 24 9
50. Uno de los cara.ine!os-·más-populares·en Estados Unidos son !as lunetas M&.M,. producidos_ por la Compañía M·ars. Duranfe muchos 8.ñós los caramelos M&M se producían en ·seis colores: rojo, verde, anaranjado, café, marrón y amarillo. Recientemente, el café fue reemplazado por el azu!>¿Alguna vez se preguntó cuántos caramelos había en cada-bolsa?, o ¿cuántos hay de cada Color? ¿Hay casi- el-1n!Srn6- número ·cte:cadá éolor, o hay ·más d~ a!gunos colores qlle de otros? Se presenta ahorajnfor111.acíón· relacionada con una bolsa d8' una libra de caramelos M&M. En-totat·contenía.544 caramelos,' ele !os cua!es i35 8ra'n de color marrón,·:156 amari!!os, i'28 rojos, 22 Verde·s; 50 azlites; i.53 de color naranja. Trace un gráfico para esta información y redacte un r_esumen de la mísma. 51. La siguiente gráfica compara los precios medios ele venta (en dólares) del auto Taurus, ele Ford, y el Camry, de Toyota, ele 1993 a 2000. Escriba un reporte breve que resuma la información de ta gráfica. Asegúrese ele incluír el precio de venta de ambos automóvHes, el cambio en· el pre:.. cio de venta: y e! sentido de la vciri8.clóh en e! periodo de ocho años.
Descripción de !os datos. Díslríb11ciones de ;'recuencías y represenlacim1es gráficas
59
Ailo
ejercicios.corn 52. E.h·el sitio de la Red http://www.pickuptruck.com se indican la~ ventas mensuales, de un año a la fecha;··de camionetas de carg·a; Visite·ese.-sitio y-e·ntre·a"[a ·opción Featuresl haga clic en NeWs para obtener la información más reciente;- Realice un diagrama circular o de barras que muestré esta- información más- rec!enté; ¿Cuál· es la-c_amion8ta de carga más vendida? ¿Cuál e·s sli partfclp.áC:ión-en el mercado? _Puede agrup·ar variaS-de es_tas·camionetas_ de carga en_ una categoría· a ta quH llame "Otras" para·tener.url'mejór esquema.de la participación en el mercado. Haga un co1nentario sobre loS resultados·-_que óbteliga. 53. Vaya a uno dé los sitios para empleos, por ejemplo, http://jobsearch.rnonster.com. Pulse en la opción Jobs y elija una región geográfica y Un ·área de eSp€cialización de su interés .. Por ejemplo, como región geográfica se puede escoger Orlando, Florída, y como área. de interés, Bancos. Elabbnf ·una· representación de· tallo y hoja' -con -!os sa!'arios que se ofrecen para los d1stiíltos trabajos. A fin de hacer una con1paración válida convierta todos los Salarios a salarios ánuales (con·si_dS_re 40. horas de trabajo a la serriana_ y 50 semanas al año.) Si en algún caso se da un intervalo (ílUmérfco) cte·satario·s,: Use el c8ntro_del'mísmo. Después escriba un brf?V_e resumen indicando cuál es el- sa!ario típico_ y la forma_ de· la distribución.
Ejercicios condatos.parac:omputadora 54. Consulte el conjunto de datos de bienes raíces (Real State)i que reporta la información sobre éasas que se:v8ridieron·eti. e!. área dEf·Veh1cé, Florida, -durante ef año pasado. a) Seleccione un in.terva.ro de clase·adecuado·y orgarifce lós precios de venta en una distribución de frecuencias. i. ¿Alrededor de qué valores tienden ~.agruparse los datos? 2•. ¿Cuál es el.mayor precio:de.v_enta? ¿Cuáf es· el menor? b) E!ábore una distribución de frecuencias acumi.l!a:clas con base en !a distribución de frecue.nC-f_a.s del: i~_ci~()_ ..~).: 1. ¿Cuántas cas·as s6.VEi'íl'dierdh-eíi. tTI8íl_oi'/dé 2db 000 dólares-? 2. Calcule el porcentaje de inmuebles que se vendieron en más. de 220 000 dólares. 3'. __¿00~·_. porc~_nt_~j_e. cte. 9asas_:se.:_v8ndi_~ron en. ·m_ehos de i 25 000 d.ólares? e) Espritia un informe resumiendo los precios de. venta .de 1.os inmuebles. 55. Consulte el conjunto de dal?s d.e béisbol(Bas.eba/12000) que informa acerca de los 30 equipos .de Liga Mayor (en EUA) para la temporada2000. a) ()_rga~ict:?_la·inf
60
Capítulo 2 1. ¿Cuál es un tamaño típico para un estadio? ¿Dónde comienzan a agruparse el tamaño de !os estadios?
2. Exprese comentarios sob.re la fo_rrna de la distribución. ¿Algunos de los tamaños ele !os estadios parecen sa!írse del intervalo· de: tamaílos ele !os otros estadios? d) Organice en una distribución de frecuenCías la información relatíva a !os años en !os que se construYeroil fas 30 ·estadios de la liga· mayor. (fambién puede crear_ una nueva variable .............................•....................... llamada.TIEMPO DE .EDIFICACIÓN, restando. el año eneLque.se construyó eLestadio. del .. año actuaL) i. ¿Cuál.es el año típico de construcción ele ~In-estadio? ¿Dónde tienden Et-acumularse
estos años? 2. ¿Qué se puede decir acerca de la forma de la distribución? ¿Algl1n6 d8 fas tiempos de edificación de· !os estadios parecen sa!lrs·e del interyato ele. edades de los otros estadiOs?_ SL es así, ¿cuál es? 56. Cónsulte los datos de OECD, que dan información acerca de los censos, dé aspectos etorióc
micos.y. comerciales_ de· 29 país.es. Elabore. una-.representación de tallo y hoj_él. ~_on_. l;9S:Y_~l_o_res de. la variable que da los porcentajes de fuerza laboral.c.on mayores de 65 anos. ¿Hay algún dat.o .que. se aparte mucho. de.los demás? Efectúe una descripción breve de los datos. 57. Consulte etconjunt~ de datos de las escuelas (Schools), que presenta información de 94 dis-
tritos escolares en .el-noroeste de·.Ohío. Organice los sueldos promed!o de !os profesores en uná representa,cióil de tallo y hoja. a) ¿Quál es .el sueldo. más alto ent.re los 94 distritos? b) ¿Cuál es un sueldo típico? c) ¿En cuántos distritos escolares hay .sueldos promedio de 30 000 dólares o más? d) Escriba un informe breve que resuma los resultados.
9?~~~~~-~ B~I~~º-~l?~t'!~º~~~-~ ~.
i. Los comandos de Mega$tat para la distribución de frecuencias de la página 27 son: a} Abra Excel, y del disco compacto, distribuido con el libro, seleccione Go to !he Data Sets, y elijael formato para Exc.el; yaya al capítulo 2 y seleccione Tbl2. 1. Pulse en MegaStat, Frequency Distributlon, .ouantitative, Y. desp_ués oprima Enter. b) En el. cuadro de. diálogo, introdu~ca eUntervalo A 1:AB, seleccione Equal width intervals, use 3 000 como extensión del intervf\lo,y 12 000 como el.límite inferior del primer intervalo. Seleccione Hístogram y pulse. en OK
2. Los éomahdos de MINITAB pára la representación de fallo y hoj~ .de la página 32 son; aj Importe los datos del disco compacto. EL nombre. del archivo es Tbl2-6. Use. el formato MINITAB, b) Seleccione Slat, EDA, Stem"anci'Leaf, y después oprimaEnter. e) Seleccione la variable Spots, introduzca 1 O como lncrement, y después pulse en OK, 3. Los comandos de Excel para.el histograma de la págirla 37.son: a) En la celda A1 indique.qlle la columna de datos es la de los precios de venta, y en 81, que
es-la.de·.suS fr8cüencfas: En tas co!umnas-A2 a-"AS'.ínserté los puntos medios· de l_os precios de venta en miles de dólares. En las celdas 82 a 88 registre !as frecuencias ele c!ase-.
!Jescripción de los dalos. Distitlwciones de frecuencias y represe11tacíones gráficas
61
b) Con la flecha del ratón colocada en AJ, pulse y árrastre para resaltar las celdas A 1:BB. e) De !a barra de herrartiientas seleccione Asistente para gráficas. Bajo Tipo de gráfico seléccione Columnas,--Y bajo Subtipo-de gráfico sé!eccione-!a:s barras. verticalés en la esquina Superior izqüie:tda. Finalmente pulse-Siguiente Eiri la esquina· inferior derecha. d} De lá parte superior se!eccione la pestaña .Serie. Eri: la ve_ntanilla de Serle, PreciQ aparece resaltado_. Seleccioné-Quitar (rlo _se quiere que Precío- sea_ parte d_e los_ valores.) En la par:te inferior, e_n caja de Rótulos de! eje de_ categorías {X}, putse sobre e! icono en e! extremo derecho. Coloque el cursor sobre la celda A2, pulse y arrastre hasta la celda AB. Alreciedor de 1.as celdas A2 a A8 habrá unaHrea punteada parpadeante. Oprima Enter. Es_toJclenUfica a Ja columna de prec_ios- como etíquetas pa_ra_ei eje X.. Pu_!se __ Siguiente. e) En la parte superior de la caja de diálogo pulse en Títulos. Luego en la casilla Título de! gráfico, y escriba Precio de venta de 80 vehículos vendidos en Whitner Póntiac. Vaya ahora a la casil.la Eje de categorías {X) y escriba Preeio de venta en (miles de dólares.) Ahora vaya a la casilla- Eje de categorías M e introduzca Frecuencia. Pase a !a parte superior a la- pestaña_ Leyerida, y quite la palomita que aparece en Mostrar !eyeiida, Luego pulse Terminar~
f)
4. Los a) b} e)
Para ampliar el diagrama pulse sobre el tirador en el punto medio de la.línea superior y 1i_re hácla arriba.-_Ase'gur'ándoS_e de que !os tiradores aparecen en la gráHca, eón e! botón ele-_ rec_ho_del réltón pu_!se_sObre una de las-barras. Seleccione Formato de serie-de datos. En !a-parte .su_p:eríor erija !a pesta.ña_.Opci,ones. _EQ Ancho_tj(3 interv<3lO_ pu!s_e_.sobre !a ·flecha;_ inferiorhasta, que se lea cero, y pulse en OK comand~sde Excel para el diagrama circular de la página 48 son: Establezca conio .celda ~ctiv.a, 1.a AJ, y escriba Participacíón en el mercado. En las c.eldas A2 aA6introduzcaias principales cadenas: CBS, ABC, NBS, Fox y Otras. Fije como celda activa, la s·r, y escriba la palabra Porcentaje. En .las celdas 82 a86 intro-. .duzca los números 24, 22, 26, 17 y 11. En !a.B._ai'.ra:..d_e hei:ra_mierrta·s sele_cclone Asistente para gráficos. Marque_ Ci_rcular: como, tipo de- gráfica:, -Seleccione tal dlagran1a en la esquina superior !zqu!erda y pulse en Si~ glli~nt.,,.
d) Eh inter'valo d6 datos escriba A f:B6; indique que !os datos_ eStán en á6!umna, Y- flnalmen-te pulse en Siguiente. e) Pulse en_ Título de. fa gráfica y-escriba Pf:J-dfc;pación de tas pdncfpafes cadenás en fas ho.:. ras p;co_ de televidentes. Después marque· Finalizar.
62
Capí!ulo 2
$"1400 nasta$15QQ t500 hasta f6oo
"1600 hasta l-700
! foo hasfa 1 SOIJ e) d)
lrripü1;taciones (millones de dólares)
encuentra en 600 (dólares). La co' misión más.pequefíaestá alrededorde$1400 yla•másgranclee~ casi de $1·800. 2.2 a) 26 "°64 ~ 128~ 27. Por tanto serecornierF dan Te/ases~ . b) La exte.nsión. del intenialo. deberá ser j'íor 16. menos (550 ~ 340)!7 " _Por lanfo piéi
<7º
s.o.
-s~ría
e)
sp
un_a am_ptítud-_de_-_int_~rva!?:tazoriab_/~',
Cla~~s:3~5 ~ 360 pie~, 360 a 3_~5 pie~, 395 a
8
430 pies, 430 a 465 pies, 465a 50.0_píés, 50() a 535 pies y 535 a 570 pies. ·
a}
b}
'
e}
2.4
23
.
.
8 0013488
;~ H1~689J a} 15)
8 10.1.• 102,
e}
9.5
d)
T.(, if6
. 14
17
.
28,75%,obtenido ?e(2318Q)>< 100 7.5%, obtenido de (6/80)x 'IQO
7 7
. 1.1
Importaciones (millones de dólares)
· ·• • -<'F ~lvolur!le.nmás pequeño de venta$ anuales de iryiporta~i?n~.~-- por _un prove~dor,, es_tá __ ake?·e. dor de 2 millones de dólares; el más alto es cae :sl_:: _~-e __:í T\-:_-r'nillpn~_s .. La _i:;o,n_ce~traci_ón _ se encuentra ~ntreS míllones y 11 millones de dó" t~re_~;_'.--.
- _-_ '_;·: _-_ :-·~:--.:': :_:-
Uría:distribución· d6'frecuerléic1s ·$1.ie_Ii:fó~·-Prif fiP.i~- -
-~~r1R~_,dr{$p~:d_ó_l,StfBs:Menosde$8. IVl~pos de $10 Menosde$12 1V1enos•de•.$N
Gif_ra-ácitinulada o 3 10 14 .15
Descripción de los datos. Distribuciones de frecuencias y representaciones gráficas
63
escnpcion
.• ····]).··.· . ·.·•.•.·.·.··.···· \··.··.·.·.······. ·.·•.· .• .•·.•.· · · ·•.•·.·•.··.•··•••• •.·.···•·•·.•••·.•·•.•.
··<.·. · . ·.· • ..w 7....................
OBJETIVOS Al terminar este capítulo podrá: UNO
Calcular la media aritmética, la media ponderada, la mediana, la moda y la media geométrica. 1
DOS Explicar !as características, uso, ventajas y.desventajas de.cada médida de tendencia central. TRES
Identificar la posición de la media ·arftniétiCa1- la riledian·a _:;(lá m_oda·, tanto en distríbu.ciones simétricas como asimétricas (o sesgadas)
Descripción !le los dalos, Medidas rie lemJe¡¡cia central
65
Introducción
La estadística e11 acció11
En e! capítulo 2 se inició el estudio de la estadística descriptiva. A fin de presentar un conjunto de datos a granel, o no agrupados, en un ·formato co111prensible, se les organizó en una distribución de frecuencias, y se les representó gráficamente con un histograma o un polígono ele frecuencias. Ta111bién se describieron otros recursos para presentar datos, como !as representaciones de tallo y hoja, las gráficas de línea, las gráficas de barras y las gráficas (de sectores) circulares, En este capítulo se continuará con el desarrollo de métodos para describir un conjunto de datos, mediante un L1nico valor. A dicho valor se le denomina medida de tendencia centra!. Medida de tendencia central Es un valorünicb que resume un conjunto de 1 datos. Señala el centro de los valores. ' '--~~~~~~~~~~~~~~~~~~~~~~~~____] El concepto de promedio le es familiar a todos, En el mundo de los deportes prolifera este concepto. Durante la temporada del año 2000 de la Liga Nacional de Futbol Americano (en EUA), Tony Holt, del equipo Rams, de St Louis, corrió en promedio 19,9 yardas por recepción, Alan !versan, de los 76ers de Filadelfia, estuvo a la cabeza de la NBA en puntuación, con un promedio de 31.4 puntos por juego, Otros promedios incluyen los siguientes ejemplos: '
' ' cste:'vúfórf ~'¡:Jro 1h-edfr(·
ingi'e'tc_:-4.1tbras de\[)apas fríb"is, ve 2--567 hoül.~.' dü" !:_CkiVJs·i_óú,
r_ecÜ;~ 598 \~l'e~;1s- ~j-~ Correo y c01ne 2frli:.: bras de plátanos al aiío. 'Ih1nbién ductn1e 7.7 horns por noche.
'
En Los Ángeles el costo promedio ele viajar una milla en auto es 55.8 centavos (ele dólar), en Boston es de 49,8 centavos, y en Filadelfia, de 49.0 centavos, Esto incluye el importe del seguro, la depreciación, los permisos, el combustible, el aceite, las llantas y el mantenimiento general del automóviL Cada persona recibe un promedio ele 598 piezas de correo al año. La Corporación Hertz reporta que el promedio anual en gastos de mantenimiento de un automóvil nuevo es $269 (dólares), y $565 para un auto con más de un año de uso, Las casas en EUA cambian ele dueño cada 11,8 años en promedio, Los cambios más rápidos se presentan en Arizona, donde el promedio en el estado es 6.2 años. En otros estados los promedios son: en Nevada, 6.5 años; en Carolina del Norte, 7.4 años; en Utah, 8.4 años, y en Tennessee, 8.8 años.
f\lo existe solamente ur.a medida de tendencia central, sino varias. Aquí se considerarán cinco: la media aritmética, la 111edia ponderada, la mediana, la moda y la media geométrica. El análisis comienza con la medlda de tendencia central que se utiliza y reporta con mayor frecuencia, la llamada media aritmética, o simplemente, media,
¿Renhncnl·c se trata
de un ho1nbre "pron1edio", o sería n1ejor
referirse a ({corno un ho111brc "tipíco"? ¿Es-
pcrarfo encontrar a u11 hon1bre con todas esb1s características?
!vledia noblacional '
~"~==-~~~-
Muchos estudios utilizan todos los valores de una población. Si se reporta que la calificación promedio en el examen ele admisión de todos los estudiantes que ingresaron a la Universidad de Toledo, en otofio de 2000, es 19,6; éste es un ejemplo de una media de población porque se tienen las puntuaciones de todos los estudiantes que ingresaron en esa época. Otro caso, hay 12 asociados ele ventas trabajando en la sucursal Reynolds Road ele la empresa New York Carpet World. La comisión media que obtuvieron el mes pasado fue ele $1 345 (dólares), Esto se considera un valor poblacional porque incluye a todos los vendedores, Otros ejemplos de una media poblacional son: el precio medio de cierre de las acciones de Johnson & Johnson en los últimos cinco días es $98,75; la tasa media anual de ganancias ele los Fondos Berger, en los últimos i O afias, es 8.67%; y el número medio de horas extra ti-abajadas la semana pasada por los 6 soldadores del departamento de soldadum de la empresa Struthers Wells Corp, fue ele 6.45 horas. La media poblacional de datos sin procesar, datos que no han sido agrupados en una distribución de frecuencias o en una representación de tallo y hoja, es la suma de todos los va-
66
Gapílolo 3 lores de la población, dividida entre el nümero total de dichos datos. Para calcular la media de una población se utiliza la siguiente fórmula: Media poblacional
~
Suma de todos los valores de la población Nümero de valores en la población
En vez de expresar con palabras las instrucciones completas para calcular la media poblacional (o cualquier otra medida), es más conveniente utilizar los símbolos matemáticos. La media aritmética de una población, usando símbolos matemáticos, es:
EX
MEDIA POBLACiONfi,L donde: I"
N X
Z l:X
[3.1J
/L . = . -.- . N
representa la media de la población. Es la letra griega "mu" minúscula. es el número total de elementos en la población. representa cualquier valor en particular. es la letra griega "sigma" mayúscula, indica la operación de sumar. simboliza la suma de todos los valores X.
Cualquier característica medible de una población se denomina parámetro. La media de una población es un parámetro.
Parámetro ..Es, la característica de una población,
EJEMPLO
Hay 12 empresas fabricantes de autos en Estados Unidos. A continuación se presenta el número de patentes otorgadas el año pasado por el gobierno de EUA a cada negociación. Empresa
Número de patentes otorgadas
Empresa
Número de patentes otorgadas
51·1 385 275 257 249 234
Mazda Chrysler Porsche Mitsubishi Volvo BMW
210 97 50 36 23 13
General Motors Nissan DaimlerChrysler
Toyota Honda Ford
¿Esta información es una 111uestra o una población? ¿Cuál es el número medio de patentes otorgadas?
SOLUCIÓN
Esta es una población, porque se consideran todas las compañías automovilísticas que obtuvieron patentes. Se suma el númem de patentes de cada una de las 12 empresas. La cantidad total de patentes de las 12 compañías es 2 340. Para evaluar la media aritmética, se divide ese total entre 12. Por tanto, la media es 195, que se obtiene de 2 340/'12. Utilizando la fórmula (3.1):
p,
~
5·11 + 385 + ... + 13 ... 12
= 2340=195 12
¿Cómo se interpreta el valor 195? El número típico de patentes recibido prn· una empresa es -195, Puesto que se considera a todas las compatiías que recibieron patentes, este valor es un parámetro poblacional.
llesoripción de los datos. Me¡Jidas rie tendencia central
67
IVl:edia inuestral Según se explicó en el capítulo 1, con frecuencia se selecciona una muestra de la población, con objeto de evaluar algo acerca de una característica específica de tal población. Por ejemplo, un departamento de control de calidad necesita tener la seguridad de que el diámetro exterior de los cojinetes de bolas que se están produciendo, es aceptable. Resultaría muy costoso y tardado verificar al dián1etro exterior de todos los cojinetes que se producen. Por tanto, podría seleccionarse una n1uestra de cinco cojinetes y calcular el diámetro exterior promedio de los mismos para estimar el diámetro ele todos los cojinetes que se producen. Para datos a granel, es decir, elatos no agrupados, /a media es /a suma de tocios /os valores, di\ficlida entre et n{!mero total de los mismos. Para encontrar !a media de una rnuestra se tiene:
Media de elatos muestrales no agrupados.
Media muestra!
~
Suma de tocios los valores de la muestra NL1mero de todos los valores en la muestra
La medía de una muestra y la media ele una población se calculan de la misma manera, pero la simbología utilizada es diferente. La fórmula para la media de una muestra es: ~··. :v< x,,,,-
l\!IEDiA MUESTRA!..
n
donde X simboliza la media muestra!. Se lee "X con barra". La letra n designa al número total de valores en la muestra. La media ele una muestra, o cualquier otra medida basada en elatos muestrales, se denomina dato estadístico. Si el diámetro medio exterior de una muestra de cojinetes es 0.625 pulgadas, este valor es un dato estadístico. Dato estadístico Una característica de una muestra.
IEJIEMPIJIJ
La empresa Merrill Lynch Global Fund se especializa en obligaciones a largo plazo de países extranjeros. Interesa saber la tasa de interés de estas obligaciones. Una muestra aleatoria de seis bonos reveló lo siguiente:
Artículo
Tasa de interés
Bonos del gobierno de Australia Bonos de! gobierno de Bélgica Bonos del gob!erno de Canadá Bonos clel gobierno ele Francia (B-Tan) Bonos del gobierno ele Italia (Buoni Poliennali de Tesara) Bonos del gobierno de España (Bonos del Estado)
9.50% 7.25 6.50 4.75 12.00 8.30
¿Cuál es la media de las tasas ele interés en esta muestra de obligaciones a largo plazo?
SOLUCIÓN
Utilizando la fórmula (3.2), la media muestra! es:
Media muestra!
~
Suma de todos los valores de la muestra --------------------Nt'.imero de todos los va!ores en la muestra
68 X~ LX ~ 9.50% + 7.25% + ... + 8.30% ~ 48. 3% ~
n
6
6
. % 8 05
La tasa de interés media (aritmética} en la muestra ele obligaciones a largo plazo es 8.05%.
Propiedades de la inedia aritmética La n1edia aritmética es una medida de tendencia central que se utiliza arnpliarnente. Tiene varias propiedades importantes:
1. Todo conjunto de datos ele nivel ele intervalo tiene un valor medio. (Recuerde del capitu-
2.
3.
4.
5.
lo 1 que los datos de nivel de intervalo comprenden elatos de edades, ingresos y pesos, siendo constante la distancia entre los números.) Para evaluar !a media se consideran todos los valores. Un conjunto de elatos sólo tiene una media, la cual es un valor C1nico. (Más adelante en este capítulo se describirá un promedio que puede aparecer dos veces, o más, en un conjunto de elatos.} La media es una medida muy útil para comparar dos o más poblaciones. Por ejemplo, puede emplearse para corrparar el trabajo en la producción ele los operarios del primer turno ele una planta donde se fabrican transmisiones Chrysler, con la labor de los operarios del segundo turno. La media aritmética es la única medida de tendencia central donde la suma de las desviaciones de cada valor, respecto de la media, siempre es igual a cero. Expresado en forma simbólica:
:S(X Como ejemplo, la media de 3, 8
:S(X -
X)
X)= o
y 4 es 5. Entonces:
~ (3 - 5)
+ (8
- 5)
+
(4 - 5)
= -2 + 3 -1 ~o
La media como un punto de equilibrio.
De modo que la media puede considerarse como un punto de equilibrio de un conjunto de datos. A fin de ilustrar esto, supóngase que se tiene una barra rectangular y larga, marcada con los nú111eros í, 2, 3, ... , n, espaciados uniforn1emente sobre la barra; se colocan tres lingotes de oro de igual peso sobre la barra en los números 3, 4 y 8, y el punto de equilibrio queda fijado en 5, que es la media de los tres n(1111eros. Entonces se ve que la barra está perfectamente horizontal. Las desviaciones hacia abajo de la media (-3) son iguales a las desviaciones hacia arriba de la misma (+3}. En forma esquemática:
69 Media indebidamente afectada en forma notable por valores muy grandes o muy pequeños.
No se puede determinar la rneclia para datos con un extremo abierto.
r
!
Sin en1bargo, la media tiene varias desventajas. ~lecuérdese que para su cálculo se utiliza el valor de cada elernento de una muestra, o ele una población. Si uno o dos de estos valores es muy grande o muy pequeño, la n1eclia podría no ser un pron1edio adecuado para rep1·esentar los datos. Por ejen1plo, supóngase que los ingresos anuales (en dólares) de un pequeño grupo de corredores de acciones en IVlerrill Lynch son 62 900, 5·1 600. 62 500, 60 800 y '1.2 millones. El ingreso medio es 289 560 dóla1·es, pero resulta obvio que no es representativo de este grupo porque todos, excepto un corredoí, tienen un ingreso en el intervalo de 60 000 a 63 000 dólares. Un ingreso especial (el de ·1.2 millones de dólares) está afectando indebidamente a la media. La 111edia también es inadecuada si hay una e/ase efe extremos abiertos en e! caso de datos agrupados en una distribución de ·frecuencias. Si una distribución tiene una clase de extremo abierto de "100 000 dólares y más", y si hay 1O personas en esa clase. en realidad no se sabe si sus ingresos se aproximan a 100 000, 500 000 o 16 millones de dólares. Como no se tiene in-formación acerca de sus ingresos, no es posible determinar la media aritmética del ingreso para esta distribución de extremo abierto.
fmlti;~~~~-~~l ~u--"-~·- ~~~~:sn~:::~;:~ad~:i~g~~,~~s~::~~e;g; ~~ ~~~~~;~~eya~~ss~~ gerencia de nivel a)
i! 1
¡¡ ¡!
l 1 ~ ¡[
Exprese la 'fórrnula para ia media muestra!.
b) Obtenga la 111edia de ta n1uestra.
¡i
¿La media que obtuvo en b) es un dato estadístico o un parámet1·0? ¿Explique por qué? d) ¿Cuál es su mejor estlmación de la media poblacional? 2. Los estudiantes de un curso de Ciencia de la Computación se consideran como una pablación. Sus calificaciones en el curso son 92, 9~, 61, 86, 79 y 84. a) Indique la fórmula para calcular la media poblacional. b) Determine la calificación media de! curso. e) ¿La rnedia que obtuvo en b) es un valor estadístico o un parámetro? ¿Por qué? e)
L~~~=~~=--~-~--~--~-~~~~~~~~~~~~~~~~~~-~--·-------·--~~--~-~,=-~~,------------------1r~·;
O
G
O
"' J
_}J_Jj ~- ""-'-"-'«~-"- V0i
--~~n~·~~J~,~~
Las respuestas a los ejercicios impares se encuentran al final del libro. í. Evalúe la media de Ja siguiente población de valo1·es: 6, 3, 5, 7, 6.
2. Calcule la media de la población de valores: 7, 5, 7, 3, 7, 4. 3. a) Oetern1ine la media de los siguientes valores muestrales: 5, 9, 4, i O. b) Demuestre que l: (X - X) = O. 4. a) Calcule la media de los siguientes valores rnuestrales: 1.3; 7.0; 3.6; 4.i; 5.0. b) Demuestre que i: (X - X) = O. 5. Qq.lcule la media de los siguientes valores muestrales: ·16.25, i2.91, i4.58. "{( C-b-8term!ne el salario medio por hora pagado a carpinteros que obtuvieron los siguientes ingresos (en dólares): $15.40, $20.10, $18.75, $22.76, $30.67, $'18.00. En los ejercicios 7 a 1O: a) ce.lcuíe !a media aritn1ética, y b) indique si es un dato estadístico muestra! o un pará111etro pob!acional. 7. Se tíenen 1 O vendedores empleados en !a agencia Midtown Ford. Las cantidades de autos nuevos vendidos e! mes Jasado porcada vendedor-fueron: 15, 23, 4, 19, iS, iO, íO, 8, 28, i9. 8. El departamento ele contabilidad de una co111pai'Ha de pedidos por correo, contó el nCirnero de llamadas que entraron por día al teléfono de uso sin carqo de la empresa, durante los pri111eros siete clías de mayo de 200-1: 14. 24, 19. 31, 36, 26, 17. 9. La e111presa de servicio eléctrico Carnbridge Power and Light Co111pa11y seleccionó 20 clientes residenciales al azar. Los siguientes son los irnportes (en dólares, redondeados a unidades), que se cargaron a los clíentes por el servicio eléctrico en el últi1110 111es:
54
48
58
50
6"1
68
39
35
25 56
47
75
46
66
33
62
60 65
70 67
70 10. El director de personal en el Hospital Merey inició un estudio acerca de las horas de tiempo extra de las enfermeras. Se seleccionaron al aza1· 15 de ellas, y durante el mes de junio se anotaron las siguientes horas extra laboradas:
11~
12 12
B 7
15 ·10
7
·15
5
9
13
12
IVledia oonderada ~~~~~~~~~~La media ponderada es un caso especial de la media común (o media aritmética.) Se presenta cuando hay varías observaclcnes con un mismo valor, lo cual puede ocurrir si !os datos se han agrupado en una distribución de frecuencias. Para explicar esto, supóngase que en un restaurante se venden refrescos medianos, grandes y extragrandes, y que sus precios (en dólares) son los siguientes: 0.90, 1.25 y 1.50 respectivamente. De los C1ltimos 1O refrescos que se vendieron 3 eran medianos, 4 grandes y 3 extragrandes. Para calcular el precio promedio de los últimos diez refrescos vendidos se puede utilizar la fórmula (3.2): X~
$0.90 + $0.90 + $0.90 + $1.25 + $1.25 + $1.25 + $1.25 + $1.50 + $1.50 + $1.50 10
~ $12.20 ~ $1 ?2 10
·-
El precio medio de venta de los últimos diez refrescos es $1.22. Una manera más fácil de encontrar el precio medio de venta es determinar !a medía ponderada. Esto quiere decir que cada observación se multiplica por el númE)fO de veces que se presenta. A la media ponderada se la representa con el símbolo como Xw y se lee "X barra subíndice w".
xw =
3($0.90)
+ 4($1.25) + 3($1.50) ·10
$12.20
$1.22
10
En general, la media ponderada de un conjunto de nl1meros designados por X1 , X2 , X3 , .•. , Xn, con las ponderaciones (o "pesos") correspondientes 1N1 , w2 , w3 , ••• , wn, se calcula con10 sigue:
'-
--~-ilE_D_l_A_P_O_N_D_ER_A_D_A
_+_w_,_x_,_+_·_··_+_•_w_,,x_,,-'-~--[-3,,;·1 -+
___x_._,,_=_w_,_x.;..1W1 _+_w.+·w2 ;_,x_·_,· +
\i(r3_+ ...
Wn
~
Esto puede escribirse en foíllla resumida como:
·;; _ I(wX) Aw -
~".[w
La constructora Carter Construction Co. paga a sus empleados 6.50, 7.50, o bien 8.50 dólares por hora. Hay 26 empleados contratados por hora; ·14 reciben la tarifa ele $6.50, 1Oreciben la de $7.50, y 2 la de $8.50. ¿Cuál es la media de la tarifa por hora que sepaga a los 26 trabajadores?
SOLUCIÓN
Para encontrar la media de las tari"fas por hora, se multipllca cada una por el nú111ero de empleados que ganan ese importe. Utilizando la fórmula (3.3), la tarifa media por hora es 14($6.50)
+ 10($7.50) + 2($8.50) ~ $183"º-°- ~ $7.038 14 + 10 + 2 26
La media ponderada ele los sueldos por hora es (con redondeo): $7.04.
7]
La tienda Springers vendió 9E trajes Antonelli para caballero al precio norrnal c!e $400 (dólares). En la venta de primavera los trajes se rebajaron a $200 y se vendieron "126. En la venta de iiquidación e! precio se redujo a $100 y se vendieron !os 79 trajes restantes. a) ¿Cuál fue el precio medio ponderado de un traje Antone!li? .b) El establecin1iento pagó $200 por cada uno de los 300 trajes. Co111ente acerca de la ganancia. que. aportan estas prendas si- un vendedor recibe -una comis_ión ele $25 por cada traje vendido.
'11"
"
o
i~]ercICliOS
i ·~, En junio una inversionista con1pró 300 acciones de Ora ele a un precio de $20 (dólares) por acción; en agosto con1pró 400 acciones rnás a $25 cada una, y en novie111bre, 400 a $23 por acción, ¿Cuál es el precio n1edio ponderado por acción? 12. Una librería especializadc. se dedica principai111ente a ia venta de libros usados. Los libros de pasta suave (o encuadernación rl1stica) cuestan i .00 dólar cada uno, y los de pasta dura, 3.50 dólares. De 50 libros que se vendieron el pasado martes por la mañana, 40 fueron de pasta suave, y el resto de pasta dura. ¿Cuál ·fue ei precio n1edio ponderado de un !ibro? -~ 3. El ~/letropolitan Hospital emplea 200 personas en su cuerpo ele e1Tfermeras. De ese personal, 50 son ayudantes de enfermería, 50 son enferme:·as prácticas y 100 son enfermeras generales. Las primeras reciben un sue!do de $8 (dólares) por hora; las segundas, ganan $í O por hora, y las últirnas, $14 por ho1·a. ¿Cuál es el valor medio ponderado del sueido por l1ora? i4. El bufete jurídico Andrews y Asociados se especializa en derecho corporativo. Cobra $í00 (dólares) por hora por la investigación de un caso, $75 por hora por una asesoría y $200 por ho1·a por !a redacción de un informe. La semana pasada uno de \os socios dedicó 1O horas para asesorar a un cliente, í O horas a la investigación del caso y 20 horas a !a elaboración del informe. ¿Cuál fue el valor medio ponderado de los servicios legales por hora?
Mediana Ya se señaló que para datos que contienen uno o dos valores n1uy grandes o muy pequeños, la 111edia aritmética puede no ser representat!va. El punto centrai de tales datos puede describirse mejor utilizando una medida de tendencía central denominada medliaH1a. Para ilustrar la necesidad de una n1edida de esa naturaleza, que no sea !a media aritmética, suponga que intenta adquirir un conclominio en Palm Aire. Su agente ele bienes raíces le indicó que el precio prJmedio de las unidades disponibles en este momento es de $11 O 000 (dóiares). ¿De todas ·fo1·mas querría usted considerar lo anterior? Si tuviera un presupuesto n1áxi1110 entre $60 000 y $75 000, podría pensar que está ·fuera de sus posibilidades. Sin ernbargo, al veri'ficar !os precios lndividuales de !os condon1inios podría cambiar de
idea. Los precios son $60 000, $65 000, $70 000, $80 000,
y un penthouse muy lujoso cues-
ta $275 000. La medía aritn1ética del precio es $11 O 000 según indicó el agente de bíenes raíces, pero un valor ($275 OGO) está haciendo que fa media afítmética se incline hacia arriba, por io que es un pror11edio no representativo. Parecería que un precio entre $65 000 y $75 000 es un pron1edlo más típico o representativo, y de hecho !o es. En casos como éste, la n-1ediana proporciona una medida de tendencia central más exacta.
72
l\iediana Es.·e!·valor que- corresponde al punto m8dio d8' los valores cleSpués de ·ordenarlos de menor a mayor, o de mayor a menor. Cincuenta por ciento de las o.bservaclones son mayores· que !a ílle'dian8, y 50% son rnenores tjue ella. La mediana del precio de ls.s unidades disponibles es $70 000 (dólares). Para determinar esto, los precios se ordenaron de menor ($60 000) a mayor ($275 000), y se seleccionó el valor intermedio ($70 000). Precios o.n]enados de rn!ernJr a rnayor
on.::!enados de rnayor a merior
JJ~·ecios
$ 60 000
65 000 70 000 80 000 275 000
La mediana no es afecta~ da por valores ext1·emos.
$275 000 80 000 4----
fvlecliana----7
70 000 65 000 60 000
Observe que existe el mismo i1ún1ero de precios por abajo de ia mediana de $70 000, que por arriba. Por tanto, la mediana no es afectada por observaciones extremadan1ente bajas o muy altas. Si el precio más elevado hubiera sido $90 000, o bien $300 000, o hasta de 1 millón de dólares, la mediana de :os precios seguiría siendo $70 000. De manera sernejante, si el precio más bajo l1ubiera sido $20 000 o bien $50 000, la mediana seguiría siendo $70 000. En e! ejemplo anterior hay un número impar de observaciones (cinco.) ¿Cómo se determina !a mediana cuando el número ele observaciones es par? Como antes, se ordenan los va!ores. Después, lo que se acJstumbra es calcular la media aritmética de ias dos observaciones centrales. Obsérvese que cuando el número de observaciones es par, la mediana puede no ser uno de !os valores dados.
73
A continuación se indican los rendimientos anuales totales a cinco años, de las seis acciones con n1ejor desempeilo de ·fondos comunes de inversión con crecin-1iento dinámico. ¿Cuál es
la ganancia n1ediana anua!?
Rendimiento tota~
Nombre de! 'fondo
anuai
PBHG Growll1 Dean Witter Developing Growth AIM Aggressive Grovvth Twentieth Century Giftrust Robertson Stevens Emerging Gmwth Seligman Frontier A
28.5% í 7.2 25.4 28.6 22.6 21.0
Obsérvese que el número de valores es par (6). Como ya se indicó, !os datos se ordenan de menor a mayor. Después se identifican las dos cifras centrales. La media a.rit111ética de !as dos observaciones centrales da como resultado la mediana. Ordenando de n1enor a mayor:
SOlUC:!ÓN
17.2% 21.0
22.6 25.4 28.5
--<
480
~--· =
2
24.0%, la ganancia mediana
28.6 Obse1·ve que ia mediana no es uno de los valores conside1·ados. Asimismo, !a mitad de las observaciones está por abajo de la mediana, y la otra mitad está por arriba de e!la.
Las propiedades in1portantes de la mediana son:
1. Es única; esto es, a semejanza de la 111edia, sólo existe una 111ediana para un conjunto ele datos. No se ve afectada por valores extre111adame11te grandes o 111uy peque!"íos, y por tanto es una medida vaiiosa de ''.endencia central cuando se presenta esta clase de valores. 3. Puede calcularse para una distribución de frecuencias con una clase de extremo abierto, si !a n1ediana no se encuentra en tal clase. (Más adelante se n1ostrará el cálculo de la 111e~ diana de datos agrupados en una distribución de frecuencias.) 4. Puede calcularse para Catos de nivel de razón, de intervalo y ordinal. (Recue1·de del capítu!o ·¡ que los datos de nivel ordinal se pueden ordenar por intervalos de menor a mayor, como en el caso de las respuestas a la pregunta de un estudio de mercado: "excelente", "muy bien", "bien", "regular" y "mal". Para usar un ejen1plo sencillo, supóngase que cinco personas evaluaron una nueva barra de chocolate. Una persona la consideró excelente, ot1·a la evaluó como muy buena, una más co1110 buena, otra como regular, y la última la consideró mala. La respuesta n1ediana es "buena". La mitad de las respuestas están arriba de "buena", y la otra mitad abaío de ella. 2~
La mecliana se puede cleterminar para datos de tocios los niveles, excepto para e! nivel nominal.
74
La !fílüda es otra rnedida de tendencia Central.
·-·
~-,--·-··-·-----~~·~--------
--_----------
·:·
_--
-
-
:-:,-
__
· .,--'__
---
_--
-
---
~~~~~~~-~~~~~~~~-~~'.
-.
l\/Ioda Es el. valor de la observación •' - que aparece. qon ·- más·.frecuencia. -
________1 ¡
La rnoda es especialn1ente·-1J"til ¡Jára d8scribir-!ós iii\J8!éS- d8--inedición nominales y ordina-!es. Con10 ejernplo de su uso para datos de nivel norr1lna!, una compañía ha desarrollado cinco aceites para baño. El diagran1a 3. i muestra !os resultados de un estudio de n1ercado diseñado para descubrir !a pre·ferencia de los consun1idores de los aceites. El mayor núme-
ro de opiniones favoreció a L..amoure, Como lo indica !a barra 111ás alta. De 111odo que lamoda corresponde a Lamoure.
Amo1·
Lan10L11"e 1\
Soothing Sn1el!
[v1ocla
Aceite para bafio
~lice
Far Out
Nún1ero de consurn.idores que favorecen diversos aceites para baño.
A continuación se muestran !os sueldos anuales (en dó!ares) de gerentes de control de calidad en algunos estados. ¿Cuái es el valor modal de los sueldos? Es~aid!w
§Mefi!lf®
$35 000 49100
G;;s~a:rf:w
§Maíl[~@
$58 000 illinois Louisíana 60 000 60 000 Maryiand 60 000 i 60 000 MassachusettS 40 000 !' 40 000 New Jersey 65 000 ¡_ _._,.......------·-----·--~-·-··· Arizona California Colorado Florida ldaho
SOLUCIÓN
~§i!:
§¡;¡®~[lJ@
Ohio Tennessee Texas VVest Virginia Wyoming
$50 000 60 000 "/i 400 60 000
55 000
Una revisión de las cantidades revela que e! sueldo anual de $60 000 dólares aparece con 111ayor frecuencia (seis veces) que cualquier otra percepción. Por t2nto, la moda es
$60 000.
En resurnen, se puede determinar la rnoda para datos de cualquiera de los niveles: norninal, ordinal, ele intervalo y de razón, La rnoda tai11bién tiene la ventaja ele no verse afectada por valores extremadamente altos o muy bajos. /\1 igual que la mediana, puede utilizarse co1110 medida de tendencia central en distrlbuciones con clases de extren10 ablerto.
75 Desventajas de la moda.
Sin embargo, la n1oda tiene algunas desventajas, y esto hace que se utilice con menos -frecuencia que la media o la mediana. En rnuchos conjuntos de datos no hay valor n1odal porque ningún valor aparece más de una vez. Por eje111p!o, en el siguiente conjunto de datos no hay n1oda: $i 9, $2i, $23, $20 y $18. Puesto que cada valor es diferente, podría argumentarse que cada va!or es moda!. Poi· el contrario, en ciertos conjuntos de elatos hay má.s de una moda. Supóngase que !as edades en un grupo de individuos son 22, 26, 27, 27, 3i, 35 y 35. Tanto 27 como 35 son edades modales. Por tanto, este conjunto de edades se deno111ina bimocla/ (ya que tiene dos modas.) Sería cuestionabie utilizar los dos valores de moda para representar la tendencia central de este conjunto de datos de edades.
·1. Una ffiuestra de personas solteras en Towson, Texas, que recibe pagos por seguridad social, reveló los siguientes íngresos mensuales (en dó!ares): 426, 299, 290, 687, 480, 439 y 565. a) ¿Cuál es la rnediana de los ingresos? .b) ¿Cuántas observaciones son inferiores a !a 111ediana? ¿Cuántas son superiores a la 111ediana? 2. El número ele paros laborales en la industria automotriz en !os meses seleccionados es 6, O, '10, 14, 8 y O. a) ¿Cuá! es la 111ediana del número de pa1·os? b) ¿Cuántas observaciones son menores que la mediana? ¿Cuántas son 111ayores? e) ¿Cuál es el valor modal de los paros en ei trabajo?
i 5. Indique el valor n1odal de un conjunto de obserJaciones si en total hay: a) 1O observaciones y no hay dos valo1·es iguales. b) 6 obsetvaciones y todas son iguaiss. e) 6 observaciones y los valores son 1, 2, 3, 3, 4 y 4. En los ejercicios del i 6 al í 9, a) determlne la mediana, y b) ia 111oda.
i 6. A continuación se presenta el nln11ero de can1bios de aceite en !os últi111os siete días en el taller Jiffy Lube. 15
39
"i7. Las siguientes son variaciones porcentuales en los ingresos netos del a1lo 2000 a 2001, en una muestra de í 2 cornpa1lías constructoras con secle en Denver.
5 -~ 8.
-1
A continuación se presentan las edades ele -¡O personas que acuden a una tienda de videos en un centro cornercial a las ·¡O a.m.:
L~_1_2__s __1_1.
s__·_11_-_10- si
__0___ 1._·1_ _1"_·__
19. A continuación se presentan varías indicadores del crecimíento econó1TJico a largo plazo en Estados Unidos. Las proyecciones son hasta el ailo 2005.
76 !rn:Hcador ecm1ón1lco
Camb¡o pe1rcentual (o/o)
lnflación Exportaciones Importaciones Ingreso real disponible Consumo
4.5 4.7
!ndicarlür económico
Cambio porcentual (o/o)
PIB real !nversión(residencial) lnversión(no residencial) Productividad (total) Procluctividad (fabricación)
2.3
2.9 2.7
2.9
3.6 2:i
1.4 5.2
a) ¿Cuál es la mediana del can1bio porcentual? b) ¿Cuál es la moda del cambio porcentual? 20. A continuación se indican los totales en ventas de automóviles (en millones de dólares) en Estados Unidos durante los Liltimos "í4 años. Durante este periodo, ¿cuál 'fue el nún1ero mediano de autornóviles vendidos? ¿Cuál es e! valor modal? j
9.o
8.5
8.o _9._1__ 10_.3_ _ 11_.0__1_1_.s_ _10.3
10.5
9.s
9.3
8.2
8.2
8.5
Soltl(~ió11 ·oor con-hp·. llJtaclor;c~ ~
- -
'
~-------------~~~~~~~~-~-·==~--~=~------------~~~-~~
Se puede utilizar un paquete de so"ftvvare para computadora con ei fin de dete1·minar varias n1ediclas de tendencia centraL
La tabla 2.1 del capítulo 2 muestra el precio de 80 vehículos que se vendieron el mes pasado en la agencia Whitner Pontiac. Detern1ine la n1edia y la mediana de los precios de venta.
SOLUCIÓN
La n1edia y la mediana de estos precios de venta se presentan en la pantalla de Excel que se muestra a continuación. (Nota: Los comandos necesarios para obtener este resultado se muestran al final del capítulo, en la sección Comandos para computadora.) Hay 80 vehículos en el estudlo, por tanto realizar los cálculos a mano o con una calculadora sería tedioso y p1·openso al error.
20197 1·_,lmJi;;rrn l,foda Dr,5·k,1>:ió11 eoti1nd;ir
d~ ;<$in1~irl«
O 77.GOIG 20:,179
h!fair«O
S"rrn
1e17,153
i:.~~-·--~-·-· --~
1
77 El precio de venta medio (en dólares) es 20 218, y el mediano es 19 831. Entre estos valores hay una cllferenci2 de 400. Por tanto, cualquiera de los dos valores es razonable. En la pantalla de resultadJs de Excel se puede ver también que la cantidad total de vehículos vendidos 'fue 80, y que la surna de todos los precios es í 6! 7 453 dólares. ¿Qué se puede concluir? El vehículo típico se vendió en cerca de 20 000 dólares. El señor VVhitner puede usa~ esta información al hacer sus proyecciones de ingresos. Por ejemplo, si !a agencia pudiera aumentar su número de ventas mensuales de 80 a 90 unidades, daría como resultado $200 000 más de ingresos, cantidad que se obtiene de 10 X $20 ÜÜÜ.
f\([ec[i:ca 2eox11étrica ~~-·~-~~,,~~'::!.---~~~-~~=~-~-~~~.,~ La media geométrica nunca es mayor que la media aritmética.
La media geométríca es útil para encontrar el promedio cie porcentajes, razones, índices o tasas de crecirniento. Se utiliza an1plian1ente en los negocios y la economía, debido a que frecuentemente interesa determinar el cambio porcentua! en ventas, sueldos, o cifras econórnicas, como e! Producto f\Jacional Bruto. La media geométrica de un conjunto den núme1·os positívos se de"fine como la raíz n-ésima del producto ele los n valores. Su 'fórmula es: ~I
MG ~
V ~X,)(X,) ... (X,)
[3.4]
!
La media geométrica siempre será n1enor que o igual a (nunca mayor que) la media aritrr1ética. Obsérvese también que todos los vaiores de elatos deben ser positivos para determinar !a media geométrica. Con10 ejemplo breve de la interpretación de la media geométrica, suponga que recibe un aumento de sueldo de 5% este año, y recibirá uno de 15% e! año próxin10. El aumento porcentual promedio es 9.886, y no 1O.O. ¿Por qué? Comience calculando la media geométrica. Recuerde, por ejemplo, que un aumento de 5% en el sueldo es 105, o bien 1.05. Se usará 1.05.
IVIG
= V(i .05)(1."i 5) =1.09886
Lo anterior se puede ve'i'fícar suponiendo que su ingreso n1ensua! inicial era de $3 000 (dólares) y q·ue recibió dos aumentos: de 5% y 15%. Aumento 1 =$ 3 000 (0.05) Aumento 2 =
=$150.00
$ 3 150 (0."15) = 4l2.50
Total
$622.50
El aumento total en ei sueldo es de $662.50. Esto equlvale a: $3 000.00 (0009886) = $296.58 $3 296.58 (0.09886) =
325.90 $622.48, redondeado a $622.50
El siguiente ejemplo muest1·a !a 111edía geométrica de varios porcentajes,
Las ganancias obtenidas por la constructora Atkins en cuatro proyectos recientes ·fueron: 3%, 2%, 4% y 6%. ¿Cuál es la media geométrica de la ganancia?
78 La rr1edia geométrica es 3.4E%, que se obtiene ele
MG = 'l(X,W<,)· (X,,) = V(3)(2)(4)(6) = 00
·\1144
La rnedia geométrica es la rafz cuarta de i 44, o 3.46 1 • La media geon1étrica de las ganancias es 3.46%. La media aritmética de las utiiidacles es 3.75%, que se obtiene ele (3 + 2 + 4 + 6)/4. Aunque la ganancia de 6% no es extren1adamente grande, hace que la rnedia aritmética se vaya hacia arriba. La media geométrica, 3.46, c!a una cifra más conservadora, ya que no está siendo afectada por el valor grande. De hecho, siempre seré menor que o igual, a la rnedia aritrnética.
Un segundo uso de la rnsdia geornétrica es encontrar aun1entos porcentuales promedio en un intervalo de tiempo. Por ejemplo, si se ganaron $30 000 {dólares) al a:lo, en i990, y $50 000 en e! año 20DO, ¿cuál es !a tasa de au111e11to anual en el período? La tasa de aumento se detennina mediante la siguiente fór111uia: ¡
AUl\flENTO l'O!lCENTUAl_ PR.OrViED~O !EN- ~JN PtFHODO OETERl\fllN.il\!:JO
[3.5]
1
~
J
En la ·fórrnula anterior n es e! nú111ero de periodos. Un ejemplo 111ostrará los detalles para encontrar el aumento porcentuai promedio anua!.
Supóngase que !a población en Haar!an, Alasl\a, en i 990 era de 2 personas, y en 200-¡ eran 22. ¿Cuál fue la tasa del incremento porcentual anual promedio para el periodo? Hay 1O años entre 1990 y 2000, por tanto, n = 1O. La iórmula (3.5) para la media geométrica ap!ícada a este tipo de problen1as es: ni
MG~
I y
Va!or al final del period~~:-~. _ i Valor ai inicio del periodo
22 y92 - 1 ~ 1 '27·1 - 1 ~ o'271
1
El valor final es 0.27"!. De medo que !a tasa de aun1ento anual es 27. i % . Esto signi·fica que la tasa de crecimiento de la población en Haarlan es 27. ·¡ % al año2 •
1
La evaluación de la n-ésima raíz utilizando una calculadora de mano es fácil, pem los detalles varían según las diferentes moscas de calculadoras. Consulte el manual de instrucciones de su caicuiadora. En el caso de una calculadora Texas lnst1·ume11ts Tl-35X, pl"imem multiplique 3(2)(4)(6), de tal forma que 144 aparece en ia pa11taila. /\ c011tinuació11. oprima la tecla de 2nd, después y, enseguic!a 4, y fi11almente el símbo o de "="- El r·esultado es 3.464·101615. Redondee este valor a 3.46. 2 Nuevamente, el método de 1·esolución dependerá de la calculadora que uti!ice. Pam una calculadorn Texas lnstrurnents T!-35X, el p1·imer paso es dividir 22 e11tre 2. El msultado es 11. Después presione la tecla de 2nd, er1seguida _y. después 10 y finalmente""""· El valor es 1.2'1098íGi5. Se resta 1.00 ai valor,' lo cual deja 0.2'709Si6.15. Redondéese esle valor· a 0.2'11, es decir, 27.1 %.
79 i. Los renclin1ientos anuales, en porcentaje, ele cuatro acciones de petróleo son: 4.9i, 5.75, 8.12 y 21.60. a) Obtenga la media geométrica ele los rendimientos. b)
Deterrnine su media aritmética.
e) ¿La media aritmética es igual a, o bien, mayor que la media geornétrica? 2.
La producción de camiones Cab!os aurrien.tó de 23 000 unidades en 1980, a i 20 520 en ei año 2000. Obtenga la inedia geométríca del incremento porcentual anuai.
21. Calcule la media geométrica de los siguientes valores: 8, ·12, 14, 26 y 5. 22. Calcule la media geométnca de los valores que siguen: 2, 8, 6, 4, 1O, 6, 8 y 4. 23. A continuación se presen:an los aumentos porcentuales en las ventas de la corporación fl/IG durante los L1itimos 5 años. Determine el incremento medio geon1étrico de las ventas en ese
periodo.
[ 94 __1_3_.8_ _11_._7_ 11.9
:1iiJ
24. En 1998 los ingresos obtenidos en juegos de azar fue $651 millones de dólares. En ei año 2001 el ingreso aumentó a 2.4 mil millones. ¿Cuál es la media geon1étrica del aumento anual en ese
periodo? 25. En 1998 los hospitales gastaron 3.9 rnil n1i!lones de dólares en sisten1as ele cómputo. En el año 2001 esa cantidad se incrementó a 14.0 mil millones. ¿Cuá! es la media geométrica del aumento anua! en ese periodo? 26. En 1990 había 9.19 millones de suscriptores de televisión por cable. En el año 2000 el número había aumentado a 54.87 millones. ¿Cuál es la media geométrica del aumento anual en tal periodo? 27. En 1996 había 42.0 millor.es de suscriptores en los servicios de localización de personas. En 2001 esa cifra aun1entó a 70.0 millones de suscriptores. ¿Cuál es la media geométrica del incremento anua! en ese periodo? 28. En el cuadro que se muestra a continuación se indíca el costo (en dólares) de un año de estudlos en una universidad pública y en una privada, en 1990 y en i998. ¿Cuál es la media geométrica del incremento anual en tal periodo en ambas universidades? Tipo de Uni1fersidad
PliJllca Pri11acla
1990
$ 4 975 12 284
s 7 628 19143
Con frecuencia los datos relacionados con ingresos, edades, y demás, se agrupan y presentan en forma de una distribución de frecuencias. Por !o general, resulta in1posible obtener los datos originales. De modo que si interesa un valor típico que represente a los datos, es necesario estímarlo basándose en la distribución de frecuencias.
Para evaluar !a n-iedla aritmética de elatos organizados en una distribución ele frecuencias, se considera que ias obsen;aciones en cada clase están representadas por el punto medio de la clase. La media de una muestra de datos organízados en una distribución de frecuencias se calcula como sigue:
80
Capítulo 3
'-
. ZfX X=-.·-··
n
donde:
X X
es es f es fX es ZfX es n es
la media aritmética. el valor central, o punto medio, de cada clase. la frecuencia en cada clase. la frecuencia en cada clase multiplicada por el punto medio de la clase. la suma de esos productos. el número total de frecuencias.
Las operaciones necesarias para calcular la media aritmética de datos agrupados en una distribución de frecuencias se mostrarán con base en los datos del ejemplo de la agencia Whitner Pontiac. Recuérdese que en el capítulo 2, en la tabla 2.4, se elaboró una distribución de frecuencias con los precios de venta de los vehículos. La información se repite enseguida. Determine la media aritmética del precio de venta de los vehículos. Precio de venta (miles de dólares)
Frecuencia
12hasta15 15 hasta 18 18 hasta 21 21 hasta 24 24 hasta 27 27 hasta 30 30 hasta 33
8 23 17 18 8 4 2
so
Total
SOLUCIÓN
La media del precio de venta de los vehículos se calcula a partir de los datos agrupados en una distribución de frecuencias. Para evaluar tal cantidad, supóngase que el punto medio de cada clase es representativo de todos los valores de los datos en esa clase. Recuerde que el punto medio de una clase es el punto equidistante de los límites superior e inferior de la clase. Para encontrar el punto citado de una clase determinada, se suman los límites superior e inferior de la clase y el resultado se divide entre 2. Por tanto, el punto medio de la primera clase es $13.5 (dólares), que se obtiene de ($12 + $15)/2. Se supone que el valor $13.5 es representativo de los ocho valores en esa clase. Dicho de otro modo, se supone que la verdadera suma de los ocho valores en esta clase es $108, que se obtiene de 8($13.5). Se continúa el proceso de multiplicar el punto medio de clase por la frecuencia en cada clase, y después se suman estos productos. En la tabla 3.1 se resumen los resultados.
lftd3lft 3:l
Precio de venta de 80 vehículos nuevos que se vendieron el n1es pasado en Ja agencia ·vvhih1er Pontiac.
Precio de venta (miles de dólares) 12 liasta 15 15 hasta 18 18 hasta 21 2·1 hasta 24 24 hasta 27 27 hasta 30 30 hasta 33 Total
Frecuencia (f}
Punto medio (X)
IX
8 23 17 18 8 4 2 80
$13.5 16.5 19.5 22.5 25.5 28.5 31.5
$ 108.0 379.5 331.5 405.0 204.0 114.0 63.0 $1 605.0
Descripción de los dalos. Medidas de tendencia central
81
Determinación de la media aritmética aplicando la fórmula (3.6):
X=
TfX
n
= $ 1 605 = $20.1 80
(miles)
Por tanto, se concluye que la media del precio de venta de los vehículos es aproximadamente $20 1OO.
La media de datos agrupados en una distribución de frecuencias puede ser diferente de la media de los datos reales. El hecho de agrupar los datos produce una pérdida de información. En el ejemplo del precio de venta de los vehículos, la media de los datos sin procesar, que se presenta en la pantalla de Excel, es $20 218. Este valor se encuentra muy cercano a la media que se acaba de calcular. La diferencia es $118, o bien, aproximadamente 0.58%. ¡~~~-~-~~~~~~~~~~~~-~;~.~=--.~~=~"~~=-=~~~~"~~•=-•~~--~~---~~-------~,-~~~~~-~-~·~~~~~~-~,~~=•o--~--~~~~-~~-~=~-~~~~~~~~~"--1
J
J};íl~06X6llf!ll8íl 3.5
Los ingresos netos de una muestra de grandes importadores de antigüedades se organizaron
! ¡ !
en la siguiente tabla: Ingreso neto (miles de dólares)
Número de importadores
2 hasta 6
6 hasta 10 10 hasta 14 14 hasta 18 18 hasta 22
4 10 3 2
l?iPJ"f"]C~~')~ L~~~-~Jl JLv,_,. "·'·'"·'~~~~w•~~·=~
29. Cuando se calcula !a media de una distribución de frecuencias, ¿por qué se le designa como
media estimada? 30. Determine la 111edia estimada de la siguiente distribución de frecuencias:
31. Calcule la media estimada para la siguiente distribución de frecuencias. Clase 20 30 40 50 60
llasta 30 hasta 40 llasta 50 liasta 60 hasta 70
Frecuencia 7 12 21 18 12
82 32. Los precios de venta de una rnuestra de 60 antigüedades vendidas en Erie, Pennsylvania, el mes pasado, fueron organizados en la siguiente distribución de frecuencias. Estime el precio de venta medio.
Precio ele venta {mlies de ciólares)
frecuencia
70 hasta 80
3
80 hasta 90
7
90 hasta 100 100 hasta 110 110 hasta 120
18 20 12
33. La estación radiodi-fusora de Ffv1, cuyo distintivo es WLOR, cambió recientemente su formato de "clásicas" a "contemporánea". Una muestra reciente de 50 oyentes reveió ia siguiente distribución de edades. Estime la edad media de los radioescuchas.
Edad
Frecuencia
20 hasta 30 30 hasta 40 40 hasta 50 50 hasta 60 60 hasta 70
15 22 8 4
34. Los gastos publicitarios son una componente irnportante del costo de las mercancías que se venden. A continuación se presenta una distribución de frecuencias que muestra los gastos en publicidad de 60 compañías productoras ubicadas en e! sudoeste de Estados Unidos. Estime la media de los gastos de publicidad.
Gastos eíl publicidad Número (mmornes de dfüares) de compañias 25 35 45 55 65
Mediana: la mitad de los valores están por arriba de eíla, y la otra mitad, por abajo,
hasta 35 hasta 45 hasta 55 hasta 65 !lasta 75
5 10 21 16 8
Total
60
Recuérdese que la mediana se define como el valor abajo del cual se encuentra la mitad de los valores, y arriba del cual se encuentra la otra mitad, Dado que los datos sin agrupar se l1an organizado en una distribución de frecuencias, parte de la información ya no es identificable, Como resultado, no es posible determinar la mediana exacta, Sin embargo, puede estimarse: (1) localizando la clase en la que se encuentra la mediana, y (2) realizando interpolaciones dentro de esa clase para obtener dicho valor. La razón de este enfoque es que se supone que los ele-· mentas de la clase en que se encuentra la 1nediana están espaciados de rnanera uniforme en toda la clase, La fórmula es:
Mediana = L
+
%~FA
(i)
,-~
83
!Jesoripci!Ííl de los dalos, 1Wedidas de /e11defflcia ceffltwl donde:
L
es e! límite inferior ele la clase que contiene a la mediana. es el número total de frecuencias. f es la frecuencia de Ja clase que contiene a la mediana. FA es e! número acumulado de frecuencias en todas las clases que preceden a la clase que contiene a la mediana. es la an1p!itud (o anchura) de la clase en que se encuentra la rnediana.
11
Primero se estimará la mediana localizando la clase en la cual se encuentra, e interpolando. Después se aplicará la fórrnula para el cálculo de la mediana a fin de verificar !a respuesta.
Los datos que incluyen los precios de venta de los vehículos en la agencia Whitner Pontiac se utilizarán nuevamente para n1ostrar e! procedimiento a seguir para calcular la mediana (ver tabla 3.2), Las frecuencias acumuladas en la columna de la derecha se utilizarán en breve. ¿Cuál es la mediana del precio de venta de los vehículos nuevos en la agencia Whitner Pontiac?
TABLA 3.2
Precios de venta de 80 vehículos nuevos vendidos el mes pasado, en la agencia \'v'hitner Pontiac.
Precio de venta
Número vendido
Frecuencia acumulada
(rr1i!es de dólares)
(f)
(fl\)
12hasta15 15hasta18
8
23
8 31
21 hasta 24 24 hasta 27 27hasta 30 30 hasta 33
8 4 2
o
Total
SOlUCIÓ~l
80
8
_E
•
Para obtener la mediana de los precios ele venta se necesita localizar !a observación número 40 (hay en total 80 observaciones) en los elatos ordenados ele menor a mayor. ¿Por qué la n(1mero 40? Recuérdese que la mitad de las observaciones de un conjunto de datos son inferiores a !a mediana, y la mitad son mayores que ésta. Por consiguiente, si se ordenan todos los precios de venta de los vehículos, del menor al mayor, el del centro -el número 40- será la mediana. Para ser técnicamente correctos y consistentes con la forma en que se obtuvo la mediana de datos no agrupados, debería utilizarse (n + 1)/2 en vez de n/2. Sin embargo, ya que el númem de observaciones generalmente es grande, cuando se tienen datos agrupados en una distribución de ·frecuencias, se omite esa pequeña diferencia. La clase que contiene el precio de venta del vehículo número 40, se localiza en la columna de la derecha en la tabla 3.2, la cual es la frecuencia acumulada. Había 31 vehículos que se vendieron en menos de $18 000 (dólares) y 48 que se vendieron en menos de $21 000, En consecuencia, el vehículo número 40 debe estar en el intervalo de $18 000 a $21 000, y el precio de venta mediano se encuentra en algC1n punto entre los dos límites de $18 000 y $2·1 000. Para localizar la mediana con mayor exactitud, se necesita interpolar en la clase que contiene la mediana. Recuérdese que hay 17 vehículos en la clase de "$18 000 a $21 000". Supóngase que los precios de venta se distribuyen de manera uniforme entre los límites inferior ($1 s 000) y superior ($21 000) de la clase. Existen nueve precios de
84
Capitulo 3 venta de los vehículos entre el 31 y el 40. Por tanto, la mediana está a 9/17 de la distancia entre $18 000 y $21 000. Consulte el diagrama 3.2. El ancho de clase es $3 000, y la porción 9/17 de $3 000 es $1 588. Se suma $1 588 al límite inferior de la clase de $18 000, por lo que ia mediana estimada del precio de venta de los vehículos es $19 588.
$2 ·¡ 000 Precio de venta
? Mediana [HJM3.RAIVU~
.3,2
Localización de la 111ecliana.
También se puede utilizar la fórmula 3.7 para determinar la mediana de datos agrupados en una distribución de frecuencias, donde L es el límite inferior de la clase que contiene a la mediana, que es $18 000. Hay 80 precios de venta, por lo que n = 80. Además, FA es el número acumulado de vehículos vendidos en la clase que precede a la clase de la mediana (31), fes la frecuencia del nC1mero de observaciones en la clase de la mediana (17), y se tiene que i es el intervalo de la clase que contiene a la mediana ($3 000). Al sustituir estos valores:
n
2-FA Mediana = L
+
f
(i)
80 --31 2 = $18 000 + ($3 000) 17 =
$18 000
+ $1 588
=
$19 588
La consideración en que se basa la aproximación de la mediana -que las frecuencias en la clase que contiene a la mediana se distribuyen de modo uniforme entre $18 000 y $21 000- puede no ser correcta. En consecuencia, es más seguro decir que aproximadamente la mitad de los precios de venta son inferiores a $19 588, y la otra mitad son mayores. De nuevo, es probable que exista una diferencia entre la mediana estimada de datos agrupados y la mediana determinada a partir de datos sin agrupar. En este caso, la mediana que se calculó con Excel a partir de datos sin agrupar es $19 831, y la mediana que se evaluó a partir de la distribución de frecuencias es $19 588. La diferencia entre ambos valores es $243, o aproximadamente 1 %.
La mediana puede cleterminarse en distribuciones que tienen extremos abiertos.
Nota final: La mediana sólo se basa en las frecuencias y los límites de la clase que la contiene. Las clases de extremo abierto que se presentan en los extremos rara vez se necesitan. En consecuencia, se podrá determinar la mediana de una distribución de frecuencias que tenga extremos abiertos. La media (aritmética) de una distribución de frecuencias con una c!ase de extremo abierto no puede evaluarse en forma exacta, a menos que se estimen !os puntos medios de las clases de ese tipo. Además, también se puede determinar la mediana si se tienen frecuencias porcentuales en lugar de frecuencias absolutas. Esto se debe a que la mediana es el valor con 50% de la distribución por arriba, y 50% por abajo de ella, y no depende de los conteos reales. Los porcentajes se consideran como sustitutos de las frecuencias verdaderas. En cierto sentido, son frecuencias absolutas cuyo total es 100.0.
Descripción de tos dalos. Medidas de tendencia central
El punto medio de la clase modal es la moda estimada.
85
Recuérdese que la moda se define como el valor que ocurre con más frecuencia. Para datos agrupados en una distribución de frecuencias, es posible aproximar la moda usando el punto medio de la clase que contiene el mayor número de frecuencias de clase. En el problema 2 del autoexamen 3.6, el valor modal de las ventas netas se obtiene localizando primero la clase con el mayor número de porcentajes. Es la clase que comprende de 7 a 1 O millones de dólares, porque el mayor número de porcentajes (40) se encuentra en dicha clase. El punto medio de ésta (8.5 millones de dólares) es la moda estimada. Esto indica que más plantas de estampado tuvieron ventas netas de 8.5 millones de dólares que cualquier otra cantidad. Dos valores pueden presentarse un nC1mero elevado de veces. Entonces se dice que la distribución es bimodal. Supóngase que las edades de una muestra de trabajadores son 22, 27, 30, 30, 30, 30, 34, 58, 60, 60, 60, 60 y 65. Las dos modas son 30 y 60 años. Con frecuencia se presentan dos puntos de concentración, ya que es probable que la población que se muestrea no sea homogénea. En este ejemplo, la población podría estar integrada por dos conjuntos dist.intos: un grupo de empleados relativamente jóvenes que se han contratado hace poco para cubrir la demanda creciente de un producto, y el otro, un grupo de empleados de mayor edad que han estado en la empresa durante largo tiempo. Si el conjunto de datos tiene más de dos valores modales, la distribución se denomina mu/timada/. En tales casos probablemente no se consideraría ninguna de las modas como representativa del valor central de los datos. 1.
Una muestra de la producción diaria de transmisores/receptores de comunicación marca Scott Electronics se organizó en la distribución que sigue. Calcule la mediana de la producción diaria.
Producción diaria
Frecuencia
80 hasta 90 90 hasta 100 100 hasta 110 110 hasta 120 120 hasta 130 130 hasta 140
5 9 20 8 6 2
2. Las Ventas netas de una muestra-'de pequeñas plantas de estampado se organizaron en la sig_uíente distribücióh de frecLJe11cías porcentuales. ¿Cuál es la mediana estimada de !as ventas netas? ,·
.
Ventas netas (millones de dólares}
Porcentaje del total
·1 hasta 4 4 hasta 7 7 hasta 1o 10hasta13 13 y _superior
13 14
14¡j) 23 10
Ejercicios 35. Refiérase al ejercicio 30. Calcule la:_mediana. ¿Cuál es el valor modal? 36~ Considere el ejercicio 3"1. Determitie 18. mediana. ¿Cuál es el valor modal?
37. El contador en jefe de la empresa Betts Machine lnc., desea elaborar un informe acerca de las cuentas por cobrar de la compB.ñía. A continuación se presenta una distribución de frecuencias que muestra las cantidades pendientes.
86 Freciencia o hasta $ 2 000 $ 2 000 l1asta $ 4 000 $ 4 000 hasta$ 6 000 $ 6 000 l1asta $ 8 000 $ 8 000 hasta $1 O000 $10 000 hasta $·12 000
$
4 ·1 s
18
10 4
3
a) Determine la cantidad mediana. b) ¿Cuál es el monto n1odai adeudado? 38. En la actualidad hay cerca de 1.2 n1illones de hombres y n1ujeres adscritos al servicio activo de! Ejército, la Marina, la Infantería de Marina, y la Fuerza Aérea, de Estados Unidos. A continuación se 111uestra una clasificación porcentual de las edades. Determine la edad mediana del persona! a!istado en el servicio activo. ¿Cuál es la moda?
Edad (años)
Porcentaje~
Hasta 20 20 hasta 25 25 hasta 30 30 hasta 35 35 hasta 40 40 llasta 45 45 y mayores
15 33 19 17 11 4 1
39. El siguíente gráfico apareció en USA Today, pero también se puede encontrar en Internet, en el sitio http://\NVVVl/,usatoclay.com/snapshotlnevlfs/snaprndex.htm. Este gráfico indica el número de páginas de Internet impresas por día y por persona en una oficina. Basándose en est_a información, ¿cuál es el numero mediano de páginas de Internet impresas por día y pbr empleado?
40. E! siguiente gráfico apareció en USA Today, pero tan1bién se encuentra en Internet, en el sitio http:/hN 1Nvv.usatoclay.corn/snapshot/rnoney/snapmclex.htn1. ¿Cuál es el valor modal de esta información? ¿Cuá! es el nivel de medlción de los datos? Indique por qué no es posible calcular la media o la mediana.
Descripción de los daios. Medidas de tendencia central
87
Posiciones relativas de la rnedia, la rnediana y la 1nod~. En el caso ele una distribución simétrica en forma de campana, la media, la mediana y la moda son iguales.
Consulte el polígono de frecuencias del diagrama 3.3. Se trata de una distribución simétrica en forma de campana, lo cual significa que la distribución tiene la misma forma en ambos lados del eje central. Si el polígono se doblara por la mitad, ambas se verían idénticas. En una distribución simétrica, los valores modal, mediano y medio se localizan en el centro y siempre son iguales. En el diagrama en cuestión, la moda, la mediana y la media son 20 años.
20
Años
Modal Media =Mediana
D!AlGR.AMA 3.3
Una distribución sesgada
no es simétrica.
Una distribución siinétrica.
El né1mero de años en el punto más alto de la curva es la moda (20 años.) Debido a que la curva de frecuencias es simétrica, la mediana corresponde al punto donde la distribución se parte a la mitad (20 años.) El número total de frecuencias que representan muchos años está compensado por el número total de las frecuencias que representan pocos años, lo que da como resultado una mec/ia (aritmética) de 20 años. Es lógico que cualquiera de los tres promedios resulte adecuado para representar esta distribución. Si un conjunto de datos no es simétrico, sino que es asimétrico o sesgado, entonces se modifica la relación entre las tres medidas. En una distribución con asimetría positiva, la media aritmética es la mayor de las tres medidas. ¿Por qué? Porque en el valor medio influyen más valores extremadamente altos, en comparación con lo que ocurre con la mediana o la moda. En general, la mediana es la siguiente medida más alta en una distribución de frecuencias con sesgo positivo. La moda es la menor de las tres medidas. Si la distribución es muy asimétrica, como sucede con los ingresos semanales en el diagrama 3.4, la media no seria un promedio útil. La mediana y la moda serian más representativas. Recíprocamente, en una distribución con asimetría negativa, la media es el menor de los tres promedios. Desde luego, la media se ve afectada por algunas observaciones extremadamente bajas. La mediana es mayor que la media aritmética, y el valor modal es el mayor de los tres promedios. De nuevo, si la distribución es muy asimétrica, como sucede en la distribución de resistencias a la tensión que se muestra en el diagrama 3.5, entonces no debe utilizarse la media para representar a los datos.
88
/j Media Mediana 1 200 1 800
3 000
Fuerza a la tensión
D~A:GRtU\JU.'t
3.!{
Una distribución con asirnetría positiva.
¡- "--------------------- ---------------- --- --11
J.ilVJ[OilJ',,am15~ º::D" t
----~-------
llJ~fJ;[;WlAMlli
- - - -- -- - --- - -
Una distribución con asimetría negativa.
3.!J.
--- -- -
----------------~--
-----------
-------1 1
Las ventas semanales en una muestra de tiendas de suministros electrónicos de alta tecno-
logía se organizaron en una d1stnbuc1ón de frecuencias El valor calculado para la media de las ventas semanales fue $105 900 (dolares), la mediana fue $105 000. y la moda, $104 500. a) Represente las ventas en forn1a de un pollgono de frecuencias alisado Observe la ub1cac1on de la media, la mediana y la moda sobre el eie X b) ¿_,La distnbuc1ón es s1méu1ca, asin1etnca positiva, o bien as1métnca negativa? Explique
il ,,
i'
;
~
1 !
' 11
1 1
L~~~=~ ~ ==n·~-=--~-~~~~~--~~-~,--~~~~~~~:~ª~~~~~~~~~~~~~ -~~~~~~~~~~-~~~~~--~--~-~~---~~-~-~~- _---~~ ~~~~~te~ i~L<::.1Pítµl:2~_,,,,..,.~-~-'~;-~~,~~~,.,_ ";,_,__~~·-,-,--C"22=-"~ J;
Uria medida-de tend8'ncia·centrál és Uh Valor:·que-s·e-ütiHZ'a· para-·-describir el centro de un conjunto de datos.
-A;- la media-aritmética-es- la medida de:tendencia·ce_ntr8.I que .se- utiliza con mayor frecuencia. 1.- La media.se ca_!cula-.sumando l_os_y;:ilo.res·.de.-_las: o_bse_rvaciones y dividiendo el resultado en'-tre _el_ número _total·.,de.9bs~_rvéiciones_,_,_ ,_ - .. 0
a) La.fórmula para 0 [Jtener la media. poblacionaLde datos no agrupados es:
LX
l·'·'°":N
[3,i]
b) LE!_.f?frnula_pára·i_.a,_me(jia Mue~trafes:
·X=' e) La fónti-üi8 ·para datos· agrUpaéroS
-
LX
n- •;
[3,2]
en-.Uda -d¡s-Úi-bLrci-C'.in ·de· frecuencias es:
X~
Y,fX --
n
2. Las características principales de !a media· aritmética son: a) Se requiere por lo menos el nivel de medición ele intervalo. IJ) Todos los valores de los datos se usan en el cálculo de la media.
[3.6]
89
J:lescripción de los dalos. Medidas de tendencia central
e) Un conjunto de d_atds só!o tiene un_ valor me_dio. E~to quiere declr que Ja media es
L1nica. . d) Lél_ sulll_a._de la_s de,sv_iaciones resp~cto a !a media es igual a O. B. La med_ia.ponderadfl-S8 determina multiplicando cada observación por su "peso" correspondiente. 1. Láfórmu1·a para dÉltermíi:iar !a ríledi"a pondE;rada_es: •.......................
w1x:1·+ w2x¿ + W3 X3 +-... , +- w11x11 X= .. . . . w w1.+w2 +.w,1 +, ... +w~
La. estacftística en acción
[3.3J
2. Es un .caso especial deja,_media aritméti.ca, C. La media geo111étrica es la.raíz n-ésin1a del producto de n va!cires o datos. _i ~. La fórmula para la media geométrica es: MG
=
V-(X-1J-(X-,)(-X3-)~ ..•.~(X-,)
[3.4]
2. La media geométrica tan1bién se utiliza para obtener !a tasa de cambio de un periodo a otro. MG = ,r··-va.1or al final del periodo _______ Y
Valor al principio del periodo
1
[3.5]
3. La_,media.geométri_ca.slEimpre 8$.nie_nor que. o-_igual-_a. la_.medla aritmética. D. L_a mediana .es e.! v_a!or que se localiza. ery,el. centro de_ _conjunto de elatos ordenados. 1. Para enco_ntrar la me~iana, se_ o.rdenari !as, otJ.sérvacionEJs de menor a mayor, y se identifica el valor central. 2. La fórmula para calcular la mediana de datos agrupados es:
un
f1_ - FA
Mediana "' L
+
~ (j)
3. Las (;aracterísticas princi_pa!_es _de r~ mediana .sqn_:_ . a) Se requiere por lo menos elniyel ordinal. de medición. b) No ·se ve afectada porvalores extremos. e) E!-50%- de las observaciones son mayores que la mediana. d) Es única en un conjunto de datos. E. En un conjunto de clatos,.la moda es er·va!or que se presenta con mayor frecuencia. i. La moda puede determinarse para datos de nivel nominal. 2. Un conjunto.de datos puedetenermás de un valor modal.
o'él'!rrc e5.r.dis1m
Jia de clase ~iu1nente cuando se ca!cub de esta·forma. Una escue-
la podría redúcir dicho t~rnafío__ de la_ cla~c_para cada ahnnno, disrninu)'endó_ el ni'irnc_ro de cs-l'tt
SÍMBOLO !L L LX
x
-Xw MG LfX
SIGNIFICADO Metlía de•un.a•poblaCión
mu
~pefaCión'd8 Su.rt1,~.
sigma
FORMA EXPRESIVA
Suma de un grupo de valores ¡yledia de-üna 'riiü8Stra
Sigina x·
Media pon<;!erada Media. ge_ométrica
X con.:bárra subfhdlce w
Su~a de lq~ proq,1ctqs el.e
sigma f X
las:frec'uen_cias y Jos püilt'qS ó~htralés: de cf~Se
XéOil barra
MG
[3.7]
90
Capítulo3
Ejercicios del capítulo 41, Et. bufete de contaclLlíía CraWfO~d Y.As'o~lados·.tiene cinco.socios mayoritario.s'. Ayer.estos socios atendíerOn a-·seis, cuatro, tres, siete y cinco clientes·, respectivamente. a) Calcule !a media y la mediana de tos iillmeros de clientes atendidos por Un socio. b) ¿Es la media una ele muestra o una de población?
· cfCañiprtiebeqüe:t(X=1.Lf"'o:···················
·······················································•·······
42. La compañía ówenS Orcharcs vende manzanas en sacos de acuerdo con su peSo. Una mu'estra de siete sacos c.ontenía las siguientes cantidades de manzanas: 23, 19, 26, 17, 21, 24, 22. a) Calcule la ít!8di'a·y·la rilediana·de-!ás cantidades de-manzanas en un saqo; b) Compruebe. que Z (X - X¡ "'O. 43. Una muestra de 'familias que se inscribieron· eri la compañía tele'fóníca Unitéd _Bel_I registraron los sigu_iente~ nL1rrieros de llamadas recibidas la semana pasada. Determine la ínedia. y la mediana de la cantidad de llamadas recibidas.
52 34
43 46
30 32
38 18
30 41
42
12
46
5
44. E¡: banco CitltenS BEtnking CompanY áiláliza 81 núméro de veces que se utiliza por día un cajero autcimáUco·ubi?adO·Sr1-e1 sup.ermerCado_Loblaws.. A contiríuación se indican !as vei.::és que dicho aparato se utilizó en cada uno de los Llltimos 30 días. Determine la media del nllmero de veces que !a máquina fue uti!íza:da pcit-día.·
64 80 36
83 63 95
84 84 78
76 73 61
84 68 59
54 52 84
75 65 95
59 90 47
70 52 87
61 77 60
1
.
45. Las siguientes cifrap corresponden a la cantidad de. pantallas (de lámpara) qu~ se fabricaron durante los últimos 50 días en la compañía Am_erican Lampshade. Determine la media.
348 410 384 385 366 354
371 374 365 399 392 395
360 377 380 400 375 338
369 335 349 359 379 390
376 356 358 329 389 333
397 322 343 370 390
368 344 432 398 386
361 399 376 352 341
374 362 347 396. 351
46. Trucly Green trabaja para la compañía True-Green Lawn. Su trabajo consiste en ofrecer el-servicio de·Jaídiíi-e·rra por vía telefónica_.:A· Cohti'rillacíón se indíca·-er 'número de citas que hizo en cada una de las úft!ma·s 25 horas de. llélm2i_d8.s;.,¿Cuál eS la medía aritmética de!"nú1'rlt=ird· de titas que hizo.por hora? ¿Cuál es_ la median.~t.d_e!_nlimero.de citas por hora? Escri.ba un breve informe que resuma !os r~~.u!~a_dos.
47. La compañía dé' cerc·as Split~A~f3a.il'Fé.nc~_vent1e: tres tipos de bardas par·á c8rca.r· l()t~S-_resi denciales en los suburbi.os de SeaWe,Washington. La cerca grado A cuesta $5.00 (dólares) por pie lineal instalado, la grado B cuesta $6.50 por pie lineal instalado, y la grado C, la de mejor calidad, cuesta $8.00 por pie lineal instalado. El día de ayer la empresa instaló 270 pies lineales de la cerca grado A, 300 pies lineales de la grado B, y 100 pies lineales de la grado C. ¿Cuál fue la media del costo por pie lineal de cerca instalada?
91
Descripción de los datos. Medidas de te11de11cia central
48. Rolland Poust es estudian+e en la Escuela de Adminístracíón, en.Scandia Tech. El semestre pasado se inscribió en cursos.de estadísticáy.contabílidádi ·3 horas de cada uno, y obtuvo una calificación d8 A en·_ambos.' Recibió además una B. en.un ·curso de historia de cinco hqras, y üna B en un curso de historia del jazZ,· de dOs horas:·:Además,. tomó un curso. de una hora sobre ras réglas del· baloncesto Para,conseguir una licencia pará arbitrar-en juegos de basquetbOI- a:nivef .de.preparatorfa.--Eri' este-curso.obtuvo 'uria.-A.-.¿Cuá! fue su GPA en. e! semestre? --Supóngase-que· reC:ibe-4 . puntos-.por-.Lina-A,--:3-por-1ina- B-,:,.'etC:.'-'60Ué- medlda-de--tendencia.. cen~ tral se acaba de calcular? 49; La síguíente t~bla muestra el porcentaje de la fllerz~ laboral que está desempleada y la magnitud.de dicl1a fuerza en tres cqnqados del noroeste de- Ohío. Jan Elsas es el director regional de desarrollo.económicóy debe presentar un informe a_ varias-compañías que co_nsideran ubicarse en esa_·región. ¿Cuál-será fa taSa de desempleo _adecuada-que- se puede mostrar para toda la regíón? l'orcentaje _de. desempléó
Condado Wood Ottawa LuGaS
Tamaño de l\'i fuerza labora!
4.5 3.0 10.2
15 300 'IO 400 150 600
50. La revista Modern Healthcare publicó los ingres3s promedio por clase de servícío (en millones de dólares) en cinco tlpos_de hospitales. ¿Cuál es la mediana de fos·ingresos por atención a paCie-ntes?
_ln_gresó _po(s~rviCio Tipo de hospital
{millones de dólares)
Católico Otra 1;etlgió_rt Beneficencia Público Lucrativo
$46.6 59.1 71.7 . 93.1 32.4
51. La_ p~_[Jiícación_Barik RatEi MO"nitor informó las siguientes tasas de ahorro. ¿Cuá! es !a mediana de las. tasas? Medio flnanclero
Tasa de ahorro {porcentaje)
Fondo coin-úrfde mercado dé'díneró
3.01 2.96 3.25 3.51 4.25 5A6
Cüe-nta 08 ri:eíca_do_9e_-di_~ero_ b;$ílcarici Certif1_c_ado})_e· de~ó~í~o-_tm_nca,rto ~ 9 .m_es8_s Certíficado ée depósito bancario a 1 año y~rtif\c3~_q. de_: d~P,?si_to ,bru:c?ri_o a-_2.~_ añ_ós Certificado. d_e depós_ito ba_Dca~lo a-5 añ_os
52. La American Automo_bllé_.L\ssoC_!ati_on (AAA} verific_a !os-precios- de-gasonn·a 'en forma anticipada cori·re_lación a losfines·d~_semanay días festivos._A continuacíón· se ilÍdican los precios de auto~ervic_to en una m_~1e~tra·-d_e 1_5 gasolfnerías durante un-fin de semana_fe_stivo _en el mes ele mayo de 2000; en el área de Detroit, Michigan.
1.44
·1.42
1.41
1.49
1.35
1.39 1.48
1.49 1.39
1.49 1:46
1.41 '1.44
1.46
92
Capítulo 3 a) ¿Cuál es larnedia aritmética del precio de venta? b} ¿Cllál .es la mediana del precio de venta? e) ¿Y cuál es la moda del precio ele ven.ta? 53·.· La ·tabla"siguiente. informa de los sismos· más intensos-por país que ocurrieron entre i 983 y 1995. Se indica su intensidad, medida en la escala Richter, y la cantidad de decesos reportados;_ Calcufe la- media y-la mediana tanto de la, iíltensidad sísmica como de la cantidad de falle-- .CimlentoS.--¿Oué.medida,.de.-tendencía-.central' reportaría- para-cada-variable?- Explique- por: quá. País Colorribia
Japón Turquía Chile México Ecuacloí India Cbina Armenia
EUA
Perú Rumailici
Graclos Ríchter Decesos 5.5 7.7 7:1 7.8 8.1 7.3 6.5 7.3 6:8 6.9 6.3 6.5
250 81 1 300 146 4 200 4 000 ·¡ 000 1 000 55 000 62 '114 8
País Jrán
Gi'ados Richter
Decesos
7.7 7.7 6.8 6.2 7.5 7.5 6.4 7.0 6.8 6.0 7.2 7.6
40 000 1 621 1 200 4 000
Filipinas PakiStán Turquía EUA !ildonesia India !ridonesia Colombia Argelia Japón R4Sia
2 000 9748 215 1 000 164 5 477 2 000
54. Se estima que la zona metropolitana de Los Angeles-Long Beach, en California, mostrará el mayor aun1ento en el.número de empleos entre los años 1989 y 2010. Es de esperar que el nüq1ero .de em81e.os aumente de 5164 900 hasta 6 286 800. ¿Cuál es la tasa de incremento anual m_~dia-geométrica-esperad_a?55. La empresa Wells Fargo Mortgage &Equity Trust mostró las siguientes tasas de ocupación en su informe anual para las diferentéS propiedades de oficina que generan ingresos, ¿Cuál es el val6r medio geométrico dé 18: tasa· de oci.Jpación? Pléasarit Hifls, California lak8Wood, Colorado Riverside,:Ca!i'for_nia Scottsdale, Arizona San Antonio, Texas
100º/o 90 80
20 62
56: Uh art.ícülo reciente indicó qúEi siuná per~ória gána $25 000 (dólares) al 8110 el día de hoy, y la_ tasa de inffación__có_ntin-~a e-~- 3%__a¡ fiñ'o'.Ja_r'nis1T1a persona necesitará ganar $33 598 en_ 10 años para ten_~r.. e;! mlsn;_9, _P_oqer _ adqui_~it_ivo:. N~cesitaría ganar $44 771 si la _tas_a de inflación aum_enta _a 6%-:_:_Qonfirgie qLJe _estas 'Cl:sctflra_c¡ones son exactas cafcu_!ando_ la media. geométrica de !a tasa de ·auinento. · 57~ ~a empresa.W611S· Fárgo __j\;1o_rtg_~ge-·&:_E9úíty_Trüst_.expresó las siguientes tasas de ocupación para algunas-de sus· propie.dacles· d9 ingreso-industrial. ¿Cuá! es· ef valor medio geométrico de la tasa de ocupación? Tucson:, Ar_i_zona· !rvilie,-Ca!iforília Carlsbad,_ Cafifor'nia
Dallas, Texas
8:1°/o ·100 74
80
5_8, Los. ren_dimi~-1itos a i_~- meses_ ·c1e cln_(;ó; fondÜ:s rnutualistas de crecimiento dínám1Co _fueron 32.2%~ 35.5%~·_80.0%, 60.9% y 92.1 %. Determine la medía aritmética y media geométrica de ras tasas de rendimiento.
93
Descripción de los datos. Medidas de tendencia central
59. :UriO· d.e- lo_s principales _factores que- repercuten-en ef costo c_uando ·se adquiere una casa es el de: los pagos_m_ensüales def.-pr$stamo.:- Existen·.rnuc!1os sitios.en liiternet donde !os futuros .comp·rador_E;is·. pueden. consU!tarla_s. tasas -de interéS y caltü!ar_sus pagos mensuales.- El Capital BankofVirgini¡¡ analiza la posibilidad de ofrecer préstamos para la adquisición de casas a través de Internet Antes de·.tomar una: decisión·fina!,_:seleccionará una muestra reciente de prést8inos,-con su_s pagos-·mensuales correspondientes. La información se_organiza en !as!,_gLJiente: distribu_cióti-.-de. frecuen_cías.---' Pago mensUal de hipoteca
$ 100 hasta$ 500 500 hasta 90Qhasta 1 300.hasta 1 700 hasta 2 100 hasta 2 500 hasta
900 1300 1 700 2 ·100 2500 2 900
Número di; propietaríos de casa 1 9 11
23 11
4
60 a) Determinéel pago méns~al .medio b} Ca.lcule el pago mensual mediano. 60. EIDepartamentodeComercio del gObierno de EUA, en la Oficina del Censo. informó acerca del número de persot18.s--qu_e percíberi-'ingresos en familias estadounidenses (más de 56 millones): Núrtl_en:f dé perspnas que perci_b.en ingresos
o 1 2 3 4o más
Cantidad. de familias (en miles)
7 083 18 621 22 414 5 533 2 797
a) pe_termine· _ e_l:_ya!or mediano deLn_úrnero de perscin_as _qué perciben ingresos por hogar. b) Determine el V'!lor mod.al .del número de person.as queperpiben ingresos por hogar. e) Explique por qué no Pl[~de calcularse ta media arit.mética del número ele personas que re-
6t.
ci9~n iqgresos por hogar, . · L_a:;,~_qip~8:s,a :?_erv.ic_i?~ _,f:_ryp_. -~-i:rJpJ~í3.: a__4Q_ ·eie·ctricistas, :quienes proporcíonan serv_iciq_ t_anto_ a
?lien'tes~_résidé~ciale_s-~om_a ·él cllentes comerciales. Esta compañía_ínlcló su operación al. principio de la década de1960; ·y ¡;iempre se ha caracterizado por la entrega pronta y confiable _d.\;1_l_:st1rvic;iO<_En fé_ch._a~·--recie_nt8s l_os_dueños d_e la empr_esa ~_e,h_an pr~oclipado por !a. c_ant_idad ¿e lnasistenctas _de-sus--emp!e8.dos. A·cantinuación se presenta una_ distribución de frecuen9ias de_ las-inasistencias.·de- 40 electrlcistas durante e! año· pasado.
l\h.ímero de- electricistas O hasta 3
17
3.. llaSta .,°6 9_.-r1a:sta 12
13 7 3
Total.--
40
6 hasta. 9
8) D8terílifne el-valoY medio de tos días de inaS;iStenCia. b} Determine la mediana de los días de inasistencia.
94
Capitulo 3 62.··En.a~os _recie_n_tes se ha:generado·mücha cdmp_et9ncia: entre·!óáp'íóveedores dé servicio_telé-
fón!cn de larga distancia para·/os-usuarios.residenciafes;- En un esfuerzo por analízar el uso rea! de:téféfbno· -de-1os_,cf.í'ehtes. íesiden·cial_es_,- _uria-·agencla_ íridep6i1d_iente de c_qnsu!toría reunió la si~uiente-inform~ción:relativa _a la._cartldad'-de. llamadas· telefónicas _de ,l_arga, distancia por casa,: considerando una muestra·de.70.
3hasta 6 6 hasta 9 9hasta 12 12hasta15 1s nastá1s 18 hastá21
5 19 20 20
4 2 70
Total
a) Determine la media del 11Útner6 cie llarnadas por casa. b) Deter.mine el valor de 1.a mediana para el número de llamadas por casa. 63. En una muestra de :¡o ciudades de Estados Unidos con poblaciones quese encuentran entre 100 000 y 1 000Ó00 habítanjes, se enccintrc))a SiQUiente distribución de frecuentias para el costo diario de una habitacióndol:ll0c.en un hospital,
Costo..de.·una•habitación de, hospital
Frecuencia
$too has!a.$200 200 hasta 300 hasta 400 hasta 500 hasta Total
300 400 500 600
9
20 15 50
a) Calcul0c el costo medio por día. b) Determine el costo mediano por día. 64. Una muestra dé 50négocian1es dé Elntigüedades en el sudeste de Estados U.nidos reveló tas siguientes ventas (en dólares) en et año pasado:
Véntas {ITJilesd~
dó.1.ares¡· .10Qa}20 120 al40
~~ni_er_o ___-
de •ITJpresas
1.40 aJ60 • 160.aJ80 .180.a 200 200á 2.20
16 10 3
a) Calcule.tarnediade tas ven)ás. b) Determine la mediana de las ventas. e) ¿9uál es. eLif!lporte de lapfod
Descripción de los datos. Medidas de tendencia central
95
·nempo_:completo Número de camas: Menos ele ·1 oo 100a300 300 a 500
500.. o.más .. úbicaclón del hos¡jita1: Subcrbano Urbano Rural Clase de hospital: Privado, no lucrativo UniverSitario Comunitario, no !ucrativo Privado, lucrativo Público
Tíeinpo parcial
$17.05 18.35 18.50 .19.40:..
$17.10 19.40 20.15 20JO.
19.20 18.70 16.80
20.15 20.25 16.70
18.80 18.70 18.50 17.90 17.45
'1985 19.10 18.85
•
•
*Datos insuficientes
~-sCrlb8 u_n re_s·_1.1.íllen de ios_ resultado_~· _As_eg.Ú~e~e ct8 inc.IUir información relativa a la difere_nc"ia (:)n :r?,s _sue!dos_-_d~_ tiempo completo y !os de tiempo 'parcfa! ele las enfern1eras, así como entre las categorías..de los hospitales. 66. ~a sig~iente información ilustra el perfil del compradortípico de bienes raíces en Estados Unidos, para 1999 y 2000. Redacte un informe breve que resuma los r.esultados. ¿Qué cambios observó entre.. 1999 y 2000? ¿Cuáles son algunas de las diferencias entre los compradores de
prímera vez y loS compradores recurrentes? Compradores de. prim'era vez ~o_s~o.-·ftl_edio de· w_~~-·-casa ·pafa una· Soia·fa·mma Ca~as-.visitadas a_nte~_ d.e
comprar Media 'de! pago ele hípoteca mensual Valor íliedio de. !a-edrid
Compradores recurrentes
1999
2000
1999
2000
$156'400 12.9 $950 31.6
$147400 12.5 $945 3l.6
$195 300 15.6 $•1 076 41.0
8212 700 15.7 $1114
41.7
'ªierciciós;com 67'._John Har~y--es el_ aSesbrde inVersioneS_cte·varias personas en la re_gión d~ Richm.ond, Virginia. Se lepid.iq gLI('i comparara la rentabiliqad d~ losbanc?s en el nqreste con la de los bancos en · el sureste,. La página. en Internet de.Yaho(}le permite efectuar tal.investigación rápidamente. yaya;a http:!/www.yahoo;com; pulse en Stock Quotes, bajo Re~earch, sel.e.ccione By In' duS!ry;seleccioneBanksyluegoelija NortheastRegion,·Obtenga la ganancia por. acción en el_-l1lti:mn trirnestre·_e_~- ro_~_ba~c.os--_9~1- po,rCJe_ste.. C_a!c.ute !a ~ana11ci_a- media por acción en esa .re~ gión,Ahora replta todo el proceso con los bancos del sur?este, Es.decir, en el último paso seJ_e~_c_iorte.·:co!Tlo reg,ic)n_·~out~_e~s_t.:_ -D_et_~rft1in¡::·_ la:·ganan~ta-·med1.a por a.ccfó_n en .los bancos.de
esta área, Compare las.dos regiones; ;¿Cuál de las dos parece ser más rentable? 68. Uno de los promedios más famosos es el Promedio Industrial DowJones PIDJ (DJ/A, Dow Janes Industrial Average), pero en realidad no es unprorriedio. Acóntinua.ción .se da una lista de los30g.rupos accionarios queconformanel.PIDJ y sus precios de venta al día 11 de julio de 2000>Calcule la media de los 30 grllpos de acciones, Compare este resul.tado con el precio de cierre, 1o 727J9; .el día 11 de julio de .2000'Después vaya al sitío Dow Jonesen la Red y
lea la h_is~q_r_ia de-est~- pr?m.edio_, Y-'CU~_!~s son ·J_bs grupos·- accí_oriari?.s que se usan_ actua!mente_·pa~a:.caJ.c.~!larlo.·Para o.btener·esta .información vaya; a_:http://vvvVw.dowjones._corn ,_y en-la esquina: inferior -izquierda_ de-- !a página, pulse. en- About D.ow Jones, _seleccion~ -Dow Jones
96
Capítulo 3 lnciuslríal Average, y finalmente pulse en Stocks. El resultado que se obtiene se presenta en el cuadro siguiente. Calcule la media de los 30 grupos de acciones que componen el DJIA actualmente, y compárela con el DJIA del día 11 de julio de 2000. ¿Ha habido algún cambio? ·
JIJ.omhntde la.empresa __ Alcoa lnc.
Am_eriéan Express Co. AT & T caip. Boeing Ca. Caterpillar !ne. Citigroup in·c. Coca-Cola Coo DuPontCo. Eastman Kodak Co. Exxon Mobil Corp. Genera! Electric Co. General Motors Corp·. Home Depot !ne.. H_o_~ey_~eu:intérnatibnal ln_c~
Hewlett-Packard Ca. fnte~natíona_l-Business Machines Corp. lnte_l.C_orp. fnt¡¡rnational Paper Co. J.r Margan & co, Johnson & JohnSon McDonald's Corp. Merck & Cci: MierosoftCorp. MinneSóta.Miniíl"g & _Manu_factl1ring Co. Phi!i'p Morris Cos. Procter & Gamble Co. SBC Communications lnc. United Technologies Corp. Wal-Mart Stores !ne. Walt Disney Co.
Símbolo ..
(AA) (AXP) (T) (BA) (CAT) (G) (KO) (DO) (EK) (XOM) (GE) (GM) (HD) (HON) (HWP) (IBM) (INTC) (IP) (JPM) (JNJ) (MCD) (MRK) (MSFf) (MMM) (MO) (PG) (SBC) (UTX) (WMT) (DIS)
__ ~reCio
___ Pdnderación.en.o/o
316875 53 5625 31 8750 441250 35 9375 65 8750 56 0000 46 5625 60 6250 80 4375 52 7500 62 0625 571875 35 ll125 124 8125 1013750 138 8125 34 8125 117 9375 99 6250 32 3750 74 3750 7B 8750 884375 . 25 9375 545625 44 2500 59 3125 61 8125 37 4375
1677 28.35 1687 2335 1902 3 487 2 964 2464 3 209 4258 2 792 3 285 3 027 1 895 6 607 5 366 7 348 1 842 6 243 5 273 1 713 3 937 4175 4 681 1 373 2888 2 342 3139 3 272 1 981
·~.Je.rcicios·.con clatgs paracomputadgra 69. Cons~lte el c0nj.unto de datos .de bienesraíc~s (Reatsiate) que rep 0rtan la inform"lciónrelá,. cionada.c~n las casas .que, s.eve.ndieron.enl,a zon!l de Vepice,.Florida, durante ~I ·año. pasadq. a) Determine la media y la median~ de los pre.~ios deventade las casa¡;.· ¿Una de estas.medidas_ d~ tendencia: central_. resulta ser,.rn~j_or,._,_o,- más,: representativa, -qqe_ f_a- otra?b) Det13.rml_n~-.ro~ val.ores:-1n_!3dio Y- _nl~,diano.:deJ_a_:oantldad.-'._d(3'-~º-rmit?_rios, en_ u~a cas8..típlc~: .-¿_.l,Jna _de estas.rne_did<;Is de-t_1;;1nde_nci<::1._·_central:_re_surta s_er·_m_ejor, o·_más- representat_iya,. qu13 ~~
.
e) Evalúe la medía y la.mediana de la caotid¡¡d de.cuartos de bañó en Una casa típica: ¿Una
de estas medidas detendencía e.entra[ resulta ser mejor, o más representativa, que.la otra? d} Calcule la. mediayJa me(jianade la distancia de la casa al centro de la ciud~d. ¿A cuán· tas·mi!fCis.est:á !atasa.típic_a;-_·des_de eLcentr~:de--la ciu(]ad?-:tUna de esta_s m_edidéls de ten-:. _dencia-_c_entra! resulta_;.Ser rnejo_r1.o;m_ás:representatíva, QU6_:1a- otra?
.70. Consulte el conjunto, de datos de béisbol (f3asebal/ 2000), que. informa acerca cie los 30 equipos. de béisbol de liga.mayor para la temporada 2000 en EUA
Descripción de los dalos. Medidas de tendencia central
97
a) Determine Ja medía y la mediana ele !os sueldos en. los equipos. ¿Una de eStas medidas de te11den9ia.central re~u!ta__ ser 1nejor,. ·º m.ás represe_ntativa, qu~ la otra? b} Calcule la media y la mediana de las cifras ele asistencia del pliblico por equipo. ¿Una de estas medidas de tendenc_ia. c_entra_I resulta ser__mejor, __o m_ás representativa, que_ !a otra? e) Determine !a media y la-mediana·derl núm·ero de-home ~uns _ por equip_o. ¿Una de e_stas me-º dídas de tendencta central resulta ser mejor, o más representativa,· que fa otra? .. d) Evalü~.la;tasa.cle aumento en .los suelclosde. los.jugadores de.1989 a2000.Como; base.de comparación, en 1998 el índice ele precios al consumidor (IPC) fue 118.3. En. el año 2000 fue 166,9. Calcule la tasa de cambio de la inflación en el IPC y compárela con la tasa de cambio en los salarías de los jugadores de .béísboL 71. consulte el conjunto de elatos OECD que reporta información acerqa de los datos de censos, económicos y de negócios para-29 países ·s'eteccionados. a) Calcule la media, la mediana y la.moda de la variable utilizada. ¿Qué (T1eelida de tendencia central parece ser la más représentatiVá de lóS datos? b) Determine .la media, la median.a y la moda del porcentaje de la población cuya edad es superior a 65 años. ¿Qué m_edfda de tendencia-central es !a más rep_resentativa de lo_s datos? 72, Consulte el. conjunto de datos de escuelas (Schoo/s) que se refiere a los 94 distritos escolares en el noroeste de Ohi.o. a) Determine los valores medi.o y mediano del sueldo de los profesores pará.este grupo de distrito_~_ escolares'._¿Un_o de-los promedios es.más r~presentátív_o que- e!·_otrci? b) Obtenga los.valores medio y mediano del número de estudiantes para las escuelas de es' te_-_g_rupo: ·¿Un_a medida de ten~qenci~ centrf}_l parec_e ser_ más rEJpr~s,7_ntativa,:_que la otra?c) Determin.e la media y la mediana del ingreso monetar.io para este grupo de distritos escolares. ¿Una iTledida de t8rldencia cenfrafpcire_Ce·ser·rrt'áS repréSehfati_Va_ qué f8. Otra?
~~~-"-~. -~~·---~~-~~-
Los comandos de Excel para la estadística descriptiva, de 1¡¡página]6 .son: 1. Del CD de datos abra el archivo de datosWhitner, llamado Tbl2,1: 2. De la barra de_ menú. sefeccione H~.r~amient_a,s y desp_ué_$ Análi$1s _dé _b_ato_s. Se!ecciorie· Es· tadística Descriptiva y después pulse en Aceptar. 3. Para el Intervalo de enlrada, tecleeA1:A81, luego indique qlle losoatos están agrupados por columna y que hay etiquetas en la primera fila. Presione en el lnterva!Ode salida, indique que el resultado. irá a D1 (o adonde usted quiera) y marque que desea un Resumen de estadísticas, ·después· pu!se en Aceptar. . . . . , 4. Después ele obtener sus resultados, verifique nuevamente.el conteo en et. resU!tado Para aSe.:. gu_rarse que incluye el nútneio corre'cto de _elementos.
98
Capitulo 3
EX n: $267100
b) p}
d)
2. a)
4
5 14,,
'$66775: -----
34
- _,
<
42
110a120 120 a.130 1.30a 140
Es.tadí~ti.co, porq~1e es qn valór mueWaL $66 775 (dólares).La megia ,mH~stral es .la mejar.estfma9ión eje Ja rnedia de po. blación.
J(ent~~ _o_~:ta_s_
' '
' .·..
$3ª'..>-
3.4
i.
:),~.
,/
' . · .. ···.' ... .
i~e se obtiene ele (6 + 8)/2 =
~ ~~roxirT1adarr¡ente 8.3.9%. •b) e)
.· 7.
)\~\9xirTl~(j~IT1·~~!e}Qo°'95,~.u. s· Mayor.que:, pues 10.o95> 8:39.
·'e·
3.5
1.
z
20
244
X.=
'EfX.·.;,., . ·.$244 ~.··$.·l 2. 2 h. ' 20 . ' .
·' 50.-.27 . $7 + -c;¡:o ($3) $8 725
§ ~
hcJ./'-c-c-c-...--~l__,-c-__~···--,---="::'===-J {!l.§ .i'\
s.~3~,Sbteniclocle:j~23° 05:~ 1.0863 .>.c:t:· a) Frequef¡cy <:listributión. h) f X f}( ·1 4 4. 4 8 32 ·12.0 10. 12 3 48 16 40 20
go··. 100
M~d1ana =
obtiene el~ $200(9o?to) ,_ $25(c~mi sión). La gananciatatál par;10;; 300 tr~je~ e~ $3, 60()slólare:s, que r~sull,a de. 300 x $12. 1. ' a) $!139.dólares. ' • . ;;
f//
1
bJ La gariaricia P?.r .traje "" $i•2 ctqrares, qcte s~
b)
27_ '---.
(!.)a -1,o10 a. l3 '13omás
·~
~ 105.5
13:
.4a /',,.-- .....\
(10)
actffíiulativo
$.la$ 4
o/037)
14
Porcent~je
{miliones_-d{3Jióléires}
:_Pé1,~án:1_~iro;;:,;:porqUe: _:~~---/~aJc;úiO_ liS~hd8
todt¡e Jos valares de la población $237 (dglares), que se.óbtiene por:
··~
20
"' 100 + 5.5
(95 X$400) + (126 x $200)+ (79 ~ $1Q0) 95+.126+79 '
2.
25
Mediana= 100 +
L,'(
µ=-·,·
2.
a)
50
50
'• N
é)
48
6 2
~·¡~
Ventas sernanáles ($ OOó)
qon ·
ses.go.. ·pasitivo;:-y_a--que. !a fl)0di_a -es_ ,~I mayor pr()medi_o_, y-!a,-_moda,'·el_ n1enor.
O!E'l,UE"['~VOS
Al terminar este capítulo podrá:
UNO . Calcular e interpretar la amplitud (o intervalo de variación), la
desviación media, la varianza y la desviación estándar ele claíos no agrupados.
Calcular e interpretar la amplitud de variación, la varianza y la desviación estándar ele datos agrupados. TiiFU~©
Explicar las características, . usos, ventajas y desventajas de cada medida.
La distribución cid peso en una n1ucstra de l 400 contenedores en un barco carguero es de tipo nonnal. Con base en b regla crnpírica, ¿qué porcentaje de .los pesos estará ent.re la 111cdia y dos desviaciones e.5tándar? (Ver objetivo 5 y ejercicio 26.)
cuJJp:rr~o
Entender el teorema de Chebyshev y la regla normal o empfrica, con relación a:.un conjunto de observaciones.C~~(~O
Calcular e interpretar los cuartiles y la amplitud cuartílica o intercuartilica.
Elaborar e interpretar los diagramas de caja.
Calcula(yentencler el coefi-
Ciéiite·de··aSimetria
y élboeficiedte de variación.
100
Capitulo 4
En el capitulo 2 se inició el estudio de la estadística descriptiva. Los datos sin procesar se 01·ganízaron en una tabla de distribución de frecuencias, y después la distribución se presentó en forma gráfica usando un histograma o un polígono de frecuencias. Esto permitió visualizar dónde tendían a acumularse los datos y la forma general de la distribución. En el capitulo 3 se calcularon varias medidas de tendencia central, o promedios, con10 usualmente se denominan. Esto permitió definir el valor típico de un conjunto de observaciones. En este capitulo se continl1a con el desarrollo de tnedidas para describir un conjunto de datos, concentrándose en las medidas que describen la dispersión o variabilidad de los datos considerados.
¿]Y~~-9~~~~~J~~--~~~diar la disrJersiót1? Un promedio, como la media o la mediana, solamente localiza el centro de los datos, y esto es importante desde ese punto de vista; pero un promedio nada indica acerca.de la diseminación de los datos. Por ejemplo, si una guia geográfica informa que el. cauce de un río tiene en promedio 3 pies de profundidad, ¿lo cruzaría sin tener información adicional? Probablemente no. Desearía saber algo acerca de la variación de la profundidad. ¿Es la profundidad máxima del río de 3.25 pies, y la mínima de 2. 75 pies? Si es el caso, probablemente decidiría cruzar. ¿Qué ocurriría si se entera de que la profundidad del río varia de 0.50 pies a 5.5 pies? Su ~ecisión probablemente seria no atravesarlo. Antes de decidir si cruza o no el río, usted necesita información acerca de la profundidad típica y la variación en la profundidad del río. Un valor pequeño en una medida de dispersión indica que los datos se acumulan estrechamente, por ejemplo, alrededor de la media aritmética. En consecuencia, el valor medio se considera representativo de los datos. Por el contrario, una medida de dispersión grande indica que la media no es confiable. Consulte el diagrama 4.1 donde se han organizado los datos de los 100 empleados de Struthers & Wells, lnc., una compañia fabricante de acero, en un histograma basado en el número de años que han sido empleados de la compañia. La media es 4.9 ai1os, pero la variabilidad de los datos va de 6 meses a 16.8 años. El valor medio, 4.9 años, no es muy representativo de todos los empleados.
20 El promedio no es representativo cuando la dispersión es amplia.
~
o
-O
"'ro
o_ E w
o o
10
20
Años 1J[tHiffi.i1<~d~A.
4.11
l-]istogran1a ele los años de servicio en Struthcrs & \Vclls, Inc.
Una segunda razón para estudiar la dispersión de un conjunto de datos es con1parar la dispersión en dos o más distribuciones. Por ejemplo, supóngase que la nueva co111putadora PDM/3 se ensambla en Batan Rouge y también en Tucson. La media aritmética de la producción diaria en la planta de Batan Rouge es 50, y en la de Tucson también es 50. Con base en ambos valores medios se podría concluir que las distribuciones de las producciones diarias
mras medidas descriptivas
101
son idénticas. Sin en1bargo, los registros ele producción de nueve días en !as dos plantas revelan que esta conclusión no es correcta. 0fer el diagrama 4.2.) La producción en Batan Rouge varía de 48 a 52 ensambles por día, pero la producción en Tucson es más errática, ya que varía de 40 a 60 ensambles por día.
Una medida de dispersión se puede utilizar para evaluar la confiabilidad de dos o más promedios.
40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
x Producción diaria
D[AGRAMA 4.2
Producción diaria de co111putadoras en las plantas de Baton Rouge y rfucson.
l\!Iellidas ele disoersiór1 '
Ahora-se considerarán varias medidas de dispersión. La amplitud de variación o interva/0 1 se basa en la localización de los valores más grande y más pequeño de un conjunto de datos. La desviación media, la varianza y la desviación estándar se basan en las desviaciones respecto de la media.
111te:rvalo) La medida de dispersión más sencilla es la ampiitud de variación. Se trata de la diferencia entre el valor más grande y el más pequeño de un conjunto de datos. Expresada como ecuación: Amplitud de variación= Valor más grande - Valor más pequeño
[4.1)
El intervalo se utiliza ampliamente en las aplicaciones del control estadístico de procesos (CEP) (en inglés, SPC; de statística/ process control). Sus aplicaciones se analizan en el capítulo 17.
Consulte el diagrama 4.2. Determine la amplitud de variación del número de computadoras producidas en las plantas industriales de Batan Rouge y Tucson. Interprete los clos intervalos.
SOLUCIÓN
La amplitud de variación en la producción diaria de computadoras en la planta de Batan Rouge es 4, se obtiene de la diferencia entre la producción diaria mayor, que es 52, y la 1 En inglés se utiliza el término range para designar la amplitud de variación, pero se traduce en forma incorrecta como "rango". Conviene evitar este ermr. El término rank, en idioma inglés, sí equivale a rango, pem con el signiíicado de jerarquia o grado.
102 menor, que es 48, La amplitud de variación de la producción diaria en la planta de Tucson es 20 computadoras, ya que 20 ~ 60 - 40. Por tanto, puede concluirse que: 1) hay menos dispersión en la producción diaria en la planta de Batan Rouge que en la de Tucson, porque la amplitud de variación de 4 computadoras es menor que la de 20 computadoras, y 2) la producción en la planta de Batan Rouge se acumula más cerca de la media de 50, que la producción en la planta de Tucson (porque el intervalo de variación de 4 es menor que uno de 20.) De esta forma, la producción media en la planta de Batan Rouge (50 computadoras) es un promedio más representativo que la media de 50 computadoras para la planta de Tucson.
Desviación media Un defecto importante de la amplitud de variación es que se basa sólo en dos valores, el máximo y el mínimo; no considera todos los datos. La desviación media sí lo hace, y mide el monto medio en que varían los valores de una población, o muestra, con respecto a su media. En términos de una definición:
pat'1 ser ent-fega~rt, _Ó
bien, ·¡;Odrfa-úcccsifür de' variós dfas. "Sóló indíqü_erqe coü_·c_rnín~os_ dfa~-.de
Desviación media Es el promedio aritmético de los valores absolutos de las desvía· ciones con respecto a !a media aritmética. En términos de una fórmula, la desviación media para una n1uestra, indicada por DM, se expresa como sigue:
anticipádón; ne-
Fésitcfcnyi;;ir _csb1Jarjeta de Cun1pleañóS a ni( madre para que llegue a tiernpo, ni nntes ni después", era una peti-
ción cornún ..J!J nivel de. consistencia se n1idc c_on la desviación eshíndar de los- tiempos de cnlT_ega._
Unü (k~via~_
ción_ rc:blíva111_en_te pc-
quefü1 indica mayor consistencia.
DESVIACIÓN ME!JJIA
D!Vl"' L:IX -
n
x¡
[4,2]
donde: X
es el valor de cada observación. es la media aritmética de los valores. n es el nl!mero de observaciones en la muestra. 11 indica el valor absoluto. En otras palabras, cuando no se toman en cuenta los signos algebraicos de las desviaciones respecto de la media. ¿Por qué no se consideran los signos de las desviaciones respecto de la media? Si no se hiciera así, las desviaciones positivas y negativas se compensarían, y la desviación media sien1pre sería igual a cero. Tal medida (cero) sería un valor estadístico inútil. Co1110 se consi-· deran desviaciones absolutas, la desviación media suele denominarse tan1bién desviación media absoluta, simbolizada por DMA. Generalmente se abreviará como DM.
X
El número de pacientes atendidos en la sala de urgencias del Hospital St. Lul
SOLUCIÓN
J
La desviación media es el promedio segl1n el cual las observaciones indiv!duales se desvían respecto de la media aritmética. Para obtener !a desviación rnedia de un conjunto
103 de datos, se comienza evaluando la media aritmética. La media del número de pacientes es 102, valor obtenido de (103 + 97 + 101 + 106 + -iü3)/5. Después se determina la magnitud en que cada observación se desvía respecto de la media. Luego se suman esas diferencias, omitiendo sus signos, y se divide la suma entre el número ele observaciones. El resultado es el valor medio en que las observaciones se desvían con respect_o al pro_medio._ Un valor pequeño en la _cl_esviaclón indica que_!a media es representativa de los datos, en tanto qce un valor grande en la desviación indica dispersión en los datos. A continuación se muestran los detalles de los cálculos utilizando la fórmula (4.2). Múmero de casos
103 97 101 106 103
(X-X)
(103 - 102) = 1 (97 -102) = -5 (10-1 -102) = -1 (106-102)= 4 (103 -102) = 1
·~·~···~ 1 5
1 4
Total
DM= LjX-Xj
n
-
-tl _J
12 = 2 4
5 .
.
La desviación rnedia es 2.4 pacientes por día. El número de éstos varía, en pron1edio, en 2.4 pacientes por día respecto de la media de 102 enfermos diarios.
La desviación media tie11e dos ventajas. Primero, utiliza en su cálculo todos los valores en la muestra. Recuérdese que la amplitud de variación solamente utiliza el valor más alto y el más bajo. Segundo, es fácil de comprender, pues representa el promedio en que los valores se desvían con respecto a la media. Sin embargo, su principal desventaja es el uso de valores absolutos, ya que generalmente es difícil trabajar con ellos. En consecuencia, la desviación media no se usa con !a misma frecuencia que las otras medidas de dispersión, como es el caso de la desviación estándar.
a) ¿Cuál es !a amplitud de variación de los pe~.os? b) Calcule !a ni8dia aritrnética de los valores. e) Determine la desviación ,_media de !os pesos.
1¡::¡;
•..,.':_
o
L,¡el,~!ClOS
Para las preguntas ·1 a 6 calcule: (a) la amplitud de variación, (b) la media aritmética, (c) la desviación media y (d) interprete la amplitud de varíación y la desvlación medía. í. Cinco representantes de servicio a! clíente de la empresa Electronic Super Sto re, que trabajaron el Llltin10 viernes, vendieron respectivamente 5, 8, 4, 1O y 3 videograbadoras (VCR.) 2, E! Departamento de Estadística de !a Western State University ofrece ocho cursos de estadística básica. Las siguientes son las cantidades de estudiantes inscritos en tales cursos: 34, 46, 52, 29, 41, 38, 36 y 28.
104
Capitulo 4 3. La empresa Dave's Automatic Door instala mecanismos automáticos para la apertura de las
puertas de un garaje. La siguiente lista índica el número de minutos necesarios para tal instalación en una muestra de 1O puertas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42. 4. Se examinó una muestra de ocho compañías en la industria aerospacial con relación a sus rendimientos sobre la inversión el año pasado. Los resultados son {en porcentajes): 10.6, i 2.6,
14.8, 18.2, 12.0, 14.8, 12.2y15.6. 5. Diez expertos· evaluaron una pizza recién desarrollada, según una escala de í a 50. Sus clasificaciones fueron: 34, 35, 41, 28, 26, 29, 32, 36, 38 y 40. 6. Una muestra de !os archivos personales de ocho empleados varones de !a empresa Acme Carpet indicó que, durante un periodo de seis meses, no asistieron al trabajo por enfermedad los siguientes números de días: 2, O, 6, 3, 1O, 4, 1 y 2.
La varianza y la desviación estándar se basan en las desviaciones al cuadrado (o cuadráticas) con respecto a la media.
La varianza y la desviación estándar se basan en las desviaciones con respecto a la media.
Vrurfanza
La mecliil aiii'11ética de las de~viaciones cuadráticas con respe'cto a la media.
Cabe indicar que la varianza es no negativa, y es cero solamente si todas las observaciones son iguales.
Desvfad6Íru tsrandar
La. raíz cuadra.da positiva d~ la varianza.
Varianza poblacional Las fórmulas para la varianza poblacional y la varianza muestra! son un poco diferentes. Primero se considerará la varianza poblacional. (Recuérdese que una población es la totalidad de las observaciones o datos que se estudian.) La varianza poblacional de datos no agrupados, es decir, los datos que no están tabulados en una distribución de frecuencias, se obtienen por medio de la fórmula:
[4.3]
donde: a2
X ¡.e N
es el símbolo de la varianza de una población (a es la letra griega sigma minúscula). Se expresa comúnmente como "sigma cuadrada". es el valor de una observación en la población. es la media aritmética de la población. es el número total de observaciones en la población.
Las edades de los pacientes del pabellón de aislados en el Hospital Yellowstone, son 38,
26, 13, 41y22 años. ¿Cuál es la varianza de esa población?
SOLUCIÓN
Edad (X)
38 26 13 41 22 14.0
X-µ
(X - µ.)'
+10.
100 4 225 169 36 534
-2¡ -15i +13 -6 O'
i:x
140
µ~-~-~28
,
N 5 L(X- ¡.e)' N
O'~---
~ 534 5 ~1068 .
'la suma de las desviaciories de la media debe ser igual a cero.
Otras med;das descriptivas
105
Igual que la amplitud de variación y la desviación media, la varianza se utiliza para comparar la dispersión en dos o más conjuntos de observaciones. Por ejemplo, se calculó que 106.8 es la varianza de las edades de los pacientes del pabellón. Si tal medida para las edades de todos los enfermos de cáncer en el hospital es 342.9, puede decirse que: 1) hay menos dispersión en la distribución de las edades de los hospitalizados en aislamiento, que en la d.e los pacientes de cáncer (porque 106.8 es menor que 342.9); 2) las edades de los pacientes aislados se acumulan más cerca de la media de 28 años, que las de los enfermos de cáncer. De modo que, la edad media para aquéllos es un promedio más representativo en comparación con la media para todos los pacientes que padecen enfermedades cancerosas. La varianza es difícil de interpretar porque las unidades están al cuadrado.
La desviación estándar se
presenta en las mismas unidades que los datos.
Desviación estándar poblacional La interpretación de la amplitud de variación y la desviación media es fácil. La primera, es la diferencia entre los valores más alto y más bajo de un conjunto de datos. La segunda es el promedio de las desviaciones respecto a la media. Sin embargo, resulta difícil interpretar la varianza para un solo conjunto de observaciones. La varianza de 106.8 para las edades de los pacientes en aislamiento, no está en términos de "aíios", sino en "años al cuadrado". Existe una forma de solucionar este dilema. Al obtener la raíz cuadrada de la varianza poblacional, se transforma a un valor que tiene la misma unidad de medición que se utiliza en los datos originales. La raíz cuadrada de 106.8 "años al cuadrado'', es 10.3 años. A esta magnitud: raíz cuadrada de la varianza poblacional, se denomina desviación estándar poblacional. Una fórmula para datos no agrupados es:
La oficina en Filadelfia de la empresa Price Waterhouse Coopers LLP, contrató a cinco pasantes de contabilidad este año. Sus sueldos mensuales iniciales füeron (en dólares): $2 536; $2 173; $2 448; $2 121; y $2 622 dólares. a) Calcule la media de la población. b) Determine la varianza. e) Obtenga la desviación estándar poblacional. d) La oficina en Pittsburgh contrató 6 pasantes. Su sueldo mensual promedio fue de $2 550 (dólares), y la desviación estándar, $250. Compare ambos grupos.
Ejercicios 7. Considere los cinco valores siguientes como una población: 8, 3, 7, 3 y 4. a) Determine la media de la población. b} Evalúe la varianza poblacional. 8. Considere Jos seis valores siguientes como una población: 13, 3, 8, i O, 8 y 6. a) Calcule la media de la población. b} Halle el valor de la varianza. 9. E! reporte anual de !a empresa Dennis Industries señaló los siguientes dividendos pri1TJarios por acción común (en dólares) para los cinco años anteriores como: $2.68, $1.03, $2.26, $4.30 y $3.58. Considerando estas cifras como valores de población, calcule: a) La media aritmética de !os dividendos primarios por acción comlln. b) La varianza correspondiente. 10. Con relación al ejercicio 9, el reporte anual de la empresa Dennis Industries también dio !os siguientes rendimientos del capital para los accionistas, en el mismo periodo de cinco años (en porcentaje): ·13.2; 5.0; 10.2; 17.5 y 12.9.
106 a) ¿Cuál es !a media aritmética de esos valores? b) ¿Cuál es la varianza? i"l. La con1pañía Plywood, !ne. reportó los siguientes rendimientos del capital para los accionistas, para cinco años pasados: 4.3, 4.9, 7.2, 6.7 y i í .6. Considérelos como valores de una población. a) Calcule !a amplitud de vaiiación, la media aritmética, !a varianza y la desviación estándar. b) Compare los rendimientos ele esta compañía con los de la ernpresa Dennls Industries, citados en el ejercicio 1O. 12, Los ingresos anuales de los cinco vicepresidentes de TMV Industries son (en dólares): $75 000; $78 000; $72 000; $83 000 y $90 000. Considérelos como una población. a) ¿Cuál es la amplitud de V3.riación? b) ¿Qué valor tiene la media aritmética de los ingresos? e) ¿Cuál es la varianza poblacíonal? ¿Y !a desviación estándar? d) Los ingresos anuales {en dólares) de ·funcionarios de una err1presa semejante también se estudiaron. La media fue $79 900, y la desviación estándar, $8 6i2. Compare las medias y las dispersiones de las dos empresas.
"\/arianza 111uestral La fórrnula para la media pobiacional, dada en ~i capítulo 3, esµ o::: LJ(Jr"\J. Sólo se han cambiado los símbolos para la medía muestra!, que es X= 2)(/n. Desafortunadamente, la conversión de !a varianza pob!acional a la varianza muestra! no es tan directa. Debe hacerse una ligera modificación en el denominador. En lugar de introducir n (número en !a muestra) en vez de N (número en la población), el denominador se hace igual a n -1. Por tanto, la fórmuia para !a varianza 111uestra! es:
VAR!il;NZA !\llUESTRAL, ·FÓRMULA DE LA DESVIACIÓN
s'
:E(X-'XJ' n~1
[4.5]
,_____,~~~~~~~~~~~~~'
donde: s 2 es X es X es n es
e! símbolo para representar la varianza muestra!. el valor de cada observación en la muestra. la media de la muestra. e! número total de observaciones muestraies.
¿Por qué se hizo ese cambio, al parecer insignificante, en et denon1inador? Aunque el uso den sea lógico, tiende a subestimar la varianza de la población, o- 2 . El uso de (n-1) en el denominador proporciona la corrección adecuada para esta tendencia. Como se utilizan en prin1er lugar valores estadísticos de 111uestra, como s 2 , para calcular pará111etros de la población, como cr 2 , es n1ejor usar (n - 1) en vez den, cuando se dHfine la varianza muestra!. Ade111ás, también se puede aplicar esta convención cuando se calcula la desviación estándar de una muestra. Puede demostrarse que
El segundo término es n1ucho más fác!I de utilizar, incluso si se emplea una calculadora de mano, porque evita tocias !as sustracciones, menos una. En consecuencia se recomienda e! uso de la fórmula (4.6) pam determinar una varianza muestra!.
[4.6}
í07 Los salarios por hora en una muestra de operarios de medio tiempo en la ernpresa Fruit Paclcers, lnc., son (en dólares): $2, $1 O, $6, $8 y $9. ¿Cuál es la varianza muestra!?
SOUJCIÓN
La varianza inuestral se calcula utilizando dos rnétodos. /-\la izquierda se presenta el método de la desviación, utilizando la fórmula (4.5). A la dei-echa se indica el método directo, en el que se aplica la fórmula (4.6).
X=
:i:X
n
Ernp!eando las desviaciones al cuadíado con respecto a la rnedia:
=
$35 5
=
$? Usando la fórrnula directa:
Salario
Salario
por hora {X)
por hora
$ 2 10 6 8
X-X -$5 3 -1
{X-Ji)'
(X)
X'
25 9
$ 2
4 'IDO
'ID 6 8
g
2
4
9
$35
o
40
$35
2 s=
:Z(X -X) 2 n-1
("X¡' :¿xz - __:::___
40
=-5-1
= 10 (dólares al cuadrado)
36 64 81 285
sz
=
n
n- 1 (35) 2 5 5-1
285--~
40
5-1
= 1 O (dólares al cuadrado)
Des-viación estándar muestral Este concepto se utiliza como un estimador de la desviación estándar poblacionai. Según se indicó antes, esta L!ltima es la raíz cuadrada de la varianza de !a población. En forma semejante, la desviación estándar muestra! es la ralz cuadrada de la varianza muestra!. La desviación estándar muestra! para datos no agrupados se o.btiene fácilmente como sigue:
La varianza rnuestral en el ejernplo anterior de los salarios por hora resultó ser igual a 1 O. ¿Cuál es la desviación estándar de la muestra?
SOlUCIÓ~l
La desviación.estándar muestra! es $3.16 (dólares), que se obtiene de Viü. Observe de nuevo que la varianza muestral está en términos de dólares al cuadrado, pero al obtener la raíz cuadrada de i O resulta $3.16 en dólares sin1ples, y por tanto está en las mls111as unidades monetarias que los datos originales.
108
Capitulo 4
Los pesos del contenido de varios frascos pequeños de aspirina (en gramos) son: 4, 2, 5, 4, 5, 2 y 6. ¿Cuál es la varianza muestra!? Ca!Cule también la desviación estándar muestra!.
11----i ~
~
"
lC:,]t~rCll(~liCJS
'
~~~-~~~~-~~~-~~-~,·-~~·
En los casos del 13 al i 7 realice lo siguiente: a) Calcule la varianza usando la fónnula de la desviación. b) Calcule la varianza usando la fórmula directa. e) Determine la desviación estándar muestra!. 13. Considere los siguientes valores como una muestra: 7, 2, 6, 2 y 3. 14. Los cinco valores siguientes son una muestra: 1 i, 6, 1O, 6 y 7. 15. El ejercicio 3 se refiere a la empresa Dave's Automatic Door, que se dedica a instalar mecanismos automáticos para abrir puertas de garaje. Con base en una muestra, los siguientes son los tiempos, en minutos, requeridos para instalar 1O puertas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42. 16. La muestra de ocho compañías en la industria aeroespacial, que se consideró en el ejercicio 4, se examir,ó respecto al rendimiento sobre inversión el año pasado. Los resultados son: 10.6; 12.6; 14.8; 18.2; 12.0; 14.8; 12.2y15.6. 17. La empresa Trout, lnc., cría truchas pequeñas en estanques especiales y las vende cuando adquieren cie1io peso. Se aisló Jna muestra de 1O truchas en un estanque y se les alimentó con una mezcla especial denomir,ada RT-1 O. A! final del periodo experimental los pesos de las truchas fueron (en gramos): 124, 125, ·125, 123, 120, 124, 127, 125, 126 y 121. 18. Consulte el ejercicio 17. Se utilizó otra mezcla especial, AB-4, en otro estanque. La media de una muestra determinada resultó ser 126.9 (gramos), y la desviación estándar, 1.2. ¿Qué alimento produce un peso más uniforme?
-¡,,;1[ l!• ~ l _"o/Jl(::(~li(13§ CrJC
u•,
.0
.,
lla1L
'f..- ·1)n"'"
CllliSpcl'3l~~YlJ!
~J.grtapa~~ifPS e]1- t1]Ji.2 rc]istril1t1f~ión1 iie ~"-=~"~";'~~··~~-~~-~~"~-~~·~~~~-~~~~~~~~---------- --~~~-~~=·~=~,,"
frec11eJl1cias
-
--"~~=•'"'""~~~~~~~-
J\,mn-iTitt1-tli ele 'v21riacióra JL
Recuérdese que la amplitud (o intervalo de variación) se define como la diferencia entre el valor más grande y el más pequeño de una población. Para calcular la amplitud de variación a partir de datos agrupados en una distribución de frecuencias, se resta el límite inferior de la clase más baja, del limite superior de la clase más alta. Por ejemplo, supóngase que se agrupó una muestra de 47 sueldos por hora (en dólares) en la siguiente distribución de frecuencias:
Sueldo por hora
$ 5 hasta $1 O 10 hasta 15 15 hasta 20 20 l1asta 25 25 hasta 30
Frecuencia 6
12 19 7
3
La amplitud de variación es $25, que se obtiene de $30 - $5.
Otras medidas descriptivas
109
Hay que recordar que para datos no agrupados, una fórmula para la desviación estándar muestra! es: (2X)2
2 12x - - s =Y n-1n
Si los datos que interesan están en forma agrupada (en una distribución de frecuencias), la desviación estándar muestra! puede aproximarse al sustituir LX' por LIX' y LX por LIX. La fórmula para !a desviación estándar muestra! se convierte entonces en:
ÓESVJAciióN .ESTÁNDP~R 1 DJ_;\'fOS AGRUPADOS
J.
s= \/
·. · (SfX)2 2fX 2 - - -
l
n-1
n
[4.8]
donde:
s
es la desviación estándar muestra!.
X es el punto medio de una clase. f
n
es la frecuencia de clase. es el número total de observaciones en la muestra.
Una muestra de las cantidades que los empleados de Dupree Paint Company invierten quincenalmente en el plan de participación de utilidades, se organizó en una distribución de frecuencias para su estudio. 0fer la tabla 4.1.) ¿Cuál es la desviación estándar de estos datos? ¿Cuál es la varianza muestra!?
T!J.!BLA 4.1
Muestra de las inversiones quincenales (en dólares) realizadas por en1pleados de acuerdo con e1 plan de participación ele utilidades. Cantidad
invertida $30 hasta $35 35 hasta 40 40 hasta 45 45 hasta 50 50 hasta 55 55 hasta 60 60 hasta 65 65 hasta 70
SOLUCIÓN
Número de empleados 3 7
11 22 40 24 9 4
Siguiendo la misma práctica utilizada en el capítulo 3, para calcular la media aritmética de datos agrupados en una distribución de frecuencias, X representa el punto medio de cada clase. Por ejemplo, el de la clase "$30 a $35" es $32.50. (Ver la tabla 4.2.) Se considera que las cantidades invertidas en la clase "$30 a $35" dan un promedio de $32.50. Similarmente, las siete cantidades en la clase "$35 a $40" dan uno de $37.50, y así sucesivamente.
110 Tf.U3Lf~
4.2
C;Hculos necesarios para obtener la desviación estándar n1ucstral. Cantidad invertida
Frecuem::Ja 1
Punto med~o X
$30 hasta $35 35 i1asta 40 40 hasta 45 45 hasta 50 50 hasta 55 55 hasta 60 60 hasta 65 65 l1asta 70
3 7 11 22 40 24 9
$32.50 37.50 42.50 47.50 52.50 57.50 62.50 67.50
4 ·120
Total
fXxXo IX'
fX
3 168.75
97.50 262.50 467.50 1 045.00 2100.00 1 380.00 562.50 270.00
19868.75 49 637.50 no 250.00 79 350.00 35156.25 18 225.00
$6185.00
325 500.00
$
9 843.75
Para encontrar la desviación estándar de estos datos agrupados en una distribución de frecuencias se procede como sigue:
Paso 1.
Paso 2.
Paso 3.
Cada frecuencia de clase se multiplica por su punto medio. Esto es, se multiplica f por X. De esta forma se tiene para la primera clase, 3 x $32.50 = $97.50. Para la segunda ciase, IX= 7 x $37.50 = $262.50, y así sucesiva;iiente. Se calcula fX 2 • Esto poclría escribirse como D< x )(. Para la pri111era clase serían $97.50 x $32.50 = 3168.75. Para la segunda, $262.50 x $37.50 = 9 843.75, y así sucesivamente. Se suman las columnas IX y IX'. Los resultados son $6 185 y 325 500, respectivamente.
Al sustituir estas sumas en la fórmula (4.8) y despejar la desviación estándar muestra!, resulta:
/"fX2 (IfX)2 - -ns= 1/~ 1
n-1
=
f:325 500 - 318 785.2
,¡=
119
=
$7.51
La desviación estándar muestra! es $7.51. La varianza muestra! es ($7.5if', o aproximadamente 56.40 (en dólares. al cuadrado).
r--¡~;~~;~~lleíl 4. 4 ...... Los ;¡~~;;:-de ::::le ~~na muest~a~e~r~~a:-a-.:~~~u~rto : : pul~:~~;a~~-:·;~~~~-~;:rn1 ~
ponibles en Tóol Renta!, lnc.,
se organizaron en la siguiente distribución de frecuencias. Tiempo (meses)
·1i
1
I
2hasta 4 4 hasta 6 6 hasta 8
•¡;
1
1
l.·1
.
1
·
8hastai0
Lo11astal2. a) Calcule la amplitud de variación. b) Evalúe la desviación estándar muestra!. e) Detennine la varianza de la muestra.
Frecuencia
2 5 10 4 2
! 1 ' ¡'
Otras medidas descriptivas
JI!
Ejercicios En los ejercicios del i 9 al 22 calcule la amplitud de variación, !a desviación estándar y la va-
rianza. 19. Refiérase a la siguiente distribución de frecuencias.
La estadística en acción
Clase o hasta 5 5 hasta 10 10 hasta ·15 15 hasta 20 20 hasta 25
Frecuencia 2 7 12 6 3
20. Considere la siguiente distribución de frecuencias. Clase
Frecuencia
20 hasta 30 30 hasta 40 40 hasta 50 50 hasta 60 60 hasta 70
7 12 21 18 12
21. A cada persona que se presenta como aspirante a un trabajo ele ensamble en la empresa fabricante de muebles North Carolina Furniture, se le aplica un examen de aptitudes mecánicas. Una parte de la prueba consiste en ensamblar un armario basándose en instrucciones numeradas. En la siguiente distribución de frecuencias se tiene una muestra de los tiempos que necesitaron 42 solicitantes para ensamb!ar el armario.
dd<< en cerca durante n1ás de lOG_-qií.os._Sin_e1nbargo,_la desvfadói1 estándar de ese. protncdio ha disrnintíido·de-0.049 a 0J}3L~~sfo iúdib'ü-C¡ite hoy_existe'rnCnof
Tiempo (en minutos}
Frecuencia
2 hasta 4 4 hasta 6 6 hasta 8 8 hasta 10 10 hasta 12 12 hasta 14
4 8 14 9 5 2
22. Una niuestra de las cantidades pagadas (en dólares) por ingresar el auto a un estacionamiento público el día sábado en Downtown Parking Garage, en Toronto, se presenta en la siguiente distribución de frecuencias. Cantidad pagada
"·---· $0.50 hasta $0.75 0.75 hasta 1.00 hasta 1.25 hasta 1.50 hasta 1.75 liasta 2.00 hasta 2.25 hasta
1.00 1.25 1.50 1.75 2.00 2.25 2.50
Frecuencia 2 7 15 28 14 9 3 2
ll2
Capi!ulo 4
En general, la desviación estándar se emplea como una medida para comparar la dispersión en dos o más conjuntos de observaciones. Por ejemplo, se ha calculado que la desviación para las cantidades quincenales invertidds en el plan de participación de utilidades de la empresa Dupree Paint Company es $7.51 (dólares). Supóngase que estos empleados trabajan en el estado de Georgia (en EUA.) Si la desviación estándar para un grupo de empleados en Texas es $10.47, y los valores medios son aproximadamente iguales, esto indica que las sumas invertidas por los empleados en Georgia no se dispersan tanto como las de los empleados de Texas (porque $7.51 < $10.47) Como las cantidades invertidas en Georgia se acuinulan más hacia la rnedia, el va!or medio para estos empleados es una medida más confiable que la cormspondiente al grupo ele Texas.
Se ha indicado que una desviación estándar pequeña para un conjunto de valores, indica que !os mismos se loca!izan cerca de la media. Por el contrario, una desviación con valor grande indica que las observaciones están lejos de la media. El matemático ruso P.L. Chebyshev ¡·1821-1894) desarrolló un teorema que permite determinar la proporción mínima de los valores que se encuentran dentro de un nlimero especmco de desviaciones estándar con respecto a la media. Por ejemplo, con base en el teorema de Chebyshev, por lo menos tres de cada cuatro valores, o 75%, deben encontrarse entre la media más dos desviaciones estándar, y entre la media menos dos desviaciones estándar. Esta relación se aplica sin que importe la forma de la distribución. Además, por lo menos ocho de cada nueve valores, o 88.9%, estarán entre la media más tres desviaciones estándar, y entre dicha media menos tres desviaciones estándar. Al menos 24 de 25 valores, es decir, 96%, se encontrarán entre la media y máS, y menos, cinco desviaciores estándar. En términos generales, el teorema de Chebyshev establece que: riésgo asociado cOú fas clOs inversiones.. Se considera que la inversión con la desviación e.~tándar nuís grande es la que presenta mayor riesgo. En este contexto, la desvii1ción c:slcíndar tiene una fnncirín importante en la forna
f"e1~re:m:ülé C.beb}iifh:év'· Pára ~n conjunto cualquiera de observacfori~s:·.(r:n~eStni.o. población); la proporción mínima de los valores que se encuentran den.tro. de k des, viaciones estándar desde la media es por lo menos 1·- 1/k2 , donde k es una constante mayor que 1.
ele decisiones críticas
coii: resp"écto a la' composición de una cZtrtC-r:l de inversi01ws.
En el ejemplo anterior y su solución, la media aritmética ele la cantidad quincenal que depositan los empleados de la empresa Dupree Paint en el plan de participación de utilidades fue $51.54 (dólares) y se obtuvo una desviación estándar de $7.51. Al menos, ¿qué porcentaje de las contribucio1es se encuentra entre n1ás 3.5 desviaciones estándar, y 111enos 3.5 desviaciones estándar, respecto de la media?
SOLUCIÓN
Aproximadamente 92%, valor que se obtiene como sigue:
1
1-
k2 ~
·1 1 1 - (3.5)' ~ 1 - 12.25 ~ 0.92
Otras rned!das descriptivas
La regla empírica se aplica solamente a clistribuciones simétricas del tipo de campana.
113
El teorema ele Chebyshev se refiere a cualquier conjunto de valores; esto es, la distribución de los valores puede tomar cualquier forma. Sin embargo, en una distribución simétrica en forma de campana, como la del diagrama 4.3, se obtiene mayor precisión al explicar la dispersión con respecto a la media. Estas relaciones entre la desviación estándar y la media constituyen la llamacla regla empírica, que algunas veces se conoce como regla norrnaí.
-(e]"lu;pnidCa-.--Eri-'un'á-di'strÍbúción__ .pe:-,frec-u~nc_ia_S-_:s_ihJét'riC8·, con "forrr1a de campana, aproximadamente 68% de las observaciones estarán entre más una y menos una desviación estándar desde la media; aproximadamente 95% de las observaciones se encontrarán entre más dos y menos dos desviaciones estándar desde la inedia; prácticamente todas. las observaciones (99.7%) se hallarán entre más tres y menos tres desviaciones estándar, a p_artir del valor medi_o. Estas relaciones se presentan en forma gráfica en el diagrama 4.3, para el caso de una distribución en forma de campana, con media de 100, y desviación estándar igual a .1 O.
70
80
90
100
110 . 120
130
l·~5s%~i 1~
íl~J~,GílJHillfi,
4.3
95% 99.7%
'i 1
Gráfica sin1étrica de can1pana, qne inuestra las relaciones entre la desviación estándar y L1 media.
Se ha observado que si una distribución es simétrica y tiene forma de campana, prácticamente todas las ob_§_ervaciones se encontrarán entre la media +3 y -3 desviaciones estándar. De esta forma, si X= 100 y s = 1O, prácticamente todas las observaciones se hallan entre 100 + 3(1 O), y 100 - 3(1 O), es decir entre 70 y 130. Por tanto, la amplitud de variación es 60, que se obtiene de 130 - 70. Recíprocamente, si se sabe que el intervalo es 60, se puede aproxirnar la desviación estándar dividiendo entre 6 la amplitud de variación. En este ejemplo, la amplitud ele variación 7 6 = 60 7 6 = 1O, que es la desviación estándar.
Una n1uestra de las cantidades mensuales de ._dinero que destina a sus alimentos un ciudadano de la tercera edad -que vive solo- sigue aproximadamente una distribución de frecuencias simétrica, de! tipo de campana. La media muestral es $150 (dólares), y la desviación estándar es $20. Utilizando la regla empírica indique: 1. Aproximadamente, ¿entre qué cantidades está 68% de los gastos mensuales en alimentos?
114
Gapílulo 4 2. Aproximadamente, ¿entre qué canlidades se halla 95% de los gastos mensuales por alimentos? 3. Aproximadamente, ¿entre qué montos están todos los gastos mensuales?
SOLUCIÓN
1. Aproximadamente 68% está entre $·130 y $170, que se obtiene por X± 1s $150 ± 1($20). 2. Aproximadamente 95% está entre $·11 O y $190, que resulta de X± 2s = $150 ± 2($20). 3. Casi todos los casos (99.7%) están entre $90 y $21 O, lo que se obtiene mediante ± 3s = $1 so± 3($20).
x
A11!oexamen 4.5
'
1
l ~
La empresa Pitney Pipe Company es uno de los fabricantes nacionales de tubo PVC. El departamento ele control de calidad estudió 600 tramos de diez pies. Midieron el diámetro exterior de los tubos a una distancia de un pie (30.5 cm) desde el extremo .de cada tubo. La media fue ·14.0 pulgadas, y la desviación estándar, 0.1 pulgada. a) Si la forma de la distribución no es conocida, aproximadamente, ¿qué porcentaje de las observaciones estará entre 13.85 pulgadas y 14.15 pulgadas? b) Si se supone que !a distribución de los diári1etros es simétrica, con forma de campana, aproximadamente, ¿entre qué par de valores estará 95% de las obse111aciones?
L __,_,------------------------~---~-------·
!
1 1
J
23. De acuerdo con el teorema de Chebyshev, ¿al menos qué porcentaje de cualquier conjunto de observaciones se encontrará a no más de 1.8 desviaciones estándar desde la media? 24. El ingreso medio de un grupo de observaciones muestrales es $500 (dólares); la desviación estándar es $40. De acuerdo con el teorema de Chebyshev, ¿al menos qué porcentaje de !os in-
gresos se encontrará entre $400 y $600?
25. La distribución de los pesos en una muestra de 1 400 contenedores para carga, sigue aproximadamente una distribución r_ormal. Con base en la regla empírica, ¿qué porcentajes de los pesos se encontrarán: a) entreX-2s y X+ 2s?
b) entre
X y X + 2s? Y también debajo de X- 2s?
26. La siguiente gráfica muestra la apariencia simétrica de una distribución muestra! de calificaciones de eficiencia.
30
40 50
60
70
80
90 100 110 120 130 140
Calificaciones ele eficiencia
a) Estlme la media de las calificaciones de eficiencia. b} Calcule la desviación estándar redondeando al entero más cercano. e) Aproximadamente, ¿entre qué par de valores queda 68% de las calificaciones?
d) Aproxi111aclamente, ¿entre qué par de valores queda 95% de las calificaciones de eficiencia?
Otras medidas descriptivas
115
Dispersión relativa Resulta imposible una comparación directa de dos o más medidas de dispersión (por ejemplo, la desviación estándar de una distribución de ingresos anuales y !a desviación estándar de
una distribución de inasistencias, ambas del mismo grupo de empleados.) ¿Se puede decir que la desviación estándar, $1 200 (dólares), de la distribución del ingreso es mayor que la desviación estándar de 4.5 días de la distribución de faltas de asistencia? Obviamente no es así, porque no podemos comparar directamente dólares y días de inasistencia al trabajo. A fin de realizar una comparación significativa de la distribución de ingresos y las faltas, se necesita convertir cada una de esas medidas a un valor relativo, es decir, a un porcentaje. Karl Pearson (1857-1936), cuya fotografía se muestra a la izquierda, contribuyó de manera importante a la ciencia estadística, y desarrolló una medida relativa denominada coeficiente de variación (CV). Es una medida muy útil cuando:
Cuándo usar el CV.
·1. Los datos están en unidades diferentes (como dólares y días de inasistencia). 2. Los datos están en las mismas unidades, pero los valores medios están muy distantes (como sucede con los ingresos de ejecutivos superiores, y los ingresos de empleados no calificados.)
Coeficiente de variación Es la razón (cociente} de la desviación. estándar y la me:dia aritmética¡ expresada como un porcentajé, En tér111i11os de una fórnula para una muestra:
COEFICIENTE OE VARIACIÓN
0,J<¡.'l)]ÚltÍpíiC:ar.·[lo:r.:i·oo.se cijtjy[e~~1á;e){¡:fresi9n .decimal a porcenja¡e.
cv "" X (100) f---
[4.9]
EJIEMPIJ:l
Un estudio sobre el monto de bonos pagados y los años ele servicio de varios empleados, dio como resultado los siguientes datos estadísticos: la media de los bonos pagados fue $200 (dólares), y la desviación estándar fue $40. La media del número de años de servicio ·fue 20 años, y la desviación estándar, 2 años. Compare las dispersiones rela~ivas de !as dos distribuciones empleando el coeficiente de variación.
SOUJCIÓN
Las distribuciones están en unidades diferentes (dólares y años de servicio.) Por tanto se convierten en coeficientes de variación.
JJ6 Para los bonos:
s cv ~ ~ (100) X
Para los años de servicio:
xs (100)
cv =
2
=
40 $ (100) 200
= 20 (100)
=
20%
=
10%
Al interpretar se puede ver que existe mayor dispersión relativa con respecto a la media en la distribución de los bonos pagados en comparación con la distribución de los años de servicio (porque 20% > 10%.)
El mismo procedimiento se utiliza cuando los datos tienen las mismas unidades, pero las medias son muy distintas. 0fer el ejemplo siguiente.)
Se va a comparar la variación en los iilgr'esüs anüales de varios ejecutivos con la va_t:!ación en los ingresos de trabajadores no calificados. En .una muestra de ejecutivos, X= $500.000 (dólares) y s = $50 OÓO, Para uha muestra de empleados no calificados, X= $32 000 y s = $3 200. Uno se ve tentado a afirmar que hay mayor dispersión en los ingresos anuales de los ejecutivos porque $50 000 > $3 200. Sin embargo, las medias son tan distantes que se necesitan convertir los valores estadísticos a coeficientes de varíación para poder efectuar una comparación significativa de las variaciones en los ingresos anuales.
SOLUCIÓN
Para los ejecutivos:
cv =
xs (100)
Para los trabajadores no calificados:
CV =
$50 000 (1 00) $500 000
·10%
s
X (100) $3 200 (100) $32 000
=
10%
No existe diferencia en la dispersión relativa de los dos grupos.
A un gran grupo de reclutas de la Fuerza Aérea de EUA se !es aplicaron dos pruebas experimentales: una de aptitudes mecánicas y otra de destreza manual. La media aritmética de la caii·ficación en la prueba de aptitud mecánica fue 200, con una desviación estándar de í O. La 111edia y !a desviación estándar en la prueba de destreza manual fueron:)(= 30, s = 6. Co111pare la dispersión relativa en ambos grupos.
27. En una muestra de estudiantes de la Facultad de Administración de Empresas, de la Universidad Mid-Atlantic, la media de los promedios de calificaciones es 3. í O, con una desviación estándar de 0.25. Calcule el coeficiente de variación. 28. La empresa United Airlines estudia el peso de equip·aje para cada pasajero. En un grupo grande de viajeros en vuelos nacionales, la media es 47 !b (libras), con una desviación estándar de
117
otras medidas descriptivas
1O lb. En un grupo grande de pasajeros de vuelos internacionales, la media es 78 lb y la desviación estándar, i 5 lb. Calcule la dispersión relativa de cada grupo. Comente acerca de la diferencia en dicha dispersión relativa. 29. El analista de investigación para la empresa de corretaje de acciones Siclde Financia!, desea comparar la dispersión de las razones (o cocientes) precio-rendimiento en un grupo de acciones comunes, con la dispersión de sus rendimientos sobre inversión. Para las razones precio-
rendimiento la media es 10.9, y la desviación estándar, i.8. El rendimiento medio sobre inversión es 25%, y la desviación estándar, 5.2%. a) ¿Por qué debe uti!lzarse el coeficiente de variación para comparar la dispersión? b) Compare la dispersión relativa de las razones precio-rendimiento, y e\ rendi111iento sobre inversión. 30. Se va a con1parar la dispersión en los precios anuales de las acciones que se venden a menos de $1 O (dólares) y la dispersióri en los precios de aquellas que se venden por arriba de
$60. El precio medio de las acciones que se venden a menos de $1 O, es $5.25, y la desviación estándar es $1.52. El precio medio de las acciones que se negocian a más de $60, es $92.50,
y su desviación estándar es $5.28. a} ¿Por qué debe utilizarse el coeficiente de variación para comparar !a dispersión ele los precios? b) Calcule los coeficientes de variación. ¿Cuál es su conclusión?
En el capítulo 3 se describe numéricamente la tendencia central de un conjunto de observaciones mediante la media, la mediana y la moda. En este capítulo se describen varias medidas que muestran la magnitud de la dispersión en un conjunto de datos, medida por la amplitud de variación y la desviación estándar. Otra característica de un conjunto de datos es su íorma. Son cuatro las formas que se observan comúnmente: simétrica, positivamente asim.étrica, negativamente asimétrica y bimodal. En un conjunto simétrico de observaciones, la media y la mediana son iguales y los valores de los datos se encuentran distribuidos uniformemente alrededor de estos valores. Los valores de los datos menores que la media y la mediana son una imagen en el espejo de los que son mayores. Un conjunto de valores es sesgado (o asimétrico) hacia la derecha, o positivam·ente asimétrico si hay un so!o pico y los va!or8s se encuentran extendidos más hacia la derecha del pico que hacia la izquierda. En este casó la media es mayor que la mediana. En una distribución sesgada hacia la izquierda o negativamente asimétrica hay un solo pico, pero las observaciones se encuentran más extendidas hacia la izquierda, en la dirección negativa, que hacia la derecha. En una distribución negativamente asirnétrica la 111edia es menor que !a mediana. Las distribuciones positivamente asimétricas son 111ás comunes. Los salarios con frecuencia muestran este esquerna. Considere las retribuciones de una empresa pequeña, integrada por unas 100 personas. El director y unos cuantos ejecutivos de alto nivel tendrán sueldos muy altos en comparación con los de los otros empleados y, por tanto, la distribución de los salarios mostrará una asimetría positiva. Una distribución bimodal puede tener dos o más picos. Este es, con frecuencia, el caso cuando los valores provienen de dos o tilás poblaciones. Esta infor'mación se sintetiza en el diagrama 4.4. En la literatura estadística hay varias fórmulas que se usan para calcular la asimetría. La más simple, desarrollada por Karl Pearson, se basa en la diferencia entre la media y la mediana.
COEFiC~EN1'E-D!E ·ASi~vl~TRÍf~· (DEPEARSON)
CA "" 3
(Media~ Mediana)
[4. 10]
s
De acuerdo con esta relación el coeficiente de asimetría puede variar desde -3 hasta 3. Un valor cercano a-3, como por ejemplo, -2.57, indica una considerable asimetría negativa.
ll8
Capítulo 4
DiámelrO extériór
IJlAGRAMA 4.4
Fonnas de los polígonos de frecuencias.
Un valor como 1.63, indica una asimetría positiva moderada. El valor O que se presenta cuando la medía y la mediana son 'guales, señala que la distribución es simétrica y que no hay ninguna asimetría. En este libro se presentan las pantallas con los resultados que proporcionan MINiTAB y
Exce!. Estos dos paquetes dan como coeficiente de asimetría un valor que se basa en las desviaciones respecto a la media elevadas al cubo. La fórmula es:
La fórmula 4.11 permite entender mejor la asimetría. El segundo miembro de la fórmula contiene la diferencia de cada valor respecto de la medía, dividida entre la desviación estándar. Esto es la porción (X - XJ/s de la fórmula. A esto se le llama estandarización. La operación de estandarizar un valor se examinará con más detalle en el capítulo 7 cuando se estudie la distribución probabilística normal. Por ahora hay que observar que el resultado de esto es indicar la diferencia entre cada valor y la media, en unidades de la desviación estándar. Si esta diferencia es positiva, el valor de que se trata es mayor que la media; si es negativa, es menor que la media. Cuando se elevan al cubo estos valores, se conserva la información relativa al sentido de la diferencia. Debe recordarse que en la expresión de la desviación estándar (ver la fórmula 4.7), la diferencia entre cada valor y la media se eleva al cuadrado, lo que da como resultado que todos los valores sean positivos. Sí el conjunto de valores que se considera es simétrico, al elevar al cubo los valores estandarizados y sumarlos se obtendrá un resultado cercano a cero. Si hay varios valores grandes, claramente alejados de los otros, la suma ele las diferencias al cubo será un valOI" positivo grande. Varios valores mucho más pequeños darán como resultado una suma de cubos negativa. Un ejemplo ilustrará mejor esta idea de la asimetría.
EJEMPUJJ
A continuación se da la ganancia por acción, en el año 2000, de una muestra ele 15 empresas productoras de software. Las ganancias se ordenaron de menor a mayor, y son cantidades en dólares.
$0.09 3.50
$0.13 6.36
$0.41 7.83
$0.51 8.92
$ 1.12 10.13
$ 1.20 12.99
$ 1.49 16.40
$3.18
Calcule la media, la mediana y la desviación estándar. Encuentre el coeficiente de asimetría usando la estimación de Pearson y los métodos usados por los paquetes de so~wa re. ¿Qué se concluye respecto a la forma de la distribución?
119
O!ras medidas desc,iplivas
SOLUCIÓN
Se tienen datos muestralas no agrupados, por lo que para determinar ia media se usa la fórmula 3.2:
X~ "2X ~ $7 4.26 ~ $4 .95 n 15 La mediana es el valor centra! en un conjunto de datos ordenados de menor a mayor. En este cáso el\lalór ifrtermedio es $3.18, de manera que la ganancia mediana por acción es $3.18.
Se usará la fór111ula 4.7 para determinar la desviación estándar:
s
~
i \""2X).. rzx 2 - - -
\i
¡
n-1
1 (7 4.26) 2 /749.372----
n
r
,
15
15 - '
\
- 5.22
El coeficiente de asimetría de Pearson es 1.017, que se obtiene mediante
CA ~ 3 (Media - Mediana) ~ 3 ($ 4 . 95 - 3 · 1 8) s $5.22
1.017
Esto indica que en los datos de las ganancias por acción hay una n1oderada asimetría positiva. Usando el método de software se obtiene un resultado similar, pero no exactamente igual. En la tabla 4.3 se muestran delalles de los cálculos. Para empezar se determina la diferencia entre cada ganancia de acción y el valor medio, y e! resultado se divide entre la desviación estándar. Hay que recordar que a esto se le !lama estandarización. En seguida el resultado del primer paso se eleva a la tercera potencia. Por último se suman esos cubos. El método para encontrar los valores del primer renglón, es decir, de la empresa con una ganancia por acción de $0.09, es:
(!-X)s ~ (º·º s
9
-
4 95 · )
5.22
3
~ (-0.9310) ~ 3
-o.so7o
El resultado que se obtiene al sumar los 15 cubos es 11.8247. Es decir, L[(X - X¡¡ s] 3 = 11 .827 4. Para encontrar el coeficiente de asimetría se usa la fórmula 4.11 con n = 15. De modo que:
-X)' = (15- ·1)(15-2) 15 (11.8274) = 0.975
n "'(X CA~ (n -1)(n-2)"'" - s TABiLA4.3
Cálculo del coeficiente de asirnctría. Ganancia por acción 0.09 0.13 0.41 OSI
i .12 1.20 1.49 3."18 3.50 6.36 7.83 8.92 10.13 12.99 16.40
-------
(X-X)
s -0.931 o -0.9234 -0.8697 -0.8506 -0.7337 -O.Ti84 -0.6628 -0,339·1 -0.2778 0.2701 0.5517 0.7605 0.9923 1.5402 2.1935
(x~x)s -0.8070 -0.7873 -·-0.6579 -0.6154 -0.3950 -0.3708 -0.2912 . 0.0390 -0.02"14 0.0197 0."1679 0.4399 0.9772 3.6539 10.5537 11.8274
120
Capi!"lo 4 Se concluye que los valores de las ganancias por acción son un poco asimétricos posítivamente. La siguiente pantalla de resultados de IVliNITAB, da medidas descriptivas, co-
mo media, mediana y desviación estándar de los datos de ganancias por acción. También contiene el coeficiente de asi111etría y un histogra1na con una gráfica en forma de campana sobrepuesta.
,-,s;"''"' .,,.,.,"
"'"
""·'·""¡-·''"''·b'""'''""
''""
~r-~---~~~--~----~-·-·-~·~~-----
A~J(ij~;l}(BJfflEH1l 4. . 7
.
.,.,
j
' '
¡ '
i L
·------·--~-~~~-
Una muestra de 5 capturistas de datos que laboran en una o'ficin-a de impuestos revisó el siguiente número de registros de impuestos en la última hora: 73, 98, 60, 92 y 84. a) Determine la media, mediana, moda y desviación estándar. b) Calcu_le el coeficiente de asimetría _usando e! método de Pearson. c) Obtenga el coeficiente de asimetría aplicando el método de software para computadora. d) ¿Qué concluye respecto a la asimetría de !os datos?.
i 1
J: ·1
~
~º~~---~~~~~~~~~~~~~~--~~------·-~~~~--
Ejercicios En los ejercicios 31 a 34 llaga lo siguiente: a) Detern1ine los valores de la media, mediana y desviación estándar. b) Determine el coeficiente de asimetría usando el método de Pearson. e) Determine el coeficíente de asimetría usando el método de software. 31. A continuación se presentan los sueldos iniciales en miles de dólares en una muestra de contadores que terminaron sus estudios y empezaron a trabajar coino contadores pl1blicos el año pasado.
1
36.0
26.0
33.0
28.0
31.0
1
32. A continuación se dan los salarios, en miles ele dólares, para una muestra de '15 ejecutivos de la industria electrónica.
$516.0 546.0 486.0
$548.0 523.0 558.0
$566.0 538.0 574.0
$534.0 523.0
$586.0 551.0
$529.0 552.0
121
!Jiras medidas descriptivas
33. A continuación se indican las comisiones (en miles de dólares) obtenidas e! año pasado por los representantes de ventas de la empresa Furniture Patch.
$ 3.9 17.4
$ 7.3
$ 5.7 17.6
22.3
$10.6 38.6
$13.0 43.2
$13.6 87.7
Sí 5.1
$15.8
$17.1
34, A continuación se dan los salarios de los jugadores del equipo de béisbol Yankees, de Nueva York, en el año 2000. Los valores están en millones de dólares.
$9.86 5.25 3.13 0.80 0.20
$9.50 5.00 2.02 0.38 0.20
$8.25 4.33 2.00 0.35 0.20
$6.25 4.30
$6.00
UD
1.85 0.20 0.20
0.35 0.20
4.25
$5.95 3.40 1.82 0.20
La clesviaclón estándar es la medida de dispersión que se utiliza con mayor frecuencia. Sin embargo, existen otros métodos para describir la variación o dispersión en un conjunto de datos. Un método es determinar la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Estas medidas son los cuarti/es, los deci/es y los centi/es (o porcenti!es) 2 . Los cuaiTi/es dividen un conjunto de observaciones en cuatro partes iguales. Para explicarlo con mayor claridad, considere cualquier conjunto de valores organizados del mínimo al máximo. En el capítulo 3 se denominó mediana al valor central de un conjunto de datos organizados de menor a mayor. Esto es, 50% de las observaciones son mayores que la mediana y 50% son menores. La mediana es una medida de ubicación porque marca el centro de los datos. En forma similar, 'os cuartiles dividen un conjunto de observaciones en cuatro partes iguales. El primer cualtil, generalmente simbolizado como 0 1 , es el valor abajo del cual se encuentra 25% de las observaciones, y el tercer cuaJtil, comúnmente designado por Q 3 , es el valor por abajo del cual se encuentra 75% de las observaciones. Lógicamente, 0 2 (el segundo cuartil) es la mediana. Los valores que corresponden a 0 1 , 0 2 y 0 3 dividen a un conjunto de datos en cuatro partes iguales. 0 1 puede ser considerado como la "mediana" de la mitad inferior de los datos, y 0 3 como la "mediana" de la mitad superior de los datos. En forma similar, los deci!es dividen a un conjunto de observaciones en 1O partes iguales, y los centiles en 100 partes iguales. Por tanto, si un alumno se entera que su promedio de calificaciones escolares se encuentra en el octavo decil del resultado escolar de su universidad, puede concluir que 80% de los estudiantes tienen un promedio menor al suyo, y 20% tienen un promedio mayor. Un promedio en el centil 33 querrá decir que 33% de los alumnos tienen un promedio menor, y 67%, un promedio 111ayor. Los centiles se utilizan frecuentemente para reportar resultados acerca de ciertas pruebas nacionales estandarizadas (en EUA), como las denominadas SAT, ACT, GMAT (que se utilizan para decretar la admisión a programas de Maestría en Administración de Empresas), y la LSAT (utilizada para la admisión en una facultad de derecho.)
í' ~ºl ' oºl' "'-_)1Jar~J!es 1 ílec1~es
'ºl y ce11cli~es
Para formalizar el procedimiento de cálculo, sea L, la ubicación del centil deseado. Por tanto, si se quiere obtener el centil 33 se utilizará e! símbolo L33 , y si se deseara la n1ediana, el centil 50, se usa L 50 . El número de observaciones es n; por tanto, si se requiere ubicar la observación centml, su localización estará en (n + 1)/2. Esto se puede representar como (n + 1)/(C/100), donde Ces el centil deseado. 2 EI término "porcentil" (tomado del in;:¡lés percentile) es impropio, puesto que el concepto de centil no tiene relación dimcta con el de porcentaje, y debe seguirse la correlación con los conceptos de cuartil y deciL En esta ve1·sión en español se utiliza el término correcto: centil.
122
Capitulo 4
l
[4.12]
UBICACIÓN !JE UN CENT!L
-,
1 1
Un ejemplo ayudará a explicar lo anterior con mayor claridad.
A continuación se presentan !as comisiones (en dólares) obtenlclas el n1es pasado por una muestra de 15 corredores de la empresa Smith Barney, en Oakland, California. Smith Barney es una compañía de inversiones que tiene sucursales en todo Estados Unidos.
$1 721 2 054
$2 097 1 471
SI 637 2 406
$2 047 ·¡ 460
$2 205
s·1 787
$2 287
Localice la mediana, el primer y el tercer cuartiles de las comisiones.
SOUJC:IÓN
El primer paso es organizar ios datos, desde la comisión más pequel'ía hasta la más grande: $1 460 2 047
$1 637 2 097
$1 471 2 054
$1 721 2 205
$1 758 2 287
$1 787 2 311
$1 940 2 406
$2 038
El valor de la mediana es la o·:Jservación que se encuentra en el centro. Dicho valor central, o L50 , se localiza en (n + 1)/2, donde n es el 0úmero total de observaciones. En este caso es la posición n(rmero 8, que se obtiene por (i 5 + 1)/2. La octava comisión más grande es $2 038 (dólares). Por eso se concluye que ésta es la cantidad mediana, y que la mitad de los corredores obtuvieron comisiones mayores que $2 038, y la otra mitad montos inferiores a $2 038. Recuérdese ia definíción de cuartil. Los cuart\les dividen un conjunto de observaciones en cuatro partes iguales. De ahí que 25% de !as observaciones son 111enores que el primer cuartil, y 75% de las observaciones son menores que el tercer cuartil. Para localizar el primer cuartil, se utiliza la íórmula (4.12), donde n = ·15 y C = 25; por tanto,
e
L25
=
para localizar el tercer cuartil:
(n + 1) 100 = (15
n=
15
25•
+ 1) 100 =.4
y C = 75, de modo que
L75. = in + 1) __i:;_ ' 100
=
(15 + 1)
75
100
= 12
Por tanto, los valores clel primer y del tercer cuariiles se localizan en las posiciones 4 y
12. El cuarto valor en el conjJnto ordenado es $1 721, y el doceavo, $2 205. Estos son el primer y el tercer cuartil, respectivamente.
En el ejemplo anterior, la fórrnula de ubicación dio como resultado un número entero. Esto es, se buscaba el primer cuartil y había i 5 observaciones, por lo que la fórmula de ubicación indicó considerar ei cuarto valor ordenado. ¿Qué pasaría si hubiera 20 observaciones en la muestra, esto es n = 20, y se quisiera localizar el primer cuartil? Al aplicar la fórmula de ubicación (4.12) se tiene:
L25
=(11~"1)-º-=(20 ' 100 ' '·1)~·-525 . 'IDO - .
Se localizaría prin1ero el quinto valor en el conjunto ordenado, y después se desplazaría un 0.25 de la distancia entre el quinto y sexto valor, señalando eso como el primer cuartil. Al igual que la n1ediana, el cuartil no tiene que ser uno de !os valores en el conjunto de datos.
123
Otras medidas desGripti\las
Supóngase ahora que un conjunto de datos incluye los seis valores siguientes: 91, 75, 61,
i Oi, 43 y-¡ 04. Se requiere obtener el primer cuartiL Prin1ero se ordenan los datos del menor al mayor: 43, 6"1, 75, 9"1, 101 y 104. El primer cuartil se localiza en L
"= (n + 1) __e:;__= (6 + 1) J'2_ = 1.75 100 100
'"
La fórmula de posición indica que dicho cuarti! se !ocal iza entre el primer valor y e! segundo, y se encuentra a 0.75 de la distancia entre ellos. E! primer valor es 43, y e! segundo es 6i, por lo que la distancia entre estos dos valores es ·1 s. Para ubicar el primer cuartil hay que pasar a 0.75 de la distancia entre el primer valor y el segundo, por lo que 0.75(18) ~ 13"5" Para terminar el procedimiento se suma i3.5 a! primer valor, y resulta así que el primer cuartil se localiza en 56.5" Se puede extender lo anterior tanto a los deciles como a los centiles. Si se quisiera localizar el centil 23 en una muestra de 80 observaciones, se buscaría la posición 18"63:
L
n
=
(n
+
1)
__e:;__ = (80 + 100
1)
23 = 18 63 100 "
Para encontrar el valor que corresponde al centil 23, se ubicarían las observaciones número 18 y 19, y se determinaría la distancia entre ambos valores" A continuación se multiplicaría esta diferencia por 0.63 y se sumaría el resultado al valor rnás pequeño. Ei resultado sería el centil 23. Con un programa de computadora (software) es muy fácil ordenar los datos de menor a mayor, localizar los centíles y los deciles, así como los cuartiles" Tanto MINITAB como Excel pueden proporcionar ese recurso. A continuación se presenta un ejemplo con MINITAB que aporta el primer cuartil y el tercero, así como la media, la mediana y la desviación estándar de los datos de Whitner Pontiac (ver la tabla 2.1.). Se llega a la conclusión de que 25% de los vehículos se vendieron en menos de $17 07 4 (dólares), y que 75% se vendieron en menos de $22 795.
¡:,,"~'" '""º
" lT><>!o:
'""'·
E~~o=
. ¡=~·;::,~':,:':~.::,'::"'~~::::".
La pantalla de resultados de Excel que se presenta a continuación contiene la misma información respecto a la media, la mediana, !a desviación estándar y el coeficiente de asi111etría. Presenta también los cuarti!es, pero el método para calcularlos no es tan preciso. Para encontrar !os cuartiles se multiplica el tan1año de la muestra por el centil deseado y se to1Tia el né1mero entero del valor resultante. Para explicarlo mejor, en el caso de los datos de la agencia Whitner Pontiac se tienen 80 observaciones, y se desea localizar el centil 25. Se multiplica 80 por 0.25 y el resultado es 20.25. Excel no permite que se ingresen valores fraccio-
124
Capítulo 4 narios por lo que se usa la cifra 20 y pide la localización en la posición 20 en los datos ordenados de mayor a menor, y el valor en la posición 20 en los datos ordenados de menor a mayor. El resultado es una buena aproximación a los centiles 25 y 75.
20197
2cnn
20218.l';i25 46G.B40947 19-'.131 17542 .1354 43781 i>l86112D.G
Medio Enorliµica 1,1ediana
17!S\
205'ilt 23&51 14~53
1~2G6
G.5H:
15021 :SEW3 T!8T1 15587 2()1G·:J
iJ.7213315.% :10379 1254G
32925 1Gl7~S3
Sumo
C"ento
6[1
170,17
_M-1\'~r (20)
227,,3
~1:135
1·-~ooor¡?J
1704?
21324
1
f"L~-~w~·~~----==-~~-~--~-~·
¡
Au~aexartf!iBfil
LtB
-"~J=-.,~~,,~~
El departamento de control de calidad en la empresa Plainsvi!le Peanut Company es _respon-
11
sable de verificar el peso total de mantequilla de maní en un frasco en el que se marca en la
1
etiqueta que contiene 8 onzas del producto. Los pesos de una muestra de 9 frascos producidos en la última hora indicaron lo siguiente:
1 1
! 1
i
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
¡~
~
7~
7.8
1.00
1.~
1.~
8~
s~¡
a) ¿Cuál es la mediana de los pesos? b) Determine los pesos que corresponden a los cuartiles 0 1 y 0 3 •
iL-~º'"'~~~--"~~-,~-~~,~~~~- ·~~~~~--~~~,~~~-~~"~~~-~~~~~~~-~~·~--~-~~~~~~~~-~~=~~~~~~~-~~~~-~·~~=~"'-;'"=-~--~~~-~~~~~~~-~~~--~~-~~--
-- ' ~~~~""~"'-''"'~"~""~d
y,,.,, E'"'rc;c'"" Jj_
__,_¡¡_ 'fc)lc_,
~-~~~-~~~-
35. Determine la médiana y los valores correspondientes al primero y al tercer cuartiles de los siguientes datos.
47
49
49
51
53
54
54
55
59
55
36. Determine la 111ediana y los valores correspondientes al prin1er y a! tercer cuartil de los datos siguientes:
6.02 10.37
5.24 9.61
7.30 11.86
6-67 10.39
7.99 12.71
7.59 12.22
8.03 13.07
8.35 13.59
9.45
8.81 '13.89
"15.42
37. La empresa Anderson, lnc. es distribuidora de motores eléctrícos pequeños. Al igual que en cualquier negocio, es importante el tiempo que ton1an los clientes para pagar sus facturas. A continuación se presentan los tiempos en días, ordenados de menor a mayor, de una muestra de facturas de esa compañía.
13 41
13 41
13 41
20
26
45
47
27 47
31
47
34 50
34 51
34 53
35
54
35 56
36 62
37 67
38
82
125
Otras medidas descriptivas
aj Determine los cuartiles primero y tercero. b) Obtenga el 2º y el 8º decil. e} Detern1ine el centil 6~1 . 38. Wendy Hagel es la gerente nacional ele ventas para la empresa National Textbooks, lnc. Tiene un equipo de ventas formado por 40 personas que visitan a profesores de las universidades en Estados Unidos. Cada sábado por la n1añana ella necesita que su equipo de ventas le presente un informe. El repotie incluye, entre otras cosas, el nl1mero de profesores visitados durante la sernana anterior. Abajo se presenta la cantidad de visitas de la semana pasada, ordenadas de 111enor a mayor.
38 40 59 59
41 45 59 62
48 62
1.3
62
50 50 51 63 64 65
51 66
52 52 53 66 67 67
a)
Determine la mediana de! número de llamadas.
b) e)
Determine el 1er cuartil y el 3er cuartil. Determine e! 1er deci! y e! 9º decll.
d)
Determine el centil 33.
54 55 55 55 69 69 7·1 77
56 78
56 79
57
79
Diagramas de caja Un diagrama de caja es una representación gráfica basada en ios cuartiles, que ayuda a ilustrar un conjunto de datos. Para elaborar tal diagrama solamente se necesitan cinco valo· res estadísticos: el valor mínimo; O, (el primer cuartil); la mediana; 0 3 (el tercer cuartil), y el valor máximo. Un ejemplo ayudará a explicar lo anterior.
EJEl\l!PIJ!I
El restaurante Alexander's Pizza ofrece el servicio de entrega a domicilio sin cargo extra en un radio de 15 millas. Alex, el propietario, desea obtener información acerca del tiempo de entrega. ¿Cuánto tiempo toma una entrega típica? ¿Dentro de qué intervalo de tiempos se efectúa la mayor parte de, las entregas? Para una muestra de 20 de ellas se determinó la siguiente información: ' \ 'J,,
Valor mínimo 01 Mediana 03 Valor máximo
= = = = =
13 15 18 22
min (minutos) min min min 30 min
Desarmlle un diagrama de caja para los tiempos de entrega. ¿A qué conclusiones se puede llegar acerca de los tiempos en cuestión?
SOUJC:lÓN
El primer paso para elaborar un diagrama de caja es establecer una escala adecuada en el eje horizontal. Después se dibuja un rectángulo (o caja), que parte de o, (15 min) y termina en 0 3 (22 min). Dentro de la caja se marca un segmento vertical para representar la mediana (18 min.) Final.mente se trazan dos líneas horizontales, una desde la caja hasta el valor mínimo (13 min), y otra hasta el valor máximo (30 min.) Estas líneas horizontales que sobresalen de la caja, se llaman salientes ele la caja. Valor mínimo
Valor 111áxin10
- - - - - - - - - - - - - - - - - ·I
12
14
16
18
20
22
24
26
28
J
30
32 Minutos
126 El diagrama de caja muestra que el 50% central de las entregas toma entre 15 y 22 minutos. La distancia o intervalo entre los extremos de \a caja, que es de 7 m!n, se denomina amplitud cuarl:í!ica (o intercua1tílica.) Dicho intervalo es la distancia entre el primer cuartil y el tercero.
El diagrama de caja también indica que la distribución de los tiempos de entrega es positivarr1ente asimétrica. ¿Cómo sabemos esto? En este caso hay dos porciones de información que indican que la distribución es positivamente asin1étrica. Prin1ero, !a línea punteada a la derecha de la caja que va de los 22 min (03) al tiempo máximo de 30 min, es más larga que la de la izquierda, que va de 15 min (0 1) al valor mínimo de 13 rnin. Dicho en otra forma, 25% de los datos mayores que el tercer cuartil se encuentran más dispersos que 25% de los datos menores que el primer cuartil. Un segundo indicio de asimetría positiva es que la mediana no está en el centro de !a caja. La distancia del primer cuartil a la mediana, es menor que la distancia de esta última al tercer cuartil. Sabernos que el número de tiempos de entrega entre 15 y 18 minutos, es igual a la cantidad de tiempos entre 18 y 22 minutos.
EJEM PUi
Refiérase a la tabla 2. 1 con los datos de la agencia Whitner Pontiac. Elabore un diagrama de caja con esos elatos. ¿A qué conclusión se puede llegar respecto a la clistribución de los precios de venta de los vehículos?
SOlUICiÓN
El sistema de soítware estadístico de MINITAB se utilizó para elaborar el siguiente diagrama.
Se concluye que la mecliana de los precios de venta de los automóviles es aproximadamente de $20 000 (dólares), que cerca del 25% de los vehículos se vendió en menos de $17 000, y que aproximadamente 25% se vendió en más de $23 000. Casi 50% de los vehfcu!os se '.19:!d!6 e!1tre $i 7 000 y $23 000, La distribución es positiva!llente asimétrica, porque la saliente que está arriba de la caja, en $23 000, es un poco más larga que la línea vertical que está abajo, desde $17 000. Hay un asterisco(') arriba del precio de venta de $30 000. Este símbolo indica un dato extremo. Un dato extremo es un valor inconsistente con el resto de los datos. La de-
mrns me~1iílas descriplivas
127
finición estándar de dato extremo es un valor que es n1enor que 0 1 , o blen mayor que 0 3 , en más de i .5 veces el valor de !a a111plitud intercuartílica. En este ejen1plo un dato exlremo sería un valor mayor que $32 000, obtenido de 1
Valor o dato extremo > Q3 + 1.5(Q3 - Q1) = $23 000•+ 1.5($23 000 - $'17 000) = $32 000
Un valor inferior a $8 000 tan-1bién sería un dato extrerno. Dato extremo < Q1
-
1.5(Q3
-
Q1) = $17 000 - 1.5($23 000 - $17 000) = $8 000
El diagrama de caja de MINITAB indica que soio hay un valor mayor que $32 000. Sin embargo, si se observan ios datos rea!es de la tabla 2.-1, se observará. que en realidad hay dos valores ($32 851 y $32 925). El programa ele computación no fue capaz ele gra· ficar clos puntos tan cercanos, y por eso indica solamente un asterisco.
t\uioexamen 4.!l
Se presenta el.siguiente diagrama de caja:
f--
o
1o
--¡---1 20
30
40
50
60
70
80
90
100
¿Cuáles son la mediana, los valores más grande y más pequeño, y el primer y el tercer cuartil? ¿Estaría de acuerdo en que la distribución es simétrica?
_J
Ejercicios 39. Refiérase al diagrama de caja que sigue:
1 750 ' 1 400 ' 1 050 700 -
350
o a) Determine la mediana. b) Obtenga el primer y el tercer cuartiles. e) Determine la amplitud intercuartílica. d} ¿Después de qué punto se considera un valor extremo? e) Identifique los elatos extremos y calcule su valor. ~) ¿La distribución es sin1étrica, o bien asimétrica, con sesgo positivo o negativo? 40. Considere el siguiente diagrama de caja:
128
Gapíl"io 4
t
í 500
1 200
900 600
t : ~L:~:.:!•.•.•. T
l •;,.•,.,
300
o
.••
~~-
a) Determine la mediana. b) Obtenga el primer cuartil y el tercero. c) Determine la ampliiud intercuartílica. d) ¿Más a!lá de qué punto se considera un valor como dato extremo? e) Identifique los datos extremos y calcule su valor. fj ¿La distribución es simétrica, o bien asimétrica con sesgo positivo o negativo? 41. En un estudio de la distancia recorrida por automóviles fabricados en 2000, el número medio de millas por galón fue 27.5, y la mediana, 26.8. El valor más pequeño en el estudio fue 12.70 millas por galón, y ei más grande, 50.20 millas por galón. El primer cuartil fue 17.95, y el tercero, 35.45 millas por galón. Elabore un diagrama de caja y comente respecto a la dístribución. ¿Es una distribución simétrica? 42. Una muestra ele 28 hospitales en Florida reveló los siguientes cargos diarios (en dólares) para un alojamiento semiprivado. Por conveniencia, se ordenaron los datos desde el menor hasta el mayor. Realice un diagrama ele caja para represeniar los datos. Comente la forma de la distribución. AsegCirese de identificar el primer y el tercer cuartil y la mediana. . ..,.. ,.
.
.
$t:l6
$157/'
$1,92
232!
:Z-36
236
2_:3,91
2<(~)
;264'.
276 31'2 ,,
2s1\
283 324
289 341
$1?J
22g¡
\261Ti ·rw~¡
309 !1 id
$207
·31 ,7
$209
$209 ·-
246 -•. J 296 353
)','
Resu1nen del capítulo..~ t
La dispersió,n. es !a variación eíl un conjunto de datos. 1'!;,, La amplitud de variación es !a diferencia entre e! valor más grande y e! más pequeño de un conjunto-de:~atos.
i. La 'fiJíhlüla para ev8!uar tal fntervato eS: ,~mplitucl
ele variación ~ (valor más grande .. valor más pequeño)
[4:1]
2, Las características principales de la amplitud de variación son: a) Para calcularla se .utilizan__ ~.ó_!o_ .dos val o.res. b} Es inf!uida__ p.or..yalores extren1o_s. e) Es fácil de calcular y de comprender'. .. ••·, B. La de$viadón media _a?solu.ta _esJa._suma _de las desvtactOíl8s i:ibsolutas respecto de fa media, dividida en_tre_ et nln_11~ro. de ()_bs~.rvacio.~.ª,~i. La. fórmula para cetlcular la.'desvlación riiedia_.~bso!.ú{a es:
DM
:;;1x .. x1 n
[4.2]
Otras medidas descriptivas
129
2. Sus características principales son: a) !\lo es influida por va!or8s extremos grandes o pequeños. b} Todos !os valores se uti!iz_an en su cá!cufo. e} Es difícil trabajar con valores.absolutos. C. La varianza es el valer medio de las desviaciones al cuadrado con respecto a la media aritmética. ·1-~-
La~rcáractehstrcas··¡sr¡ncipaie:~;---ae
lá\i8.riahz2f"Sdñ_:·--
a) Todas las observacíones se usan en su cá!cu!o. b) No_ es influida por va!()res. eXtre_mos. e} La:s unidades de rnedida rósu!tan iílconvenientes para trabajar con ellas, son las Unidades originaleS e!evádas al Cuadr'fido. 2. La_ fórmula para calcular la varianza pob!aclonaf es: cr
'
2:(K·· µ.)'
= ·-··---"·-·¡;/---···
[4.3]
3. La ·fórn1ula para calcular la varianza muestra! _es: 52
= }:(_)( ~ X)2 n-1
[4.5]
D. La desviación estándar es la raíz cuadrada de la varianza. i. Las dos fórmulas sig'uientes- soíl para ía desv18.c1ón estándar muestra!:
s~
/:i:(X -)()'
V n-1
r,.x,-=(:I;xj2 V~ n~i.-n
[4.5], (4.7]
2. L;:is caractérístic8.s p'rinciPaleS-de la desviación estáíldar son: a} Su v:alor eStá_en !aS_n1iSmas _unidad8S ~ue los dato~ ~r_igina!es. bj Es !a rC!-ÍZ _cuadrada de la distancia promedi_o respecto de la niedia, elevada at cuadrado. e) No puede ser neg8.ti\/a. d} Es !a medida de dispersión que se utiliza con n1ás frecuencia. lt El teoremitdé ·ch_ebyshev establece que, sin importar la -forma de la distribución, por lo menos 1 _:_ i/k2 de los elatos 'estará·a no más-de k desviaciones estándar de !a media. lit El coefic_íente de variaclén es una mSdida dé dispersión relativa. A. La. fórmula para e! coeficiente ele variacíón es: CV
~
s
= (100)
X
[4.9]
B. lri_dica la variación con _respecto a larileclia. C. Es útil para comparar distribuciones· expresadas en diferentes unidades. i\f, El _coeficiente de asimetría mide la conformación no siniétrica de una distribución. A.-E:n un c_onjun_to_ de _datos _ con _asimetría positiva la parte, á!árgada de !a gráfica está a la de:recha. B. En un conjunto-de datoS.con asimetría negativa la part$ a!argáda de !a gráfica está ·a' la lzqüierda. V. Las médid_as_de tib_icacián t9mb_léÍl descr,i_bert· la,d_ispersión_-en _un conjunto de datos. A, Un clJ¡;¡rti!_ ~i_vide,un_-_conJu11to. de dato,s_en:·:cuatro partes_-iguale;:;_. i. SejJene _qu~.,-25S-&_ de_ las__ obs_erva~io_nes so_n me_non:is que el prirner'cuarti!, 50% s©n rnenores que e_L_S,egund_o. cuarti_I (la _inedí_ana)_,, y 75.%, ~on menores. que el tercer cuartiL 2. La amplitud ir¡tercuartílica_ es !a- diferer:icia_ entre ,el tercer y el primer cuarti!. s, Los deciles dividen un conjunto ele d~tos en 1Q p~rtes iguales. C. Los centiles_div_iclen un c_onjunto_ de_ datos en ·roo partes igua!e's. D. Un d_iagrama de caj"a e_suna=represent~cióii·gráfica rectangular dé un conjunto de datos. ·1. La caja es el. rect.ángulo que.se obtiene con la unión del primer y el tercer cuartil. a_}_ Una líneaJransv~rsa! en !él caja in_dica la.media.na. b) Las salientes o seginentos punteados pEÍrafelos a 18 base que van, uno de! tercer
130 cuartil al valor más grande, y del pr!1-ner cuarti! a! va!or más pequeño, indican el intervalo entre el 25% más grande de !as observaciones, y e! 25% rnás pequeño.
2. Un diagrama de caja se basa en cinco valores.estadísticos: !a observación más grande y !a más pequeña, e!· primero y e! tercer cuartil, y la mediana.
Simbología SIMBO LO
SIGNIFICADO
FORMA EXPliESIVA
a'
Varianza ¡Joblacionat
sigrna cuadrada
v
Desviación están_dar poblacionaf
sigma
léfX 2
Suma del producto de los puntos
sigma f)( cuadrada
centrales de clase al cuaclrada, y la frecuencia de ctase
Le
Localización de un centíl
L subíndice c
o, o,,
Prirrier cuartil
Q sub1hdice i
Tercer cuarti!
Q subíndice 3
Ejercicios del capítulo Los ejercicios 43 a 51 se basan en e! siguiente problema. E! departamento de control de calidad en fa empresa Clegg Industries, vigíla constantemente tres líneas de ensamble que producen hornos para uso doméstico. Cada hornó está diseñado para precal.entar hasta una temperatura d9' 240_ ªF durante cuatro minutos, y .después apagarse: Sin embargo, puede suceder que el horno no a!_cance .!os 240 grados en el. tiempo _a.signado, debido a una instalación inadecuada y por otras razóneS. De- m.ánera sémej8.nte, !a. temperatura podría sobrepasar los 240 grados durante e! ciclo de prGcalentaiiiienfo de cuatro mfnutos. Uria mLiestni gr'ande de cada una de las tres líneas ele produccíón índicó !a siguiente inform.acl_ón_. Te1npe_r_qt~ra _(ºF)
füledirla esíadfsti-ca
Media aritmética Mediana Macla oe·sviación estándar Desviación media !nterva!o lnteíGiJartit
línea i
líriea 2
Línea 3
240,0 241.5 3.0 1,9 2,0
240.0 240.0 240.0 0.4 0,2 0.2
242.9 240.0 239,1 3.9 2.2 3A
43. ¿Cuál d.e.las;ií0~as:ti€.ne u0a.distribucfón ·e~ _f?rma·d~:cam·pana? 44. ¿Qué' ffnea presenta mayor' variación en- !a temperatura?. ¿Cómo se sabe esto? 45_. De.ac_uerd.o ·con la re_g!a ?111pí_'..ica,, _¿en_tre_qué valores est.Livi8ron aproximadarnente 959'b, las , lecturas _de- temperatura de 1·a línea 2? 46, ¿Q~.é _líne_as ti_enen_ se_sgo_po~i.ti_vo e.n la distribucí_ón de la;S tempera_turas de lós.hornos? Par~ l_a_!ínea 2._determi~·~- el pdrrH:;r y_ el tercer cuarti!e_s_. 48. Pa'.a_ .fa ·lfnea· 31 .~e ac~_ _erdo .co.il _e! ·teorema de C_hebyshév,. -¿eritre cuál par de val'ores se encuentran aproximadamente 89% de !as ten1peraturas? 49. Determine ·et· t?8fi~i~11te d~ Variación-para !_a: fíílea. 3. 50. Obtenga la dirección de la asin1etría para !a línea í. 5i: _óete_rmí_ne__!a vadan~á. par~ la, iírtea_ 1. 52. En Ltn .estudi_o_ de cratos·de fo~ arch_!vós.PerSon;'.lfes 'cle·ios: _e-mpleados· de una compañía grande, el. C?eficie_~.te d_e:lfariac_ión (C\/)'de_J. nl1111ero añ.o_s laborados con Ja compaflía es 20%, y el coe:fici·e~te ele .varíac_íón de la,s ca.ntidades obtenlda_s_ por c_omisión el año pasado es 30% . .C:omente .acerca de la dispersión relativa de.· fas dos variables.
ere
?e
131 53, En el mismo. estudio del ejercicío anterior, e! coeficiente de así111etría para la edad de !os empleados es -2;25. Cornente respecto a !a forma de ta distribución. ¿Qué medida de tendencia centra{ es la rnás grande? ¿En·qué dirección se encuentra !a cola o extremo más !argo ele la gráfica? ¿A qué conc!us:ón !legaría acerca de !as edades ·de los en1pleados? 54. De la producción por hora .de un grupo de empleados que ensarnblan unidades modulares en la empresa Zenith se· seleccionaron valores al azar. Las salidas de la muestra -fuerón: 8 1 9, 8, id, 9,1(), i2 y a) Calcule la amplitud de variación. b} Determ!ne la desviacíón m8dia. e} Obtenga la desviació.n estándar. 55. Las edades de una muestra de turistas canadienses que vuelan de Toronto a Hong Kong, fueron: 32, 2·1, 60, 47, 5'f, "17, 72, 55, 33 y 4-1. a) Calcule. la amplitud de variación. b} Deterniine !.a desviación media. e) Eva!ú13 la desviac.fón .estándar, 56. Los pesos (en libras) de Una muestra ele cinco cajas .enviadas por el servicio de mensajería UPS es: 12, 6, 7,, 3 y 10. a) Obtenga la. amplitud ele variación. b} Cafcule !a desviación media. e) Determine la desviación estándar. 51. Un estado del sur de Estados Unidos tiene establecidas siete universidades en su sístema educativo. La cantidad de voll1men8s (en mi!es) que contienen sus bibliotecas son: 83, 510, 33, 256, 401, 47 y 23. a} ¿Es ésta l!na muestra o una pob!acióh? b) c·árcu!e lá desviaéiór estándar. e) Calcule el coeficiente de variación. lnterprételo. 58.· Un reporte recíehte en la revista Woman's 1/1/orid indica que la familia típica de cuatro personas con un presupuesto intermedío,. gasta aproximadamente $96 dólares a la semana en alimentos. La slgu!8nte distribución ele .frecuencias estaba incluida en et- reporte. Ca!cute (a) la amplitud de-· variación y (b) 1a desviación estándar.
!Cantidad gastada 1 1
'
frecuencia
$ 80 hasta $ 85 85 hasta 90 hasta
6 12
90 95
23 35
95 hasta 100 100 hasta
-¡o~
24 ·10
1Q5 hastá 11 o
!)Et. La_e111_p_i:8-s.a Bi9~vel! El_E?ci_roqics,_ l!l_()'. an.aHzQ._recle11ten1entE;- ~.inél.rnuestra de sus. empleados para determinar !a distancia qu~_hay.desde..su _domic_ilio hasta la oficina matriz ele la compañía. Los resultados se muestran a continuación. Calcule !a an1p!itud de variación y la desviación estándar. Distancia (en mmas) Ohasta 5 5 hasta 10 1Ol1asia ·15 15 hasta-20 20.11asta 25 B\!~
freGuencia
4 15 27
18 6
!...a.s _cuestiones de s.a!ud son de interés para directores o gerentes _ele en1presa, en especial porque evalúan et costo del seguro médico. En un estudio re.ciente con -150 ejecutivos de la
132
Capítulo 4 empresa E!vers Industries, una gran organización aseguradora y 'financiera localizada en el sudoeste de EUA, aparecieron las cifras de sobrepeso en libras de los ejecutivos. Calcule la amplitud de variación y la desviación.estánclar para esos datos, Sobrepeso {en libras)
Frecuencia
o hasta 6
'14
6 liasta '12 12hasta13 rn hasta 24 24 liasta 30
42 53 28 8
61. Una aerolínea importante quis6· obtener infbr.máción. acerca de !as personas inscritas en su programa de "víajero frecuente": Una n1iJestra de 48 viB.je·ras dio como resultado e! siguiente número ele millas de vuelo, redoíldeadas c:t fas 1'000 n1illas. más cersanas, por cada participante. Elabore un diagrama de caja de los datos y comente la información.
22
-·---·------------32 38 39 41 42 43 43 46 46 46 47 51 52 50 58 59 60 61 61 63 63 70 74 70 TI TI 72 73
29 45 57 70
45
56 69
43 54 64 76
44 54 64 78
44 55 67 88
62. La empresa National Muffler Company asegura que pueden cambiar un silenciador de auto en menos ele 30 minutos. Un usuario "clandestino" (reportero del Canal 11 de EUA) observó 30 cambios consecutivos de silenciadores en el talle.r que se localiza en la Calle Liberty. A continuación .se presenta e! número de minutos necesarios para. realizar tal cambio.
44 40 16
12 17 33
22 13 24
26 17 29
31 14
20
30 29 23
22 25 34
26 15
18 30
28 10
12 28
·13
a} Elabore un diagrama de caja para el tiernpo que tardan en cambiar un si[encíador. b) ¿Muestra la distribución algunos datos extremos? e} Resu.ma sus hallazgos erl ün informe breve.
63. La comp.añía Walter GoQel es proveedora lndustr!al ele sujetadores, herramientas 'y resortes. Los importes en· suS:··.faCtLI.ras .11arían ampliamente, van de menos de $20.00 (dólares) a más· de $400.00 .. Durante el mes dé enero se en1itleron 80 facturas. A continuación.se presenta._un dia-:grama de caía para las facturas. Escriba un reporte breve que considere los importes de. las _fa_Ctüras. Aseg_úrese de inc!_uir_in:fa:~mac_ión acerca d_e !oS valo"res del primer y el tercer cliartil'e's, !a-mediana, _Y s1: existe a_simetr'a de-~a!gún tipo. Si sé.presentan elatos· extreinos, ca!cu!e el monto de las ·facturas ·correspondlEi_ntes:
o
o
ll)
oo
o
ll)
oo ('J
o
l[)
N
!rnporte de las facturas
64. El· siguiente·diagrarnáde ·caja muestra e! número de periódicos publicados diariamente.en cada estado federal y en e!Dist.rito de Columbia (en EUA). Escriba un informe breve que resuma el núméro·_de ¡jublicacíones. Asegúrese ele incluir r_a informac_ión d_~_los va!ore_s del primer y e_I tercer cuartil,. la mediana,-y si e)dste o- no asimetría. Si se presentan datos extremos calcule su varor.
Olrns medidas descrip!ivas
13 3
·-------!'
*'I·
'!·>C
o
o,-
65. El problema anterior mos:ró un diagrama de-caja para el número de periódicos publicados por estado y. en el distrito· de Columbía. A- contihuación· Se presenta un resumen de Excel que 1nuestra los valores estadísticos para el mismo cdnjuntd ele datos:
Media
30.05882
Error estándar
3·.409837
Mediana Moda
23 22
De.sviación estándar
varianza muestral Cl.lrtosis 1.\Simetría
24·.35111 592. 9765 0.933851
l 271859
Amplitud de variación
96
Mínimo Máximo suma
2 98
1533
Conteo
51
a) El teorema ele Chebyshev establece que por lo menos 75% ele las observaciones se encuentran dentro de dos desviaciones estándar Con respecto a la media. ¿Cuáles son est6s límites? b} Determine el coefiCiente ele variaCión ·e iíltérprét8!o. e) ¿Los valores.tienden a mostra:r.un,a asiriietría p·o's.ítiva o negativa? ¿Cómo lo sabe? 66. La empresa Danfoss E!ectronics, lnc. tiene 150 proveedores en todo Estados Unidos y Canadá. A_ continuación se-·presenta un r~sL!men de lbs: valores estadísticos de resu111en en MJNlTAB áCerca de[ volumen de ventas para .sus proveedore~. Variable Sales
N 150
M'e'an 128 .-1
Variablé Sáles
Min 2.0
Max 1ot9·;·0
Median
Tr Mean
81.0
102.2
SE Mean 13.3
º]
Q, 38. 7
St Dev 162.7
138.2
a) ¿Cuáles la amplitud .de variación? b} [)etermine !a g1_11plitud intercuartílica.
e} Obtenga-el·coeficiente: de variac.ión; á} Determine_ la: c:Hr~.cG!óo .de· la.asimetría.
e) Elaoore'uncdiagrama ele caja, 67. Los si9Liiente$ datos. sorr !ós val.ores· .estimados de[· n1ercado (en mi!fones de dólares) de 50 _compañías en el negocip·dec partes de automóvil. 26.8 28.3 11.7 6.7 6.1
8.6 15.5 18.5 31.4 0.9
6.5 31.4 6.8 30.4 9.6
30.6 23.4 22.3 20.6 35.0
15.4 4.3 12.9 5.2 17.1
18.0 20.2 29.8 37.8 1.9
7.6 33.5 1.3 ·13.4 1.2
----·-21.5 11.0 7.9 1'1.2 14.1 29.7 27.1 '18.3 16.6 31.1
10.2 1.0 '18.7 32.7 16. ·1
134 a} Determine la medía y la mediana de los valores de mercado. b} Obtenga !a d8svlaci.ón estándar de !os valores citados. e} Utilizando el teorema de Chebyshev, ¿entre qué valores esperaría que se presente aproximadamente 56% de !os valores del mercado? d} Utilizando !a regla empírica, aproxiinadamente 95% de los valores se presentan ¿entre qué valores? '8} D8téfitiTfiB''él'Cü8fiCfé'íilEftie·vati'átióíi':-t) Obtenga e!_ coeficiente de asimetría . . g) Estime los valores de Q 1 y Q 3. Elal:)ore. un diagrama.de caja, h} Redacte un-informe breve que. resuma-los resultados. 68. A continuación se da una lista de los.20 [ondas mutualistas más importantes e~ EUA, al 2J;de noviembre de 2000. Se indican sus activos en n1il!ones ele dólares, su tasa de interé$ a 5 años YsU tasa d6 interé_s a un añó. Suponga que los datos son una muestra. [ Fondo Vanguard lndex Fcls: 500 Ficlelity lnvest: Magellan Amerlcan-FundsA: ICAA American Funds A: WshA Janus: Fund Fidelity lnvest: Contra Fidc!ity !nvest: Grolnc American Funds: Growth A American Century: Ultra Janus: Wor!clWlde Ficlelity lnvest: GroCo American. Funds A: EupacA American Funds A: PerA Janus:Twen Fidelity In.ves\: Blue Chip Vanguard lnstl.Fds: lnst.icix PIMCO Funds lnstl: TotRt Putman .Funds A: Voy A Vanguard Funds: Wndsll Vanguard Funds: Prmcp
Activos ($mi)
lnterés a 5 añ:os
104 357 101 625 56 614 46 780 46 499 42 437 42 059 39 400 38 559 37 780
143.5 118.8 "129.8 108.1 "177.5 133.4 127.7 202.8 128.2 187.3 202.1 98.0 122.8 264.3 132.0 145.0 41.4 144.7 105.7 203.0
34 255 32.826 32 308 31 023 29 708 28 893 28 20"1 24 262 24 069
22 742
lnterés a 1 año -4.4 -3.9 3.1 -2.4 -2.2 1.6 0.1 -6.4
-5'.8 2.2 13.2 -2.8 -2.0 -·12.9 ~1.2
-4.3
7.7 -0.5 4.6 10.9
aj Calcule !a media, la medíana Yla desvíac.1ón estándar para Cada una de las variables. Com"'. pare·'tas·(:¡esviaGIOnes estándar dé 18.s tilSas· d8-iílt8réS a uri.--añó--y a CiriéO'a:ñ_os, Haga· i..in' comentario acerca de sus resultados. b) C~!cule el' coe_ficiente.de varlac_ió.n_ para cáda una_ de 1,as v_a_riables anteriores ..'Exprese un con1entario acerca de fa variación relativa de. las tres variables. e) Cá!cule el coeficiente de . a:sirhetría par_á-c8.da·una de lá~i'v8.ríables. Haga_a!gLin·come·ntarlo acercá de !a asimetría.-e'n-Sstas't~és va:rtabl8s. d) Cc:i!cule. el primer y tercer .c_uartH dé_ l_as tasas _de intE;réS a u_n año y a c:;inco años. e) _Dibuje diagramas de caja para las_ tasas de_interés·aün año y a cinco años. Comente sus resultados. ¿Existe algún dato extremo? 69. El programa espacialApolo duró d.e 1967 a 1972Y tuvo 13 misiones. La duradón de éstas varió desde_ 7 húras para fas m!sían·es breves, hasta 301 horas p<3.ra !as 111isioneS prolongadas_. A continuación se· índiCa ia duración de _cada vuefo:
9 ·10
8J
195 295
241 142
301
216
260
7
244
192
147 · 1
CalcUle la medía, la m'edianá y la desviación estándar Para la dura·ción de los vuelos de las misiones Apo!o.
Olras medidas descrip!óvas
135
b) Calcule el coeficiente de variación·y·el·éoeficiente de as¡metría. Haga un comentario sobre sus· resu!tados. e) Encuentre los centilesA5.y 82~ d) Dibuíe un diagrama de caja y comente sus hallazgos. 10. A c_oritínuación-se indica !3 círculación diaria promedio de !Os 50 periódicos de mayor círcu!acíón en Estados Unidos.
PEiriódicO liVall SlreytJournal (NuevaYork, N.Y:) USA Today (ArlingtnncVa.) Tí mes' (Los Angeles) Jimes(~uevaYork, NcY) Pos.t (Washington, D.G.) Daily News (Nueva York, N.Y.) Tribune (Chicago) . Newsday (Long lsl.and, ~LY.) Chro.nicle (Houston) Sun-Tin.ies (Chicago) MorningNews (Dallas) Chronicl.~ (San Francisco) Globe (Bastan) Post (Nueva York, N.Y.) ·Arizona Républ!C:-{Phoenix) lnquirer(Philadelphia) Star,Ledger (Newark, N.J.) Plain Dealer (Cleveland) ·FreePress. (Detmit) Union-Tribune (San Diego) Register (Orange County, Calif.) Hérald (Miami) Oregonian (Portland) Times (St Pétersburg, Fla.) Post(Denver)
Circulación í740450 l 653428 l 067 540 l 066.658 759122 723143 67.3 508 572 444 550 763 485 666 479 863 415324 470 825 437 467 435 330 428 895 407026 382 933 378 256 378112 356 953 349 l14 346 593 344 784 341 554
Periódico Sta'rTribuqe '(Mimie8.polls) RoGky:·Maunta_iíl News.(Denver) post-Dispatch (SI. Louis) Sun (Ballimore) ConstitUtion, (Ati anta) Mercury News (San Jase, Calit) Jour.nal Sentinel (Milwaukee) Bee. (Sacramento, Calif .) Star (Kansas City, Mo.) Hérald (Bastan) Times-Picayune (Nueva Orleáns) Sun-Se.ntinel (Fort Lauderdale, Fla.) Sentinel (Orlando, Fla.) lnvestor's Business Daily (Los Angeles) Dispatch (Golumbus, Ollio) News (Oetroit) Observar (Charlotte, N.C.) Post-Gazette (Pitlsburgh, Pa.) News (Buffalo, N.Y,) Tri_bune_ (Tampa, Fla.) Star-Telegram (Fort Wortll, Tex.) Star (lndianapolis) CourieriJournal (louisville Ky.) Times (SeaWe) Worlcl+lerald (Omaha, Neb.)
Ckcu!acióri 334751 331 978 329 582 3·¡4 033 303 698 290 885 285 776 283 589 281 596 271 425 259 317 258 726 258 726 251172 246 528 245 351 243 818 243 453 237 229 235 786 232112 230223 228144 2277'15 219 891
a) .Calcule la media, la mediana, ü., y Q.3 b) EncuentreJqs centiles 15 y 90. ,e) _C(3.lcul8: el cqeficiente de asimetría e ihterpreíe _e_I re;:;ultado. e) Elabore uri diagramada caja e interprete el result&dp. 7i._-A_continuació_n-s:e_ da la lista de !as pob!ac.iqne~:en--50_-;estados de-la unión americana. Población
C'al1forhia Carolina del'.Ncirte Caro!in3-de!.SUr .· c9forado Gonnecticut Dakota del.Norte Dakota de!Sur
üélaware Florida Georgia HaWaii ldáho lllinois
Estado
4 369 862 Indiana 6'19500 lowa 4 778.332 KanSas 2555l 373 Kenlucky 3314512'1 Loüisiaria 7 650 789 Maíífe 3 835 736 Maryland 4 050133 ··MasSachusetts 3 282 03'1 M,ichigan 633 666 Minrie·s_ata 733133 !Vl!Ss_i.~sippi 753 538 Missouri 1511.1244 Montana 7.788 240 Nebraska 1135 497 'NeVadá ·1 251 700 New Harnpshire 12128 370 Nueva _Jer$ey
Población 5 942 901 2869 413 2 654 052
3 960 825 4 372 035 1 253 040 5171634 6175169 9 86.3 775 4775 508 2768619 5 468 338. 882 779 1'666 028 ,j 809 253 t,201 134 8143 412
Estado Nueva-York Nuevo México Ohio Oklahoma Or8gon Pennsylvanla Rhode lslancl Tenni.!'ssée Texas Utall Vermont Virgínfa Virginia del Oeste Washington Wisco'nsin Wyoming
Pobra.cíóri 18196.601 'I 739 844 '!! 256 654 3 858 044 3316154 ·1.1 994 016 990 819 5 483 535 20044 '14'1 2129836 593 74Q 6 872.912 1 806 928 5 756 361 5 250 446. 479 602
1
136
Capítulo 4 a} b) e) d)
Calcule la medía, la mediana, Q 1 y Q 3, Calcule el centíl 15 y 90. Calcule el coeficiente de, asimetría e ,interpreteel resultado. Elabore un diagrama de caja e interprete,el resultado.
72. La página , ,,' ' , , Centerfor Health Stati,stics es http://www.cdc.gQblnchs. En la sección titulada Tabulated state Data, pulsar,sobr" ,Bírths. Ir a esa página '?~alizar latabla "Uve ,Births by Race and Hispanic Origin ofMqther: Uc$., Each State, Puert,o Rico, Virgin lslands, and Guam". Suponga que se está intere;;ado en las· tasas de nacimiento,en los 50 estados:,Elaborar un_dlagrama de caja con_e_stos.datos_:._~fllcu!ar-la media,__ f_a msqiana,_la ciesvia~ ción:estándar -Y el- coeficiente. de asimetría: -¿Qué :se puede_-c,oncfuir. acerca de. !_a forma de la
y
dlstrlbúci?íl?·_._ :_ . _ __ .- _,- __ ... -.. , 73. En _el ejercicio 68 del capítulo 3 se presentó la ínformació~ del promedio Industrial Dow ,Janes (PIDJ) al día i 1 de julio d~ 2000. A contínuacióp serepite esa información. a) Elabore un diagram? de caja para estas,30 obs~rv~ci 0 qes y un ,informe breve, ¿Es simé!ri' ca_J_a.~listr_ibucíón?-¿C¡já!es son !_as estima_cipÍies,.del_pri_mer y terc_er cuartH; ·así_ como de_ la mec{if:u1_a7 ¿Hay- a_!gú_n valor extremo? b) D.eterrn,i_ne la de_Sviación estándar dé loS prE;loJq_s ,d~ éStas acciqnes~ ¿Muestran estos precios. mucha var!a:ción? e) Erfla siguiente pág_ina de !a: Red se-_encueritr_aJnf_orn1acióriretatlvi:1 al PID_J:_ http://\11Nil'NJox·nevvs.co_mlnevvsH_eatures/dovv/._ ¿H~: h~b_ido mucha:-va~iación.desde que· se;ot¡tuvieron.-es~ tos datos? Verifique si alguna de las empresas incluidas en el. PIDJ ha variado. Nombre de la émptésa A!eóa !ne; Ame_íican. Express_ Co-. AT&T Corp. Bóefng Co. Caterpillar !ne. Citigroup lnc. Coca-Cofa Co. DuPon! Co. Eastman.Kodal(Co. Exxon Mobíl Cot¡J: General Electrie Co: Genera.1..Motors Corp. ·. Ho(Tle Depot !ne. Hmiey_welt !riternatio"11at !ne. HewlettcPaekard Co. ln_ter_íl_ationa! Buslriess_'.M_achi_heS Corp. lntélGorp. lnternational Paper Co. J.R Margan&. éo. ·Jbhri'son & JollilSoh Mg!lonald's Córpc Merck&Co: M_icrósoft Cor¡). ~inri'esota Mlning: & M_árii.Jfacturing Co_. PhHíp Morris Gos. Procter & Gamble Co SBG Gommuílic-atiüns lnc. UniledTeehnologies Corp. Wal·Mart Stores lnc. Wal! Oísney Co.
SínlbólO''
Precio
PónderaCión %
(AA)
31.6875 53.5625 31.8750 44.1250 35,9375 65.8750 56.0000 46.5625 60;6250 80".4375 527500 62.0625 '17'1875 35.8125
1.677 2.835 1.687 2335 1.902 3A87 2.964 2.464 3.209 4.258 2.792 3.285' 3.027 ts95 6:607 5.366 7c348, 1.842 ll.243 5.273 1.713 3.937 4cl75 4.681 1.373 2.888 2,_:i42 3.139 3.272 1.98.1
(AXP) (T) (BA) (CAT) (C) (KO) (DO) (EK) (XOM) (GE) (GM) (HD) (HON) (HWP) (IBM) (INTC) (IP) (JPI~)
(JNJ) (MCD) (MRK) (MSFT) (MMM) (MO) (PG) (SBC) (UTX) (WMT) (DIS)
124.8125 101.3750. 138.8125 34.8.125 l1'(9:Í75 99.6250 32.3750 74:3750 7§.8750 88.4375 25.9375 54c5625 44.2500 59.3125 6H125 37.4375
O!ras medidas descrip!ivas
137
~i~~~~-~!~~<:~~~-ªª!~~!Pª~~ CO~R~~~.i~~~~-·,,~··""""······~~~"""""""""""""" 74 ... RefiérasEraJ-corijunto de-dálos (Real State), qüe irifdrma acerca de las casas vendidas en el área de VeniCe, Florida:, e!" añO-pasado. a) Para la variable "precio de venta":
1. _C.ªIQ_L_1_J('.1:J?_ Ql_edJ~; __l_~Lrne.dJ8.r:ú:tY. l_;:t:.,d_$_sV,i,acLón_J~_S:~é.JJd.ar.____ _ 2. Determine ·e! co6ficiente de as!metrí8. ¿La distribución es 'asimétrica con sesgo positf-
vcfo: negativo? 3. Elabore un diagrama de caja. ¿Hay algún valor extremo? Estime el primer y el tercer cL1arti!és.· 4. Redacte un resumen breve acerca de la distribución ele los precios de venta. b) Para ta-_variable>11á_r_ea de! _ inm_ueble en pi_es cuad_rados"_: 1. Calcule la rneclia,.la_mediana y la.desviacló11 estándar;. 2.- Determine el coeficieitte de asimetría'. ¿La distribución: es asímétrica.con sesgó posítivo·.o negativo? · · 3. Elabore· un diagrama de. caja. ¿Hay alg(1n punto o valor extremo? Estimé el primer y el térceccwartilSs. .. 4; Escr_iba un resumen breve- con-'re!aCióri. a la distribución del área de !os íriniLleb!9S. 75•. Con relación al conjunto de datos de béisbol (Baseba// 2000), que da información respecto a los 30 .equipos de la Liga. Mayor de Béisbol para la temporada 2000: a) ParaJa.ya'.iable "§Ueldo.en el eguip 0''; 1~- Calcu!e-!a m_edía;-!a-medlan_a-y-la·:desViáción estándar. 2~ Determine e!_ coefcrente dé aslm8tría·. l,La:distrlbución es asimétrica con sesgo positlvo o negt:l._tivo? 3. Elabore un diagrama de caja. ¿Hay afgCríi'valor extremo? Calcule e! primer y el tercer cuartiles. 4. Redacte un resur"Den breve que indique !a dfstribución de. !os sueldos en los equipos.. b) Utilizando la variable que indique el año en el que se construyó el estadio respectivo (sugerencia: reste del 8:ñ0 actual el año en e! ctlJe se construyó el estadio para calcular los años que:tierie E)f·estadio, y trabaje con esa i/8.ríable),' realice t_o slguíente: 1. Qalcu_!S:-la- me_dia, la mediana y la desviaGi.ón estándar. 2. D8teríli!ne:ef6o8fíciente de asirnetría. ¿LB.'distribución es asimétrica con sesgo positivo o negativo? · 3. E!abOre \.J.n:._di. :. -'., . : .·-· '.:._ - ~-: . _; ;- ·.; _-- '·- i>_/-- _· ·-·:.,:::' ;'·_·_ . _.,:_- : ' Elab.or.e un diagrama de9'1ja; ~Hay algúqyalor o extremo? Calcule el prirner y el tercer < •.....· . ·•... · ·.• •.·.•...• cuartiles. . . ~;criba un res~m.eriwbre ta 9istribuciór1delporcenlajé ele la población mayor de 65 años. re_r_~p_i_ó~,-_a! c-?~juh_to::d.e_·.datos:_~e est:;:u_el¡:is: (S.choo/s}, que reporta información acerca de 94 distritos escolares en el noroeste de Ohio: Pa_r_a:.1~-·~~-ri8bte:·",sueia.o: _de·:_ ¡)rofe'SOr".: Célt.cul6 !c:r-media,-.1.a_- rri.ediana_ y !a. éiSsVlaCión estándar. 2. Deterniine e! coeficiente de: 8simetrfa. ¿La distribución es asimétrica con sesgo.positivo o negatiVo?
138 3. Elabore un diagrama de ·c_aja. ¿Hay algún val9r extremo_? Estime e! primer y el tercer cuartifés. 4. Escriba un rEJsum.en breve relatiyo a _!a distribución de los sueldos. b) Para la variable "nl1mero. de estudiantes en eL distrito escolar": 1. Calcule la media, la median.a y la desviación estándar. 2. Det_ermine et.coeficiente de a$frnetría. ¿La_ di_stribucíón· es asimétrica con sesgo positi-
·vó"O--ne·g_aHVO? 3. Elabore un diagrama de caía. ¿Hay algün,dato.extremo? Calcule el primer y el tercer 4~
cuartil. Redacte un· resumen breve con respecto a. !a,distribuclón del nllmeró de estudiantes.
Comandospara computadqra i: Los comandos de MIN.ITAB para el resumen de estadística descriptiva; en la página ·120·.son: a) En !a co!utÍlna Ci de !a hoja de:cálculo;. introducir· IEis ganancias tjue se dan en et ejemplo de la página 118. Llamar a. esta variable Earnings. b) Selee<::ionar Stat, Basíc Stalístics y después. Display Descrip!íve Slat.islics. En. la venta.na< de diálogo siale_cCíona:r Earnfr1gs-como.·variable .y después pulsar en·Graphs en la estjuiila inferior derecha... Dentro de ·esta. ventana de.-diá!ogo·-Se!éécioná.r G-raphic summary y pulsar OK. pqisartambién OK en la siguiente.ventana de.diálogo.
139 2. Los comandos de M!N!TAB para el resumen estadístico ele la página i 23, que se obtíenen a
partir ele los datos c!.e.. !a agencia. Whitner._Pon_tiac son: a) Importar los datos del disco compacto (CD). El nombre del archivo es Tbl2-1; b) Usar !os misn1os c,o.rr:iandos._que.en el ejercicto antedor._J..os cu9c!ros de diálogo que apa-
recerán serán los mismos. 3. Los comatldos de- Excel para e! resumen estadístíco que aparece en !a página i 24 son: · aJ ·· lmporfailosaatos aesaee1 co:serecdariare1 formafo·¡¡e ExceCE1•·archivoesri:iiz:1:· . b) Seleccionar He.rramien!a.s y después Análisis de dalos y oprimir la tecla Enler. e) Seleccionar _Estadística Descriptiva y luégo oprimir Aceptar. d) El Intervalo. de entrada es .A l:A81, seleccionar Agrupados en columnas, pulse en Rótulos· en la primera fila. Ei intervalo de salida es·.01·, oprimir Resumen d0 estadísticas y después oprimir Aceptar.
4 •. Los ca.mandos de MINITAB para el diágrama de caja de la página 126 son: a) Importar los datos del disco compacto. El nombre.del archiv.o esTbl2~1. b) Seleccionar Graph y después Jf:lo:Xpi('.>ts.:En fa ventana .de.d.iátogo s~!.et:cionar Príce como · lavariable y después pulsar (IK.
140
Capítulo 4
.95...
103 105
IJO
(04 105 112
90
(28)2 ·1.26--·-· 7 7
c-1
¡c_s1 1
126~112
01
6
1+21 i +71 1+11 1+21 1 +91 1"131
2.33
s = \/2.33 = 1.53
2· 9 Total
13
a) 12 -2 "'10 méses
42
b) 2J30meses, obtenido.por:
DM= ·~ .; s,25Jibras 4.2
a}
$11 900
5
Meses. 2·hásta 4 4. hásta 6 6 h.ásta 8
$2$80
bJ "'=·(2536-2380)'+;+(2 622-2Sso¡
S:.Qasta 1G
2
10hasta12
X 3
6
5
25
18 125
10 4 2
7 9 "11
70 36 22
324. 242
23
(j 56)2 +(" 207)2 +. (68)2 · + c~2s9) 2 + (2'f2l' 5
s =
f }(2
f 2 5
fX
490
159
1199
·.·1199~-.. .·. (15·9)' ! 1¡ ... ·. •. 23 l
23-1
.'
·.~.41;;199· ~iso:r13·f . . . "'·\14.537554•
/'2)f> .
=:-2~ l30.'·mése·s
=
4,3 a}
k""
(2.i30f.°' 4.q36g,
14,1 sL 14.oo
=
l.s
0:10 1-·
t
(1.5)2
C"1 -
C"0:56
l::i! 1s.syJ42
en
141
Otras medídas descriptivas
=.-0.54.81
i:IF Lá distribucióh tiene .éierta. asitnefría negativa. a)Nfü 15¡0;2 7:1e,o,.:s.01s
X-X
El valor más pe~ueño es 1o yel mas giande, 85; e! prííner:cuai:til"es-25 1 :y-'et tercero-; 60:--AproximadámSnté-50% ·de !Os valores Se ·encuentran entre 25 y 60. El valor de la mediana es 40 .. La dístribucióíl es algo_ asímétricá con s·esgo positivo>'.
142
En esta sección se presenta un repaso de los principales conceptos y términos expuestos en los capítulos de! i al 4. Dichos capítulos se destinaron a describir un conjunto de datos organizados en una distribución de frecuencias, y después representar ta! distribución en -forma de histograma, polígono de frecuencias o polígono ele frecuencias acurnuladas. El objetivo de las gráficas es mostrar de manera visual las características importantes de los datos. Calcular un valor central que represente a los datos es una forma numérica de condensar un conjunto de observaciones. En e! capítulo 3 se consideraron varias medidas de tendencia central: rnedia, media ponderada, media geométrica, mediana y moda. En el capítulo 4 se describió la dispersión de los datos a! calcular la arnplitud de variación, la desviación estándar y otras rnedidas. Además, se determinó el sesgo o falta de simetría de los datos al evaluar el coeficiente de asirnetn'a. Se subrayó !a i111portancia de los programas (so'ftware) de co111putación, incluyendo Excel y MINITAB. Varios listados de cornputadora en estos capítulos n1ostraron la rapidez y exactitud con que puede organizarse un conjunto de datos originales en una distribución ele frecuencias y un histograma. También observamos que los resultados de computadora presentan un gran número de rnedidas descriptivas, incluyendo la media, la variancia y la desviación estándar.
Caipít!Ll!O 1 !Estadística Ciencia y técnica de recolectar, organizar, ana!izar e interpretar datos numéricos con objeto de tomar decisiones más efectivas. Estadística descriptiva Parte de la estadística empleada para describir las características importantes de un conjunto de datos. Entre ésas se tienen la organización de los valores en una distribución de frecuencias, y el cálculo de medidas ele tendencia central, así como de medidas de dispersión y de asimetría o sesgo. Estadística inferencia~ (ta111bién deno1ninada i1J1ferencia estadfstica o estadística inductiva) Esta parte de la estadística general se ocupa de estimar un parámetro poblacio·nal con base en un valor estadístico muestra!. Por ejemplo, si 2 de 1O calculadoras ele mano muestreadas resultan defectuosas, podría111os inferir que 20% de la producción es defectuosa. Exhaustiva Adjetivo que se aplica porque cada observación debe quedar en sólo una de las categorías. Medición de !ntervaio Si una observación es mayor que otra en una cantidad dada, y el punto cero es arbitrario, la medición está en una escala de intervalo. Por eje111plo, la diferencia entre temperaturas de 70 y 80 grados es 1O grados. De rr1anera semejante, una te111peratura de 90 grados es í O gracias mayor que una te111peratura de 80 grados, y así sucesivamente. !Vledición de razón (o cociente) Si las distancias entre números son de valor constante conocido y existe un verdadero punto cero, y además la razón entre dos valores es importante, la medición está en la escala de razón. Por ejemplo, la distancia entre $200 y $300 (dólares) es $100, y en el caso del dinero existe un verdadero punto cero. Si se tiene cero dólares, existe ausencia ele dineío (no se tienen fondos). Asimismo, la razón (o "proporción") entre $200 y $300 es importante.
Medición norninai Es el nivel "más bajo" de medición. Si los datos se clasifican en categorías y el orden de éstas no importa, se trata del nivel de medición nomlnal. Son ejemplos el sexo (masculino, femenino) y la afiliación política (republicano, demócrata, independiente, o de cualquier otro partido). Si no importa considerar primero lo referente a! género masculino o femenino, los datos son de nivel nominal. Medición ordinal Se dice que los datos que pueden clasificarse de manera lógica son medidas ordinales. Por ejemplo, la respuesta del consumidor al sonido de una bocina nueva podría ser excelente, muy buena, buena, regular o mala. Muestra Porción o subconjunto, de la población que se estudia. Mutuan1ente exc!uyente Adjetivo que se aplica porque una observación no puede quedar en rnás de una categoría. Población Conjunto o colección de todos los objetos, n1ediciones o personas cuyas propiedades están siendo consideradas o estudiadas.
Gapílulo 2 Clase Intervalo en el cual se clasifican los datos. Por ejemplo, $4 a $7 (dólares) es una clase; $7 a $11 es otra. Diagramas Representaciones gráficas especiales que se emplean para representar distribuciones de frecuencias, como histogramas, polígonos de frecuencias y polígonos de frecuencias acumuladas. Otros medios gráficos que se usan para representar datos son las gráficas lineales (o de líneas), las gráficas de barras y las gráficas circulares (o de sectores). Son muy L1tiles, por ejen1plo, para representar la tendencia en deudas a' largo plazo o los cambios porcentuales en las utilidades (o ganancias) del año anterior al presente. Distribución de frecuencias Agrupamiento de datos en categorías mostrando el nllmero de observaciones en cada una de las clases que no se sobreponen. Por ejemplo, los
143 datos se organizan en clases como $1 000 a $2 000 (dóla· res), $2 000 a $3 000, y así sucesivamente para resumir la información. Frecuencia de clase Nl1me1·0 de observaciones contenidas en cada clase. Si l1ay ·15 observaciones en la clase $4 a $6, entonces i 6 es la frecuencia de clase.
Punto medio Valor que divide a ia clase en dos partes iguales. Para las clases $-iü a $20 (dólares) y $20 a $30. los puntos medios son $·15 y $25, respectivamente. Gapíl~lo
3
Media aritrnétlca Suma de los valores considerados, divi-
dida entre el nl1mero de ellQ_s. El símbolo para la media aritmética de una muestra es X, y el símbolo para la media de una población es ¡..L. Media geométrica Es la raíz n-ésima de! producto de todos los valores. Resulta útil en especial para pron1ediar tasas de variación y nl1n1eros índice_ Minimiza la irnportancia de los valores extreinos. Un segundo uso de la· inedia geométrica consiste en determinar el cambio porcentual pro1nedio durante un cierto periodo. Por ejemplo, si las ventas brutas fueran de $245 millones en 1985, y de $692 millones en 1998, ¿cuál sería el incremento porcentual promedio? Media ponderada Cada valor se pondera (o "pesa") de acuerdo con su importancía relativa. Por ejemplo, si 5 camisas cuestan $i O (dólares) cada una, y otras 20 cuestan $8 cada una, la n1edia ponderada del precio es $8.40, valor que proviene de: [(5 x $1 O)+ (20 x $8)]/25 ~ $210/25 ~ $8.40. Mediana Valor de la observación centra! después ele que todas las observaciones se han ordenado de menor a mayor. Por ejemplo, las observaciones 6, 9, 4 se reordenan así: 4, 6, 9, y entonces el valor central es 6, la mediana. f\Jledida de tendencia central Número que describe la centralización o tendencia central de los datos. Existe un cíerto número de promedios especializados, entre los que se incluye la media aritmética, la media ponderada, la mediana, la moda y la media geométrica.
tv!oda Valo1· del elemento que aparece con mayor frecuencia en un conjunto de datos. Para datos agrupados, es el punto central de la clase que contiene la rnayo1· parte de los valores.
!:apfü1l
Las respuestas a /os ejercicios de nún1ero impar se dan al final del libro.
1. De entre todos los e1npleados de la empresa f\JED Electronics se seleccionó un pequeño nl1mero, y se registraron sus sueldos por hora. Tales percepciones fueron: $9.50, $9.00, $1 ·1.70, $14.80 y $·13.00 (dólares). a} b) e) d) e)
Los sueldos por hora ¿son una muestra o una población? ¿Cuál es el nivel de medición? ¿Cuál es la inedia (arit11ética) de los sueldos por hora? ¿Cuál es la mediana ele dichos sueldos? Interprete su respuesta. ¿Cuál es la varianza? t) ¿Cuál es el coeficiente de asimetría? Interprete su respuesta. 2. El nl1mero de horas de tie111po extra trabajadas a la seinana por todos los e1npleados de la empresa Public Market son:', 4, 6. 12, 5 y 2. a) ¿Es ésta una rnuestra D una población? b) ¿Cuál es la media del nl1mero de horas de tiempo extra? e) ¿Cuál es la mediana? Interprete su respuesta. d) ¿Cuál es la moda?
l.44
Secció11 de repaso ·1 e} ¿Cuál es la desviación media? f) ¿Cuál es la desviación estándar? g} ¿Cuál eS el coeficiente de variación? 3. Las oficinas de turisn10 en St. Thomas y otras islas del mar Caribe obtuvieron una muestra de turistas conforme regresaban a Estados Unidos. Una de las preguntas fue: ¿cuántos rollos de película fotográfica utilizó al visitar nuestra isla? Las respuestas de la muestra fueron:
1
~
6 11
1·1 8
3 7
14 8
8 10
9 9
9 13
16 12
a) b} e) d} e)
Utilizando cinco c!ases, organice los datos muestra!es en una distribución de frecuencias. Represente la distribución co1110 un polígono de frecuencias. ¿Cuál es la media del número de rollos utilizados? Use los datos originales (sin ordenar). ¿Cuál es la mediana? Utilice los datos originales. ¿Cuál es !a moda? Aplique los datos originales. f) ¿Cuál es la amplitud de variación? Haga uso de los datos originales. g) ¿Cuál es la varianza muestra!? Utilice los datos originales. h) ¿Cuál es la desviación estándar muestra!? Aplique los datos originales. !) Si se considera que la distribución es simétrica y de campana, aproximadamente 95% de los turistas utilizaron entre y rollos. 4. Las cantidades anuales gastadas en investigación y desarrollo por una n1uestra de fabrícantes de componentes electrónicos son (en millones de dólares):
8 14 13
34 26 25
15 18
24 23
20
28
15 10 6
28
12 16
20
21
20
19
27
17
22 22 16
23 31
22
a) ¿Cuál es el nlvel de medición?
b) Utilizando seis clases, organice los gastos en una distribución de frecuencias. e) Represente la distribución con un h\stogran1a. d) Graflque la distribución mediante un polígono de frecuencias acumuladas "menor que".
5.
6.
7.
8.
e) Con base en el polígono anterior, ¿cuál es la mediana estimada de la cantidad gastada en investigación y desarrollo? Explique su respuesta. f) ¿Cuál es la media de las cantidades gastadas en investigación y desarrollo? g) Con base en el polígono de frecuencias acumuladas "menor que", ¿cuál es la amplitud cuartílica? Las tasas de crecimiento de la empresa Bardeen Chemicals durante los L1ltin1os cinco años son: 5.2%, 8.7%, 3.9%, 6.89-S y 19.5%. a) ¿Cuál es la 111edia aritmética de la tasa de crecin1iento anual? b} ¿Cuál es la media geométríca de dicha tasa? e) ¿Debería utilizarse la rnedia aritmética, o bien la media geométrica, para determinar la tasa promedio de crecimiento anua!? ¿Por qué? La compañía Currin Manufacturing Co. observó en su informe del segundo trimestre de 2000 que hasta el 30 de junio de ese año, las facturas por pagar llegaban a 284.0 millones de dólares. Para la misma fecha en 1990, fueron de 113.0 millones de dólares. ¿Cuál es la media geon1étrica del incrernento porcentual anual (de junio a junio) desde junio de 1990 hasta junio de 2000? El informe anual de la e111presa BFI reveló que su capital operativo o de trabajo era {en n1i!es de millones ele dólares) de: 4.4, 3.4, 3.0. 4.8, 7.8 y 8.3, consecutivamente para los años 19952000. Presente estas cifras en una gráfica si111ple de líneas o una de barras. Refiérase al siguiente diagrama: a) ¿Cómo se denomina la gráfica?
---------~--
o
40
80
120
----------·I
160
200
145
Repaso de los capítulo 1 a 4
b) ¿Cuál es la mediana, y los valores del primer y el tercer cuarti!es? e} ¿La distribución es asimétrica de sesgo positivo? Explique córno lo sabe. d} ¿Existen datos incongruentes? Si la respuesta es sí, calcule estos valores. e) ¿Puede determinar e! número de observaciones en el estudio? Al resolver !os ejercicios del 9 al i 8, llene los espacios en blanco. 9º Se pidió a los empleados de una empresa que asisten a un curso ele capacitación, que lo clasificaran como notable, muy bueno, bueno, regular o deficiente. E! nivel de medición es 10. Una muestra de ciudadar:os en la edad senll (en EUA) reveló que su ingreso anual de retiro tiene una medía de $i 6 900 (dólares). Puesto que la media se basa en una muestra, se dice que $16900es _ _ _ _ __ ·11. Véase la gráfica siguiente. Es denominada _ _ _ _ _. El tercer cuartil vale aproxin1adamente // , e! primer cuartil , la amplitud cuartílica ,y !a amplitud total de varíación _ _ _ __
400
100
"'2ro 300 § w
75
'§ 200
50
E
p
D
e
2e
é5
100
25
Q_
•:O
z
o
o 20
25
30
35
40
45
50
55
Edad
12. Consulte la gráfica que sigue, la cual se basa en una distribución de frecuencias. Se denomina ':f_1 ::~r.!_r'!
-f_. . Describa el sesgo o asimetría de la distribución. Explique.
c.,.)
i'i
rn o. E
D
e
E
~
2
3 4 5
6
7 8
9 10 11 12
N(1mero de años de retiro
13. Para un conjunto de observaciones se tiene la siguiente información: media= $64, mediana = $61, moda= $60, desviación estándar= $6, y amplitud ele variación = $40. El coeficiente ele variación es ______
14. Considere el ejercicio 13. El coeficiente de asimetría es _ _ _ __ i5. Una medida útil para comparar !a dispersión relativa de dos o más distribuciones, si están en unidades distintas, es
16. Para un conjunto de observaciones contamos con la siguiente información: media= 100, mediana = 100, moda = 100 y s = 4. La amplitud de variación vale, aproximadarnente, 17. Considere el ejercicio 16. Aproximadamente 95% ele los valores está entre _ _ _ _ y
146 18. La empresa Fine Furniture, lnc. produjo 2 460 escritor\os en 1990, y 6 520 en 2000. Para en-
contrar el promedio del incremento porcentual anual en la producción, debe utilizarse i 9. Una 111uestra de las cantidades depositadas por clientes (en las cuentas miniatura de cheques) ele! First Federal Bank reveló las siguientes cantidades {en dólares):
$124 39 186 116 145
$14 52 107 152 187
$150 103 142 206 165
$52 136 75 52 158
$289 58 185 117 147
$156 249 202 299 ·145
$82 298 2'19 153 186
$203 ·110 119 58 185
$27 25·1 156 219 149
$248 ·¡57
78 148 140
Utilizando los datos anteriores y un paquete informático estadístico (como el MiNITAB): a) Organice los datos en una distribución de frecuencias. b) Calcule la media, la mediana y otras medidas descriptivas. Incluya gráficas, si están disponibles. Usted decide cuál debe ser el inte1valo de clase. e) Interprete !os resultados de computadora; esto es, describa la tendencía central, la dispersión, el sesgo o asimetría, y otras medidas. 20. Si no se dispone de computadora, organice las cantidades de unas cuentas de cheques en una distribución de frecuencias. Usted decide cuál debe ser el Intervalo de c!ase. Represente la distribución en forma gráfica y calcule medidas de tendencia central, dispersión y asimetría. Después interprete las características importantes de las cuentas de cheques. 21. Entre 1789 y 1996. 85 jueces han fungido como. magistrados adjuntos de la Suprema Corte de Estados Unídos. A continuación se presentan sus años de servicio. Analice !os datos. a) ¿Cuál es un tie111po representativo de servicio? b} ¿Cuá! es !a variación en los tiempos de servicio? e} ¿Es la distribución simétrica? d'j Desarrolle un diagrama de tallo y hoja.
8 30 4 18 20 29 5 36 23
1 16 28 28 11 19 15 9 2
20 18 14 14 5 3 16 1 3
5 23 18 34 20 4
7 13 15
9 33 27 10 15 5 16 6 14
o 20 5 21 10 26 ·15 13
13 2 23 9 2 4 6 17
15 31 5 33 16 10 34 7
30 14 8 6 13 26 19 16
3 32 23 7 26 22 23 5
22. El ingreso personai per cápita y por entidad fede1-al (incluyendo el Distrito de Columbia) en Estados Unidos, en miles de dólares, se presenta a continuación. a) Organice estos datos en una distribución de frecuencias. b) ¿Cuál es un ingreso per cápita "típico" para una entidad? e} ¿Cuánta variación hay en ·as datos de ingreso? d) ¿Es simétrica !a distribución? e) Haga un resumen de sus hallazgos.
11.1 18.9 14.4 9.5 17.1 11:1 10.5
17.7 14.3 11.1 13.6 12.2 11.9 13.8
13.2 '13.2 11.2 ·11.9
12.3 '11.8
13.2
'I0.7 14.7 12.7 13.8 13.7 13.5
16.8 ·11.4 16.6 15.1 12.4 10.7
15.1 i5.4 17.5 15.9 12.2 ·12.8
·;9.2 12.9 14.'I 18.3 13.9 15.4
15.1 13.2 14.7 11.1 14.7 14.5
147
llepas!l de los capí!ulo 1 a 4
23, A continuación se proporcionan las edades en que cada uno de los 43 presidentes de Estados Unidos, en1pezaron e ejercer su cargo. Organice los datos en un diagrama de tallo y hoja. Determine una edad representativa de inicio de funciones. Comente acerca de la variación en las edades. ·~
57 49
50 54 64
61 64 47 51 46
57 50 55 60
57 48
55 62
58 65 54
43
57 52 42 55
5·¡
56 51 56
54 46 56 61
51 49 51 69
68 54
55 52
Casos A. Cenlury Nalional Bank Et siguiente· caso apar'ecerá en fas secciones de repaso. Suponga que usted trabaja en et Departamento de Planeación del Century National Bank, y que reporta con la señora Lamberg. Necesitará realizar algunos análisis de datos y elaborar un breve informe por escrito. Recuerde que el señor SeHg es el presidente del banco, y por tanto debe asegurarse de que su informe sea completo y preciso. Una copia de los datos aparece en el apéndice 1\J. La organización bancaria Century National Bank tiene oficinas en varias ciudades en el oeste medio y en el sudeste de Estados Unidos. El señor Dan Selig, presidente y ejecutivo en jefe (CEO), quisiera saber las caracte1·ísticas de sus clientes de cuenta de cheques. ¿Cuál es el saldo de un cliente típico? ¿Cuántos servicios bancarios adicionales usan Jos clientes? ¿Utilízan el servicio de cajero automático?, y si es así, ¿qué tan frecuentemente? ¿Qué datos hay respecto a tarjetas de débito? ¿Quién las utiliza y qué tan frecuentemente se usan? Para entender mejor a los clientes, el señor Selig pidió a la señora Lamberg, directora de planeaclón, que seleccionara una muestra de c!íentes y elaborara un informe. Para comenzar, nombró un equipo de su personal. Usted es el jefe del equipo y responsable de redactar el informe. Selecciona una muestra aleatoria de 60 clientes. Además del saldo en cada cuenta al final del mes pasado, usted determina: 1:"1) la cantidad de transacciones realizadas en cajero autornático durante el mes pasado; (2) la cantidad de otros servicios bancaríos que el cliente utiliza (una cuenta de ahorros, un certificado de depósito, etc.); (3) si el cliente tiene una tarjeta de débito (este es un servicio bancario relativan1ente nuevo en que los cargos se hacen directamente a la cuenta del cliente); y (4) si se pagan o no intereses en la cuenta de cheques. La muestra incluye clientes de las sucursales en Cincinnati, Ohio; en At!anta, Georgia; en Louisville, Kentucky; y en Erie, Pennsyivania. i. Elabore un diagrama o gráfica que presente los saldos de la cuenta de cheques. ¿Cuál es e! saldo de un cliente típico? ¿Muchos clientes tienen más de $2 000 {dólares) en sus cuentas? ¿Parece haber una diferencia en la distribución de las cuentas en !as cuatro sucursales?
¿Alrededor de qué valor tienden a agruparse los saldos de las cuentas? 2. Determine la media y !a mediana de !os saldos ele !as cuentas de cheques. Compare la media y la mediana de los saldos para las cuatro sucursales. ¿Hay alguna diferencia entre éstas? Asegúrese de explicar la diferencia entre la media y la mediana en su informe. 3. Determine la amplitud de variación y la desviación estándar de los saldos de las cuentas de cheques. ¿Qué muestran e! primer y el tercer cuartiles? Determine el coeficiente de asimetría e indique qué señala. Como el señor Selig no maneja estadísticas diariamente, incluya una interpretación y descripción breve de !a desviación estándar y otras medidas. Plum~iílg S11pply, l11c,: ¿Existeri diferencias de gé~enJ?
B, lflliltica!
La compañía Wildcat Plumbíng Supply ha atendído las necesidades ele plomería del área sudoeste de Arizona por 111ás de 40 años. La empresa fue ·fundada por e! señor Terrence St. Julian, y actualmente es dirigida por su hijo Cory. La compañía ha crecido a partir de un pequeño número de empleados, hasta rnás de 500, hoy día. Cory consídera el asunto de varios puestos dentro de la compañía donde tiene a hombres y mujeres desarrollando el mismo trabajo, pero recibiendo una retribución diferente. Para investigar, recolectó la siguiente información. Suponga que usted es un estudiante pasante en el Departamento de Contabilidad, y tiene !a tarea de redactar un informe que resuma la situación.
Salario
(mi~es
de dólares)
Mujeres
Hombres
Menes de 30 30 t1asta 40 40 hasta 50
2
o
3 17
50 hasta 60
·17
60 !1asta 70
8
1 4 24 21 7 3
70 hasta 80
3
80 o más
o
.
Para dar comienzo a! proyecto, el señor Cory St. Julian
148
Sección de repaso 1
llevó a cabo una reunión con su personal y lo invitaron a usted. En esta junta le indican que calcule varias medidas de ubicación, elabore gráficas -como una distribución de frecuencias acumuladas "mayor que" - y determine los cuartiles hombres y mujeres. Realice las gráficas y escriba el informe resumiendo los sueldos anuales de los empleados en la en1presa. ¿Parece que hay diferencias en lo que respecta al sexo o género?
C. Kiunbie Procit1cts: ¿!Existe a!gur¡a dlfererru~¡a ei1 las comisiories? En la reunión de ventas nacionales de enero, se le preguntó al presidente y ejecutivo en jefe (CEO) de la empresa Kimble Products cuál era la política de la compañía acerca de las comisiones pagadas a sus representantes de ventas. La empresa vende artículos deportivos a dos mercados importantes. Hay 40 representantes de ventas que tratan directamente con clientes de mayoreo, como los departamentos de atletismo de importantes universidades, y las franquicias profesionales para deportes. Hay 30 vendedores que representan a ta compañía en tiendas de menudeo, localizadas en centros comerciales, y tiendas de grandes descuentos, como Kmart y Target. A su regreso a la sede corporativa, el ejecutivo pidió a! gerente de ventas que elaborase un informe que compare
las comisiones ganadas el año pasado por las dos partes del equipo de ventas. La información se presenta a continuación. Escriba un informe breve. ¿Concluiría que hay alguna diferencia? Asegúrese de incluir información en el informe respecto a la dispersión y tendencia central en los dos grupos. Comisiones ganadas (en dólares) por los representantes de ventas que tratan con departamentos de atletismo
354 87 1 676 1187 69 3 202 680 39 1 683 1106 883 3140 299 2197 175 159 1 ·105 434 615 149 ·1 168 278 579 7 357 252 1 602 2 321 4 392 4·15 427 1 738 526 13 1 604 249 557 635 527
Comisiones ganadas (en dólares) por_ los representantes de ventas que tratan con establecimientos grandes de ventas al menudeo
1116 681 1 294 12 754 1 206 1 448 870 944 1 255 1 213 1 291 719 934 1 313 1 083 899 850 886 1 556 886 1 315 1 858 1 262 1 338 1 066 807 1 244 758 918
OBJ!01Tlff0S Al terminar este capítulo podrá: !JilliJJ
Definir lo que es probabilidad.
CUAT~iJJ
Definir los conceptos probabilidad condicional y probabilidad conjunta. C~lf\HCO
Calcular probabilidades aplicando las reglas de adición y las reglas de multiplicación. SE!fl Utiliza;undi.awama de árbol P_~_ra· orQaniz~~-y evaluar probabilidE!des. ~~EJ~E,"
C.ak:.Lilar~ná probabilidad ytili;D1n~o. el
f3ay<01S; .
teorema d.e
150
Gapílulo 5
Introducción Los capítulos 2 al 4 se centraron en la estadística descriptiva. En el capítulo 2, los precios de 80 vehículos que se vendieron el mes pasado en la agencia Whitner Pontiac, se organizaron en una distribución de frecuencias para mostrar los precios de venta más bajos y más altos, y dónde se presenta la mayor concentración de datos. En los capítulos 3 y 4 se utilizaron medidas de tendencia central y de dispersión para establecer el precio ele venta típico [aproximadamente $20 000 (dólares)] y para examinar la dispersión ele los datos. La dispersión de los precios de venta se describió empleando medidas de dispersión como la amplitud de variación y la desviación estándar. Por tanto, la estadística clescriptíva se ocupa de describir algo que ya ha ocurrido. Por ejemplo, los precios de venta de los vehículos en la agencia Whítner Pontíac, el mes pasado. Ahora la atención se dirigirá al estudio de la segunda faceta de la estadística, que es el cálculo de la posibilidad de que algo ocurra en el futuro. Esta parte de la estadística se denon1ina estadística inferencia! o bien, inferencia estadística. En muy pocas ocasiones el encargado de to111ar decisiones dispone de información completa a partir de la cual pueda realizar una determinación. Por ejemplo: '
0
Toys & Things, un fabricante de juguetes y rompecabezas, ha desarrollado un nuevo juego basado en una trivia deportiva, y desea saber sí los aficionados al deporte comprarán o no dicho juego. Dos de los posibles nombres son "Slam Dunk" y "Home Run". Una forma de minimizar el riesgo de una decisión equivocada consiste en contratar a una empresa de encuestas para que tome una muestra de, por ejemplo, 2 000 personas de la población, y pregunte a cada una cómo reaccionaría ante el nuevo juego y los títulos propuestos. ' El departamento de control de calidad de la empresa Bethlehem Steel debe asegurar a la gerencia respectiva que el alambre de un cuarto de pulgada de grosor que se está produciendo, tiene una resistencia aceptable a la tensión. Es obvio que no todo el alambre producido se puede probar para determinar su resistencia a la tensión mecánica, pues la prueba requiere que se estire hasta romperlo, destruyéndolo .. De manera que se selecciona una muestra aleatoria de 1O piezas y se prueba. Con base en los resultados del ensayo, todo el alambre producido se considerará satisfactorio a· no satisfactorio. Otras cuestiones relacionadas con la incertidumbre son: ¿Debe discontinuarse de inmediato la telenovela Days of Our Uves? ¿Debería el equipo Gigantes de Nueva York seleccionar en la primera ronda de contrataciones a Sammy Uweao a Clint Murray para las ligas cole' giales de béisbol? ¿Producirá ganancias un nuevo cereal con sabor a menta al ser introducido al mercado? ¿Debe él casarse con Jean? ¿Debería comprar un Rolls Royce nuevo? ¿Debemos votar por Charles Linden como representante de la ciudad donde vivo?
La inferencia estadístlca se ocupa de obtener conclusiones acerca de una población basándose en una n1uestra tomada de aquélla. (Las poblaciones en !os ejemplos anteriore's son: todos los consumidores a los que les gustan los juegos de trivias deportivas, todo el alambre de acero de un 1/4 de pulgada que se fabricó, todos los televidentes aficionados a las telenovelas, la totalidad de los jugadores de futbol americano colegial que serán contratados por los equipos profesionales, y así sucesiva111ente.) Debido a que existe una incertidumbre considerable al tomar decisiones, resulta importante que se evalé1en en forma científica todos los riesgos implícitos conocidos. Esc;IQ~gran ayu¡ja en esta evaluación la teoría de la probabilidad, a la quefrecuentemente s.e.dmornina "ciencia de la incertidumbre". El empleo de la teoría de la probabilidad permite~-a quien to1:1}_él___ ~-~-C:i_s_i_o_f!_í?_~__ con información limitada- analizar los riesgos y minimizar el azar inherente. Por ejemplo, al lanzar al mercado un nuevo producto o aceptar un embarque recién llegado que puede contener piezas defectuosas.
Revisióíl de algt1nos cenceplos de probabilidad
151
Como los conceptos de probabilidad son tan importantes en el campo de la inferencia estadística (cuyo análisis se iniciará en el capítulo 8), en este capítulo se presenta el !enguaje básico de la probabilidad, que comprende términos como experimento, evento, probabilidad subjetiva y las reglas de adición y multiplicación.
¿Qué es una probabilidad? Sin duda alguna el lector está familiarizando con términos tales como probabilidad, posibili-
dad y azar. Con frecuencia se utilizan indistintamente. El pronóstico del servicio meteorológico anuncia que hay 70% ce posibilidades de lluvia para el domingo en el que se realiza el juego del Súper Tazón en el futbol de EUA. Mediante una encuesta a consumidores que probaron un nuevo pepinillo con sabor a plátano, la probabilidad de que si se lanza al mercado sea un éxito financiero, es 0.03. (Esto significa que la posibilidad de que el nuevo pepinillo con sabor a plátano sea aceptado por el público, es más bien remota). ¿Qué es una prgbabüidad2..Eo_generi°\1,_.es.un .. n.úmero q.ue ie;vaJ(rª.1ª posibili d.add.e.qLreªlgo. suceda.
Probabifülad Valor que va desde cero hasta uno, inclusive, que describe la posibilidad relativa ele que ocurra un evento. .
.·
En el estudio ele la probabilidad se utilizan tres palabras clave: experimento, resultado y evento. Estos términos se emplean en el habla cotidiana, pero en estadística tienen signifi.cados específicos.
EA-perimento Proceso que· conduce a que· ocurra
una (y solamente una}
de
varias
observaciones posibles. Esta definición es más general que la que se utíliza en las ciencias físlcas, donde es fácil imaginar a una persona manipulando microscopios o tubos de ensayo. En probabilidad, un experimento tiene dos o rnás resultados posibles, y es incierto cuál es e! que ocurrirá.
,.:J
·-'u~n~s_.L_rc_e-'s-d~p_a_rt~ic-'L-rla_r_p_·r,~º-v_e_n_ie_n..cte_·_d-'e_u-'n_e_·,-'(p_e_r""im_e_n_t_o_.- · _____
"'--'"""R"'"e""su_l-'t-111-'d-'(}-·
Por ejemplo, lanzar una moneda al aire es un experin1ento. Se puede observar el lanzamiento de !a moneda, pero no se sabe si caerá "cara" (anverso) o "cruz" (reverso). De forma semejante, preguntar a 500 universitarios si con1prarían o no la nueva computadora Della un precio determinado, sería un experimento. Si la moneda se tira al aire, un resultado particular es "cara". El resultado alternativo es "cruz". En el experimento ele la compra de una computadora, un resultado posible es que 273 estudiantes indiquen que si la comprarían. Otro resultado-puede ser que 317 alumnos sí adquirirían la máquina. Otro resultado más es que 423 estudiantes digan que sí la adquirirían. Cuando se observan uno o más de los resultados de un experimento, esto se conoce como un evento.
Evento Conjunto ele uno o más resultados de un experimento. En las siguientes páginas se presentan algunos ejen1plos para aclarar !as definiciones de los términos experimento, resultado y evento en la ciencia estadística. En el experimento de lanzar un dado existen seis resultados posibles, pero hay muchos eventos posibles. Si se cuenta el número de miembros del consejo directivo mayores de 60 años, en las 500 compañías presentadas en la revista Fortune, el núme1·0 de resultados posibles puede estar entre cero y la cantidad total de miembros. En este experimento hay un gran nl1mero de eventos posibles.
152
Gapíi"I" 5
q_e_ _
.CQu_t;ªr,;eJ:JJ{\fD-~rq:_ l]Ji~rnPrQg_ de_l_c?ns~jp,c:H_r~ctivo.e_n las 600
Exp_eritlJ.ent_o·
empresas presehtaclas en Fortune, cLiyEi_edad-·es·superior a 60 años: Níng·u_1j-o üéne 111ás ele 60
Todüs loS. results:i:dos· po·sibl8s.
Obtener un2
Uno, tiene más de 60
qbterler un 3:
Dos tienen 111ás de 60
·obtérier uri'4
Obten·er Lin 5
29 tieneri 111ás de 60
Obtener un 6
48 tienen 111ás de 60
Obte11e1· un nl1me1·0 pa1·
Más ele i 3 tienen más de 60
Obtener un nú111ero rnayor que 4
Menos ele 20 tienen 111ás de 60
Algunos eventos posibles
Obtener un número iguai o inferior a 3
Una probabilidad se expresa como una fracción decimal, tal como, 0.70, 0.27 o bien 0.50. También puede indicarse come una fracción com(1n; por ejemplo, 7/10, 27/100 o 1/2. Una probabilidad puede asumir cualquier valor desde O hasta 1, inclusive. De modo que si una con1pañía tiene sólo cinco regicnes de ventas y el nombre o número de cada una se escribe en un trozo de papel, y luego t21es datos se colocan en un sombrero, la probabilidad de seleccionar una de las cinco zonas es 1. La probabilidad de sacar clel sombrero un trozo de papel que diga "Acereros de Pittsburgh" (un equipo deportiyo), es O. De esta forma, la probabilidad 1 representa algo que seguramente,va a suceder, y la probabilidad O corresponde a algo que no puede ocurrir. Cuanto más se aproxime a Óuna probabilidad, es más improbable que ocurra el evento respectivo. Cuanto 111ás se acerque a i, tanto n1ás seguro es que suceda. La relación se muestra en el cliagra_ma siguiente, íu1Tto con algunas ,Creencias personales. Sin embargo, otro lector de este libro tal vez le asigne una probabilidad diferente a que gane el caballo Slo Poke en el Derby de Kentucky, o a que haya un aumento en los impuestos fedemles.
No puede suceder
lncluclablen1ente sucede
_:,_L, __1_,,_, __I_·-~-~-~--~-~-~-~ 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.7Q 0.80 0.90 1.00
t
t
P1-obabilidacl P1·oiJabilidaci de cie que el Sol que Slo Poke desapa1·ezca gane en el De1·1Jy este arlo cie f
1
t
ProbalJilidad P1·obabiliclacl de que al lanzar de aun1ento una n1onecla caiga en los "u11a ca1·a" al impuestos
ti1·arla u1a vez
federales
t
Probabilidad cie que llueva este a1lo en Florida
Revisión de algunos conceptos de probabilidad
153
Se ha desarrollado un ·nuevo juegO de video. 80 jugadores veteranos de este tipo de atracciones van a probar su potencial de n1ercado.
a) ¿Cuál es el experimento? b) ¿Cuál es un resultado posible? e)
Suponga que 65 jugadores probaron e! nuevo juego y afirmaron que les gustó. ¿Es 65
una probabilidad? el) La probabilidad de que el nuevo juego de video sea un éxito se calcula que eS-1. ¿Qué Je indica esto? e) Especifique un evento posible.
¿Qué función tiene la probabilidad en la toma de decisiones? Esta pregunta puede contestarse citando dos casos que se analizarán en capítulos posteriores.
Caso l Con base en !a experiencia, una en1presa editorial determi_nó que a! menos 20% de cierto grupo, como el de 111úsicos, debe suscribirse a una revista mensual para que ésta sea un éxito financiero. La empresa está considerando una publicación mensual para aficionados a observar aves. Se cliseñó un número especia! y se envió a una muestra de i 000 aficionados. En respuesta, 190 de 1 000, es decir 19%, afirmaron que se suscribirían a la revista si ésta se publicara. ¿Debe afirmarse que esta proporción es menor que 20%, y decidir inmediatamente que no se va a publicar la revista? ¿O podría atribuirse la diferencia entre el porcentaje necesario (20) y el porcentaje muestra! (19) al muestreo, es decir, al azar? La probabilidad ayuda a tomar una decisión en este tipo ele situaciones, que se analizarán en el capítulo 1O.
Caso 2 En un gran proyecto de construcción se requieren miles de bloques de concreto. Las especificaciones indican que éstos deben soportar, en promedio, presiones de 1 050 libras por pulgada cuadrada (lb/pulg 2 , o psi). Dos empresas que fabrican estos bloques presentaron muestras para probarlos. La resistencia de los bloques de la firma St1·ong Block Co. tuvo un valor medio de 1 070 psi; los de la Taylor Company tuvieron una resistencia de 1 062 psi. La Strong Block Co. considera que se le debe otorgar el contrato porque sus bloques tienen una resistencia media mayor. La compañía Taylor no está de acuerdo, ya que señala que la diferencia de sólo 8 psi podría deberse al muestreo (al azar). Si la afirmación de Strong Block es correcta, se le debe otorgar el contrato. Si la aseveración de Taylor también es correcta, el contrato se dividirá entre las dos compañías. la probabilidad ayudará a tomar una decisión en un caso como éste, como se verá en el capítulo i i.
~~~~~~:f:~_f:~~ - ~~~J~~-? b~~!~~]~:~~~:! Se analizarán dos enfoques del análisis probabilístico, específicamente, los puntos de vista objetivo y subjetivo. La probabilidad objetiva puede subdividirse en: (1) probabilidad clásica y (2) probabilidad empírica.
La probabilidad clásica se basa en la consideración de que !os resultados de un experin1ento son igualmente posibles. Empleando el punto de vista clásico, la probabilidad de que suceda un evento se calcula dividiendo el número de resultados favorables entre el número total de resultados posibles:
Capítulo 5
154
Probabilidad de un
evento-~ ~~-~_1c_1m_e_r_o_i:l_e_··_re_s_u_"ít_a"d-o_s_fa~v-o_r_~_b_le_s--c~ Nú111erofofal de resultado$ posibles
Considérese el experimento de lanzar un ciado común. ¿Cuál es la probabilidad del evento "cae un n(1n1ero par"?
SIJIUJCIÓN
Los resultados posibles son:
Untres
~
Un seis
Hay tres resultados "favorables" (un "dos", un "cuatro" y un "seis") en el conjunto de seis resultados posibles igualmente probables. Por tanto: Probabilidad de un número par
.
=.él
<-
6 <-
Número de resultados favorables N(1mero total de resultados posibles
l
1
= 0.5
Si sólo uno de varios eventos puede ocurrir cada vez, se dice que los eventos son mutuamente excluyentes.
Muhrnmente excluyente La ocurrencia de un evento implica que ninguno de los otros. eventos puede. pcurrir._a\_. mis1110 tiempo, En el experi111ento de tirar un dado, los eventos "un número par" y "un núrnero impar" son inutuamente excluyentes. Si cae un número par, no puede caer un número impar a! mismo tiempo. Si un experimento tiene un conjunto de eventos que comprende a todos los resultados posibles, tales como los eventos "cae un número par" y "cae un número impar" cuando se lanza un ciado, entonces_ e! conjunto de eventos es colectivamente exhaustivo.
G11leci;~a1ne~te e;&~a!!stl~o
Por lo m_e0os un.o tje losevehtqs debe ocurrir cuando
se realiza un e¡nto,
Suma ele probabilicla-
cles
~
1.
En el experin1ento de tirar un dado, cada resultado será un número par o impar. Por tanto, el conjunto es colectivamer,te exhaustivo. Si el conjunto de eventos es colectivamente exhaustivo y los eventos son mutuamente excluyentes, la suma de las probabilidades es 1. En el experimento donde se lanza una moneda:
Probabilidad Evento: Cara Ev8nto Cruz Total
0.5 0.5 1.0
Para que se pueda aplicar el enfoque clásico, los eventos deben tener la misma posibilidad de ocurrir (a lo que se deromina eventos igualmente posibles.) Además, el conjunto de eventos debe ser mutuamente excluyente y colectivamente exhaustivo.
155
Revisióíl de algunos concepios de probabilidad
Desde un punto de vista histórico, el enfoque clásico de la probabilidad se desarrolló y aplicó en los siglos XVII y XVIII a juegos de azar, como el de cartas y el de dados. Obsérvese que es innecesario realizar un experimento para detenr1inar la probabilidad de que ocurra un evento cuando se utiliza el enfoque clásico. Por ejemplo, se puede llegar en forma lógica a la probabilidad de obtener "cruz" en el lanzamiento de una moneda, o bien tres "caras" cuando se lanzan al aire tres monedas. De la misma forma, tampoco se tiene que rea!izar un experimento para determinar la probabilidad de que su declaración de impuestos fiscales sea sometida a una auditoría, si hay 2 millones de declaraciones que se envían a la oficina fiscal de recaudación de su distrito y se va a realizar una auditoría sólo a 2 400. Suponiendo que todas las declaraciones tengan la misma probabilidad de ser auditadas, la probabilidad de que lo auditaran sería 0.0012, que se obtiene al dividir 2 400 entre 2 millones. Es obvio que la probabilidad de que su declaración sea sometida a una auditoría es muy pequeña (o remota.)
Concepto empírico Otro modo de definir la probabilidad es basándose en las frecuencias relativas. La probabilidad de que un evento ocurra se determina observando en qué fracción de tiempo sucedieron eventos semejantes en el pasado. Utilizando una fórmula: Probabílidad de que suceda un evento=
NL1mero ?e veces que ocurrió el evento en el pasado Número total de observaciones
Se efectuó un estudio con 751 egresados de la carrera de administración de empresas, en la Universidad de Toledo (EUA). Este experimento reveló que 383 de los 751 egresados no estaban empleados de acuerdo con su principal área de estudio. Por ejemplo, un egresado especializado en contaduría, ahora es gerente de mercadotecnia en una empresa empacadora de tomates. ¿Cuál es la probabilidad de que un egresado de administración labore en una área distinta a !a de sus estudios universitarios?
SOLUCIÓN
Probabilídad de que suceda un evento=
Nú__mero de veces que ocurrió el evento en el. ¡Jasado
Nú111ero total de observaciones 383 = O.S-1 751 Para simplificar, se pueden utilizar letras o números; P corresponde a probabilidad, y en este caso P(A) indica la probabilidad de que un graduado no labore en el área principal de sus estudíos universitarios, evento A. Puesto que 383 ele los 751 egresados, es decir, 0.51 en términos de probabilidad, están en un campo laboral diferente al de su área de estudio, se puede emplear esto co-
P(A)
=
mo una estimación de la probabilidad. En otras palabras, con base en la experiencia, existe una probabilidad de 0.51 de que un graduado en administración labore en un campo distinto del de su área de estudios.
Probabilidad subjetiva Si existe poca o ninguna experiencia en la cual se pueda basar una probabilidad, puede determinarse una probabilidad en forma subjetiva. Fundamentalmente, esto significa evaluar las opiniones disponibles y otra información para después estimar o asignar la probabilidad. Atinada111ente, a este concepto se le denomina probabilidad subjetiva.
Concepto de probabilidad subjetiva
Es la posibilidad (probabilidad) de que suceda un .evento específico; cjUe es asignada por una persona basándose en cualquier información que esté disponible, '
•','
·'
....
_,
)
_,
-
156
Capítulo 5 Son ejemplos de probabilidad subjetiva: ·1. Estimar la posibilidad de que el equipo de los Patriotas de Nueva Inglaterra participen en el juego del Sllper Tazón de futbol americano para el próximo año en (EUA). 2. Evaluar la probabilidad de que la empresa General Motors Corp. pierda su lugar número 1 en el total de unidades vendidas, frente a la Ford Motor Co., o a·la Chrysler Corp., en un lapso de clos años. 3. Estimar la posibilidad de que usted obtenga una calificación de 1 O en este curso. En resumen, hay dos puntos de vista con respecto a la probabilidad: el objetivo y el subjetivo. Se observó que una expresión probabilística siempre constituye la estimación de un valor desconocido que regirá un evento que aún no sucede. Desde luego, hay una extensión considerable en el grado de incertidumbre que rodea a tal estimación, el cual se basa principalmente en el conocimiento que posea la persona que analiza el proceso en cuestión. El individuo sabe lo suficiente acerca clel lanzamiento de un dado normal, y puede indicar que la probabilidad de que caiga un "uno" al lanzarlo, es 1/6. Pero conoce muy poco acerca de la aceptación en el mercado de un nuevo producto todavía no probado. Por ejemplo, aunque una directora de investigación de mercado pruebe un producto nuevo en 40 supermercados, e indique que hay 70% ele probabilidad de que el producto tenga ventas de más ele un millón de unidades, sabe muy poco acerca de la forma en que reaccionarán los consumidores cuando el producto se introduzca en el mercado nacional. En ambos casos (cuando se lanza un dado y en la prueba ele un producto nuevo) una persona asigna un valor de probabilidad a un evento de interés, y sólo existe diferencia en la confianza del pronóstico en cuanto a la precisión de la estimación. Sin embargo, sea cual ·fuere el punto de vista, se aplicarán las mismas leyes de probabilidad (que se exponen en las siguientes secciones.)
i. Se va a seleccionar al _azar una carta de una baraja americana de 52 naipes. ¿Cuál es la probabilidad de que la carta elegida sea una reina? ¿Qué enfoque de la probabilidad utilizó para C6nt8star a esta pregunta? 2. El Centro Nacional de Estadísticas de Salud de Estados Unidos, informó que de cada 883 decesos, 24 se debieron a accidentes automovilísticos, 182 al cáncer, y 333 a enfermeda' des del corazón. ¿Cuál es la probabilidad de que una 111uerte espeCífica se deba a un accldente de automóvil? ¿Qué enfoque de la probabilidad utilizó para contestar a esta pregunta? 3. ¿Cuál es la probabilidad de que el Promedio Industrial Dow Janes (PIDJ) sobrepase el valor de 12 000 antes que llegase el Tercer Milenio? ¿Qué enfoque de la probabilidad utilizó para contestar a esta pregunta?
1. Algunas personas en (EUA) están a favor de la reducción en-los behe'ficios del Seguro Social, a fin ele lograr un presupuesto equilibrado, en tanto que otras están en contra. Se seleccionaron dos personas y se registraron sus opiniones. l\!lencione los resultados posib_les. 2. Un inspector de control de calidad eligió una pieza 'fabricada para probarla. Posterior111ente se establece si la parte se acepta, se repara, o Se deseCha. Después se prueba otra. Mencione todos los posibles resultados de este experimento. 3. Una encuesta en un grupo de 34 estudlantes de una escuela de administración, reveló la siguiente selección de carreras profesionales: Contaduría Finanzas Sistemas de información Administración Mercadotecnia
10 5 3 6 10
157 Suponga que selecciona un estudiante y se considera su elección profesional. a) ¿Cuál es la probabilidad de que él o ella estudie la carre1·a de administración? b) ¿Qué concepto de probabílidacl uti!lzó para hacer tal estin1ación? 4. Una empresa grande planea contratar a un nuevo presidente y ha preparado una lista final de cinco candidatos, todos igualmente capacitados. Dos son miernbros de un grupo de minoría social. La empresa deciCe seleccionar al presidente mediante un sorteo. a) ¿Cuál es !a probabilidad de que contraten a un integrante de !a minoría? b) ¿Qué concepto de probabilidad utilizó para llegar a tal conclusión? 5. El departamento de vía pública, en la ciudad de Whitehouse, illinois, está considerando arnpliar la Avenida Indiana a tres ca1Tiles. Antes de tomar una decisión, se preguntó a 500 ciudadanos si apoyaban la arnpliación. a) ¿Cuál es el experimento? b) ¿Cuáles son algunos ele los eventos posibles? e) Mencione dos resultados posibles. 6. El presidente del comité directivo de la empresa Rudd Industries pronunciará mañana un discurso ante los accionistas de la compañía, explicando su opinión en lo concerniente a que dicha corporación debe fusionarse con la empresa Zi111merman Plastics. Ha recibido seis cartas por correo respecto a este asunto, y está interesado en conocer el número de remitentes externos que están de acuerdo con él. a) ¿Cuál es el experimento? b) ¿Cuáles son algunos de los posibles eventos? e) Mencione dos resultados posibles. 7. En cada uno de los casos siguientes indique si se utiliza la probabilidad clásica, empírica o subjetiva. a) Una jugadora de basquetbol realiza 30 canastas (o encestes) en 50 tiros por faltas. La probabilidad de que efectúe bien el siguiente tiro es 0.6. b) Se formó un comité de alun1nos integrado por siete miembros para estudiar asuntos ambientales. ¿Cuál es la probabilidad de que uno de el!os sea elegido con10 e! vocero? e) Considere que usted con1pra uno de los 5 millones de billetes que se vendieron en el sorteo de lotería. ¿Cuál es la probabilídad de que gane e! pre111io 111ayor de un millón de dólares? d} La p1·obabilidad de que ocurra un sismo en el norte de California en los próximos íü años, es 0.80. 8. Una empresa concederá un ascenso a dos empleados de un grupo de seis hombres y tres mujeres. a) Mencione los resultados de este experimento si hay interés especial relacionado con la igualdad de género sexual. b) ¿Qué concepto de probabilidad utilizaría para calcular esas probabilidades? 9. Hay 52 cartas en una baraja americana. a) ¿Cuál es la probabilidad de que la primera carta que se saque sea una de espacias? b) ¿Cuál es la probabilidad de que la primera carta seleccionada sea el sota. de espadas? e) ¿Qué concepto· de probabilidad ilustran los incisos a y b? .10. Se lanza un so!o ciado. a) ¿Cuál es la probabilidad ele que caiga un "dos"? b) ¿Qué concepto de probabilidad se ilustra con esto? e) ¿Los resultados para los números de! ""1" a! "6" son igualmente probables y mutuan1ente excluyentes? Explique. íi. Se seleccionó una muestra de 40 ejecutivos para que respondieran a un cuestionario de prueba. Una pregunta relacionada con aspectos ambientales requiere una respuesta de sí o no. a) ¿Cuál es el experimento? b) Mencione un evento posible. e} Diez de los 40 ejecutivos respondieron "sí". Con base en las respuestas de la muestra, ¿cuál es la probabilidad de que la respuesta de un ejecutivo sea afir111ativa? d) ¿Qué concepto de probabilidad ilustra esto? e) ¿Cada uno de los resultados posibles son igual111ente probables y 111utuamente excluyentes? '12. Una 111uestra de 2 000 conductores con lícencia· reveló la siguiente información relacionada con el número de infracciones de tránsito.
158 Número de infracciones
Número de conductores
o
1 910 46
2 3 4 5 o más
18 12 9 5
Total
2 000
a} ¿De qué expe1·imento se ti-ata? b} Mencione un evento posible. e) ¿Cuál es la probabilidad de que un conductor específico haya cometido exactamente dos infracciones? d) ¿Qué concepto de probabilidad ilustra esto?
13. En !a actualidad los clientes bancarios seleccionan su propio número de identificación personal (NlP) de cuatro dígitos, paca utilizarlo en los cajeros automáticos. a) Considere esto como un experimento y mencione cuatro resultados posibles. b} ¿Cuál es la p1·obabilidad de que el señor Janes y la señora Smith seleccionen el mismo N!P? e)
¿Qué concepto de probabilidad utilizó para contestar a !a pregunta anterior?
14. Un inversionlsta compra iOO acciones de AT&T y registra el cambio diario de precio. a) Mencione los eventos posibles para este experimento. b} Calcule la probabilidad para cada evento que consideró en el inciso anterior. e) ¿Qué concepto de probabilidad utilizó en el inciso b?
Algunas reglas de probabilidad Ahora que se ha definido la probabilidad y se han descrito los diferentes enfoques de la misma, se examinarán las combinaciones de eventos mediante la aplicación de las reglas de adición y de multiplicación.
Reglas de adición Dos eventos mutuamente excluyentes no pueden ocurrir al mismo tiempo.
Regla especial de adición Para aplicar la regla especia! de adición, los eventos deben ele ser mutuan1ente excluyentes. Recuérdese que mutuamente excluyente significa que cuando ocurre un evento, ninguno de los otros puede suceder al mismo tiempo. Un ejemplo de eventos mutua111ente excluyentes es el experimento de tirar un solo dado, con los eventos "el número 4 o rnayor" y "e!'nút'néro 2 o uno menor". Si él resultado se encuentra en el primer grupo {4, 5 y 6) no puede estar también en el segundo grupo {1 y 2). Y un producto industrial qLJe sale de una línea de ensamble no puede ser defectuoso y satisfactorio al tnismo tiempo. Si dos eventos A y B son mutuamente excluyentes, la regla especial de la adición indica que la probabilidad de que ocurra uno u otro de los eventos, es igual a la suma de sus probabilidades. Esta regla se expresa en la fórmula siguiente:
Para tres eventos mutuamente excluyentes, representados por A, B y C, la regla se expresa como:
P(A o B o C) = P(A) + P(B) + P(C)
Una máquina automática Shaw llena bolsas de plástico con una mezcla de frijoles, brócolis y otras legumbres. La mayor parte de las bolsas contiene el peso correcto, pero debido a ligeras variaciones en el tamaño de las verduras, un paquete puede tener un peso
159 ligeramente rnenor o mayor. Una verificación de 4 000 paquetes que se llenaron e! mes pasado reveló lo siguiente:
~ 1
Evento
Menor Satisfactorío Mayor
A B
e
Nlnniero die paquetes
Probabilidad de ocurrencia
100 3 600 300
0.025 0.900 0.075
4 000
1.000
f-- ;
__100 4000·
¿Cuál es la probabilidad de que un determinado paquete tenga un peso menor o mayor?
SOUJCIÓN
El resultado "peso meno(' es el evento A. El resultado "peso mayor" es el evento C. Aplicando la regla especial de adición:
P(A o C) = P(A) + P(C) = 0.025 + 0.075 = 0.1 O Observe que los eventos son mutuamente excluyentes, lo cual significa que un paquete con legumbres mixtas no puede tener peso menor, peso satisfactorio y peso mayor, a! mismo tiempo. Estos eventos son también colectivamente exhaustivos, lo que significa que un determinado paquete deberá tener un peso menor, un peso satisfactorio o un peso mayor.
Un diagrama de Venn es un medio útil para representar la regla de adición o la de multiplicación.
El experto en lógica, de nacionalidad inglesa, J. Venn (1835-1888) ideó un diagrama para representar gráficamente el resultado de un experimento. El concepto mutuamente excluyente y otras reglas diversas para combinar probabilidades pueden visualizarse empleando este recurso. Para elaborar un diagrama de Venn; primero se delimita un espacio en un plano que representará todos los resultados posibles. Este espacio generalmente tiene forma de rectángulo. Un evento se reoresenta mediante un círculo, cuya área es proporcional a la probabilidad del evento, y se dibuja dentro del rectángulo. El siguiente diagrama de Venn representa el concepto mutuamente excluyente. Los eventos no se sobreponen, lo cual indica que son mutuamente excluyentes.
La probabilidad ele que una bolsa de legumbres mixtas tenga menos peso, P(A), más la probabilidad de que no sea una bolsa con peso menor, que se indica P(-A) y se lee "no A", debe ser lógicamente igual a 1. Esto se expresa como sigue:
P(A) + P(-A) = 1 Lo anterior puede expresarse con la regla del complemento:
Esta es la regla del complemento. Observe que los eventos A y -A son mutuamente excluyentes y colectivamente exhaustivos. La regla del complemento se utiliza para determinar la probabilidad de que ocurra un evento restando de 1 la prooabilidad de que el evento no ocurra. Un diagrama de Venn que ilustre la regla del complemento sería:
160
Capitulo 5
Cabe recordar que la probab lidad de que una bolsa con verduras mixtas tenga menos peso es 0.025, y que la probabilidad de que tenga más peso es 0.075. Aplique la regla del complemento para demostrar que la probabilidad de que una bolsa tenga el peso correcto es 0.900. Ilustre la solución. utilizando un diagrama de Venn.
SOLUCIÓN
La probabilidad de que el peso de la bolsa de legumbres no sea el correcto es igual a la probabilidad de que su peso sea mayor, más la probabilidad de que su peso sea menor. Esto es, P(A o C) = P(A) + P(C) = 0.025 + 0.075 = 0.1 OO. El peso de la bolsa es satisfactorio si no es menor ni mayor, por tanto P(B) = 1 [P(A)] + [P(C)] = 1 - [0.025 + 0.075] = 0.900. El diagrama de Venn que ilustra esta situación es: La regla del complemento es importante en el estudio de la probabilidad. En muchos casos es más fácil calcular la probabilidad de que ocurra un evento determinando primero la probabilidad de que no suceda, y restando luego de 1 el resultado.
Se va a entrevistar un grupo selecto de empleados de la compañía Worldw1de Enterpnses con respecto a un nuevo plan de pensones. Se efectuarán entrevistas detalladas a cada uno de los
empleados seleccionados en la muestra. Éstos se clas1f1caron como sigue
4rea de trabajo Evento Sup.e.rvisión
A
Mantenimiento Prüducdón
B
Número de empleados 120.
50.
1 1
1
1
~
1 1
r 460
1
Ge~encia
e o
302
1
Secretaria!
E
68
--------~-----~
l
l
a) ¿Cuál es la probabilidad de que la primera P(3rs?na.selecciona.da: (i) sea empleado de mantenimiento o una secretaria? (ii) no sea miembro de la gerencia? b) Elabore un dfa'gramad6-Veníl m·astrarldü' sUs respuestas de!' inciso a). c) ¿Los eventos de la parte a) (i) son complementarlos, mutuamente excluyentes, o bien, de ahlbas' c!aséS?
1
1 1 1 1 1 1
Revisióo
esradfatiea Cll1 2!.CCiÓIE.
de algunos cooceplos de probabilidad
161
Regla general de adición Los resultados de un experimento pueden no ser mutuamente excluyentes. Por ejemplo, suponga que la Comisión de Turismo de Florida seleccionó una muestra de 200 turistas que visitaron ese estado durante el año. La encuesta reveló que 120 fueron a Disney World, y 100, a Busch Gardens, cerca de Tampa. ¿Cuál es la probabilidad de que una persona seleccionada haya visitado Disney World o Busch Gardens? Si se emplea la regla especial de adición, la probabilidad de seleccionar un turista que fue a Disney World es 0.60, que se obtiene de 120/200. De manera similar, la probabilidad de que un turista haya ido a Busch Gardens es 0.50. La suma de estas probabilidades es 1.1 O. Sin embargo, se sabe que esta probabilidad no puede ser mayor que 1. ¡La explicación es que muchos turistas visitaron ambas atracciones y se están contando dos veces! Una verificación de !as respuestas de la encuesta reveló que 60 de las 200 personas de la muestra en realidad asistieron a ambos Jugares. Para contestar a la pregunta: "¿Cuál es la probabilidad de que una persona seleccionada haya visitado Disney World o Busch Gardens?" (1) se suma la probabilidad de que el turista haya visitado Disney World y la probabilidad de que haya ido a Busch Gardens, y (2) se resta la probabilidad de visitar ambas atracciones. De esta forma: P(Disney o Busch) = P(Disney) + P(Busch) - P(Disney y Busch) = 0.60 + 0.50 - 0.30 =0.80 Cuando dos eventos ocurren simultáneamente, a la probabilidad respectiva se la denomina probabilidad conjunta. La probabilidad de que un turista visite ambas atracciones (0.30) es un ejemplo de probabilidad conjunta.
menós. dos P.crsonas corripürfan el 'rnfoú1Q día dC curnpleañcis es
0.994. Incluso' con sólo 2i asistentes las probabilidades son iguales, esto es 0.50, de que al rneno;; dos person
Pmbabifüfad conjnn'm
E;s la.medida de probabilidad que evalúa la posibilidad _de quedo$ o rriás ev_entosocurran .en forma simultánea.
En resumen, la regla general de adición se refiere a los eventos que no son mutuan1ente excluyentes. Esta regla para dos eventos, indicados por A y B, se escribe: REGLA GENERAL DE ADICIÓN
P(A o B) = P(A) + P(B) - P(A y 8)
[5.4]
162
Capit"lo 5 En la expresión P(A o B), la palabra "o" indica que puede ocurrir A, o bien que puede ocurrir B. Esto incluye asimismo la posibilidad de que ocurran A y B. A este uso de la "o" a ve-
ces se le llama inclusivo. Dicho de otra 'forma, quizá uno verá con agrado que ocurran ambos, A y B, o bien que suceda cualquiera de los dos.
EJEMPIJ:I
¿Cuál es la probabilidad de que una carta elegida al azar de una baraja americana sea un rey o una reina de corazones?
SOUJC:IÓN
Uno puede pensar en sumar la probabilidad de que salga un rey y la probabilidad de que se tenga una carta de corazones. Pero esto crea un problema. Si se hiciera así, el .rey de corazones se contaría con los reyes y también con las cartas de corazones. En consecuencia, si solamente se suma la probabilidad de un rey (hay 4 en la baraja de 52 naipes) a la probabilidad de una carta de corazones (hay 13 en "na baraja de 52 naipes) y se in· dica que 17 de las 52 cartas satisfacen el requisito, se habrá contado dos veces al rey de corazones. Se necesita restar 1 carta de las 17 para que el rey de corazones se considere una sola vez. Por tanto, hay 16 cartas que son de corazones, o de rey. En consecuencia la probabilidad es 16/52 ~ 0.3077. Carta
Rey Corazones Rey de corazones
Probabilidad P(A) P(B) P(Ay B)
4/52 13/52 1/52
Explicación Hay 4 reyes en la baraja de 52 cartas Hay 13 cartas de corazones en la baraja ele 52 naipes Hay 1 rey de corazones en la baraja de 52 cartas
Utilizando la fórmula (5.4):
+ P(B) = 4/52 + 13/52
P(A o B) = P(A)
P(A y B) - 1/52
= 16/52, o bien 0.3077 Un diagrama .de Venn presenta estos resultados que no son mutuamente excluyentes.
163
Revisión de algunos conceptos de probabilidad
Autoexamen5.4
l
~e
I~ e-m~re~a-~enera! 11
Como parte un_ programa de servicio de salud para los empleados de Concrete, se efectl1an anuaJrnente exámen_es físícos__de rutina, Se_ descubrió que 8% de los empleados necesltaban zapatos correctivos;_.~15%, un tratJajo den_tal,.importante; y 3%, requerían tanto zapatos correctivos _cc:mo_un trabajo denta! mayor. a} ¿<;_~1ál es_la_pr_ob_~_[)il_í9_a~ _d~_q_u_~_~_n_empleado sejt;:ccionado a! azar necesite calzado corree-
J
tivo o un frabájo dental cot1siderable?
b) Muestre _estasituacióti_ con un di_agrama de Venn.
1 1
¡ 1
Ejercicios ~ 0.30 y P(B) ~ 0.20. ¿Cuál es la probabilidad de que ocurra A o B? ¿Cuál es la probabilidad ele que no suceda ni A ni B? 16. Los eventos X y Y son mutuamente excluyentes. Supóngase que P(Xj ~ 0.05 y P(Y) ~ 0.02. ¿Cuál es la probabllidad ele que ocurra X o Y? ¿Cuál es la probabilidad de que no suceda X ni
15. Los eventos A y B son mutuamente excluyentes. Supóngase que P(A)
Y? ·¡7_ Un estudio en 200 cadenas de tiendas de comestibles reveló estos ingresos (en dólares), después de! pago de impuestos:
Ingreso (en dólares} ' después de impuestos
1
Menos de ·1 millón De 1 mil!ón a 20 millones De 20 millones o más
Cantidad de empresas 102
61
37
a) ¿Cuál es la probabilidad de que una cadena determinada tenga menos de í mlllón (ele dólares) de ingresos después de pagar impuestos? b) ¿Cuál es la probabilidad de que una cadena de tiendas seleccionada al azar tenga un ingreso entre ·1 millón y 20 millones, o un ingreso de 20 millones o más? ¿Qué regla de probabilidad se aplicó? 18. Un estudio de las opiniones de dlseñadores en lo referente al color primario más convenlente para aplicar en oficinas ejecutivas indicó:
Color primario Rojo Naranja Amarillo Ver ele
Número de opiniones
92 86 46 91
Color primario Azul Índigo Violeta
Número de opiniones
37 46 2
a) ¿Cuál es el experimento? b) ¿Cuál es un evento posible? e) ¿Cuál es la probabilidad de seleccionar una respuesta específica y descubrir que el diseñador prefiere rojo o verde? d) ¿Cuál es la probabilidad de que un diseñador no prefiera el amarillo? i 9. El presidente de una Junta de Directores dice: "Hay 50% de posibilidad de que esta compañía tenga utilidades, 30% de que quede a nivel, y 20% de que pierda dinero el siguiente tri111estre." a) Utilice la regla. de adición para encontrar !a probabilidad de que no se pierda dinero el próxi1110 trimestre. b) Use la regla del complemento para encontrar la probabilidad de que no pierda dinero el próximo trimestre. 20. Suponga que la probabilidad de que usted obtenga una calificación de A en el curso de esta materia es 0.25, y !a de que tenga una B, es 0.50. ¿Cuál es la probabilidad de que su calificación sea mayor que una de C?
164
Capítulo 5 21. Se tira un solo dado. El evento A es "sale un 4", el evento B es "sale un nl1mero par", y el evento C corresponde a "sale un nl1mero impar". Considere todas las parejas posibles de estos
eventos e indique si son mutuamente excluyentes. Después identifique si son complementarias. 22. Se lanzan dos monedas a! aire. Si A es el evento "caen dos caras" y Bes el eyento.''.caen. dos cruces", ¿son A y B mutuamente excluyentes? ¿Son eventos complementarlos? 23. Las probabilidades de los eventos A y B son 0.20 y 0.30, respectivamente. Lapr()babiligªdde que tanto A co1no B ocurran es 0:15. ¿Cuál es la probabilidad de que suced8..A·o B?
24. Sea P(X¡ ~ 0.55 y P(Y) ~ 0.35. Supóngase que la probabilidad de que ambos ocurran es 0.20. ¿Cuál es la probabilidad de que ocurran X o Y? 25. Supóngase que los dos eventos A y B son mutuamente excluyentes. ¿Cuál es la probabilidad de su ocurrencia conjunta? 26. Un estudiante está tomando cios cursos, Historia y Matemáticas. La probabilidad de que apruebe el curso de Historia es 0.60, y la de que apruebe el curso de Matemáticas, es 0.70. La probabilidad de que apruebe ambos es 0.50. ¿Cuál es la probabilidad de que pase al menos uno? 27. Una encuesta a ejecutivos de alto nivel en EUA, reveló que 35% leen con regularidad la revista Time, 20% leen Newsweek, y 40% leen U.S. News & World Report. Un i 0% lee tanto Time como U. S. News & World Report. a) ¿Cuál es la probabilidad de que un ejecutivo determinado lea Time, o bien, U.S. News & World Report con regularidad? b) ¿Cómo se denomina a la probabilidad con valor de 0.1 O? e) ¿Los eventos son mutuamente excluyentes? Explique la respuesta. 23. Un estudio realizado por el Servicio. de Parques Nacionales (de Estados Unidos) 1·eveló que 50% de los vacacionistas que viajan a la región de las Montanas Rocosas van al Parque Yellowstone, 40% visitan Tetons, y 35% van a ambos sitios. a) ¿Cuál es la probabilidad de que un vacacionista visite al menos una de estas atracciones?
b) ¿Cómo se denomina a la probabilidad 0.35? e)
¿Los eventos son mutuamente excluyentes? Explique su respuesta.
R._Pajn¡¡;; "-'b <:'.~v r1e <.Q
lL
1 ~¡C'll''1.0' ·,·¡ r11"[·¡J~·¡"p !t. .il ' ~'-··"'-'-" • '
Regla especial de multiplicación La regla especial de la multiplicación requiere que dos eventos A y B sean independientes. Dos eventos son independientes si la ocurrencia de uno no altera la probabilidad de que suceda el otro. De manera que si los eventos A y B son in· dependientes, la ocurrencia de A no altera la probabilidad de B.
Kndependiente La ocurrencia de un evento no tiene efecto en la probabilidad de la ocurféhCiáde cualquierotro•evef1tó. Si dos eventos A y B son independientes, la probabilidad de que ocurran A y B se obtie· ne multiplicando las dos probabilidades. Ésta es la regla especial de multiplicación, que ex· presada en forma simbólica es:
P(Ay ,.·B)... ~ P(A)P(B)
,·-.,
-.'·,
'
[5.5]
Esta regla para combinar probabilidades supone que un segundo evento no se ve afee· lado por el primero. Para ilustrar lo que significa independencia de eventos, suponga que se lanzan al aire dos monedas. El resultado de una (cara o cruz) no se ve afectado por el resul· lado de la otra moneda (cara o cruz.) Puesto de otra forma, dos eventos son independientes si el resultado de un segundo evento no depende del resultado del primero. Para tres eventos independientes A, B, C, la regla especial de multiplicación que se utili· za para determinar la probabilidad de que ocurran los tres eventos es:
P(A y By C) ~ P(A)P(B)P(C)
165
Rovisi!Ííl de algunos cm1oeptos de probabilidad
En una encuesta realizada por la American Automobile Association (AAA) (Asociación Automovilística de EUA) encontró que 60% de sus socios hicieron alguna reservación en una línea aérea el año pasado. Se toman dos integrantes al azar. ¿Cuál es la probabilidad de que ambos hayan hecho una reservación en alguna línea aérea?
SOLUCIÓN
La probabilidad de que el primer socio haya hecho una reservación en alguna línea aérea es 0.60, que se escribe P(R 1) = 0.60 donde R1 se refiere al hecho de que el primer socio haya hecho una reservación. La probabilidad de que el segundo socio que se seleccionó haya hecho una reservación es también 0.60, de manera que P(R 2) = 0.60. Como el número de socios de la AAA es muy grande, se puede suponer que R1 y R2 son independientes. Por tanto, usando la fórmula 5.5, la probabilidad de que ambos hayan hecho una reservación es 0.36, que se obtiene de:
P(R 1 y R 2) = P(R 1) P(R2) = (0.60)(0.60) = 0.36 Todos los resultados posibles se pueden mostrar como sigue.
R significa se hizo una reservación y NR indica no se hizo ninguna reservación.
o o o
1. Debido a su larga experiencia; en la compañía Tetan Tire se sabe que la probabilidad de que su neumático XB-70 dure 60 000 millas antes de perder e! dibujo o fallar, es 0.80. Se hace un ajuste para el caso de cualquier llanta que no resista dicho recorrido. Usted.compra cuatro neumáticos XB-70. ¿Cuál es la probabilidad de que los cuatro neumáticos duren por lo menos 60 000 millas? 2. Según se n1encionó en un ejemplo an_teri_or, _una máquina automática Shaw llena bolsas de plástico .con _una mezcla de legumbres.. _La experiencia indica que algunos paquetes tuvieron n1enos peso, y algunos, peso de más, pero_ la mayoría tiene un peso satisfactorio. Peso de paquete Probabilidad
Li
suficiente atisfactorio cedido
0.025 0.900 0.075
a) ¿Cuál es la probabilidad die seleccionar_hoy tres paquetes de la línea de procesamiento de alimentos, y encontrar que a los tres les fa!ta peso?
b) ¿Qué significa esta probabilidad?
Si dos eventos no son independientes, se dice obviamente que son dependientes. Para ilustrar la dependencia, suponga que hay diez rollos de película fotográfica en una caja y que se sabe que tres están defectuosos. Se selecciona uno. Es obvio 'que la probabilidad de escoger un rollo con defectos es 3/1 o, y la probabilidad de seleccionar uno satisfactorio es 7/10. Después se elige un segundo rollo de la caja sin devolver el primero a ésta. La proba-
166
Capí!uio 5 bílídad de que sea defectuoso depende de si el primer rollo seleccionado no fue aceptable. La probabilidad de que también el segundo rollo tenga defectos es: 2/9, si el primer rollo seleccionado fue defectuoso. (Quedarían sólo dos rollos clefectuosos en la caja, que contiene nueve piezas.) 3/9, si el primer rollo seleccionado fue bueno. (Los tres rollos defectuosos siguen estando en la caja que contiene nueve rollos.) A la fracción 2/9 (o bien, a la 3/9) se le denomina apropiadamente probabilidad condicional porque su valor está condicionado por (depende de) que el primer rollo que se sacó de la caja haya sido defectuoso o no.
Probabilidad condicional Es la probabilidad de que ocurra un evento determinado; dado .que.otro; evehtova.haya sucedido, Regla general de multiplicación La regla general de multiplicación se utiliza para determinar la probabilidad conjunta ele que ocurran dos eventos, como seleccionar dos rollos fotográficos defectuosos de una caja con diez rollos, uno después del otro. En general, la regla establece que dados dos eventos A y 8, la probabilidad conjunta de que ambos ocurmn se encuentra multiplicando la probabilidad ele que suceda el evento A, por la probabilidad condicional de que ocurra el evento 8. De manera simbólica, la probabilidad conjunta P(A y 8) se obtiene como sigue:
REGU\:GENERAL DE MULTIPLICACIÓN
P(A y 8) = P(A)P(8[A)
[5.6]
donde P(8[A) expresa la probabilidad de que ocurra 8 dado que ya sucedió A. La raya vertical simbbliza "dado que".
EJEMl?Ul
Para mostrar el uso de la fórmula, se considerará de nuevo el ejemplo anterior de los diez rollos de película en una caja, tres de los cuales están defectuosos. Se van a seleccionar dos, uno después del otro. ¿Cuál es la probabilidad de escoger un rollo con defectos seguido de otro también defectuoso?
SOLUCIÓN
El primer rollo seleccionado de la caja, que resultó con defectos, es el evento A. _De modo que P(A) = 3/1 O porque tres de los diez rollos tenían defectos. El segundo rollo seleccionado. que también era defectuoso, es el evento 8. Por tanto, P(8[A) = 2/9,·porque después que el primer objeto seleccionado fue un rollo con defectos, sólo quedaron dos rollos "defectuosos" en la caja que contenía nueve. La probabilidad de dos rollos defectuosos es [aplicando la fórmula (5.6)]: P(A y 8) = P(A)P(8 1A) = ( .
3 )( 0
1
~)
=
6 , o aprox. IJ.O\ 90
Se supone que este experimento se realizó sin reposición (o reemplazo); es decir, el primer rollo defectuoso de película no se devolvió a la caja antes de seleccionar el siguiente rollo. También debe observarse que la regla general de multiplicación puede ampliarse a más de dos eventos. Para el caso de tres eventos: A, 8 y la fórmula sería:
q,
P(A y 8 y C)
= P(A)P(8 1A)P(CjAy8)
Como ejemplo, la probabilidad de que los primeros tres rollos seleccionados de la caja sean todos defectuosos es 0.00833, que resulta de calcular: P(A y 8 y C)
= P(A)P(81A)P(C1Ay8)
= (
3 )( 10
~ )(~~) = ?~O = 0.00833
167
Auloexamen 5.6
El consejo directivo de la empresa Tarbel! lndustrles está !ntegrado por ocho hombres y cuatro mujeres. Se seleccionará al azar un comité ele cuatro integrantes, a! azar, para recomendar a un nuevo presidente ele la compañía. a) ¿Cuál es la probabilidad ele que sean mujeres !os cuatro integrantes del comité in:vestigación? b) ¿Cuál es la probabilidad de que los cuatro integrantes sean hombres? e) ¿La suma de las probab!Jiclades de los eventos descritos en los incisos a y bes i? Explique su respuesta.
A continuación se presenta otra aplicación ele la regla general ele multiplicación. Una encuesta a ejecutivos se enfocó a su lealtad a la empresa. Una de las preguntas planteadas fue: "¿Si otra compañia le hiciera una oferta igual o ligeramente mejor que ia ele su puesto actual, permanecería con la empresa o tornaría el otro empleo?" Las respuestas de lm/iüO)jecutivos de la encuesta se clasificaron en forma cruzada con.su tiempo de servicio en-1a'compañia. (Vea la tabla 5.1.) Al tipo de tabla que resulta, se le denomina tabla de contingencias.
TABLA 5.1
Lealtad de los ejecutivos y tiernpo de servicio en la cn1presa. Tiempo de servicio
1a5
Lealtad
Menos de 1 año
años
6a10 años
Más de 10 años
Sí permane_cer_ía
10
No permanecería
25
30 15
5 10
75 3_0
,,-- -
Total
120 80 200
¿Cuál es la probabilidad de seleccionar al azar un ejecutivo que sea leal a la empresa (se quedaría) y que tenga más de 1O años de serVÍci6? - - ----------
SOLUCIÓN
Obsérvese que ocurren dos eventos ai' mismo tiempo: el ejecutivo permanecería en !a empresa y tiene 111ás de 10 años de servicio.
i. El evento A ocurre si un ejecutivo seleccionado al azar permaneciera en la empresa a pesar de que otra compañia le hiciera una oferta igual o ligeramente mejor. Para encontrar la probabilidad de que suceda el evento A, consulte la tabla 5.1. Se obserVa que hay 120 ejecutivos, de los 200 que participamn en la encuesta, que permanecerían con su empresa actual, de manera que P(A) = 120/200, o 0.60. 2. El evento 8 4 ocurre si un ejecutivo seleccionado al azar tiene n1ás de iO años de servicio en la empresa. De esta forma, P(BIA) es la probabilidad condicional de que un ejecutivo con rnás de 1O años de servicio permanezca en la empresa a pesar de que otra cornpatiía le haga una oferta igual o ligeramente mejor. Al consultar la tabla de contingencias, tabla 5.1, 75 ele los 120 ejecutivos que se quedarían tienen más de 10 años ele servicio, de manera que P(B4 IAJ ~ 75/120. La probabiliclacl de que un ejecutivo seleccionado al azar sea uno de los que se quedarían en la con1pañía y de los que t'1enen más ele d'1ez años de servicio, se determina utilizando la regla general de multiplicación que indica la fórmula (5.6):
P(A
y
B ) 4
=
P(A)P(B
1
4
A)
= (_1_20 )(_7__§_) = 200
120
g OOO 24 000
= 0.375
.
168
Gapilulo 5
Refiérase a la tabla 5.1. Utilizando la regla general de multiplicación, ¿cuál es la probabilidad de seleccionar aleatoriamente un ejecutivo que no permanecería con la empresa y que tenga menos de un año de servicio?
Pasos para elaborar un diagrama de árbol.
Un diagrama de árbol es una representación gráfica útil para organizar cálculos que abarcan varias etapas. Cada segmento en el árbol es una etapa del problema. Las probabilidades escritas cerca de las ramas son las probabilidades condicionales del experimento. Para mostrar la elaboración de un diagrama de árbol utilizaremos los datos de la tabla 5.1. 1. La elaboración de un diagrama de árbol comienza trazando un pequeño punto a la izquierda, el cual representa la raíz del árbol (vea el diagrama 5.1)
6a10añds··
120 200
5. 120
Más·.de: 1G años
120 X 200
75 120
MénoS -de ·l-añó
80 X 200
25 80
i -á-6 a"ñós
80 X 200
80
10
fra'iO añós
80 X 200
10 80
30
Más ele 1O 8.ños
80 200
so
sy 25
..• . ~g
No .
~
.pen;naneC0_rán_
80 80
X
15
30
~
~
0.125
0.075
0.050
~
0.150
L-·-------------------·--------------~
íl!ASPU1JV1A 5.i
])iagra1na de árbol que indica la lealtad y los tien1pos de servicio de ejecutivos de una ernpresa.
169
Revisión de algunos conceptos de probabilidad
2. En este problema salen dos ramas principales de la raíz, la superior representa la opción' "se quedarían" y la inferior la de "no se quedarían". Las probabilidades se indican en las ramas, específicamente 120/200 y 80/200. Se simbolizan por P(A) y P(-A). 3. Cuatro ramas secundarias "se desprenden" de cada rama principal, y corresponden a los tiempos de servicio: menos de 1 año, 1 a 5 años, 6 a 1O años y más de 1O años. Las probabilidades condicionales para la rama superior del árbol, -a saber, 10/120, 30/120, 5/120, etc.- se indican sobre las ramas correspondientes. Se trata de las probabilidades P(B 1 1A), P(B2 1A), P(B 3 A) y P(B4 I A), donde 8 1 se refiere a menos de 1 año de servicio, 8 2 corresponde a 1 a 5 años; 8 3 es para 6 a 1O años, y B 4 a más de 1O años. A continuación se escriben las probabilidades condicionales de la rama inferior. 4. Por C1ltimo, las probabilidades conjuntas de que los eventos A y B ocurran al mismo tiempo, se muestran en el lado derecho. Por ejemplo, la probabilidad conjunta de seleccionar al azar un ejecutivo que permanecería en !a empresa y que tiene menos de un año de servicio es, ut"llizando la fórmula (5.6):
P(A y 8 1)
~ P(A)P(8 A)~ ( ~~~ )( 1~00) ~ 0.05 1
1
Debido a que las probabilidades conjuntas representan a todas las selecciones posibles (se quedarían, 6 a 1O años de servicio; no se quedarían, más de 1O años de servicio; etc.), deben sumar 1.00 (vea el diagrama 5.1.)
1. Refiérase al contenido del diagrama 5. i. Explique qué ruta seguiría para encontrar la probElbilidad conjunta: de seleccionar un ejecutivo al azar, que tenga de 6 a i O años de servicio y que no permanecería en la empresa al recibir una oferta igual o ligeramente mejor, de parte de otra compañía.
2. Se seleccionó una muestra al azar de !os empleados de la empresa Hardware Manufacturing Co. para determinar sus planes de jubilación después de haber cumplído 65 años. Los seleccionadüs en la muestra s·e dividieron en las áreas de gerencia y producCíüii~-LOs resultados fueron:
Planes de~p_ués de los 65 años Empleado
Se retira _,No se retira
Total
.
Gerencia Producdón
5 30
15 . 50
20
80 100
1
1
L
a) ¿Cómo se denomina esta tabla? b) Elabore .un diagrama de árbol y determine las probabilidades conjuntas. c) ¿Estas probabilidades conjuntas suman 1.00? ¿Por qué?
Ejercicios 29. Suponga que P(A) = 0.40 y P(B 1A)=0.30. ¿Cuál es la probabilidad conjunta de A y B? ' 30. Considere que P(X1) = 0.75 y P(Y2 I X 1) = 0.40. ¿Cuál es la probabilidad conjunta de X 1 y Y,? 31. Un banco local rePorta que 80% ·de sus clientes tienen una cuenta de cheques, 60% una cuenta de ahorrós, y 50% tienen ambas. SLse selecciona un cliente al azar, ¿cuál es la probabilidad de que éste tenga una cuenta d~.sil.1ªq-~t?-~---~--~--~-~-q_E?___9.h_oxros'? ¿Cuál es la probabilidad de que el cliente no tenga ninguna de las dos? "'/ 32. La empresa Ali Seasons Plun1bing cuenta con dos camiones de servicio que se descomponen frecuentemente. Si !a probabilidad de que el primer camión esté disponible es 0.75, la de que el segundo camión también lo esté es· 0.50, y la probabilidad de que ambos camiones estén
disponibles es 0.30, ¿cuál es la probabilidad de que ningún vehículo esté disponible?
170
Capít"io 5 33" Considere !a siguiente tabla.
Primer evento Segundo evento B,
A_,- - .11, 2 1
B,
1
l__
T_o1_a1_ _ _ _3__
2
.3·
)/3
Total
3
6 4-
,A::1 1
c.7•
4
\; ~''--'-"'.
10
a) Determine P(A 1).
b) Establezca P(B 1 1 AJ
e) Determine P(B 2 y A~. 34. Cleanbrush Products envió por accidente a una farmacia tres cepillos dentales eléctricos, que estaban defectuosos, junto con i 7 en buen estado. a) ¿Cuál es !a probabilidad de que los primeros dos cepillos vendidos se devuelvan a la far111acia por tener defectos? b) ¿Cuál es la probabilidad de que !os primeros dos cepillos vendidos no tengan defectos? 35. Cada vendedor en la negociación Stiles-Compton se califica como "abajo del promedio", "promedio" o "arriba del promedio", con respecto a su aptitud para las ventas. Además, cada uno se clasifica respecto de su posibilidad de promoción en: regular, bien, o excelente. En la tabla que sigue se presenta la clasificación cruzada respecto a estos conceptos, de los 500 vendedores. Posibilidad de promoción Aptitud en ventas Abajo del promedio Promedio Arriba de! promedio
Regular Buena Excelente
rn
12
.:!i'.'·
45
60
45 1~$)
ilJ. i'.'Jºi
E ( L¡ ~
j
..•...
-
'J -··:;:,r:_!
·
a} ¿Cómo se denomina esta tabla? b) ¿Cuál es la probabilidad de que un vendedor seleccionado al azar tenga aptitud para las ventas por encima del promedio y excelente posibilidad de promocíón? e} Trace un diagrama.de árbol que niuestre las probabilidades normales, condicíonales y conjuntas. 36. Un inversionista posee tres acciones comunes. Cada acción, independientemente de las otras,
tiene las mismas posibilidades de que (1) aumenie su valor, (2) disminuya su valor, o (3) per· manezca sin cambio. Mencione todos los posibles resultados de este experimento. Calcule la probabilidad de que al menos dos de las acciones aumenten de valor. 37. El comité directivo de una empresa pequefia está integrado por cinco personas. Tres son "líderes 'fuertes". Si aceptan un proye'cto, lo aprobarán todos los demás miembros del comité. Los otros integrantes, "líderes· débiles", _ho tienen influencia alguna. Se programa que tres vendedores harán presentaciones de ventas,- ulio después dé otro, ante un mierilbro del comité, elegido por el vendedor. Los representantes de ventas son convincentes, pero no saben quiénes son los "líderes fuertes". Sin embargo, sabrán a quién se dirigió el representante de ventas anterior. El prime1· vendedor que descubra a uno de los líderes fuertes ganará la cuenta. ¿Los tres vendedores tienen la misma probabilidad de obtenerla? De lo contrario, evah'.1e sus probabilidades respectivas de ganar dicha cuenta; 38. Si en la universidad usted pregunta a tres personas desconocidas, ¿cuál es la probabilidad de que: (a) todas hayan nac!do en un día miércoles? (b) todas hayan nacido en días de la se111ana diferentes? (e) ninguna haya nacido en sábado?
Teorema de Bayes En el siglo XVIII el reverendo Thü111as Bayes, ministro presbiteriano inglés, planteó la siguien· te pregunta: ¿Realmente existe Dios? Ya que estaba intere9ado en las ciencias matemáticas,
171 intentó desarrollar una fórmula para llegar a evaluar la probabilidad de que Dios exista, con base en la evidencia de la que él disponía aquí en la Tierra. Más adelante, Laplace afinó el trabajo de Bayes y le dio el nombre de "teorema de Bayes". En forma manejable, el leo rema de Bayes se expresa así:
La estadística ., enacc1on
P(A;)P(B IAl
.TEOREMA !JE .BA)'ES
P(A,)P(B 1A,) iP(Á2)P(B 1A 2 )
[5.7]
En la fórmula 5.7 se supone que !os eventos A 1 y A 2 son mutuamente excluyentes y colectivamente exhaustivos, y que A¡ representa cualquiera de los eventos A_1 o A 2 .EI signi'f¡cado de los símbolos usados se ilustra en el ejemplo siguiente. Suponga que 5% de la población de Umen, un país ficticio del Tercer Mundo, padece una enfermedad que es originaria ele ese lugar. Sea A 1 el evento "tiene la enfermedad", y A 2 el evento "no tiene la enfermedad". Por tanto sabemos que si seleccionamos al azar a un habitante de Umen, la probabilidad de que el elegido tenga el padecimiento es 0.05, o bien P(A 1) = 0.05. Esta probabilidad, P(A 1) = P(tiene la enfermedad)= 0.05, se denomina probabilidad a priori. Se le da este nombre porque la probabilidad se asigna antes de haber obtenido datos empíricos.
Probabilidad a priori
Es la probabilidad inicial con base en el nivel actual ele infor-
rriación. La probabilidad a priori de que una persona no padezca el trastorno es, por tanto, igual a 0.95, o bien P(A 2) = 0.95, que se obtiene de 1 - 0.05. Existe una técnica de diagnóstico para detectar la enfermedad, pero no es muy exacta. Sea B el evento "la prueba indica que la enfermedad está presente". Considere que la evidencia histórica muestra que si una persona realmente padece la enfermedad, la probabilidad de que la prueba indique la presencia de tal dolencia es 0.90. Utilizando las definiciones de probabilidad condicional desarrolladas anteriormente en este capítulo, tal afirmación se expresa como:
P(B 1A 1)=0.90 Considere que la probabilidad ele que en una persona que en realidad no padece la enfermedad, !aprueba indique que la enfermedad está presente, es 0.15.
P(B 1A2)=0.15 análog'o prnctiqúe
ese'cldptirte;:en .·e1 úlÜn:O-gf~drY~C-' univei:.~idúd:C.9
de_r
en 60.
.-~~--::,.,,,,,,,,..,'-""',,,..,,=c.,.,..,-.,-.,.~.,.,-.,-,.-~~~~--~~~~·~~~~~~~~--,
.;-~,i__yst~tl/uer?-
ju_ga-. dor durai1te su últi-1~~-0 ;1·;~º-e~c~1;;; Li ni 1',éi-.S.í ta _fiü, _hs prnbalii1ichideS de Uegar a ser integrmitc de Ún 'eC{uipo profesionnl,
·
Serí8Ji ·i1j)roxiilrndarn cn lc ele ! en
)7, 5.
Se selecciona en forma aleatoria a un habitante de Umen, al que se le aplica la prueba. Los resultados indican que la enfermedad está presente. ¿Cuál es la probabilidad de que la persona realmente tenga dicho padecimiento? En forma simbólica, se desea determinar P(A 1 1B), que se interpreta como: P(se tiene la enfermedad) 1(Los resultados de la prueba son positivos). La probabilidad de P(A 1 1B) se denomina probabilidad a posleriori.
Próbabfud:id i pbsterlo~i
E$,Una. probabilidad revisada con base en información
adicional. Con la ayuda del teorema de Bayes, fórmula (5.7), es posible determinar la probabilidad
a poste1·iori. ·
P(A,
I B)~
P(A 1)P(B 1A,) P(A 1)P(B 1A 1) + P(A 2 )P(B 1A 2 ) (0.05)(0~[))_ (0.05)(0.90) + (0.95)(0.15)
0.0450 ~ 0.24 0.18~5
172
Capitulo 5 Por tanto, la probabilidad de que una persona tenga la enfermedad, dado que la prueba resultó positiva, es 0.24. ¿Cómo se interpreta este resultado? Si una persona se selecciona al azar de la población, la probabilidad de que padezca la enfermedad es 0.05. Si se aplica la prueba a la persona y resulta positiva, la posibilidad de que en realidad tellga la enfermedad aumenta aproximadamente cinco veces, de 0.05 a 0.24. En el problema anterior se tenían solamente dos eventos mutuamente excluyentes y colectivamente exhaustivos, los eventos A 1 y A 2 . Si hay n eventos de este tipo, A 1 , A 2 ,,,,An, la fórmula del teorema de Bayes (5.7) se convierte en: P(A
P(A 1)P(B A 1) B) = - - · - - - - , , - - · - - - - - - - - - - ' P(A,)P(B A1) + P(A,)P(B A,) + ' ' ' + P(An)P(B An) 1
Utilizando la anotación anterior, los cálculos para el problema en Umen se pueden resumir en la siguiente tabla.
Evento, A, 1 Tiene la enfermedad, A 1 No tiene la enfermedad! A2
Probabilidad a prori, P(A 1)
Probabilidad
0.05 0.95
0.90 0.15
condicional, P(BI A,)
Probabilidad conjunta, P(A 1yB) ..
0.0450 0.1425 -P(B) = 0.1875
Probabilidad posteriori 1 P(A 1 j B)
0.0450/0.1875 0.1425/0.1875
= =
0.24 0.76 1.00
A continuación se presenta otro ejemplo que muestra el uso del teorema de Bayes.
Un fabricante de videograbadoras (VCR) compra un circuito integrado, el LS-24, de tres proveedores. Un 30% de los circuitos LS-24 se compran a Hall Electronics, 20o/¿ a Schuller Sales, y el 50% restante a Crawford Components. El fabricante tiene historiales extensos acerca de los tres proveedores, y sabe que 3% de los circuitos LS-24 de Hall Electronics resultan defectuosos, que 5% de los circuitos de Schuller Sales son no aceptables, y 4% de los de Crawford Components tienen defectos. Cuando los circuitos integrados LS-24 llegan al fabricante, se colocan directamente en un contenedor, y no son inspeccionados o identificados de algún modo por el proveedor.. Un trabajador selecciona uno para su instalación en una VCR, y lo encuentra defectuoso. ¿Cuál es la probabilidad de que haya sido fabricado por Schuller Sales?
SOLUCIÓN
Como un primer paso, se resume enseguida parte de la información dada en e! enunciado del problema. / ) ª Existen tres eventos mutuarñ8fílé excluyentes y colectivamente exhaustivos, que son los tres proveedores: A 1 El circuito LS-24 se compró a Hall Electronics
Revisión de algunos rnmoeplos de probabilidad
173
A 2 El circuito LS-24 se compró a Schuller Sales A 3 El circuito LS-24 se compró a Crawford Components 0
Las probabilidades a priori son: P(A 1) = 0.30 P(A2) = 0.20 P(A3) = 0.50
0
La probabilidad de que el circuito haya sido fabricado por Hall Electronics La probabilidad de que el circuito provenga de Schuller Sales La probabilidad de que el circuito haya sido fabricado por Crawford Components
La información adiciona! puede ser 8 1 que el circuito LS-24 sea defectuoso.
8 2 que el circuito LS-24 no sea defectuoso 0
A continuación se indican las siguientes probabilidades condicionales: P(8 1
1A1)=0.03
La probabilidad de que un circuito LS-24 producido por Hall Elec-
tro11ics sea defectuoso P(8 1 1 A 2 ) = 0.05 La probabilidad de que un circuito LS-24 producido por Schuller Sales sea defectuoso P(8 1 1A 3)=0.04 La probabilidad de que un circuito procedente de Crawford Components sea defectuoso 0
Se toma un circuíto del contenedor. Como los circuitos integrados no están identificados según el proveedor, no se sabe con exactitud cuál de los proveedores lo fabricó. Se desea determinar la probabilidad de que el circuito defectuoso sea de los comprados a Schuller Sales. Esta probabilidad se expresa como P(A 2 1 8 1).
Observe el informe respecto a la calidad de los productos de Schuller. Es el peor de los tres proveedores. Ahora que se ha encontrado un circuito integrado LS-24 defectuoso, se sospecha que P(A 2 I 8 1) sea mayor que P(A,). Esto es, se espera que la probabilidad revisada sea mayor que 0.20. Pero, ¿cuánto mayor? El teorema de Bayes puede dar la respuesta. Como primer paso, consideremos el diagrama de árbol presentado en el diagrama 5.2. Los eventos son dependientes, así que la probabilidad a priori en la primera rama se multiplica por la probabilidad condicional en la segunda, para obtener la probabilidad conjunta. Esta probabilidad conjunta se indica en la última columna del diagrama 5.2. Para elaborar el diagrama de árbol de dicha ilustración, se utilizó una secuencia de tiempos que va desde el proveedor hasta la determinación de si el circuito fue aceptable o inaceptable. Lo que se requiere hacer es invertir el proceso de tiempo. Esto es, en vez de ir de izquierda a derecha en el diagrama 5.2, se necesita ir de derecha a izquierda en tal gráfico. Se tiene un circuito defectuoso y se desea determinar la probabilidad de que sea de los comprados a Schuller Sales. ¿Cómo se logra eso? Primero se observan las probabilidades conjuntas como frecuencias relativas respecto a 1 000 casos. Por ejemplo, la probabilidad de que un circuito LS-24 defectuoso haya sido producido por Hall Electronics es 0.009. Por tanto, en ·1 000 casos se esperaría hallar nueve circuitos con defectos . producidos por Hall Electronics. Se observa que en 39 de 1 000 casos el circuito seleccionado para su montaje será defectuoso, lo que se obtiene de 9 + 1O+20. De estos 39 circuitos defectuosos, 1O fueron producidos por Schuller Sales. De esta forma, la probabilidad de que el circuito defectuoso haya sido de los comprados a Schuller Sales es 10/39 = 0.2564. Se ha determinado ahora la probabilidad revisada de P(A 2 18 1). Antes de hallar el circuito defectuoso, la probabilidad de que hubiera sido de Schuller Sales era de 0.20. Esta probabilidad aumentó a 0.2564.
174
Capil"lo 5
P'íObabiiidGid
_Cón]Urita , .:: •:: .':,:: .,¡¡1 .,,011fe''·tuoso P(A, yB¡)
:<: .,,1(·Ap1¡t\1I
=P (4,)P(B1iA1)
=0.009
= (0.30).(0.03)
A 2 ~- S_ctiLi!lér P (A 2)~0:20
· · -~ ·_ ·. _· -, 82 =:·-_Aceptable
~·~··· = 0.95 ~ · 111
P(4 2 y8 2) =P (A,) P (B2IA2) = (0.20) (0.95) = 0.190
P ($2 11\ 2)
B, = Défectuoso P (A~
A 8 = Cra1ivforcl P (A3) = 0 ..50.
,¡y 8 1
. ·-
)
=P (A3) p (B, IA,)
= (0.50) (0.04) = 0.020 B? = Aceptabie P (A1 y8,) •.1 =P (.L\ 3 ) P-(B 2 IA 3 ) = (0.50) (0.96) = 0.480
Total 1.000
DIAGRAMA 5.2
Diagra1na de árbol para el problema de fabricación de vi
La información anterior se resurne en !a siguiente tabla. Probabilidad Probabilidad a prori, condicionait P(Ji;) P(B1 1 A;)
Evento, A, Hall
0.30 0.20 0.50
Schuller
Crawford
Probabilidad conjunta, P(A 1 yB 1)
0.03 0.05 0.04 P(B1)
Probabiiidad
poster!ori,
P(A1 jB 1)
0.009 0.010 0.020
0.009/0.ü39 = 0.2308 0.010/0.039, = 0.2564 0.020/0.039 = 0.5128
= 0.039
1.0000
La probabilidad de que el circuito LS-24 defectuoso provenga de Schuller Sales se puede encontrar aplicando el teorema de Bayes. Se desea calcular P(A 2 1 B,), donde A2 se refiere a Schuller Sales, y 8 1 al hecho de que el circuito integrado seleccionado fue defectuoso.
P(A, 1 B,)
1
P(A 2)P(B1 1 A,)
= P-(-A-)P~(-B-,-1A_1_)_r_P-(A-,-)P,(B; 1 A~,)-,-_-P-(A-3)-P-(B_1_IA-,-) - ----(0.20)(0,05) (0,30)(0.03) + (0.20)(0.05) + (0.50)(0,04)
=
0,01 o = 0,2564 0.039
Este es el mismo resultado que el obtenido a partir del diagrama 5.2 y de la tabla de pmbabiHdad condicional.
175 ~~~~~-"--~·-··~~~~~----~-~~--~--~~~~~~-~-~~~-~----~-~~~~-¡
I
Refiérase al ejemplo y solución anteriores. a) Obtenga una fórmula para determinar la probabilidad de que Ja parte seleccionada proven-
AiJJtoexamefíl 5.9
L
J'
ga ele Crawford Com·p·o·nutilizando .. ents, dacio q.ue··s·e· trata de un circ. L.'.ª.º ··i·n···te····g rada ace·p·ta.bl·e· ......... b) Ca!cule la probabilidad el teoren1a de Bayes.
¡
1
1 1
~ •
·
· - -- · -- W~~--~-~-~"--~-------~~-~~"
-- --- · --
-""-·~-~~~~··~~r~~.--.,~.
1
'
F¡: -~ 1r·cic;n., Jj_Jf;..,1
l1_
lLJJ
--~-~
39. P(A 1) = 0.60, P(A,) = 0.40. P(B 1 1A 1)=0.05 y P(B 1 1A2)=0.1 O. Ernplee el teorema de Bayes para deterrninar P(A 1 BJ 40. P(A 1) = 0.20, P(A 2) = 0.40 y P(A) = 0.40. P(B 1 A 1) = 0.25. P(B 1 j A 2 ) = 0.05 y P(B 1 j A 3 ) =O_ -1 O. Utilice el teorerna de Bayes para determinar P(A 3 1 8 1). 41. El equipo de béisbol Ludlow Wildcats, un equipo de liga 111enor de la organización de los indios de Clevelancl, juega 70% de sus partidos ppr la noche, y 30% durante el día. El equipo gana 50% de sus juegos nocturnos y 90% de los diurnos. De acuerdo con un diario del día de hoy, los Ludlow Wildcats ganaron ayer. ¿Cuál es la probabilidad de que el partido se haya desarrollado por la noche? 42. La doctora Stallter ha enseilando estadística bé.sica durante muchos años. Ella sabe que 80% ele los estudiantes hacen todos los problemas asignados. También determinó que de ios alun1nos que hacen su tarea, 90% aprobará el curso. De aquellos estudiantes que no hacen todos los problemas asignados, 60% será promovido. Miguel Sánchez cursó estadística el semestre pasado con la profesora Stallte1· y obtuvo una calificación aprobatoria. ¿Cuál es la probabilidad de que sí haya hecho todos los problemas asignados? 43. El departamento de crédito de la tienda depaiiamental Lion's, en Anaheim, California, infonnó que 30% de sus ventas son en efectivo, 30% son pagadas con cheque en el momento de la compra y 40% son a crédíto. Se tiene que 20% de !as co111pras en efectivo, 90% de las compras pagadas con cheque, y 60% de !as compras a crédito, son por más de $50 (dólares.) La señora Tina Stevens acaba de comprar un vestido nuevo que cuesta $i20. ¿Cuál es !a probabilidad de que haya pagado en efectivo? 44. Una cuarta parte de los residentes del fraccíonan1iento Burnin Ridge dejan abiertas las puertas de su cochera cuando sa:en de su casa. El je-fe de la policía !ocal calcula que en 5% de lascocheras cuyas puertas se dejan abiertas se roban algún objeto, pero solamente en i % de lascocheras cuyas puertas se quedan cerradas se han robado algo. Si los delincuentes roban una cochera-; ¿cúál es la probabilidad de que sus puertas se hayan cleíado abiertas? 1
j
Princip~os de con~e~ Si el número de resultados posibles de un experimento es pequeíío, resulta relativan1ente fáci! contarlos. Por ejen1p!o, hay seis resultados posibles cuando se lanza un ciado, específica .. mente:
Sin embargo, si existe un gran 1J(1mero de resultados posibles, como podría ser el nl1mero de niños y niñas en familias con i O hijos, resultaría tedioso contar todas las posibilidades. Pueden tener sólo niños, un niilo y nueve niñas, dos niños y ocho nifías, y así sucesivamen-· te. Para ·facilitar el conteo, se examinarán tres fórmulas: la fórmu~a de !a nH.Jltip¡k:ación (no se debe confundir con la regla de multiplicación descrita con anterioridad en este capítulo), la fórmula de la permutación, y la 'fórmula de ia combinación,
Fórmula de b multiplicación Fórmula de fa multiplicación hacer otra 1 existirán
Si hay m formas de hacer una cosa, y n m x n ·formas de hacer ambas.
176 c)
extenderse 2_ !T:ás de dos eventos, Para tres eventos n1,
n, o:
Un vendedor ele auton1óvi!es cles(.:;a anunciar que por $29 999 lclrJls-resl cornp1. a.r un auto c:onvertibie,. un sedan de dos o un rnoc!eio de cuatro y adernás puec!e elegir si desea que los rines sean sólidos o clepo!iivos, ¿Cuéntos a!'re(:J!os diferentes de rnodelos y r'nes puede ofrecer el cornerc!arTte?
Desde luego, el vendedor pocli'ía c!etern:inar el nl1n1ero totai de .snnDios esquen1atizándoios y contá_ndolos. i·--!ay seis a1Teglos. Co11vel'\11Jle CO!l tines depo1ii .1os
Con'./01-tible con rinL-=)S sólieloo
Seclán ele 2 pue1-tc1s con 1·i11es clepo1-tivos
Seclár1 ele 2 oue1-l8-s CO)l i-i11es só!iclcx:'.
Seciá.11 ele 4 pLenas con i-ines c!epo1-iivos
Sec!á.11 ele 4 pue!'ias con rines sólicios
1
Pode1T1os utiliza:- i2 fórrnu!a dE !e. muitipiicación paJa verificar (ciond·s rn Gs ei nt:1n-1er·o de rnodelos y n el tipo ele la ·fónT:ul2 (5.8):
En este ejen1pio no fue ciifíci· contai' todas !as posibles con1bi11a.ciones de rines ·/ !11od13ios ele autos. Sin ernbargo, supc1 n~J2 que e! vendedor decide ofrece:- ocho 1T1ocleios y seis tiphs de rlnes. nt::;sultarfa tedioso dibujeJ }f cor:ta:-toclas las opcio11es vez d<:"; esto, ::: 48 2ff8C!IOC; puede utilizarse la fórmula de ia En este caso posibles. Observe en las aplicaciones a.nt:en·ores de Is fórn1u!2 de ia que había dos o rnás grupos de donde ila.cer una e!eccíón. Por el vendeclor de <.:Hxlo111óviles ofrecía una va:"iedac! ds rnocleios y ctra. ele rines. Si un constructor de inn1uebies ofrscie1-2 cuatro estilos de exteriores para una ca.S<'.-J., y tíes estiios pa.ra e! intet·!o!', i2 ·fónT1uia ele la rn:1licnl1'iación se utilizaría para cleterrninar cuántos a1Teg!os c!i"l'et. entes se tener.
1 / /
·¡. La E)rnpi'esa. Stiffin de'.:>arrolló cinco bases para lmnos1cos ele 1T1es2 y cuatto pantallas intercarnbiables. ¿Cuántos arreglos diferentes de base y panta ia se pueden of¡-ece!'"? 2. La Pionee1· f2b1·ica tíes 111ocielos de r·sceptores de radio e~;tereofónicos, do:-1 (8·· productores de cinta, cur:;.t'o bocinas, y tres rep!"oductores de discos cornpactos, Cuando \os cu2t'(ü ·Upos de con1ponG:l'1.es se venc11en juntos fo1T;1211 un "sis-terna". sis1:en1as distintcis puede ofrecer esta PnYllff1s?
cRe la ]Jer11r1Jtaciónt '
Seglin se ob.sei'\JÓ, la fói"mula de !a m1il!i1Jiico.cic)n se aplica pé:11'8- encontrar e! n1J_1T18iO c!e arre·· glos posibles, dacios dos o 1-1ás grupos La fórr-;nu[a de· ja se utiiiza para de-leí· n-1ina.:- e! 11L11T1ero posible ele arreg!os cuando sóio hay un grupo de objetos. Corno ejernpios ele este de proble1112: Se van a ensosnb!ar tres parles e!ec'ffónica.s en una unidad rnoc!uiZJJ p8n3_ ;Jn ieceptoi de te!evisión, L.as paties se pueden ensa111biar en relacionada con conteo es: ¿De cuá.ntos n-1oclos díferentes e11san1blarse las tres p:::u-tes? Un operario debe real\za1 cuatro ve(rfica.r.::.'1or-\es d.e seguf1dad antes ds activar S\J rné.f\lo in1porta en qué orden las realice. ¿De cuántas fonT12s distintas puec!e 1-ea.-
0
0
lízaJ las ve!'"ificaciones? Un orc!en para la prin1e1·a ilusti'ación podda ser: e! tra11s!sto1· en segundo iuqar los y en terce(o el sintetiza.doL A este arreglo se le clenon1ina una
clioc!os ernisores ele luz
o cil':pcJsH::on ds- r oi:1csim: s1:oleccionacios ele un so!o f::rupo
(JiJserve que los nnPnicc a, .b_; e, y e! b, a. que se utiliza para contar el 11(1n1ero total de ni
,']
1º =--'----'---·-'
(n ·-·· r)!
clonds:
n es el
nL;rr1ero de total ele objetos
es el n1.'.:rnero de
seleccionad.os
/)oJ1tes de rs:;oivc1:· !os cio.::, nc::hinnJss debe obse!'v::.:;xse que las y con1binaciones se ana.lizar8-n 1T1ás nc1e1::nr:s: utiliza.i: una not~;c ión que se expres2 co1110 factoriaí n. Se escíib;::: n , y si~111i-fic2 el ~noc!ucto ra ·facto1·iai se tiene: 5! = !5 · ,_¡ · 3 · 2 · ·¡ 20.
n13_::; cifras en nurne ado( '/ cenon1inado1·:
6!3!
4!
=
Por definición. E)i factorial cero, representado por O!, es igual
'180
a "i. Es
decir, O! = 1.
178
Capitulo 5
Con referencia al grupo de tres partes electrónicas que deben ensamblarse en cualquier orden, ¿de cuántas maneras diferentes se pueden ensamblar?
SOUJCIÓ~l
Se tiene que n = 3, porque hay tres partes por ensamblar, y también r = 3 porque las tres partes se van a colocar en la unidad modular. Utilizando la fórmula (5.9):
P =-n_!_=~3_._'_=:3_!=:3_!= n
(n - r)!
e
(3 - 3)!
O!
6
1
Se puede realizar una verificación del número de pern1utaciones obtenidas utilizando la fórn1ula de la pern1utación. Para verificar esto, sólo hay que determinar cuántos "espacios" deben llenarse, así como las posibilidades para cada "espacio", y después se aplica la fórmula ele la multiplicación. En el problema relacionado con las tres partes electrónicas, hay tres lugares en la unidad modular para las tres partes. Existen tres posibilidades para el primer lugar, dos para el segundo (ya se utilizó una) y una para el tercero, como se indica a contlnuación: (3)(2)(1) = 6 permutaciones Las seis formas en que se pueden disponer las tres partes electrónicas, denotadas por
A, B, C, son: 1
ABC
BAC
CAB
ACB
BCA
CBA
1
En el ejemplo anterior se seleccionaron y se ordenaron todos los objetos, es decir, n = r. En muchos casos, sólo se seleccionan y ordenan algunos de los n objetos posibles. En el siguiente ejemplo se explica esto en detalle.
EJEMPLO
La empresa Betts Machine Shop, lnc. tiene ocho tornos pero sólo hay disponibles tres espacios en la zona de producción. ¿En cuántas formas diferentes se pueden colocar los ocho tornos en los tres espacios disponibles?
SOLUCIÓN
Hay ocho posibilidades para el primer espacio disponible en la zona de producción, siete posibilidades para el segundo espacio (ya se ha utilizado un espacio), y seis para el
tercero. Entonces: (8)(7)(6) = 336. Es decir, hay un total de 336 acomodos diferentes. Esto también podría haberse encontrado usando la fórmula 5.9. Sin= 8 máquinas y r = 3 espacios disponibles, la fórmula nos lleva a n!
8!
8!
(8)(7)(6)5! =336 5!
p =--=--=-= " ' (n - r)! (8 - 3)! 5!
Fóimub de la combinación Si el orden en los objetos seleccionados no es importante,
a cualquier selección
se le llama
una cotnbinación. La fórmula para contar el número de combinaciones de r objetos de un conjunto den objetos es: FÓRMULA IJE LA COMBINACIÓN
C= .· n! n
;
r!(n - r)!
[5.10]
179
Revisión de alg"nos conceptos de probabilidad
Por ejemplo, si los ejecutivos Abel, Báez y Chauncy han ele ser elegidos como un comité para negociar una fusión de empresas, sólo existe una combinaclón posible de estos tres. El comité formado por Abel, Báez y Chauncy equivale al integrado por Báez, Chauncy y Abel. Utilizando la fórmula de la combinación:
c ll
= r
ni. ri(n - r)!
3 . 2 ·1 3·2·'1(1)
A un departamento de mercadotecnia se le ha solicitado que diseñe códigos de colores para las 42 líneas de discos compactos (CD) que comercializa la empresa Goody Records. Se van a utilizar tres colores en cada línea de CD, pero una combinación de tres colores que se utilizan en una línea no puede reordenarse y utilizarse para identificar a otra línea diferente. Esto significa que si se usaran los colores verde, amarillo y violeta para señalar una línea, entonces amarillo, verde y violeta (o cualquie1· otra combinación de estos tres colores) no se podría emplear para identificar otra línea. ¿Serán adecuados siete colores tomados tres a la vez para codificar adecuadamente las 42 líneas?
SOLUCIÓN
Aplicando la fórmula (5.1 O), existen 35 combinaciones, que se obtienen al calcular
'
e
= 3
7 -1 - = _Z!__ = 35 n! = -r!(n - r)! 31(7 - 3)! 3!4!
Los siete colores de los que se toman tres cada vez (esto es, tres colores para cada línea) no serían suficientes para codificar por color las 42 líneas diferentes de discos compactos, porque sólo permiten 35 combinaciones. Ocho colores tomados de tres en tres darían 56 combinaciones distintas. Esto sería más que suficiente para codificar cromáticamente las 42 líneas.
1. Un músico desea escribir una partitura basada solamente en cinco notas: si bemol, do, re, mi y sol. Sin embargo, sólo tres de !as cinco se utilizarán en sucesión, como do, si bemol y mi. No se permitirán repeticiones como si bemol, si bemol y mi. a) ¿Cuántas permutaciones de las cinco notas, tomadas tres cada vez, son posibles? b) Utilizando la fórmula (5.9), ¿cuántas permutaciones son posibles ahora? 2. Recuerde que un operario de taller debe hacer cuatro verificaciones de seguridad antes de activar su riláquina, y no importa en qué orden las realice. ¿oe cuántos modos puede hacer las verifica_ciones el mecánico operador? 3. Se Van a utilizar !os 1O núrileros de! O al 9, para crear un código ele cuatro dígitos e ldentíficar un artículo ele ropa. E' 1 083 podría identificar una blusa azul, talla mediana. El 2 031, unos pantalones, talla 18; y así sucesivamente. No se permiten repeticiones de los números. Es decir, el mismo n'ú_mero no puede ser utilizado dos veces (o más) en una secuencia. Por ejemplo, 2 256, 2 562 o 5 559 no se permitirían. ¿Cuantos códigos diferentes se pueden establecer? 4. En la solución del ejemplo anterior de !os discos compactos, se dijo que ocho colores tomados de tres en tres, darían 56 combinaciones diferentes. a) Use la fórmula (5.1 O) para mostrar que esto es cierto. b) Con10 un plan alternativo para codificar con colores las 42 líneas, se sugirió que secolocaran sólo da:_s colores en cada disco. ¿Serían suficientes 1O colores para codificar !as 42 líneas? (Nuevamente, una combinación de dos colores só!o puede utilizarse una vez; es decir, si para unos discos ei--código es rosa y azul, el grupo azul y rosa no puede usarse para identificar una línea diferente.)
!.(.~;,, (Jbten~Jª ei valor· e e io siguierne:
,,;;¡\·
40!/35!
!o a} 20!/i 7!
4-7', Un enircJvisüJd'J' seleccionó al tJ.fL lj.9~
5\1
C",
52...
2!ZCJJ 4 de ·¡O pe1·sonas clisponibies. ¿Cuántos grupos ciife1·entes de 4 se pueden hacf::(? Un nLnT1e1·0 telefónico está inl:?grado por siete dígitos, y !os tres pri111ei"os 1·epresentan !a zona. ¿Cuántos nún1:::,1·os telefónico.; distintos son posibles clentío del área zonal 537? Una e111presa ele n1ensajería nocturna debe abarcas cinco ciudades en su 1·eco1Ticlo. rutas cli1'erentes se pueden hacer, suponiendo que no i1T1po1ia el 01·den en que se visiten las c1'uda.des en el recorrie:'o? Un representante df:: la ,t\gencia ele PrutGcción AiT:bierrtal (EPA de Environrnental Protection t''""°'wv\ ele Estados Uniclos, desea sGleccionaJ n1uest1·as de -1 O ¡·elienos sanitarios, y se dispone de -15 de ellos para obtenel'las. ¿Cuántas 1T1ues'ffas diferentes se pueden obtener? Una organización nacional c!e encuestas !la eiabo1·2c!o ·15 preguntas destinadas a evaluar !a 2ctu:::1ción clsl p1T~sidente de Esi:ados Unidos. El entn::;vistacior seiecciona.ré, -1 O ele las preguntas. ¿l.Je cuántas nlane1-2s diferentes se pueden orclena1· las -1 O preguntas seleccionaclas? Una ernpresa está creando tres divisiones nuevas, y hay siete gerentes disponibles para cli1-i~;ir una división. ¿De cuántos modos se pueden no111bra1" !os tres nuevos dirigentes?
inclusive, c¡ue representa la de que ocu1·: a un c-:,vento en particular. actividad o el éicto ele efectuar un2. :11edic1ón.
Jt
Existen tres de-finiciünes-. de píobabilíc!s.d. definición clásica ~8 aplica cuando hay n mrculta,c!os lg JB.irnente pi-o bables .de ún:iaxperin1errto. f-'.:t L.8 ffrmiric2 ocurre Gi n1~u"ne:o c!e vecéS en qu(-:; sucÉ•de un vide i=:ntre cesiic:O,ci total de ot,scvvacio;ces. ·\./o
Una son
\~. i"'Q•,
o:-,
La
P(A o B)
~""
P(A)
+ P(B) -.. P(?, y 8)
crll'npicmcc!!cio sirve ia prob_Elbilidscl de
{i., Lé
P(A)
de
~::·-¡
_:_. PC---A)
181 1·"º
La regla especial cie multiplicación se refiere a eventos que son lndepenciientes.
y B) "°' F>(/l,)P(B) l?L La regla general de multiplicación se re-fiere a eventos que no son independientes,
P(A y B) = P(A)P(B 1 A) (';., Uí·1a probabilidad conjunta es ·1a posibilidad de que
o más.eventos ocurran a! 111ismo tiernpo. D. Una. pi-obabilld8.d condícioílal es !a posibilidad ele que ocurra un evento, dado que otro ya ha ocurrido. E_, Ei teorerna de Bayes es un método para revisar una probabilidad, dado que se ha obtenido inforrnación aclicicnaL Para dos eventos !l1utuarnente excluyentes y colectivarnente ex-
haustívos:
[5o7] compra un-solo boldo, frccl!eri.ttmcnk -pi11· só~
Hay tres reglas ele conteo que son L1tiles para determinar el nl!mer·o total de resultados de un experimento. J.t La regla ele n1ul1:iplicaclón establece que si hay ro forn1as en que un evento puede ocuiTlr y n forrnas en que otro evento puede sucecle1·, entonces hay rnn forrnas en que los dos eventos pueden ocuffir.
lo i_m d6br, y puede gm1fir ú1w 'surn·~1 cunsi-
dcrnblc de &11t:;·o. [:'.n u1gm\03 cobidos b can~_ tidaJ'qn~ :;e \_Jt1crk i.CllCI .1:11pcra·fo:; 20 iníltonc:j de- dóhnc'c;: Para poder g
de
hltírnero de arreg\os = (m)(n) 8, Una pen11utación es un arreglo en e! cual es importante el orden _de los objetos seieccionacios de un conjunto cle1:ern1inado de objetos.
clc~idos ,¡[
1;11
n
E;n1po ,!t: -'F/
(;" Una corr1binacíón es un arr8glo en e! que no es in1po1-tante el orden de los objetos seleccionados de un grupo especifico de ellos.
cih1:>. Las prolx1bilidadc, de :;~:in:lr d :irnnio ';011 l (:n J l 9Sl S l6. L~1 de que 21 n:ccs "c1rn"
do scc Lmzc1
1111~1
cLL e:; I c:1 S
rnonc({!S.
tit·nc rncís
"''''°''"""le
' liC
' Ul1'1 lllOl1ClU
' ¡;_rn:-:m
a1 e1irc: ncr
~-) \"CC('~ y (lhlc-
~;iL·rn¡nc
'\,·,1rcis ...
que;: de ~;:mal' ele Li !oicrh
nl
ncr "'" rJ(n- r)!
,1_;~-;
l':ll otrn:; pc:L:IJtc1s, se
Ci
prc:mi()
p = _____QJ______ r (n--r)!
s¡G~\llFJi:;JM)()
P(A)_
Pt·Obabilicl8.d d9 A
PdeA
P(-/\)
Pr_obabiiidad de no A
P de no)-\
P(Ay B)
Probabiiiclacl ele A y B
:0
P(/1 o B)
Probabíiidacl de A o B
PdeAOB
P(A IB)
Pi'obabiEdacl ele A· dad O
P c!.e A dado B
Penr1utaclón ele n elementos seleccionando r a !a vez
Pnr
Cotnbinacíón de n elernentos selecclonanclo r a la vez
Cnr
p
n r
cieAyB
;53, El departa1T1ento c!e investigación de rnercado ele la ernpresa Vernors planea realizar una encuesta a aclo!escentes acerca de sus reacciones ante una bebida süave de reciente elaboración, Se k:;s pedirá que la con1pa1·en con su refresco favorito.
a} ¿Cuái es ei e;
182 54•. E! 1i(1mero de veces que. suceclíó cierto eVento en. el pasado se divide entre· el número tot,al d8 ocurrencias'. ¿Cómo se !e denon1ina a este enfoque de la probabilidad? 55. Se considEiió que !a probabilidad de que la causa y la curación de! cáncer se descubrieran·-:antes del año 20·1 Oera 0.20. ¿Qué punto de vista de la.probabilidad se ilustra con esta afirma.ción? 56. Si es verdad. que no existe ninguna posibilidad de qUe una persona se recúPerE; _despuéS.'. de recibir 50 heridas de bala, ¿la probabilidad asignada a este evento es ~·1.00.?: ¿por qué? 57:Artiraruridado;¿cuálésTáprofüoilidad.··c10qc1ecáigáüi\.,,ünó"onri·"aos''oun'''seis''?.¿Que· definición ele probabilidad se utiliza? 58. El restaurante Bercline·s Chiken Factory tiene varias sucursales en el .área de Hilton Head, en Carolina del Sur. En !as so!ícitcdes de ery¡pteo para:dlstintos· puestos, 91 dUeño dEYSearfa inclufr una pregunta acerca del valor ele !a propina, por cuenta, que puede esperar, ganar un cama.re-: 1:0. Un estudio de las notas recientes indica que el camarero obtuvo las siguientes propinas. Importe de !a propina
Número de veces
$ Ol1asta$ 5 5 hasta 10 10 l1asta 20 20 hasta 50 50 o más
200 100 75 75 50
Total
500
a) ¿Cuál es la probabilidad de que una propina sea igual o superior a $50? b) ¿Se consideran mutuamente excluyentes las categorías $ O a $5, $5 a $1 O, etcétera? e) Si se sumaran !as probabilidadés correspondientes a cada 'una de las categorías, ¿cuánto ciaría esta suma? d) ¿Cuál es la probabilidad de que una propina sea mayor que $10? e) ¿Cuál es la probabilidad ele que una propina sea inferior a $50? 59. Defina cada uno de !_os siguientes términos: a) Probabilidad condicional. b) Evento. e) Probabilid.acl conjunta. 60. La primera carta se!ecéionada de una baraja americana de 52 naipes fue un rey. a} Si se devuelve la carta a !a baraja completa, ¿cuál es la probabilidad de que salga rey en la segunda toma? b) Si no se repone d!c!1a carta, ¿cuál es la probabilidad-ct9·que aparezca un rey en la segl1ndatoma? e) ¿Cuál esla probabilidad ele que salga un rey en la primera tomay otro en la segunda (considerand~J que e! prfmer re~rno se·repuso)? 6i. Armco, un fabricante de sistemas de semáforos, detern1inó .que bajo pruebas acefera.das. de duración, 95%-de !os sistemas recién desarrollados duraba tres años, antes de empezar a fallar en_ e! cambio adecuado c1e-1aS seña!es.: a) Si .u~é1,_ciud~d adquirió cuatr.o de es_to.s_Slsteíl1as,.¿cuál es fa_-probábilidcld d8 que !os cuatro operen adecuadamente por lo-:menos tres a.ñ_os? b) ¿Qué regla de probabilidad ilustra esto? e) Utilizando !etras para· representar tós cüatr'ó SiStémas, establezca una ecuación tjue muestre la forma en la que obtuvo la respuesta del inciso aj. 62.-Considere e! di'ágrama siguiente. .rc~ccc~-cc-~7''~'~~'
a} ¿cómo se-deiiomrna ta! reores8ntaci6n? b) ¿Qué regla ele probabilidad ilustra?.
llevísión de algunos conceptos de prnbabilidad
183
e} -.Se tiene que- B representa e! evento de elegir una ·familia qlie recibe pagos de seguro social, ¿A qué es igual P(B) + P("B)? 63. En un programa de capacitación para el personal de! área administrativa en !a en1presa C!aremont Enterprises, 80% de los capacitados son mujeres; y 20% varones. El 90% de !as n1ujeres asístíó, a una universidad, y 78% de !Os. varones también'. ......... ............. , " ' ,.,,, '? pt;)r~q_n_a: _ qµ_§___ pa[tl_c_ipa___~n-~L programa ___SELSetecciona.aLazar._ ¿Cuál.es_ !a. probabllidad de que sea una mujer que no asistió a 1a: un_iversidad? b} Elabore· un diagrama de árbol que 1nuestre todas las probabilidades comunes, las probabilidades condicionales y las probabilidades conjuntas. e) ¿La suma de las probabilidades conjuntas es 1.00? ¿Por qué? 64. Supóngáse que ta ·posibilidad de qlie un vuelo de American Airlines se retrase 15 minutos con reSpecto;-a la hora de: llegada estipulada es 0.90;-Sé seleccionan cuatro de los vuelos de ayer. . a) ¿Cuál es la posibilidad de que los cuatro vuelos elegidos lleguen con un retraso ele 15 minutos con respecto a !a llora programada? b) ¿Cuál es la posibilidad de qlie ninguno de los vuelos elegidos llegue con un retraso de ·15 mi'nutos? e) ¿Cuál es la posibilidad de que por lo menos uno de los vuelos elegidos llegue con un retraso s~perior a 15 minutos? 65. Hay ·100 .empleados en la empresa Kiddie Carts lnternational, de esos, 57 son de producción, 40'-son:supervisores, 2 son secretarias, y.e1 ·empleado· restante.es el director generaf. Suponga tjue se selei::cionaun empleado de.ese grupo: a) ¿Cuál es la probabilidad de que la persona·elegida labore en producción? b) ¿Cuá! es fa probabBidad de que el_ empleado seleccionado sea de producción o un supervisor? e) ¿Son lo,s -~y~ntos de! incísCJ b}_ rt)utuarne_nte exctuyentes? d) ¿Cuál es la probabilidad de que el empleado elegido no sea ele producción ni un supervisor? 66, Todd Helton, del equipo de béisbol Colorado Roci
de
184
Capitulo 5 b) ¿Cuál es la probabilidad de que ninguna de.las tres tenga un sistema seguridad? e) ¿Cuál es la probabilidad ele que por lo menos una de las tres casas seleccionadas tenga un sistema de seguridad? d) ¿Considera que los eventos son dependientes o. independientes? 71. Refiérase al ejerclc!o -70, peró considere que hay 1O. casas y sólo cuatro de ellas tienen $iste9_?" ~§!_g_~1_riQ_Cl_tj. __$_~ _e.li_g.ery ___al_ :_?Z?r t~!3-~ _ (:;_Cl_s_a~;¿Cllálesla probabilidad de que las tres casaselegidasietÍgaíll.liísisfomi:ídesegúricÍad?. b) ¿Cuál es la probabilidad de que ninguna de las. tres.casas tenga dicho sistema? e) ¿Cuál es la probabilidad de que por lo menos una cle ellas tenga un sistema de seguridad? d} ¿Se considera que los eventos son. dependientes o independientes? 72. Un ma!abar_ista tiene,una bolsa que ccintiene.tres pelotas ve.rdes, dds amarillas, una roja'/ cua,tro-azules. El malabafista toma·una·pelota al azar', después sin.volver a Colocar fa primera en la bolsa toma una segunda pelota. ¿Cuál es la probabilidad de que la primera pelota.sea amarilla, y la segunda, azul? 73•. EI consejo directivo de Saner Automatic Door Co. está formado por 12 integrantes, 3 de los cuales_ son mujeres. Se va a·r_edactar un nuevo manuaJ·_de--po!iticas y P.rocedimíentos para.fa empresa. Debe seleccionarse un com¡té.de 3.m18mbroS,_ en fOrma ateatoria,_ de! personal del Consejo, para que redacten el manual_. a) ¿Cuál es la probabilidad de que todos los integrante$ del comité sean varones? b} .¿Cuál es probabilidad de que al. menos.1. elemento del citado comité sea una mujer? ·14. Una encuesta a-1.os. estudiantes ·_de- licenciatura de la escue!'a de. admini_stíación de empresas, reveló. lo siguiénte. con respect_o al género y .área-de especialización de los estudiantes.:
!Tlª_
,;¡
Especialidad
Género
Contaduría
Adlitinistración
Fiílanzas
Total
Masculino Femenino Tola!
100 100 200
150 50 200
50 50 100
300 200 500
a) ¿Cuál es la probabilidad de sel.eccionar una alumna? b} ¿Cuál es la probabilidad de seleccionar a ¡¡lguien que tenga como áréa de especialización finanzas o contaduría? e) ¿Cuál es.la probabilidad de seleccionar una estudiante() alguien que tenga interés en contaduría? ·¿Qué regla de Ja adición se.-.ap_lic;ó?. d) ¿Cuál es. la probabilidad de se.leccionar alguien cuyo interés sea contaduría, dado que la persona selecci.ón.ada· es_ de sexo. m'asculino.? e), S.uPohga-que-se--se!Qccionan- dos _estudiantes. al a_zar- pcira.as_istl_r·a un .almLierzc:>. c·an-~L presidente de. la universidad. ¿Cuál es. la probabilidad de que ambos seleccionados tengan como área principal de interés la contaduría? 75.H comisario de la policía de Wood County clasifica los. delitos, de acuerdo con la edad (en años), del malhech_or~ y . :sr e.t_crí1nen_ o.currió-co.n \fí_o!enci_a._o_:·.sJn,_el!a.-:.como .se muestra? conti-: nuaciéln,al comisa.ria le reportaron un ,tqt.al de 1qO delitos conietidos durante el pasado año. 0
Edad {eil. años) Tipo de- delito
Con violenciá Sin.violencia Tota.1.
Menos de 20 20340
27. .12 39
41 34
.75
400 más
Total
14 22 .36
82 68 150
a} ¿Cuál es fa ·p.robabílida.d de se_!eccio_nar un .ca_sd para_analizárlo y encontrar que fue. un delitO_cpn vlo!encici.,? __ -' _ . -_
IJ) ¿Cual es la probabilidad de seleccionar u.n caso pára anal.izarlo y descubr.ir que el delito lo cometió alguien_ con . m_enqs .c;!e 40 a_ñ_()_S d~:,~dad? e} ¿Cuál es. 1.~ probábilídad de se_!eccionar un_ Casoéy:_q'ue .er'c'rimen_haya sido cometido .con vfo!encia o que e! 0elíncuente tenga menos de 20 años?- ¿Qué regla de adición se aplicó?
Revisión de algunos concepios de probabilidad
185
d) Dado. que se Se!eccioiia para- análisis un delito con violencia, ¿cuál es la probabi!ídad de que !ó haya' cometido una persona menor. de 20 afíos? e) Un juez seleccionó dos casos para revisarfos. ¿Cuál es la probabilidad de que ainbos sean crímenes cometidos con violencia? 76. El: señor y. la señora-Wilhelms están retirados y· viven en Arizona, en una con1uniclad de perso_íl_~?_Ju~í}~S{a;:,:_:_S_~_p_o_r:ig1:1·_q\l_~___l_ª _ p~9t)Et_f:l_i!i_c:{_?:~L_sf_E3. _ _q~1-ª: __L1_Q____Q_()_fIJ_Q_rª_ r13ti_r0c]_Q _ y~y_a __ i_Q __ Clil_Q_$__ nl_á$_ f;S_ 0.60, la probabilidad de que una mujer retirada viva otros 10 años es 0.70. a} ¿Cuál.es la probabilfdad de que tanto ef señor.como !a señora-Wilhel1ns vivan después de 10 años? b) ¿Cuál es la probabilidad.de que dentro de 10 años el señor Wilhelms no viva y la señora Wilhelms sí? c) ¿Cuál es la probabilidad de que dentro de.10años al menos uno de los dos viva? 77. La empresa F!ashner Marketing Research se especializa en proporcionar evaluaciones ele sus perspectivas a tiendas dé ropa para.dama .en centros c_omercia!es. Albert F!asllner1 el director, informa_que·eva!úa !as posibilidades corilo buenas;- regulares o malas. Los registros de las eva!uacibnes anterioíes indican.que en 60% de·!os casos, !as perspectivas son buenas, en 30% son _regulares, y·en i 0% so_n malas: De las eva!_uadas como b_uenas, 8_0% dieron utilidades durante.·e1-primer· año; y de las eva!uadas.__ como regulares,- 60% produjeron útilidades el primer año; y de-fas clasificadas como malas, 20%-arrojaron beneficios duránte el primer· año. Connie's.. Apparel.fue uno de !Os clientes de. Flashner que obtuvo utilidades el año pasaclo, ¿Cuál es la probabilidad de que se. le haya dado una clasificación inicial de mala? 78, Hay.400 empleados en la empresa G.G. Greene Manufacturing Co., y 100 de ellos fuman. Cuenta también con 250 trabajadores (hombres), 75 de los cuales fuman. ¿Cuál es la probabilidad de· que un empleado seleccionado al azar: a) sea hómbre? b) fume? e} sea. hombre y fume? d) sea hombre o fUme? 79. Con cada compra de·uná pizZ:a_grande en Tony's· Pizza, el cliente recibe un cupón para rasparlo y ver. si está premiado. La probabilidad de ganar un• refresco gratis es 1 en 1O, y la de obtener gratis una·pízzagrande es i en 50-..El rector planea. almorzar en Tony's el día ele mañana. ¿Cuál es la probabilidad.de que: a} gane una Pizza grande o un refresco? b) no obtenga un premio? e) no·.gane un premio en tres-visitas consecutivas a Tony 1s? d} reC:iba por lo menos un prémio en una de- sus· tres visitas próximas a! estabfeclmiento? 80; En el juego. de la.lotería diaria m 111.inois, los participantes seleccionan tres dígitos entre Oy 9. · · ···· • ··• •·· ·. No se. puede elegir un nCimero más.de unavez,•de modcrque un billete (o boleto)ganadorpod.ría ser, por ejemplo,;307. La compra de un boleto. da la oportunidad de seleccionar un conjlihto de núíneros~:las clfraáganadoras se:ariuncian en· un programa nocturno de televisión. a) ¿Cuántos•resultados diferentes (de tres dígitos) son posibles? · b) Si comprara un boleto para el juego de esta noche, ¿cuál seria la probabilidad ele que ganará? c) Supong~ que adquiere tres boletos para el juego de esta noche y selecciona un número diferente- para. cada uno. ¿Cuál·-es la probabilidad de -que no gane con ninguno de los boletos? 81. Un -nuevo trabajo C6nsiste en ensamblar cuatro partes diferentes. Las cuatro tienen distintos c6digos de color"y pueden unirse en cualquier orden;-Etdepartamento'de producción desea determin.ar la. 'fonna íliás. eficiente de ensaniblar' los cuatro· elerilentos. Los sup8niiso'res realizarán·-a1gunos experimenios para resütver el problema.~Primero, plánean ünir las partes en este··orderi:' verd~; negro, amarí!to y.- azul,. y regístrar ef tieinpo. Después se realizará el ensamble en un:orden_·c11t9íente •. ¿De cuántos modos dístintos se puede1i ensainb!ar !as cuatro piezas? 82, Se halló que 60% de los turislas que van a China visitan la Ciudad Prohibida, el Templo clel Cielo, la Gran Muraila y otros sitios históricos en Beijing (Pekín) o c;erca de allí. Un 40% visita Xi'an; con-sus-rnagníficas esc.u!turas de sofdados, caballOs y· carruajes, hechos en terracota,
y
186 que habían estado sepultados por más de 2 000 años, Un 30% de los turistas van a Beijing y a Xi'an. ¿Cuál es !a probabilidad ele que un turista vísite por lo menos uno de esos lugares?
83. Se recibiéron dos cajas de camisas Ole! Navy para hombre,' provenientes ele !a fábrica. La caja 1 contenía 25 carnísas deportivas y i 5 de vestir. En !a. caja 2 había 30 deportivas y i O de vestil'. Se seleccionó: al azar una de !as caías y de ésa se eligió, también aleatoriamente, una camisa para inspeccionarla. La prenda era deportiva., Dada esta información, ¿cuál es !a pro-
58bHICiaCCCfoi--que--'djChá-C8ITi'!Sfi--p-rO"VB"íl9-ii"d8-]á:·cara·-:¡-7·--
84., Los- encargados del restaurante Riccarcló's anunciaff que· _tienen un gran nl1mero de selecciones de comida. Ofrecen 4 sopas, 3 ensaladas, 12 platillos principales, 6 de legumbres y 5 postres. ¿Cuántos n1enüs diferentes· ofrecen? Tal establecimiento tiene, adem.ás, una promoción especial, el "pájaro madrugador". Se puede omitir cualquier Platillo ele una comida, excepto de los principales, Ypagar: un precio reducido. ¿Cuántos menl1s distintos tienen para los clientes de la promoción '~pájaro madrugador'.'? 85. Hace algunos años, la empresa,Wendy's-Hamburgers-anunció que tenía 256 formas de preparar una hamburguesa. Usted puede elegir, u omitir,- cualquier combinación de to siguiente para su hamburguesa: 1nostaza, salsa de tomate, cebolla, pepinillos, tomate en rebanadas, aderezo, mayonesa y lechuga. ¿Es cierto !o que dice el anuncto? Indique cómo obtuvo su respuesta. 86. La compañía constructora- Reyno!ds ha acordado que todas las casas que se van a edificar en un fraccionamiento te·ndrán una apariencia diferente,- A !os potenciales com-pradores de casa se !es· ofrecen cinco diseños cle-extertor.. La constructora ha estandarizado tres planes para interiores que pueden incorporárse· en cualquiera de !os cinco diseños exteriores. ¿De cuántas fonnas distintas pueden ofrecerse a !os posibles compracloreS"de casa,.!as co.mbínaciones de exteriores e ihteriores? 87. Una empresa pequeña qUe fabrica a!fombras ha decídido·us·ar siete colores compatibles en su nueva línea de productos. Sin embargo, a! tejer una· alfombra sólo se pueden utilizar cinco husos. En su publicidad desea indicar el nl1mero de diferentes gru'pos de colores disponibles para !a venta. ¿Cuántos grupos cro111áticos hay disponibles e·n_!os que se pueden utilizar los siete colores agrupando de cinco en cinco? (Esto supone que cinc9· colores distintos entran en cada alfon1bra; es. decir, no hay repeticiones de color.) 88. Se considera organizar un torneo cle-futbol americcino "Súper Diez", Los 10 equipos más importantes de! país,. de acuerdo· con sus puntuaciones, serían los participan.tes en e! torneo. Cada equipo jugaría con cada uno de los. demás en esa-justa deportiva, durante la temporada. E! equipo ganador ele más juegos sería. declarado Campeón Nacional. ¿Cuántos juegos tendría que programa: el con1isionado ele!:. torneo cada año? (Recuerde que, por ejemplo, el equipo de Oklahoma cóntra.el de Michigan es lo. mismo que el equipo de Michigan contra el de Oklahoma.) 39. se·ha elaborado una nueva-goma de mascar que ·ayuda a quiénes desean dejar. de fumar. Si 60%-de !as personas que usan fa goma tienen:éX!to,·¿cuá_I es la-probabilidad de·que·en un grupo d_e cuatro fumadores, por_ lo menos Uno.deje defumar? 90. En el estado de Marylancl, en Estados Unidos, las placas de licencia para automóviles tienen tres·nlln1eros¡ seguidos·por:tres- letraS;-·¿Guántos- nümeroS· de placa dfferenteS son poSib!es? 91. Un nuevo modelo de. auto deportivo presenta fallas· en su sistema de frenado 15% de las Veces, y defectos en el mecanismo de dirección 5% ele las veces_. Supóngase (y es de esperar) que estos probtemas.se presentan en-forma lndependiente_: _Si ocurren uno u otro .ele tales prdblerhas, al auto se le.denomina üna "Sst8f3."; Sl se.tíenen·ari'íbos prob!_ema·s, el Vehícu_f'o es· una "amenaza". Un profesor compró uno de esos autün1óvi!es·.e! día- de ayer. ¿Cuál es· !a probabi.:.. liclacl de que le resulte: a} unéi..'.'estáfa"? b} una '-'amenaza"_? 92. Tlm B!eckie. e_s ·el propietario ele- una compañía de- inversiones.y bienes raíces. La compañía compró.recienteme11te cuatro terrenos en Hol!y Farms Estates,.y·seis en Newburg Woods. Los terrenos tienen e!·mismo atrEtctivo y se vendeil.aproxililadamente at mismo precio. a) ¿Cuál es la probabilidad de que los próximos dos terrenos que venda sean de Newburg Woods? b) ¿Cuá!·es la.probabllidad de que en !os cuatro predios sigu_tentes que venda, por lo menos uno sea de Hol!y Farms? e) ¿Estos eventos son ínclependientes o dependientes?
ílevisióíl de algunos conce¡itos de pmbabi!irlad
187
93. Hay.cuatro personas que se consideran para el puesto de presidente y ejecutivo en jefe (CEO, de Chief Executíve Officer), en la ernp!"e_sa-Dalton Enterprises. Tres de !os aspírantes tienen n1ás de 60 años. Dos son mu_ieres, de las cua!eS sólo una es mayor de 60. a) ¿Cuál es la probabilidad de que un candidato sea metyor de 60 y mujer? b} Dado que el candidato es hombre, ¿cuál es la probabilidad de que tenga menos de 60 años? e) Dado.c1ue la personaesmayord.e 60.,• ¿cuálesJaprobabfüdad de que sea mujer? 94. cajá con 24- fataS "cantiene una qué está contaminada. Se van a elegir a! azar tres latas para su prueba. a) ¿Cuántas combinaciones diferentes de 3 latas se- podrían- sefeccionar? b} ¿Cuál es la probabilidad de que la lata contan1inada sea seleccionada para la prueba? 95. Una ctave de acceso (password) está integrada por cuatro caracteres. Éstos pueden ser cualquiera ·de tas 26 letras del alfabeto. Cada c.arácter se. puede usar varias veces. ¿Cuántas claves deaéceso diferentes es posible obtener? 96. La _ ~mpresa ·Horwege _E!ecti'onlC_s, lnc. adquiere -citíeScopios para: televisores coti cuatro.. proveedores. Tyson W.holesale proporciona 20% de los tubos de imagen; Fuji lmporters, 30%; Kirkpatricks, 25%; y Parts, lnc., 25%. El proveedor Tyson Wholesale tiende a dm la mejor ca1.i?ad~. ya que. sóto 3% dff.sus productoS son defectuosos. Los de Fuji !mporters tíenen 4% de ílo·acepta,bíes; los de Klrkpatrlcks 1 7%, y r.os ele .Parts, !ne., 6.5% de defectuosos. a} ¿Cuál es e! porce,ntaje.totar (promedio) ele cinesc_opi.os defectuosos? b) E_n la .L1ltima r~mesa ..se descubrió u,n cinescopto·con defectos. ¿Cuál es !a probabi!ídad de que lo haya enviado Tyson Wholesale? e) ¿Cuál es la probabilidad ele que el equipo defectuoso provenga de Fuji lmporters? ¿O de Kirkpatdcks? ¿O bien, de.Parts, !ne.? 97. En el. siguiente diagrama se repres.enta un sisteín_a de dos componentes, A y B, que están "en serie". (Estar en serie significa qüe, ¡Jara que e1 sistema opere, deben trabajar tanto el componente A como el B.) Suponga que la probabilidad ele que A funcione es 0.90, y la de que B también lo haga es 0.90. Considere que ambos componentes son independientes. ¿Cuál es la probabilidad de que opere el sistema?
una
98. Consi.dere el diagrar:na del sistema ant.erior, pero s~ponga que funciona sólo si A o B operan (uno s_o!.amente). ¿Cuál es la probabilidad de que el slstema . trabaje según estas condiciones? 99. Un acértijo en-un_.di'ar[o presenta: un_ problema de arreglo por pares. Los no1nbres de 10 presidente~..de Esta.dos Unid.os se preSentan 8n uñ_a columna, .Y sus vicepresidentes se enuncian al 8:Z-~r. _e.n . _la se.g_L1nd.a. c;9!_L1rnqa.:. E:I p.Qer_tíj_o. pide.. al .tec.tor. unir cada-presidente .con su v1cepresidénte_. respes;tivo. Sis.e _realizan las as.ociaciones af azar, ¿cuántos pares son posibles? ¿Cuál es la probabilidad ele que los ·fo pares sean correctos.? 100. Para .re.cj.uc.ir:-los rq.bo$, .la co111pañía_ Merec;Ie.th hace pasar.. a todos sus e111pleados por una prueba co.n .d$tector d.e· mentiras,. el que se sabe funciona correctan1ente 90% de fas· veces (tanto para sujetos culpables como inocentes). G¡>JOrge M.eredeth, decide despedir a todos los trabajadores que fallen .e~. la prueba.. Supong~ qu~5.% de. los empleados son culpables de robo. a) ¿Qué_ proporció_n. de. lo_::; t1~(;1_bajadores será despe.dida? b} De .los_despe.di.dos,_. ¿qué.piop.o'rción _es realment.e cu.lpab!8? e) De los. no despedidos, ¿qué proporción es culpable? d) ¿Qué opina el lectorde ia política de George? .iOi~ Peter8'Ü.n's;_Vit8.rnir:is 1 urtanuncí_ante eri. laxevista H,eafthy_.Living_, .estima que í o/o de !os suscríptor~s. c.oinprará sus vita111ina~. Así_mlsmo:, considera qu_e .0:5% de los no suscriptores adquirirán ,el propucto,.._.Y .que .exi.ste. 1 posib.i!idéld en_ . .20 .de que_ L!0a. persona sea un suscriptor. #) EncLientre,I~ probabi!ida.d.de_que u.na_persona.selecci()nada al azar con1prará !as vitaminas. b) Si. unEt p.ersona.adquiere_ !as vitaminas, ¿.cuál .. es .la probf:tbilidad de que esté suscrito a la revista Healthy Living? e} Si .una perSóiia no c6111pra el producto, ¿c'uáf.es !a probabl!idad de que esté suscrita a esa publicación?
188 102. La Aseguradora de Autos·ABC clasifica a los conductores como "buenos", "regulares", o "matos". Los automovilistas.que solicitan L1n .seguro entran· en-éstos tres grupos eri las proporciones: 30%, 50%; y 20%, respectivamente. La probabilidad de que un conductor "bueno" tendrá un accidente( es o~o-r ;- !a dé que un conductor. "·mediano" te.ndrá un accidente es 0.03; y.la de que uno "malo" te_nga.Jin accidente-es 0.10. -La compañía !e vende al señor Bares una póliza de séguroy ést.etuvounaccidente.:..?Cuálesla probabilidad de que el señor Sores sea: a) uh c~r1ctuCtor ,;bLÍBnó"? - -- - · b} un conductor "mediano"? e) un conductor "ma!o"?
filere! ci Ol2:-com__._·-~----" i03. En el decenio de 1970 el progr~ma de concurso Lets .Make a úealtuvo un gran éxito en la te!eVisión. Los__ concurs~ntes terían_que efegir una d_e_.tre_s pu_e_rt_élS, detrás de una de_!as cuafes se en_contraba _u,n premio'._ Las o_traS_.dos puertas.c?nt<;!níap algúrt regalo de broma. Después de que el conc.ursante elegía una de las puertas, el c~ndu9tor qet. programa le revelaba lo que habíá detrás de una de las_püertas_qllf:;! no-.eligió,_y le. pr_e,QpntabEt.al.Concursante si deseaba-camw bi_ar_fa .Puerta e!e_gida. po~ .una_ de·la$cJtras-_dos. ¿013bería el .coricursante cambiar la puerta elegida? ¿Aumentan l~s posibilidades de ganar al cambiarde puerta? Vaya al siguiente sitio de la .Red (We.bsite), que es.administrado por el Departamento de Estadística de la .Universidad de Carolina. del Sur (en EUA), y pruebe su propia estrategia: hitp//www.stat.sc.edu/~west/applets/LetsMakeaDeaLhtmL Vaya a la siguiente página de la Red y lea acerca de las posibilidades del.juego:.· ·• .· http://VV'N_IN._stat.sc.ecl~_1/;:-west/iavahtn1!_1LetsMakeaD.eal.htrf1L ¿Fue correcta su estrategia?
~jercicios
con datos para computadora
"!04. Considere el conjunto de datos. ele bienes raíces (Real State) incluido en el apéndica, que da información acerca de !aS casas vendidas en ef área de Venice, Florida, durante e! año pasado. a) Organice los datoS- ·en Una tabfa que muestre e! nl1mero de casas que tienen piscina,· en comparación con !a _t:ahtld8.d de casas que no !a tienen, en cada uno de los cíiico municipios (townships.) Si se selecciona al azar un inmueble, calcule la siguiente probabilidad: 1) O_ue !a casa esté' én e_:.· municipio i, o teng:a p_i;;cln_a; 2) Dado que está en e.1 muni.cipi? 3, que tenga piscina. 3) Que tenga piscina y esté en el municipio 3: b) Organice los datos en ura. tabla que muestre la cantidad "de casas que tienen cochera .• compa.r~das .con· las· que n_o-la-tiene_n-,- en cada:.u_n~--?e !os_ cinco municipíos._Sí se se!eccio"' ría una_ casa al ·?zar; ?ªl~u.!_e ,f~s si·guientes probabilidades: · i} Ou8' la caSa tenga cochera. - · 2) Dado que esté en el municipio 5, no tenga cochera. 3) Que la c~sa tenga cochera y esté en el municipio 3. 4) Que.noteng~ cochera o esté en e.1municipio2. i05, Considere '31 conjunto d~ elatos ~ebéisbol (Basebal~,.que .da información acerca de los :Jo equi, pos de béisbol d? la UgaMayor en la temporada2900 (en ~staclos Unidos.) Establezca una variable que d.ivida los equipos en dos grup9s, .los que tuvieron una temporada exitosa y los que no la tuví.eron. E_s decir'. esta_bl~zca una. varí~bt~ para co_ntar l?s .e.quipos que ganaron 81_ juegos o m_ás~_-Y_I~~, qÜ_?_t~_iq.nfaron_.e_~·-~q:o n,ien_os_._ LL1€~o_establ~zc_a_,ot_ra.ya_ríab!e nueva para !a asistencia del público, utiliia~clo" 1\~S catego1·ías: asistencia menp;a .1 500 000 (que se indica en los datos como 1.5),. asist:ncia de 1.5 ·~. 2;5 millones, Y.asistencia d(3 2.5 millones o más. a) :§1(3:bore ,un~ t:a?I-~ que,·nlü13stre e_l _!l_úmertJ_ de_ ~quipos _cqn-J~i.na tem_porada exitosa_ comparado con· _ lo$_ que tu_vi~ron una__ t~mporada cob _f~_~c-8;30, ·~eQ_9.n las tres .categoría_s-de_ asístetlcia: Si se-selecciona un equipo a! azar, c8.lcule las,sigufentes pr_o_babilidades: 1) Qu.e h~yatenido una temporada ganadora .. · 2) Que haya logrado una temporada exitosa o una asisteni:ía de más de 2.5 millones de espectadores.
Revisión de algunos conceptos de probabilidad
189
3) QuS haya tenido una asistencia superior a 2.5 millones, y una ternporada exitosa. 4) .Que haya tenido una temporada con fracaso y una.asistencia inferiqr ;;t 1 ..5 m.illon.es. b) Elabore una .tabla que muestre el nümero de equipos que juegan en campos con césped artificial, .y .en campos. con césped natural, indicando el. nl1mero de juegos ganádos y per-
dido.s. Si. se· selecciona un equipo al azar, calcule las siQüíentes probabilidades:_ 1) S.ele~ci9nar.un equ.ipoconcampo l?cal dotado decéspedartificiaL
-- 2} -- lES--18.: pOSi_bifklad d8_-88fes·cíó63r ·UQ-·eq,u_íp_á -_coil _ -réCoFd ~d-é-tríLr'ntüs/-iíliijóí---pa-ra-·eqúr pos con campos de césped natura.loe!.~ césped artificial? 3) Tener un récord ganador'. o jugar en uwc.anipo de cé9ped artificial. 106. Considere el conjurto de datos de ~scuel~s (Sc(lpo/s) que se tienen ene! apéndice, el cual se refiere.a los 94 distritos escolares situados en el noroeste de Ohio.
a) 'AQrUpe _ los di_s_tdtOs basándose _en el_ porC"éntaje_ de estudiarités que reciben ayuda social: "baja" (rnen.os?e.5%).: ''moderada" (entre 5 y 10%, inclu.sive),y "elta" (r(lá~ de 10%.) 1) S~ selecciona un dis,trito escolar al.azar. Después se elige un alumno que se halle en, esedistrito. ¿Cuál es laprob~bilidad de que el estudiante pa~e el exam~n de conocimi.entos? Sugerencia: Encuentre el porcent* m~dio .que aprueba el examen y use es• te valor como la pro!Jabilidad aprobar el examen. 2) Si es un distrito con ayuda social "baja", ¿cuál es la probabilidad ele' que el alumno pa~
s·e· e!· e:Xamen? 3} ¿quál es la probabilidad de que el alumno provenga de un distrito con.ayuda social"al-. ta" y apruebe el .examen? 4)• Obtengala probabilidad de que un estudiante sea de un distrito con ayuda social "mo.-
derada", o- nb pase el exam·en. b) Ahora clasifique los distritos por tamaño: ''.pequeño" (con rnenqs de 1000 estudiantes), "mediano'.' (entre 1 óOO y 3 000 alumnos), o "grande" (con.rriás.d.e 3 000 escolares). 1) ¿Qué porcentaje de los distritos es "peque11o"? 2) Si. un distrito es ''pequeño", calcule la probabilidad de que Sea uno con ayuda social '?baja"; 3} ¿Qué porcentaje de los distritos es tanto "pequeño", como de "baja" ayuda social? 4) ¿Qué porcentaje es "pequeño" o de "baja" ayuda social? 5) Si se eligen tres distritos al azar,. ¿cuál es la prot¡abilidad de que\odos sean de tamaño. _''.mediano''.?
Capítulo 5
190
a) Tabla de Cdfltíngencias. b) Conjúnta
Geren:c!a
~100 ',,,··..··.·.•. 80 100
U¿¿J(!al·" 21~~ - º·º5 3
~~(No retiro ( 1: ~ ~~~ :o:5 00 : ))((::)) :
.80.. ·.)~etito
~~
=0.20
80
:8·_000-
__O.
8
No retiro
( 1 0°0)(~~) = : ~~~
=
O 50
e) Si, se rncluy n todas las posibilidades.
b) Uriaposibilidacl es:
5.9
. __ ._ -.· . _ __ ___ __ :- .·.·-:_·_P(AjP(B2.[A~) 8 ) :. P(A ,_¡1B )-"" ~~·~··~··-·-·--~--::i_ :..~ F'{A 1 )~{B 2 [_A1) + P(A2)P(B2 [ A-2):+. P(A3}P(B; !A3} 0.50(0.96)' (l}.. 30J('ó~97)·~-(0:2éi){o.95T+ (o.ti0)_(0_~96).
~·-oAso
0.961
""' 0 .4.99_
qü~ resulta cié (5)(4). 2, HayT2,que se obtiene. de (3)(2)(4)(3), 1. a) 60, que seobtiene de (5)(4)(3). b) 60, resultante ele:
5;'10·1, fiª\'20, 55
1. ·'(0:80)(0.80)(0.80)(0,80)= Q.4096. 2. a) 0.0000156, _obtenido por: (0.025)(0.025)(0.025). b) La posibilidad de seleccionar tres bolsas y encontrar que a todas !es fa!ta peso; es, muy remota.
a) .o:pü2(qCíe se obtiene de:
.f4 ')( 3)·( 2)(1)·· . .24. .. .·. ~12 .H. 10 9 =f188o"'000 2 b)d.i;+,qliase obtiene d.e:
(1~)(1~)(160)(§).'" 1l~ªs~·fo1414 _e) -No,, porqu~ ,E;Jxi::t~n:_()~ras:_pó_si_b_m_ct,_ad~-~1-.óC!'rrió _ta cte·-:tres ·mujeres y,_un-_hombre .. -" 5.7 F'(Ay'B)°"P(A)P(tiiA)
~ ·~2ªdºaX~~r~ 0 1~2 · -5.8
o._
~
Producción
= o:oa +0.1 s "o.os
· iOO
i. _--~_a¡rr-:_?3L_tr:oh_có'.ct~-:_ árhol-P'?.f:Ja:?4T;a)-r_f9riqr, ·rn_°: 1
se queqaría",Laprobabilidadde ese evento es 8.ü/2.00 .. Siguiendq por ~I rr¡ismocarnino, se en" cuentra la rama con. el· rótulo:'"6"1 O años''.'. La probabilidad condiqi.onal BsJ0/80, Pa.ra obte' ner la probabilidad. conjunta; .
5! (5 - 3)!
5·4·3·2-c-+
=
2--1-
OSJIET~VO$
!11 terminar este capítulo podrá:
[JNO. Definir los.términos distribución de probabilidad y variable aleatoria. !iJOS Distinguir entre una distribución de probabilidad discreta y una distribución ele probabilidad continua. lí'RES Calcular la media, la varianza y la desviación estándar de una distribución de probabilidad dis·cretá.
CIJATI!© Des_críbfr las características de la distribución 'de probabilidad binomial y calcular !as probabíliclades utilizando esa distribución. Cíl¡\j{.;Q
una cncucs!·a
por
An1cricm1a
In\;'ersioíliStús se en-
S~J_\:tlr_(}._. cp_1: 3_0% .de :los_ )?_vpr~io1~.i_,s_tas_ _ il1diyid_;~a1S::_ h~1:[~-~a :G_l'.fPleadr¿ _u1\c_~1:rc~
?:_or: =dG:·.: d_,Gscl;=c~:_tc.L:: [!~_r_1_;'_,u}'Ía :_~_up_~sl:ra. _a[~~_1._~_(1ri~t._ :_de_,, J:L,:1cv:: :}~;;'~r~_}_~ni_s:las ._ individt121lcs, ¿cu{!l es la probnbilicbc[ de q_u_c._e:,~ay.~anv::i.lts.,d.()s.l_1ax~11~ Cf11pJ_ca-_. do un corredor de descuento? (\/er obíetivl14 y_ ~jc'rcíciÓ l 3.)
Definir lás características de íá distribución'hipergeométrica y'éalclliar probabilidades con aplicación de tal distribución.
Describir las características de la distribución de Poisson y calcular las probabilidades empleando esta distribución.
192
Capítulo 6
Introducción Los capítulos 2 a 4 se dedicaron a la estadística descriptiva. Se describieron datos originales (o datos sin agrupar) organizándolos en una distribución de frecuencias, y representando gráficamente la distribución. También se calcularon medidas de tendencia central, como la media aritmética, la mediana o la moda, para encontrar un valor representativo cerca del centro de la distribución. Se emplearon la amplitud de variación y la desviación estándar para describir la dispersión de los datos. Por tanto, estos capítulos se centraron en la descripción de algo que ya hab(a sucedido. A partir del capítulo 5, el punto de interés cambió: se empezó a examinar algo que probablemente sucedería. Como ya se indicó antes, a esta faceta de la estadística se le denomina inferencia estad(stica. El objetivo es hacer inferencias (enunciados) respecto a una población basándose en algunas observaciones, que forman una muestra, que se tomaron de la población. En el capítulo 5 se estableció que una probabilidad es un valor que va desde O hasta 1 inclusive, y se examinó cómo se pueden combinar las probabilidades utilizando las reglas de adición y de multiplicación. En este capítulo se iniciará el estudio de las dístríbuciones de probabilidad. Una distribución de probabilidad índica toda la gama de valores que pueden presentarse como resultado de un experimento. Una distribución de probabilidad es similar a una distribución de frecuencias relativas. Sin embargo, en vez de describir el pasado, describe qué tan probable es un evento futuro. Por ejemplo, un fabricante de medicamentos afirma que un tratamiento causará la pérdida de peso en 80% de la población. Una agencia de protección al consumidor puede probar este medicamento en una muestra de seis personas. Si la declaración del fabricante es verdadera, es casi imposible tener un resultado en el que ninguna persona de la muestra pierda peso, y es mUy probable que 5 de las 6 pierdan peso. En este capítulo también se estudiarán la media, la varianza y la desviación estándar de una distribución de probabilidad, así como tres familias de distribuciones probabilísticas que se presentan frecuentemente (binomial, hipergeométrica y de Poisson).
¿qué es ~na distribución de pro~abilidad? Una distribución de probabilidad muestra todos los resultados posibles de un experimento, y la probabilidad de cada resultado.
Dis~ibucióu.•de .Pi()~~hiiiª~tÍ\fú.9i9~ ~tiµ/1a1i~t~t&~6~i&i 1§~úi1.id~s.posiblesde· ·• .
·•·•·· •.·• un experimento ju(\tp cOF lap\i)babíl\gád. correspgndi""nt¡¡ a cad~ uno 9~ ellos. '
-.-_-.,_,.:_">'- .,.,-
._ ..
;·,-_,"',.,--.-_·_-,:_'·_. ___ ·,;:'.·':-_::"--------~=:,:·:.:<>_ ..._.-_ --·-
-,----"-.:
._---_.__
:-_- ---- ---·-_-:_-_:__ ¡·_-,._:-·,-e-:-."--._-·
"
¿Cómo se puede generar una distribución de probabilidad?
EJEMPLO
Supóngase que se quiere saber el número de caras (heads, H) que se obtienen al lanzar tres veces una moneda al aire. Este es el experimento. Los posibles resultados son: cero, uno, dos y tres caras. ¿Cuál es la distribución de probabilidad del número de caras?
SOLUCIÓN
Hay ocho posibles resultados. En el primer lanzamiento puede caer cruz (tai/, T), otra cruz en el segundo, y otra en el tercero. O puede caer cruz, cruz y cara, en ese orden. A continuación se indican todos los resultados posibles.
Uislribuciones de probabilidad discreta
Resultado posible
193
Lanzamientos de moneda Primero
Segundo
Tercero
Número de caras
T
T T H H T T
-r-
o
H T H T
1
T
2 3
T
4
T H H H H
5 6 7
8
2.
H
H
2 2 3
T H·
H
"T significa cruz y H significa cara.
Observe que el resultado "cero caras " se obtuvo sólo una vez, "una cara" apareció tres veces; "dos caras", tres veces, y el resultado "tres caras", sólo una vez. Es decir, "cero caras" ocurrió en una de ocho veces. De modo que la probabilidad de cero caras es un octavo (1/8); la de una cara es tres octavos (3/8), y asi sucesivamente. La distribución de probabilidad se muestra en la tabla 6. 1. Cabe indicar que como se debe obtener uno de estos resultados, el total de las probabilidades de todos los eventos posibles es 1.000. Esto es cierto siempre. Esta información se muestra en el diagrama 6. 1. lABlA 6.i
Distribución de probabilidad para Jos eventos cero, una, dos y tres caras en tres lanzan1ientos de una inoncda. Número de caras,
Probabilidad del resultado,
P(x)
X
1 8
o
3
8
3
2
8 1 8 8 8
3
Total
o
o
0.125 0.375 0.375 0.125 1.000
2
3
Núrnero de caras
íl!AGRAMA 6. i
Representación gráfica del nún1ero de caras que se obtiene en b·es lanza1nicntos al aire de una inoncda, con sus probabilidades correspondientes.
194
Capítulo 6
Características de una distribución de probabilidad.
Antes de continuar, conviene observar dos características importantes de una distribución de probabilidad.
1. La probabilidad de un resultado específico va desde O hasta 1, inclusive. (Las probabilidades de x, representadas por P(x), en el ejemplo del lanzamiento de una moneda, fueron: 0.125, 0.375, etcétera). 2. La suma de las probabilidades de todos los valores mutuamente excluyentes es 1.000. (Con relación a la tabla 6.1 se tiene: 0.125 + 0.375 + 0.375 + 0.125 = 1.000).
r~·-~---~-~~-
A[J]i:!J!SXé!Bl!iGíl
. . . .. 6,i
..
~-~-~--.--~-~...
--~----~---·--~~~¡
Los resultados poslbles del expe1·imento de tirar un ciado, son: "uno", "dos", "tres", "cuatro", "cinco" y "seis" puntos. a) Elabore una distribución de probabilidad para esos resultados. b) Represente en forma gráfica la distribución ele probabilidad. c) ¿Cuál es la suma de las probabilidades?
¡ 1 1
~
Variables aleatorias En cualquier experimento aleatorio, los resultados se presentan al azar, y en consecuencia se habla de una variable aleatoria. Por ejemplo, tirar un dado es un experimento: se puede presentar cualquiera de los seis resultados posibles. Algunos experimentos dan resultados que son cuantitativos (como dólares, peso corporal o número de hijos), y otros dan resultados que son cualitativos (color o preferencia religiosa). Unos cuantos ejemplos ilustrarán mejor el significado de variable aleatoria. 0
o
0
0
Si se cuenta el número de empleados ausentes de su turno de trabajo del lunes, el n(imero puede ser O, 1, 2, 3, ... El n(1mero de inasistencias es la variable aleatoria. Si se pesa un lingote cie acero, el resultado (en libras) puede ser 2 500, 2 500.1, 2 500.13, y así sucesivamente, dependiendo de la precisión de la báscula. El peso es la variable aleatoria. Si se tiran al aire dos monedas y se cuenta el número de caras, el 111ismo puede ser cero, uno o dos. Puesto que el número de caras se debe al azar, dicho nl1mero de caras es la variable aleatoria. Otras variables aleatorias podrían ser: e! número de lán1paras defectuosas producidas durante una semana, las estaturas de las integrantes de un equipo de basquetbol femenil, la cantidad de corredores en un maratón, y el número diario de automovilistas que cometieron infracción por manejar bajo la influencia del alcohol.
Vl!riabfoaleat0 ti¡¡ Cantidáct.que esel resultado de un e>
·
El siguiente diagrama muestra los siguientes conceptos relacionados: resultado, evento y variable aleatoria. Resultados posibles que se obtienen en tres
lanza111ientos de la 111onecla
Ocurre el evento (una cara, H) y la variable aleatoria x = 1 .
Una variable aleatoria puede ser discreta o continua.
Dis!ribucim1es de prnbabilidad discreta
195
'\f
Varfable aleatoria discreta Variablequ~ sólo puede tomar ci~rtos valores claramente separados. Debe observarse que una variable discreta puede, en algunos casos, tener valores fraccionarios o decirnales. Estos valores deben estar separados, es decir, debe existir cierta distancia entre ellos. Como ejemplo, las puntuaciones otorgadas por los jueces a aspectos técnicos y la forma artística en el patinaje sobre hielo, son cifras decimales, corno: 7.2, 8.9 y 9.7. Estos valores son discretos porque existe una distancia entre las calificaciones, por ejemplo, entre 8.3 y 8.4. Una puntuación no puede ser 8.34, o 8.347.
Variable aleatoria continua Por otro lado si la variable aleatoria es coíltinua, entonces la distribución es una distribución de probabilidad continua. Si se mide algo, como el ancho de una habitación, la altura de una persona o la presión de un neumático de automóvil, se dice que la variable es una variable aleatoria continua, la cual puede tomar un valor de una cantidad infinítan1ente grande de valores, dentro de ciertas limitaciones. Por ejemplo: La distancia (en millas) entre las ciudades de Atlanta y Los Ángeles podría ser 2 254, 2 254.1, 2 254.162, y así sucesivamente, dependiendo de la precisión del dispositivo de medición. La presión de un neumático (en libras por pulgada cuadrada, o psi) podría ser 28, 28.6, 28.62, 28.624, etc., dependiendo de la precisión del medidor. Si se organiza un conjunto de valores posibles de una variable aleatoria discreta, en una distribución de probabilidades, por lógica la distribución se denomina distribución de probabilidad discreta. Las herramientas empleadas, así como las interpretaciones de la probabiliclad, son diferentes segC1n se trate de variables aleatorias discretas ó de variables aleatorias continuas. Este capítulo se limita a las distribuciones de probabilidad discreta. En el siguiente capítulo se estudiará un ejemplo importante de distribuciones de probabilidad continua.
M,edia, varianza y desviación estándar de una disl:rib1.u::ió~1- de probabilidad En los capítulos 3 y 4 se analizaron medidas de posición y de variación para una distribución de frecuencias. La media indica la ubicación central de los datos, y la varianza describe su dispersión. De manera semejante, una distribución de.probabilidad se resume indicando su media y su varianza. La media de una distribución de probabilidad se denota con la letra griega mu minúscula (1~). y la desviación estándar con ele la letra griega sigma minúscula (cr).
Iviedia La media es un valor típico que sirve para representar una distribución de probabilidad. También es el valor promedio, a largo plazo, de la variable aleatoria. A la media de una distribución de probabilidad se le conoce también como su "valor esperado". Esta media es un promedio ponderado en el que los valores posibles se ponderan mediante sus probabilidades correspondientes de ocurrencia.
196
Capítulo 6 La media de una distribución de probabilidad discreta se calcula con la fórmula:
[E1:Ú:l1A
9~ IJl•tl% Dl!jTRIBUCl~N DE PR\jBABIÜDAD
fL. = Z[x P(x)]
[6.1]
1
donde P(x) es la probabilidad ele cada valor que puede tomar la variable aleatoria x. En otras palabras, se multiplica cada valor ele x por su respectiva probabilidad de ocurrencia, y luego se suman estos productos.
Varianza y desviac.ión estándar Como se observó, la media es un valor característico que se utiliza para representar una distribución de probabilidad discreta. Sin embargo, no describe el grado de dispersión (o variación) en una distribución. La varianza sí lo hace. La fórmula para la varianza de una distribución de probabilidad es:
VARIANZA DE UNA DISTRIBUCIÓN DE PROBABILIDAD
[6.2]
Los pasos para calcular la varianza son:
1. Restar la media a cada valor y elevar la diferencia al cuadrado. 2. Multiplicar el cuadrado de cada diferencia, por su probabilidad. 3. Sumar los productos resultantes para obtener finalmente la varianza. La desviación estándar, cr, se determina tomando la raíz cuadrada de
2
ff ,
es decir, u ::::
W.
John Ragsdale vende automóviles nuevos de la agencia Pelican Ford. Generalmente, los sábados vende el mayor número de vehículos. El señor Ragsdale tiene la siguiente distribución de probabilidad del n(1mero de vehículos que espera vender en un día sábado en particular. Número de automóviles vendidos,
Probabilidad,
X
P(x)
o
0.10 0.20 0.30 0.30 0.10
2 3 4 Total
1.00
1. ¿Qué tipo de distribución es ésta? 2:
En un sábado común, ¿cuántos vehículos espera vender? 3. ¿Cuál es la varianza de la distribución?
SOLUCIÓN
1. Este es un ejemplo de una distribución ele probabilidad discreta. Observe que el señor Ragsdale sólo espera vender una cantidad determinada de vehículos; no espera vender 5 o 50. Además, no puede vender la mitad de un vehículo. Sólo puede lograr la venta de O, 1, 2, 3 o 4 automóviles. Asimismo, los resultados son mutuamente excluyentes; no puede vender en total 3 y 4 vehículos en el mismo día sábado. 2. El n(1mero medio de automóviles vendidos se calcula ponderando la cantidad de ve-
mstribuciones de probabilidad discreta
197
hículos vendidos, con la probabilidad de vender ese número, y luego se suman todos los productos aplicando la fórmula (6.1): µ = I~YP(x)] = 0(0.1 O)
+ 1 (0.20) +
2(0.30)
+ 3(0.30) + 4(0.1 O)
= 2.1
Estos cálculos se resumen en la tabla siguiente.
íl1merode
tomóviles ndidos, x
Probabilidad,
o 2 3 4 Total
P(x)
x· P(x)
0.10 0.20 0.30 0.30 0.10
0.20. 0.60 0.90 0.40
1.00
o.oo·
µ
= 2.10 ·-
¿Cómo se interpreta una media de 2.1? Este valor indica que, en un gran número de sábados, el señor Ragsdale espera vender en promedio 2.1 vehículos por día. (Des· de luego, no es posible vender exactamente 2.1 autos en un sábado en particular.) Por tanto, a la media a veces se le denomina valor esperado. 3. De nuevo se observa que una tabla es útil para sistematizar los cálculos para la va· ríanza, cuyo valor es 1.290. · Número de automóviles vendidos, x
o 2 3 4
Probabilidad,
P(x)
(x- µ)
0.10 0.20 0.30 0.30 0.10
o1234-
(x - µ)'
(X- µ)'P(x)
4.41 1.21 0.01 0.81 3.61
0.441 0.242 0.003 0.243 0.361
2.1 2.1 2.1 2.1 2.1
cr 2
= i .290
Recuerde que la desviación estándar, cr, es la raíz cuadrada de la varianza. En este pro· blema, = \i1:290 = 1.136 automóviles ¿Cómo interpretar una desviación están· dar de 1.136 automóviles? Si la vendedora Rita Kirsch también vendió una cantidad media de 2.1 autos los sábados, y la desviación estándar en sus ventas fue 1.91 vehículos, se concluiría que existe más variabilidad en las ventas sabatinas de la señorita Kirsch que en las del señor Ragsdale (debido a que 1.91 > 1.136).
W
A continuación se presenta una fórmula alternativa para la varianza de una distribución de probabilidad discreta. Esta fórmula tiene la ventaja de evitar la mayor parte de las restas.
2
=
2:x2 P(X) -
µ2
Para el ejemplo de los datos del sef'ior Ragsdale se tiene:
198
,-X
x'
P(x)
x 2 P(x)
io
o
0.1 0.2 0.3 0.3 0:1
O.DO 0.20 1.20 2.70 1.60
1
1 1 1
1
1
2
4 9
3 4
'16
5.70
Utilizando la fórmula anterior, la varianza:
0'
2
= L x 2 P(x) -
,LL
2
= 5. 70 -
(2.1) 2 = 1.29, que es
el mismo ve.lar que se calculó antes.
El establecimiento l!amaclo Paiacic de la Plzza ofrece tres tamaños de refresco ele cola (pequeño, 111ediano y grande), con10 conplernento de sus pizzas. Los precios de los refrescos son $0.80 {dólares), $0.90 y $1.20 respectivamente. De los pedidos, 30% son para el tamaño pequeilo, 50% para el mediano, y 20% para el grande. Organice los tamaños de los refrescos y sus correspondientes probabilidac!es de venta en una distribución de probabiiidaci. a) ¿Es ésta una distribución de probabilidad discreta? Indique poi· qué sí o por qué no. b) Calcule el precio rnedio de un refresco cie cola. e) ¿Cuál es la varianza en los precios ele ios refrescos? ¿Cuál es la desviación estándar?
i. Calcule la media y la varianza de la siguiente distribución de probabilidad discreta.
x
P(x)
o 2
0.20 0.40 0.30
3
0.10
2. Determine la media y la varianza de la siguiente distribución de probabilidad discreta. X
P(x)
2 8 10
0.50 0.30 0.20
3. Las tres tablas presentadas a continuación 111uestran "variables aleatorias" y sus "probabilidades". Sin embargo, sólo una de las tres es realmente una distribución de probabilidad.
a) ¿Cué.I es? X
P(x}
X
P{x)
5 10
0.1 0.3 0.2
·15 20
0.4
P(x) 5 10
i5 20
0.5
1
0.3
1
-0.2J
~--
0.4
b} Utilizando ia distribución de p1-obabilidad correcta, encuentre la probabilidad de que x sea:
(1) Exactamente 15. (2) No má.s de rn: (3) Más de 5. cj Calcule la media, la va1·ianza y la desviación estándar de esta distribución.
199 4. ¿Cuáles de las siguientes variables son aleatorias discretas, y cuáles son aleatorias continuas? a) El número de cuentas nuevas establecidas por un vendedor en un afio. b} El tiempo entre !legadas de clientes a un cajero automático de un banco. e) El nt'.1mero de c!íentes de una peluquería. d) La cantidad de combustible en el tanque de su automóvil. e) El número de m'1norías en un jurado. f) La ten1peratura ext8rfor el día d8 hoy. 5. Dan Woodward es e! propietario y gerente de Dan's Truck Stop, y ofrece el llenado gratuito en todas las órdenes de café. Dan reunió !a siguiente información acerca del número de repeticiones. Calcule la media, la varianza y la desviación estándar de la distribución del nt'.1mero de reposiciones de café.
Reposiciones
Porcentaje
o
30 40 20 10
2 3
"Bo»
6.
7.
El director de admisiones en la Universidad Kinzua, en Nueva Escocia, estimó !a distrubuclón de las admisiones de estudiantes para el semestre de otoño con base en la experiencia prevía. ¿Cuál es el número esperado de alumnos admitidos para el semestre en cuestión? Evalúe la var"1anza y la desviación estándar.
Admisiones
Probabilidad
1.000 1.200 1.500
0.60 0.30 0.10
La siguiente tabla muestra !a distribución de probabilidad para premios en efectivo de una rifa llevada a cabo en la tienda Lawson's Departn1ent Store.
Premio {dólares)
Probabilidad
o
0.45 0.30 0.20 0.05
10 100 500
Si usted comprara sólo un boleto, ¿cuál es la probabilidad de que gane: a) exactamente $100 (dólares)? b} por lo menos $1 O? e) no más de $100? d) Calcule la media, la varianza\y la desviación estándar para esta distribución. 8. Le piden que relacione tres canciones con los intérpretes que las hicieron famosas. Si adivina, la distribución de probabilidad para el número correcto de resultados es:
Probabilidad Número correcto
0.333 O
0.500
o 2
0.167 3
¿Cuál es la probabilidad de que obtenga: aj exactamente un resultado correcto? b) por lo 111enos uno correcto? e) exactamente dos resultados correctos? d) Calcule la media, la varianza y la desviación estándar de esta distribución.
probai.íi!id21cl !r.Jtnornis1J es un ejen1p!o ele una c!istribución ele 1xci!J1Ctí1l1ci2c\ clisc1-eta. Una ca1-2ctecfsticc:1. de ciiche. distdbución bino1T1iat es que sóio dos resu!t.s.clos posibles en cada ens2yo de un experirnento. Por enunciacio en una pi'egLir1ve!"dadero/i'also es. clescle luego, verc!ac!ero o fafso. Los resultados son rnutuarnente excluyentes, !o cual s\gnii'ica
que la respuesta a una
de vei'da-
dero/falso no puede ser ve:Tladera y falsa ai rnisn10 tien1po. Otros eje1T1plos son: u11 cleparta111ento de corrixol de calic!acl clasifica un producto corno aceptabie o no
aceptabie; un trabajador es clasi'ficado con-:o en1pieado o desen1pleado, y una l!a1T12da de venta hace que el ciiente con1pre el producto o no lo cornp1-e. Fl"ecuente1T1e11te se clasi"fican ios clbs 1-esuitaclos posib!es corno "éxito" o "fracaso". Sin en1barr:¡o. esta clasificación no irnpiica que un i'esuli:ado sea bueno y el otro malo. Otta característica de la distribución bino111ie.I es que la var·iable aleatoria es el resultado de conteos. Esto es, se cuenta el n1~1111ero de éxitos en !e; totaiiclacl de ensayos. Por eje1-nplo, se lanza cinco veces una 111011ede. y se cuenta el nLicnero de caras que resultan; se seieccionan ·1O1yaoa~ jacio¡es y se evalúa el núrnero de elios que tienen rnás de 50 años de ec!ac!, o bien .se escogen 20 de ceíea! y se cuentan las que pesaron 1T1é.s de lo indicado en el paquete. de u11 éxito sigue sienclo la Otra ca1-acteríst!ca ele est~s- distribución es que la rnlsrna de un ensayo a otro. ~
8
Li'J. probabiliclacl de que se adivine correctarnente (é>\ito) !a prin1era p1egunta de una pi'ue·" ba ele verdadero/fa!so es a un n1edio ('1/2). Este es e! "ensayo". La probab\iidad de adivinar en forrna co1Tecta :2: (ei segundo tsxnbién es y asi suc:esivan1e1Tle. i/.2; ia probabilidad ele !"ene' éxito en e! tet"cer ensayo es Si la experiencia reve!a que el puente !evacl!zo sobre una vfa. "fluvial ha estado levantaclo Ullé'. de c2;d2 cinco veces que se ilegó a él, entonces la probabilidad cie que esté levantado (é>cito) ia vez que !legue ahi sen3. de un de nuevo 1/5 la ve¿ y así sucesiva:r1e11í:e.
La últirna caractorfstica de una distribución ele pt'obabiliciad iJino1T1iai es que cacia ensc:1yo es incfependíente ele cuaiquier otro. Esto signi·fica que !os n.."'Osuitados no siguen 11ingL111 pa."trón. Por eje:T1pio: ias en una de verrJadero/fa!so no ·figui-an corno V, V, V. F, F, F, \/, V, V, etcétera. En resu111e1\ una distribución binomial tiene las siguientes c2rs.cterísticas:
201
Una ciist1·ibución binomial tie11e estas c2J2ctel"isticas.
-·¡ _
E! resultado de cada ensayo de un e;zpstimento se clasifica en una de dos catecma s2b0:r: éxito o fracaso.
2,
3. 4.
ensayos son inclependientes, Jo cual otro_ no tJfecta a! result::ido de
''e'"'''''º
que el resultado de un ensayo
Péi.r8_ elaborar una distribución de probabi!idad binon1iai, se necesita: ('I) el nlirnero ele ensayos, y (2) ia probabiiic!ad ele éxito en cac!a ensayo. Por e,ien1p!o, si un exan1en al térrnino de un seminario de aclrninistración contiene 20 p1·e~JU!Ttas ele opción n11~1ltipie_, el nL11T1ero de en~ sayos es 20. Si cada p1·egunt2 tiene cinco opciones y sólo una es co1-recta, ia probabilidad de éxito en c2d2 ensayo que tiene-una persona que desconoce ie:1 rnateria, es 0,20. De este 111oc!o, la probabiiidacl c!e que una persona sin conücin1iento del tenia ac!lvíne la respuesta. coffecta a una pregunta, tiene un valor de 0.20. Por tanto, se satisfacen las concliciones des·· critas para una distribución binorT:iai. · La distribución de probabílida.cl bino111ial puede describirse utilizando la ·fórrnula: -X
donde: C es n es _x es 'jJ" es
una co1r1binación el nL:mero de ensayos. el n1J1T1ero de éxitos. la probabilidad :::le éxito en cada ensayo,
Observe que se utiiizó la letrs griei;,;a 'ff pan:i. representar· un parán1etro ele población binon1is.L f\o debe confundirse con la constante n1aten1ática igual a 3.··¡4-¡3,
Entre dos ciudades hay cinco vueios diarios. Si léi probabilidad de que un vuelo llegue re·tr8sado es 0.20, ¿cuál 0:;: ia de que ninguno de los vueios se retrase el clía de hoy? es ia probabilidad de que exact<:uT1en-te uno de los vueios llegue tar·cle hoy? Se puec!e !a i'ónnLia (6.3). La probabilidad ele que un vuelo deten-ninado retrasado es C.20 pc1· lo que 'iT = 0.20. cinco vuelos, por lo que n = 5, y x representa el nLHTi81·o ele éxitos. En este caso un ';éxíto" es un a.vión que se rettasét Corno no hay
vue!os retra;:;ados,
x =O.
P(O) 0.20) 5
)(0 . 3277) "= 0,3277
Le. xclb;abi!íc!ad ele que exacta1T1ente uno ele ios cinco vuelos o.,4095, que se encontró 1..necliante
!le~1ue
retra;::;ado hoy es
- Tl/1 (5)(0.20)(0.4096) = O.ti.096
202
Gapi!ulo 6 La distribución de probabilidad completa se muestra en la tabla 6.2.
Tf.\.BlA 6.2
Distribucíón de probabilidad binornial para Número de vuelos retrasados
11.;:;:::
5 y 11;::;:: 0.20.
Probabilidad
o
0.3277 0.4096 0.2048 0.0512 0.0064 0.0003
1 2 3 4
5
Total
1.000
La variable aleatoria de la tabla 6.2 se muestra gráficamente en el diagrama 6.2. Observe que la distribución de los vuelos retrasados es positivamente asimétrica.
'" "' ~ :o 'O 'O
0.20
e"'
.o 0.10 Q_
0.00
o
2
3
4
5
M
Número de vuelos retrasados
'fa.bias de probabilidad binomial Tabla binomial: la forma rápida de determinar una probabiliclad.
Una distribución de probabilidad binomial, según se mostró, puede expresarse mediante una fórmula. Sin embargo, con la excepción de problemas en los que n es pequeña (es decir, n ~ 3, o n ~ 4), los cálculos son bastante tediosos. Como ayuda para determinar las probabilidades necesarias, se ha desarrollado una amplia tabla que indica las probabilidades de O, 1, 2, 3, ... n éxitos para diferentes valores den y 1T. Esta tabla se encuentra en el apéndice A, y una pequeña parte de la misma, necesaria para el ejemplo siguiente, se presenta en la tabla 6.3.
203
!Jis!ribudoíles de probabilidad discreta
TABLA ti3
Probabilidades bino1niales paran= 6 }'varios valores de
11.
-.-~
1 ·x
o 1 2 3 4 5· 6 1
o:os
&7351 9,2agc 0,0:¡1 0.002 6.060
··º·ººº ü.1100
~
-
os
0.2
0.3
0.4
0.5
0.5
0.531 0.354 0.098 0.015 0.001 0.000 0.000
0.262 0.393 0.246 0.082 0.0'l 5 0.002 0.000
0.118 0.303 0.324 0.185 0.060 0.010 0.001
0.047 0.'187 0.311 0.276 0.138 0.037 0.004
0.016 0.094 0.234 0.313 0.234 0.094 0.016
0.004 0.037 0.'138 0.276 0.311 o.1si 0.047
0.7
0.8
0.9
0.95
0.001
0.000 0.002 0.0·15 0.082 0.246 0.393 0.262
0.000 0.000 0.001
0.000 0.000 0.000 0.002 0.031 0.232 0.735
O.DIO
0.060 0.185 0.324 0.303 0.118
0.015
0.098 0.354 0.531
IEJIEMPlO
Cinco por ciento de los engranes sin fin producidos por una máquina automática Ca1ierBell de alta velocidad, resultan defectuosos. ¿Cuál es la probabilidad de que, al seleccionar al azar seis engranes, ninguno sea defectuoso? ¿Cuál es la probabilidad de que haya exactamente dos?, ¿exactamente tres?, ¿exactamente cuatro?, ¿exactamente cinco?, o bien, ¿exactamente seis de los seis? (Nota: n = 6, "= 0.05.)
SOLUCIÓN
Observe que se satisfacen las condiciones binomiales: a) existe una probabilidad constante de éxito (0.05); b) hay un número fijo de ensayos (6); c) los ensayos son independientes, y d) existen sólo dos resultados posibles (un engrane en particular es defectuoso, o aceptable). Consulte la tabla 6.3 para determinar la probabilidad de tener exactamente cero engranes defectuosos. Diríjase al margen izquierdo hasta x =O. Luego pase hacia la derecha, en dirección horizontal, hasta la columna que tiene el encabezado TI igual a 0.05, para encontrar la probabilidad buscada, que es O. 735. Análogamente, la probabilidad de tener exactamente un engrane defectuoso en una muestra de seis, es 0.232. La distribución de probabilidad binomial completa paran = 6 y Ti;::;: 0.05 es como sigue: Número de engranes defectuosos,
Probabilidad
Número de engranes
de ocurrenclai
defectuosos,
Probabilidad de ocurrencia,
X
P(X)
X
P(x)
o
0.735 0.232 0.031 0.002
4 5
0.000 0.000 0.000
1
2 3
6
Desde luego, la posibilidad de tener exactamente cinco engranes defectuosos, si se seleccionan seis al azar, es muy pequeña. Esta probabilidad es 0.00000178, que se obtiene al sustituir los valores adecuados en la fórmula binomial: '
P(5) ~ GC,(0.05) 5 (0.95) 1 ~ (6)(0.05) 5 (0.95) ~ 0.00000178 Para tener seis engranes-· defectuosos a partir de una müestra de seis, la probabilidad exacta es 0.000000016. Es decir, ex'1ste una probabilidad muy pequeña de seleccionar cinco o seis engranes defectuosos en una muestra de seis.
204
autopistas ele r-:·!oricia. infonn2 que un puente levadizo, sobre !a Gulf lntra-
coo.stai VVa.terwa. perrnanece levantado, bloqueando el tr¿lnsito cie vehicu!os 2ocru de ia.s '-Jeces. Uslecl debe pasar en por esa ruta., una vez a\ clia; en los siete dis.s, y deseo. preclecir e! 11t'.u11ero cie veces que ei puente elevado cuando usted s0; a) ¿ESta.s\tuacic)n satisface 1'as h1'pótesls de la clJsfribución de binon i;;il? b) Calcule ia proba:bilidacl cie que e! 'se nall0Te\72htádci cád2 \JG?.. que ustsci ~;G acei"" 1 /
que. Utilizando lá fórrnu!a. (6.3), calcule ia probabiiid2.cl c!e· que ei puente esté .levantado en tres ele las siete veces que (Jstad !iegue ahí, d) /\o!lque la fórrnu!a (G.3), para cleterrninar ia. probabilidad· de que esté !evantaclo uno. V8Z. e) UtiiiCe la tabra· ele prbbabiliciad binornial que figura.en el A, para vet'ifícar sus respuestas a los incisos bj, e) y e)
Tarnbién se puede usar la aplics.clón l\/iegaStat (ele Excel) para calcular !a distribución binomía!. P, continuación Se present2 !s_ sccilda para e! ejeiT;p!o anterior. (Jbserve que en Stat se uti!lza p en vez de JT.
0.80
,-
L
OJO ! 0.:60: 0:50
ff
1
L
¡ 1
l
1
1
0.10 0.00
1
1
L
!
1
o
__ I_
2
<'!
_L _
:J
6
1
l.--·---.-.-.. --.. -.-·-··--·-·
205 e¡ P, es li11"1itado, yo. que sólo ¡::wop<:;rciona probabiiiclacles para valores de 11 clesde ·¡hasta. 20 y 25, y péffa valores ele F de 0,05, 0:10, 0.20, ... , C!.9!5. Una con1putac1on_:;; puede generas !as probabiliclades para un nún1ero de éxitos, dacios n y 'I;·. La siguit-3nte pantalla. ele resultados de Excel rnuestra la clist(ibución ele probabilidad para 11:::: 40 y íT "'" 0.09.
'lGr'fa! ll [J'CQ~l
º"19¡g.¡ 0.201073
o l•!J1D3 '00-D'l"{i clU'.'E-;~2
51X ele "01ihilidodudc que uo1opc1tod,oo de L1boratorio'-Ll i"nlerprck co¡nri ;J J(ln1nL :;¡ c\!o e·:; c!c1 n, :· >li i: 0dico
llJ 11 12
1rn;J
ck que
O·JOii,¡; ODGQ-171 üCJ:}JI i'J
l11r_Li', (1til' "l·1c1-
,-·,'1:c~1¡¡ COlllU nrJ<"lii
:k:,
n1 b crn1'p<1b1dorn. es suL11nc11lc ele :;.y:;_._
Es necesario considerar varias observaciones adicionales acerco. ele las distribuciones binorniales: Si
n perrnanece constante pero
'f
aumenta de 0,05 a 0.95, la fon11a de la cl!stríbución
~~;~. ~ ~1~~~~¿~v~~~~~ !t i~2'.1~~~t~-~~i~"! ~~ri~s~'.~~~-~~i~~~ic~~ ~¡L~~~~--~~: ~~;~~~~b~l\~:-~;~~é1~J~~~ 1 1
1 1
3
1
tribución se vuelve sin-1étrica. Cuando iT es rnayor que 0.50 y se aproxin1a a 0.95, la distribución ele se vue!ve negativan1ente 2sii11ét1·ica, En la tafJia 6.4 se- r-esanan !as probabiiiciades para n o::: ! O -con probabilíclades de éxito de 0.05, O.-¡ O. !J,20, 0.50 y 0.70. Las de estas distribuciones de p1-obabiiidac! se rnuest1-a11 e11 el rna.cnrn 6~3.
éxitos para una
IT
de CL05, 0.10, 0.2-G, O. JU·· 0.7U,
-------·-----···
~.6
f -~71
8H
Cl . 0
o 01)0 _ --¡J:·oDr.1 ¡: _?_._0_0.=Jº:·!'--¡i·0-00____ 0.002
o.o·¡ 'i
0.000
"0:000:'!
0.000
0.000
0.000
O.O(H
0.000
0.000
0.000
0.042
0.009
0.00·1
o.-i ·¡ ·¡
o.a3?
0.000
0.20-1
0.-103
0.000 0.000
0.2·¡5
0.026 0.088 G.20\
0.00() 0.000 0.00·1 o.0·1-1
0.12!
0.302
0.040 0.006
0.25"1
o:o'·ro·i 0.0~~1
---i Ü,95
'
!
0.000
0.001 0.0·10
0.268
0.0\57 o.·194 0.387
0.107
0.349
0.599
0.075 0_3-¡5
206
Capítulo 6
o.Jo -'l!-f---~-'-"'-"H~· 0.20-JHl------H~-----H-~-~-----lHH>------cr!HI--
0.-10-
0123tl5(~789-i0
Cl12::J4SGT8910
012345678910
0123
X
Éxitos
Éxitos
[l~AGRAl\flA
6.3
012345678910
X
Exitos
Se representa !a distribución de probabilidad binon1ial para 0.10, 0.20, 0.50 y 0.70, y unan igual a 10.
1T
igual a 0.05,
2. Si TI, probabilidad de éxito, permanece igual pero n aumenta, la forma de la distribución binomial es cada vez más simétrica. En el diagrama 6.4 se 1nuestra un caso en el que 11 permanece constante en 0.10, pero n aumenta de 7 a 40.
030-'iH---~"+-~~-~-"-c~-~~---------
0.20 ---iH---c--lt-H!------c;r-w-~------.-1---
01234
012345,67
012345678
01234567891011
Número de éxitos
(x)
!J!AGRAMA 5.4
Representación de la distribución de probabilidad binon1ial para una
11
de 0.10
y nna 11 de 7, 12, 20 y 40. 3. La media(µ) y la varianza (cr 2) de una distribución binomial pueden calcularse de "manera rápida" n1ediante:
MEDIA DE UNA DISTRIBUCIÓN BINOMIAL
[6.4]
L é¡
_-·
,~~-~~~-~~~-
.
~
.
-
¡· - VAR!Jl~:-~zA__DE _UNA D!Sl~~u~~-~~~~~1 ~j-1~j~['\~j[-J;,l
'.-
cr = n~~~-=~~~ 2
---·
207 ~~---~---1
- - '-~-~=-·-·---=-~'LJ En el ejemplo anterior acerca d.e los engranes defectuosos, recuérdese que TI "" 0.05 y n = 6. Entonces: p. = f7Tl =
cr2
= l17r('i
6(0.05) - 'IT)
=
=
0.30
6(0.05)(1 - 0.05)
= 0.285
La media de 0.30 y la varianza de 0.285 pueden verificarse utilizando las fórmulas (6.1) y (6.2). La distribución de prmabilidad de la tabla 6.3 y los cálculos detallados se muestran a continuación.
rúmero
cie
deie~tosi
o 1
2 3
1
4 5
6
P(x)
xP(x)
X- ¡1"
(x- ¡..t)2
(X - ¡11)2P(x}
0.735 0.232 0.031 0.002 0.000 0.000 0.000
o
0.09 0.49 2.89 7.29 13.69 22.09 32.49
0.06615 0.11368 0.08959 0.01458
o
-0.30 0.70 1.70 2.70 3.70
o
4.70
o
5.70
0.232 0.062 0.006
0.30
o o
1
o ---0.284'
1
*La ligera discrepancia entre 0.285 y 0.284 se debe al redor¡deo.
Ejercicios 9. En una situación binomial n = 4 y íT = 0.25. Determine !as siguíentes probabi!idades utilizando la fórmula binomial (6.3). a) X= 2 b) x=3 iO. En un caso binomial n = 5 y"= 0.40. Determine las siguientes probabilidades utilizando la fórmula bino1nial. a) X= 1 b) X= 2 1 ·1. Supóngase una distrilJución binomial en la que n = 3 y '1T = 0.60. a} Consulte el apéndice A y enuncie las probabilidades para valores de x c!esde O hasta 3. b) Deten:nine la media y le. desviación estándar de la distribución a partir de !as definiciones generales dadas en las fórmulas (6.1) y (6.2). 12. Suponga una distribución binomial donde n = 5 y '1T = 0.30. a} Consulte el apéndice A y enuncie !as probabilidades para valores de x desde O hasta 5. b~ Detennine !a n1edia y Ja desviación estándar de la distribución a partir de las definiciones generales dadas en las fórmulas (6.1) y (6.2). "13. Una encuesta de corretaje financiero (de EUA) reporta que 30% de \os inversio11'1stas individua-· les ha en1pleado a un corredor ele descuento; esto es, uno que no cobra las con1isiones completas. En una muestra seleccionada al azar de nueve inversionistas, ¿cuál es- Ja' probabilidad de que: a} e;
208
Gapi!ulo 6 a} ¿Cuál es la probabi!iciad de que las seis lleguen a su destino dentro de !os dos días? b) ¿Cuál es la pmbabilidad de que e)(actamente cinco de las cartas lleguen dentro de dos
días? e) Determine la media del número de cartas que llegarán dentro de dos días. d} Calcule la varianza y la desviación estándar del número de cartas que llegará dentro de dos
días. 15. Los estándares de la industria automovilística de EUA lndican que 10% de los autos nuevos requerirán servicio por garantía en el primer año. La agencia Janes Nissan en Sumter, Carolina del Sur, vendió i 2 automóviles en el mes pasado. a) ¿Cuál es la probabilidad de que ninguno de estos autos necesite servicio de garantía? b) Determine la probabilidad de que exactamente uno de ellos requiera tal servicio. e} Determine la probabilidad de que exactamente dos automóviles lo necesiten. a1 Calcule la media y la desviación estándar de esta distribución de probabilidad. 16. Una en1presa de telen1ercadeo realiza seis llamadas telefónicas por hora, y es capaz de realizar una venta en 30% de estos contactos. Para las próxi1nas dos horas, determine: a) La probabilidad de hacer exactamente 4 ventas. b) La probabilidad de no realizar una sola venta. e) La probabilidad de lograr exactamente 2 ventas. dj El número medio de ventas en e! periodo de dos horas. 17. Un estudio reciente realizado 0or una asociación de contadores mostró que 23% de los estudiantes de contaduría eligen el ramo de contaduría pública. Se selecciona una muestra de i 5 estudiantes. a) ¿Cuál es la probabilidad de que dos hayan seleccionado contaduría púb!íca? b) ¿Cuál es la probabilidad de que cinco hayan seleccionado contaduría pública? e) ¿Cuántos estudiantes se espera que hayan seleccionado contaduría pública? i8. Supóngase que 60% de las personas prefieren el refresco Coca al refresco Pepsi. Se seleccionan 18 personas. a) ¿Cuántas se espera que prefieran Coca? b) ¿Cuál es la probabilidad de que 1O de las personas prefieran Coca? e) ¿Cuál es la probabilidad de que 15 prefieran Coca?
Distribuciones de probabilidad acumulada Sería interesante determinar la probabilidad de adivinar correctamente las respuestas a 6 o más preguntas del tipo verdadero/falso, de un total ele 1O. O tal vez interese la probabilidad de seleccionar al azar menos de dos piezas defectuosas de la producción durante la hora anterior. En estos casos se necesitan distribuciones de frecuencia acumuladas similares a las que se elaboraron en el capítulo 2. Esto se muestra en el siguiente ejemplo.
EJEMPLO
Un estudio reciente hecho por la Asociación de Vigilantes de Carreteras (de EUA) reveló que sólo 60% de los conductores de automóviles se coloca el cinturón de seguridad al manejar. Se seleccionó una muestra de 1O automovilistas en una carretera de Florida. 1. ¿Cuál es la probabilidad de que exactamente 7 se hayan colocado el cinturón?
2. ¿Cuál es la probabilidad de que 7 o menos de los conductores lo lleven puesto?
SOLUCIÓN
Este caso cumple con los requisitos binomiales, es decir: • " •
Un conductor en particular lleva puesto el cinturón de seguridad, o no lo lleva. Hay sólo dos resultados posibles. La probabilidad de un "éxito" (llevar puesto el cinturón) es la misma de un conductor a otro: 60%. Los ensayos son independientes. Si por ejemplo, el cuarto conductor seleccionado en !a muestra utiliza el cinturón, esto no tiene efecto alguno en si el quinto automovilista seleccionado usa o no el cinturón.
209
!Jis!ribuciones de probabilidad discreta •
Existe un número fijo de ensayos, 1 O en este caso, porque se consideraron 1 O conductores.
1. Para obtener la probabilidad de exactamente 7 conductores, utilizamos el apéndice A. Se localiza la página paran= 1O. Enseguida se va a la columna para 1T = 0.60 y el renglón para x = 7. El valor es 0.215. Por tanto, la probabilidad de tener 7 de 1O conductores, de la muestra, que usan el cinturón de seguridad, es 0.215. Esto con frecuencia se escribe como se indica a continuación: P(x = 7
1
n = 10 y 1T = 0.60) = 0.215
donde x es el nC1mero de éxitos, n el número de ensayos y 1T la probabilidad de un éxito. La barra vertical "I" significa "dado que". 2. Para determinar la probabilidad de que 7 o menos de los conductores utilicen el cinturón de seguridad, se aplica la regla especial de adición, fórmula (5.2), dada en el capítulo 5. Ya que los eventos son mutuamente excluyentes, se podría determinar la probabilidad de que ele los 1O conductores revisados, ninguno tuviera puesto el cinturón, 1 tuviera puesto el cinturón, 2 tuvieran puesto el cinturón, y así sucesivamente, hasta considerar los 7 conductores. Después se suman las probabilidades de los ocho resultados posibles. Del apéndice A, paran= 1O y 1T = 0.60. P(x :s 7
1
n = 1 O y" = 0.60) =
P(x = O) + P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5) + P(x = 6) + P(x = 7)
0.000 + 0.002 + 0.011 + 0.251 + 0.215
+ 0.042 + 0.111 + 0.201
0.833 Por tanto, la probabilidad de revisar 1 O automóviles al azar y encontrar que 7 o menos de los conductores sí utilizan su cinturón de seguridad, es 0.833. Este valor también puede determinarse, con menos cálculos, aplicando la regla de complemento. Primero se determina P(x > 7) dado que n = 1O y"= 0.60. Esta probabilidad es 0.167, obtenida de P(x = 8) + P(x = 9) + P(¡< = 1O) = 0.121 + 0.040 + 0.006. La pro7 es 1 - P(x > 7), por lo que P(x 7) = 1 - 0.167 = 0.833, que es babilidad de que x igual al valor obtenido anteriormente.
"°'
Aiítóexa!lleil 6.4
Pará un casó a) X=2. b) x;;;; 2;
dónde n = 4 y.;,;, Cl.6o,
"°'
determine la probábílictad de qué:
e) X> 2.
Ejercicios i 9. En una distribución binomial n = 8 y 1T = 0.30. Determine las probabilidades de los siguientes eventos: a) X= 2. b) x "°' 2 (la probabilidad de que x sea menor que o igual a 2). e) x ;;,, 3 (la probabilidad de que x sea mayor que o igual a 3). 20. En una distribución binomial n = 12 y 'lT = 0.60. Determine las siguientes probabilidades. a) X= 5. b) X= 5. e) X=6. 21. En un estudio reciente se encontró que 90% de !as casas en Estados Unidos tienen televisión en colores. En una muestra de nueve viviendas, ¿cuál es la probabilidad de que:
210
CapíMo 6 a) las nueve tengan televisión en colores? b) n1enos de cinco posean dichos aparatos? e) n1ás de cinco tengan televisión en color? d) por lo menos siete de las casas tengan televisor en color? 22. Un ·fabricante de 111arcos para ventana sabe por experiencia, que 5% de la producción tendrá algún tipo ele defecto n-1enor, el cual requerirá un ligero arreglo. ¿Cuál es la probabilidad de que en una muestra de 20 marcos: a} ninguno necesite arreglo!· b) por lo menos 1 requerirá tal ajuste? e) más de 2 necesitarán arreglo? 23. La rapidez con la que una compañía telefónica puede resolver los problemas de servicio de sus clientes es n1uy importante. Una empresa de teléfonos asegura que, en 70% de los casos, puede solucionar los problemas de servicío que indican sus clientes, el 111isn10 día en que los reportan. Supóngase que los í 5 problemas que se reportaron el día de hoy son representativos de todas· las quejas·. a) ¿Cuántos de estos problemas es de esperarse que se solucionen hoy? ¿Cuál es la desviación estándar? b) ¿Cuál es la probabilidad de que 1O de estos problemas se solucionen l1oy? e) ¿Cuál es la probabilidad de que 1O u 1·1 tengan solución el día de hoy? d) ¿Cuál es la probabi!ídadde que más de 10 de estos problemas se solucionen este día? 24. Una empresa vende equipos estereofónicos a diferentes tiendas departamentales en EUA. E! depa1i:ame11to de investigación de mercado de esta emp1·esa asegura que 20% de los clientes que entran a la tienda "sólo para ver", terminarán haciendo alguna compra. Se toma con10 muestra a los últimos 20 clientes que entran en una tienda. a) ¿Cuántos de estos clientes es de esperarse que realicen una compra? .b} ¿Cuál es la probabilidad de que exactamente cinco de estos clíentes realicen una compra? e) ¿Cuál es la probabilidad de que 10 o más hagan una compra? d) ¿Parece probable que por lo menos uno haga una co111pra?
Distribución de probabilidad hipergeon1_é~ri~~ Se observó ya que para aplicar la distribución binomial, la probabilidad de un éxito debe permanecer igual en cada ensayo sucesivo. Por ejemplo, la probabilidad de adivinar la respuesta correcta a una pregunta del tipo verdadero/falso, es igual a 0.50. Esta probabilidad permanece igual para cada pregunta de un examen. De manera similar, supóngase que
40%
de los electores registrados en una región de EUA, son de un partido (el Republicano). Si se van a seleccionar al azar.27 votantes registrados, la probabilidad de. elegir un republicano en la primera selección, es 0.40. La probabilidad de obtener uno d_e ese partido en .la siguiente sefección, también es
0.40, considerando que el 111üestréo se hace con reposición_; . lo ·cual
significa que el nombre de la primera persona seleccionada se pone de nuevo enla. pqblación antes de elegir a la siguiente. · _·. .. < , · Sin embargo, la mayor parte de los muestreos se rea.lizan
sin reposición.-· E_n._-cons~cuen
cia, si la población es pequeña, la probabilidad cambiará en cada observaciófü:Pqr ejemplo, si una población está integrada pm 20 elementos, la probabilidad d,e sele9ci,onar un elemento en particular ele esa población es 1/20. Si el muestreo se hace sin reposición, después de la primera selección solamente quedan 19 elementos; la probabilidad de escoger un elemento especifico en la segunda selección, es sólo de 1/19. En la tercera selección, la probabilidad es ·1/18, y así sucesivamente. Esto supone que la poblac}ón es finita, es decír, que se conoce el. nl1111ero de elen1entos en la población
y que
éste es relativa111ente pequeño.
Ejemplos de una población finita son los 2 842 afiliados al Partido Republicano en una zona, las 9 241 solicitudes de ing:·eso a una escuela de medicina, y los "IS autos Sunbirds de Pontiac, que hay en la agencia North Pontiac. Recuérdese que uno de los criterios para utilizar la distribución binon1ial es que la probabilidad ele éxito permanezca igual de un ensayo a otro. CuandO' el muestreo se realiza sin re-
posición y la muestra se obtiene de una población relativamente pequeña, la probabilidad de
211 éxito no permanece igual oe un ensayo a otro, y no se debe utilizar la distribución binomial. En vez de ésta, debe aplicarse la distribución hipergeométrica. Por tanto, ·1) si se selecciona una muestra de una población finita sin reposición, y 2) si el tan1año de la muestran es mayor que 5% del ta111año N ele la población, entonces se utiliza la distribución hipergeométrica para determinar la probabilidad de un número específico de éxitos o "fracasos. Esta distribución_resulta muy adecuada cuando el tamaño ele la población es pequeño. La fórmula para la distribución hipergeomét1'ica es:
[6.~ donde: N es el tamaño de la población. S es la cantidad de éxitos en la población. x es el número de éxitos en la muestra. Puede ser o, i, 2, 3, ... n es el tamaño de la muestra, o el número de ensayos. C es el símbolo para_ una combinación. El siguiente ejemplo muestra los detalles para determinar la probabilidad utilizando la distribución hipergeométrica.
La fábrica de juguetes Play Time Toys, !ne. tiene 50 empleados en el departamento de ensamble. De éstos, 40 pertenecen a un sindicato y 10 no. Se van a elegir cinco empleados aleatoriamente, para que integren un comité que hablará con el gerente acerca de la hora de inicio de los distintos turnos. ¿Cuál es la probabilidad de que cuatro de los cinco elegidos pertenezcan al sindicato?
SOLUCIÓN
La población en este caso son los 50 empleados del departamento de ensamble. Un empleado puede ser elegido para el comité só!o una vez. Por tanto el muestreo se efectúa sin reemplazo. Así que, la probabilidad de elegir, por ejemplo, un obrero que pertenezca al sindicato, varía de un ensayo a otro. La distribución hipergeométrica es la apropiada para determinar esta probabilidad. En este problema,
N es 50, el né1mero de empleados.
S es 40, el número de empleados del sindicato.
x es 4, el n es 5, el
nl1mero de empleados del sindicato que fueron seleccionados. número de empleados elegidos.
Se quiere encontrar la probabilidad de que 4 de los 5 miembros del comité pertenezcan al sindicato. Al sustituir estos valores en la fó1rnula 6.6 se tiene:
P(4)
=
(,oC,)(so-4oCs_,) ,0
c,
40! )(10!) ( 1T9f = · (9'1 = · 4!36!
50!
390)(1 O)
n
··- = u.431
211s 760
5!45! En consecuencia, la probabilidad de elegir aleatoriamente 5 empleados de los 50 dei departa111ento de ensamble, y la probabilidad de hallar que 4 de los 5 pertenecen al sindicato es 0.431.
La labia 6.5 muestra las probabilidades hipergeométricas de tener O, 1, 2, 3, 4, y 5 miembros del sindicato en el comité.
212
Capítulo 6
TABLA 6.5
Probabilidades hipergeon1étricas (n = 5, [\I = 50 y S = 40) para el nún1ero de e1npleados sindicalizados que integran el comité. Miembros del sindicato
Probabilidad
o
0.000 0.004 0.044 0.210 0.431 0.3"11
2 3 4 5
1.000
Con objeto de comparar las dos distribuciones de probabilidad, la tabla 6.6 muestra las probabilidades hipergeométrica y binomial para el ejemplo de la fábrica de juguetes. Como 40 de los 50 empleados del departamento de ensamble pertenecen al sindicato, tenemos que 71" = 0.80 para la distribución binomial. Las probabilidades binomiales de la tabla 6.6 se obtuvieron usando la tabla binomial que se incluye en el apéndice A, paran= 5 y 71" = 0.80.
TABLA 6.6
Probabilidades hipergeo1nétrica y binomial para el ejemplo de la fábrica de juguetes PlayTin1e, departan1ento de ensarnble. Número de empleados Probabilidad Probabilidad binomial sindicalizados en el comité hipergeométrica, P(x) (n =5Y'IT=0.80)
o 2 3 4 5
0.000 0.004 0.044 0.210 0.431 0.311
0.000 0.006 0.051 0.205 0.410 0.328
1.000
1.000
Cuando la condición binomial de una probabilidad constante de éxito no puede ser satisfecha, hay que utilizar en su lugar la distribución hipergeométrica. Sin embargo, según lo muestra la tabla 6.6, bajo muchas condiciones los resultados de la distribución binomial se aproximan mucho a los de la hipergeométrica. Como regla empírica, si los elementos seleccionados no se devuelven a la población y el tamaño de la muestra es menor que 5% de la población, puede utilizarse la distribución binomial para aproximar la distribución hipergeométrica. Esto es, cuando n < 0.05 N, la aproximación binomial debe ser suficiente. Una distribución hipergeométrica puede obtenerse utilizando Excel. Vea la siguiente pantalla de resultados. En la sección Comandos para computadora se indican los pasos necesarios para obtenerla.
rns!ribucioíles de probabilidad discreta
Autoexameíl 6.5
213
Una empresa de corretaje piensa contratar 5' analistas financieros este año. Se ha aprobado. a ·12 de !os aspirantes, y el propíetario de la empresa decide elegir aleatoriamente a los cfnco que empleará. Entre los solicitantes aprobados hay 8 hombres y 4 mujeres. ¿Cuál es la probabilidad de que 3 de los 5 que se contraten sean varones?
Ejercicios ¡::/,25. Suponga que una población consta de i O artículos, 6 de los cuales están defectuosos. Se selecciona una muestra de 3. ¿Cuál es la probabilidad de que exactamente 2 tengan defectos? /26. Considere que una población consiste en 15 artículos, i O de los cuales son aceptables. Se selecciona una muestra de 4. ¿Cuál es la probabilidad de que exactan1ente 3 sean aceptables? 27. En Kolzak Appliance Outlet se acaba de recibir un embarque de 10 aparatos de televisión. Poco después de haberse efectuado la entrega, e! fabricante llamó para informar que por descuido se habían enviado 3 televisores defectuosos. La señora Kolzak, propietaria de la empresa, decidió probar dos de los 1 O aparatos recibidos. ¿Cuál es Ja probabilidad de que ninguno de los dos tenga defectos? 28. El Departamento de Sistemas de lnformática de una institución está fon11ado por ocho profesores, seis de los cuales sen de tiempo completo. La doctora Vonder, quien es la directora, desea establecer un comité de tres miembros académicos del departamento, para que revise el plan de estudios. Si selecciona el comité a! azar: a} ¿Cuál es la probabilidad de que todos los miembros del co111ité sean de tien1po completo? bJ ¿Cuál es la probabilidad de que por lo menos un miembro no sea de tiempo completo? {Sugerencia: en este c&so utilice la regla del complemento.) 29. La 'florería Keitl1's Florists tiene '15 camiones de reparto que se utilizan principalmente para entregar flores y arreglos florales en el área de Greenville, Carolina del Sur. Supóngase que 6 de los 15 vehículos tienen problen1as con los frenos. Se seleccionaron cinco camiones al azar para probarlos. ¿Cuál es la probabilidad de que 2 de los vehículos examinados tengan frenos defectuosos? 30. El profesor Jon Hammer tie:1e un conjunto de 15 preguntas de opción múltiple referentes a distribuciones de probabilidad. Cuatro de estos interrogantes se relacionan con la distribución hipergeométrica. ¿Cuál es la probabilidad de que al menos i de tales preguntas sobre la distribución llipergeométrica, aparezca en el examen con 5 preguntas de! próximo lunes?
214
La llamada distribución de probabilidad de Poisson describe la cantidad de veces que ocurre un evento en un intervalo determinado. El intervalo puede ser de tiempo, distancia, á1·ea o volumen. La distribución se basa en dos supuestos. El prlme1·0 es que !a probabilidad es proporciona! a !a extensión de! intervalo. El segundo supuesto es que los intervalos son independientes. Dícho de otra llanera, cuanto rnayor sea la magnitud o extensión de! intervalo, tanto mayor será la probabilidad; y el número de ocurrenc!as en un intervalo no élfecta a !os ot1·os intervalos. Esta distribución tan1bién es una ·forma lín1ite de la distribucióh binomia!, cuando la probabilidad de éxito es muy pequeña y n es grande. A esta distribución con frecuencia se le llama "ley de los eventos improbables", lo cual significa que la probabilidad, 1T, de que un evento particular ocurra, es muy pequeña. La distribución de Poisson es una distribución de probabilidad discreta, puesto que se forma por conteo. Esta distribución tiene muchas aplicaciones. Se utiliza co1110 111odelo para describir la distribución de errores en la captura de elatos; en el nl1mero de rayaduras y otras imperfecciones en los tableros de auton1óvil recién pintados; en !a cantidad de partes defectuosas en embarques de salida; en el número de clientes en esPera de servicio en un restaurante, o en la Cantidad de clientes que llacen 'fila para entrar a una de las atracciones de un centro de diversiones, y ta111blén en el nú111ero de accidentes en una carretera durante un periodo de tres 111eses. La distribución de Poisson puede. describirse matemáticamente utilizando la siguiente fórmula:
[6.7J nuad6n: impactos_ Zonas
-Ei-·c\'i·adr6:;1;1lC1iíü'r' li;cii- ·cá. c¡tiC 229'i:'é'giéiüCS n() · rccib_ic_ro.rt i1nµ;1_c;,tp al'.:.: gu1H1-pqr-pn«_ de hi_s l?_on1h1s. Cl_1_
donde: p.
e x P(x)
es es es es
la la el la
media del número de ocurrencias (éxitos) en un intervalo específico. constante 2.71828 (base del sistema logarítmico neperiano). número de ocurrencias (éxitos). probabiiidad que se va a calcular pam un valor dado de x.
El nl1mero n1edio de éxitos, ¡1, puede cletern1inarse en los casos de Poisson mediante el p1·oducto nTi, donde n es el número total de ensayos, y TI es la probabilidad ele éxito.
bl;tnc() ~i(;hc:v'cccs, Utf-
Íiz'.i n~ici'- hi '~ilÚd b~;¿ión ·'de -Poi:s.Sói'1\\:ól-i'.\íhá
nwdia de 0.9) impactos-pdr-región; el. nún'tcro,espcmdO.-dio{ cis.tos Cs-'l~qrno se.. iJ._idi_ca. a continuación:
Corno d número rc<1l de impactos se· ct1con~ lrnba cerca del núrnero
esperado ~le !os_-inLr. _1nós, d com_ando militar cói1ch1yó é¡uC las bornhas coliclcs ~e l;1nzaban <11 aZar. L.os :í\C .. nbnes no húbfrm crc<1do un proyectil cohete con un clispositlvo ck puntcrúi
1 1
-' La varianza en !a distribución ele Poisson también es igual a su n1edia. Si, por ejemplo, la probabiliclad de que sea devuelto un cheque expedido por un banco es 0.0003, y si se cam· bian a efectivo í O 000 cheques, e! nún1ero medio ele docu111entos "con rebote" es 3.0, que se obtiene porµ= nrr = 1 O POO (0.0003) = 3.0. Recuérdese que para una distribución binomial existe un nl1mero fijo de ensayos. Por ejemplo, en el caso de una prueba de opción múltiple de cuatro preguntas, puede haber só· lo cero, uno, dos, tres o cuatro éxitos (respuestas correctas). Sin embargo, la varíable aleatoria, x, para una distribución de Poisson puede tomar un nL1mero infinito de valores; esto es, O, ·1, 2, 3, 4, 5,. .. Pero las probabilidades se vuelven muy pequeñas después de fas primeras ocurrencias (éxitos). Para ilustrar el cálculo de L:na probabilidad de Poisson, considérese que en la e111presa Aerolíneas del Noroeste rara vez se pierde el equipaje. En la n1ayor parte de !os vuelos 110 se observa un n1al manejo de las maletas; algunos pasajeros reportan una valija perdida; unos cuantos tienen dos maletas extraviadas; rara vez para un vuelo se tienen tres; y así sucesivan1ente. Supóngase que una muestra a!eatüria de í 000 viajes aéreos revela un totai de 300 111aletas perdidas. De esta 'forna, la 111edia a1·itmética del número de equipajes extraviados
215
rnstrib"ciones de probabilidad discreta
por vuelo, es 0.3, que se obtiene de 300/1 000. Si la cantidad de maletas perdidas por viaje aéreo sigue una distribución de Poisson con p.~ 0.30, podemos calcular las diferentes probabilidades con la fórmula:
Por ejemplo, la probabilidad de no perder ninguna maleta es:
P(O)
=
(0. 3 )º(e-º
3 ) =
0.7408
O! En otras palabras, en 74% de los vuelos no habrá equipaje perdido. La probabilidad de exactamente una maleta extraviada es:
P(1)
=
1
(0. 3) (e-º 1!
3 )
= 0.2222
Por tanto, se esperaría encontrar exactamente una maleta perdida en 22% de los vuelos. Las probabilidades de Poisson también pueden encontrarse en la tabla del apéndice C.
Recuérdese d.el ejemplo anterior que el número de maletas perdidas sigue una distribución de Poisson con una media de 0.3. Utilizando el apéndice C para obtener la probabilidad de que no se extravíe ninguna maleta en un vuelo en particular, ¿cuál es la probabilidad de que exactamente una maleta se pierda en un vuelo específico? ¿Cuándo debe parecer sospechoso al supervisor que un vuelo tenga demasiadas maletas extraviadas?
SOLUCIÓN
Se reproduce una parte del apéndice C, el cual se denomina tabla 6.7. Para determinar la probabilidad de que ninguna maleta se pierda, localice la columna con el encabezado "0.3" y léala hacia abajo hasta llegar al renglón correspondiente a "O". Entonces, 0.7408 es la probabilidad de no tener alguna maleta perdida. La de que haya una valija extraviada es 0.2222, lo cual se indica en la siguiente línea de la tabla, en la misma columna. La probabilidad de haber dos maletas perdidas es 0.0333, que está en el renglón siguiente; para tres, vale 0.0033; y para cuatro maletas, es 0.0003. De ahí que al supervisor no debe sorprenderle que haya un equipaje perdido, pero debe esperar que rara vez ocuffa la pérdida de más de una maleta.
IABL/4 6.7
T~1bla
de Poisson para diferentes valores deµ (to111ada del apéndiec C). µ,
0.1
0.2
0.3
o .o.Bo4s.
0.8187
lo,1Aoal
0.0905 0.0045 0.0002 0.0000 0.0000 0.0000 0.0000
0.1637 0.0164 0.0011 0.0001 0.0000 0.0000 0.0000
U.2222
X
1 2 3 4
5 6 7
ó.q3:l3 0:0033
.Q.0003
º·ºººº
0.0000 0.0000
0.4
0.5
0.6
0.7
0.8
. 0.6703 0.2681 0.0536 0.0072 0.0007 0.0001 0.0000 0.0000
Q.6065 0.3033 0.0758 0.0126 0.0016 0.0002 0.0000 0.0000
0.5.488' 0.3293 0.0988 0.0198 0.0030 0.0004 0.0000 0.0000
0.4966 0.3476 0.1217 0.0284 0.0050 0.0007 0.0001 0.0000
0.4493 0.3595 0:1438 0.0383 0.0077 0.0012 0.0002 0.0000
"lf
0.4066 0.3659 0.1647 0.0494 0.0111 0.0020 0.0003 0.0000
Estas probabilidades también pueden obtenerse utilizando el sistema MINITAB. Las instrucciones o con1andos necesarios se presentan al final de! capftulo. El resultado aparece
.
216 a continuación. Un diagrama de !a distribución de! número de errores se muestra en el diagran1a 6.5. Observe que la distribución se encuentra sesgada severarnente en la dirección positiva,
1
0.2222'15
2 3 4
o8C0251J
OD33337 0_(]03334 0.000015
[)!fti,GRi\~JlA
6,5
Distribución de probabilidad de "Poisson para !-L = 0.3.
La distribución de probabilidad de Poisson siernpre tiene sesgo positivo. Además, la variable aleatoria de Poisson no tiene límite superior específico. Las distribuciones de Poisson para el ejemplo de !as rnaletas perdidas, donde p. = 0.3, tienen gran asimetría. Conforme µ" se hace más grande, la distribución de Poisson se vuelve más simétrica. Por ejemplo, en el diagrarna 6.6 se n1uestran las distribuciones del nlimero de servicios de transmisión, cambios de silenciadores y cambios de aceite por día en un taller 111ecánico para autos. Siguen ias distribuciones de Poísson con medias ele O. 7, 2.0 y 6.0, respectiva111ente.
Servicios
á la trans1'nisión
Cambios
ele silenciador
Cambios de aceite
Nl11-nero de ocurrencias
DlAGRJU\líA 5,6
f)istribnciones de probabilidad de Poisson para n1cdias de 0.7, 2.0 y 6.0.
217
Distribuciones de probabilidad discreta
En resumen, la dístribución de Poisson en realidad es un grupo de distribuciones discretas. Todo lo que se necesita para construir una distribución de probabilidad de Poisson es el nl1mero medio de defectos, errores, etc., designado como JJ,.
Sólo se necesita fL para elaborar una distribución de Poisson.
Autoexamen 6.6
Una-compañía-de- seguros--de·-vida-determina;· empleandO-tablas de actuaría; que !a-probabilidad de que un hombre de 25 años muera en· el lapso de un año,_es 0.0002. S! este año la compañía vende 4 000 pólizas a hombres de 25 años, ¿cuál es la probabilidad de que la compañía tenga que pagar exactamente una de !as pólizas?
Ejercicios 3i. En una distribución de Poisson l.L = 0.4. a) ¿Cuál es la probabilidad de que x ~O?
b) ¿Y cuál es la de que x > O? 32. En una distríbución de Poisson µ, = 4.
a) ¿Cuál es la probabilidad de que x
x"'
)//b) ·
~
2?
¿Cuál es la de que 2? e) ¿Y cuál es la de que x > 2?
33. La señora Bergen está encargada de los préstamos en el banco Coast Bank and Trust. Con base en sus años de experiencia, estima que la probabilidad ele que un solicitante no sea capaz de pagar su préstamo, es 0.025. El mes pasado realizó 40 préstamos.
a) ¿Cuál es la probabilicad de que 3 prestamos-no-sean pagados a tiempo? b) ¿Y cuál es la de que por lo menos 3 préstamos no se liquiden a tiempo? 34. Los automóviles llegan a la salida de Elkhart, en la autopista de cuota de Indiana, a razón de dos por 111inuto. La distribución de las llegadas se aproxima a una distribución de Poisson. a) ¿Cuál es la probabilidad de que en un minuto específico no lleguen automóviles? bj ¿Y cuál es la de que en un minuto en particular llegue al menos un automóvil? 35. Se estima que 0.5% de !as llamadas telefónicas al departa111ento de facturación de la U.S.
West Telephone Company, reciben la se11al de ocupado. ¿Cuál es la probabilidad de que de las i 200 llan1adas del día de hoy, por lo menos 5 hayan recibido dicha señal'? 36. Los autores y las editoriales de libros trabajan ardua111ente para minimizar el nl1mero ele errores en un texto. Sin embargo, algunas erratas (errores involuntarios) son inevitables. El señor J.A. Carmen, supervísor editorial de estadística, informa que el número medio de errores por capítulo es 0.8. ¿Cuál es la probabilidad de que haya menos de 2 erratas en un capítulo específico?
Resurnen defcapíttd(). I;- ·U'ri'.á\t8l-íáb!e'aíéát6ú'8. es· Lnt·\ralór iitihlédcd:dete.rríl'idá~.0.__pOr er·reSultRdo· de. un 9xperlmehto. 11. U~adistribución d~prob~bil.ida,lesynli~tado detodosl.osresultactos pqsibles de un experimén:toj:JuntO
eón la Probá.bilidá.O·córre~pond!ente a·~ada'dno.
A. yna dislribL1ció~ de pm?abHid~d discreta puede consider.ar .sólo ciertos valores. Sus ca-
·raCt~rístfc,as prin?í_pa.!és. son: .--. _..._..-· _,. -._.. · 1. La 7um~ de la~ pr9b~?ilidades es ig~al áj.OO ...
?e
·· ·.. · ··~· La pr9babilidad u~ resultado particular.estáentre 0.00 y 1.00. .3;· Los·. r$sulta.dos:son_ rnutuam_ente exc!uyente.s.: B. Una.?.i_stribución. continqa puede asumi.r un·númeró ··1rintiito df3 ..\fa!ores dentro de un intervalo· es.pecffico. ,. _. _.. __
.. ___ ... __ .-.-..... _- ·.
_..
111; .La media y la varianza de una distribución .de probabiiidad se c:;alcUlan como sigue: A. La media es igual a: · /L ~ :l:[xPGx)]
[6.1]
218
Ca¡1ilulo 6 B. La varianza es igual a:
cr 2
~
Z[(x - f") 2P(x)]
[6.2J
!V. La distribución binon1íal tiene las siguientes características. A-. Cada resultado se clasifica en una de dos categorías mutuamente excluyentes.
Et La_ pr_ob0bHidad_.de:._un . éxitoJJO. cqm_Qia_ d_e_ _uo. _ensayo:_ a_ o_tr_o, C. Cada ensayo es. independien_te . . D. La distribución ~esu!ta de _contar el número de éxitos_ eti una cantidad· fija de ens_~Y().~·
E. Uria probabilidatj b_inomia! se det_erm_ina como _sigue_:
p, T(" (1
p~,) ~
- TI)" - ·'
· [l¡:3j
F. La media se calcula como sigue: [6.4J G. La varianza es: ff 2
= nr.(1 ~ r.)
[6.5]
V. La distribución hipergeométríca tiene las sigui8ntéS cáracterístfCas._ A. Existen sólo dos resultados posibles. Bº La probabilidad de un éxitó no es la ·misma en cada ensayo. C. La distribución resulta de contar el nl1mero de· éxitos en una cantidad fija de ensayos. D. Una probabilidad hipergeométricá se calcula· por medio c1e·· la siguiente ecuación: P(x)
~
(sC.,)(N-sC,, __,) . (NC,,)
[6.6]
Vt La distribución de. PóisSon,t_íeli_e las si.gui_entes, características. A. Describ.e el número de veces q~1e ocurre un evento __en un_ ih.tE'.rvalo específico. B. La probabilidad de un "éxito" es proporcional a la extensión del intervalo. C; Los inte'rvaloS que no ·se· sübrePOnen son ind8pendierit8S. O. ES úna-forma límite de !a cliStríbucíóri bínór'nicil.cuando n es grande y n es pequeña. E. Una distribucióri de·Poísson está determinada-por la siguiente ecuación: [6.7]
Ejercicios del capítulo 37. ¿Cuál es la diferencia entre una variable aleatoria y una distribución de probabilidad? .38. ¿Cuál es fa diferencia entre una variable aleatoria discreta y una continua? Para cada uno de !ós incisos siguientes indique_ si. fa va~-¡~9r_e a!'eatbria, es_di.S_creta.. o·C_ontinua. a) E_t_ ti~rnpo necesario Pélr "· · . el) E! nl1mero de pacientes atendidos. e.n: un ce.ntro .de salud_. cada noche, entre !as 6 y fas i Opm. D e) El nl1111ero .d(:} 'n1ill..as qu~. reqorre. un _ccic_he_ cuándl? el. tanque .de gasolina está lleno. e,, / f) El núrnerq de clientes en unrestaurante que hac;ensu pedido desde el coche. ··s> g) La distancia. ent.re .Gainesville, Florida_ y _todas las ciudad.es de Florida con 50 oda habitantes_o-.más.·;- e~ 39. ¿Cuáles son los requís!tos para la distribución. qino111ial? 40•.. ¿B_ajo, q_ué .condicion.eS;· clarán.,aproxín1aclamente los mismos ·.resultados, la. distribución de Poisson y la .binon1ial? 41. El consorcio ele departamentos Samson tiene una gran cantidad de unidades disponibles para rentar c'ada mes;· La gerencia está preocupada por la cantidad de apartamentos-Vacarit'es que hay a! término de cada mes. Un estudio reciente reveló et porcentaje de tiempo en el que
bf
219
!Jisiribuciones de probabilidad discreia
está vacante· una ·cantidad determinada d8 apartamentos~ Calcule ·el valor medio y !a desviación, estándar del número de-departamentós' sin ocupar. Número de viviendas sin ocupar Probabilidad
0.30. 0.40
2 3
42. Una inversióntendria un valor de $·1 000, $2 000 o $5 000 (dólares) al final del año. Las probabilidades de estos valores son 0.25, 0,60 y O. ·15; respectivamente. Determine la media y la varianza. def monto' de !a inversión. 43. El gerentede personal de la empresa Cumberland Pi~ .lron Ca ..analiza él número de accidentes enef trabajo ocurridos durante un mes. Se elaboró la siguiente distribución de probabilidad. Calcule la media,- la varíanza'y· la de'sviaclón estándar de!· número de accidentes en dicho periodo. Número.de
accidente's
Probabilidad
o
0.40 0.20 0.20 0.10 0.10
l 2
3 4
44;·.La: pastelería-Cro_issantofrece p·asteles.~·Cón-_decoración_··especial para cumpleaños, bodas y otras ocasíones, también ofrece pasteie_s: normales: En: la tabla que sigue ·se indica 81 número total.de productos vendidos por día y la probabilidad correspondiente. Calcule la media, la varianza·, y la deSvlacfón.estándar para fa cantidad: de: productos Vendidos por díá. Núfnero de páSteles VSndidos ·en.un·día
Pro!Jabi!jdad
12
0.25
13
OAó
14
0.25
15
0.10
45._Un_a_rnáq_urn·~-~c:Odzj_doía \am'.i'am:i prod~_c~_1_9o/o d~ p_cirt8s_ d_éfeCt~ri~ás, lo que es anormalmen~ te elevado. El. ingeniero ce c9~trol de calidad .ha verifica.do la producción aplicando el muestreo casi con.tinuo desde que empezó la c.o.ndición anormal. ¿Cuál es la probabilidad de que en_ u ha Tue;;t~;;i_ de'.1 O_ pi~z~S:_ ._ · a}._-;. ,exactélíll_ente_ 5_-_e~t~~-:defectuosas.? b) 5 o. más tengan defectrni? .46..Enun.a c.omunipad E)n el s.udoeste .deEstados. Urlid()~, ~0%i:le lapo[)lación es de habla hisPi1~~-- A __µna _ pers(}.~<1=,d-~,e-~t~)~_dol_e _se__ !,~_ ac_us:a de a~~~i_n,ar ª:hlf! ciudadano· que no es hi~pa no. De los primeros 12 miembr?S Po!encialesrjefjuracJo,sólo 2 son hispanos y 10 no lo son. El ..~b:og~d_(): def$,~_s,o_:, _se ~Jpon:~ _a___l51 ~efeC_c[_ó,n_ del. i~.r~?º:::~firmando _que existe un sesgo ·en contr.a de su defendiqo, El fiscal no .está de acuerdo, y dice que la probabilidad de esta com..., , .- _8{)_sici?n _ EJspec_íflca dt;.1_.j_U_:8:cl:?' _'es:?Üíll_ú,r;~ -_¿qué opi_n~-y$_t_e_d? 47. Un.auditor de un centro de salud reporta que 40% de l?.s derechohabientes de 55 áiíos o más p_r~s_El:ntan una xe_c!_ctlll~ción durélnte· et .EtñQ.. Se _eligen ale_atoríamente 50 derechol1ablentes de !os arG~iv_os_9er_ c~~tr,o_. .'-- _ _:_, _ :' aJ ¿Cuántos de _er_!~.::;.. se es_Pera hayan, pres8ntád_O- u_na· i-Sóra_hlación er año pasado? b} ¿Cuál es la probaqilidad de que 1.0. de. los derechohabientes elegidos hayan presentado unél rec!ama_si_ón _ e!__ añ'?_pasado? e) ¿Cuál es la probabilidad. de. que .1 O 6 más ele los de.rechohabiente.s seleccionados hayan preseotado un_ a rec!ama_c.i_ón _el, año__ p~sado? d} ¿quál. es la probabilidad de que más ele .1 Ode los derechoh.abientes eleg'1dos hayan recla111ac:ío 1urante.el_año pa_sado?
220
(_¡
48;· Un~fempr.e.sa:Vendedora·de.-acces6rt.os:Para:automóvile7-.está_pensando _en-dívídfr !as· acciones en 2 por), Para haceres1o; por lo menos dos terceras partes de los 1200 accionistas de !a__compañía deben estar _de_ acuer_do. Para _evaluar_ la posiQiHdad de que esta propi.1esta _ sea_ acep:t_~d-~;'_ e:! _director_d~'fínéinza_s _ torr1a una muestrEt-de. i 8 dE? _ l:os _ac_cionist~s y habla· con _ ca'da uno; encüentw que 14 de lo~ 18 están de acuerdo. ¿Cuál es la probabilidad de este even-
t_o s_L,1_ppn_(~n(jo. gu_e, _do~- t~ES.~_ra_~_-P.ª.~t:J_S_ 9~ _1()::->,_:_a~~-i_o_ni~trl_s e~:~~~-~ª, a_~_ue_r?~?. __ ._ -·---· ·. - . ______ .:. ____-_
49: En ürí esfqéfiOfeéferaíén EUAsé encontró que1:s% dé la fuerza liiooral d.e ese país tenía pro: ?f:eroas_.:de drp_gadicci<)_n_: U0 funcionario antidrogas quiso investigar:_ esta_- afirmación. En ._Su mue¡;tra de. 20 trabajadores: a) ¿Ctiáhtos·_-se-esperaría que fuViSrE,tn· prqb!e1naS de--_drogadiccióti? ¿Cuál- es-l8.-desViacióíl esjándar? , . • > ,. . ·. • > , , ' .. . e . . .. . . · b) ¿QuáLe~ le proqabilidad de que níngun;\a.l\'s gús\e" Y\' dos no? 54, la.doctora RíchmonclespsicÓl(Jga\f .ésWc.lía..lp:> há~it!(s d~•19~televidentés diürnós qüesdh estudíant~s <.Je se~üncl~ri~, E:lla.cr~,e.qy~ 45~ qe lo~·f)lµrnnos (jee~te·nivel ve las.telenoyelas por·.1~.•·t?r?f)·\~[ae9Judiar esl(),'.9rnf) . .~fla lllU,8\'tra d§ dÍf)Z f)S!Udiantes aJ .,Elabpr,r>uíla distríiJY?ión ?epr~ti~9~i?~d~rtla 9ues~ rn~f)~tre el· número de estudíantesen .-- _:_ l_á. X11,~-~:St_r~ :·.Bu_-~: -y~~- :t~r~-~9~-~r~-1_~:, -~- ~ .:<",,_·: :.-__;:_· __.:·:·. ;-;--:_--: ::_:· :·-;: -:>. _',._-_; b} ~ncuentre: 1.a, 111ec.li
.
:·:.:._,:'- _/-. - -:_-._.·:
~CJ _¿_ql!~l_-~·~_s; J~ _ p_rp:b_a=b i_liQéld.; 9e,: .~_ncp_ri~r~-~ . $Vé -t~~?~!~Tr~~-t~. eY-~t~9. alµJ11 ~qs _ ye~n, te_!en?,_\t8l_EiS?, d}
*gJ~~:; I~ [robf)b1licta9 qei)ºf>~~n~T.de la~.1tac] ªE>•'º~estu,djant~s . elegidos. ~.ean•.tele-
55; Un estudioredentede una agencia acerca del funcion~mi.rnto del portal LástMihute.eom·in. _di_c_ó,_:qq~---~-~-?1> :·~'.e, l?-~:_.yiaJ~,8,-_:-?e::7¡;;,g_op_i9_~_.:_S_~. pta2_~an/·,96~_: _rr:?OCJ,?· _de:: dos-_ ~:rrt-ªn.a_s_ ·_~~: ant_lqipa~ pión, El .eslydi? se v? ª/ePetir e0"~a regióff ?et9rrn¡n~da. déon·país con. una mµestra de.12 '(i9jerosfr_ecuentes'por_rnoti~_9s.;.?~-P~_g,09í9~:_ . :-'.-_-.-<:::._ _ ,-.. _·_;··.::: ...._; .. ·'--:: .. ,.-_' _.- _ ... _ '-.. --.. . -.:.__.:·.-·_', a) . El~p.ore un?.distrlbyGión.d( pro.bab}lid.?d. qBe ..múestre el número de. viajes que se planea con _meno_s ?~ _dQ~-~s:8-h1_al)~_; de:_?n(fgi~_aqr9p·.:.,,. b). E:q~ue9tre larneciia Y.1.'.' d~pylación está.noarde esfa cli$triqyción, e) ¿Cuál.es laprobabílid~dd.e qu('l exaqt~m.ent<'l 5 de IQq 12 viajeros de negocioselegídos pl¡¡neen_ su_s.'viajes con- menoS-tje dos se_maíl'as_de antlcipaci_ón?
221
ms!rib"ciones de pmbabilida~ discreta
dJ
¿Cuál-es la_probabilic!_ad. de qqe 5_:o menos_de !_os 12 vi_ajeros ele negocios se.leccionados planeen sus viaj6s-·con,_menos,de tjos semanas de anticipación? 56. Suponga·que_·:se-sabe·_qLie.)~ de 25-autos cornpactos.C_hrys!Gr-n·ecesitan cierto típo de ajuste. Se_serecc.!onan-a! azar cua_tro-de.esos ..vehículos: Se desE!a_saber !a probabilidad de qlie. exactamente uno requerirá ajuste, a}, ~Resuelva. ef_ problema _s_upon!endo que de !os_:25 _cQmpactós, l'aS muestras.- se extraen sín
¡;§TjOSíC(6fL.---·-. ··b} _Resuelva el· pi-oblema consideran_dq. qü¡::¡. el-muestreo _se_ hat?.e con reposíción. e) Suponga que exis1ereposición y re.suelva el problema utílizando la distribución de Poisson. d) Compare.los resultados·cie. los incisos a, b. y c:.Cof!1ente aqlrca de sus hallazgos. 57.cEI buf.ete jurídico Hagel & Hagel se localiza en el centro. de.Cincinnati. Hay 1Osocios en la empresa; siete viven.enOhio; y tres ene.ln 0rte deKentucky. La. s.eñora Wendy.Hagel, accionista principal.,. _quiere_ riorn_br9.r:- un. comi_té-.de.,:tres so_ctos-_qüe:.examine la posibil.idad de can1biar la ubicactón_ deJ-bu:fet_e,al no.rt_e:_de Kentucky. S\ e!· comité, se selecciona af. azar_de entre los 10
socios,·¿cuál es la probabilidad de que: 8)- Lino de fos integrantes del" con1íté _vlv_a,en-.e! norte-de:'KentUckY·.Y· !os otros._ en Ohio? b) por lo menos uno de.ellos resida en el norte.de Kehtucky? .. 58'.De acuerdo con información. recién 0>1blicadapor la Agencia de Protección Ambiental (EPA), de Estados Unidas·i' cua:tra, de los nueve mejores autonióvHes,· deSde el punto de vista de ahorro ~e·cornbusJib!e;.-son ·tabricados,por _la empresa.Honda. a) Qetermine la.distribuoión .de probabilidad para el número de. autos Honda en una muestra de_-tres :automóviles _seleqcionados_,d_e !os'_ nueve .. b) ¿CUá!-es la-probabíli¡jad de que enla'.mue_stra:de,trEls, quede incluido por lo menos-un automóyil'HO(lda? 59•. La jefatura,de.Policía .en la ciudad de·c0 rry; Pennsylvania, está vacante .. El comité. de seleccióQ, eílcr;ir9ac:lo de_ recornendar__un·nuevo.lefe__-al:consejo·urbailCJ_, recibió i 2 solicitudes para er pueSto._._G_Uatro,_de· !_os _.dóce sotlcltantes son rnujeres·_o miembros de una minoría sociaL-El comité declcle entre_vtstar a los i2 aspirantes.·aJ cargo. _Para--comenzar, selecciona al azar cuatro de· !QS_ so!k:itantes.para,-entrev_istarfos,eJpríme_r_día, y nínguno._d_e-_e!los es mujer 0.-miembro de una rni_norfa:··._E!, periód.ico Joca!;.- er Corry-Préss,- i_ndiCR :Uti-ed_itoría! quEr hay discriminación. ¿Cuál es la. probabilidad de.que esto sea cierto.? 6_0~. Una: _caja cnn-sei_s ra.suradoras e!éctr!Cas.contiene_ dqs_que: no.--funclonan bien. Se seleccionan tre_s-ra~uradoras__ de- la caja; -ar:·- -¿Cuál. e_S-!a-probabilídad de-que_exactamenté iJnq,·esté.defe9tuosa? l:J) ¿Cuál .es la probabilidad de que dos rasuradoras, de las tres seleccionadas, tengan defectos? 6-1;_,las_ventas-de_autornóviles- Lexu_s en· e!_ área-de.-Oetroit-slgu_enda distribución de. Poisson, con una media de 3 pqr día. q} ¿G_uáf-·e·s !a:ProbaPílidad-_de,_qu_e-no se venda-ningún_aúto:Lexu~ eh un dí_a-específico? b)_- _¿;()~~!_:ª:~· _l<;t: _pro~_ab_il_i.dad:-',de_-;que: durante -cinco .días-:consecutivos se venda at ·menos un · · auto-de esa marca? · 62. Suponga que 1.5% de las antenas ele los teléfonos celulares ~lokia están defectuosas. Qe una T·_\J~_s_t~-~-_.0,_!_~~ü-ü,r_i~ s_!_E:J 2_?9:_:~l_rrt~_r¡_as,,_ Gal~9~1l_~_ la_ pro1Jabm_d0c.! de qu_e_: ·a;.-_:__ i:ir~9u~~-'~~---_1as :a~-t_~~as_ te~_ga_ def~cto~; b_) _trf(s_. _ ?·}1J_ás.ct?_._la_~-,a.nter-a9_ ~~ !_o_s·,_ter_gq_n:: _ . . ,_- -. __ '. 63~ -_Un_ ~-s.~~d_l?. cte,. f~~ fi!_~~·-·-?_~- ,cli:~i;it~$ -~P _-19:8:: paj_a_s na~,_í~-~r:a~()'fá§_ _ él_~.LSafevvay .SL1pEJrmaíket, _reveló qyec1yrant~ ci~¡ió p~riodo (entre I~~ 4ylas,7 P·rn) :n.losfines de semana, el número medio de clientes en espera fL1~ igu~I a cW?.tró. ¿puál e.s laproba[Jilidad .de que al visitar el supermer9:ado_; e!}_ ~Se_!_ap__s_Q_._e~_Ó~e,ntr:.~:QUE}_'. , . a). no ·hay_cfientes_f?r_m~q9_s7. b) _cu_El1r? ?li.ep!~.~---~-st$~_-í:pr.rnadüs?: ·e;_ :c,u~~SCJ._P_ ITI.eno_S:-cfi_~~t_e~-:-estªn:_-r9r_(ria,ctoS? d) c.u~trq o.1mí» clie.ntes.estéo form~dos? . .·. .·.. ·..•..•...· ~4~-:~~ft_:e_-~_pr~s~___ 9,r:~-nd6---.-C:fedi~ctd~ aJ_a_.,P_roctupci_ón_ ?~_sof_~0~(~-,-~n~_óntró que el tiernp_o n1edio para;_gü~ \l_n_ m_~r'l-~aJeI11_ter_t:1;_.qe.~?-rreo el~C-~ró_~:ic? !le_g_~i_e-_~ su ·_de~tino era de 2 segundos.-_AdeTás; e~t_os_}ieíllpq§_ s~~u_fa~: 9nq_.di,s:tdQL\Ci_q~ ~oí~S,?11: .8) ¿Cuál esla ptobabilidad.de que un mensaje tard~ exastamente 1 segundo en llegar a su cteStirlb? b) ¿Cuál es. la probabilidad de que un mensaje tarde más de 4 segundos en llegar a su des, tino?
en
9e
222
Capítulo 6 e) ¿Cuá.1 es la probabilidad de que unmensaje, virtualmente, no tarde nada (tiempo igual a cero segundos), en llegar a su destino? 65.. Recientemente se encontró que en Estados Unidos se roban 3. f vehículos por minuto. Supóngase:que"la·distribución .de-los.robos por-minuto sepuecte·aproximar por m_edío ~e una distribución dé probabilidad de Póisson. a) . Cál?ule laprobabiliélad dequeocurr~nexactamente coa.tro. robase~. un minut(). b) i,CuálSSlá probabilidad de que rio tíaya:ningún rofoen unmíiiufo? ...·.· ...... . e) ¿Cuál es la wobabilidad de que haya por lo menos un robo. en un minuto? 66. l)na empresa grande de ventas. por catálogo de artículos para dama, .anuncia como parte dé su propaganda, que surte los pedidos el mismo día en que se hacen. Ültimamente las órdenes no se han surtido co¡no se había planeado, yse ha generado una gran cantidad de que~ j8:s.~:El d_irec_tor-de:servícios:al_cHente_ rehizo t_ota!me_nte el'-métqdo que se_- usa para p_r_ocesél\ _las órdenes. El. objetivo es tener menos de cinc? órden.es. no surti.das en 95.% de Jos días laborables: Después-de_reaHzar·revís[one_~ _frecuent.es-at:n_úmer?·de:ó_rdenes no._surttdas al final de._un día de trabajo, se observó que el número de órdenes· no surtidas sigue una .distribución de Poisson, con una igual a 2.0. a} ¿Ha alcanzado. lae¡npre.sa su objetivo? b} Elabore un·histograma. que representa la: distribución de Poisson. del número. de órdenes .. no s.urtidas, .. . . . · 67. El 29 de enero de 1986, el: transbordador espa.cialCha/lenger estalló a una altura de. 46 .ooo pi·és_, -sobre el "Océano.:Atfá~tico;· proyocando la muerte-,de·.--~iete.'astronautas.:-Un e_st.udi.o.'r$alizado en 1985; publicado por'ª Administ'.ación Nacional dé Aeronáutica y del Espacio (NASA); indicó.que·!a. probabllldad-_de una·catástrofe:~omo ta me0cionadar_·era aproximadamente. de J e~ 60 000. Un informe simila.r de la Fuerza Aérea (de EUA) indicó que la posibilidad de una catástrofe de este tip? era. de 1 en SS. El vuelo del ,chal/enger era la. m.isión núm~ro 25 del pro" grama de transbordadores. Utilice la distribución d.e Poissonpara comparar.las probabilidactes de--ah11t=;no·s.un desastre en 2.5 'mísione:s ·espaciales empleando- ambas estima_ciones.de la probabilidad de ocurrencia. 68. De' acuerdo .con.la llamada ''teoría de énero", si la bolsa de Valores está a la alza durante el mEíS' d_e-enSró;· a~í:·p-ermarie?erá-duratite,to_clo-:et añ~'.,Si. e_st_á ·a.:_l_a b8ja ·en_ éSe mes,.:s~f m.anten~ drá igual durante ellapso anual. Según un artículo publicado en el periódico The Wall Street Journal, esta."teoria" se cumplió en 29 de los últimos 34 años. Süponga que es, falsa. ¿Cuál es la probabilidad de que esto pudiera suceder por casualidad? (Probablemente necesitará un paquete· de software para computadora; como Excel o MINITAB.) · 69. Durante la segunda ronda del torneo abierto de.golf de Estados Unidos en 19~9, cuatro gol!istas .obtuvieron .un· "hoyo en uno" en el sexto turno. Las probabilidades de que un golfista prof~sio~al realice tal jugada son 3 708 a •1, por tanto, la probabilidad es,1/3708. Había 155 golfistas participando en la segundaron da ese día. Estime la .probabilidad de que cuatro de E}_l_lo_s_-. _IOQr13n:_ et· :apíerto :d~ . ' . t_Jn _h_()Yl}·:_· ¡;;n, u~:? '.j_:_~n . ~1.: ,~E!Xt()_. t_y~110 :_
.Ejercicio~2oridatóspa~ª.:GÓIT1PJ.Itadora 70 •. considereeJco.njun)p d~tlat9sde bieries raí~es (Re~!Sti!t~). que d.a información acerca de las. casaoven.qldas.en el. ~rea, d~ Vfni9a, fjlorida,;il .~fío p~sado: a) S\~l)or~ una dis,tribµci,qn de, probaqiJid~d pán¡ el nlimero dá alcobas .. Calcula la media y la ,d_esyiack)n estándar-_de,esa.:d,is,ttt!Ju~_ió_n.·:__ _ ... ____ .- , b) Elabore una distribución dé prop:füilidaa para el número d~ baños. Determine la media y la-.d_E!s_viaqión::~stánda_r de.J~l.:di_stri?ució~. -:·.-·_ ,-:: _, ., 71 .. considere el ..conjuntq d~.d'.'to::;?~ béisbol,(Baseba/l 2080(, que. co.ntíenejnfom)ación sobre la temporada 2000 de la, ~i~a tylayqr ~íl E.lf,<\· Hay 30 equipos .en las ligas mayores, y 7 de ello!'> ~.¡~_Q(3íJ.}?_?_tTJ_ P?$-_coq_: ~-.~p_EJ.rfici_e:~-.§lrt.ifíCi.~t ~-~~ .- 8-?f!1?,._Pé,L_rt_t3, ,_d~-J.~$ .' ~:ego.ciaci on_es ._ qo_n -·~¡ _:sind i?_ato ,d.e)°:~-jug.~Oqr,es 1 :.-se _re.alf~ará; ~n:.e~t~~lo;_·gprl_:._.r~,$;p_.Éfct.o::_~ ._!..tts-: .heddas causac:fas_ por_, urle;y ?aída en past() ,p~_tyréJJ,- .co_nt_ra. !_~_$ _~figin.Elct.as-_~rF~:up:e,·rr¡s¡_S~ .con, ?~spe.d artific!aL Se- se_l_eccion_élránj al..~zar, cinco de los equipos para p~rti~ipar en el estuctiq. ¿Cuál es la probabilidad de que 2 de los 5 equipos seleccionados juegue sus partidos locale~ en campos que tienen pasto artificial?
223
ilístribuciones de probabilidad discreta
1.
1
~~:~%T~:d ~sp~~i:eio~~~n~e Excel para genérafJasigüiente distribuci.ón .de pro~~bili~ad a) En la barra de herramientas elija la opció~ MegaSt~t, pulse en Probabilityyen Discrete ... ¡:>r<;>bf!l:!il.itypis!ri!J.ut¡0 n:;;. ....•...•..•............•...• b) En. la ventana de diálogo elija Binpp>ial, el npr!l~ro d~ ensayos es 6 y la probabilidad de éxito es 0.05. Sí quiereyer lag¡áfi~a pulseen displ;'¡Y graph,
•.<······ ,... . . . .•.•. .·. . .·. . .,... •. . . . . . •.•. . . . . . . . . . . . . . •. . . . . .•. . . . . . .·. . . . . . . . .
2; Los com,.andos _de E_x_éel n_eé:6sari6s ··p¡:irá'd€termjnar la diStrilJÚC!ón: dS-¡:frol:Jabilldad b_in·omiaf que ap~rece en la página 205 so~: . ·.• a) En una'hoja decálcuio en blanco deExbel, escriba la palabra ~xito en I~ celdaA1, y lapa, labra Probabilidad en la celdaBL En las celdas A2 a A14 escriba los enteros Q a 12. Especifique 82 .com.o lacelda activa. b) De la b.a~ra de herramientas elija lnsertarFunción; e} En.la primerayen!¡:¡na dediál~g?.elij~Es:ta~aenco~tr¡¡.rtqc1al~ói~tribyci~.n depf?t~bilidad,·vaya.a.la·barra deJórm.ulas.y susmuy¡¡. ••ei··~··en ~1•. 1'.'ci.?
ccw•12A
:¡frjfp,:-il!fü6r;¡ ,, -:,.-·,--~~-t{i~~~ifi
!J
"12,
~Yff~ii!'?;~: ~
··:-;\f~~:~~t~~-~J:-69~¡:--
'¿'.:Q
:,;, _:·-.f::.~~---
_ _
,_____ ~~r-~~9·.~~:-
: ;'.'_~-~jJ;u_l;Í_d'o,fO----·----~,"':,FAL:O$_-:,•
C---'~-C,_,_,,'.,,:C,'. .. ___ ,,;,
:,;:o:a.ú~%!<:r_
,,,
_.-_;.-
--;
(. ·.-,:¡ó~~\'df·:l ·:: _·C~·1v..~1~:-::
,,_:-_.;';-:__ :;;_>;-,;_,_."_··,->.<::.;_:,·-._.:,,-;_->;, >--"-<:-:_---\--
3,
,-.;_-.-_ .:._-,·;i=.:·:.< __ :--:---__ :.. - _-_--.'. '
' - ". ---·· - -
j '
~os cdrn:andos dél E)\celhecesarios par~defermin~r la dis!ribució.n .hipergeométrica de .la página 213 son:
'
224
Gapílulo 6 a) E.n una hoja .d.e cálc~lo en blanco d.e E~sel ~scribala. palabra Miembros en la. celda A 1 y la palabra probabilidad. en la celda. Bi; En las celdas A2 a A7 escriba los enteros O a 5. EsPeFifiq~e 82 cqmo lap~ld~ apti.va .. > b) De la barra de herramientas elij~J?oe.rtar y Función. e) En.la prifllWEI ventaDa de diálog~, elija Estadísticas y DISTR.l-llPERGEOM, y de:3p~1és.
este capituló podrá: Frili
Definir y calcular valores z.
Determinar la probabilidad de que una observación esté entre dos valores de una distribución, utilizando la distribución normal estándar.
Establecer 18. probabilidad de Cfüé,;un~
-ó_bs-e-rvación sea
mayor (o menor) que un valor det~rminado; utilizando la distribución normal estándar.
Comparar dos o más observa• dones que se hallen en .distih' tas olstribueíones de probabilidades, Sff~il$
l/tiliz~r!adistribüciónde pto, bal:lilii:1,ad n,orm~I p~ra apr,oxi• mar ladi.stribuciónde Prol:iabilidact .binomial..
227
El capítulo 6 estuvo dedicado a tres familias de distribuciones de probabilidad discreta: la distribución binomial, la distribución hipergeométrica y la distribución de Poisson. Recuérdese que estas distribuciones se basan en variables aleatorias discretas, que sólo pueden tomar valores específicos. Por eje:11p!o, el número de respuestas correctas en un examen que contiene 1O preguntas sólo puede ser O, 1, 2, 3,. .., 1O. No puede haber un nllmero negativo de respuestas correctas, como -7, tampoco puede haber 7 1/4 o 15 respuestas correctas. En.este capítulo se continlla con el estudio de las distribuciones de probabilidad, examinando una distribución de probabilidacl continua muy importante: la distribución de probabilidad normal. Como se indicó en el capítulo anterior, una variable aleatoria continua es la que puede tomar un número infinito devalores dentro ele un intervalo. Generalmente, es el resultado de medir algo, como el peso de una persona. El peso puede ser 162.0 libras (lb), 162.1 lb, 162.12 lb, etc. Otras variables aleatorias continuas son el tie111po de vida de las baterías tipo alcalino, el volumen de un contenedor de embarque y el peso de las impurezas en un lingote de acero. Las distribuciones de probabilidad de las expectativas de vida de algunos productos, como son baterías, neumáticos y focos (o lámparas), tienden a seguir un patrón "normal". Lo mismo sucede con los pesos de las cajas de cereal, la longitud de rollos de aluminio y otras variables que se miden con una escala continua. En este capítulo prln1ero se exa111inan las características principales de una distribución de probabilidad normal, y de la curva normal, Después se representa la distribución normal estándar y sus aplicaciones. Por último, se considera cómo se emplea !a distribución normal para estimar probabilidades binomiales.
La distribución de probab'ilidad normal y su correspondiente curva normal tienen las siguientes características: 1. La curva normal es acampanada y presenta un solo pico en el centro de la distribución. La media aritmética, la mediana y la moda de la distribución son iguales y están localizadas en el pico. De esta formá, la mitad del área bajo la curva se encuentra por arriba de este punto central, y la otra mitad por abajo. 2. La distribución de probabilidad normal es simétrica con respecto a su media. Si se corta la curva normal ve1iicalmente en este valor central,-ambas mitades serán como i111ágenes en el espejo. 3. La curva normal decrece uniformemente en ambas direcciones a partir del valor central. Es asintótica, esto significa que la curva se acerca cada vez más al eje X, pero en realidad nunca llega a tocarlo. Esto es, los puntos extremos de !a curva se extienden indefinidamente en ambas direcciones. Estas característícas se muestran gráficamente en el díagrama 7. i.
228
Capit~lo
7
Media, meclíana y moda son iguales
[J!,8JHilA,MA 7.1
Características de una distribución nom1al.
No existe sólo una distribución de probabilidad normal, sino que hay una "familia" de ellas. Existe una distribución de probabilidad normal para los años de servicio de los empleados de la planta de Camden, en la que la media es 20 (años) y la desviación es 3.1 (años.) Existe otra distribución de probabilidad normal de los años de servicio en la planta de Dunkirk, en la cual µ = 20 y cr = 3.9. En el diagrama 7.2 se ilustran tres distribuciones normales, donde las medias son iguales, pero las desviaciones estándar son diferentes. Medias iguales, desviaciones estándar distintas.
f'
Tfe111·po, .de. ser\ iciü 20 años_ 1
íl~AG~l.A~/¡A
7.2
Distribuciones de probabilidad norn1al con n1cdias iguales pero desviaciones estándar diferentes.
En el diagrama 7.3 se muestra la distribución de los pesos de tres cereales diferentes. Los pesos están distribuidos en forma normal, con medias diferentes, pero desviaciones estándar idénticas. Medias diferentes, desviaciones estándar iguales.
gramos D~AG~t.~JlA
1.3
gramos
gramos
Distribuciones ele probabilidad nonual con inedias diferentes, pero desviaciones estándar iguales.
229 Por último, en el diagrama 7.4 se muestran tres distribuciones normales con medias y desviaciones estándar diferentes. Estas distribuciones muestran Ja distribución de la resistencia a la tensión medida en libras por pulgada cuadrada (lb/pulg 2)[psi] de tres tipos ele cables, Medias diferentes,
desviaciones- estándar distintas,
U!AG.~11i~!lA
7 ,4
µ 2 000
2 107
(lb/pulg 2)
(lb/pulg 2)
I'
Distribuciones de probabilidad nonnal con inedias y desviaciones estándar diferentes.
Hay una familia de distribuciones normales, Cada distribución puede tener una media (µ) o desviación estándar (ér) diferentes. Por tanto, el número de distribuciones normales es i!imitado, Sería físicamente imposible proporcionar una tabla de probabilidades (como para las distribuciones binomial y de Poisson) para cada combinación de µ y '" Por fortuna se puede utilizar, en todos los casos en los que la distribución normal es aplicable, un miembro ele ia familia de distribuciones normales que tiene una media O y una desviación estándar 1, de-
nominado distribución norma! estándar. Cualquier distribución normal puede convertirse en la "distribución normal estándar" restando la media a cada observación, y dividiendo entre la desviación estándar, Primero se convierte, o se estandariza, !a distribución que se tiene, en la distribución normal estándar utilizando un valor z (también denominado, puntuación z, valor estadístico, desviación normal estándar, o simplemente desviación norma~.
va16r elegido, denotaf!o por X, y la media µ, dividida en-
l{DJ.Ór z cliferencia e11fre ,un tre,la desviación estánd<)r, cr .•
Por tanto, un valor z es ia distancia a la media, medida en unidades de la desviación estándar, Expresado en una fórmula:
donde: )( µ
u
es el valor de cualquier medida u observación especí'fica. es la media de la distribución, es la desviación estándar de la distribución.
230
Capítulo 7 Como se observa en la definición anterior, un valor z mide la distancia entre un valor específico X y la media aritmética, en unidades de desviación estándar. Al determinar el valor z mediante la fórmula (7.1), se puede obtener el área o la probabilidad bajo cualquier curva normal, recurriendo al apéndice D. Para explicar lo anterior, supóngase que el valor calculado para z es ·1.91. ¿Cuál es el área bajo la curva normal entre la medía y X? En la tabla 7.1 se reproduce una parte del apéndice D. La columna izquierda de la tabla, encabezada con la letra z, se recorre hacia abajo hasta encontrar el 1.9. Después se desplaza horizontalmente hacía la derecha, se lee la probabilidad bajo la columna encabezada con 0.01. La probabilidad es 0.4719. Esto significa que 47.19% del área bajo la curva normal estándar se encuentra entre la media y el valor X de 1.91 desviaciones estándar después de la media. Esta es la probabilidad de que una observación se encuentre entre O y 1.91 desviaciones estándar después de la medía.
o
Tfi,.8L1~ 7:1
z
1.91
Áreas bajo la curva norn1al.
z
0.00
0.01
0.02
0.03
0.04
0.05
1.5 1.6
0.4332 0.4452 0.4554 0.4641 0.4713
0.4345 0.4463 o.4564 0.4649 [b.4719[
0.4357 0.4474 0.4573 0.4656 0.4726
0.4370 0.4484 0.4582 0.4664 0.4732
0.4382 0.4495 0.4591 0.4671 0:4733
0.4394 0.4505 0.4599 0.4678 0.4744
1.7
1.8 1.9
·.
¿Cuál es el área bajo la curva entre la media y X para los siguientes valores z? Compruebe sus respuestas con las expresadas. No todos los valores se encuentran en la tabla 7.1. Deberá utilizar el apéndice D. Valor z
Área bajo la curva
2.84 1.00 0.49
0.4977 0.3413 0.1879
231 Allora se calculará el valor z para una media poblacional ~L, una desviación estándar poblacional
Los ingresos se111anales de supervisores de turno en la industria ele! vidrio tienen una distribución normal con media $1 000 (dólares), y desviación estándar $1 OO. ¿Cuál es el valor z correspondiente al ingreso de un supervisor que gana $1 100 a la semana?¿ Y para un supervisor que tiene un ingreso semanal de $900?
SOLUCIÓN
Utilizando la fórmula (7. 1), los valores z para los dos valores indicados de X ($1 100 y $900) son: Para X= $1 100:
X - ¡.e z=-0'
Para X= $900: )(- µ
z=-0'
$1 100 - $1 000
$900 - $1 000
$100
$100
= 1.00
= -1.00
El valor z = ·1.00 indica que el ingreso semanal de $1 100 se encuentra a una desviación estándar sobre la media; unaz = - ·1.00 indica que el ingreso de $900 se encuentra a una desviación estándar por debajo de la media. Observe que ambos ingresos ($1 100 y $900) están a la misma distancia ($100) de la media.
Utilizando la misma información que en el ejemplo anterior (µ, = $1 000, O'= $100), convierta: a) El ingreso semanal $1 225, en una unidad estándar (valor z). b} El ingreso semanal, $775, en un valor z.
1 1 1
L___ - - ---~ -~---~--·--·--~----------- ----- ~~-----------~---~------~-----·--·-. ·-----~-----. . . --,·--~_] Antes de examinar diversos usos de la distribución de probabilidad normal estándar, se consíderarán tres áreas bajo la curva norma! que serán muy utilizadas en los siguientes .capítulos. En el capítulo 4 estas áreas también se conocen como la Regla Empírica.
1. Aproximadamente 689/o de! área bajo !a curva normal está entre la media 111ás una y menos una desviaciones estándar, y se expresa p.± í cr. 2. Alrededor de 95% del área bajo la curva normal está entre la media más dos y menos dos desviaciones estándar, lo que se expresa /..1 ± 2CT. 3. Prácticamente toda el área bajo la curva nor111al está entre la media y tres desviaciones estándar (a uno y otro lados del centro), es decir p, ± 30'. En términos de porcentajes, lo anterior se indica gráficamente así:
232
Capitulo 7
La estadística ., en accmn Escala X
~l
1~- 68.26% ~1 1~--·-95.44% ----~ !<--------~
;,:·.-_:-.-.
-\:'·.
(;~\_~'i:-i:.·- ·--\.''·::·: -'./ ',\i':':/ ·:· ,-, '_-,_ -_,-~/
99.74%
Transformar las mediciones a valores z (o desviaciones normales estándar) modifica la escala. Las conversiones se muestran en el siguiente diagrama. Por ejemplo, f.l + 1cr se convierte en el valor z de +1.00. De manera semejante, f.l - 2cr se transforma en el valor z de -2.00. Observe que el centro de la distribución z es cero, lo que indica que no hay desviación respecto a la media, f.l·
;:_-~-'.-}n,~l_::::·~~;~!-~i~;~1P~?:•':1.\I,~: :_
>q;~:~%~!-i:~R,7:~-~-?c~,~j~gl~~-
-. --~~'}_;/~-:~~~~-ª-: ~-5.\q_far, · \J_~ ~p~_ tiid;J~¡\f';·d~-:
-~~ho_l~sa_c f\_Pfitu~k .,- :1'est)_:;q11e.·_se:aplica~ ~n ::
EUA,,_se;distcib11ye°' rioriilalrrie'rite· Con ·media l 000 Ydesviació_n
estándar 140.
se Cónvieiie ·en -~--~--~~--~~--·~--~---"--
-3
EJEMPLO
-2
-1
o
2
3
z
Una prueba del tiempo de vida útil de baterías alcalinas tipo O, reveló que su tiempo medio de vida es 19.0 horas (h). La distribución de los tiempos de vida se aproxima a una distribución normal. La desviación estándar de la distribución es 1.2 h. 1. ¿Entre qué par de valores falla alrededor de 68% de las baterías? 2. ¿Entre qué par de valores falla aproximadamente 95% de las baterías? 3. ¿Entre qué par de valores fallan prácticamente todas las baterías?
SOLUCIÓN
Para responder a estas preguntas se pueden usar los resultados de la Regla Empírica.
233
Distribución de probabilidad normal
-1 _ Aproximadamente 68% de las baterías falla entre 17.8 h y 20.2 h, valores obtenidos de 19.0 ± 1(1.2)h. 2. Alrededor de 95% de las baterías falla entre 16.6 h y 21.4 h, que se obtiene de 19.0 ± 2(1.2)h. 3. Prácticamente todas las baterías fallan entre 15.4 h y 22.6 h, que se obtiene de 19.0 ± 3(1.2)h. Esta información se resume en el siguiente diagrama:
µ-3cr 15.4
Autoexamen 7.2
µ-2cr 16.6
µ-1cr 17.8
µ 19.0
µ+1cr 20.2
~+2cr
21.4
;t+3cr 22.6
La distribuCión de !os ingreSos anu8.!es· de un grup'o de erilpfSadas·a nivel gerencia m8di8.;·eri la empresa Compton Plastics, sigue aproximadamente una distribución normal con riledia $37 200 (dólares) y desviación estándar $800. a)
¿Entre qué par de cantidades está aproximadamente 68% de los ingresos?
b) ¿Entre cuále~ d()~ va[ores se .encuen.tra.~proximadar:i,ente_95% de los ingresos? e) ¿Entre
Ejercicios 1. Explique lo que significa e! siguiente enunciado: "No existe sólo una distribución de probabilidad normal, sino una 'familia' de estas distribuciones". 2. Indique las principales cáracterísticas de una d!stribución de probabilidad normal. 3. La media de una distribución de probabilidad normal es 500; la desviación estándar, 1O. a} ¿Entre qué par de valores está aproximadamente 68% de las observaciones? b} ¿Entre qué par de valores se encuentra alrededor de 95% de las observaciones? e) ¿Entre qué par de valores están prácticamente todas !as observacíones? 4. La media de una distribución de probabilidad normal es 60, y la desviación estándar, 5. a) ¿Aproximadamente qué porcentaje de !as observaciones se encuentra entre 55 y 65? b) ¿Aproximadamente qué porcentaje de !as observaciones se encuentra entre 50 y 70? e) ¿Aproximadamente qué porcentaje de las observaciones se encuentra entre 45 y 75? 5. La familia Caso tiene gemelos, Robert y Raquel. Ambos terminaron sus estudios el año pasado y ahora cada uno gana $50 000 (dólares) al año. Raquel trabaja en el comercio donde el suel-
234
Capitulo 7 do medio de ejecutivos con 11.enos ele 5 años de experiencia es $35 000 con una desviación estándar de $8 000. Robert es ingeniero. El salario medio de los ingenieros con menos ele 5 años de experiencia es $60 000, con una desviación estándar ele $5 000. Calcule !os correspondíentes valores z y haga un comentario sobre los valores que encuent1·e. 6. U_(l artículo reciente, que apareció en una revista,_ indica que el costo medio de la reparación de un receptor ele televisión a colores es $90, con una desviación estándar de $22. En un taller donde se repa1·an televisores se acaban de a1-reglar dos, -los costos correspondientes 'fueron $75 y $i OO. Calcule el valor z de cada uno de los costos y haga un comentario sobre los valores encontrados.
Cálculo delárea bajo la curva nmmal La primera.8.plicación de la distribución normal estándar incluye el cálculo del área, en una distribución normal, entre la media y un valor determinado, que se identifica por X. El ejemplo siguiente ilustrará los detalles.
Recuerde que en un ejemplo anterior (pág. 231) se vio que el ingreso semanal medio de un supervisor ele turno en la icdustria del vidrio tiene una distribución normal, con 111edia $1 000 (dólares) y desviación estándar $100. Es decir, fL ~ $1 000 y u~ $100 ¿Cuál es la probabilidad de seleccionar un supervisor de turno cuyo ingreso semanal esté entre $1 000 y $1 100?
SOLUCIÓN
Ya se convirtió $1 100 en un valor z, ·1.00, aplicando la fórmula 7.1, la cual. se repite:
X -1~ $1 100 - $1 'IOO z == ----~-~ ()'
$100
1.00
La probabilidad correspondiente asociada a un valor z de 1.00 se encuentra en el apéndice D. A continuación se presenta una parte del apéndice D. Para localizar el área se recorre hacia abajo la columna izquierda hasta 1.0. Después se va horizontalmente hacia la derecha, y se lee el área bajo la curva en la columna marcada 0.00. El valor que se obtiene es: 0.3413.
z 0.7 0.8 0.9 1.1
.
O.IJO
om
0.02
o.25sJJ
0.2611 0.2910 0.3186 ó,34~8 0.3665
0.2642 0.2939 0.3212 03'~$1 0.3686
b.2.füli
·i·~~~t·
''úMH'
El área bajo la curva normal entre $1 000 (dólares) y $1100 es 0.3413. También puede decirse que 34.13% de los sup8rvisores de turno en la industria del vidrio ganan entre $1 000 y $'1 100 a la semana, o que la probabilidad de elegir a un supervisor cuyo ingreso esté entre $1 000 y $1 100, es 0.3413.
235
Disiri!JucióITTJ de probabilidad JUormai Esta información se resume en el diagrama siguiente
La estadística e111. acción
$1 000 ~1100
dü~l)n_fo'.i?~:,_~~Xº-::i}?l~--- .
qL:_c/~_l:_,~Húi;k _S:e; ~-ie_óti( . c11gc1fía~l~ y í;¡· aut~ri~ -
cba: cdfré.~!JOó'dléii'te' -' puede cuestionar !as es~ pecificácione.~ ele la etiqueta. Los "Diagramas de conln1L), descritos en el capflulo 17, con
En el ejemplo anterior se busca la probabilidad entre la media y un valor determinado. Se puede modificar la pregunta. En lugar de querer conocer la probabilidad de elegir a un supervisor que gane entre $1 000 y $1 100, supóngase que se quiere la probabilidad de elegir a uno que gane menos de $11 OO. El método de solución es el mismo. Se encuentra la probabilidad de elegir a un supervisor que gane entre $1 000, la media, y $1 1OO. Esta probabilidad es 0.3413. Después, recuérdese que la mitad del área, o de la probabilidad, está por encima de la media, y la otra mitad está por debajo de la media. Por tanto, la probabilidad de elegir a un supervisor que gane menos de $1 000 es 0.500 Por último, se suman ambas probabilidades, 0.3413 + 0.5000 ~ 0.8413. En la industria del vidrio, aproximadamente 84% de los supervisores ganan menos de $1 100 por semana. Ver el siguiente diagrama.
límites marcados a ln~s tlCS\:i;ici.óne~- esfüi~di\:
por arriba y por de;1haio de b media, se utilizan rutinariamente
para controlar este tipo de procesos de produccióíL
o
1.0
Escala dez Escala en dólares
Excei también puede calcular esta probabilidad. Ver la siguiente pantalla de resultados. Los pasos para obtenerla se proporcionan al final del capítulo en la sección Comandos para Computadora.
236
EJEMPLO
Capit"lo 7
Refiérase a la información sobre los ingresos semanales de los supervisores de turno en la industria del vidrio. Los ingresos semanales siguen una distribución normal con media $1 000 y desviación estándar $1 OO. ¿Cuál es la probabilidad de elegir a un supervisor de turno en la industria del vidrio cuyo ingreso: 1. esté entre $790 y $1 000? 2. sea inferior a $790?
SOLUCIÓN
Primero se calcula el valor de z que corresponde a un salario semanal de $790. De la fórmula 7.1 se tiene que:
z = Xcr
µ, = $790 - 1 000 = _ . O 2 1 $100
Consulte el apéndice D. Bajando por el margen izquierdo se encuentra el renglón correspondiente a 2.1 y recorriendo ese renglón se llega a la columna cuyo encabezado es 0.00. El valor es 0.4821. El área bajo la curva normal que corresponde a un valor de z de 2.10 es 0.4821. Sin embargo, como la distribución normal es simétrica, el área entre O y una z negativa es igual a la que existe entre O y z. La probabilidad de encontrar a un supervisor que gane entre $790 y $1 000 es 0.4821.
z
0.01
0.02
0.4783
2.3
0.4893
0.4896
0.4868 0.4898
Dis!ribución de probabilidad r.ormal
237
La media divide a la curva normal en dos mitades idénticas. El área bajo la mitad de la gráfica a la izquierda de la media es 0.5000, y el área que se encuentra a la derecha de la media también es 0.5000. Como el área bajo la curva entre $790 y $1 000 es 0.4821, el área por debajo de $790 es 0.0179, dato que se determina restando 0.4821 de 0.5000. Esto significa que aproximadamente 48% de los supervisores tiene ingresos semanales entre $790 y $·1 000. Además, podemos anticipar que poco menos de 2% gana menos de $790 por semana. Esta información se resume en el diagrama siguiente.
$790
Aufoexamen 7.3
Escala de dólares
A los empleados de la empresa Cartwright Manufacturing se les otorgan puntuaciones por efi-
ci_encia. La es a) b) e)
di~tribuc_ión
de las puntuaciones se.aproxima_ a una distribución normal. La medía
400, y la desviación estándar, 50. ¿Cuál es el área bajo la curva n.ormal entre 400 y 482? ¿Cuál es el área bajo la curva normal para puntuaciones mayores que 482? Muestre los aspectos de este problema en un diagrama.
Ejercicios 7. Una población normal tiene media 20.0 y desviación estándar 4.0. a) Calcule el valor z correspondiente a 25.0. b) ¿Qué proporción de la población está entre 20.0 y 25.0? e) ¿Qué proporción de la población es menor que 18.0? 8. Una población normal tiene media 12.2 y desviación estándar 2.5. a) Calcule el valor z correspondiente a 14.3. b) ¿Qué proporción de la población está entre 12.2 y 14.3? e) ¿Qué proporción.de la población es menor que 1O.O? 9. Un estudio reciente de los sueldos por hora del personal de mantenimiento en aerolíneas im'POrtantes mostró que el salario medio por hora era $16.50 (dólares), con una desviación estándar de $3.50. Si se selecciona a! azar un elemento de la tripulación, ¿cuál es la probabilidad de que gane: a) entre $16.50 y $20.00 por hora? b) más de $20.00 por hora? e) menos de $15.00 por hora?
238
Capílt1lo 7 1 O. La media de una distribución rormal es 400 llbras (lb). La desviación estándar es 1O !b. a) ¿Cuál es el área ent1·e 415 lb y la media de 400 lb? b) ¿Cuál es el área entre la media y 395 lb? e) ¿Cuál es la probabilidad ele seleccionar un valor al azar y encontra1· que tiene un valor in-
ferior a 395 lb?
Una segunda aplicación de la distribución normal estándar es la combinación de dos áreas o probabilidades, una está a la derecha y la otra a la izquierda de la media.
Volviendo a la distribución de ingresos semanales de los supervisores de turno de la in· dustria de! vidrio. Los _ingresos semanales siguen una distribución normal con media $1 000 (dólares), desvi_ación _estándar $1 OO. ¿Cuál es el área bajo la curva normal entre $840 y $1 200 dólares?
SOUJCIÓN
El problema se divide eh dos partes. Para el área entre $840
z= $840 .- 1 000 $100
Para el área entre la media de $1 000
z=
y la media $1 000:
_:::$160 - -1.60 $100
y $1 200:
$1 200 - 1 000 $100
_$?ºº
=
$100
2.00
El área bajo la curva para un valor z de -1.60 es 0.4452 (tomada del apéndice D). El área bajo la curva para z = 2.00, es 0.4772. Al sumar ambas áreas se tiene: 0.4452 + 0.4772 = 0.9224. De esta forma, la probabilidad de seleccionar un ingreso entre $840 y $1 200 es 0.9224. En otras palabras, 92.24% de los supervisores tiene un ingreso semanal entre $840 y $1 200. Mostrado en un diagrama:
~1 !
-1.6
O
2,0
Escaladez
i
---~$~8-40-~--$-I-º-00--~-$~:1-2~º-º__ Escala de dólares J
Otra aplicación de la distribución norma! estándar consiste en determinar el área entre dos valores a un mismo lado de la media.
Distribución de probabilidad normal
239
EJEMPLO
Considerando de nuevo el ejemplo de los ingresos semanales de los supervisores de la industria del vidrio (¡, = $1 000, cr = $100), ¿cuál es el área bajo la curva normal entre $1150 y $1 250?
SOLUCIÓN
Otra vez el problema se divide en dos partes y se usa la fórmula (7.1) Primero se encuentra el valor z correspondiente al salario semanal de $·1 250:
z=
$1 250 - 1 000 = 2.50 $100
Después se encuentra el valor z para un salario semanal de $·1 150:
z=
$1 150 - 1 000 $100
= 1.50
Del apéndice D se tiene que el área correspondiente a un valor z de 2.50 es 0.4938. En consecuencia, la probabilidad de un ingreso semanal entre $1 000 y $1 250 es 0.4938. Similarmente, el área correspondiente a un valor z de 1.50 es 0.4332, por consiguiente, la probabilidad de un ingreso semanal entre $1 000 y $1 150 es 0.4332. La probabilidad de un salario semanal entre $1 150 y $1 250 se obtiene restando el área correspondiente a un valor z de 1.50 (que es 0.4332), de la que corresponde a un z de 2.50 (es decir 0.4938). Por tanto, la probabilidad de un ingreso semanal entre $1 150 y $1 250, es 0.0606. Gráficamente se tiene:
En resumen, existen solamente cuatro situaciones en las que se quiere encontrar el área bajo la distribución normal estándar. 1. Si se quiere obtener el área entre O y z (o bien -z), entonces puede buscarse el valor directamente en la tabla. 2. Si se desea encontrar el· área más allá de z o de -z, entonces se localiza la probabilidad de zen la tabla y se resta ese valor de 0.5000 .. 3. Si se quiere obtener el área entre dos puntos a diferentes lados de la media, se determinan los valores z y se suman las áreas correspondientes .. 4. Si se desea encontrar el área entre dos puntos al mismo lado de la media, se determina el valor z y se resta el área menor del área mayor.
240 Refiérase al ejemplo anterior, en el cuela media del ingreso semanal sigue una distribución n.orma! con media $i 000 y desviación estándar $100: a) ¿Qué porcentaje de los supervisores de turno tienen un ingreso sen1anal entre $750 y $1 225? Dibuje una curva norn1al y sombree el área deseada en el diagrama. b) ¿Qué porcentaíe de supervisores de turno tienen un ingreso semanal entre $i i 00 y $i--2-25? Dibuje una curva- norn1a!--y-sombree e!- área deseada en el- diagrama.
11-1~
a
~
1' "1,crc1'"'0" ',,._.;_"'-'_¡,_
~ }"-'~
u'
~~,~~~~=,=~~~-~"
ii. Una población normal tiene media 50 y desviación estándar 4. a} Calcule la probabilidad de tener un valor entre 44.0 y 55.0. b) Eval(1e la probabílidacl de tener un valor mayor que 55,0, e) Determine la probabilidad de tener un valor entre 52.0 y 55.0. 12. Una población normal tiene media 80.0 y desviación estándar i4.0. a) Calcule la probabílídad ele tener un valor entre 75,0 y 90,0, b) Halle la probabilidad de tener un valor de 75.0 o menor. e) Calcule la probabilidad de tener un valor entre 55.0 y 70.0. 13. Una máquina expendedora de refresco se ajusta para servír 7.00 oz (onzas) del líquido por vaso. La desviación estándar es O. í O oz. Las cantidades surtidas siguen una distribución normal. ¿Cuál es la probabílídad de que la máquina sirva: a) entre 7.10 y 7.25 onzas de ,-efresco? b) 725 oz o más? e) entre 6,8 y 725 onzas? 14. Las cantidades de dinero en solicitudes de préstamo para casas que recibe la empresa Dawn Ríver Federal Savíngs, están clístribuídas en forma normal con medía $70 000 (dólares) y desviación estándar $20 000. Una solicitud de préstamo se reclbió esta mañana. ¿Cuál es la probabílídad de que: a) la cantidad solicitada sea de $80 000 o más? b) la cantidad solícítada esté entre $65 000 y $80 000? e) la cantidad solícítada sea $65 000 o más? 15. WNAE, una estación de noticias que transn1ite en AM, encuentra que el tiempo que los radioescuchas sintonizan la estación sigue la distribución normal. La media de la distribución es i 5 minutos y la desvíación estándar 3.5 minutos. ¿Cuál es la probabílidacl de que un radioescucha particular la sintonice: a) más de 20 minutos? b) 20 minutos o menos? e) entre 1O y 12 minutos? i 6. En la prin1avera de 2000 el salario inicial n1edio de los recién egresados de la escuela era $31 280. Supóngase que !os salarlos iniciales siguen una distribución normal con desviación estándar $3 300. ¿Qué porcentaje de !os egresados tiene· un salario inicial 111edio a) entre $30 000 y $35 000? b) superior a $40 000? e) entre $35 000 y $40 000? En los eje111plos anteriores fue necesario determinar el porcentaje de las observaciones localizadas entre dos observaciones, o el porcentaje de las observaciones superiores (mayores), o ínferíores (menores), a una determinada observación X Otra aplicación de la dístríbuclón normal estándar consiste en determinar el valor de la observación X dado el porcentaje hacia arriba o hacia abajo de la observación.
241
Distribuci,lin de prnbabilidaci normal
Supóngase que un fabricante de neumáticos desea establecer un mínimo de millas de garantía para su nueva llanta i\JIX1 OO. Las pruebas de duración 1·evelaron que la duración n1edia (en millas recorridas) es 67 900, con una desviación estándar de 2 050 millas, y una distribución normal. El fabricante desea establecer un mínimo de millas de garantía de manera que no sea necesario reemplazar más de 4% de los neumáticos. ¿Cuántas millas de recorrido de garantía debe anunciar el fabricante?
SOLUCIÓN
Los aspectos de este problema se señalan en el diagrama siguiente, donde X representa las millas de garantía.
X ?
,ll
Escala en millas
67 900
Sustituyendo estos valores en la fórmula (7.1) para z:
X-µ
z~--~
Cl
X-67 900 2 050
Hay dos incógnitas, z y X Para determinar z obsérvese que el área bajo la curva normal a la izquierda de ¡.c. es 0.5000. El área entre>' y X es 0.4600. que se obtiene de 0.5000 0.0400. Ahora consulte el apéndice O y busque en latabla'e! área más cercana a 0.4600. El área más cercana es 0.4599. Vaya hacia los márgenes desde este valor y lea el valor de z, 1.75. Como el valor se encuentra a la izquierda de la media, es en realidad -1.75. Estos pasos se resumen en la tabla 7.2. IJU3tf~.
'?.'Z
ÁrcHs seleccionadas debajo de la curva non11a1.
z
0.03
1.5 1.6 1.7 1.8
0.4370 0.4484 0.4582 0.4664
0.04
0.4382 ·· o.4394 0.4495 0.4505 0.4591 0.4599· 0.46TI 0.4673
0.06
0.4406 0.4515 0.4608 0.4686
242
Capíiulo 7 Sabiendo que la distancia entreµ y X es -1.75
X - 67 900
z=---·-2 050
_
.7
1 5
=
X ce 67 900
2 050 - 1.75(2 050) =X - 67 900
X= 67 900 -1.75(2 050) = 64 312 Por tanto, el fabricante puede anunciar que reemplazará gratis cualquier neumático que se gaste antes de llegar a 64 312 millas, y la compañía sabrá que solamente 4% de sus llantas deberá sustituirse siguiendo este plan.
MegaStat también puede realizar estos cálculos. La siguiente pantalla de resultados indica que 0.04 del área es inferior, y 0.96 del área es superior al valor de x, que está resaltado. Los comandos necesarios para obtener estos resultados se indican en la sección de Comandos para computadora que se encuentra al final del capítulo.
Auloexamen 1.5
Un análisis de las calificaciones finales en el examen de Introducción a los negocios, reveló que !as calificacior:ies seguían una curva normal, con media 75 y desviación estándar 8. El profesor
desea. oto.rgar una calificación d~ A a los alumnos cuyas calificaciones estén en el 10% superior. ¿C_uál .es e! punto divisorio entre las calificaciones A y B?
!Jis!ribución de prnbabil;dad normal
243
Ejercicios 17. La rnedia de una distribución normal es 50 y la desviación estándar es 4. Determine e! valor por debajo del cual se encuentra 95% de las observaciones. 18. La media de una distribución norrnal es 80 y la desviación estándar es i 4. Deterinine el valor por arriba del cual se encuentra 80% de-!as observaciones. i 9. Las cantidades surtidas por una máquina de refrescos siguen una distribución normal en la que la media es 7 onzas y la desviación estándar es O. i O onzas por vaso. ¿Cuál es la cantidad surtida en el 1 % superior de las cantidades entregadas por vaso? 20. Consulte el ejercicio 14 en el que las cantidades de dinero en las solicitudes de préstamo para casa siguen una distribución non11al con media $70 000 y desviación estándar $20 000 aj ¿Cuál es la cantidad solicitada en el 3% superior de !os préstamos? b} ¿Cuál es la cantidad solicitada en el 10% inferior de los préstamos? 21. Supóngase que !os cos~os medios por hora para la operación de un avión comercial siguen una distribución normal, con media $2 100 por hora y desviación estándar $250. ¿Cuál es el costo de operación en el 3% inferior de los aviones? 22. Las ventas mensuales de amortiguadores de ruido para automóviles (mofles) siguen una distribución normal en la que la 111edia es 1 200 y la desviación estándar es 225. E! fabricante necesita establecer niveles de inventarío de manera que la posibilidad de que se agote la existencia de mof!es sea solamente 5%. ¿Dónde se deben fijar Jos niveles de inventario?
Aproximación normal a la bino1nial
Cuándo usar la aproxima-
ción normal.
En el capítulo 6 se analizó la distribución de probabilidad binomial, que es una distribución discreta. La tabla de probabilidades binomiales del apéndice A va sucesivamente desde n = 1 hasta n = 20, y después a n = 25. Si en un problema se tiene una muestra de tamaño 60, generar una distribución binomial para un número tan grande tomaría mucho tiempo. Un método más eficiente consiste en aplicar la aproximación normal a /a binomial. Utilizar la distribución normal (que es continua) como sustituto de una distribución binomial (que es una distribución discreta) para valores grandes den parece razonable porque, conforme aumentan, una distribución binomial se acerca cada vez más a una distribucíón normal. En el diagrama 7.5 se representa el cambio en la fqrma de una distribución binomial con TI= 0.50 desden = 1 hasta n = 3, a unan de 20. Cuando n = 20 la forma se aproxima a la de una distribución normal. Es decir, compare el caso en el que n = 20 con la curva normal del diagrama 7.1. ¿Cuándo se debe utilizar la ap1·oximación normal a la binomial? La distribución de probabilidad normal se considera una buena aproximación a !a distribución binomial cuando ambas, n "1T y n(1 - "TI"), son por lo menos 5. Sin embargo, antes de aplicar la aproximación normal es necesario asegurarse de que la distribución de interés sea en realidad del tipo binomial. Recuérdese, del capítulo 6, que para que esto suceda deben cumplirse cuatro criterios: 1. En un experimento sólo existen dos resultados mutuamente excluyentes: "éxito" y "fracaso". 2. La distribución es el resultado de contar el número de éxitos en una cantidad fija de ensayos. 3. Cada ensayo es independiente. 4. La probabilidad, 1T, permanece igual de un ensayo a otro.
Factor de corrección de continuidad Para mostrar el uso de la aproximación norma! a !a binomial, y la necesidad de un factor de corrección, supóngase que la gerencia de un restaurante (Santoni Pizza) encontró que 70% de sus nuevos clientes regresa a su establecimiento. En una semana en la que hubo 80 consumídores nuevos, ¿cuá! es la probabilidad de que 60 o más regresen en otra ocasión?
244
Capílt1ío 7
Nún1ero de
Número de ocurrencias
ocurrencias
í:J~i~[ffU~[\IJA
7.5
Distribuciones binornia1es paran igual a 1, 3 y 20, en 1.as que
1T
= 0.50.
Obsérvese que las condiciones binomiales se satisfacen: (1) existen sólo dos resultados posibles, un cliente regresa o no. (2) Se puede contar el número de éxitos, que significa, por ejemplo, que regresen 57 de los 80 clientes. (3) Los ensayos son independientes, lo que significa que si la 34a persona regresa, eso no afecta el hecho que vuelva el 580 cliente. (4) La probabilidad de que una persona regrese, sigue siendo O. 70 para los 80 clientes. Por tanto, se puede utilizar la fórmula binomial (6.3):
Para calcular la probabilidad de que 60 o más clientes regresen, se necesita calcular primero la probabilidad de que regresen exactamente 60 clientes. Esto es:
Después se calcula la probabilidad de que exactamente 61 clientes regresen. Esto es:
Este proceso contin(1a hasta que se tiene la probabilidad de que los 80 regresen. Por último se suman las probabilidades desde 60 hasta 80. Sin embargo, resolver el problema ele esta fornia es bastante tedioso. Se puede usar ta1nbién un paquete de software como M!NlTAB o Excel para encontrar las diferentes probabilidades. A continuación se presenta una lista de las probabilidades binomiales para 11 ~ 80, n ~ 0.70 y x, el n(1rnero de clientes que regresa, desde 43 hasta 68. La probabilidad de que cualquier número de clientes menor que 43 o mayor que 68 regrese, es menor que 0.001.
245 Número de clientes que iregresan 43
44 45 46 47 48 49 50 51 52 53 54 55
Probabi!idw3
Núrnero de clientes que regresan
O.Off! 0.002 0.003 0.006 0.009 om5 0.023 0.033 0.045 0.059 0.072 0.084 0.093
56
57 58
59 60 61 62 63 64 65 66 67 68
Prnbabi!idad 0.097 0.095 0.088 0.017 0.063 0.048 0,034 0.023 0.014 0.008 0.004 0.002 0.001
Se puede determinar la probabilidad de 60 o más sumando 0.063 + 0.048 + .. , + 0.001, lo que da O.i97. Sin embargo, en la representación siguiente se puede observar la semejanza de esta distribución con !a distríbución normal. Todo lo que se debe hacer es "suavizar" las probabilidades discretas hacia una distribución continua. Además, el hecho de trabajar con una distribución normal requerirá de una cantidad n1uy inferior de cálculos que el trabajo con la distribuci.ón binomial. El truco consiste en hacer que la probabilidad discreta para 56 clientes sea representada por el área bajo la curva co1tinua entre 55.5 y 56.5. Después, hay que hacer que la probabilidad para 57 clientes esté representada por un área entre 56.5 y 57.5, y así sucesivamente. Esto es precisamente lo contrario a redondear nt.'.1meros a enteros.
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 Clientes
Debido a que se utiliza la distribución normal para determinar la probabilidad binomial de
60 o más éxitos, se debe restar, en este caso, 0.5 de 60. Al valor 0.5 se le denomina factor ele corrección por continuidad. Este pequeño ajuste debe hacerse porque se utiliza una distribución continua (la distribución normal) para aproximar una distribución discreta (la distribución binomial.) Restando, 60 ~ 0.5 ~ 59.5 .
.f.~~~or ~1l~:c?Jt'lt'f'~ci(}7.a. 9º,t, . ~?t]fin~1i?0.~ ..E._l_va!?r 0.5,.qu.€3_ .~e resta o se surn.a
1 clependiend\l ~e la ~.ituación(a un v31or sel~ccionado cua0cloura di.stribución ele probabili" ·dad diséreta se aproxima por medio de un.a distribución de probabilidad continua.
246
capí!ulo 7
Cómo aplicar el factor de corrección Solamente pueden presentarse cuatro casos, que son:
1. Para la probabilidad de que por lo menos ocurra X, se usa el área sobre los valores ma-
La estadística en acción
yores que (X - 0.5) 2. Para la probabilidad de qua ocurran más de X, se usa el área sobre los valores mayores que (X+ 0.5) 3. Para la probabilidad de que ocurran X o menos, se usa el área sobre los valores menores que (X+ 0.5) 4. Para la probabilidad de ocurran menos de X, se usa el área sobre los valores menores que (X - 0.5) Los pasos para utilizar la distribución normal con el fin de aproximar la probabilidad de que 60 o más, de 80 clientes nuevos, regresen al restaurante Santoni, son: Paso 1.
Encontrar el valor z que corresponde a X= 59.5 aplicando la fórmula (7. 1), y las fórmulas (6.4) y :6.5) para la media y la varianza de una distribución binomial: µ, =
n"' = 80(0.70) = 56 cr2
= nTI(1
cr =
- 'IT)
Vi6.8- =
z = X-
µ,
=
cr Paso 2.
Paso 3.
= 80(0.70)(1
- 0.70)
= 16.8
4.10 59.5 - 56 '4.10
= 0 _85
Determinar el área bajo la curva normal entre µ, = 56 y X= 59.5. Del paso 1 se sabe que el valor z que corresponde a 59.5 es 0.85. Luego se consulta el apéndice D, y se lee hacia abajo en el margen izquierdo hasta llegar a 0.8, y después se desplaza horizontalmente hasta al área bajo la columna con el encabezado 0.05. Ésta es 0.3023. Calcular el área más allá de 59.5 restando 0.3023 de 0.5000 (es decir, 0.5000 - 0.3023 = O. 1977). De esta forma, O. 1977 es la probabilidad aproximada de que 60 o más, de los 80 clientes nuevos, regresen al restaurante Santoni. Los aspectos de este problema se muestran gráficamente como sigue:
buéión ·t'!onTI-" vi'adóri ~sl:cí.ndar 6.l
crn. :_f}or .tantci;_: [l!rCde•' -, .dor._de:.35%-de.bs n1u~ jercs:adu.ltas·i10 se sentirán Cómodas en el asiento del conductor.
56 fL
o
59.5
Escala de X
X 0.85
Escala de z
Sin duda, el lector estará cie acuerdo en que utilizar la aproximación normal a la binomial es un método mucho más eficiente para calcular la probabilidad de que 60 o más clientes nuevos regresen a Santoni. La comparación de estos resultados con los obtenidos usando
247 la distribución exacta es satisfactoria. La probabilidad obtenida utilizando la distribución binomial es 0.197, la probabilidad obtenida usando la distribución normal es 0.1977.
"j Auloexamen 7.ll
Un estudio realizado por la con1pañía aseguradora Great Southern Home !nsurance reveló que ninguno de los bienes robados fueron recuperados por sus propietarios, en 80% de !os hurtos
reportados a la aseguradora. Durante un periodo en el que ocurrieron 200 robos, ¿cuál es la probabilidad de que en í 70 o más de !os casos no se recuperen los bienes robados? b) En un periodo en e! que ocurrieron 200 robos, ¿cuál es la probabilidad de que en 150 o más de !os casos no se recuperen los bienes robados? a)
Ejercicios 23. Suponga una distribución de probabilidad binomial con n = 50 y n = 0.25. Calcule lo siguiente: a) La media y la desviación estándar de la variable aleatoria.
b) La probabilidad de que x valga 15 o más. e) La probabilidad de que x valga 10 o menos. 24. Supóngase una distribución de probabi!ídad binomial, con n = 40 y 'IT::::: 0.55. Calcule lo siguiente: a) La media y la desviación estándar de la variable aleatoria. b) La probabilidad de que x sea igual o superior a 25. e) La probabilidad de que x sea igual o inferior a 15. d) La probabilidad de que x esté entre 15 y 25, inclusive. 25. La empresa de asuntos fiscales Theresa Tax Service se especializa la elaboración de declaraciones de impuestos de clientes profesionales (médicos, dentistas, contadores, abogados). Una auditoría reciente de las declaraciones indicó que 5% de las declaraciones del ailo anterior preparadas por la empresa tenían algún error. Suponiendo que la tasa continúe en este año, y la empresa elaboró 60 declaraciones, ¿cuál es la probabilidad de que cometa algún error en: a} más de seis declaraciones? b) al menos seis declaraciones? e} exactamente seis declaraciones? \ 26. La e1r1presa de mecánica automotriz Mofles Shorty anuncia que puede cambiar un silenciador en 30 minutos o menos. Sin embargo, el departamento de normas de trabajo de la compañía realizó un estudio reciente y encontró que 20% de los silenciadores no se instaíaron en 30 minutos o menos. Otra sucursal instaló 50 silenciadores el mes pasado. Si el informe de la empresa es correcto: a) ¿Cuántas de !as instalaciones, en la sucursal, se esperaría que tomasen más de 30 minutos? b) ¿Cuál es la probabi!ídad de que menos de ocho instalaciones de silenciadores requieran más de 30 mínutos? e) ¿Cuál es la probabilidad de que ocho o menos instalaciones de silenciadores necesiten más de 30 minutos? d) ¿Y cuál es la probabilidad ele que exactamente 8 de 50 instalaciones requieran más de 30 minutos? 27. Un estudio.realizado por el club de acondicionamiento -físico Taurus Health Club, reveló que 30% de sus.socios nuevos tienen sobrepeso considerable. Una promoción para membresías en la zona metropolitana dio como resultado la inscripción de 500 socios nuevos. a) Se ha planteado utilizar la aproximación normal a la binomial para determinar la probabilidad de que i 75 o más de los miembros nuevos tengan sobrepeso considerable. ¿Se puede calificar este problema como binomial? Explique su respuesta. b) ¿Cuál es la probabilidad de que 175 o más de los socios nuevos tengan sobrepeso? e} ¿Cuá! es la probabilidad de que í40 o más de los socios recientes tengan sobrepeso considerable?
248 28,. Una investigacíón acerca de delincuentes juveniles prirnerizos reveló que 38% de ellos cornetíeron ol:ro delito. a} ¿Cuá.I es la probabilidad de que de los l1ltirnos ·¡ 00 delincuentes juveniles pr\n1e1·izos puestos en libertad condicional, 30 o rnás con1etan un delito por segunda vez? fJ) ¿Cuál es la probabilidad :le que 40 o menos cornetan otro delito? e] ¿Y cuál es la probabilidad de que entre 30 y 40 de ellos co111etan otro delito?
Resiunen del capíílulo La distribución de probabilidad-normal es una distribución continua, con las siguientes ca.rac-l:erístlcas: ,&. ·nene forrna de campana, !a n1edía, ia n1edlana y_ !a n1oda son iguales. Bº Es sín1étrica. C, Es 7sintótica, lo.qu~;SiQnifica que !.a.cu.rvél__ SE: ,apíüx'fniO:'al8jéi)(, pero nunca lo toca. Qued_a_d,escrita comp!etam~nte po_r la_ media y ta·ct9svlación estándar. E, Hay una fan1ília de distribuciones- normales. CStda vez que !a 111edia o la desviación estándar cambian, se origina otra distribL1ció_n·n,arn1_aL !JH. La distribuc_ió.n _nc)fíll~l.e~tárid~r es uh.~asO_parUcu!ir, d~ una dist1·í_bucíón norma!. A. Esta distribución tiene una media 0.00 y desviación estánd.ar 1.00. 8, Cualquier_ distribu_ción .-norrnal puede convertirse en la distribución normal estándar mediante !a siguie~te_ fónn_uta: ·
ºº
)( - p;
z.=--. o-
[7.1]
e-. Al estánd8rizar una 'distribucióri normai se püede ·dar -¡a: distancia a !a rr1edia en unidades de dés\iiación' estándar: ]!t La.distribución norm.8r'pJ~dé UtilizarSe para ap1·oldíllar·üna distribución binomial, bajo ciertas cbndicio1'1es. A~ n'IT y n (i. - TI) deben ser; por !O 1118'n.6s, igual-eS á 5. 'L n es el nl1rnero ele observaciones. 2. '1T es la probabilidad de un éxito. B. Las cuatro condiciones para una distribución biílofnial s·o1i: "l. Sólo hay d.os resu!taCOS posib!eS. 2. Ti perfnanec8· ígü8J de 'un ·ensaYo a' otro. 3: CB.dá e'nSáyo es indéPendi8nte de !os.de'rriás. 4. La'diStribu.ciórJ°feSu!ta de Lin coriteá·de! ílúf1:8nJ _de·éXitos en una cantidad flja de en'sayos. C. La media y la varianza de una distríbució11_-bii1orni8t·se.'cá.!cu!8n corno sigue: !J.= O'Tr
E!. factor de. . c_orrecci90 po~ continuidad,:.9·5,. se us_a par_a extender et ·valor continuo X, en ambas dii·ecciones. Esta corrección _cqrr)pe;ns.a- _el !lech9 .de estimar una distribución discreta mediante una distribución continua. ,
.1:1:jercic!os·delcapílt1lo 29, LaS ventas:·nete:s· y e!.nltmero de emp!eados'-de-:einpresaS.productoras de alun1i11io con caract6rfstic8.S- sinii!ares se. organizaron en clistribLiciones de trecüericia. A111bos tíenen una distribucl'ón normaL La,.·111edia d6 !as ventas netas''- és $·1so· mi!fones (de dólares), y la desviación estándar es $25.nlillones. -La mediEt"de! número de empleados es i 500, y la d8sv1ación estándar, i20. En la fábrica Clarion:las ventas son de $"!.70'tni!!Ones·y e! número de empleados es
1850. a) Convierta !as ventas y nún1ero de en1pleados de C!arfcin en valores b) LoceJlce los dos valores z.
z.
249 e): CÜrTip8.re !as ventas y e¡ número de emp!eados·de Clarion con !os datos de !os otros fabri-
cantes. 30~ El· departamento de contabilidad ·dé ,'VVeston; un fabrlcante de. garajes para casas, enconti-ó
que dos-trabajadores ne·cesitan,_ para la construcción de- un determinado modelo, en promedi_o-32 horas Ccin desviación estándar de 2 horas. Supóngase que !os tiempos slguen una distribución-norma!.
áJ
___p·orc-enta¡e··-a-e· ¡o·s . g·a~ -
[YetEi1;rr·1rn·e·-1os·--veüorei-2(c-or-r-espo-r:¡·arenfes--a-:·2·g-:~/-.34--·horas·:---¿~¡1-_--q'i_-1_é
r_aje:s··se requi~ren. enire 32 y-34 horas para cohstruirlos? b) ¿En.qué'pdrcentaje de tos.garajes se necesltan_entre.29-y-34 hbras para construirlos? e) ¿En qué porcentaje de, los garajes· se. necesitan 28.T horas para construidos? ·a)' ¿Cuántas horas:-:se requieren para .construir 5%·. del- total de los garajes? -3i-; Un :artículo reciente de una revista: Indica que .una familia típlca con cuatro integrantes gasta $490·(dó!ares) mensuales en:a!iÍT!entos. suponga que los.gastos mensuales en alimentos de una famíHB"dé cuatro 1Tiiembros siguen: una-distribución norma! con rnedia $4~0 y desviación estándar $90. a) ¿Cuál es el porcentaje de las familias que gastan más de $30, pero menos de $490 dólares. merisuafes en. ·allmentos?· b}- ¿Cuál es e! porcentaje de familias que gastan menos .de $430 men.suates en a!imeritos? o) ¿Cuál es el porcentaje de familias que gastan entre $430y $600 mensuales en alimentos? d) ¿Guál:és e1· pQrcentaje de familias·qüe gastari,entre_$500-.y $600 mensuales en cilimentos? 32. Un estucliO de !8s !!amadas de lai~ga distancia réálizadas:desde !as oficinas corporativas de 'Una empresa grande muestra que !as.ilamadas:síguen una distrlbuclón normaL La duración media de una llamada es 4.2 n1inutos,_ y !a desvi_aclón estándar;. 0.60 minutos. a) ¿Qué fratcióíl de !as llamadas-dura entre 4;2_y-:s minutos? b) ¿Qué fracción de-!aS llamadas dura más. de·5 minütbs? e} ¿Qué fracción _de !8.s l!ámadas dUra- entre 5 y 6 minutcis?-dJ ¿Qué fracción de ras ilamadas:dura· eíltre 4 y 5 minutos? é} Como_ parte.de un informe al presidente-c!el-corpqrativó, et di'rector di::: co'munica_ción qui.ere reportar !a c!uración:de las llama:clas más largas ·-en '4% de !as llamadas. ¿Cuá¡ es esta duración? _33._ Una: empresa: ofrece a:sus empleados. un seguro _de-gastos:médtCos dentales. En un estudio . recientexealizado· por e! diréctor. de .pe_rsoílal,·se·-encontró que ·el costo anua! de este seguro (por empleado) sigue.una distribución normal con media$ .1 280 y desviación estánd.ar $420. a) ¿En C¡ué frac'ción deJ . . toi:at de-.loS·empleados-ei·seguro tiene un costo anu8! superior a $1 500? b) ¿En qué fracción ·del total: de. ros. empleados "e!. seguro tiene un costo anual entre$"! 500 y $2 000? e} Estime-el porcentaje:_de los.'emp!eados que no-Ocasionan ningún costo anua! de segur·o dental. d} ¿Cuál .es el costo anual. para 1. 0% de los.empleados que.tuvieron gestos dentales más elevados? 34. E_!. _d_rr~?.to-r _ d_.8,!:_ser~i?ío. d~- eme~ge.ncia. de. un h_oSpita!. aíl~_!_izó ,-el..tieíllPº de_ espe·r_a de _los_ pa_cientes.. ·Ef::tl_empo· d_(3·espera_. se ·c1efine_con10-e! Uen1po.que _transcurre des_de. que el paciente f!ega al lugar_ donde se-otorga.e! se1Vlcío;-'hasta·que:es atendido_ por un médico. El estudio in~íca que los ti8mpos de espera siguen una dfstrlbuctón- norma! _con media 22 minutos y desviación estándar:: 8 rninutós. _a) ¿CUá!·:es la-JfacCfóri'de!· total _cié pacientes que _es ·atendida-f)n un tiempo entre 15 '/ 22 minutos-? b) :¿.Cuá!-e.Sda-fra·cción_que·es atendida en·{nenos ele ·¡5 .minutos? Ó} ¿Cuál es !a fracción que es atendida en un-tiempo.superior' a·¡ 5 minutos; Pero inferior a 32 minutoS? d) ¿CUá!.es Ja fracción que, _eS atendida eíl'Uíl-tien1pü super_ior:a 25 mínutos, pero ínferior a 32 minutos? e) ¿Cinco:·por cíento-de. lo_s-paé:i'eíltes es afEihdido.en :cuántos minutos o· menos? Es decir, ¿coil:qué_rapidez·es.atendido. 5%· de-!os pacientes-? 35. Uil estudio realizado-en la en1presa:_Furiliture·Who!esales, !ne. reveló que !os tiempos transcu-: rridos· entre la facturación Yer- pagó. de·.Jas factl!ras-Sig'uen üna distribución normal con media 20.días y des.viación estándar·5 días.
250 ;·a) ¿Qué porcentaje de· las. facturas se paga dentro de los·prin1eros i 5 días de haber siclo recibidas? h} ¿Quá porcentaje· de !8.s facturas se paga en más de 28 días? e) ¿Qué p'orcenti:!je de tas.·facturas se-paga-en más_·c[e i5J pero menos de 28 días? d) E! gerente de !a.empresa·quiere hacer que los· clientes ·pagüen !as facturas mt;¡nsuaJes taii pronto corno sea posi_b!e. Para esto anuncia que a los Clientes que paguen d_entro de los pri·meros--7·-draS-lábOra1es··aes-püéS-d6--féCíb!'f!~i"TaCtUfii'SB'!éS--háfá'CfrYZ%--·crÉfdéS-cUehtC5:"'Z'Cüár
es el punto· de divis!ón.entre !os Clientes que teridrán y tos que no obtendrán el de_sCuento?. 36. Las Cb1'nisíones· anuates-.ganadas por !os representantes-- d8 ventas--de 18. .empresa. Mrichiné Procluóts,·fabricante de·maquinari.a.ligera;- siguen una distribución norma!. La_cantidad_·media anua! ganacla en- comisiones es _$40 000 (dólares}, con una ..desvi~cíón estándar de $5_ 000. a} ¿Qué porcentaje_ de· !os·representantes:_de-ventas gana-más $42 000 anuales? b) ¿Qué porcentaje ele los representantes de.ventas gana entre $32 000 y $42 000? e} ¿Qué porcentaje de lbs. representantes ele ventas gana entre $32 000 y $35 000? d} Ef gerente de ventas quiere premiar con· un bono· de:$i -000 a ros repr'esentantes· de ventas que ganen.las máyores· comisione's.--El·geren_te _puede-.otorgar ún bario á! 20%-de los representantes. ¿Cuál es el-punto-de división entre:/os·que ganan un bono y tos qUe·no·. ló cbnsigueri? 37~ Los -pesos de fas .Jatas de' peras en almibar· siguen· Una.'díStrfbut:ión norríla! con media· de 1 000 gy desviación estándar 50 g. Calcule.el. porcentaje ele las latas que pesan: a)- menos-de·-860 gramos. b) entre 1055 y .·1 100 gramos. e) entre 860 y ·1 055 gramos 38. El- número de- .pasajercis en- e; -crucero .Queen E!iZ.abeth- ff¡ _en travesfás de una se.mana po_r ef Caribe,. Sígue una distribución· norma!; El.valor medio de!.-' número de viajeros por crucero es ·1 820; y.la desviación estándar es ·120. a) ¿Qué" porcentaje 'de los c'ruceros tendrá entre l 820y:1_97_o· pasajeros? b} ¿Qué porcentaje de los cruceros tendrá 1 970viajeros o más? C) ¿Qué porcentaje c!e ·1os cruceros tendrá-¡ _600- o menos·viajeros? d} ¿Cu'ántos viajeros hay en !os cruceros que tienen·ef 25%.más baío en 91 número_ de viajeros? 39~ La_gerencla de !a.empresa.Gordon E!ecfronicS-éstá considerando''adoptar un sistema clet>"onos para incrementar la procluccfón::·Una .opción es pagar .un bon.o a! 5% más alto· de, la pro~ ducción. b_asado en la ·experiencia, Los. ·c1atos que se ti_ene.n de la producción indic_an que la producción semana! sigl1e.una distríbuélón. riorma!·con media 4 .000 unidades-y desvi_ación es-. tándar 60 unidades. Si el bono se pagará sólo por una proclucción. en el 5%. superior,_ ¿por cuántas.unídádes-o·más;se pagará e! bono? 40. La empresa Fast Service Truck Lines utiliza el camión.Ford._Super. ·1_3i0 en fonna exclusiva. L_~ gerencia:.: efectuó un·estudlo de ..costos de mantenimiento. y.determinó que la cantidad . de m.i_llas___rec()rr_i_da.s_ dura_nt.e __el_ á_ño _ ~i_Q~i_ó !a. _d_istribucíón norma!. La med!a de la distribución: fue60 000 millas y la clesviación•estánctar 2 000 millás. a} ¿Qué ·porcentaje de los.camiones recorrió ·55 200.-mi!!as·o más.? b) -[Qué porcentaje de !os caniiorles recordó·más d_e·57-060 pe_ro-:menos_ de 58 280 ·míUa_s? _¿Qué_[Jorcehtáje de !os··ci:fnliolie"s· rec9rrió·62 ooo:mma's· ·c;:men_os.-qurante er·añ.O? d). ¿Es.razonable.concluir que cualquiera ele los camiones s.e manejó por más de 70 000 millas? Explique. .•· . 41. Lo_s lngres_os anua!_es de un gran grupci:-de-S.lfper~f~ores.de__fa-,enipresa·.s~!co ~í_gur::in __ Lin_a ~!S tribución normal. con media de $48 000 (dólares) y desviación estándar ele $\200. tos tiempos de servicio de los mismos supervisores también presentan ·una dlstribu.clón n_ormal,_ cqn media ele 20 años y desviación estandar de 5 años. John Master gana $50 400 al afío y tiene .-r O. años· de ·servicio.a} Compare ·su ingreso co.n e!· de ros otros: supervisores.:: b) Compare-' su .tiernpo de:servicfo- con e! de los demás· slipervisores. e) El. presidente de Seico.quiere. dar.'un bono a los:·supervisore_s en e! ext.remo_ in_ferior_.de. la dístribución de ingres_os.-81-otorga·un bono.a los supenlisores-que- se encuentran en 8% inferior, -¿cuál-8s ef:punto.divisorio-entre·aque!los a-!6s que se !es otorga el bonO_y·aqu6!!os a !os- é1ue no. se-les da? 42. Un-ejecutivo el$ 1a·e111présa Westinghouse:conduce su auto.d_esde su casa en los.suburblos_de P!ttsburgh, a su oficln·a en el c·entro ele la ciudad. Los tiempos de recürrido, en m1nutós 1-se distribuyen en forma nonna! cor n1edia 35.. Y desviación estándar 8.
e;-
251 a} ¿En .qué porcentaje.Ce. los días_necesítará 30 minutos_ o 1r1enos para 11egar a su trabajo? b} ¿En qué porcentaje ele los días requerirá 40 minutos o más· para llegar a su oficina? e) Explique por qué hay una probabilídad de.casLO de-que e! ejecutivo necesite exactamen-
te 40 minutos. ¡Jára llegar a su destiilo. d} Ya qüe eL8jecutlVo no com.prendió la reSpueSta._que se !e dio en el inciso e, ¿cómo estimaría el poi"ceiltaje .ele días en que- necesita 40: minutos. para llegar a! trabajo? (Sugerencia:
-- -¿en-·qué-·ihterva!o--de·-vaforés-se- redonclearfa-e!--ntrmero· de vece'' a 4fl?\··· ········ ····································· ························· · e) Algunos días habrá accídentes o- algún otro-impreVísto,- de manera que e! recorrido tardará más· de Jo acostumbrado. ¿Cuánto tiempO necesitarán los viajes del ·¡ 0% más prolongados? 43. Un gran estab!ecímiento ele ventas a! menudeó, ofrGce una política de aceptar devoluciones sin mayor discusión. El número .inedia de cllentes.que _devue!ven ari:ícu!os es de "I 0.3 por día, con una desviación estándar d13:·2.25 clientes·por dfa. a} ¿En.qué.pol'centaje·de los días-riay-8 o menos corrípradores.devolviendo artículos? b} ¿En qué porcentaje-de ios-días-hay· e·ntre .-¡.2-y 14 clientes devolvíendo artículos? e) ¿Existe atguna posibilidad.de que algún dfa nü-h_aya devoluciones? 44. Un estudio-reciente niostró·qué.20% de-!os empleadas·,cameten robos en su compañía cada año.-_-Sí' una_ em·preSa_ emptea a so:persona:s, ¿cuál-es la probabilldad_de que: a) menos de 5 ernp!eados roben? bj más de-5 efn¡J!eados cometan robos? cj exacta·meílte 5 -empleados roben? d) rilás:de.5:.pero.métlos.de 15·-emp!eados cometan robos? 45·. E!· artícuto .ch:rün periódlc_o_reporta é¡ue para 64% de· los hómbres mayores de-¡ 8 años, ia nutri_ción es· una· .de las_ prlnc:ipales prioridades en su vida. Supóngase que se toma una muestra de 60 hombres. ¿Cuál es la probabilielacl ele que: ·aj 32.o-más,co·nsíderen que fa nutr!clón es·importante?_ b) 44 o más conSideren· que !a nutrición es importante? e) más de 32 ·pero menos de 43 .con'sideren que-- ta nutricíón es importante? d) exactamente 44 cohsideren que !a·nutrictón_e·s_importante? 46. Para.envasar un refresco-se utilizan botellas de plástíco-de dos litros que se envían en !otes de 100:-Suponga.que !os lotes:Uenen 5% de.de-fectos:_a!gun.as bütellas tienen fugas, otras son dem·asiado ·pequeñas, etcétera. a) En una-muestra-cte _i 00, '¿cuántas··baTellas ··se.espera. que estén defectuosas? ¿Cuá! es !a desviactón eStándar?bJ Diga ¡:ior qué-. esta Situación satisface las condiciones ele una distribución binon1lal. e)_ ¿Cuál es la probabilidad de que.un. lote·de:botelfas· contenga. 8 o más botelfas defectuosas? el} ¿Cuál es la probabilídael de que entre 8y10 botellas tengan defectos? e), ¿Cuál· es !a probabilidad de-que excictaniente 8 sean defectuosas? f) ¿Cuál es la probabilidad de que no haya botellas con defectos? '47~"-En-.la·.uiJivetsidad·Ca$perState Col!ege.; 20o/c¡- de-.!os-e_studlantes·desertan-·de !a rnaterfa de Estftdí_stica _básica,- !a priinéra--ve_z_ que.se in_scriben_. -.Es_t$ serr1estre hay 50 estudiantes ínscritos enAa-c!ase-._que imparte_un-profeso_c-Deterrn1ne !as siguientes probabllldades: ::-8)-->¿Cu.ántoá:estudiarites-.se_espera que deserté_n-?.:¿Guát: es la desviación estándar? b) ·Diga_ por·qué esta situación satisface !as . condícfones de una distribución binomíaL e) ¿Cuáles laprobabilidad de que por lo menos 8 abandonenla clase? el). '¿Cuál es lffprpbabílíelad de que 8 o menos .abandonen la clase? el;.: ·¿_Guát: .es: !~.probabWdad. ·de.·que·ex_fl.ctamente -8 ·abancto,_nen- la_ clase? 43,,: se· estilna· que ::!.0%. d.e. los ·estudié{ntes-que prese_n_tan !a:parb:r de.estadíStt.Ca de! exam.en (en Eslaclos· Unidos) para calHicar como contadores pliblicos certílícaelos (CPP\; de CerUfiecl PubtiC ACcOúntatit} nO' acredltafán·_es.a:parte ..-seSen,ta:estucUatitBs presentarán el examen este sábado.. a) -¿Cuáhtos. estudiaíltes fepiobarán.el-examen? ·'(,Cuál es= !a desvlacíón estáncl8.r? b) ¿Cuál es.taprob~bilídadele.que exactamentedos de ellos no aprueben el examen? e) ¿Cuál: es la:probabi!idad.de·que por to:m-enos. dos._estudiantes reprueben el_ examen? 49cEI. departamento ele tránsito emGeorgetown,.Carolina del Sur (en. EUA) reportó que 40% ele los casos-de·autOmóvHes que:Cfrculan eón =exceso =cte.velqcidad:_terrriinan en-un acc!dente.de poca o muclla importancía. Durante un mes en e!. que_ ocurrieron 50 casos de a!ta velocldacl; ¿cuá! és-!a 'probabilidad de qüe-25:0 más resulten en.· un ·accidente efe importancia mayor o menor?
252 50. La línea naviera Royal Ví!
253 b) Si el .arrendador.desea cambiar los términos de! contrato, de n1odo que solamente 25% de las rentas sobrepase e! !ímite,.'¿dónc!e debería establecerse el nuevo límite superior? e-} Una defin1c1ón .de automóvil con. bajo rnil!aje .es· aquel que tenga cuatro años y que haya recorrido rnenos de-45.0QO:mil!as. .¿Qué.porcentaje de,auto1nóvi_!eS devueltos es considerado. con- bajo kilomeiraje? 58. El-precio.de las accíonos.del-Ban_cü de- F!Oricla atfina! de¡ día d6 operaciones, durante el año, ''"SigaiCfUHEC:d1StríbüGiótf'fí6rf(rar.--strpoi"ígá_CjUEféit8r8ñCf'Sé"'fU'Viéh5Tf240''díáS'"dEfój5éYaCíó'ii9S~-·E1
precio medio fue $42.00 (dólares)-por acción y la desviación estáíldar 'fue $2.25 por acción. a) ¿En- qué porcentaje de !os días el precio fue superíor a $45.00? ¿En cuántos días se encontrará un Prec_iq $Üperior a $45._00? b}_ ¿En qué pürcéntaje de !dS:.días el preció se encontf6 eílt_i-e $38;00 y $40.00? "e} _?qüá! es e!._V~!9ide_ras ácGiO:n_es e'ri !bs··_;_s días)liás altüs de!-áílo? 59. Las ventas anuales de novelas románticas se distribuyen normalmente con media y desvi'ácíóii _estánclar_-_-d,es_cqnocídas. Cuare~t~· por_ f.lentó: de las_ vecE3s, !as ventas son· -mayores-. que 470 000-dó!ares, y i0% de fas _vec,es son_ sup~rlores.a 500_000 dólares. ¿Cuál es el_vafqr:medfo:_y 1a-~esv_iay_ ló1),est_ándar? 60.:.t\1_ estapt~s_e_r !a_S ~-él_rantia_$ en:_los'_:á':;<;eptores de_t8_!evl_Sión: Un fabricante desea fija?!Os lími.tes d;3·_tat_fo(m_a qu_ e_ p_o_?os_,te!evi_s_o'.es rt')qulera_n re_paración a_ex_pensas del -fabricante. Por otro lado, el periodo de garantía debe ser lo sufic_iente111ente !argo para que ta compra sea atractiva par·a e! cii8nte. Para un televísor nuevO, el Ílúm-éro -medio de meses antes de que se necesite. una reparación es _36.84, .con una clesviaclón_·estándar de 3.34 meses. -¿Dónde deben estab!ecerse-tós" !fíllit8s-dé'!á-garantía- ·para que sólo -i 0%_ -de tos televisores necesiten reparación a cargO'_ dEi! fábriC8.rité? 6"l, La·empréS~iDéKórte MEirketing, Una c_ompañía ele ventas por telé'fon6, corisidera !a p'oslbilidad de--ad(illlr!'r'Liria m·áquina qüe· Selecciona 8.!_az:ar y rnarca automáticamente los números telefóhi_cos. Esa compañía_ re~liza !a mayor_· Parte de sus' !!amadas durante !a noche:· por !o que se desperdician las__ q~1e se hacen-_a E)Stab_lecimierrtos_.comercla!es. El fabricante de ra n1áqu!na asegur_a que su programaclón reduce a ·¡ 5% la tasa de llamadas a negocios o estab!ecimientbs-c"drD8rcial_eS-.' Cofno· pru8ba; ée examinó iJna muestra de· 1_50· números. que !a máquina se19CCí_o_nó. S_i lo qlre asegura e! _fabdcante es ciei-to,- ¿cuál es !a probablliclad de que más de 30 de ,!os números telefónicos seleccionados sean de un estabtecimíento cornercia!?
Ejercicios con datos pára computadora 62·.-.C.onSidere el _C(Jnjwnto de cl_atos _ de. bienes raíces (Real S_tate),- que da información acerca_ de !as casas vendidas en !a región de Veíl!ce, Florida; durante et-_año pasado. a} El. pre_cio.rrí,edío.de_v.enta de_!as_cas-as.(en_ miles de dólares) dé !as casas qüe-sé O_btliy? _ c;ón anterioridad, fue $221.1 O con una. clesviadón estándar $47:l1. Utilice la dis\ribución norm_E}I. P,~ra___e_sti_mar e_t _por_c.e_nü3je da cas~s vendidas..en ._m~s. de.$28D. GO .. C.on1párese.-esto_.c_on !o_s_ rt;:stJ_ft(;1Ó()S real~s. ¿D_a _!a _distr_ibución normal un_a _buena aproximación a !os resultados re9lt:;s?
-~~_.tj_!s_t_c,toc:(0, r,n_xdi_q _ §l_c;_e:nt"(o ~le Jet_ c_ílJd_B:tj.-es. :14_629_- .mll!cts, con una desvi9cfóti estándar 4 874 millas. Utilice.la distribuc.ión normal par~- estimar el nllmero de casas que están a 18 mlÍ!as o más, ·pero a mehos cle_2-2 millas ele! centro de !a ciudad. Compare este dato con l_.Q:~· 1_'-~~-l!ltfi?:?.?--Yeate,?; _(pa_-ra-Cj[E>t_r.ibución_:n.o_rni_~I- upa buena aproximacíón de· !os resLiltados r_e21l_E;$-?_ :·_. ,:<~<: <_·:- ;:--_ ~:-;- -_:-.- ,_-._ :-._ _- .> _': P$~:;co9f319_ere-~_1-c_onj_~·!;t_o_:cl_(3-·_c_tat_os:_c1e _ b$_l_S_~of·_(B_/,iSB68//-:2ooo}, é¡ue iriforma acerca de_ los 30 equi.pos de laJigaM~yord~ béisbol, en la.temp2rada 2000. a) ElnC1rrier9. ".'edio de a~istenci~ pouiqL1ipo. para !~temporada fue 2.42 (millones), con una tj_f)~Ví_~c_ifi1Te~tán~Clr_'.de _ 0:_7_77._(rr:ü!!()n(3,~.J:Uti. lice l_a:_distribución normal para ca!c,u!ar !_a canU_d,afl:/:IEí_-·_~equipo$._9o_ n-:at¡l~t~nc1~ _m~ypr _ q_UE):_· 3:5 n1i!!ones, .Gon1pare esta estimación con el 11._~~113ro·rea_l1: y _h_a09. un t:on:ent~rio _rel_anvo·a fa__E}Xactitud de la estim~ción'. I;¡) El sueldo medio po; eqpipo fue ele $;;6.67 ([f]illo0es de dólares) con una desviación estánd_ar _$2_4,~§4=.._·Apl_iqu~-- _la..?tqtrib_ució:n- r¡qrrnal pa_r~ -,_c_arcular el número_ ele equipos en !os que e!_.~uf3lct_9_,_del_ eq~_ip9.es- . ni:ayor-_q_u~·$S0_.9. _Coíll_p_are _esta.estimaclón con el valor rea!. ReaHc.e- ,un--C_ome_ntario._re_s_pec:to _ a !a: exactitud efe. !a_ estímación. 64;. Co.nsiéler:. el Conjunto de datos ele escuelas (Schoqls), que da información acerca de 94 dis- fritos escolares en el norüeste ele Ohio.
254
Capílulo7 a) La canti.dad media gastada encapacitación es de $2725 (dólares), con una de.sviación estándar$·1095. l)se la distribución normal para calcular el porcentaje clistritos escolares que gastaron más de $3 000 ~n capacitación. Compare.este resultado con el porcentaje reaL-.-_¿_Parece-exa9ta la distrib_ución normal en._Bste ·caso? Explique s~ resp_ue_sta: · b} E!·núrnero medio de estud_i,antes:por distritnes_colar es 2::í_3_4,co_n una des_viac_ión _~~tán_da_r 3.895 ..·Utilice •. la distribució~normal .para estimar el.p 0 rc9nt~je de ,distdtos essol?res, cp~ ·más· dé2 000 ·estudiantes'inscrito.s. ··Cbmpáre·este 'cálculo e.oh. él· porcentaje re.al. Campa-·· rff.SLf estfmación con ·e! valor-verdadero.·
?e
CoJ11andos·•para.computadota t. ~o!', cdmandos de E~c~I riece5ari0Spára producir la pantalla qU9 se muestra en la página 236 st>n_:."___ ... -.:-: ·: ,-. __ . _.-.,: __ .. _______ .. ___ .: _.:.-·-:_.',<-, . ___ :.·_· _,·-:<.-- -:_-... ·_,· . :-·> ·
a) Sele.cci.one ln~ertar y Fu~?ión, luego seleéc.ione en . el recuadro. Estadísllcas y DISTR,NORM y oprima Acept.ar.. ...·. b) En la.v~ntanade diálpgotedee r 100. e~ elr~cúadro pa(a)(; tec:l~ei 000 en la Media, 100 · erDesv_es~á9d'1r,,yER[J.40gF10 en el recuadro Acur11,1uego oprima Aceptar, i:) El r1~ultado aparecerá en el. e.u adro de diálogo: Si 0 prime Aceptar,. el resultado aparecer<\ en su hoja de cálcúlo, ·
Lds. comandos necesarios para producir lá pantalfa de resultados de MegaStat de la página
. .. . . . . , .··. ·.. . ..•. . . . .. .· ........ ·.· 242 son: . > '·. . . .. . á) En la barra de herramientas selecciones Ma,g~Sta~, Probabílily (PrpbabHidad), y Contí, nuous ·P~~babHity Dislrib~tions •([)isl[ib'.1ci?n,es d,e Prob.abilidadContinua,;)• b) En la_verrtana, de diálogopresionee0 xgiv~hprobability (K···dadala probabilidad),.teqle
Distribución de probabilidad normal
255
Sección de repaso 2
256
Repaso de los capitulos 5 a 7 Esta sección contiene un repaso de los principales conceptos, térrninos, símbolos y ecuaciones presentados- en lós capítulos 5,6 y 7. Estos capítulos se ocuparon de métodos relacionados con la incertidumbre.
Como un ejemplo de incertidumbre en los negocios, considérese !a función del departamento de control y certificación de calidad en la mayor parte de las empresas de producción en masa. Por lo general, este departamento no tiene e! persona! ni e! tiempo suficientes para verificar, por ejen1plo, 200 módulos electrónicos producidos en un periodo de dos horas. Un procedimiento estándar puede ser tomar una n1uestra de cinco módulos, y enviar los 200 si los cinco seleccionados operan correctamente. Sin embargo, si uno o inás de !a muestra resulta defectuoso, se verifican los 200. Suponiendo que los cinco funcionen bien, el personal de control de calidad no puede estar absolutamente seguro de que su acción (permitir el envío de los módulos) será !a correcta. Puede ser que los cinco módulos elegidos al azar sean los únicos, de los 200, que 'funcionen correctamente. En este caso, la teoría de la probabilidad permite evaluar la incertidumbre de enviar módulos defectuosos. También, !a probabilidad como una evaluación de la incertidu111bre interviene cuando Gallup, Harris y otros especialistas en encuestas de opinión predicen, por ejemplo, que el candidato Jim Barstow ganará la elección para el puesto vacante del senado en Georgia. En el capítulo 5 se observó que una probabilidad es un valor entre O y 1, inclusive, que expresa !a creencia de que un evento específico ocurra. Un especialista en pronósticos meteorológicos puede indicar que la probabilidad de que llueva mañana es 0.20. El director de proyectos de una empresa que participa en el concurso para una estación de ferrocarril subterráneo en Bangkok, puede evaluar que la posibilidad de .que su compañía obtenga el contrato es 0.50. También se analizó cómo se pueden combinar las probabilidades utilizando !as reglas de adición y de multiplicación, algunos principios de conteo y el importante teorema de Bayes. En el capítulo 6 se presentaron distribuciones de probabilidad discretas: la distribución binomial, la distribución hipergeo1nétrica y la distribución de Poisson. En los siguientes capítulos se analizarán otras distribuciones de probabilidad {la distribución t, la distribución ji cuadrada, etc.) Las distribuciones de probabilidad dan todos los posibles resultados de un experimento y la probabilidad correspondíente a cada resultado. Una distribución de probabilidad permite evaluar resultados muestrales. Como ejemplo, supóngase que una empresa ce investigación de consumo realiza una encuesta para determinar si los co1npradores de comestibles pueden identificar la marca de un producto cuando ésta no aparece en la lata, caja o paquete. En la pregunta 1, se borra e! nombre de una sopa y da al cliente cinco
posibilidades. Hay seis preguntas semejantes, y i 000 compradores participan en el experimento. Existe la posib!lidad de que los clientes no familiarizados con las diferentes etiquetas y marcas, seleccionen un nombre al azar, es decir, que adivinen la marca. De manera qJe se genera una distribución de probabilidad binomial para ver cómo aparecería una distribución de selecciones aleatorias. Estas probabilidades aparecen en la columna 2 de !a tabl8. que sigue; los nl1meros esperados están en !a columna 3. Obsérvese que se espera que sólo dos de 1 000 compradores contesten bien a cinco de !as seis preguntas. Prácticamente es de esperar que ninguno de ellos acierte en las· seis. Las respuestas reales están en la columna 4. Una comparación de las columnas 3 y 4 indica que un gran porcentaje de los compradores puede idenHficar la marca del producto a! ver la etiqueta. La empresa encuestadora concluirá que es rnuy poco probable que un número tan grande de co1npradores seleccione tantas marcas correctamente sólo por casualidad.
2 Número de identificaciones
correctas
o 2 3 4 5 6
Probabi!ídad*
0.262 0.393 0.246 0.082 0.015 0.002 0.000 1.000
'Probabilidades tomadas del apéndice A.
4
3
Nún1ero esperado
Número real
a! azar
en la encuesta
262 393 246 82 15 2
o 1 000
5 16 10 27 81 346 515 1 000
.
257 En el capítulo 7 se presentó !a distribución efe probabilidad normal, que es una distribución continua. Algunos fenómenos, como !a resistencia a la tensión ele alambres, y !os pesos de! contenido de latas y botellas, se aproximan a una distribución normal, en forma de campana. En realidad, existe una familia de distribuciones normales: cada una con su media y desviación estándar propias. Por ejemplo, existe una distribución norrnal para una media $i00 y una desviación estándar $5; otra para una media $i49 y una desviación estándar $5.26, y así sucesivamen:e. Se observó que una distribución de probabilidad normal tiene forma de can1pana y es sin1étrica respecto a su n1edia; así mismo, que los extremos de la curva normal se extienden en una y otra dirección hasta el infinito. Puesto que existe un número ilirr1itado de distribuciones normales, es difícil comparar dos o más en forma directa. En lugar de esto, se estandarizan !as distribuciones de interés. A la distribución de estos valores estandarizados se le denomina la distribución normal estándar, la cual tiene media O y desviación estándar 1. La distribución normal estándar resu!ta muy L1til, por ejemplo, para comparar distribuciones que no están en las mismas unidades. La distribución de los ingresos de gerentes de nivel medio y la de sus calificaciones de eficiencia, son ejemplos de distribuciones en unidades distintas. También se utiliza para calcular la probabilidad de que sucedan diversos eventos.
Glosario Capítulo 5 Evento Conjunto de uno o más resultados de un experimento. Por ejemplo, un evento puede ser tres válvulas defectuosas en una ren1esa de válvulas para un motor. Experimento Una actividad que es observada o medida. Por ejemplo, un experimento puede consistir en contar el número de respuestas correctas a una pregunta. Fórmula de combinación Una fónnula para contar el nl1mero de resultados posibles. Si el orden a, b, e, se considera igual que el b, a, e, o que el e, b, a, etc., el número de ordenaciones (o arreglos) se determina por medio de:
n! r!(n - r)! Fórrnuia de multiplicación Es una de las fórmulas que pueden aplicarse para contar el número de posibles resultados de un experimento. Indica qu9 si hay µformas de hacer una cosa y n formas de hacer otra, existen µ x n -formas de hacer. ambas: Ejemplo: una tiend.a de deportes o.frece dos chamarras deportivas y tres parítalones que hacen juego, en $400 dólares. ¿Cuántos conjuntos diferentes pueden hacerse? Respuesta: µ x n = 2 x 3 = 6. Fónnu!a de permutación Es una fórmula utilizada para contar el número de posibles resultados. Si a, b, e es una ordenación o arreglo; b, a, e otro; e, a, b, uno más, etc., el número total de arreglos está determinado por:
P ~_n_!_ (n - r)!
º '
Independiente La ocurrencia de un evento no tiene efecto en la probabilidad de que ocurra otro. P'robabilidad Número desde O hasta i inclusive, que mide la posibilidad de que ocurra un evento específico'. Probabilidad c!ásica Probabilidad basada en la consideración de que cada uno de los resultados es igualmente posible. Utilizando este concepto de probabilidad, si hay n resultados posibles, la probabilidad de un resultado especí-
lico es ·1/n. Por ejemplo, en la tirada de una moneda la probabilidad de que caiga cara es 1/n = 1/2. Probabilidad condicional Es la probabilidad de que ocurra un evento, dado que otro ya ha ocurrido. Probabilidad empírica Concepto de probabilidad basado en la experiencia. Por ejemplo, una firma lnformó que durante el año, 100.2 de cada 100 000 personas de una localidad, murieron en accidentes (en vehículos automotores, por caídas, ahogamientos, disparos de armas de fuego, etc.) Con base en esta experiencia, la empresa puede estimar que la probabilidad de muerte accidental para una persona especifica es 100.2/100 000 = 0.001002. Probabilidad subjetiva Posibilidad de que un evento suceda, basándose en la información disponible: presentímientos, opinión personal, opiniones de otros, rumores, etcétera. Regia especial de adición Para emplear esta regla, los eventos deben ser mutuamente excluyentes. En el caso de dos eventos, la probabilidad de que ocurra A o B se determina por medio de:
P{A o B) = P(A) + P(B) Ejemplo: la probabilidad de que caiga un uno o un dos en la tirada de un dado es:
1 6
·1 6
2 6
·1 3
P(AoB)=-+-=-~-
Regla especia! de multiplicación Si dos eventos no están relacionados (es decir, si son independientes) esta regla se aplica para determinar la probabilidad de su ocurrencia conjunta.
P{A y B) = P(A)P(B) Ejemplo: la probabilidad de que caigan dos caras en dos volados de una moneda es de:
258
Sección de repaso 2
P(A y B)
1
= P(A)P(B) = 2 X
-1
1
2 = ;¡
Regia general de adición Se utiliza para determinar las probabilidades de eventos complejos conformados por A o B.
P(A o B) = P(A} + P(B) - P(A y B) Regla general de multiplicación Se aplica para determinar las probabilidades de eventos complejos formados por A y B. Ejemplo: se sabe que hay tres radios defectuosos en una caja que contiene 10 aparatos. ¿Cual es la probabilidad de seleccionar dos radios con defectos en las dos primeras
selecciones de la caja? P(A y B)
= P(A)P(B
1
A)
3 = 1Q
X
6 g2 = 90 =
0.067
donde P(B 1 A) significa la "probabilidad de que ocurra B dado que ya ocurrió A". Resultado Solución particular de un experimento. Teorema de Bayes Fue desarro!lado por el reverendo Bayes durante el siglo XVII; es una regla diseñada para determinar la probabilidad de que ocurra un evento A, dado que ha ocurrido otro evento B.
2. La distribución es el resultado de contar el nl1mero de éxitos. 3. Cada ensayo es independiente, lo cual significa que la respuesta al ensayo 1 (correcta o incorrecta} de ninguna manera afecta a la respuesta del ensayo 2. 4. La probabilidad de un éxito pern1anece igual de un ensayo a otro. Distribución de probabilidad hipergeométrica Una distribución de probabilidad basada en una variable aleatoria discreta. Sus principales características son: 1. Existe un número fijo de pruebas o ensayos. 2. La probabilidad de éxito no es la misma de un ensayo a otro. Variable aleatoria Cantidad obtenida de un experimento que, por azar, da valores diferentes. Por ejemplo, un conteo del número de accidentes (experimento) en una carretera durante una semana podría ser iO, 1i, 12 o cualquier otro número. Variable aleatoria continua Una variable aleatoria que puede tomar un número infinito de valores dentro de un intervalo dado. Variable aleatoria discreta Una variable aleatoria que puede tomar sólo ciertos valores separados.
Capitulo 7 Gap!!ulo 6
Distribución de probabilidad normal Es una distribución
Distribución de Poisson Con frecuencia se utiliza esta dis-
continua que tiene forma de campana; en la que la media la divide en dos partes iguales. Además, la curva normal se extiende indefinidamente en una y otra direcciones, esto es, nunca toca el eje X. Al convertir una distribución normal en una distribución normal estándar, es posible, por ejemplo, comparar dos o más distribuciones que tengan medias significativamente distintas, o que se expresen con diferentes unidades (como ingresos y años de servicio). Factor de corrección por continuidad Se utiliza para mejorar !a exactitud ele aproximación de una distribución discreta (binomial) por medio de una del tipo continuo (normal). Valor z Es la distancia enfre un valor seleccionado y !a media poblacional medida en unidades de la desviación estándar.
tribución para aproximar probabilidades binomiales cuando n es grande y ri es pequeña. Lo que se considera "grande" o "pequeño" no está definido con precisión, pero una regla genera! es que n debe ser mayor o igual a 20, y '1T debe ser menor o igual a 0.05. Distribución de probabilidad Un listado que contiene todos los posibles resultados de un experimento y la probabilidad correspondiente a cada resultado. Distribución de probabilidad binomial Se basa en una variable aleatoria discreta con las siguientes características:
1. Cada resultado puede· clasificarse en una o dos categorías mutuamente excluyentes.
Ejercicios
1. Con base en la evaluación del mercado de valores, se indica que hay 50-50 de posibilidades de que los precios en la bolsa empiecen a bajar dentro de dos meses. Este concepto de probabilidad basado en su creencia se denomina _ _ __ 2. Se realiza un estudio del absentismo en clases. En el estudio de la probabilidad, a esta actividad específica se !e denomina _ _ __ 3. Refiérase al ejercicio 2. Se determinó que 126 estudiantes no asistieron a !as clases matutinas del lunes. A este número (126) se le denomina _ _ __ 4. Para aplicar la siguiente regla de adición: P(A o B o C) = P(A) + P(B) + P(C) los eventos deben ser _ _ __
259
Repaso de los capítulos 5 a 7
5. La gerencia afirma que la probabilidad de que un relevador eléctrico esté defectuoso, es de
sólo 0.001. La regla que se utiliza para determinar la probabilidad de que el relevador no esté defectuoso es ______ . La fórmula para dicha regla es . La probabilidad de que un relevador específico no esté defectuoso es _ _ __ 6. En el caso de una distrib:..1ción de probabilidad, la suma de todos los resultados posibles de-
be ser igual a _ _ __ 7. ¿La dlstribución binomial es una distribución discreta o continua? _ _ __ 8. Las características de una distribución de probabilidad binomial son: _ _ __
9. ¿La distribución d"e probabilidad de Poisson es discreta o continua? _____ . 10. Para elaborar una distribución de Poisson, se necesita _ _ __ i i. Las características ele una distribución de probabilidad normal y de su correspondiente curva normal son: _ _ __
i2. Si se convierten los valores de una distribución normal en una distribución que tenga media O y desviación estándar i, a la distribución resultante se le denomina _ _ __
Parte 11 - Problemas 13. Un curso autodidáctico sobre principios de administración se ofreció a todos los empleados de la empresa TMC Electronics. A! término de! curso se aplicó una prueba a los empleados, con los siguientes resultados:
Calificación del curso A B
e
Número de empleados 20 35
go
D
40
F
10
Sin acreditación
5
¿Cuál es la probabilidad de que un empleado seleccionado al azar:
a) haya obtenido una calificación de A? b) haya obtenido una calificación de C o mayor? e) no haya obtenido acreditación? 14. Se afirma que un nuevo medicamento para el acné tiene una efectividad de 80%; es decir, de cada 100 personas que se Jo aplican, 80 muestran importante mejoría. Se utiliza en un grupo de 15 individuos. ¿Cuál es la probabilidad de que: a) los 15 presenten mejoría? b) menos de 9 de las i 5 personas presenten mejoría? e) 12 o más personas p(esenten mejoría? 15. El First Nationa! Bank investiga a conciencia a !os solicitantes de pequeños préstamos para mejoras a la vivienda. Su registro de incumplimiento es muy impresionante: la probabilidad de que un prestatario no cumpla es de sólo 0.005. El banco ha aprobado 400 préstamos de esa clase. Si se considera que se aplica la distribución de probabilidad de Poisson a este problema: a) ¿Cuál es la probabilidad de que ninguno de !os 400 prestatarios incumpla? b) ¿Cuántos de los 400 se espera que incumplan? e} ¿Cuál es !a probabilidad de que 3 o más de los prestatarios no cumplan su compromiso? 16. Un estudio de la asistencia a los partidos de basquetbol del equipo de la Universidad de Toledo, reveló que la distribución es nor111a!, con media de 1O 000 y desviación estándar de 2 000. a) ¿Cuál es la probabilidad de que en un partido específico haya una asistencia de 13 500 personas o más? b) ¿Qué porcentaje de los juegos tuvo una concurrencia de entre 8 000 y 11 500? e} ¿En 10% de los partidos hubo una asistencia de cuántos o 1nenos? 17. La tabla siguiente muestra la partición del Congreso de Estados Unidos, por afiliación de partido
260
Secció" de rnpaso 2 Partido Demócratas
Republicanos
210
223
2
50
50
o
Diputados Senadores
Otros
B} Sé SeleC-cioria-al' azar-a Uti el8rriehto-de! C6ngr8so. ¿Cuál e:S la probabilidad de que sea republicano? b) Dado que la persona seleccionada es miembro de la Cámara de Representantes, ¿éuál es la probabilidad de que sea un republicano? e) ¿Cuál es la probabilidad de seleccionar un integrante de la Cámara de Representantes o
un demócrata? 18. El Interna! Revenue Service (servicio fiscal de EUA) ha separado 200 declaraciones en las que la cantidad expresada como contribución a obras caritativas parece excesiva. Del grupo se selecciona una n1uestra de seis declaraciones.- Si dos o más de este grupo tienen cantidades
"excesivas" deducidas por contribuciones benéficas, se efectuará una auditoría a todo el grupo. ¿Cuál es la probabi!idad de que se aplique dicha intervención de cuentas a todo el grupo, si la verdadera proporción de deducciones "excesivas" es 20%? ¿Qué probabilidad hay si la proporción es 30%? 19. La compañía de seguros Daniel-James lnsurance Company otorgará un seguro contra pérdidas por trastornos climáticos para un8. plataforma marina de producción petrolera de la Mobil Oíl Co., duraílte un año. E! presidente de la asegüradora estima las siguientes pérdidas para esa plataforma (en mi!lones de dólares) con las probabilidades correspondientes: Monto de ia pérdida {mlllones de dólares)
Probabilidad de !a pérdida
o
0.98 0.016
40 300
0.004
.
aj ¿Cuál es el monto esperado que Daniel-James tendría que pagar a la Mobll Oíl por reclamaciones? b) ¿Cuál es la posibilidad de que en realidad la aseguradora pierda menos que la cantidad esperada? e) Dado que la compañía tenga que pagar, ¿cuál es la posibilidad de que sea por 300 millones de dólares? d) La aseguradora ha fijado la prima anual en 2 millones de dólares. ¿Parece ser esto una prin1a justa? ¿Cubrirá su ·riesgo? 20. La distribución del número de niños en edad escolar por familia en el área de Whitehall Estates en Boise, ldaho, es: Número de niños Porcentaje de familias
O 40
30
2 15
3
4
10
5
a} Deter111ine !a ·media y Ja desviación estándar del nlimero de nillos en edad escolar por familia en Whitehall Estates. b) Se planea construir una nueva escuela en esa zona. Se requiere una estirr1ación del número de infantes en edad escolar. Hay 5b0 familias (o unidades familiares.) ¿De cuántos nifios sería el cálculo? e) Se requiere información adicional só!o acerca de aquellas fan1ilias que tienen niños. Convierta la distribución anterior en una para fatriilias con hijos pequeños. ¿Cuál es el nún1ero promedio de· infantes entre las ·familias que tienen niños?
261
Casos A. Century Nalional llank Refiérase a los datos del Centuty Nationa! Bank. ¿Es razonable suponer que la distribución de los saldos de las cuen-
Avonda!e
IVlidway
Kingston
9 14 11
rn
38 39
22 23 14 22 17
8
tas de cheques se aproxime-- a una distribución normal? Determine la medía y !a desviación estándar de una rnues-
14
tra de 60 clientes. Compare la distribución real con la teóri-
10
·15
13
20
8
rn
6
ca. f\/lencione algunos ejemplos específicos y comente acerca de sus hal!az.gos. Divida los saldos de las cuentas en tres grupos de aproxin1adamente 20 cada uno, con el tercio más pe(¡ueilo en el pri1ner grupo, e! tercio 111eciio en el segundo, y el de los saldos mayores en el tercer grupo. Después elabore una tabla que muestre el número en cada categoría de balances de cuenta por sucursal. ¿Parece que los balances de cuenta están relacionados con la filial? Cite algunos ejemplos y haga un comentario acerca de sus hallazgos.
ll. Auditor de elecciones En EUA, asuntos con10 un incremento en los in1puestos, !a destitucíón ele funcionarios electos, o una expansión de los servicios públicos, pueden colocarse en boletas de votación si se reúne el número requerido de ·firmas válidas para la petición. Por desgracia, muchas personas firmarán la so!k::ítud aunque no estén registradas para votar en ese distrito en particular, o firmarán !a petición 111ás de una vez. Sara Fergusün, auditora de elecciones de un determinado lugar, debe certificar Ja validez de tales fin11as después de que se presenta o·ficialmente !a solicitud. Como su personal tiene sobrecarga de trabajo, está consíderando uiilizar métodos estadísticos para validar las 200 firn1as, en luaar de validar cada una. En una reunión profesional reciente~ descubrió que en algunas con1uniclades del estado, los funcionarios electorales verificaban solamente cinco firn1as en cada página y rechazaban toda la l1oja si dos o más de aquéllas no eran válidas. Aigunas personas están píeocupadas porque cinco no pueden ser suficientes para tomar una buena decisión. Proponen que se verifiquen i O firmas y se deseche la página si tres o más no son válidas. Para poder investigar estos métodos, Sara pidió a su personal que consiguiera los resultados de !a L1ltima elección y tomara una muestra de 30 páginas. Sucede que el personal seleccionó í 4 páginas del distrito de Avondc.le, 9 del de Midvvay, y 7 del de Kingston. Cada página contenía 200 firn1as, y los datos presentados a continuación muestran el número de firmas inválidas en cada página. Utilice los datos para evaluar las dos propuestas de Sara. Calcule la probabllidad de rechazar una página con cada uno de los métodos. ¿Obtendría aproximadamente los mismos resultados examinando cada una ele las firmas? Presente usted un plan propio y argumente por qué podría ser 111ejor o peor que las dos propuestas de Sara.
41
39 41 39 39
8 9 ·12
7 13
C. Geofl "Aplica" su Educación Geoff Brown, gerente de una pequeña compañía de telemercadeo, evalúa la tasa de ventás de trabajadores experimentados, a fin de establecer normas mínimas para nuevos empleados. En las últimas semanas, ha registrado el número de llamadas exitosas por hora del personal. Esta información se presenta a continuación junto con un resumen de datos estadísticos que obtuvo con un paquete especial de software. Geoff estudió en una universidad !ocal y ha escuchado que hay diversos tipos de distribuciones de probabilidad (binomial, normal, hipergeométrica, de Poisson, etc.) ¿Podría usted aconsejarle qué tipo de distribución utilizar y cómo decidir si un empleado a prueba ha alcanzado la condición de máximo rendimiento? Esto es import_ante porque significa un aumento de sueldo para e! empleado, y porque ha habido empleados a prueba, que renunciaron por pensar que nunca !legarían a satisfacer el nivel esperado. Las llan1adas de ventas exitosas por hora durante la se111ana del í 4 de agosto, fueron: 4 2 3
4 5 5 2 3 2 2 4 5 2 5 3 3
32845224
5 5 4 5
o
2 4
Estaclfstica descriptiva: N
.MEDI.J\
MEDIANA
35
3 .229
3 .000
3 .194
HIN
MAX
Ql
Q3
8.000
2 .000
5.000
o.o
MEDIA VERD DESV ESTD MEDIA SE 1.682
o.284
¿Cuál es la distribución que Usted considera que Geoff debe utilizar para su análisis?
il. GNP Tarjeta Bancaria Antes ele que un banco emita una tarjeta de crédito, generalmente se evalúa o califica a la persona solicitante desde el punto de vista de la probabi!ldad de que sea un cliente "rentable". A continuación se muestra una tabla representativa de calificaciones.
262
Sección de repaso 2
Edad
Menor de 25 (12 pts.) Tiempo en < i año el mismo (9 pts.)
domicilio Edad del Ninguno automóvil ('18 pts.) Pago mens. Nunguno (15 pts.) del auto (en dólares) Costo de la $1-$'199 (O pts.) vivienda (en dólares) Cuenta de Ambas cheques/ (15 pts.) ahorros
25-29 (5 pts.) -1-2 años (O pts.)
30-34 (O pts.) 3-4 años (13 pis.)
35+ (18 pis.) 5+ años (20 pts.)
0-1 años (12 pts.) $1-$99 (6 pts.)
2-4 años (13 pis.) $100-299 (4pts.)
5+ años (3 pts.) $300+ (O pts.)
$200-$399 (1 Opts.)
Propietario (12 pis.)
Vive con parientes (24 pis.) Sólo de cheques Sólo de ahorros Ninguna (3 pts.) (2 pts.) (O pts.)
La calificación es la suma de los puntos en los seis temas. Por ejemplo, Sara Brown tlene menos de 25 años de edad (12 pts.), ha vivido en el mismo domicilio durante 2 años (O pts.), posee un automóvil de 4 años (13 pts.) con pagos mensuales de $75 dólares (6 pts.), el costo del alquiler de vivienda es de $200 dólares (1 O pts.), y tiene una cuenta de cheques (3 pts.). Su calificación sería 44. Después se utiliza un segundo cuadro para convertir las calificaciones en la probabilidad de ser un cliente rentable. La siguiente es una muestra de ese tipo de tabla.
Galilicación Probabilidad
' 30 140 1 50 0.70 0.78 0.85
1
i 1
ªº
60 170 1 190 0.90 0.94 0.95 0.96
La calificacíón de Sara de 44 se traducíría en una probabilidad de ser rentable (o provechosa), ele aproximadamente O.Si. En otras palabras, 81 % de los clientes como Sara harán que la institución gane dinero con las operaciones que realicen con tarjeta bancaria. A continuación se presentan los resultados de la entrevista a tres clientes potenciales:
Nombre Edacl Tiempo de vivir en e! mismo domicilio Años de uso del automóvil Pago mensual del automóvil (en dólares) Costo de !a vivienda (en dis) Cuenta de cheques/ ahorro
David Born 42
Edward Brendan 23
Ann Mclaughlin 33
9
2
5
2
3
7
$140 $300
$99 $200 Sólo de cheques
$175 Propletaria
Ambas
_ Ninguna
a) Califique a cada uno de estos clientes y calcule su probabilidad de ser "rentables". b) ¿Cuál es la probabilidad de que los tres sean rentables? e) ¿Cuál es la probabilidad de que ninguno de los tres sea rentable? d) Determine la distribución de probabilidad completa del número de clientes rentables de entre este grupo de tres.
" -/."'·"' ·. . .. y 'teorerna de límite central 613JE1!!V©s. Al terminar este capítulo podrá: !JNO Explicar.porqué una muestra es la única forma posible de tener cünocimientos acerca: de una población.
rwios Describir los diversos métodos para seleccionar una _muest~a. 'fR~S
Definir y elaborar una distribu' ción de muestreo de medias muestrales. C!JATRO Explicar e(teorema de limite central. · · C!WlC(f Usare¡teórª'ma de .límite oár<::::::·· tral g~rºbtener .1ª~ gistintªS.((\fqias muestrales e.n "uqa det.ermJnada población. ':' _:::·:;---_:·:!-_.'---_·-:.\:_:-.-?-- '>.'·: ·/-.:.. _.. :·_·;::,,··: .:_-_-;;
,.-,·:.".'
:-.:-~-~ ~l~,1p_\·~~d_ -.px_o?,t_1(tos 9r_pJás_ti.;.?i ~:01-¡_tról;~--5 ~' cH_~ry_1_~.tro :i_rtt_e_J~¡_ o,t:. d_? l~:~ _tgb_?s · ~l_c, _py~ _ q~1 e_ 't) r~-~[\1~ ·e:- l_J1?. ~1,J11~1c_¡tt~~1a. Ja'l_ni c_cl, :C;-,ca:_~1~.:7_2.0_ _ t_1~ b:°-s-,cn_ dps :-h 7:n1_~: -~9_?1;~~? _ s~ -11a_~Í~\': pa;a" _t.~n1;.~~_-_u_r1¡1__n~11est~_,_1_- _d¡;_ }a __prod~\~:ciór~. ~~1~h\dP?. _110,rasy_ ., (Vct qbjctiYP..f. rCi_~rc,i~iq,,JQ) -.
264
Capítulo 8
Introducción En los capítulos 1 a 4 se hace énfasis en las técnicas empleadas para describir datos. Para ilustrar estas técnicas. se organizaron los precios de los 80 vehículos vendidos el mes pasado en la agencia Whitner Pontiac en una distribución de frecuencias, y se calcularon varias medidas de ubicación y de dispersión. IVledidas como la media y la desviación estándar sirven para describir el precio de venta representativo y la diversidad entre los precios de venta. En estos capítulos el interés se enfoca en describir los datos, es decir, describir algo que ya ha ocurrido. En el capítulo 5 se empiezan a establecer los fundamentos de la parte inferencia! de la estadística con un repaso de los conceptos básicos de probabilidad. Recuérdese que el objetivo en la inferencia estadística es determinar algo acerca de una población con base en una muestra. La población es el grupo completo de individuos u objetos en estudio, y la muestra es una parte o subgrupo de esa población. En el capitulo 6 se analizaron en forma extensa los conceptos de probabilidad describiendo tres distribuciones probabilísticas discretas: la binomial, la hipergeométrica y la. de Poisson. En el capítulo 7 se presentó la distribución normal, que es una distribución de probabilidad continua ampliamente utilizada. Las distribuciones de probabilidad engloban todos los resultados posibles de un experimento y la probabilidad asociada a cada resultado. Las distribuciones de probabilidad se usan para evaluar algo que podría ocurrir. Este capitulo comenzará con el estudio del muestreo. Una muestra es un medio utilizado para inferir algo acerca de una población. Se analizarán métodos para escoger una muestra de una población. Después se elaborará una distribución de las medias muestrales para comprender la forma en que tales valores medios tienden a agruparse alrededor de la media poblacional. Finalmente, se mostrará por qué esta distribución se aproxima a la distribución normal.
~~~-~~~s1~-~~~~~~--~' _I:~~-~~1c!ói~ En muchos casos, el muestreo es la única fo'rma de determinar algo acerca de la población. Algunas de las principales razones por las que el muestreo es necesario son:
Razones para hacer un muestreo.
1. la naturaleza destructiva de ciertas pruebas. Si los catadores de vinos de Sutter Home Winery, en California, tuvieran que beber todo el vino para evaluar la vendimia, consumirían toda la producción y no quedaría producto disponible para. la venta. En el área de la producción industrial, las placas de acero, el alambre y productos similares, frecuentemente deben tener determinada resistencia mínima a !a tensión. Para asegurar que el producto cumpla con el estándar mínimo, se selecciona una muestra relativamente pequeña. Cada pieza es estirada hasta que se rompe y se registra el esfuerzo de ruptura. Obviamente, si todo el alambre o todas las placas se sometieran a pruebas de resistencia a la tensión, no quedaría ningún producto para su venta o uso. Por esta misma razón, la empresa Kodak sólo selecciona una muestra de película fotográfica para determinar la calidad de la producción total, y la compañía Burpee sólo prueba la germinación de unas cuantas semillas antes de la temporada de siembra. 2. la imposibilidad física de revisar todos los integrantes de la población. Las poblaciones de peces, aves, serpientes, mosquitos y similares, son grandes y están en movimiento constante, los seres nacen y mueren. En vez de intentar siquiera contar todos los
Mélodos de m"estreo y el
leorema de límile ceíl!rnl
265
patos de Canadá o la totalidad de peces en el lago Erie, se hacen cálculos utilizando diversas técnicas; como contar todos los ánades de un estanque seleccionaclo al azar, hacien-
do verificaciones con nasas, o colocando redes en lugares predeterminados en el lago. 3. El costo de estudiar a todos los integrantes de una po-
blación, frecuentemente es prohibitivo. Las organizaciones que realizan encuestas de opinión pública y las que efectúan pruebas a consumidores, como la Gallup Polis y la Marketing Facts (en EUA), por lo general entrevistan a menos de 2 000 familias de las aproximadamente 50 millones que hay en Estados Unidos. Una organización de tipo panel para estudios de consumo cobra alrededor de 40 000 dólares por enviar por correo muestras y tabular las respuestas, con la finalidad de probar un producto (como cereal, perfume o alimento para gatos). La misma prueba de un artículo utilizando a 50 millones de familias costaría aproximadamente 1. 000 millones de dólares. 4. Lo adecuado de los resultados de la muestra. Incluso . si se contara con fondos, es dudoso que la precisión adicional de una muestra de 100% -es decir, el estudio de la población completa- resulte fundamental en la mayor parte de los problemas. Por ejemplo, el gobierno estadounidense emplea una muestra de tiendas de comestibles dispersas en todo el territorio de ese país, para determinar el índice mensual de precios de artículos alimenticios. Los costos de pan, frijol, leche y otros productos importantes, se incluyen en el índice. Es poco probable que la inclusión de todas las tiendas de comestibles en Estados Unidos, afectara significativamente el índice, ya que los precios de la leche, pan y otros productos básicos, por lo general no varían en más de algunos centavos de una cadena de tiendas a otra. 5. En ocasiones se necesitaría mucho tiempo para entrevistar a toda Ja población. Una candidata a un puesto público puede desear evaluar las probabilidades de que la elijan. Sólo serían necesarios uno o dos días para determinar una muestra de escrutinio utilizando. ~I personal existente, y las entrevistas de campo por parte de una organización especializada en escrutinios. ¡Si se empleara el mismo personal y entrevistadores, con trabajo los siete días a la semana, se precisarían casi 200 años para entrar en contacto con toda la población vot¡mte! lnclu.so si pudiera contratarsea un gran número de investigadores, el costo de comunicarse con todos los votantes probablemente no ameritaría tal gasto. Si la candidata fuera muy popular, el escrutinio muestra! podría indicar que tal vez recibiría entre 79% y 81 % del voto popular. No se justificarían el gasto adicional ni el tiempo para averiguar que tal persona podría recibir exactamente 80% de la votación.
En general, hay dos tipos de muestras: la muestra probabilística y la muestra no probabilística. ¿Qué es una muestra de esa c!ase?
._ ,· ~A[mLesITa_ probabll~~~~~\'~;--Mue$fr~·-tj,U~~::,S_e _selecciona de rTiodo que .c:~da:_i_~~égfá;:~Ef~~-~; · la. pobJ¡¡ciÓn en "!Stud[o \"1n9a unaprol:labilirjad conocidE! (PE>ro disti_ntad.epef()) des.er ih.duic;l.0 enJa muestra..· .. · · · No existe un método que sea "el mejor" para tomar una muestra probabilística de una población. Un método que se usa para tomar una muestra de facturas de un archivo, puede no ser el más adecuado para tomar una muestra de votantes a nivel nacional. Sin embargo, to-
266
Capítulo 8 dos los métodos probabilísticos tienen un propósito común, permitir que el azar determine los elementos o personas que se incluirán en la muestra.
lViuestreo aleatorio simple El tipo de muestreo más utilizado es el que se denomina muestreo aleatorio simple.
Una tabla de números aleatorios es un medio eficiente para seleccionar elementos de una muestra.
La esfadística en acción
Para ilustrar el muestreo aleatorio simple y la selección, supóngase que una población consta .de 845 empleados de una empresa industrial. Se seleccionará una muestra de 52 a partir de esta población. Una forma de asegurar que todos los trabajadores en la población tengan la misma oportunidad de ser elegidos, es escribi.r primero el nombre de c.ada uno en una papeleta y depositar en una caja todos los papeles. Después que se han mezclado bien, se realiza la primera selección sacando una papeleta de la caja sin mirarla. Este proceso se repite hasta que se eligen 52, el tamaño de la muestra. Un método más adecuado de seleccionar una muestra aleatoria es emplear el número de identificación de cada empleado y una tabla de números aleatorios como la que se presenta en el apéndice E. Como su nombre lo indica, estos números han sido generados por un proceso aleatorio (en este caso, por una computadora). Para cada dígito de un número, la probabilidad de O, 1, 2,. .., 9 es la misma. Así, la probabilidad de que el empleado con número 011 sea elegido, es la misma que la del laborante 722, o el 382. Por tanto, quedan eliminados así !os sesgos en e! proceso de selección. En la siguiente ilustración se muestra una parte de un cuadro de números aleatorios. Para utilizar esta tabla a fin de seleccionar una muestra de los empleados, primero debe elegirse un punto de inicio en la tabla. Cualquier punto de comienzo servirá. Supóngase que la hora es 3:04. Podría uno ver la tercera columna, y después bajar al cuarto conjunto de números. El resultado es 03759. Como sólo hay 845 empleados, se utilizarán los primeros tres dígitos de un número aleatorio de cinco cifras. De modo que 037 es el número del primer empleado que será elemento de la muestra. A fin de continuar seleccionando, se puede ir en cualquier dirección. Supóngase que se decide ir hacia la derecha. los primeros tres dígitos del número a la derecha de 03759 son 447, que es el número del empleado que se escogerá como segundo elemento de la muestra. El tercer número de tres dígitos también a la derecha, es 961. No se puede usar el 961 porque solamente hay 845 empleados. Se continúa en la misma dirección y se selecciona al empleado 784, después al 189, y así sucesivamente. Otra forma de seleccionar el punto de inicio es cerrando los ojos y fijando con el dedo un número de la tabla.
50525 72507 34986
57454 53380 74297
28 4 5 5 53827 OOH4
68226 42486 38676
34656 54465 89967
38884 718 H 98869
39o1 8 9 1199 39744
6 8 8 51 06738 11 4 4 8
27305 62879 10734
59 10391 o 05837
3 1735o 24397
9 61 o 8 4 91 6 9 1o42o
(¡'(j48 9 103850 16 712
1891o 1891o 94496
Un estudio realizado por Marion Bryson y Robert Masan ilustra aún más el uso de una tabla de números aleatorios y el muestreo aleatorio simple. En 18 depósitos de pertrechos y repuestos del ejército de Estados Unidos, hay 186 81 O artículos diferentes de abastecimiento militar, como neumáticos, tuercas, pernos, bandas para tanques, y cadenas para llantas. En cada almacén hay naves, y en cada nave existen com-
267
Métodos de muestreo y el teorema de límite central
Utilización de una tabla de números aleatorios para prevenir el sesgo.
Autoex~men
6.1
partimentos. Por ejemplo, en la bodega número 17 se guardan partes de vehículos. En la na· ve 260, compartimento 2, se encuentran los cigüeñales de Jeep. Y en la misma nave 260, compartimento 3, están los tapones para radiador de Jeep. El problema fue seleccionar al azar un compartimento de un depósito y contar todos los artículos que había en él. Este conteo físico se comparó con el conteo que indicaban los registros realizados por computadora respecto de las existencias d'1sponibles. Así, en esencia el problema era el de un inventario físico que implicaba métodos de muestreo. El objetivo del proyecto de investigación fue determinar qué tan precisos eran los registros de computadora. Para asegurarse de que cada compartimento tuviera la misma probabilidad de ser seleccionado, se utilizó una tabla de números aleatorios para elegir el almacén, la nave y el compartimento. Si se hubieran seleccionado la bodega 5, la nave 455 y el compartimento 6, un revisor se dirigiría a ese lugar y contaría el número de artículos en tal sitio. ¿Por qué se utilizó un método tan tardado para seleccionar los compartimentos que fueron muestreados? La alternativa hubiera sido dejar que los revisores contaran los artículos en los sitios que desearan. Sin duda habrían eludido contar los artículos en los compartimentos que contenían partes pesadas o grasosas. Y, probablemente, hubieran evitado también los ubicados a más de 6 metros de altura sobre el piso del depósito. La omisión de los objetos en tales compartimentos para este proyecto de investigación acerca de un inventario físico, habría producido sesgamiento en los resultados. Es decir, su omisión daría una imagen falsa acerca de la exactitud de los registros de computadora. La lista de clase, que se presenta en la parte inferior de la página siguiente, menciona a los estudiantes ins_critos_ en un curso dE)Jntroducción _a !a J=sta_dística para administración (en una esq_uela_ en Estados lJnidqs). __Se seleccionarán _tres estudiantes al azar y se les harán diversas preguntas ace_rca_ del método de enseñanza y e! c;ontenido d_el curso. a) Sl?_es?rib_en a mano los _n_úmeros de! 00 a_I 45 en pape!e_tas y_ se colocan éstas en un reciPieríte. Los tres nümerqs que se seleCc_ionan son 31, 7 y 25 . ¿Qué estudiantes se incluiría_íl en· la muestra?_ . _ _ -. -" · _ :. _ ¡ b) Aho. ra .uUl·i.ce .1.a ta.bla·. de dígito~.ª. l,eatorio.. s. del ap.·énd.. ice E .. ' para sele.ccionar su propia muest:Jª· C) ¿Qué_ haría si encontrara el :iúmero 59 en la tabla de números aleatorios?
"-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·~~~~~~~~~~~~~~~~
CSPM 264 01 ESTADISTICA PARA NEGOCIOS Y ECONOMÍA 8:00 AM 9:40 AM MW ST 118 LINO D NÚNERO ALEATORIO 00 01 02 03 04 05
06 07
08 09 10 11 12
13 14 15
16 17
18
19 20
21 22
NOMBRE ANDERSON, RAYMOND ANGER, CHERYL RENEE BALL, CLAIRE JEANETTE BERRY, CHRISTOPHER G BOBAK, JAMES PATRICK BRIGHT, M. STARR CHONTOS, PAUL JOSEPH DETLEY, BRIAN HANS DUDAS, VIOLA DULBS, RICHARD ZALFA EDINGER, SUSAN KEE FINK, FRANK JAMES FRANCIS, JAMES P GAGHEN, PAMELA LYNN GOULD, ROBYN KAY GROSENBACHER, SCOTT ALAN HEETFIELD, DIANE MARIE KABAT ¡ JAMES DAVID KEMP, LISA ADRIANE KILLION, MICHELLE A KOPERSKI, MARY ELLEN KOPP, BRIDGETTE ANN LEHMANN, KRISTINA !1ARIE
GRADO ESCOLAR SEGUNDO SEGUNDO PRIMERO PRIMERO SEGUNDO TERCERO SEGUNDO TERCERO SEGUNDO TERCERO CUARTO CUARTO TERCERO TERCERO SEGUNDO SEGUNDO SEGUNDO TERCERO PRIMERO SEGUNDO SEGUNDO SEGUNDO TERCERO
NÚMERO ALEATORIO 23 24 25
26 27
28 29 30 31 32 33 34
35 36
37 38
39 40
41 42 4'3
44 45
GRADO
NOMBRE MEDLEY, CHERYL ANN MITCHELL, GREG R MOLTER, KRISTI MARIE MULCAHY, STEPHEN ROBERT NICHOLAS, ROBERT CHARLES NICKENS, VIRGINIA PENNYWITT, SEAN PATRICK POTEAU, KRIS E PRICE, MARY LYNETTE RISTAS, JAMES SAGER, ANNE MARIE SMILLIE, HEATHER !olICHELLE SNYDER, LEISHA KAY STAHL, MARIA' TASHERY ST. JOHN, AMY J STURDEVANT, RICHARD K SWETYE, LYNN MICHELE WALASINSKI, MICHAEL WALKER, DIANE ELAINE WARNOCK, JENNIFER MARY WILLIAMS, WENDY A YAP, ROCK BAN YODER, ARLAN JAY
ESCOLAR SEGUNDO PRIMERO SEGUNDO SEGUNDO TERCERO SEGUNDO SEGUNDO TERCERO SEGUNDO CUAR'rO SEGUNDO SEGUNDO CUARTO SEGUNDO SEGUNDO SEGUNDO SEGUNDO SEGUNDO SEGUNDO SEGUNDO SEGUNDO SEGUNDO TERCERO
1
268
Capítulo 8
rv11~estreo
aleatorio sistennático
El procedimiento de muestreo aleatorio simple puede ser difícil de utilizar en algunos casos de investigación. Por ejemplo, sJpóngase que la población de interés consta de 2 000 facturas colocadas en gavetas de archivo. Para obtener una muestra aleatoria sirr1ple, primero se necesitaría numerar dichos elementos del 0000 al 1999. Usando una tabla de números aleatorios, una muestra de -por ejemplo- i 00 nl1meros, se tend1·ía que seieccionaL Habría que localizar en las gavetas una factJra que correspondiera a cada uno de estos 100 números, lo En un muestreo sistemático el primer elemento se elige al azar.
cual .sería una tarea prolongada. En su lugar se puede tomar una muestr~ aleatoria sistemática, seleccionando una factura de cada 20 de las que se encuentran en el archivo. La primera factura se elegiría utilizando un proceso al azar o fortuito, por ejemplo una tabla de números aleatorios. Si se selecciona el elemento n(1111ero i O como el punto ele inicio, la muestra constaría de las facturas números 10, 30, 50, 70, etc. Ya que el primer elemento se elige al azar, todas las facturas tienen la misma probabilidad de ser seleccionadas para la muestra. Así que se tiene una muestra probabilística.
:lVI11]]'JSh\Bfaléatori~11.··sist~mátic:~l'°.': Los''.integ_ra_ntes( p' el'3inentos,:d.e la. pobla?ió·n::-se.:· oJ-" denan·en algunaforma. ·.'-
Sin embargo, no debe utilizarse una muestra sistemática si hay un patrón predeterminado en la población. Por ejemplo, en el estudio con respecto a un inventario físico, ya mencionado, algunos de los almacenes o depósitos en la base tienen naves de seis compartimentos de alto. En la hilera inferior de compartimentos hay artículos de movimiento rápido, 99mo grasa, pintura en aerosol y objetos de ferretería. Estos objetos se almacenan a_I niyeLdel piso para acelerar el trabajo de los encargados de surtir los pedidos. En los co!l'partirnentos de Ja fila superior se encuentrar. artículos que se mueven poco, como aros para neumiíticos, cadenas de semioruga y percutores. En las cuatro hileras intermedias se guardan artículos de· movimiento moderado, como neumáticos, fanales y chavetas. Si se usara una muestra sistemática para verificar el inventarío, sería muy probable que se seleccionara una muestra sesgada. Supóngase que el procedimiento ele muestreo requiriera la selección de cada tercer compartimento y se eligiera primero el número i. Después se seleccionarían sistemáticamente los compartimentos 1, 4, 7, 10, 13, 16, 19 y 22. +-----
Partes que se mueven lentamente
Partes que se mueven con velocidad moderada
Partes que se mueven rápidarnente
Bajo ciertas condiciones,
una muestra sistemática puede presentar sesgamiento de resultaclos.
Con e! procedimiento siste1nático se seleccionarán automáticamente 4 compartimentos que contienen artículos de movimiento moderadamente rápido, y un total de 4 con elementos de movimiento rápido o lento. Esta división 50-50 ele la muestra no coincide con las características de la población real. La población está integrada por 16 compartimentos con artículos de movimiento moderadamente rápido, 4 con elementos de movimiento rápido y 4 con artículos de movimiento lento. Los resultados de la muestra sin duda tendrían sesgo hacia los elementos de movimiento lento y rápido.
269
Otro tipo de muestreo de probabilidad es el llamado muestreo aleatorio estratificado.
Mriestreo estratos,
naclos
Una muestra estratificada garantiza la representación de cada subgrupo.
Después de que la población se ha dividido en estratos, puede seleccionarse una muestra proporciona/, o no proporcional. Como el nombre lo dice, un procedimiento de muestreo proporcional requiere que el n(rmero de elementos en cada estrato tenga la misma proporción que se encuentra en la población. Por ejemplo, el problema puede ser estudiar los gastos de publicic/ac/ de las 352 compar'íías más grandes en Estados Unidos. Supóngase que el objetivo del análisis es determinar si las empresas que pagan altos c1·1videndos (una medida ele rentabilidad) gastan más por cada dólar _de ventas en propaganda, que lo que destinan a eso las compañías con bajos' dividendos oen déficit. Considere c¡ue las 352 empresas se dividieron en cinco estratos. (Véase la _tabla 8.1 ). Si se han de seleccionar 50 empresas para un estudio intensivo, entonces .~e estu.diaría. una organización con un nivel de rentabilidad de 30% o mayor, se seleccionarian_aleatoriamente cinco empresas en el estrato 20-30 por ciento, y así sucesiva111ente.
Ttl,BLft, 8:U
Nú1nero seleccionado para uri.3 muestra aleato:füi-'estratificada proporcional.
Ganancia Estrato
(dividendos)
30°/o o superior 20 has:a 30°/o 1Ohasta 20°/o Ohasta 10°/o Déficit
2
3 4
5 Total ~2%
Número de empresas
8 35 189 115 5 352
Porcentaje de! total
Cantidad muestreada
2
r
10 54 33
27
16
100
50
5•
de 50"" 1; 10% de 50 = 5; etc.
En una muestra estratificada no proporcional, la cantidad ele elementos estudiada en cada estmto es desproporcionada respecto de su número en la población. Luego se ponderan los resultados ele la muestra de acuerdo con la proporción del estrato respecto a la poblacíón total. Por ejemplo, si se utilizara el muestreo no proporciOnal en el caso anterior, se deberían ponderar los resultados del estrato 1 por 2/100, los del estrato 2 por ·101100, los del estrato 3 por 54/100, etc. Sin considerar si se usa un procedimiento de muestreo proporcional o no proporcional, cada elemento o persona de la población tiene probabilidad de ser seleccionado para la muestra. El muestreo estratificado tene la ventaja, en algunos casos, de reflejar con mayor precisión las características de la población, que el muestreo aleator'ro simple o el aleatorio sistemático. Obsérvese en la tabla 8.1 que 2% de las empresas pagan dividendos de 30% o más (estrato ·1¡, y 1 % tiene déficit (estrato 5). Si se tomara una muestra aleatoria simple de 50, se podría, por casualidad, no tomar ninguna empresa de los estratos 1 o 5. Sin embargo, una muestra aleatoria estratificada aseguraría que al menos una empresa en el estrato 1 y una en el estrato 5, estuvieran representadas en la rr1uestra.
270
Capítulo 8
Otro tipo común de muestreo es el
El muestreo por conglomeración reduce el costo del muestreo.
muestreo por congiorneración, el cual se emplea con bastante frecuencia pa1·a reducir el costo ele muestrear una población dispersa en un área geográfica grande. Supóngase que se desea efectuar un reconocimiento para determinar los puntos de vista de industriales respecto a las políticas estatales y ·federales referentes a protección ambiental. Si se seleccionara una muestra aleatoria ele industriales y personalmente se comunicara con cada uno, ello tomaría mucho tiempo y sería sumamente costoso. En vez de eso, podría emplearse el muestreo por conglo-
meración
subdividiendo
una
región
extensa en áreas menores. Con ·frecuencia se denomina a éstas unidades primarias. Supóngase que se divide la región en 12 unidades primarias, después seleccionan al azar cuatro áreas menores: \as 2, 7, 4 y i2, y se concentran los esfuerzos en éstas. Se podría tomar una muestra aleatoria de los industriales de cada unidad, y entrevistarlos. (Obsérvese que lo anterior es una combinación del muestreo por conglomeración y el muestreo aleatorio simple.)
~3 ' Existen muchos métodos de muestreo.
El análisis de !os métodos de muestreo que se realizó en. _lqs secciones anteriores no íncluye todos los procedimientos para tal acción de los que dispone un investigador. Si se realiza un proyecto de investigación importante sobre mercadotecnia, finanzas, contabilidad u otras áreas, será necesario que se consulten libros que hayan sido escritos exclusivamente con re!aci_ón a la teoría del muestreo y el diseño de muestras.
Consulte el
autoex::~~sta de e~:~~ en ~:~página 267, Supóngase que la :~es~a ~e~-1
be constar de cada noveno estudiante inscrito en la clase.· Inicialmente se seleccionó al azar al cüarto.alumno anotado en tal registro, al cual se le asignó_el· nt'.1n1ero de identificación (ID) igual a 03. C::911siderando que los números aleatorios empiezan _con 00, ¿cuáles estudiantes se elegirán para que sean miembros de la muestra?
' i¡·,
"~~-~-,~~~-J 'í,1
o
,,
o
·~ J_~~:~~-~-~1_0~ 1. La siguiente es una lista de establecimientos de Marco's Pizza, ubicados en Lucas County (Estados Unidos). Adeiná.s se indica si la tienda es propiedad de consorcio (C) o de adrninistra-
IVlélotlos de muestreo y el teorema de limite central
271
dor (M). Se seleccionará una muestra de cuatro establecimientos y se inspeccionarán en !o que respecta a comodidad para clientes, seguridad, l1igiene, y otras características. ·-
!dent. núm. 00 01 02 03 04 05 06 07 08 09
rn 11
Dirección 2607 Starr Av 309 WAlexis Rd 2652 W Central Av 630 Dixie Hwy 351 ODorr St 5055 Glendale Av 3382 Lagrange St 2525 W Laslcey Rd 303 louisiana Av 149 Main St 835 S McCord Rd 3501 Monroe St
Tipo
ldent. núm.
c c c
12 13 14 15 16 17
M
c c
rn
M
c c c
19 20 21 22 23
M M
Dirección 2040 Ottawa River Rcl 2116 N Reynolds Rd 3678 Rugby Dr 1419 South Av 1234 W Sylvania Av 4624 Wooclville Rd 5155 S Main 106 EAirport Hwy 6725 W Central 4252 Monroe 2036 Woodville Rd B16 Michigan Av
Tipo
c c c c c M M
c M
c c M
a} Los números aleatorios seleccionados son 08, i 8, 11, 54, 02, 41 y 54. ¿Qué tiendas se escogen?
b) Utilice una tabla de números aleatorios para seleccionar su propia muestra de establecimientos. e) Una n1uestra ha de constar de cada séptin1a ubicación. El nt'.imero 03 (el ID) es el punto de
partida. ¿Qué tiendas se incluirán en la muestra? d) Supóngase que una muestra consta ele tres tiendas, dos de las cuales son propiedad de consorcio, y una lo es de! administrador. Seleccione una muestra de acuerdo con esta información. ldent. núm.
Nombre
Dirección
Tipo
ldent. núm.
Nombre
Dirección
Tipo
00
Bethesda Morth
MIS
15
Proviclence Hospital
Ft. Hamilton-Hughes
M/S
16
02
Jewish HospitalKenwood Merey HospitalFairfield Merey HospitalHamllton Middletown Regional Clermont Merey Hospital Merey Hospital"Anderson Bethesda Oak Hospital Children's Hospital Medica! Center Christ Hospital
M/S
17
M/S
18
MIS
19
M/S
20
M/S
21
M/S
22
M/S
23
28
VA Meclical Center
502 Farrell Orive Covington. Kentuclcy 41011 151 W. Ga!braith Road Cincínnati, Ohio 45216 20·1 Meclical Village Edgewood, Kentucky 3229 Burnet Avenue Cincinnati, Ohio 45229 3200 Vine Cincinnati, Ohio 45220
s
27
St. FrancisSt. George Hospital St Elizabetl1 Medica! Center, North Unit St Elizabeth Medica! Center, South Unit St Luke's Hospital West St Luke's Hospital East Care Unit Hospital Cinti. Emerson Behaviora! Science Pauline Wariield Lewis Center for Psychiatric Treat. Children's Psychiatric No. Kentucky Drake Center Rehab~ Long Term No. Kentucky Rel1ab Hospital-Short Term Shriners Burns lnstitute
2446 Kipling Avenue Cincinnati, Ohio 45239 3131 Queen City Avenue Cincinnati. Ohio 45238 401 E. 20th Street Covington, Kentucky 41014 One Medica! Village Edgewood, Kentucky 41017 7380 Turfway Dr. Floren ce, Kentucky 41075 85 Nortl1 Grand Avenue Ft. Thomas, Kentuclcy 41042 3156 G!enmore Avenue Cincinnati, Ohio 45211 2446 Kipling Avenue Cincinnati, Ohio 45239 1101 Summit Rd. Cincinnati, Ohio 45237
MIS
01
10500 Montgomery Cincinnati, Ol1io 45242 630 Eaton Avenue Hamilton, Ohio 45013 4700 East Galbraith Rd. Cincinnati, Ohio 45236 3000 Mack Road Fairfield, Ol1io 45014 100 Riverfront Plaza Hamilton, Ohio 45011 105 McKnight Orive Middletown, Ohio 45044 3000 Hospital Dr. Batavia, Ohio 45103 7500 State Road Cincinnati, Ohio 45255 619 Oak Street Cincinnati, Ohio 45206 3333 Burnet Avenue Cincinnati, Ohio 45229 2139 Auburn Avenue Cincinnati, Ohio 45219 311 Straigl1I Street Cincinnati, Ohio 45219 375 Dixmyth Avenue Cincinnati, Ohio 45220 3200 Burnet Avenue Cincinnati, Ohio 45229 234 Goodman Street Cincinnati, Ohio 45267
03 04 05 06 07 08 09 10 11
13
Deaconess Hospital Good Samaritan Hospital Jewish Hospital
14
University Hospital
12
M/S 24 M/S 25 M/S 26 M/S M/S M/S
M/S MIS M/S M/S M/S
s s s
s s s s
272 2. La anterior es una lista de hospitales en la región de Cincinnati (Ohio) y el norte de t(entucky (Estados Unidos). Además se indica si el nosocorr1io es un hospital de medicina general y cirugía (M/S), o uno de especialidades (S). a) Se seleccionaré. al azar una n1uestra de cinco hospitales. Los nl1meros aleatorios obtenidos son: 09, i6, 00, 49, 54, i2 y 04. ¿Qué hospitales se encuentran en la muestra? b) Utilice una tabla de nún1eros aleatorios para determinar su propia muestra de cinco nosocomios. e) Una muestra consta de cada quinto hospital. Se selecciona 02 como punto ele partida. ¿Qué hospitales serán considerados? d) Una muestra ha de consta1· de cuatro hospitales de medicina general y cirugía y una de especialidades. Seleccione u1 conjunto muestra! adecuado. 3. A continuación se indican los 35 mien1bros de la Asociación de Agencias de Automóviles, de Metro Toledo.
lcient
ident.
núm. Agencia
núm.
00 01 02 03 04 05 06 07 08 09 10 11
12 13 14 15 16 17 18
Dave Wl1ite J.lcura Autofair Nissan Autofair Toyota-Suzuki George Ball's Buick GfVlC Truck Yark Automotive Group Bob Schmidt Chevrolet Bowling Green lincoln Mercury Jeep Eagle Brondes Ford Brown Honda Brown Mazda Charlie's Dodge Thayer Chevrolet Geo Toyota
·19
20 21 22 23
Agencia
!dent. nüm. Agencia
Spurgeon Chevrolet Motor Sales, lnc. Dunn Chevrolet Don Scott Chevrolet-Pontiac-Geo, lnc. Dave Wl1ite Cllevrolet Co. Dick Wilson Pontiac Doyle Pontiac Buick Frankli11 Park Lincoln IVlercury Genoa Motors Great Lakes Ford Nissan Grogan To~me Cllrysler Hatfield Motor Sales Kistler Ford, lnc.
24 25 26 27 28 29 30 31 32 33 34
Lexus ofToleclo Mathews Ford Oregon, lnc. Northtowne Chevrolet-GEO Ouality Ford Sales, lnc. Rouen Chrysler Jeep Eagle Saturn of Toledo Ed Scllmidt Pontiac Jeep Eagle Southside Lincoln Me1·cury Vallton Cllrysler Vin Divers Wllítman Ford
a} Se desea seleccionar al azar una muestra de cinco agencias. Los nC1meros aleatorios son: 05, 20, 59, 21, 31, 28, 49, 38, 66, 08, 29 y 02. ¿Cuáles quedarán incluidos? b) Utilice una tabla de nú111eros aleatorios para seleccionar su propia muestra de cinco distribuidores comerciales. e} Una muestra ha de constar de cada séptimo comerciante. El número 04 se selecciona co1110 punto de partida. ¿Qué distribuidores se considerarán? 4. A continuación presentamos una lista con los 27 agentes de seguros de Nationwide lnsurance, que residen en el área metropolitana de Toledo, Ohio. !dent. núm.
00 01 02 03 04 05 06 07 08
id en t. núm.
Agente B!y Scott 3332 W Laskey Rd Coyle Mike 5432 W Central Av Denker Brett 7445 Airport Hwy Denker Ro!lie 7445 Airport Hwy r-arley Ron 1837 WAlexis Rd George Mark 7247 W Central Av Gibellato Garlo 6616 Monroe St 352-1 Navarre Av G!emser Cathy 5602 Woodville Rd Green Mlke 4149 Hollancl Sylvania Rd
09 10 11 12 13 14 15 16 17
A.gente Harris Ev 2026 Albon Rd Heini Bernie 711 OW Central Hinck!ey Dave 14 N Holland Sylvania Rd ~loeh!in Bob 3358 Navarre Av Kelsser David 3030 W Sylvania Av Keisser Keitíl 5902 Sylvania Av lawrence Grant 342 W Oussel Or Mi!!er Keíl 2427 Wooclville Rcl O'Donnell Jim 7247 W Central Av
ldent. nl!m.
18 19 20 21 22 23 24 25 26
Agente Priest Harvey 5113 N Summit St Riker Graig 2621 N Reynolds Rcl Schwab Dave 572 W Dussel Dr Seibert John H 201 S Main Smithers Bob 229 Superior St Smithers Jerry 229 Superior St Wright Steve i 05 S Third St Wood Tom 1i2 Louisiana Av Yoc!er Scotl 6 Willoughby Av
a) Se desea seleccionar una muestra aleatoria ele cuatro agentes. Los números aleatorios son: 02, 59, 51, 25, 14, 29, 77, 69 y 18. ¿Qué agentes se incluirán en la muestra? b) Utilice una tabla de nú111eros aleatorios para formar su propia muestra de cuatro agentes. e} Una 111uestra consta de cada quinto agente. El número 02 se selecciona co1110 punto de partida. ¿Qué aseguradores se incluirán en la muestra?
~llétodos
de muestreo y el teorema de !imite centi'al
273
"Error"de muestreo 1
En el análisis anterior se subrayó !a importancia de seleccionar una muestra de manera que cada elemento o individuo ce ta población tenga una probabilidad real de ser escogido. Para lograr esto, podría elegirse un muestreo aleatorio simple, uno sistemático, uno estratificado, uno por conglomeración, o bien una combinación de estos métodos. Sin embargo, es poco probable que una media muestra! sea idéntica a la media poblacional. De igual forma, la desviación estándar u otra medida calculada a partir de ta muestra, probablemente no sería exactamente igual al valor correspondiente de la población. Por tanto, podemos esperar que haya alguna diferencia entre un valor estadístico de muestra, como la media muestra! o la desviación estándar respectiva, y e! correspondiente parárnetro de población. La diferencia entre un valor estadístico de muestra y un parán1etro de población se denomina error de rnuestreo.
Error de mllestreo Díferenda entre un valor. estadístico ele muestra y su parámetro ele. población• correspon<1ienté. ·. Supóngase que una población de cinco empleados de producción tiene índices de eficiencia ele 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra de dos indices (97 y 105) de ta pob'ación para calcular el índice medio de la misma. Tal media sería 101, obtenida de (97 + 105)/2. Se selecciona otra muestra de dos: 103 y 96, con una media muestra! de 99.5. La media de todos los índices (la media de la población) es igual a 100, obtenida por: (97 + 103 + 96 + 99 + 105)/5 = 500/5 = 1OO. El error de muestreo para la primera muestra es de 1.0, determinado por X- /L = 101 - 1OO. La segunda muestra tiene un error de muestreo de -0.5. Cada diferencia, 1.0 y -0.5, es el error que habría al evaluar la media poblacional con base en la 111edia muestra!, y estos errores de muestreo se deben al azar. La cantidad de estos errores será diferente de una muestra a la siguiente. Ahora que se ha descubierto la posibilidad de un error de muestreo cuando se usan los resultados de la muestra para determinar un parámetro ele población, ¿cómo se puede realizar un pronóstico exacto sobre el éxito posible de un dentífrico recientemente elaborado o algún otro producto, C1nicamente con base en resultados muestrales? ¿Cómo puede el departamento de control de calidad de una industria de producción en masa enviar un cargamento de circuitos integrados basado L1nicamente en una muestra de i O circuitos integrados? ¿Cómo pueden las empresas de sondeos Gallup o Harris realizar una predicción acertada respecto a una campaña electoral con base en una muestra de 2 000 electores registrados de una población votante de casi 90 millones? Para responder a estas preguntas primero debe desarrollarse una distribución de muestreo de las medias muestra/es.
Distribución de inuestreo de medias muestrales Las medias muesti·ales varían de una muestra
a otra.
En el ejemplo referente a las tasas de eficiencia se mostró que las rr1edias muestrales de un tamaño especrnco varían de una muestra a otra. El índice de eficiencia med\o de la primera muestra de dos empleados era 10·1, y la media de la segunda muestra fue 995. Probable111ente, una tercera muestra daría co1110 resultado un valor medio diferente. La n1edla de la población fue 1OO. Si se organizaran los valores medios de todas las muestras posibles de tamaño 2 en una distribució1 de probabilidad, se obtendría la distribución de muestreo de medias muestrales.
Distribución .de muestreo de.medias muestrales Es una distribución de probabilidad que, consta de todas las medias muestrales posibles de .un tamaño de muestra dado. El siguiente ejemplo ilustra la elaboración de una distribución de muestreo de medias muestrales.
274
EJEMPLO
La empresa Tartus Industries tiene siete empleados de producción (considerados como la población). El salario por hora de cada trabajador se presenta en la tabla 8.2. TABLA 8.2
Salarios (por hora) de los trabajadores de producción de la ernpresa Tartus Industries. Empleado
Salario (en dólares)
Joe Sam Sue Bob Jan Art Ted
1. 2. 3. 4.
$7 7 8 8 7 8
9
¿Cuál es la media de la población? ¿Cuál es la distribución ele muestreo de medias para una muestra de tamaño 2? ¿Cuál es la media de la distribución de muestreo? ¿Qué observaciones pueden formularse con respecto a la población y a la distribución muestral?
1. La media de la población es $7.71 (dólares), y se obtiene de:
SOLUCIÓN
$7 µ=
+ $7 + $8 + $8 + $7 + $8 + $9 7
La media poblacional se identifica con la letra griega µ. Nuestro criterio, establecido en los capítulos 1, 3, y 4 es identificar los parámetros de población con letras griegas. 2. Para determinar la distribución de muestreo de las medias muestrales, se seleccionaron todas las muestras posibles de tamaño 2 sin reposición en la población, y se calcularon sus medias. Hay 21 muestras posibles, obtenidas mediante la fórmula (5.10) del capítulo 5. N
en =
N! n!(N- n)!
7! 21 2!(7 - 2)! =
donde N = 7 es el número de elementos en la población y n = 2 es la cantidad de los mismos en la muestra. Las 21 medias de todas las muestras posibles de tamaño 2 que pueden tomarse a partir ele la población, se indican en la tabla 8.3. Esta distribución de probabilidad es la distribución de muestreo de. las medias, y se resume en la tabla 8.4. TABLA 8.3
J\!Iedias n1uesh·a1es de todas las rnuestras posih1es de tarnaño de dos etnpleados. .
Salario
Salario 1
Muestra Emp!eac!os (dólares por hora) Suma Media 1 2 3 4 5 6 7 8 9 "IO 11
Joe, Sam Joe, Sue Joe, Bob Joe,Jan Joe, Art Joe, Tecl Sam, Sue Sam, Bob Sam, Jan Sam, Art Sam, Tecl
$7,$7 7, 8 7, 3 7, 7 7, 8 7, 9 7, 8 7, 8 7, 7 7, 8 7, 9
$14 15 ·15 14 15 16 15 15 14 15 16
$7.00 7.50 7.50 7.00 7.50 8.00 7.50 7.50 7.00 7.50 8.00
Muestra Empleados (dólares por hora) Suma Media 12 13 14 15 16 17 18 19 20 21
Sue, Bob Sue)Jan Sue, Art Sue, Ted Bob, Jan Bob, Art Bob, Ted Jan, Art Jan, Ted Art, Ted
$8,$8 8, 7
8, 8 8, 8, 8, 8, 7, 7, 8,
9 7 8 9 8 9 9
$16 15 16 17 15 16 17 15 16 17
$3.00 7.50 8.00 8.50 7.50 8.00 8.50 7.50 8.00 8.50
275
l\llé!odos de muestreo y el teorema de límite central l)istribución de Tnuestreo de las inedias paran"'"" 2.
TABLA 8.4
Media muestral
$7.00 7.50 8.00 8.50
Número de medias
3 9
Probabilidad
6 3
0.1429 0.4285 0.2857 0.1429
21
1.0000
3. Se obtuvo la media de la distribución de muestreo de medias muestrales, sumando las diferentes medias de muestra y dividiendo la suma entre el 11(1mero de muestras. La media de todas las medias generalmente se expresa como f'x· El símbolo µ, recuerda que es un valor poblacional, pues se han considerado todas las muestras posibles. El subíndice X indica que es una distribución de muestreo de medias. La media poblacional es igual a la media de las medias muestrales.
Suma de todas las medias muestrales Número total de muestras
$7.00
+ $7.50 + ... + $8.50
~LX=----------------
21
4. Consulte el diagrama 8.1, que muestra tanto la distribución poblacional como la distribución de las medias muestrales. Se pueden hacer las siguientes observaciones: a) La media de la distribución de las medias muestrales ($7.71) es igual a la media poblacional: e'= 1~;;b) La dispersión en la distribución de las medias muestrales es menor que la que corresponde a los valores de la población. Las medias muestrales varían de $7.00 a $8.50, y los valores de la población van de $7.00 a $9.00. De hecho, la desviación estándar de la distribución muestra! de medias es igual a tal desviación poblacional dividida entre la raíz cuadrada del tamaño de la muestra. Por tanto, la fórmula para la desviación estándar de la distribución de medias muestrales es r:J/Vn. Obsérvese que al aumentar el tamaño de la muestra, la dispersión en la distribución de medias muestrales se vuelve menor. c) La forma de la distribución de muestreo de las medias muestrales, y la forma de la distribución de frecuencias de los valores de población, son diferentes. La primera distribución tiende a ser acampanada y su aspecto se aproxima al de la distribución de probabilidad normal.
Yalpr€s _de.-fa:-población_
- Distribución de ta-media muestra!
-·-1
0.40r
1il ~"Ó:30
.o 0.20
2
o.. O.ID ~~~~--~--~-
7
:: J
OIAGRAnllA 8.i
.u 8
9 Salarios por hotB
8 8.5
g
Media muestra!
de los sala1·ios por llora
l)istribución de los valores de 1a población y la n1eclia rnuestral.
276
Capítulo 3 En resumen, se tornaron todas las muestras aleatorias posibles de una población y para cada una se calculó un valor estadístico muestral (la cantidad media obtenida). Como cada muestra posible tiene una posibiliclacl de ser seleccionada, puede determinarse la probabilidad de que dicha cantidad tenga valores como $7.27, $8.50, $6.50 y así sucesivamente. La distribución ele las cantidades medias obtenidas se denomina la distribución de muestreo de las medias muestrales.
Aunque en la práctica se puede ver sólo una muestra aleatoria en particular, en teoría puede surgir cualquiera de !as muestras. En consecuencia, se considera el proceso de muestreo como uno repetido del valor estadístico a partir de su distribución muestral. Esta distribución de muestreo se utiliza luego para medir la probabilidad de un resultado específico.
Autoexamen 8,3
Ettiempo de seivício de todos los ejecutivos empleados por la empresa Standard Chemicals, es: Nombre Sr.Snovi/ Sra. Tolson Sr. Kraft Sra. !rwin
Sr. Janes
Años
20 22 26 24 28
a} UtiHZB.ndo la fórmula de cbílibiÍlációíl~ ¿cuáiltas mLieSfraS de tamaño 2 son posibles? b) Seleccione todas las muestras posibles de dicho tamaño de la población de ejecutivos, · y calcule sus valores medios.
e} Orgarlicé'laS mediaS. en 'una-distribución- de rliuestreo. el) Compare la media de lapoblación y el valor medio de las medias muestrales. e) Compare la-dispersión en !a pobfacióh'con-ta distribución de medias muestra!es.
f) A continuación se presenta una gráfica con los valores de la población. ¿La distribución de !os va!ores de la misma. es de típo normal (con forma de campana)?
20 22 24 26 28 Años c!e servicio
g) ··¿La'diStr!büCión:cte ras-medias múeStrares·establécfdas·en el inciso e) empieza a mostrar tendencia a la forma de campana?
Ejercicios 5. Una población consiste en los cuatro valores siguientes: 12, 12, 14 y ·16. a} Enumere todas las muestras posibles de tamaño 2 y calcule la media de cada muestra. b) Determine el valor medio de la dístribución de medias muestra!es, y la medía de la población. Compare !os dos va.lores. e) Compare la dispersión poblacional con la de las medias muestrales.
Mélodos de muestreo y el teornma de límile ceíllral
277
6. Una población consta de los cinco valores siguientes: 2, 2, 4, 4 y 8. a} Indique todas las muestras posibles de tamailo 2 y detern1ine la 111edia de cada una. b} Calcule el valor inedia de la distribución de medias muestrales, y la media poblacional. Compare los dos valores. e) Compare la dispersión en la población con la de las medias muestrales. 7. Una población está compuesta de !os siguientes cinco valores: 12, i2, 14, 15 y 20. a) Enu1nere·tadas las muestras posibles de tamaño 3 y calcule la media de cada una. b) Detennine el valor medio de la distribución de medias muestrales y la media poblacional. Confronte los dos vabres. e) Compare la dispersión en la población con !a de las medias muestrales. 8. Una población consiste en los cinco valores siguientes: O, O, 1, 3 y 6. a} Indique todas las muestras posibles de tamaño 3 y calcule la media ele cada una. b) Determine el valor medio de la distribución de medias muestrales y la media poblacional. Coteje los dos valores. e) Con1pare la dispersió1 en la población con la de las medias muestrales. 9. En el bufete legal Tybo & Associates hay seis socios. A continuación se indica el número de casos que cada miembro realmente llevó a la corte en el mes pasado.
Socio
'
Número de casos
Ruud
3
Austin Sass Palmer Wilhelms Schueller
6 3 3
o
a) ¿Cuántas muestras d'ferentes de tamaño 3 son posibles? b} Enuncie todas las muestras factibles de tan1año 3 y calcule el número medio de casos en cada una. e) Compare el valor medio de la distribución ele medias muestrales, con el de la población. d) En un gráfico parecido al diagrama 8. í, compare la dispersión de la población con la de las medias muestra!es. _ i O. Hay cinco representantes de ventas en la agencia de automóviles Mid-Motors Ford. A continuación se enlistan los cinco representantes y el número de autos que vendieron la semana pasada:
Representantes de ventas Peter Hankish Connie Stallter Ron Eaton Ted Barnes Peggy Harmon
Automóviles vendidos 8 .!/;
'º'' 6 '-·i:" 4 10
.'
'f~.-
.....
6 e
a) ¿Cuántas muestras diferentes de tarnaño 2 son posibles?
b) Enuncie-todas las muestras posibles de tamaño 2 y calcule la n1edia ele cacla una. e) Co111pare el valor meCio de la distríbución de muestreo de n1edias, con el de la población. d} En un gráfico semejante al diagrama 8.i, compare la dispersión de las medias muestrales con la de la población.
Teorema de línüte central En esta sección se analizará el teoren1a de límite central. Su aplicación a la distribución de muestreo de los valores medios muestrales, presentada en !a sección anterior, pennite el uso
278
Capitulo 8 de la distribución de probabilidad normal para crear los intervalos de confianza de la media poblacional (que se describen en el capítulo 9) y realizar pruebas de hipótesis (que se describen en el capítulo 1O). El teoreria de límite central establece que, para muestras aleatorias grandes, la forma de la distribución de medias muestrales se acerca a la de la distribución del tipo normal. La aproximación es más exacta para muestras grandes que para pequeñas. Esta es una de las conclusiones más útiles en Estadística. Se puede razonar acerca de la distribución de las medias muestrales sin contar con alguna información respecto de la forma de la distribución original de la cual se toma la muestra. En otras palabras, el teorema de límite central es cierto para todas las distribuciones. En seguida presentamos un enunciado formal del citado teorema.
TeoretiladelímitecentralSi se sélecdónan de c~alqllierpoblación todas las mues" fr~~ d~ u~ ta".'~ñ() dete~".'ína.do,,la.dístríbudón dela~mediasmuestrales se acercará a Ll~\ldel tipó n()rmal. Esta.aptt))(i["1¡¡ció0 aume~ta enel ca~.o.de m,uestras más grandes.
Si la población está distribuida normalmente, entonces, para cualquier tamaño de muestra, la distribución de la media muestra! también lo estará. Si la distribución de la población es simétrica (pero no normal), se verá surgir la forma normal del teorema de límite central, con muestras tan pequeñas como 1O. Por otra parte, si se comienza con una distribución que es sesgada o tiene extremos gruesos, es posible que se necesiten muestras de al menos 30 para observar el aspecto de normalidad. Este concepto se resume en el diagrama 8.2. Nótese la convergencia hacia una distribución normal, independientemente de la forma de la distribución poblacional. La mayor parte de los estadísticos consideran que una muestra de 30 o mayor, es suficiente para que se emplee el teorema de límite central. El concepto de que la distribución de las medias muestrales de una población que no es normal, converja a la normalidad en ciertos casos, se ilustra en los diagramas 8.3, 8.4 y 8.5. Más adelante se analizará detalladamente este ejemplo, pero el diagrama 8.3 representa una distribución de probabilidad discreta que tiene sesgo positivo. De esta población pueden seleccionarse muchas muestras de tamaño 5. Supóngase que se eligen al azar 25 muestras de tamaño 5, y se calcula la media de cada una. Estos resultados se presentan en el diagrama 8.4. Obsérvese que la forma de la distribución de las medias muestrales cambió respecto de la de la población original, aun cuando sólo se seleccionaron 25 de las mue.has muestras posibles. En otras palabras, se escogieron 25 muestras aleatorias de tamaño 5, de una poblacíón que tiene sesgo positivo, y se encontró que la distribución de !as medias muestrales cambió respecto de la forma original de la población. Conforme se van tomando muestras mayores, es decir n ~ 20 en lugar den~ 5, se hallará que ia distribución de las medias muestrales se aproximará a la del tipo normal. El diagrama 8.5 es un histograma que muestra los resultados de 25 muestras aleatorias de 20 observaciones de la misma población. Véase la clara tendencia hacia la distribución normal. Este es el objetivo del teorema de limite central. El siguiente ejemplo resaltará esta condición.
Ed Spence comenzó su empresa comercial (de ruedas dentadas) hace 20 años. El negocio ha crecido a través del tiempo, y ahora emplea a 40 personas. La empresa Spence Sprockets lnc. se enfrenta a algunas decisiones importantes con respecto al cuidado de la salud de sus empleados. Antes de tomar una resolución final acerca del plan de cuidados de la salud que adquirirá, Ed decide formar un comité de cinco representantes de los trabajadores, para que analice cuidadosamente el tema, y haga una recomendación con respecto a cuál plan se adapta mejor a las necesidades del empleado. Considera que los puntos de vista de los trabajadores más jóvenes con respecto al cuidado de la salud pueden diferir de los correspondientes a empleados de mayor edad. Si Ed selecciona al azar este comité, ¿qué puede esperar respecto del número promedio de años
279
Métodos de m!leslrno y el leurema de límite cenlrnl
en la empresa de los integrantes del mismo? ¿Cómo se compara la forma de la distribución de años de experiencia de todos los empleados con la de las medias rnuestra!es? Los tiempos de servicio (redondeados al año más cercano) de los 40 trabajadores que actualmente están en la nómina de dicha empresa, son co1110 se indica a continuación. 11 3 7 16
n = 30
4 4 8
18
2
o
2 2
2
o
2
2
2
3
3
19
8
7
o
4
5
1
2
5
10
2
9
n= 30
3 14 3
1 11=30 1
¡. 1
1
1
1
--x DIAGRAMA 8.2
SOUJCIÓl\I
X
X
IZesultados del teoren1a de línlitc central con diferentes poblaciones.
El diagrama 8.3 muestra la distribución de los a11os de experiencia para los 40 empleados actuales. Obsérvese que la distribución de los tiempos de servicio tiene sesgo positivo. Hay algunos empleados que han trabajado con Spence Sprockets por cierto tiempo. Específicamente, seis han estado con la compañía 1O años o más. Sin embargo, ya que el negocio ha crecido, el nC1mero de empleados ha aumentado en los últimos años. De los 40 trabajadores, 18 han estado en la empresa dos años o menos.
280
Capítulo 2 9 8 7 m
TS e ru
~
6 5
u
4
~
3 2 1
E'
o
,---
o
DIAGRAMA 8.3
1 11111__1 10 Años de servicio
L 11 20
l'iernpo de servicio de los cn1pleados de la en1presa Spence Sprockets, lnc.
l
La diferencia entre la media muestra! (XJ, y la media poblacional (µ,), se denomina error de muestreo. En otras palabras, la diferencia de 3.80 años entre la media de la po· ~ blación de 4.80, y la media muestra! de 8.60, es el error de muestreo. Esto se debe a la circunstancia. De modo que si Ed seleccionó a esos cinco empleados para fonnar el co- ~-'. mité, el tiempo medio de servicio de tales trabajadores se encontraría ligeramente por ¡x arriba del valor medio de la población. ¿Qué pasaría si Ed devolviera las cinco papeletas a la gorra de béisbol y selecciona· ~ ra otra muestra? ¿Se esperaría que la media de esta segunda muestra fuera igual a la de ~-!.•.~: la muestra anterior? Supóngase que se elige otra muestra de cinco empleados, y se de- " f': termina que sus tiempos de servicio son 7, 4, 4, i y 3. La n1edia de esta muestra es 3.80 _g años. El resultado de seleccionar 25 muestras de cinco empleados cada una se presen- :~ ta en la tabla 8.5 y en el diagrama 8.4. De una población de 40 empleados se pueden ¡x obtene1· 658 008 muestras distintas de tamaño 5; esto se obtiene mediante la fórmula (' (5.1 O) para combinaciones de 40 objetos tornados de 5 en 5. Observe la diferencia en la &\ 'forma de la población y la distribución de esas medias muestrales. La población de los tiempos de servicio para los empleados (diagrama 8.3) tiene sesgo positivo, pero la dis- ~ tríbducf ión de 25 media~ muestrales n o n1anif~esta el mismo sesg o positiv o. También exis·· Í. ·.I_ te i erencia entre el intervalo de 1as medias muestrales y e1 interva 1o de los valores . poblacionales. La población va de O a 19 años, mientras las medias muestrales van de 1.6 a 8.6 a1ios.
i
1
~
!
Métodos de muestreo y el teorema de límite central TABLA 8.5
281
Veinticinco muestras aleatorias de cinco e1nplea
Medida muestra!
Datos muestrales
A B
o
1 7 8 4 4 1 2 11
9 4 19 18 2 2 3 2
9
o
K
1 2
L
o
M N
2 3 1 19 5 5 14 2 3
e
o F
G F H 1 j
o p Q R
s T
u
o o
V
w X
4 1
y
o
1
2 9 4 1
14 3 1 11 ·13 2 2
2 2 11
7 1
o
o
10
2
2 3 7 2
3 1 3 3 1 7 2 2 1 1 5 19 3 2
2 1 4 1 3 14 3 2 4 2 1 4 4 3
16 1 3 4 8 9 4 5
4 8 2 4
o
o 1 4 5 1 7 1 3 2 1
19 1 2
o 7 3
4
7
1 2 2
o 2
8.6 3.8 7.6 7.0 7.0 1.6 1.8 5.6 4.4 3.0 2.8 4.6 1.6 4.0 2.2 6.2 7.2 3.6 5.6 3.0 2.8 1.8 5.6 2.6 1.8
5
4 ro
''3
e
3
©
= ü
~
2
1_!11_1
o o DIAGRAMA 8.4
2
3 4 5 6 7 Tiempo medio de servicio
8
9
Histognnna de los tiempos 111cdios de servicio ele 25 1nuestras de cinco e1np1eados.
La tabla 8.6 indica el resultado de seleccionar 25 muestras de 20 empleados cada una, y calcular sus medias muestra!es, 18.s cuales después se organizan en un histograma (diagrama 8.5), compare la forma de esta distribución con la población (diagrama 8.3), y con la distribución de las medias muestrales cuando el tamaño de la muestra es n ~ 5 (diagrama 8.4). Se deben observar dos características importantes: 1. La forma de la distribución de la media muestra! es diferente de la distribución de la población. En el diagrama 8.3 se observa que la distribución de todos los empleados tiene sesgo positivo.
282 TABLA 8.6
Pv1nes!Tas aleatorias y inedias n1uesh·ales de 25 1nucstras de 20 en1pleados de la en1prcsa Spence Sprocket lnc. Media n1uestra!
Número Datos !'.le !a muestra (Tieinpo de servicio)
de a-nuestra !\ B
e
o E F G H 1 J
3
8
2 14 9 18 10 5 3
3
3 8
5
o
2 1 4
1 2 4 11 2 18 2 5 10 2 1 2 16 3 1 19 3 1 4 9
o 2
1(
7
L M N
o
o p Q
R
s
4 3 2 2 3 2 2
T
o
u
1 1 8 4 1
V
w X y
7
o o 7 4
3 1 16 19 "18 2 3 14 1
o 9 ·1 2 2
o 1
o 2 3 1 2 18 8
2 1 2 4 4 3 11
o
5
2 4 3 5 1 2
1 ·1 3 9
o 5 11 2 1 3 2 4 19 3 2
7
4 2 2 10 7
19 2 16 2 3 ·1
o
1 5 14 10 3 3 18 4 7 3
2 2 11
o
o
8
8
o
o
10
o
o
4
2 19
4
2
2 ·1 4 2 2 1
16 19 1 3 8 3 1
8
7
19 16 2
o
1 8 1 3 1 19 9 2 1 5 14 2 3 4
2 1
4
1 3 1 2 2 4 14 2 2
16 8 3 5
2 3
2 ·1 ·1 5 4 3 18 1 9
11 3 2 4 2
o
1 7
3
9
o 5 19 4 1 2 1 5 11 2
5 1 2 3 ·1 2 2 3
o
5
11 2 16 2 2
o 1 18 1 3 8
1
3
o
7
1 2
2 1 19 4 16 5 2 1
o 2 2 2 3
4
2 9 1·1 7
2 14 3 4 1 5 2 ·19
7
8 4 3 2 4 10 1 2 2 1 5 3
18 2
4 1 19
o 4 7 2 1 11 1 2 18 1 5 8 2 3 1 8 3 2 "IO
3 2 5
2 4 ·1 8 19 "IO 3
1 7 2 7 1 2 3
7
3
o 1
o 2 2 2 2 9 4 4
1 11 1 14 1
1 4 4 5
2 4 2 10
4
o
o
3 2 8 5 2 iO 3 1 16 7 2 2 1 2 14 2 3 3
4 2 3 1 19 1 2 2 1 3
o
7
19
2
16 9 8
o
3 2 3 3
4
7
o
8
2 1 2 16 5 2 11 4
1 1 2
2 4 1 2
4
7
2 2 19 1 1 3
·10 2
o 3
o 5 5
o
o 2 8 9 4 8
7 1
4 3 19 1 3 2 2 16 2 3 1
o 1 11 2 4 3
o o 2 9 2 8 2 1
rn 1 8 3 14 1 4 5 3 2 2 4 2 1 2 3 1 2 7
o 3 11 7
5 18
3.95 3.25 5.95 4.35 5.35 4.00 6.55 4.25 4.00 4.05 4.20 4.05 4.40
4.75 5.10 5.00 5.10 3.65 7.10 3.05 3.25 6.85 5.35 4.30 5.05
5
4
"' '"u
"ü e
3
~
~
2
o
11
L 1L1
5 6 7 3 ~ Tiempo medio de .servicio
DIAGRAMA 8.5
8
9
I-Iistogran
Sin embargo, al seleccionar muestras aleatorias de esta población, la forrna de la distribución de la media muestral can1bia. Conforme aumenta el tamaño de la muestra, la distribución de la media muestra! se aproxima a la distribución de probabilidad normal. Esto ilustra el teorema de límite central. 2. Existe menor dispersión en la distribución de medias muestrales que en la distribución de la población. En ésta, los tiempos de servicio variaron de O a 19 años. Cuando se tomaron muestras de 5, las medias muestrales variaron desde 1.6 hasta 8.6
283 años, y cuando se ton1aron n1uestras de 20, las medias muestra!es variaron desde 3.05 hasta 7.10 años. También se puede comparar la media de las medias muestrales con la media de la población. La media de las 25 muestras se reporta en la tabla 8.6, ia cual es 4.676 años . .. = 3.95 µX
+ 3.25 + ~· · + 4.30 + 5.05 = 25 . . ... .
Ll 676
..
Se usa el símbolo JJvx para ldentificar a la media de la distribución de la media n1uestral._El subíndice indica que la distribución es de la media muestra!. Se lee "mu subíndice X". Se observa que la media de la media muestra!, 4.676 años, está muy cerca de la media de la población, 4.80.
¿Qué se puede concluir de este ejemplo? El teorema de límite central indica que sin importar la íorma de la distribución de la población, la distribución de muestreo de la media de la muestra se moverá hacia !a distribución normal de probabilidad. Cuanto mayor sea el número de observaciones en cada muestra, la convergencia aumentará. E! ejemplo de la empresa Spence Sprockets, indica cómo funciona el teorema del límite central. Se parte de una población positivamente sesgada (diagrama 8.3.) Después se seleccionan 25 muestras aleatorias de 5 observaciones, se calcula la media de cada muestra, y se organizan estas medias muestrales en una gráfica (diagrama 8.4.) Se observa cómo se modifica la iorma de la distribución de la media muestra! respecto a la distribución de la población. El cambio es de una distribución positivamente sesgada a una distribución que tiene !a forma de la distribución
norma!. Para ilustrar mejor los efectos del teorema de límite central se aumentó el número de observaciones en cada muestra, de 5 a 20. Se tomaron 25 muestras de 20 observaciones cada una y se calculó la media de cada muestra. Por último, estas medias muestrales se organizaron en una gráfica (diagrama 8.5) La forma del histogran1a en el diagrama 8.5 tiende claramente a la distribución normal. El teorema de límite central (vuélvase a leer su definición en la página 278) no menciona algo acerca de la dispersión de la distribución de medias muestrales o respecto de una comparación entre el valor medio de las medias muestrales y el de la población. Sin embargo, en el ejemplo se observó que había menos dispersión en ia distribución de las medias rnuestrales que en la de ia población, al comparar la amplitud de variación de la población, y la amplitud de las medias muestraies. Asimismo, se observó que el valor medio de todas las medias muestrales se encontraba cerca de !a media de !a población. Se puede ver que la media de la distribución muestral es la media poblacional, y si la desviación estándar de !a población es cr, la desviación estándar en las medias muestrales es o/Vn, donde n representa el n(1mero de observaciones en cada muestra. Nos referimos a alVn como el error estándar de la media. También se conoce· con un término más largo, la desviación estándar
de la distribución de muestreo de la media muestra/. [3.1J
En esta sección se llega también a otras conclusiones importantes:
1. La media de la distribución de la media muestra! será exactamente igual a la media poblacional, si se pueden seleccionar todas las muestras de un determinado tamaño, de una población. Esto es:
284
Capítulo 8
Aun si no se toman todas las muestras se puede esperar que la media de la distribución de la media muestral sea cercana a la media poblacional. 2. Habrá meo0;:;JJisPfülÜ.Óil en la distribución muestra! de la media muestral que en la poblacional. Si la desviación estándar de la población es cr, la desviación estándar de la distribución de la media muestra! es rr/Vn. Obsérvese que cuando el tamaño de la muestra aumenta, el error estándar de la media disminuye.
Auloexamen 8.4
Refiérase al ejemplo de la empresa Spence Sprockets, !ne. en la página 278. Seleccione 1 O
muestras aleatorias de 5 empleados cada una. Utilice: Jos-- h1étodos ya descritos en este capítulo, y la tabla de números aleatorios (apéndice E), para determinar los empleados que hay que incluir en las muestras. Calcule el valor medio de cada muestra y represente !as medias mues-
trales en un gráfico similar a! diagrama 8.3.
Ejercicios 11. E! apéndice E es una tabla de números aleatorios. Por tanto, cada número entero del O al 9 tie-
ne la misma probabilidad de ocurrencia. a) Elabore un diagrama que muestre la distribución de la población. ¿Cuál es la media poblacional? b) A continuación se presentan las primeras ·1 O filas de cinco dígitos del apéndice E. Supóngase que estas son 1O muestras aleatorias de cinco valores cada una. Determine la media de cada muestra y represente los valores medios en un gráfico parecido al diagrama 8.3. Compare la media de la distribución de medias muestrales, con e! valor respectívo para la población.
o 9
2 4 4
7
5 7
7
8 9 6
6
1
5
·1
7
1
1 8
3 7 8 8
7
o 7
4 9 8
1 7
1 3 1
2
o
4 4 4 4
5 7
8
5
9
5 9
o
4
12. La empresa Scrapper Elevator Co. tiene 20 representantes de ventas que venden su producto en todo Estados Unidos y Canadá. A continuación se enlistan !os nl1meros de unidades vendidas durante un mes por cada representante. Supóngase que tales cifras son una población de valores:
~2
3
2
3
3
4
2
4
3
2
2
7
3
4
5
3
3
3
-, 3
5
a) Elabore un gráfico de la población, b) Calcule la media poblacional. e) Seleccione al azar cinco muestras de 5 elementos cada una, y calcule la media de cada muestra. Utilice los métodos descritos anteriormente en este capítulo y el apéndice E, para determinar los integrantes de cada muestra.
1
285 d) Compare la n1edia de la distribución de medias muestrales, con la media de !a población. ¿Se esperaría que fueran iguales? e) Trace un histograma de las medias muestrales. ¿Observa alguna diferencia entl'e la forma de la distribución de dichas medias y !a distribución de la población?
Uso de la distribución de muestreo de la media muestra] El análisis anterior es importante porque !a mayoría de las decisiones en !os negocios se toman basándose en los resultados de una muestra. Aquí hay algunos ejemplos. -1. Una empresa quiere estar segura de que su detergente para ropa contiene, en realidad, -100 onzas (oz) de líquido como se indica en la etiqueta. Reportes anteriores del proceso de llenado indican que la cantidad media por envase es 100 oz y que la desviación estándar es 2 oz. El técnico de calidad, en su revisión de las 1O de la mañana, al revisar 40 envases, encontró que la cantidad media de líquido era 99.8 oz. ¿Debe el técnico detener la operación de llenado o es un error muestral razonable? 2. Una empresa se dedica a dar ínformación a las empresas que se anuncian en televisión. Investigaciones anteriores indican que un adulto ve en promedio 6.0 horas (h) ele televisión por día con una desviación estándar de 1.5 h. ¿Sería razonable que en una muestra de 50 adultos, seleccionada aleatoriamente, se encontrara que en promedio ven 6.5 h de televisión pór día? 3. Una empresa fabricante de elevadores quiere desarrollar especificaciones para e! nl1mero de personas que pueden viajar en un nuevo elevador que están diseñando. Supóngase que el peso medio de un adulto es 160 libras (lb) con una desviación estándar de 15 lb. La distribución de pesos no sigue la distribución normal, sino que es positivamente sesgada. ¿Cuál es la probabilidad ele que el peso medio de una muestra de 30 adultos sea 170 lb o más? En cada una de estas situaciones se tiene una población de la que se tiene alguna información. Se toma una muestra de la población y se desea detern1inar si el error muestra!, es decir, si la diferencia entre el parámetro poblacional y el estadístico muestral se debe a la casualidad. Usando las ideas analizadas en !a sección anterior se puede calcular la probabilidad de que una media muestra! se encuentre dentro de cierto intervalo. Se sabe que ia distribución muestra! de la media muestra! sigue la distribución de probabilidad normal si se dan dos condiciones. 1. Si las muestras se toman de poblaciones que siguen la distribución de probabilidad normal. En este caso el tamaño de la muestra no tiene importancia. 2. Si no se conoce la forma de la distribución de probabilidad de la población o, si se sabe que no es normal, pero e! tamaño de la n1uestra es por lo menos de 30 observaciones. La fórn1u!a 7. i del capítulo anterior se puede usar para convertir cualquier distribución nonnal en la distribución normal estándar. ,l\I valor obtenido mediante la fór111u!a se le suele denominar valor z. Una vez obtenido el valor z se puede usar la tabla nonr.al estándar de! apéndice O para determinar !a probabilidad de elegir una observación que caiga dentro de un intervalo especí-fico. La fórmula para obtener un valor z es: X~
p,
z=---
cr En esta fórmula X es el valor de la variable aleatoria, µ. es la media poblacional y cr es la desviación estándar pob!acional.
286
Capitulo 8 Sin embargo, en los negocios, la mayor parte de las decisiones se_ basan en muestras, y no sólo en una observación. Por esto nos interesa la distribución de X, la media muestral, y no la de X, el valor de una observación. Este es el primer cambio que hay que hacer a la fórmula 7.1. El segundo cambio es que se usa el error estándar de la media de n observaciones en lugar de la desviación estándar poblacional. Es decir se usa en el denominador en lugar de u. Por consiguiente, para encontrar la probabilidad de que un valor muestral esté en un determinado inlervalo, seusar:>riméro la foimuia siguiente para encontrar el valor correspondiente de z. Después se emplea el apéndice D para encontrar la probabilidad.
cr/vn
OETERl\/111\!ACIÓN OELVALQR z CORRESPONIJIEN"íEAXCUAÍ\100 SE CONOCE lA DESVIACIÓN ESTÁNDAR POBLACIONAL
X-µ,
z=-•.-..-·uh/Fí
[8.2J
El siguiente ejemplo mostrará su uso.
EJEMPLO
El departamento de control de calidad de una empresa de refrescos lleva un registro de la cantidad del líquido con que se llena su botella gigante. La cantidad de refresco en cada botella es crítica, pero varía un poco de botella a botella. La empresa no quiere que las botellas se llenen con menor cantidad de refresco porque esto ocasionaría problema respecto a la exactitud de lo que se especifica en la etiqueta. Por otro lado, las botellas tampoco deben contener exceso de refresco porque la empresa estaría regalando su producto, con lo que se reducirían las ganancias. De acuerdo con sus registros, la cantidad de refresco en las botellas sigue una distribución normal. La cantidad media por botella es 31.2 oz y la desviación estándar poblacional es 0.4 oz. Hoy a las 9 de la mañana el técnico de controi tomó una muestra aleatoria de 16 botellas de la línea de llenado. La cantidad media de refresco en estas botellas fue 31.38 oz. ¿Es este un resultado poco probable? ¿Es probable que el proceso esté llenando con demasiado refresco las botellas? Dicho de otra manera, ¿el error muestral de 0.18 oz es poco probable?
SOLUCIÓN
Se pueden usar los resultados de la sección anterior para encontrar la probabilidad de tomar una muestra de 16 botellas (n), de una población normal con media 3.12 ,ciz (1L) y desviación estándar 0.4 oz (cr), y encontrar la media muestral de 31.38 onzas (X). Para encontrar el valor z se usa la fórmula 8.2:
z= X'-1~ O"!'\/n
= 31.38-31.20 = . .
0.4/'\/16
1 80
El numerador de esta ecuación, X - I' = 31.38 - 31.20 = 0.18, es el error muestral. El denominador, = 0.40/\/16 = 0.1, es el error estándar de la distribución muestral de la media muestra!. De esta manera el valor z expresa el error muestra! en unidades estándar, en otras palabras el error estándar. A continuación, se calcula la probabilidad de tener un valor z mayor que 1.80. En el apéndice D se localiza la probabilidad correspondiente a un valor z de 1.80. Esta probabilidad es 0.464-1. La probabilidad de tener un valor z mayor que -1.so es 0.0359 que se obtiene de 0.500 - 0.4641. ¿Qué se concluye? Esto es poco probable, hay una probabilidad menor que 4% de que se tome una muestra de 16 observaciones, de una población con media 31.2 oz y desviación estándar 0.4 oz, y encontrar una media muestral mayor o igual a 31.38 onzas. El proceso está llenando las botellas con demasiado refresco. El técnico de control de calidad indicará al supervisor del proceso que llene las botellas con menor cantidad de refresco. Esta información se resume en el diagrama 8.6.
u/vn
287
Métodos de muestreo y el leornma cie límite ceíl!rnl
DIAGRAMA 8.6
Autoexamen 8.5
31.20
31.38
o
1.80
Onzas (X) Valor z
Distribución rnuestral de la cantidad inedia de refresco en una botella de ta1naüo gigante.
Vaya a la información sobre la empr~sa de refrescos. Calcule la probabilidad de que la media de una muestra de 16 botellas de tamB:ño gigante sea, 31.08 oz o más.
Hay muchas situaciones muestrales en los negocios, en las que conviene decir algo acerca de la población, pero no se sabe mucho respecto a ésta. Aquí ayuda la potencia del teorema de límite central. Se sabe que cualquiera que sea la forma de la distribución de la población, si se toma una muestra suficientemente grande, la distribución muestra! de la media muestra! seguirá la dist(ibución normal. La teoría estadística ha demostrado que muestras de por lo menos 30 son suficientemente grandes para permitir considerar que la distribución muestra! sigue una distribución normal. Con frecuencia se desconoce la desviación estándar poblacional, cr. Si la muestra es de por lo menos 30, se estima la desviación estándar poblacional con la desviación estándar muestra!. Cuando se usas para reemplazar a cr, la nueva fórmula para determinar el valor de
z es:
DETERllllll\lAClól\l DEl VALOR .i .
rCbRRESPól\!blENtEAX cüJ\lílbó !'lb SE CONOCE LA DESVIACIÓN ESTÁNDAR POBLACIONAL
Una asociación de gasolinerías estima que en una gaso!inería se venden en promedio 20 000 galones diarios. La forma de la distribución no se conoce. En una muestra que se tomó ayer, de 70 gasolinerías, la media fue 19 480 y la desviación estándar 4 250 galones. ¿Es razonable la aseveración de que la media poblacíonal sea de 20 000 galones? ¿Cuál es la probabilidad de tomar una muestra con el estadístico dado de la población propuesta? ¿Qué suposiciones hay que hacer?
SOUJCIÓN
No se está seguro de la forma de la población de galones vendidos por día, sin embargo, la muestra es suficientemente grande para poder considerar que la distribución muestra! de la media muestra! siga la distribución normal. El teorema de límite central proporciona la teoría estadística necesaria. Como el tamaño de la muestra es suficiente-
288
Capíll1lo B mente grande, se puede sustituir la desviación estándar poblaciona! por la desviación estándar muestral. La formula 8.3 es la apropiada para encontrar el valor z.
shfa
19 480 - 20 000 4 250/v?O
1.02
En el ap~ndice O se encuentra que la probabilidad de tener un valor z entre O y -1.02 es 0.3461. La probabilidad de tener 19 480 galones o menos como media muestral en la población especificada es 0.1539, que se obtiene de 0.5000 - 0.3461. Dicho de otra manera, hay ·15% de prcibabilidad de seleccionar una muestra de 70 gasolinerías y encontrar que su media es 19 480 galones o menos, dado que la media poblacional es 20 000 galones. Sí es razonable concluir que la media poblacional sea 20 000 galones. Esta información se resume en el diagrama 8.7
-1.02
DIAGRAMA 8.7
Auloexamen 8.6
o
valor z
Distribución de n-i_uesh·eo de la Inedia n1uestral de la cantidad de galones vendidos por día.
El salaría n1edio por hora de los p!omeros en una determinada reQión es $28 (dólares). ¿Cuál es !a probabi!iclacl de tornar una muestra de 50 plomeros y encontrar un salario medlo por hora de $28.50 o más? La desviadón están.dar de la muestra es $2.00 por hora.
Ejercicios i3" La media de una pobiación norn1al es 60 y la desviación estándar es ·12. Se torna una muestra aleatoria de 9. Calcule la probabilidad de que la media muestral a) sea mayor que 63. b) menor que 56. e) esté entre 56 y 63. '14. La media de una población de "forrna desconocida es 75. Se toma una muestra de 40. La desviac!ón estándar de la muestt'a es 5. Calcule la probabilidad de que la media rnuestra! a) sea menor que 74. b) esté entre 74 y 76. e) esté entre 76 y 77. d) sea mayor que 77. ·~5. En una cierta región, un departarnento de una recámara se renta en promedio a $1 200 (dólares) por mes. La distribución de estas rentas no sigue una distribución normal, sino que es po-
Métodos de muestreo y el teorema de limite oe"lrnl
289
sitivamente sesgada. ¿Cuál es la probabilidad de tomar una muestra de 50 departa1nentos ele una recámara y que tenga una media de por lo inenos $950? La desviación estándar muestra!
es $250. i6. De acuerdo con un estudio, un contribuyente necesita 330 minutos para llenar, copiar y enviar una determinada 'forma -fiscal. Una agencia de investigación encuentra en una n1uestra ele 40 contribuyentes una desviación estándar de 80 minutos. a) ¿Que se debe suponer acerca de la forma de la distribución? b} En este ejemplo, ¿cuál es el error estándar de la media? e) ¿Cuál es probabilidad de tener una media 111uestral superior a 320 minutos?
d) ¿Cuál es la probabilidad de tener una media muestral que esté entre 320 y 350 minutos? e) ¿Cuál es la probabilidad de tener una media muestra! mayor que 350 minutos?
]lesu:mendel capítulo L Hay mu.Chas' razoúe's p_ár~ rnuestre:a:r u.na po~la9ió_r:e,:·:-_·. :·<,_/o-:·.-i:_,---.(<-<·:'i, A, qoo. frecuenda.la prueba destruye el eleme~to mue~treado y no. puedeser d.evuelto. a la pqblación. .• . . .. .·. . < . . ·,U·< ... <:> B. P.u~.de ser imposible revis~rolqcalizar a tqt:!Qs. los elementos de la población. C, Es posible que resulte prohibitivo el costp \le estudiar a todos. losele.ment<:)S de lá pobia'
~ió_~~·-·, ._·--... . ._ _·<<- -,_-_·- .; _ -:>.:.-·;->---_,--·cL- =-··_:,_:-.-,_- --. =:(··,__ _ __ Oc ·las resultados de una múes¡rapue\ier d¡¡[UQ~ :stimación adecuada del parámetro de poblaciSn• lo que permit~ aho.rrar, por t~nto,?ineroytiempo. . .. . .··•·· .. ·. . .. fSu~cte ._-~_ .· /_; ·: :: ' --____ ·---:_, . ..:>:- ,.· .. -: _: : _ -.: : IU.Ladiferenciaentreel parámetro ppblacionaly~lvalor e?tadístico mues.tralse denominael ~rror de m~~streo< . ··•··••. ··.·.··•• · •• .. .•.. . / < l¡:t .disJ.ribuoión\19 ·mecii~~ mt1e~¡ralé~ es .u.rr~ dist(ii:iµcíorr ~eprbbabilidact.· qµEi sepalatodas 1.a~ medias muestrales posible~ysus. proba?i.1.idades de ocurrenc;ia. . .·.· . .. .·.· ..• A;· Pa.r:-: ,_':;:_:·: ·:·- - _. :'.:--·.:.:"·: ,_. \;___ ·: - _ _;;,\.::>; .:-.'.--::;·';:·:;;-r.-., __.,:,:_;:·,_---:_:·,::\_---·~::,:;:_._,.,::.-::.-. · ------_... ·: ... _ :'.-,' a).-.--:--.Si· se·._c_qnoc_e Ja-,df1$Víació11_-estándar -poblact.onaf¡ -.e_I errqr 'estándar--_es
>·>•• · ·. i:· ·· . , :
[8.i]
290
Capitulo B C-. Si la población -sigu9;!a::distribución·. normal;_ la.distribución ·muestra! de la media muestra! tarí1bién·S6guirá la distribución.muestra! cün muestras de cualquier tamaño. Sí se conoce la desviación estándar poblacional, se usa !a siguiente fórmula para determinar la probabíl1dad:-dé:que- una rriedia:· muestra!_ ca.lga· en. una determinadá- régión. !8.2]
D. _f)L!a--pob!ac_ióti-nó:,ti8ne una·:distri~UCió_~ n·orma_I;- p·~r_o'fa fTluestra es por lo menos de 30 oQsen¡acldne:s;-1~ _dístr1bu~ió~- rnüestr_a_l:_d_~_!a rriedia_ m.~~stral es _aproximadamente normal. Si n_o:'~Er _con.~ée,, la-desVl_aci?n _ e~tánd_a_r po~l~'ci_ona!,: ·s_Erus~ !a siguiente fórmula para detérmínar la-prob-abilidad de que una inedia rriuestral-éaíga en una región determinada. x.~ µ,
[8;3]
ZC" - -
s!Vñ
SÍMBOLO
:_-.
_,-
- :
FORMAEXPl1ES!VA .. sUbíndíc.eX con barra
SIGNIFICADO
----:"
tv!.edía c!é1a·ctisíribución de medias muestrales
mu
~rrorestáncl"r qe l~ población de medias muestralés Ést_i_~~Gl:~d_· d,~~--- ~~rdr-· :e_~táóctar_ di? la m€dia mUestral. -
síg/JJasubíqdícéXc.on barra s su/J/ndíce Xcon barra
·.':._:•
'
·~t~í~i~iós cief s~pítµlq
17•. LasJienda.s de ventas almenl.!deoJocalizadás en el centro cornercíal de NorthTowne Square Sórí:
•
02 03 04 05.
06
·.· MohtgOílJeryWard .Deb Sh.op · • •.. Fr.ederíck's ot Hollywood Petries t:asy Dreeíll.S Summit Stationers E·•.s ...Bro1'Jnbpticía~s Kay-BeeToy & ~pbby
10 . 1.1 12
13 B Dalton Bookseller
14. fa.t's H.allmark 15 Things.Remembered ,t6 Pea(l~Vísion Express 17 •OollaéTree
18 jg
Courity Seat Kid Mart
20 Lerner 21 Coach House Gifts 22 Spence Giffs .23 CPI Photo Finish 24 Regis HairstYlists
'-':.-·-.-'.-,'.e,,-,---------<----=··-------· .. __ ,_, ___ ,_,,,, __ -,___-_,_-,:-_:,-_- __ ,._,·,. _______ ,-,,,;
ie1~&pióí1~n
si~Ui~~t~s numero~ ~1'#ar, '¿~~~iiertdas
ele~
a) qise tos de·ventas al menUdeo ben incl~irse en la. encu~~t"? 1.1i. 65, Sjl. 62, 06,J0,}2, '77 yo4. , > • b) Sele<¡cion~una t11.uestraale~toriad€f ·cu~tr? ti~Qda~ de aste tipo: .Utilice el apé.ndiceE: C} 98b_~: ut_flizarS~_ un proce?i_mJ.enh:i _sistern_át_íco-_df:i _ rnue_~-tíe:o_~-.s~--?oH~it.C:l. i!Jf()_rrnac_í{)n_en_ta_ prt_:. rn·13ra_-.tienda.y,-_de!;)püéS:_f::!n;-pada,:tercer.-esta,l:ilecímte_nto·_ co_mercial . ''i;A'qué_.ttend_a_s-.se rec_u:.. rrfrá? 18. ·una empres¡¡,de seguro¡; esfáestciciiando·et costo.de.uravisita de•tuti~a a ün médic() famHiar én una determinada localidad. La siguiente es una lista de médicos familiares:. Se selecciona., ~~n aléatoiiamenfo.tresfacultativ'osy les.entrevistara.para averigu~f c~ál ·es él cobro'.por llna consult~ de. rutina, Se ha codificad() a los 39 ,médicos del OQ al 38. Además, se registra si eje¡, cen solos(S), tienen .un socio.(P); o si .forman parte .de un grupp de práctica .médica (G):
se
291
Métodos de muestreo y el teorema de límile central
l\h.íiTleí{i
00 01 02 03
04 05 06
07 08 09
Médico R. E. Scherbarth CrystaiR. Goveia Mari< D.. Hillard Jeaniíle_s·. Huttn·er
Tipo de práctiCá
Número
s
20
p
21 22
2t
Franci~_Ao_na
JanetArrowsrnilh David DeFránce Ju¡jithfurlong Les!íe Jac!
24
s
s
25 26 27
G
28
p
s
Phili¡Jlepkows~
14 15 16 17 18
Wendy Marlin O_en·ny Maliriciú Ha·smlikh: Páfmáf Ri'cárdo Pén8. David Reai1ies Ronald Réynolds Mark Steinmetz GezaTorok Márk Y
Tipo de
w 30
s
31
37 38
Médico Gregory Yost J.. Ghristfan Zona Larry Joh nson Sanford Kimmel · l-larry Mayhew LeroY Rodgers ThomaS'Taffllski Mark.Zilkoski Ken Bertka MárkDeMichiei John Eggert
·Jeanna FíoritO Michael Fitzpatrick Charles Holt Richard Koby JoMMeier Douglfis Smucker óaviq.Wel?Y CherylZaborowski
práctica p p
p
s s
s
G
G G p p p
p p p
s p p
a) \)í ~e 9bti9n..,nd~I apén?iceE.lo§ números aleat.orios31, 94,43; 36, 03, 24, 17 y 09, ¿a qué íl).$díc9s. see~=t_revistfl,rª?· .... _ --·= . ._. . ·_.:,.--':--_ -.- .. _.· -·-:_ ..b) · Seleccípne al. ~zar una muestra de tamaño cuatro utilizando la fabla de números aleatorios del ciíadoapéndípeE ...· e) U~a111uestra hade constar.$htlr~ de c~dirq(1fqfo rrrédicó. Elnútn~~o.04.se.seleéciona•co mo punto de partida. ¿A qué facultativos seJes solicitará.Información? et) Una muestra debe consistir en dos médicos que ejercen solos (S), dos que tienen un·so: cío (P), y uno en práctica de. grupo. Obtenga la muestrarequ~rida. Explique su proc~di' niie,1_1t(),.. ·-:--_._--.:::-' -. --,.' "-' _: ,' ' '' ,' ,_-:_-, ·._-_ 19. ·¿QU'é·es-error _de muestreo? ¿Puede éste tener un valor igual a cero? Si:_asf fuera, ··¿qué·slgní_:. fícaría ésto? : 2_0. E_nurne"re-las razones· p_ara -~_llestrear._ Dé un ejemp_lo de cada motiV;b ·para· réaHzar !a:_m_uest_ra. 21. Se hará una encuesta en bancos comerciales.de una región (111). Algyngs son muy gmndes; con .activos de más de. 500míllones de dólares (mdd); otros son de tarriañ.a mediana, conactivo,rentre 10Qy500 rndd; y losbercos restantes tienen activos de. menos.de 100
I·
9072 75.60.· 75 7284 72.88 .. 74 .• toi 115 68 74
a) UtilídéÜll~ tabla
~o 541ol 824s 58 so 8Ó .4B 5a 100·¡
de núrneros aleatorios (apéndice E), y seleccione una muestra aleatoria de
tama~o ,cinco. a. partir de- ~sa_ pob_!ac_lón_.
b) Obtenga una muestra sistemática seleccionando al azar un punto departida entre loscínco._Primeros mot_eles'._ y. de_Spu~s- _sele?_c_i_one _cada guint9-afbe_rgue.____ --:: e) Suponga que los últimos cinco moteles de la lista son de "forífa 13comímica": Describa cómo seleccionaría una_muestra_aleatoria_de tres albergues normales·y·d_os de _tarifa e_q-c1oó.,mica,-
292
Capítulo 8 -24. -CO-mo p·arte: de su f:jervlciq. ~i. cHerit6~ una empresa aé_rea sSi~cCíé>net ·a1eatoriamente· 1Q-páSaJ~-ros _de_ UílQ Stl?)3US _v_ue!o~_-_naciona!es de lf1_S_ _-_Q de· !a_ m·a_ñana'. )\- Cada_. uno: d~' fas par:¡aj_eros ~elf)_g'q!onados·_~.e !e pregunt~ acerc_a de /O_f>_,s_~rj¡i_dos·en et·a_7rppuerto1 la~ cornld¡:ts, fOs-servício_~ a bórdo, eto,_·_ Para tornar. !. f:l mu_estra, a pa~_Et pa~aj¡to.-se: !ia·_ d!o ,UIJ núm_ero conforme abordaba al ayión. L_os_:_números enipíezan en 001 _y··~errn_ir¡(;1n_ en 2Q_?. a} .§eleccion.e al azar 1o números ~decuados utilizando la tabla de números aleatorios
·· ·· apéndice E, .. .····· > ••·•••··.·..•·····.·•••••· ············. -_4a 111ue_~t_ra_de )_O_ pod_ría hab_erse selecci~-~-ª-?:?: rned_i_a11.tEl}jÍÍa _mu9st_ía.síSte-mát¡q?· Elijri: 91 primer número utilizando el apéndicéE, y después en\tncie los números asignados a los pasajero.s que serán. entrevistados; e) Evalúe los dos métodos enunciando l~s Ventajas y de~\/entajas posibles;
·::·,~~ ::.-_f~~l~~~~otra manera pocfría _selecc·'.º.n,~rs.~· u~~:'·~uest.r~.ateatoria de lo.s_ 250. _pá~_ajeroS
77,.
tuvo las siguientes calificaciones (porcentajEi correcto}: 79; 64; 84, 8.2; 92y En vez de; pro.fUE:di.ar 'los· s_eí.s re~ult_acl.os_,.. el profesor-lnd,tc:ó .·qu.e._ ~elec_c.fonar.í~. ·al .-azar ci.0$.- calific,aciones· _,y presentaría un iníorme sobre e[ resultE!do a la.. oficina ¡je registro escplar. a). ¿Cuá9tasmL1estrasdifere~tes d.e 2 ca!ij[cagi0 nessopposibles? b) Enuncie todas. 1.as rrmestras posiblesid.ejflm?ño 2, y calcule; la media para cada una. p). Calcu[e 1'1 mediff de las medias muestrales,.ycompare; el result.ado con e[ valor respectivo i p~ra la. población. . .• . .. . ...• ••· • > • . ·. .... . .. > .•• .. •. d)..Siusteclf~era est~d.iante, ¿.estaría de acu.erdo con estEi.arreglo? ¿El resulta¡jo sería diferen° · te .·del cj~ fa remoc_ión-,de· la ca!ifica.ción.rp~s: 9.~I~? ·Red:act.e LJ!l- .ipforrri~:.b_re.V~;'. , 26~ -.~~-un~ .()fir_;_ir.1_d_ cl.el-fir~r_Natfo~al:Ba11k hay c.in_c_?-.C,~_je,r_o$ .. La.- semana pasadf1 ést()S reai_izarón el ~iguiente núrner9 \Je. errores c¡lda uno: 2, 3, 5, ~Y 5.< .... ·•.. · · aj ¿Cuántas muestras diferentescie2 cajeros son posit¡les? b) .. Enuncietod.as.)a$• niuestr¡¡sposible~de taniaño2,y c~lcllt¡;.la medía.decada una, e) Compare la media de l~s medias mUe~tr"'l~~cqn larrtgdia poblaci?~aL 27..EI departamentode c.ontrol <:fecalicif\dtiene ~ técni~o~. A continuación ee da el númer.o de.ve. p~s en• liJ ~emana.pasada q%catja uno de.Jos técnicos indicó. al jefe de producción dete.ner · e.1 proceso. . · ·
Técnico Taylor tturJeY
F.owrerRousche Telatko •a}
M
2
¿Cué~t~~~!lei1rasclife.tentes cié dostá.~~ic6s se .Puederrrealizar con esta población? lpdiqu9tqdaslas rriuestras.Po.sibles, con dos, 0 bservad9ne~ca?a una; Y.calcule la media
> • \ ./ · •
et? c~d~rriue,strai.c • •i • • • ). . ..·.· • •·· e) Compare larnediacJe.la meclifl . mues.tral. con .[EJ. .rn.e.diEJ.· po!Jl>\9iohal. •• ¡;1) .Gompa¡e.1at9rrriade J~dí.stríb¡1ción.cte!a. P9.blación. 9onla f.orrna de la cilstribdción del.a •>rne<;lia.rriuestral,
. )
<
•.
!>
:
•X
.·.· ....·........ ·.·... · · ·•·... ·•····· ...... •
28~::Un~te~mpre.sa:·tienr_ ~f:l_is.:-.~ePr~s.t?nja_ntes:_:9e. '.V~rtt?S,_;_.-:Er:r-la ,t,ab!_?: -sfguiente. s~· fnd_íca: !a. _qanUdftd
de refrigeradpres qUEl cad.a uno vendió e.I mes p¡Jsado. Representaílte de ventas Zina. Craft
Cantidad vendida 54..
.WOí:in _Juílge
50
Ernie DéBCul
52 48
Jari·NiféS Molly Cainp Racl1.el Myal<
50 52
293
l\llé!odos de muestrno y el reorema de limite ceITTlrai
a) ¿Cuántas muestras de:tamaño dos·se.pueden hacer? b) Seleccione todas las muestras posibles de dos y calcule la cantidad medía de unidades vendidas. e) Organ_íce- 1~- media muestra!_: eh_ -urü:r distri.bu?lórl-?e-_'.fréc.Uencia_._ d) ¿Cuál es la media de la. población?, ¿cuál es la media de la media muestra!? e) ¿Cuáles la forma de la distribución.ele la población? J) -¿CüáFeS~la
la. e'Jlpresa.
..
,
.·. . : . ,
f
.
. .
.: . <:<
. . •. .
a) ¿Qué _ se·. puede ·c1~cir·.acerca-_ ~e: la orma'.de :/a:distribuciÓn:.de· _la media-: inUesti-8.1? b) ¿Cuál es el error estándar de la media? . . ·.. •·.•..·..... · ·. ·. . ... ··... ·..·.·•• e) ¿Qué porcentaje de las mediasm~estrales :erán mayor~~ que 140•minqtos? d) ¿Qué porc:maje de las mediasmuestrales. serán rnayqres que 128 minutos? e) ¿Qué porcentaíe de las medias muestrates serán mayores·-:qLie i28'·minutdE;y-riletiór8S--qUe. 140 minutos? . Estudios recíe.ntes indican que la mujer típica de 50 años gas.ta anualme.nte $350 (dólares) en producto~ par,a el·_·c_uida~o_ pe_rs_on::IL;La distribu_ción de e_sto_s~ g~st_os es_ positívamente: sesg0-, da: Se toma una muestra al.eatoria de40 mujeres, en la que lamediaes$335; y la desviación estándar es $45. ¿Cuál es la probabilidad ele encontrar en la población especificada una mues.' tra con.un~ m~dt_a_ ~om_o:.esta.o,-mayor_?· . -::: . __ :_.---:-: - __ .::_ _:·:·:::"( _ , ._,:-._, _ _ _;; Información proporcionada po_r un .ln.stitu_to so_IJre seguros,_-;lnQ_ica .que !a,_c::a11ti.9~cl _medía en üil seguro de vídapor familia en Estados. Unidos es $11 ó QOO. Esta dístribuc)ón es positivamente sesgada. No 3e conoce la desvi¡¡_ción .estánclar de la población. a} Ep una muestra.aleatoria. defiü hogares 1.arr1edia es $11.2 000, y I~ des\/iaciop estándares $40 000. ¿GyáLes el error estáhclar de la media? •· . ·.. · . •.•··· b) Suponiendo que se toman [}omu9stras de.hogares: ~Cuál es la forma ~sperada de!¡¡_ distribución de la media. muestra!? o} ¿Cuál es la probabi11daci de toíl)ar una mbestra en glle mediá se'a por lo n)enos
la
$112 000?,
·.·. ... · . .
. . ./ . .•:.
>
Ja
.
d) ¿Cuál es :la probabí'idad de loíjlar una muestra en la qLle la rnedi~\ea mayor :que
$110 000? .
...·.•....e.J Encuentre .la. P.rsb~bilidad clét0mar.t1na 'Jl.uestra en .. la c¡~e .la 'Jledia se~ rnay()r que $1.W 000 y.menorque $1.12000 •. ··••··· ·... •• : ·.. · .. ·.. · 33: En Estados Unidos la .edad promedio en la que los hombres se casar¡ Por primera vez es 24.8 •.• años,.No se.conooe ni Ja form¡r ni la desviación E)stándar. de. la. población: .. ¿ Cuál es. la. P(Oba' bilidad c:le encontrar; en una muestra ele 60 hornbres que Ja edad promeclio a la que se casaron _s_ea- 25.l _años?. Supó,ng.ase, qu_e_ fa d~sviación- ~stánd:ar. muestr~I es 2:5-_ añ_os. 34~__ Eíf:UO.-J3studi.o r~~i.ente: .r~alizado: pot .L1na- _as_oc!_ap¡ó_n:._de,ta_;<:l,stas s_e_: enc9ntró ·que)?)arifa_ .i::iecj.ia entre cl~s puntos de una cíudf\d es $18:00 (dólares), y la. de.sviación. e.stándar es. $3.50. Si s.etoma-una rnuestra.d_e 15: tarifas-'. a).· ¿cuál es la probabilidad.de ,qqe la medÍf\f!1Uestra.1 est$ entre $17,00 y $20.0Q7 b)·· ¿qué hay que suponer par¡i hacer. el cálculo anterior? 35. Una ·e.m_pt_t3Sa:fabri98nte· de camiOrles asegurq._ qüe_·.e! pes_ó:_in8dio_ de sus_camíones cuando_ están totalmente cargados es 6 000 libras y que la desviación. estándar es.150 lb .. Supóngase que !a población-sigue una ?istrlbucló_n no_rmaL Se sefeccionan aleator_iam_entH 40 camtones y se pesan. ¿Entre qué límites se encontrará 95% de los pesos?
294
Capítulo & 36. En una tíetidadeabarrotes, la cantidad media de una compra es $23.50. La población es po.
siti.vamente- sesgadct_-y:la desviación ,estándqr no _se c:onace; Se:_ toma una muestra de 50.c!ien:-
te_S, _ento1icés:
__
a) si la desviación estándar de la muestra es $5,00, ¿cuál es la probabilidad de que la media muestra! sea inferior a $_25.00? b) si _9tra·vez:·~e-su¡J_one-que_1a··cte_sViaci_ón:están_da·r.- mue~t_rát.:es-$5._00, ¿- c_t.iá1-_es !a prob8.bili.~ •dad dequela·medi.a muestralsea· may?rque $22.50y.meoorque $25,00?. e) si otravez se.supqné que la desviación estándar muestra! .es $5.00,. ¿entre que límilés se
:·_:·;;e_ncu_E!n_tra·9_Do/Q:·-de---!as rne:dí_as}p~estra!_es? _ .':-: ·: _-._ __-: . 37:Enuna.pruebaaestudi~ntes lacalificación.rnedia e5 947 y la desviación estándar eS 205.. Si. set()rna Una n1uestrn aleatoria de 60.estudiantes, ¿cuáles la probabilidad de que la rnedi.a .sea menorgue 900? < . .· 38:Suponga que se lanza dos veces un dado: a) ¡,Cuántas muestras diferentes hay? b} lndiqlle.cada UQac!elas.muestras posiblesycalculesu media respectiva. e) En un diagrama parecido .al diagrama8.1 compare la distribución de las medias muestra•
lesco~ la distribución dela población. •·.·•·•. < · ·••.
. _·····
q}_. Calcyle la medi.ay la d.esyiacióq ~stándar_de cad_a distribµ_ción y compárel~s,
. 39. latabla siguieQte.d_a lainformacic'>nmás reciente acerca del ingreso per cápita (en dólares) ell los .50 estados de"EUk
Estado N~ev.a: ln:Qlatefrá
01 02
o:i. 04 05 06
Gonne!:ticut · M3íné:·
M8Ssachus8tts New Hampshire Rhode lsland Vermont
.•.$39.300. 24603 35551 31114
W3.77
12 13 .
1.4 15 16
20 21
25889
MeciiD:._esteD'él8War·é Maryland ~-u-~_va::_Je_rs·ey Nueva York: Pennsylvania .Grandes. lagos lllinbis Indiana Mi,higan Ohio .W_i_~Gó_ns.ig
18 19
23 30778 32465 35 551 33 891J 2860.5 31145 26143
24 25 26 27 28 29 30
28.113
31.
S'uróeste
Sureste lowa Karls_áS. __· Minn.esota Missouri Nebraska Dakota del Norte Dákola de!Sur Sureste Alaban1a "Arkarisas ·• Florida Ge
251)15 26.824 30793 26 376 27049 23313 25 045
lOíiiSiaóá _C?r:91,ííla:dél_ Nmie Carolina del Sur Ti31inesS:ee Yfrgin!a
Virginia .del Oe.ste ,'
36 '!,7 .38 39
22987 22244 27780 27 340 23 23.1 22.84.7 20.688 26003 23545 25574 29789 20921
Arizona· Núév·o . MéXico
25189 21. 853 22 953 26.858
46
Oklahoma Texas Montáíí'8s rOcaUosas Colorado 31546 Id ah o 22 835 Moiltana 22 019 Utah 23 288 Wyoming 26396 lejano oeste Alas ka 28 577 Califoriliá 29 910
47
Hawaií
45
Nevada Oregon Wáshington
.40
4i 42
l\lississippi
::-:'.:.";:_;'_:_:::<. _·;.:-·:>-
Ingreso
43 44
45
49 50
27544 31 022 27023 30 392
'_.·'.:-:' ;:_'· :-_·-·:·-: :'-: -~:·:\;: __- ,: \:~: "' ._-'
bfi esta·:ta:~1a:~e-:.·qµ\7_re·_,~é!_ec~i_on~r lln_a':f11U'estra'._dé:taman~:_o_clio,---LóS·_-riúm.erqs se!ecch)~ nados ¡¡leatoriarnente.son,45¡ 15,81,09; 39; 43: 90, 26,06, 45, 01y42. ¿Cuáles estados son los que se.torna~ en la muestra? ... ·. ·•· . · .. . .·.· ... · • .. . .. . ·. Se. qµiere.h~cerun muestreo ~is¡emático,tomando c¡¡da-sexto_elemento dela tabl?,Y el
nú_rne_ro.-..02- se- erige: como· punto de ·iníc_io •. ·¿cuáfe_s-_son: los.-estad_os .que. se t0:man: en_ la
m:u_est_ra?:_-_ --_-.--.. ·. . .
-_:
___ .-'-
>.
__ _._--._.. ,-
._--:_,.>
_. .
e) Se•quiere tomar una muestra con qn estado de cada región. Describa detalladamente cóc
_mbJoi;naría:-.1arrnL1.e;s_tra/EEfd_e·c¡¡-;- indique·. fos·n~meroS·:al_eatqrios que elegírfa e indlq_uEf cuáles _son los·estados que formarían parte de 1.a muestra,
Métodos de muestreo y el teorema de limite central
295
•'¡\¡ forminár esté capítulo podrá: UNO Definir una estimación puntual.
DOS lnterpretarel·nive/ de confianza. TRES Construir Ur\ intervalo. de con' fianza [Jara larnedia poblacional cuando se conoce la desviación estándar poblacio' na!. CUATRO Construir un.intervalo de confianza para la...media poblacionál cuando nó se conoce.la desviadóii estándar poblacío". . ha!. CINCO .Construir.un. intervalo de con- • lianza para uoa proporción poblacionaL SEIS Determihár el tamaño de la 'muestra para er muestreo por atributos y variables
298
Capítulo 9
Introducción En el capítulo anterior se habló del muestreo. Se hizo énfasis en que con frecuencia no es posible examinar toda la población por razones como las siguientes: se necesitaría demasiado para revisar a toda la población, al examinar los objetos de la muestra es necesario destruirlos, el costo de estudiar a toda la población es excesivo, los resultados obten·1dos de una muestra son suficientemente adecuados. Se presentaron varios métodos de muestreo, de éstos, el que más se utiliza es el muestreo aleatorio simple. En este método de muestreo todos los elementos de la población tienen la misma posibilidad de ser seleccionados para formar parte de la muestra. En el capítulo 8 se supone que se cuenta con ciertos datos acerca de la población, como la media, la desviación estándar o la forma de la población. En los negocios, la mayor parte de las veces no se dispone de esta información. Precisamente el propósito del muestreo es estimar estos valores. Así por ejemplo, se toma una muestra de una población y se usa la media de la muestra para estimar la media de la población. Este capítulo considera. varios aspectos importantes del muestreo, y comienza con el estudio de las estimaciones puntuales. Una estimació[]_p[Jntual_~§[Jl}_\/¡¡l().r_que se usa para es' tiíl1ar un valor poblaci_orial. Por ejemplo:-se tOma una muestra de 50 ejecutivos y se les pregunta cuántas horas trabajaron la semana pasada. Se calcula la media en esta muestra de 50 y se utiliza el valor de la media mu.estral, como una estimación puntual de la media poblacional que no se conoce. Pero una estimación puntual es un solo valor. Un'1. estimación en la que se da más información implica dar un in\grvalo__cj_e vªl9res, en el que se espera se encuentre el parámetro poblacionaL 'A este intervalo de valores se le llama intervalo de confianza. En los negocios con frecuencia se necesita determinar el tamaño de la muestra. ¿A cuántos votantes deberá entrevistar una empresa dedicada a hacer. encuestas, para hacer un pronóstico de los resultados de la elección? ¿Cuántos de los productos tendrá que examinar para garantizar un determinado nivel de calidad? En este capítulo también s~ estudia una estrategia para determinar el tamaño de una muestra.
Estimaciones puntuales e intervalos de confianza u conocida o muestra grande En el capítulo anterior, los datüs sobre el tiempo de servicio de los empleados de Spencer Sprockets presentados en el ejemplo de la. página 280, constituyen la población porque son los años de servicio de todos los 40 empleados. En ese caso es fácil obtener la media poblacional. Se tienen todos. los dalos y la población no es de.masiado grande. Sin embargo, en la mayor parte de. los casos, la población es grande o es difícil identificar a todos sus miembros, de manera que es necesario apoyarse en la información de una muestra. En otras palabras, el parámetro poblacional no se conoce y por tanto se quiere estimar su valor a partir del estadístico muestra!. Considérense las siguientes situaciones:
1. El turismo es una de las principales fuentes de ingreso en muchos países del Caribe, como por ejemplo en Barbados. Supóngase que la Secretaría de Turismo de Barbados desea estimar la cantidad media que gasta un turista durante su estancia en ese país. Como sería imposible entrevistar a cada uno de los viajeros, se toma una muestra aleatoria de 500 turistas, en el momento que abandonan la isla, y se les pregunta la cantidad que gastaron durante su estancia. La cantidad media gastada por los 500 turis_t_as de la muestra es una estimación del parámetro poblacional. Es decir, consideramos a X, la media muestra!, como una estimación de ¡.e, la media poblacional. 2. Se tiene una empresa se dedica a la construcción de casas. Una de las cosas que más interesa saber a los compradores es la fecha en que estará terminado el inmueble. Últi-
Estimación e intervalos de confianza
299
mamente la empresa ha informado a sus clientes: "su casa estará lista 45 días hábiles después de iniciar la instalación de las paredes". El departamento de atención al cliente desea comparar esta afirmación con la realidad. En una muestra de 50 casas terminadas este año encuentra que, en promedio, transcurrieron 46.5 días hábiles entre el inicio de la instalación de las paredes y la terminación de la casa. ¿Es, entonces, razonable concluir que la media poblacional es 45 días, y que la diferencia entre la media muestra! (46.5) y la media poblacional propuesta sea el error muestra!? 3. Estudios recientes indican que el ejercicio es muy importante para la salud. El director de recursos humanos de una fábrica grande de vidrio quiere saber cuántas horas semanales dedican sus empleados al ejercicio. En una muestra de 70 empleados encontró que el número medio de horas que éstos dedicaron a hacer ejercicio la semana pasada fue 3.3 horas. La media muestra!, 3.3, es una estimación de la media poblacional, el número medio de horas que todos los empleados dedican al ejercicio y que no se conoce. Una estimación puntual es un sólo estadístico que se usa para estimar un parámetro poblacional. Supóngase que una empresa fabricante de receptores de radio quiere estimar la edad promedio de las personas que compran un estéreo. Toman una muestra aleatoria de 50 compradores recientes, determinan la edad de cada uno y calculan la edad promedio de los compradores de la muestra. La media de la muestra es una estimación puntual de la media de la población. La media muestra! no es el único valor que se podría usar para estimar la media poblacional. También se podría usar la mediana muestra!. Sin embargo, la mediana muestra! no es tan eficiente, lo que significa que hay más dispersión en la distribución de las medianas muestrales que en la de las medias muestrales. Es!:imaciónpnntual•··.Est?dístico calculádoapartirde.!a información obtenidade la muestra ·y -que se úsa para•estimar.el •parámetropoblacional, La media muestra! Xes una estimación puntual de la media poblacional µ; p, una proporción muestra!, es una estimación puntual de TI, la proporción poblacional; y s, la desviación estándar muestra!, es una estimación puntual de rr, la desviación estándar poblacional.
Pero una estimación puntual no da mucha información. Como se espera que !a estimación puntual esté cerca del parámetro poblacional, sería deseable saber qué tan cerca está en realidad. El intervalo de confianza cumple este propósito.
Intel."Vidode confianzá•LJnfonjuntdpeyalores()bt";nid9•a partir de los datos muestrales, el que hay una.detertT!inactaprobabilipad dequ~ se encuentre el parámetro. A esta probal:lilidad"se Je conoce.como el nive!de,confi?flza.
;n
Por ejemplo, se estima que en una determinada región el ingreso anual medio de los trabajadores de la construcción es $65 000 (dólares.) El intervalo de esta estimación puede ser de $61 000 a $69 000. Se puede indicar qué tan seguro se está de que el parámetro poblacional se encuentre en este intervalo dando una probabilidad. Se puede indicar, por ejemplo, que se tiene una seguridad de 90% de que el salario anual medio de los trabajadores de la construcción en esa región esté entre $61 000 y $69 000. La información que se tiene acerca de la forma de la distribución muestra! de la media muestra!, es decir de la distribución muestra! de X, permite localizar un intervalo que tenga una determinada probabilidad de contener a la media poblacional µ. Si se tienen muestras razonablemente grandes, el teorema del límite central permite establecer lo siguiente: 1. Noventa y nueve por ciento de las medias muestrales obtenidas de una población se encuentran a no más de 1.96 desviaciones estándar de la media poblacional µ. 2. Noventa y nueve por ciento de las medias poblacionales se encuentran a no más de 2.58 desviaciones estándar de la media poblacional.
300
Capítulo 9 Aquí la desviación estándar, de la que se trata, es la desviación estándar de la distribución muestra! de la media muestra!. A esta desviación estándar se le llama generalmente "error estándar". A los intervalos calculados de esta manera se les llama intervalo de confianza de 95% e intervalo de confianza de 99%. ¿Cómo se obtienen los valores 1.96 y 2.58? El 95% y el 99% son el porcentaje de las veces que los intervalos obtenidos de manera semejante comprenderán al parámetro que se está estimando. El 95%,por ejemplo,se refiere al 95% central de las obsecvaciones. Por tanto, el 5% restante queda repartido en dos partes iguales entre las dos colas. Consliltese el siguiente diagrama.
~l
.96
o
i.96
Escala dez
El teorema de límite central, estudiado en el capítulo anterior, establece que cuando la muestra contiene por lo menos 30 observaciones, la distribución de las medias muestrales es aproximadamente normal. Por tanto, se puede usar el apéndice O para encontrar los valores aproximados de z. Se localiza 0.4 750 en la tabla y se leen los valores del renglón y columna correspondientes. El valor es 1.96. En consecuencia, la probabilidad de encontrar un valor z entre O y 1.96 es 0.4750. De igual 'forma, la probabilidad de que el valor esté en el intervalo entre -1.96 y Otambién es 0.4750. Combinando ambos resultados, la probabilidad de que esté entre -1.96 y 1.96 es 0.9500. En la página siguiente se presenta una porción del apéndice D. El valor de z para el intervalo de confianza de 90% se determina de manera similar. Este valor es 1.65. Para un nivel de confianza de 99% el valor de z es 2.58. ¿Cómo se calcula un intervalo de confianza de 95%? Supóngase que en una investigación se quiere determinar el salario inicial de los egresados de escuelas de economía y administración. Se calcula la media muestraly se encuentra que es $27 000 (dólares), y la desviación estándar de la media muestra! (es decir el error estándar) es $200. Supóngase que la muestra contiene por lo menos 30 observaciones. El intervalo de confianza de 95% está entre $26 608 y $27 392, lo que se obtiene de $27 000 ± 1.96($200) Si de la población de interés se tomaran 100 muestras del mismo tamaño y se determinaran los 100 intervalos de confianza, se espera que la media poblacional se encontrara en 95 de los 100 intervalos de confianza. En el ejemplo anterior el error estándar de la distribución muestra! de la media muestra! fue $200. Este es, por supuesto, el error estándar de las medias muestrales que se analizó en el capítulo anterior. En caso de que se cuente con la desviación estándar pob!acional, consulte la 'fórmula 8.1. En la mayor parte de los casos no se tiene la desviación estándar poblacional, entonces se calcula como sigue:
El tamaño del error estándar se ve afectado por dos valores. El primero es la desviación estándar. Si la desviación estándar es grande, entonces el error estándar también lo será.
Estimación e ir1te!rvalos de contiai]za
301
0.00
0.01
0.02
0.03
0.04
0.05
0.07
o.os
0.09
0.1 0.2 0.3 0.4
0.0000 0.0398 0.0793 0.1179 0.1554
0.0040 0.0438 0.0832 0.1217 0.1591
0.0030 0.0478 0.0871 0.1255 0.1628
0.0120 0.0517 0.0910 0.1293 0.1664
0.0"160 0.0557 0.0948 0.1331 0,1700
0.0199 0.0596 0.0987 0.1368 0.1736
0.0279 0.0675 0.1064 0.1443 0.1808
0.0319 0.07"14 0.1103 0.1480 0.1344
0.0359 0.0753 0.1141 0.1517 0.1879
0.5 0.6 0.7 0.8 0.9
0.1915 0.2257 0.2580 02881 0.3159
0.1950 0.229·1 0.2611 0.2910 0.3186
0.1985 0.2324 0.2642 0.2939 0.3212
0.2019 0.2357 0.2673 0.2967 0.3238
0.2054 0.2389 0.2704 0.2995 0.3264
0.2088 0.2422 0.2734 0.3023 0.3289
0.2157 0.2486 0.2794 0.3078 0.3340
0.2190 0.2517 0.2823 0.3106 0.3365
0.2224 0.2549 0.2852 0.3133 0.3389
1.0 1.1 1.2 1.3 1.4
0.34"13 0.3643 0.3849 0.4032 0.4192
0.3438 0.3665 0.3869 0.4049 0.4207
0.3461 0.3686 0.3888 0.4066 0.4222
0.3485 0.3708 0.3907 0.4082 0.4236
0.3508 0.3729 0.3925 0.4099 0.4251
0.3531 0.3749 0.3944 0.4115 0.4265
0.3577 0.3790 0.3980 0.4147 0.4292
0.3599 0.3810 0.3997 0.4162 0.4306
0.3621 0.3830 0.4015 0.4177 0.4319
1.5
0.4345 0.4463 0.4564 0.4649
0.4357 0.4474 0.4573 0.4656
0.4370 0.4484 0.4582 0.4664
0.4382 0.4495
1.7 1.8
0.4332 0.4452 0.4554 0.4641
0.4671
0.4394 0.4505 0.4599 0.4678
0.4418 0.4525 0.4616 0.4693
0.4429 0.4535 0.4625 0.4699
0.4441 0.4545 0.4633 0.4706
2.0 2.1 2.2 2.3 2.4
0.4772 0.4821 0.4861 0.4893 0.4918
0.4778 0.4826 0.4864 0.4896 0.4920
0.4783 0.4830 0.4868 0.4898 0.4922
0.4788 0.4834 0.4871 0.4901 0.4925
0.4793 0.4838 0.4875 0.4904 0.4927
0.4798 0.4842 0.4878 0.4906 0.4929
0.4308 0.4850 0.4884 0.4911 0.4932
0.4812 0.4854 0.4887 0.4913 0.4934
0.4817 0.4857 0.4890 0.4916 0.4936
z o.o
"1.6
0.4591
El error estándar también se ve afectado por el tamaño de la muestra. Conforme aumenta el tamaño de la muestra. el error estándar disminuye, indicando esto que hay menos variabilidad en la distribución nuestra! de la media muestra!. La conclusión es lógica, porque una estimación obtenida de una muestra grande será más precisa que una estimación obtenida de una muestra pequeña. Como se estableció en el capitulo 8. cuando el tamaño de la muestra, n, es de por lo menos 30, se acepta generalmente que el teorema de límite central asegura que la media muestra! sigue la d"1stribución normal. Esta es una consideración importante. Si la media muestral tiene una distribución normal, se puede usar la distribución nor111al estándar, es dec!r, z, para los cálculos. Cuando el néimero de observaciones es 30, por lo menos, el intervalo de confianza de 95% se calcula como sigue.
-
s
X±1.96Vn De n1anera simílar, el intervalo de confianza de 99% se calcula como sigue. Una vez más, se supone que el tamaño de la muestra es por lo menos 30.
-
s
X± 2.58 Vn Como ya se indicó. los valores 1.96 y 2.58 son los valores z que corresponden al 95% y al 99% central de las observaciones, respectivamente.
302
Capitulo 9 También se pueden usar otros niveles de confianza. Los valores z serán los correspondientes en cada caso. En general un intervalo de confianza para la medía poblacíonal se calcula como sigue:
lf\Í~El'{VALOpE CONFIAl\IZA PAHA LA'MEDIAPOBLACIONAt{n;o, 30) donde z depende del nivel de confianza. Por ejemplo, para un nivel de confianza de 92% el valor z, para la fórmula 9.1, es 1.75. El valor de z se obtiene del apéndice D. Esta tabla se basa en la mitad de la distribución normal, entonces 0.92/2 = 0.4600. El valor más cercano encontrado en la tabla es 0.4599 y el correspondiente valor de z es 1.75. Frecuentemente se usa también el nivel de confianza de 90%. En este caso el área entre O y z será 0.4500 que se obtiene de 0.9000/2. Para encontrar el valor de z correspondiente a este nivel de confianza, hay que bajar por la columna izquierda del apéndice D hasta 1.6, y después deslizarse hasta las columnas encabezadas con 0.04 y 0.05. El área correspondiente a z = 1.64 es 0.4495, y la correspondiente a z = 1.65 es 0.4505. Para ser consen1ador se usa 1.65. Trate de encontrar los valores de z correspondientes a los siguientes niveles de confianza, y compruebe su respuesta con los valores de z dados a la derecha. '
Nivel de
Probabilidad
confianza
más cercana
Valor
z
80°/o 94o/o 96°/o
0.3997 0.4699 0.4798
1.28 1.88 2.05
El ejemplo siguiente muestra en detalle cómo se calcula un intervalo de confianza, y cómo se interpretan los resultados.
EJEM PI.O
Una asociación de administradores desea conocer el ingreso promedio de los administradores de nivel medio. En una muestra aleatoria de 256 administradores, la medía es $45 420 (dólares) y la desviación estándar $2 050. La asociación quiere obtener respuestas a las siguientes preguntas.
1. ¿Cuál es la medía poblacional? 2. ¿Cuál es un intervalo razonable de valores para la medía poblacional? 3. ¿Qué significan estos resJltados?
SOLUCIÓN
Generalmente las distribuciones de salarios y de ingresos son sesgadas a la derecha, porque pocos individuos ganan considerablemente más que el resto, sesgando la distribución en la dirección positiva. Por fortuna, el teorema de limite central estípula que sí se toma una muestra grande, la dístríbucíón de las medías muestrales seguirá la díst1·íbucíón normal sín importar la forma de la dístríbucíón de la población. Por tanto, en este caso, contando con una muestra de 256 admínístradores de nivel medía (recuerde que 3 es en general un valor bastante grande), se puede estar seguro de que la distríbucíón muestra! seguirá la dístríbucíón normal. Otro problema es que no se conoce la desvíacíón estándar poblacíonal. Es práctica común usar !a desviación estándar muestral cuando se tiene una muestra grande. Ahora conteste a las preguntas que plantea el problema.
1. ¿Cuál es la medía poblacíonal? En este caso no se conoce. Se sabe que la medía muestra! es $45 420. Por tanto, el mejor estimado del valor poblacíonal desconocido
303
Estimación e intervalos de conlianza
es el correspondiente estadístico muestra!. Así, la media muestra!, $45 420 es un estimado puntual de la media poblacional desconocida. 2. ¿Cuál es un intervalo razonable de valores para la media poblacional? La asociación decide usar el nivel de confianza de 95%. Para determinar el correspondiente intervalo de confianza se usa la fórmula 9.1.
x ± z _vn~ = $45 420 ± 1.96 ~ = $45 420 ± $251 256 Se acostumbra redondear estos extremos del intervalo a $45 169 y $45 671. A estos extremos se les llama límites de confianza. El grado de confianza o el nivel de confianza es 95% y el intervalo de confianza va de $45 169 a $45 671. 3. ¿Qué significan estos resultados? Supóngase que se toman muchas muestras de 256 administradores, quizás varios cientos. De cada muestra se calcula la media y la desviación estándar, y se da un intervalo de confianza de 95%, como se realizó en la sección anterior. Se puede esperar que, aproximadamente 95% de los intervalos de confianza así obtenidos contengan la media poblacional. Alrededor de 5% de los intervalos no contendrán el ingreso medio anual poblacional, que es I'· Un intervalo de confianza determinado contiene el parámetro poblacional, o no lo contiene. El siguiente diagrama muestra los resultados obtenidos al tomar muestras de la población de administradores de nivel medio, calcular la media y la desviación estándar de cada uno y después usar la fórmula 9.1 para determinar un intervalo de confianza de 95% para la med'1a poblacional. Observe que no todos los intervalos contienen la media poblacional. Los dos extremos de la quinta muestra son menores que la media poblacional. Esto se atribuye al error muestra!, y es el riesgo que se asume al elegir el nivel de confianza.
Muestra. 4, de tamaño 256. Contiene la media poblaciona!. Muestra 5 de ta1naño 256. No contiene la media poblacional. Muestra 6 de tamafio 256. Contiene la media poblacional.
304
Gapílulo 9
Una simulación por computadora Con ayuda de una computadora se pueden tomar muestras aleatorias de una población, calcular rápidamente los intervalos de confianza y ver cómo -generalmente, pero no siemprelos intervalos de confianza contienen al parámetro poblacional. El siguiente ejemplo aclarará lo explicado.
EJEMPLO
Por experiencia, en el negocio de renta ele automóviles se sabe que la distancia n1edia recorrida después de cuatro años de arrendamiento es 50 000 millas, y la desviación estándar, 5 000. Usando el paquete estadístico MINITAB, se quiere determinar qué proporción de los intervalos de 95% de confianza contendrán la media poblacional 50. Para facilitar la comprensión de los cálculos, se usarán miles de millas en lugar de millas. Se toman 60 muestras aleatorias de tamaño 30, de una población con media 50 y desviación estándar 5.
SOLUCIÓN
Los resultados de 60 muestras aleatorias de tamaño 30 se dan en la tabla siguiente. De los 60 intervalos con un nivel de confianza de 95%, 2, es decir 3.33%, no contienen la media poblacional 50. Los intervalos (C3 y C59) que no contienen la media poblacional están resaltados. Este valor, 3.33%, es un valor bastante cercano al 5% de los intervalos que no contendrán la media poblacional, y 58 de 60, o 96.67%, es también un valor bastante cercano a 95 % . Ahora se explica el primer cálculo con mayor detalle: MINITAB empieza por tomar una muestra aleatoria de 30 obserJaciones de una población con media 50 y desviación estándar 5. La media de estas 30 observaciones es 50.053. El error muestra! es 0.053, que resulta de X- I" = 50.053 - 50.000. Los extremos del intervalo de confianza son 48.264 y 51.842. Estos extremos se determinaron usando la fórmula 9.1, pero se aplica
X± 1.96.
(T
e~
vn
5 v30
50.053 ± 1.96.
~ ~
50.053 ± 1.789
One-Sample Z:
The assumed sigma
5 Mean
C19 C20 C21 C22
30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30
49.737 51.074 50.040 48.910 51.033 50.692 49.853 50.286 50.257 49.605 51. "'74 48.930 49.870 50.739 50.979 •18. 848 49. t,;81 49 .183
4. 784 5.495 5.930 3.645 4. 918 4. 571 4.525 3.422 4.317 4.994 5.497 5.317 4.847 6.224 5.520 4. 130 4.056 5.409
0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913
47.948, 49.285, 48.251, 47.121,
49.244, 48.903, 48.064, 48.497, 48.468, 47.816, 49.685, 47.141, 48.081, 48.950, 49.190, 47.059, 47.692, 47.394,
51.526) 52.863) 51.829) 50.699) 52.822) 52.482} 51.642) 52.076) 52.046) 51.394) 53.264) 50.719) 51.659) 52.528) 52.768) 50.638) 51.270) 50.973)
305
Estimación e in!ernalos de cori!ianza
Variable C23 C24 C25 C26 C27 C28 C29 C30 C31 C32 C33 C34 C35 C36 C37 C38 C39 C40 C41 C42 C43 C44 C45 C46 C47 C48 C49
eso CSl C52 C53 C54
css C56 C57
N
Mean
StDev
30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30
50.084 50.866 (!8. 768 50.904 49.481 50.949 49.106 49.994 49.601 51.494 50.460 50.378 49.808 49.934 50.017 50.074 48.656 50.568 50.916 49.104 50.308 49.034 50.399 49.634 50.479 50.529 51.577 50.403 49.717 49.796 50.549 50.200 49.138 49.667 49.603
4.522 5 .142 5.582 6.052 5.535 5.916 4. 641 5.853 5.064 5.597 4.393 4.075 4. 155 5.012 4.082 3.631 4.833 3.855 3.775 4.321 5.467 4.405 4.729 3.996 4.881 5. 173 5. 822 4.893 5.218 5.327 4.680 5.840 5.074 3.843 5.614
SE Mean 0.913 0.913 0.913 o. 913 o. 913 o. 913 o. 913 o. 913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913 0.913
95.0% 48.294, 49.077, 46.979, 49.115, 47.691, 49.160, 47.317, 48.205, 47.811, 49.705, 48.671, 48.589, 48.019, 48.145, 48.228,
48.285, 46.867, 48.779, 490127, 47.315, 48.519, 47.245, 48.610, 47.845, 48.689, 48.740, 49.787, 48.614, 47.927, 48.007, 48.760, 48.410, 47.349, 47.878, 47.814,
CI 51.873) 52.655) 50.557) 52.694)
51.270} 52.739) 50.895) 51.784) 51. 3901 53.284) 52.249) 52.167) 51.597) 51.723) 51.806) 51.863) 50.445) 52.357) 52.705) 50.893) 52.097) 50.823) 52.188) 51.424) 52.268) 52.318) 53.366) 52.192) 51. 5061 51. 5851 52.338) 51. 9891 50.928) 51.456) 51. 3921
o.
Autoexamen 9.1
En una muestra de 40 restaurantes de colilida rápida, fá venta diaria media fue $2 000, y la des viación estándar, $300. a) ¿Cuál es la media estimada de las ventas diarias? ¿Cómo se le llama a esta estimación? b) ¿Cuál es el intervalo de' confianza de 99%? Interprete resultádos.
e)
slJs
Ejercicios 1. De una población normal se tOrna una muestra de 49 observaciones. La media muestra! es 55 y la desviación estándar muestra! es i O. Detennine un intervalo de confianza de 99% para la media poblacional. De una población norma! se to1na una inuestra de Si observaciones. La media muestra! es 40 y la desviación estándar muestra! es 5. Determine un intervalo de confianza de 95% para la media poblacional. 3. Se toma una muestra de iO observaciones de una población normal, donde la desviación estándar de la población es 5, La media muestra! es 20. 2.
306
Gapi!ulo 9 a) Determine el error estándar de la media. bj Explique por qué se puede usar la fórmula 9. i para determinar un intervalo de confianza de 95% a pesar de que !a muestra es inferior a 30. e) Determine el intervalo de confianza de 95% para la media poblacional. ,-4. Supóngase que se quiere un nivel de confianza de 85%. ¿Por qué valor habría que multiplicar el error estándar de la media? 5. Una empresa dedicada a hacer encuestas realiza una para determinar la cantidad media semanal que gasta en cigarros un fumador. La media en una muestra de 49 fumadores es X= $20
(dólares), s ~ $5. a) ¿Cuál es !a estimación puntual de la media poblacional? Explique lo que indica.
b) Usando el nivel de confianza de 95%, determine el intervalo de confianza para f.!·· Explique qué indica esto. 6. Con relación al ejercicio anteíior, suponga que se tomaron en la muestra 64 fumadores {en lugar de 49.) Considere que la media muestra! y la desviación estándar muestra! siguen siendo
las mismas ($20 y $5, respectivamente). a) ¿Cuál es el intervalo de confianza de 95% estimado paraµ,? b) Explique por qué este intervalo es más angosto que el intervalo determinado en el
ejerci~
cio anterior. 7. El dueño de una gasolinería quiere estimar la cantidad media de galones de gasolina que vende a sus clientes. De su registro de ventas taina una muestra aleatoria de 60 ventas, y encuentra que !a cantidad media de galones vendidos es 8.60, y la desviación estándar es 2.30 galones. a) ¿Cuál es la estimación puntual de la media poblacional? b) Determine el intervalo de confianza de 99% para la n.iedia poblacional. e) Interprete el significado del inciso anterior. 8. El doctor Patton, profesor de Inglés, contó el número de faltas de ortografía en un conjunto de ensayos que escribieron sus alumnos. En su grupo de 40 estudiantes, el número medio de errores ortográficos fue 6.05, y la desviación estándar fue 2.44 por ensayo. Determine un intervalo de confianza de 95% para el número medio de errores ortográficos en la población de estudiantes.
s desconocida y muestra pequeña En la sección anterior se usó la distribución normal estándar para expresar el nivel de confianza. Se consideró lo siguieme: 1. Que la población seguía la distribución normal y se conocía la desviación estándar de la muestra, o
2. Que no se conocía la forma de la población, pero que el número de observaciones en la muestra era, por lo menos, 30. ¿Qué se hace si la muestra es inferior a 30 y no se conoce la desviación estándar poblacional? Esta situación no está incluida en el teorema de límite central, pero se presenta a menudo. Con frecuencia podemos pensar que la población es normal o razonablemente cercana a una distribución normal. Bajo estas condiciones, lo correcto es sustituir la .distribución normal estándar por la distribución t. La distribución tes del_ tipo continuo y tiene muchas semejanzas con la distribución normal estándar. William Gosse!, un maestro cervecero inglés, fue el primero en estudiar la distribución t. Él realizó este estudio a principios del siglo XX. La cervecería en la que trabajaba quería que sus empleados publicaran sus artículos usando algún seudónimo. Por esta razón Gosset publicó su investigación bajo el seudónimo "Student". Así, frecuentemente se encuentra esta distribución bajo el nombre de t de Student. Gosset estaba interesado en el comportamíen!o del siguiente término:
X-µ,
t ~ s/vn ses una estimación de cr. A Gosset le preocupaba especialmente la discrepancia entres y" cuando s se calculaba con muestras muy pequeñas. En el diagrama 9.1 se muestra gráficamente la distribución t y la distribución normal estándar. Observe que la distribución tes más
Estimación e intervalos de conlianza
307
plana, más dispersa que la distribución normal. Esto se debe a que la desviación estándar de la distribución t es mayor que la desviación de la distribución normal estándar.
en acción
o La distribución normal estándar y una distribución t.
DIAGRAMA 9.1
Las siguientes características de la distribución t se basan en la suposición de que la población de interés sea normal o casi normal.
este aftículo d<.iSCribe
pr!rnCro-las propíeda:des_ de la-distribución t.
1. La distribución t es, como la distribución z, una distribución continua. 2. La distribución t es, como la distribución z, una distribución simétrica y en forma de campana. 3. No hay sólo una distribución t, sino una "familia" de distribuciones t. Todas las distribuciones t tienen media O, pero su desviación estándar varía de acuerdo con el tamaño de la muestran. Hay una distribución t para una muestra de tamaño 20, otra para una de tamaño 22, y así sucesivamente. La desviación estándar de una distribución t para 5 observaciones es mayor que la de una distribución t para 20 observaciones. 4. La distribución tes más extendida y es más plana en el centro que la distribución normal estándar (véase el diagrama 9.1) Pero conforme aumenta el tamaño de la muestra, la distribución t se aproxima a la distribución normal estándar porque el error disminuye al usar s en lugar de a cuando ias muestras son grandes. Como la distribución tes más extendida que la distribución z, los valores de t que corresponden a un nivel de confianza dado, son mayores en magnitud que los valores que corresponden a z. El diagrama 9.2 muestra los valores de z y de t para un nivel de confianza de 95%, cuando el tamaño de la muestra es n ~ 5. Un poco más adelante se explicará cómo se obtuvieron los valores de t. Ahora hay que observar que para un mismo nivel de confianza, la distribución t es más plana o más extendida que la distribución normal estándar. Para obtener un intervalo de confianza para la media poblacional usando la distribución t, se ajusta la fórmula 9.1 como sigue. ,,_,, -,, ... -,,.,."'-'--':-.:·---·---· ..:·ll\l'fERVA.t:.OiOE.C:.ON.t'IAN~pARAl,A"MEOIA __
__
l'0.!3.!J\C:IONAL•C:!JANJ)Q·NQ.SECQ!ílOC:.E•·D'.·
~•.. s X±t\(fi
[9.2J
En otras palabras, para determinar un intervalo de confianza para la media poblacional cuando no se conoce la desviación estándar poblacional: 1. Se considera que las muestras provienen de una población normal. 2. Se estima la desviación estándar poblacional (u) por medio de la desviación estándar muestra! (s). 3 Se usa la distribución t en lugar de la distribución z. Ahora todo debe haber quedado claro. Por lo general se emplea la distribución normal estándar si el tamaño de la muestra es por lo menos de 30. Estrictamente hablando, se usará z o t según se conozca o no el valor de rr. Si se conoce e! valor de u se usará z, de !o contra-
308
Capíiulo 9
DIAGRAMA 9.2
Valores de :z y de t para un nivel de confianza de 95%.
ria se usará t. La regla de usar z cuando la muestra es igual o mayor que 30, se basa en el hecho de que la distribución t se aproxima a la distribución normal conforme aumenta el tamaño de la muestra. Cuando la muestra llega a 30, hay muy poca diferencia entre los valores z y los valores t, de manera que se ignora esta diferencia y se usa z. Esto se mostrará cuando se estudien los detalles de la distribución t y cómo encontrar valores en una distribución t. En el diagrama 9.3 se resume el proceso de la toma de decisiones.
OIAGRAIVIA 9.3
Có1no deternúnar si se debe usar la distribución z o la distribución t.
309 El siguiente ejemplo ilustra cómo determinar un intervalo de confianza para una media po-_ blacional cuando no se conoce la desviación estándar poblacional y cómo encontrar !os vaf· lores t, apropiados, en una tabla.
Un fabricante de llantas quiere investigar cuál es el tiempo de vida del recubrimiento de, sus llantas. En una muestra de 10 llantas que se corrieron 50 mil millas, se encontró que\ el espesor medio de recubrimiento restante era de 0.32 pulgadas con una desviación es- 't tándar de 0.09 pulgadas. Determine un intervalo de confianza de 95% para la media po- f blacional. ¿Sería razonable que el fabricante concluyera que después ele 50 mil millas la \ media poblacional del espesor de recubrimiento restante es 0.30 pulgada? · (: 1
SOLUCIÓN
Para empezar se considera que la distribución poblacional es normal. En este caso no' tenemos muchas evidencias, pero la suposición es probablemente razonable. No se sa'f be cuál es la desviación estándar poblacional, pero sí se conoce la desviación estándar muestral, 0.09 pulgada. Para usar el teorema del límite central necesitamos una muestr~ grande, es decir, una muestra de 30 o más. En este caso se tienen sólo 1O observacíqnes en la muestra. Por tanto, no se puede usar el teorema de límite central. Es decir, la fórmula 9.1 no se puede aplicar. Se usa la fórmula 9.2: ·
-
x=t
s
vñ
Según la información dada, X= 0.32, s = 0.09 y n = 1O. Para encontrar el valor de 't se usa el apéndice F, se reproduce una parte del mismo en el diagrama 9.4. El primer pa-\ so para localizar t, es desplazarse a lo largo del renglón identificado como "Intervalos de \. confianza" hasta el nivel de confianza deseado. En este caso, se quiere el nivel de con- ,j fianza de 95%, así que hay que ir hasta la columna encabezada con "95%". Esta colum-J na, en el margen izquierdo, está identificada como "gl". Esto se refiere al número de/ grados de libertad (de degrees of freedom).
Intervalos de confianza 80%
98%
90%
99%
Nivel de significancia para pruebas de una cola
gi
0.100
0.050
0.025
0.010
0.005
Nivel de significanc!a para pruebas de dos colas
!JiAGIRt\IVlA 9-4
0.20
0.10
2 3 4 5 6
3.078 1.886 1.638 1.533 1.476 1.440
6.314 2.920 2.353 2.'132 2.015 ·1.943
7 8
1.415 1.397
3.499 3.355
10
l372
3.169
0.05
Una porción de la distribución t.
0.02
0.01
31.821 6.965 4.541 3.747 3.365 3.143
63.657 9.925 5.841 4.604 4.032 3.707
310
Capítulo 9 El número de grados de libertad es el número de observaciones en la muestra, menos el número de muestras, y se escriben - 1. 1 En este caso, 1O-1 = 9. El valor de tes 2.262. Para determinar el intervalo de confianza se sustituyen los valores en la fórmula 9.2.
-
X :±: t
s ,-
vn
0.09
= 0.32 :±: 2.262 _
=
v 10
=
0.32 :±: 0.064
Los extremos del intervalo de confianza son 0.256 y 0.384. ¿Cómo se interpreta este resultado? Es razonable concluir que la media poblacional se encuentra en este intervalo. El fabricante puede estar razonablemente seguro (95% de seguridad) de que el espesor medio del recubrimiento sobrante está entre 0.256 y 0.384 pulgadas. Como 0.30 está en este intervalo es posible que la media poblacional sea 0.30. 1 En resumen, como se están utilizando estadísticos rnuestrales, es necesario determinar el número de variables que pueden cambiar libremente. Para ilustrar esto: supóngase que la media de cuatro números es 5. Los cuatro números son 7, 4, 1 y 8. las desviacíones de estos nümeros respecto a la media deben sumar O. Las desviaciones +2, -1, -4 y +3 suman O. Una vez conocidas las desviaciones +2, -1 y -4, el valor +3 queda determinado (restringido) para que se pueda satisfacer la condición de que la suma de las desviaciones sea cero. De manera que se pierde un grado de libertad en un problema muestra! en el que está involucrada la desviación estándar de la muestra debido a que se conoce un número (la media aritmética.)
A continuación se presenta otro ejemplo para clarificar el uso de los intervalos de confianza. Suponga que un artículo del periódico local dice que el tiempo medio para vender una propiedad residencial en esa área es 60 días. Usted toma una muestra aleatoria de 20 casas vendidas el año pasado y encuentra que el tiempo medio de venta fue 65 días. Basándose en los datos de la muestra, determina un intervalo de confianza de 95% para la media poblacional. Encuentra que los extremos del intervalo de confianza son 62 días y 68 días. ¿Cómo se interpreta este resultado? Se puede tener una confianza razonable en que la media poblacional se encuentre en este intervalo. El valor propuesto como media poblacional, es decir 60 días, no está en el intervalo. No es probable que la media poblacional sea 60 días. La evidencia indica que lo que afirma el artículo del periódico no es correcto. En otras palabras, no es razonable seleccionar una muestra como la que obtuvo y que sea de una poblac"1ón con tiempo medio de venta de 60 días. En el siguiente ejemplo se verán más detalles de cómo determinar e interpretar un intervalo de confianza. Para realizar los cálculos se usó MINITAB.
El gerente de un establecimiento comercial grande quiere determinar la cantidad promedio que gastan los clientes cada vez que visitan el establecimiento. En una muestra de 20 clientes las cantidades gastadas fueron las siguientes. $48.16 37.92 49.17
$42.22 52.64 61.46
$46.82 48.59 5"1.35
$51.45 50.82 52.68
$23.78 46.94 58.84
$41.86 61.83 43.88
$54.86 61.69
¿Cuál es la mejor estimación de la media poblacional? Determine un intervalo de confianza de 95%. Interprete el resultado. ¿Sería razonable concluir que la media poblacional es $50? ¿Y $60?
Estimación e intervalos de confianza
SOLUCIÓN
311
El gerente supone que la población de las cantidades gastadas sigue una distribución normal. En este caso, esta suposición es razonable. Además, la técnica del intervalo de confianza es muy eficiente, y tiende a no cometer error alguno, desde el punto de vista conservador, si la población no es normal. No se debe suponer normalidad cuando la población es severamente sesgada o cuando la distribución tiene "colas gruesas". En el capítulo 16 se presentan métodos para tratar este problema cuando no se puede suponer normalidad. En este caso, la suposición de normalidad es razonable. La desviación estándar poblacional no se conoce, y el tamaño de la muestra es inferior a 30. Por tanto, lo apropiado es usar la distribución t y la fórmula 9.2, para determinar el intervalo de confianza. Aqui se usó MINITAB para encontrar la media y la desviación estándar de la muestra. Los resultados se indican a continuación.
i ~
'<> !!ir.i<&l,
:?~~
?l
~~o
hd9.
~ Oescrlplill''! ·stmstics:Arno-u11t l <<>ü•>=:"l·' "==e
"''""'"'l-~ Al<"'~.,"
zo
:'le=
"!i.od.16"
"""'~''"
~;:!>~"
4'.~s
5Ci.8~
$~.0"'3
~.e::
l'.o.n:i:>!.:l>
ll""==
'll
03
z~.n
51.JJ
"-'·~'
Y,.3~
R
O:! :!le= Z.QZ
El gerente del establecimiento no sabe cuál es la media poblacional. La media muestra! es la mejor estimación de ese valor. La pantalla anterior de resultados de MINITAB indica que la media es $49.35 (dólares), que es la mejor estimación, la estimación puntual de la media poblacional desconocida. Para determinar el intervalo de confianza se aplica la fórmula 9.2. El valor de t está disponible en el apéndice F. Hay n -1 = 20 - 1 = 19 grados de libertad. Se desplaza en la hilera de 19 grados de libertad hasta llegar a la columna del nivel de confianza 95%. El valor en esta intersección es 2.093. Se sustituyen estos valores en la fórmula 9.2 para calcular el intervalo de confianza.
-
s = $49.35 :>:: vn
X :>:: t -::e
$9.01 2.093 _ IAn v20
= $49.35
:>:: $4.22
Los extremos del intervalo de confianza son $45.13 y $53.57. Es razonable concluir que la media poblacional se encuentra en este intervalo. A continuación se presenta otra pantalla de resultados de MINITAB. El intervalo de confianza está en el lado derecho.
312
Capítulo 9
:rn
!i"""
'"-~''" 9.ill
4\l.30
SK
fü'"·" ~-'X<
1
~15, U< ,.. .1J.ó11
~s.ts,
El gerente quiere saber si la media podría ser $50 o $60. El valor $50 está en el intervalo de confianza. Es razonable suponer que la media pueda ser $50. El valor $60 no está en el intervalo ele confianza. Por tanto, se concluye que la media poblacional no es $60.
----~--~------·------------~~~-~~--·-~-·-----~--.
!
Avr!:oex.11men 9.2
.- .
.. -.
1
Dora K!eman se dedíca a hacer pasteles y los vende en 50 pastelerías. Ella desea saber cómo está él-absentismo entre sús·trabaja:dores> A cohtihuación se da el número de días de-áüsen-
~
cia durante una quincena en una muestra de 1O trabajadores.
1 1
1
1
1
a) b) e) d) e)
4
2
2
2
2
o
3
Determine la media y !a desviación estándar de la muestra. ¿Cuál es la media poblacional? ¿Cuál es la mejor estimación de ese valor? Proporcione un intervalo de confianza de 95% para la media pob!aciona!. Explique por qué se usa la distribución t como parte del intervalo de confianza. ¿Es razonable concluir que el trabajador promedio no faltó ningún día durante una quincena?
1
l~.~~---,_~.,-~~·-"~"-=~------·---~~-~----·--.--~~~-~-----
Ejercicios 9. Use el apéndice F para localizar los valores de ten las siguientes situaciones. a) El tamaño de la muestra es 12 y el nivel de confianza es 95%. b) El tamaño de la muestra es 20 y el nivel de confianza es 90%. e) El tamaño de la muestra es 8 y el nivel de confianza es 99%. i O. Use el apéndice F para localizar los valores de t en las situaciones siguientes. a) El tamaño de la 111uestra es 15 y el nivel de confianza es 95%. b} El tamaño de la muestra es 24 y el nivel de confianza es 98%. e) El tamaño de la muestra es 12 y el nivel de confianza es 90%. i 1. El dueño de una granja quiere estimar el número medio de huevos puestos por una gallina. En una muestra de 20 gallinas se encontró una media de 20 huevos por mes con una desviación estándar de 2 huevos por mes. a) ¿Cuál es el valor de la media poblacional? ¿Cuál es la mejor estimación de este va!or? b} Explique por qué se necesita usar !a distribución t. ¿Qué suposición se necesita hacer?
Estimación e interva!os de cordlanza
313
e) ¿Cuál es el valor de t para un intervalo de confianza de 95%? d) Determine un lntervalo de confianza de 95% para la medía pob!acional. e) ¿Sería razonable concluir que la media poblacional es 21 huevos?, ¿y 25 huevos? 12. Una asociación de productores de azl1car quiere estimar el consumo anual medio de azúcar. En una muestra de i 6 personas se encuentra que el consumo medio anual es 60 libras con una deSviación media de 20 libras. a) ¿Cuál es el valor de la media·pob!aciona!? ·¿Cuál--es la mejor estimación de este valor? b} Explique por qué se necesita emplear la distribución t. ¿Qué suposición se tiene que hacer? e) ¿Cuál es el valor de t para un intervalo de confianza de 90%? d) Determine un intervalo de confianza de 90% para la media poblacional. e) ¿Sería razonable concluir que la media poblacional es 63 libras? 13. Dos empresas con una gran cantidad de empleados consideran la posibilidad de ofrecer en conjunto e! servicio de guardería para los hijos de sus. empleados. Como parte de su estudio de viabilidad, desean saber el costo semanal medio de los cuidadores de niños. En una muestra de ·1 O empleados que han contratado a cuidadores para la atención de sus hijos, se encontraron las siguientes cantidades gastadas !a semana pasada.
1
$107
$92
$97
$95
$105
$101
$91
$99
$95
$104
Determine un intervalo de confianza de 90% para la media poblacional. Interprete el resultado. 14. Una cámara de comercio quiere determinar cuánto tiempo necesitan los empleados para llegar a su trabajo. Los siguientes datos, en minutos, corresponden a una muestra de 15 empleados.
29 40
38 37
38 37
33
38
42
30
21 29
45 34 35
Determine un intervalo de confianza de 98% para !a media pob!acional. Interprete e! resultado.
1 lT ,..j f" ,, ~n i:n,_en~w ,_;e con 1anz~_para una proporc1on 0
'"
El material presentado hasta ahora, en este capitulo, usa mediciones del nivel de razón. Es decir, se utilizan variables como ingresos, pesos, distancias y edades. Ahora se quieren considerar situaciones como las siguientes:
'
0
0
'
El director de un instituto técnico indica que 80% de sus egresados entra al campo laboral en un puesto relacionado con su campo de estudio. Un empleado de un restaurante de hamburguesas asegura que 45% de las hamburguesas se venden en la ventanilla de "servicio desde su automóvil". En una encuesta realizada en las viviendas de una área determinada se encontró que 85% de las viviendas re'cién construidas
tenían aire acondicionado. En una encuesta reciente realizada a hombres entre 35 y 50 años de edad, casados, se encontró que al 63% le parecía que ambos cónyuges deberían trabajar para ganarse la vida.
Estos son ejemplos de la escala de medición nominal. En la escala nominal cada observación se clasifica en dos o más grupos mutuamente excluyentes. Por ejemplo, un egresado de una escuela técnica entra en el mercado laboral en un empleo relacionado con su campo de trabajo o no. Un cliente de un restaurante de hamburguesas compra desde su automóvil o no lo hace. Sólo existen dos posibilidades y los resultados deben clasificarse en uno de los dos grupos.
314
CapílillO 9 ':::·::::-;_>_;/_ ·'._.-_·_: '.:/--_- ., _ ._-; -·
-:
:';_: ,-•
--.:'.·
-¡:
':
fiqpprc;:i(in Ftac9ió~, raz¡j,n opprc~nt?ieque indicaf¡ipahe dela muestra o poblaciónq4e.tie11evnacaracterísticf!·c:l.et~rminada,
Por ejemplo 92 de 100 encuestados están de acuerdo con el horario ele verano para el ahorro de energía eléctrica. La proporción muestra! es 92/100 o. 0.92 o 92%. Si p representa la proporción muestra!, X el número de éxitos y n el número de objetos muestreados, la proporción muestra! se puede determinar como sigue:
[9.3] La proporción poblacional se indica con 1T. Por tanto, "se refiere al porcentaje de éxitos en la población. Recuérdese del capítulo 6 que 1T es la proporción de éxitos en una distribución binomial. En este capítulo se continúa con el uso de letras griegas para identificar parámetros poblacionales y de letras latinas para identificar estadísticos muestrales. Para determinar un intervalo de confianza para una proporción poblacional se deben satiB"facer las siguientes suposiciones:
La estadística en acción
1. Que las condiciones binomiales, vistas en el capítulo 6, se cumplan. En resumen estas condiciones son: a) Los datos muestrales son el resultado de contar algo. b) Sólo hay dos resultados posibles. (Generalmente a uno de los resultados se le llama "éxito" y al otro "fracaso".) c) La probabilidad de éxito no cambia de un ensayo a otro. d) Los resultados son independientes. Esto significa que el resultado de un ensayo no afecta el resultado de otro. 2. Que ambos valores n1T y n (1 - TI) sean mayores o iguales a 5. Esta condición permite recurrir al teorema del límite central y emplear la distribución normal estándar, es decir, z como parte del intervalo de confianza. Determinar una estimación puntual para una proporción poblacional o un intervalo de confianza para una proporción poblacional es semejante a determinarlos para una media. Para ilustrar esto, Juan Garza es candidato a un puesto gubernamental local. De una muestra aleatoria de 100 votantes locales, 60 indicaron que votarían por Juan en las próximas elecciones. La proporción muestra! es 0.60, pero la proporción poblacional nO se conoce. Es decir, no se sabe qué proporción de los votantes en la población votará por el. señor Garza .. El valor muestral 0.60 es la mejor estimación que se tiene del parámetro poblacional. De manera que p, que es 0.60, es una estimación de 1T, que es desconocida. Para determinar un intervalo de confianza para una proporción poblacional se modifica ligeramente la fórmula 9.1:
INTERvAt.a
º~ cói\iH.1ü,,.irA ~AFiA UNA
ioílqpóf!q1Á!lll'o8LAq1i:)N~C••
[9.4]
El término uP es el "error estándar" de la proporción. Este error estándar mide la variabilidad en la distribución de la proporción muestral.
:::;: 0.034
' ERROR ESTÁNDAR DE LA PROPORCIÓN MUESTRAt
315
Es!imación e intervalos de confianza
Entonces se puede construir un intervalo ele confianza para la proporción muestra! mediante la fórmula siguiente.
INTERVALO DE CONFIANZA
P·_·_± _ _ .z/p("l-p) . y n
PÁRAÜNÁPROPdR.l'.;ION POBfl\GíÓNA('
[9.6]
EJE!111PLO
El sindicato de una empresa A está considerando una propuesta de fusionarse con otro sindicato. De acuerdo con los estatutos del sindicato de la empresa A, es necesario que por lo menos tres cuartas partes de los miembros del sindicato aprueben la fusión. En una muestra aleatoria de 2 000 miembros del sindicato, se tiene que 1 600 están a favor de la fusión. ¿Cuál es el valor estimado de la proporción poblacional? Determine un intervalo de confianza de 95% para la proporción poblacional. Interprete los resultados. Basándose en los resu_ltados de la información muestra!, se puede concluir que se tiene la proporción necesaria de miembros a favor de la fusión.
SOLUCIÓN
Primero se calcula la proporción muestra! con la fórmula 9.3. Esta proporción es 0.80, la cual se obtiene mediante
X P
= -;; =
1 600 2
ººº =
0 80 ·
En consecuencia, se estima que 80% de la población favorece la fusión. El intervalo de confianza de 95% se determina con la fórmula 9.6. El valor de z que corresponde al nivel de confianza de 95% es 1.96. p ±
z
J
1
P ( n- p)
= 0.80
± 1.96
J·
0 80
~~~~ =
0.80 ± 0.018
Los extremos del intervalo de confianza son 0.782 y 0.818. El extremo inferior es mayor que 0.75. Por tanto, se concluye que se aceptará la propuesta .
. .Autoexamen !l.3
Se realizó una investigación de mer<;:ado para _estimar !a proporción de constructores de casas que reconocen el nombre comefcia! de un purificador con sólo ver la forma y el color del empaque_. l;n _una muestra de _1 40_0 constructores de casas, 420 _reconoció el nombre comercial. a) Est_im_e el valor de. la proporción poblacional. b) Calcule el error estándar de la proporción. e) D_etermine un intf:)rvalo__ de confia,nza de 99o/o para_!_a_ proporci_ón poblacionaL
d) Interprete los resultados.
Ejercicios ¡y
--1;5. El dueño de una gaso!inería desea estimar la proporción de sus clientes que emplean la nueva modalidad de pago directo en la estación despachadora de gasolina. Esta modalidad de pago le permite al cliente emplear una tarjeta de crédito directamente en !a estación. E! propietario encuestó a 100 clientes y encontró que 80 pagaban directamente en la estación despachadora ele gasolina.
316
Gapí!ulo 9 a) Estime el valor de la proporción poblacional. Calcule el error estándar de la proporción. Determine un intervalo de confianza de 95% para la proporción poblacional.
b) e} /.-,d} ~11-~~i La
Interprete los resultados
señora Mary Wilson estudia la posibi!idad de postu!Élrse como candidata a presidenta municipal de su localidad. Antes de postularse decide realiza_r una encuesta entre los habitantes de la localidad. En una muestra ele 400 votantes encontró que 300 apoyarían su candidatura. aj Estime el valor de la proporción pob!acional. b} Calcule el error estándar de la proporción. e) Determine un intervalo de confianza de 99% para !a proporción poblacional. 4 _d) Interprete los resultados ef1).i?La cadena de televisión Fax está considerando la posibilidad de sustituir una de sus series po. licia!Eis por una serie de comedla con orientación familiar. Antes de tomar una decisión, los directores de la red televisiva toman una muestra d9 400 televídentes. Después de ver la nueva serie, 250 indican que sí la verían y sugieren que reemplace a la serie policiaca. a} Estime el valor de la proporción poblacional. b} Calcule el error estándar de la proporción. e) Determine un intervalo de confianza de 99% para la proporción poblacional.
d) Interprete los resultados. 18. Una empresa compra tazas de plástico para imprimir un logotipo en su supetficie con relación a algún evento deportivo, promoción, cumpleaños u otra ocasión especial. Esta mañana, el propietario recibió un pedido grande, y para asegurarse de !a calidad del mismo tomó una muestra aleatoria de 300 tazas. Encontró que 15 eran defectuosas. a) ¿Cuál es la proporción de defectos estimada en la población? b) Determine un intervalo de confianza de 95% para la proporción de tazas defectuosas.
e} El propietario ha acordado con el proveedor regresar cualquier pedido en el que haya 10% o más de tazas defectuosas. ¿Debe regresar este envío? Explique el motivo de su dec!sión.
Fa_ct9r de cm:~ección p~-~:~Jp_o!>l~~~n finita Hasta aquí la población de la que se ha tomado la muestra es muy grande o infinita. ¿Qué sucede si la población no es muy grande? En este caso se debe realizar un ajuste en el cálculo del error estándar, ya sea de la media muestra! o de la proporción muestra!. Una población que tiene un determinado limite superior es finita. Por ejemplo, hay 21 376 estudiantes inscritos en una universidad, hay 40 empleados en una empresa, una fábrica de automóviles ensambló 917 Jeeps, o ayer hubo 65 pacientes para cirugía en un hospital. Una población finita puede ser bastante pequeña; podría ser, todos los estudiantes inscritos en esta clase. Puede ser, también; muy grande como todas las personas de la tercera edad que viven en Florida. En una población fin·1ta, en la que el número total de objetos es N y el tamaño de; la muestra es n, al error estándar de la media muestra! de la proporción muestra! se le. aplica el.siguiente ajuste:
A este ajuste se le llama factor de corrección para una población finita. ¿Por qué es necesario aplicar un factor y cuál es su efecto? Lógicamente si la muestra es un porcentaje substancial de la población, la estimación será más precisa. Observe el efecto que tiene el término (N- n)/(N-1). Supóngase que la población es 1 000 y la muestra es 100. Entonces
317
Eslimación e intervalos de coíllianza
este cociente es (1 000 - 100)/(1 000 - 1) o 900/999. Al calcular la raíz cuadrada se obtiene el factor de corrección 0.9492. La multiplicación de este factor de corrección por el error estándar reduce el error estándar en aproximadamente 5% (1 - 0.9492 = 0.0508). Esta reducción en el tamaño del error estándar genera un intervalo menor de valores al estimar la media poblacional o la proporción poblacional. Si la muestra es de 200, el factor de corrección es 0.8949, lo que significa que el error estándar se ha reducido en más de 10%. La tabla 9.1 muestra los eiectos de varios tamaños la muestra. Obsér\ie que cuando la muestra es inferior al 5% de la población, el impacto del factor de corrección es muy pequeño. La regla que se sigue es que cuando el cociente n/N es inferior a 0.05, se ignora el factor de corrección.
de
TABl/11 9.11
Factor de corrección para una población finita, en el caso de varios tamaüos de IflUCstra, cuando la población es 1 000. Tamaño de
Fracción de
Factor de
la muestra
la población
corrección
10
0.010 0.025 0.050 0.100 0.200 0.500
0.9955 0.9879 0.9752 0.9492 0.8949 0.7075
25 50 100 200 500
En una determinada localidad hay 250 familias. Una encuesta realizada a 40 familias indica que su contribución anual media es $450 (dólares) con una desviación estándar de $75. Determine un intervalo de confianza de 90% para la contribución anual media.
SOLUCIÓN
Primero se observa que la población es finita. El número de personas en la localidad tiene un limite. Segundo se observa que la muestra constituye más de 5% de la población; es decir, n!N = 40/250 = 0.16. En consecuencia usa el factor de corrección para una población finita. El intervalo de confianza de 90% se construye como sigue, empleando las fórmulas 9.1 y 9.7.
1
- n) - z Vn s (.\¡N X:': N1
$75 ( \/25o -_ 40) rnn=) = $450 :': 1.65 V40 1 = $450 ='.= $19.57 (-v0.8434 250 = $450 :': $17.97
Los extremos del intervalo de confianza son $432.03 y $467.97. Es probable que la media poblacional caiga en este intervalo.
-se· realizó e! misiiici ·estudio· def"ejempló anterior~/ Sé enContró·que· 15 de las 40 familias asisten· a lEi íglEiSia- regUlarmente:-Détermíne' ürl iritervalü' de córifianza de 95% para la proporción de familias que van a la iglesia cbn freCuenCia: -¿D9b9 usarse el factor de corrección para poblaciones finitas?- ¿Por qué-Sí'o ·por qué no?
318
Capítulo 9
Ejercicios 19. Se seleccionan 36 objetos de una población de 300 objetos. La media muestra! es 35 y la desviación estándar muestra! es 5. Determine un intervalo de confianza de 95% para la media po-
blacional. 20. Se seleccionan 49 artículos de una población de 500. La media muestra! es 40 y la desviación estándar muestral es 9. Determine un intervalo de confianza de 99% para la media poblacional. 21. La asistencia a un juego de bé:sbol la noche anterior fue de 400 personas. En una muestra aleatoria de 50 personas tomada de esa población se encontró que el consumo medio de refrescos por perSona había sido 1.86 refres'cos, con úna desviación media de 0.50. Determine un intervalo de confianza de 99% para el número medio de refrescos consumidos por persona. 22. Una empresa emplea a 300 soldadores. En una muestra de 30 operarios se encontró que 18 eran egresados ·de un curso registrado para soldadores. Determine un intervalo de confianza de 95% para la proporción de todos los soldadores tomaron el curso.
Elección d~l ta1nafí.o de muestra apropiado Una pregunta frecuente al diseñar un estudio estadístico es" ¿Cuántos objetos deben tomarse en la muestra?" Si la muestra es demasiado grande, se desperdicia dinero al obtener los datos. Si la muestra es demasiado pequeña, la conclusión obtenida será insegura. El tamaño necesario de la muestra depende de tres factores: 1. El nivel de confianza deseado. 2. El margen de error que el investigador está dispuesto a tolerar. 3. La variabilidad de la población que se estudia. El primer factor es el nivel de confianza. Las personas que realizan el estudio eligen el nivel de confianza. Los niveles de confianza más comúnmente usados son 95% y 99%, pero se puede usar cualquier nivel entre O y 100%. El nivel de confianza de 95% corresponde al valor z 1.96, y el nivel de confia1za de 99% corresponde al valor z 2.58. Entre mayor sea el nivel de confianza elegido, mayor será el tamaño de la muestra correspondiente. El segundo factor es el error permitido. El máximo error permitido se designa por E, es la cantidad que se suma o resta a la media muestra! (o a la proporción muestra!) para determinar los extremos del intervalo de confianza. Éste es la cantidad de error que las personas que realizan el estudio están dispuestas a tolerar. Este error corresponde a la mitad de la amplitud del intervalo de confianza. Si el error permitido es pequeño, se necesitará una muestra grande. Si el error permitido es grande, esto permitirá una muestra más pequeña. El tercer factor para determinar el tamaño de la muestra es la desviación estándar pob/acional. Si la población está muy dispersa, se requerirá una muestra grande. Por otro lado, si la población está concentrada (es homogénea) el tamaño de muestra requerido será más pequeño. Será necesario usar una estimación de la desviación estándar poblacional. A continuación se íridlcan tres ·sugereriCias para obtener esa· eStim8.ción. 1. Uso de un estudio comparable. Este método se usa cuando existe una estimación de la dispersión, que se obtuvo en otro estudio. Supóngase que se quiere estimar el número de horas que trabajadores reticentes trabajaron por semana. La información de alguna dependencia oficial que regularmente toma muestras de trabajadores puede servir para obt.ener una. estimación de la desviación estándar, Si se piensa que una desviación estándar obtenida en un estudio anterior es confiable, se puede usar en el estudio actual para aproximar el tamaño de la muestra. 2. Uso de un método basado en el intervalo. Para emplear este método se necesita conocer o tener un valor estimado de los valores mayor y menor de la población. Recuerde que en el capítulo 4, donde se describió la regla empírica, se vio que virtualmente.puede esperarse que todas las observaciones se encuentren entre inás o menos 3 desviaciones
Estimación e intervalos de confianza
319
estándar de la media, suponiendo que la distribución sea aproximadamente normal. Por tanto, la distancia entre el valor mayor y el valor menor será 6o-. La desviación estándar puede estimarse como un sexto del intervalo. Por ejemplo, el director de operaciones de un banco quiere estimar el número de cheques que firma cierto cuentahabiente en un mes. El director piensa que la distribución es aproximadamente normal, que el número mínimo de cheques es 2 y el número máximo es 50, por mes. El intervalo del número de cheque por mes es 48, proveniente de 50 - 2. Entonces una estimación de la desviación estándar del número de cheques será 8 cheques por mes, 48/6. 3. Realizar un estudio piloto. Este es el método que se utiliza con mayor frecuencia. Supóngase que se quiere estudiar el número de horas de trabajo por semana que tienen los estudiantes de una universidad. Para probar la validez del cuestionario que se empleará, éste se aplica a una pequeña muestra de estudiantes. A partir de esta muestra pequeña se calcula la desviación estándar del número de horas que trabajan los estudiantes y se usa este valor para determinar el tamaño apropiado de la muestra. La interacción entre estos tres factores y el tamaño de la muestra se puede expresar en la siguiente fórmula.
E=z
s
Vn
Al despejar n de esta ecuación se obtiene el resultado siguiente.
' TAMAÑQDELAIVIUESTRA·PARA ESTIMAR'· lA .l\J1El)U\ f'Qf!LA(;IQNAL
[9.9J
donde:
n z
es es s es E es
el tamaño de la muestra el valor normal estándar que corresponde al tamaño de la muestra una estimación de la desviación estándar de la población. el máximo error permitido.
El resultado de este cálculo no siempre es un número entero. Cuando el resultado no es un número entero, se acostumbra redondearlo al siguiente entero. Por ejemplo, 201.22 se redondea a 202.
EJEM PU)
Un estudiante.de administración pública quiere determinar el ingreso medio mensual de los miembros del consejo ciudadano de una ciudad grande. El error al estimar la media debe de ser inferior a $100 (dólares) con un nivel de co~fianza. de 95%. El estudiante encontró un informe de la Secretaría del Trabajo en el que se estimó que la desviación estándar era $1 000. ¿De qué tamaño deberá ser la muestra?
SOLUCIÓN
El_ máximo error permitido, E es $1 OO. E.1 valor de z para un nivel de confianza' de 95% es 1.96 y el valor estimado de la desviación estándar es $1 O 000. Sustituyendo estos valores en la fórmula 9.9, se encuentra que el tamaño de. la fórmula deberá ser:
n=
(zs)' = ((1.96)($1 000))' = (19 6)2 = 38416 E $100 . .
El valor obtenido 384.16 se redondea a 385. Se necesita una muestra de 385 para satisfacer las especificaciones. Si el estudiante quisiera aumentar el nivel de confianza, por
320
Capítulo 9 ejemplo a 99%, se requeriría una muestra más grande. El valor z correspondiente al nivel de confianza de 99% es 2.58.
Aquí se recomienda una muestra de 666. Observe qué tanto aumenta el tamaño de la muestra por el cambio en el nivel de confianza. El aumento de un nivel de confianza de 95% a uno de 99%, ocasiona un aumento de 28"1 observaciones. Esto podría incrementar enormemente el costo del estudio, tanto en términos de tiempo, como de dinero. Por tanto se debe ser muy cuidadoso al seleccionar el nivel de confianza.
El procedimiento antes descrito se puede adaptar para determinar el tamaño de la muestra en el caso de proporciones. Aquí también es necesario especificar tres valores.
i. El nivel de confianza deseado 2. El margen de error en la proporción poblacional. 3. Una estimación de la proporción poblacional La fórmula para determinar el tamaño de la muestra para una proporción es:
ft\i\;IÁ~fü bif Oüliüifsfl'lí\ PARA LA PROPORC!Ól'IPOBLACIONAL
[9.101
Si se cuenta con un valor estimado para 1T proveniente de algún estudio piloto o de alguna otra fuente, se puede usar. De lo contrario se utiliza 0.50 porque el término p (1 - p) nunca será mayor que el valor que le corresponde a p = 0.50. Por ejemplo, si ,o= 0.30, entonces ,o(1 - ,o)= 0.3(1- 0.3) = 0.21, pero cuando ,o= 0.50, ,o(1 - ,o)= 0.5(1 - 0.5) = 0.25.
EJEMPU:l
En el estudio del ejemplo anterior también se quiere estimar la proporción de colonias que tienen recolectores de basura privados, El estudiante quiere que la estimación esté dentro del 0.1 de la proporción poblacional, el nivel de confianza deseado es 90% y no se cuenta con una estimación de la proporción poblacional. ¿De qué tamaño deberá ser la muestra? ·
SOLUCIÓN
La estimación de la proporción poblacional debe estar dentro del 0.1 O, por lo que E= 0.1 O. El nivel de confianza deseado es 0.9.0 que corresponde al valor z de 1.65. ·Coc mo no se cuenta con una estimación de la proporción poblacional, se usa 0.50. Por lo que el número de observaciónes es
n ~ (0.5)(1 - 0.5) ( ·l.65)' _1 0 0
~
El estudiante necesita una muestra de 69 colonias.
68.0625
321
Estimación e intervalos de confianza
ll11loexame11 !!.5
En una universidad (de Estados Unidos) se quiere determinar la media aritmética de las calificaciones de todos los egresados durante.los ú!timos _10 aííos. Las calificaciones van de 2.0 a 4.0. La media se estima entre más o menos 0.05 de la media poblacional. Se estima que la des-
____________
viación estándar es 0.279. Use el nivel de confianza de 99%. ,
!
____]
,
Ejercicios <¿31 Se estima que la desviación estándar de una población es 1O. ----1
Se quiere estimar la media po-
blaciona! con un error máximo de 2, y con un nivel de confianza de 95%. ¿De qué tamaño deberá ser la muestra?
f..24.)se quiere estimar la media poblacional con un error máximo de 5 y con un nivel de confianza de 99%. Se estíina que la desviación estándar poblacional es 15. ¿De que tamaño deberá ser i
la muestra? !f lg_~_.jEI valor estimado para la proporción poblacional debe tener un error máximo de 0.05 con un / · nivel de confianza de 95%. La mejor estimación de la proporción poblacional es D.15. ¿De qué "·
1
tamaño deberá ser la muestra?
.
5! / 26/EI va!or estimado para la proporción poblaclonal debe tener un error máximo de 0.1 O con un / ·----' nivel de confianza de 99%. La mejor estimación de la proporción pob!acional es 0.45. ¿De qué tamaño deberá ser la muestra? 27. Se quiere hacer una encuesta para determinar el número medio de horas que un ejecutivo ve televisión. Un estudio piloto indica que la media semanal es 12 horas, con 3 horas de desviación estándar. Se desea que el error máximo al estimar !a cantidad media de horas sea un cuarto de hora. Se quiere un nivel de confianza de 95%. ¿A cuántos ejecutivos habrá que entrevistar? 28. Un procesador de zanahorias corta los rabos de éstas, las lava e inserta seis zanahorias en un paquete. Después se colocan 20 paquetes en una caja para su venta. Para verificar el peso de las cajas se toman unas cuantas. El peso medio fue 20.4 libras y la desviación estándar 0.50 libra. ¿Cuántas cajas habrá que tomar como muestra para tener 95% de seguridad de que la diferencia entre la media muestra! y la media poblacional no es mayor que 0.2 libra? 29. Suponga que e! presidente quiere una estimación de la proporción de la población que apoya su propuesta respecto al control de armas. E! presidente desea que la estimación esté dentro de 0.04 de la verdadera proporción. Use un nivel de confianza de 95%. E! asesor del presiden-
te estima que la proporción que apoya su propuesta deberá ser 0.60. a) ¿De qué tamaño deberá ser la muestra? b) ¿De qué tamaño debería ser la muestra si no se contara con ninguna estimación de !a proporción que apoya la propuesta del presidente? 30. Encuestas pasadas indican que los turistas que van a jugar un fin de semana a Las Vegas gastan más de $1 000. El gerente quiere actualizar esta información. a) En el nuevo estudio se debe usar un intervalo de confianza de 90%. La estimación no debe alejarse de la media poblacional más de 1 %. ¿De qué tamaño deberá de ser la muestra? b) El gerente opina que e! tamaño de la muestra determinado antes es demasiado grande. ¿Qué se puede hacer para reducir el tamaño de !a muestra? Basándose en su sugerencia, calcule nuevamente el tamaño de la muestra;
322
Capítulo 9
·Para determinar el Valor que representa el nível de confianza cuando' se conbce ta desviadón estándar poblacional o el tamaño de la muestra es 30 o más, se usa la · distribución z. La fórmula es · ·
-
s
X±z\,fii_. b) Para determinar el valor que representa el nivel de confianza cuando no se conoce la desviación estándar poblacional y la muestra es inferior.a 30, se usa la distribución t. La fórmul,a es ·
[9.2] 111: Lás éaraclerísticas principales dé la distribución t séin: A. Es una distribución continua. · · · B.. Tiene forma de campana,Y es simétrica. . C. Es más plana ó niás extendida que la distribución riormál estándar. o; Hay una famílía de disfríbúéiones t, Cadá distribución depende de los grados de libertad. Una proporción es una razón, proporciór:t o Porcentaj6 (¡Ue-cortesponde a ta parte de la mues. Ira üde la población que tiene la característica particúlar de que se trate. <> ;•<<;. : A: Uná proporción muestial se determina níediarite X, el número de éxitos, dividido entre n, el número de observaciones. · · El érrohis!ándar de la proporción muestra! indica la variabilidad en la distribución de las proporéiones mueslrales. Se détermlna mediante.
.
cr¡, =
vp(\-p) /
[9.5]
[9.6]
Tanto para hiuestrás como ¡Jara;proporciones :sé pUede deté'rminar, el tamaño de !a muestra. A. Hay tres factores que determinan el tamaño de la muestra cúando se quiere estimar la media. 1. El nivel de confianza deseado, expresado normalmente mediante z. 2. · El máximo error permitido, E. 3. La variación en la población, expresada por s. 4. La fórmula para determinar el \amañó de la muestra para la media es
[9.9]
Estimación e intervalos de conlianza
323
$66
Estimación e intervalos de confianza
325
Estimacióffe inlervalos de confianza
328
Gapí!ulo 9
. . .• . •<,> i.
<······· .\········ .
····.·.· <
/.·•·•·
•.•••.••.....•.. , ••.•...•..•••.
•<; .
sc{scb.~a~ci~s~eM1~if6~pfü~8~te~¡,Me~t&a1~1fa&pe~8ri8livaque.~epr~ser1t~~1~i11(~á-
gina ~1 t .son Jos mism.os q~~l?s us¡¡c:Jps e0l~pá9inaJ~O.delcapítul9 ~.Jntrodqzca los datos en Ja primera columna,titulandoaéstaAmounf (cantidad.)De Ja ti arra de herramientas selec, ci9[l(~t~t,·~~7i.s.~t~tis1i~~ y.• Di~plª'j( ~ª'sif ~ta~i~tjqs •. En.el recugdro de diálogo .seleccione
\llm9t1nt(Santidai:l)somotaN~ria~tey··.presianeenQK.
4 .. Lfl.'!.corn~ndos de Ml[\Jff~B pªradeterminar el intervalo de copfíanza p~ra I~ c'a~!idad prbme91o·que g~stan losdient~sde.~.~ establecimiento cow~rcial·grande sop: a) ~n la colyrpp~ ctjp¡roduzca las 20 cantidades y nombre 'l la variable'Amow1ts, 0Jocali9e los datos enel disco.Para ~f~studiante, en el que a la vari~ble se le llam.ó "Shopping"yse encuentra en el fólder del capítulo 9. · .• • . . .. .. . . > : b) De la barra ele herramientas seleccione Start, Basic Statistic.sy presione en 1-Sámple t. e) Seleccione Amount como Variable y presione en· QI(.
Eslimacíón e intervalos de confianza
329
330
Sección de repaso 3
Repaso de ios c:apitulos 8 y 9 El capítulo 8 empezó describiendo las razones por las que es necesario tomar muestras. Se toman muestras porque generalmente es imposible estudiar todos los objetos o individuos de una población. Por ejemplo, sería mUy costoso y tomaría mucho tiempo, ponEirsS en Contacto con todos los empleados bancarios de un país e ir anotando los ingresos de cada uno. También, a veces, al tomar la muestra se destruye el producto; un fabricante de medicamentos no puede analizar las propiedades de cada tableta elaborada porque no quedaría ninguna para la venta. En consecuencia, para estimar un parámetro poblacional se toma una muestra de la población. Una muestra es una parte de la población. Debe tenerse cuidado de que cada miembro de la población tenga la posibilidad de ser elegido para formar parte de la muestra, porque si no es así, las conclusiones pueden resultar sesgadas. Es posible emplear diversos métodos de muestreo probabilístico, como el aleatorio simple, el sistemático, el estratificado y el muestreo por conglomerados. Independientemente del método de muestreo que se use, un estadístico muestra! rara vez será igual a un parámetro pob!acional. Por ejemplo, la media de una muestra pcicas veces es exactamente igual a la media de la población. La diferencia entre el estadístico muestra! y el parámetro poblaciona! es el error muestra!. En el capítulo 8 se demostró que si de una población se seleccionan todas las muestras posibles de un determinado tamaño y se ca!cu!a la media de estas muestras, ésta será exactamente igual a la media poblaciona!. También se mostró que !a dispersión en la distribución de las medias muestrales es igual a la desviación estándar pob!acional dividida entre la raíz cuadrada del tamaño de la muestra. Con esto se concluyó que hay menos dispersión en !a distribución de las medias muestrales que en !a distribución de la población. También, conforme aumenta el número de observaciones en la muestra disminuye !a variabilidad en la distribución muestra!. E! teorema de límite central es el fundamento de la inferencia estadística. Este teorema establece que si la población de la que se toman las muestras sigue la distribución de probabilidad normal, la distribución de las medias muestrales también sigue la distribución normal. E! capítulo 9 se ocupó de las estimaciones puntuales y de las estimaciones mediante un intervalo. Una estimación puntual es un solo valor que se usa para estimar un parámetro poblacional. Una estimación mediante un intervalo, es un rango de valores en el que se espera se encuentre el parámetro pob!acional. Por ejemplo, basándose en una muestra, se estima que el ingreso anua! de todos !os pintores de casas de una determinada región (la población) es $45 300 (dólares). A esta estimación se le llama estimación puntual. Si se establece que, probablemente la media poblacional esté en el intervalo entre$ 45 200 y $45 400, a la estimación se le conoce como estimación por intervalo. Los dos extremos del intervalo ($45 200 y $45 400) son los límites de confianza para la media poblacional. Se describió el procedimiento para determinar un intervalo de confianza para !a media, así como para proporciones poblaciona!es, tanto para muestras grandes como para muestras pequeñas. En ese capítulo también se proporcionó un método para determinar el tamaño necesario de la muestra basándose en la dispersión en la población, el nivel de confianza deseado y la precisión con la que se quiera dar la estimación.
Distribución de muestreo de la media muestra! Una dis~ tribución de probabilidad integrada por las medias de todas la muestras de un determinado tamaño, tomadas de la población. Error muestra! de muestreo Es la diferencia entre un es~ tadístico muestra! y el correspondiente parámetro poblacional. Ejemplo: el ingreso medio muestra! es $22 100; e! ingreso medio poblacional es $22 000. El error muestra! es $22 100 - $22 000 ~ $1 OO. Este error puede ser atribuido a! muestreo, es decir a la casualidad. Estimado de intervalo El intervalo en el cual probablemente se encuentre un parámetro poblacional, con base en la información obtenida de una muestra. Ejemplo: Basándo-
se en los datos muestrales, la media muestra! está en el intervalo entre 1.9 y 2.0 libras. Estimado puntual Un solo valor calculado a partir de una muestra y usado para calcular un parámetro pob!aciona!. Ejemplo: si la media muestra! es 1 020 psi, esta es la mejor estimación de la resistencia media a la tensión, en la población. Muestra probabilística Una muestra de objetos o individuos elegida de tal manera que cada miembro de la población tenga oportunidad de ser incluido en la muestra. Muestreo aleatorio estratificado Primero se divide la población en subgrupos llamados estratos. Después se toma una muestra de cada estrato. Si por ejemplo la población que
Repaso de los capítulo 8 y 9 interesa consta de todos los estudiantes universitarios, se toman 62 alumnos de primer año de licenciatura, 5i alumnos de segundo, 40 de tercero y 39 de cuarto. Muestreo aleatorio simple Un método de muestreo en el que cada miembro de !a población tiene la misma oportunidad de ser seleccionado para formar parte de la muestra. Muestreo aleatorio sistemático Se parte de una población ordenada de cierta forma, por ejemplo, alfabéticamen-
te, por estaturas, o en un archivo. Se selecciona aleatoriamente un punto de inicio, y después se toma para la muestra cada k-ésimo elemento. Por ejemplo, si un diseño muestra!
331 Muestreo por conglomerados Es un método usado con frecuencia para disminuir el costo del muestreo cuando la población se encuentra dispersa en una región geográfica grande. La región se divide en unidades más pequeñas {mu-
nicipios, colonias, manzanas} llamadas unidades primarias. Después se seleccionan algunas unidades primarias y de cada una se-toma una muestra aleatoria. Sesgo Puede ser una consecuencia de negarles a algu-
nos miembros de la población la oportunidad de ser elegidos en la muestra. Como resultado, la muestra puede no ser
requiere una entrevista en cada novena casa en una calle,
representativa de la población. Teorema de límite central Si el tamaño de la muestra es
empezando en el número 32, en la muestra se encontrarán las casas con los números 32, 41, 50, etcétera.
suficientemente grande, la distribución muestra! de la media muestra! se aproximará a una distribución muestra!, sin considerar la forma que tenga !a distribución de la población.
Ejercicios Parte 1Opción múltiple i. A cada nuevo empleado se le da un número de identificación. Los expedientes de! persona! están ordenados en forma secuencia! empezando con el empleado 0001. Para tomar una muestra de empleados se selecciona primero al número 0153. Luego los números 0253, 0353, 0453, etc., van formando parte de la muestra. A este tipo de muestreo se le denomina: a) Muestreo aleatorio simple. b} Muestreo sistemático. e) Muestreo aleatorio estratificado. d) Muestreo por conglomerados. 2. Se divide una colonia en manzanas. Después se seleccionan aleatoriamente 12 de ellas, y la muestra se toma de estas 12 manzanas. A este tipo de muestreo se le llama: a) Muestreo aleatorio símple. b} Muestreo sistemático. e) Muestreo aleatorio estratificado. d) Muestreo por conglomerados. 3. El error muestra! es: a) Igual a la media poblacional. b) Un parámetro poblacional. e) Siempre positivo d) La diferencia entre el estadístico muestra! y el parámetro poblacional. 4. ¿Cuáles de las siguientes expresiones son correctas con relación a los intervalos de confianza? a) No pueden contener números negativos b} Siempre se basan en Ja distribución z. c) Siempre tienen que contener al parámetro poblacional. d} Ninguna de las respuestas anteriores son correctas siempre. 5. A los extremos de un intervalo de confianza se les llama: a) Niveles de confianza. b) Estadístico de prueba. c) Grados de confianza. d) Límites de confianza. 6. Se ca!cu!a !a media y la desviación estándar de una muestra de 50 observaciones tomadas de una población que tiene sesgo positivo. Se desea determinar un intervalo de confianza para la n1edia. ¿Cuáles de las aseveraciones siguientes son correctas? a) No se puede determinar un intervalo de confianza porque la población no es normal. b) No se puede usar z porque no se conoce la desviación estándar de la población. e) Se puede usar z porque el teorema de límite central muestra que la distribución de !as medias muestra!es se aproximará a la distribución normal. d} Ninguna de las aseveraciones anteriores es correcta.
332
Sección de repaso 3 7. ¿Cuál de las siguientes aseveraciones no es correcta acerca de la distribución t? a) Es positivamente sesgada. b) Es una distribución continua. e) Su media es O. d) Hay una familia de distribuciones t. 8. Conforme aumenta el número de grados de libertad de las distribuciones t: a) La distribución- se aproxima a la del tipo normal estándar.b) El nivel de confianza aumenta. e) Se convierte en una distribución continua; d} Se hace más plana. 9. Los grados de libertad son: a) El número de observaciones b) El número de observaciones menos el nl1mero de muestras. e) El número de muestras. d) El número de muestras menos uno.
1O. De una población norma! se toma una muestra de í 5 observaciones y se desea determinar un intervalo de confianza de 98% para la media. El valor de a) 2.947 b} 2.977 e) 2.624 d} Ninguno de los anteriores.
t apropiado es:
Parte I! Problemas i i. En un estudio reciente se encontró que las mujeres toman en promedio 8.6 semanas sin goce de sueldo después del nacimiento de su hijo. Supóngase que la distribución de estos valores sigue una distribución normal con desvíación estándar 2.0 semanas. Se toma una muestra de 35 mujeres que acaban de regresar a su trabajo después del nacimiento de un hijo. ¿Cuál es la probabilidad de que la media de esta muestra sea por lo menos 8.8 semanas? i2. El gerente de una fábrica de camisetas informa que el número medio de camisetas vendidas por semana es 1 21 O con desviación estándar 325. La distribución de las ventas sigue un patrón normal, ¿Cuál es !a probabilidad de tomar una muestra de 25 semanas y encontrar que la media muestra! es 1 í 00 o menos? i3. El dueño de un restaurante quiere determinar el número medio de clientes por día. En una muestra de 40 días, la media encontrada fue 160 clientes por día y la desviación estándar 20 por día. Determine un intervalo de confianza de 92% para el número medio de clientes por día. 14. El gerente de un restaurante que vende hamburguesas quiere determinar el tiempo promedio que espera un cliente en !a ventanilla de atención en su automóvil. En una muestra de 80 clientes el tiempo medio de espera fue 2.65 minutos y la desviación estándar 0.45 minutos. Determine un intervalo de confianza de 85% para el tiempo medio de espera. 15. El gerente de una empresa grande está revisando el uso de las máquinas copiadoras. En una muestra de seis fotocopiadoras, Ja cantidad de copias hechas ayer fue: 1
931
826
1126
918
1011
1101
1
Deter111ine un intervalo de confianza de 95% para la cantidad media de copias por máquina.
i 6. John Kleman es el conductor de un programa de radio. Duránte su programa pide a los radioescuchas que lo llamen para comentar !8.s noticias actuales, nacionales e internacionales. John estaba interesado en el número de horas, por día, que !os niños menores de 12 años ven TV. La cantidad de horas cjue los hijos de cinco de los radióescuchas vieron TV anoche son: 1
3.0
3.5
4.0
4.5
3.0
1
¿Sería razonable, a partir de éstos datos, determinar un intervalo de confianza para la cantidad media de horas que los niños ven TV? Si la respuesta es sí, determine un intervalo de confianza apropiado' e interprete el resultado. Si es no, ¿por qué no sería apropiado un lnterva!o de confianza?
Repaso de los capitulo 8 y 9
333
17. Históricamente, la compañía Widgets Manufacturing produce 250 engranes especiales por día. En tiempos recientes el propietario de la misma adquirió una máquina nueva que permite producir más piezas por día. Una muestra de i 6 días de producción generó una media de 240
unidades con desviación estándar 35. Construya un intervalo de confianza para el número medio de engranes que se producen diariamente. ¿Sería razonable concluir que ha aumentado !a producción media de engranes por día? Justifique su conclusión. 18. Los fabricantes de un-circuito integrado muy potente que-se utiliza en equipos de sonido de
costo elevado quiere estimar la vida L1tll de los circuitos integrados (en miles de horas). El error de estimación debe ser 0:1 O (100 horas). Considere un nivel de confianza de 95% y una desviación estándar en la vida útil del circuito 0.90 (900 horas). 19. El gerente de una tienda de artículos para el hogar desea estimar la cantidad media que los clientes gastan en !as compras que realizan en su establecimiento. El error de estimación debe ser $4.00, con un nivel de confianza de 95%. El gerente no sabe cuál es la desviación estándar de la cantidad gastada, sin embargo estima que tal cantidad está entre $5.00 y $155.00. ¿Cuál debe ser el tamaño de la muestra? 20. En una muestra de 200 resídentes de una región determinada, a 120 les pareció que la tasa de interés por inmuebles era demasiado elevada. Determine un intervalo de confianza de 95% para la proporción de residentes que consideran que la tasa de interés es demasiado elevada. ¿Sería razonable concluir que la mayoría piensa que !a tasa de interés es demasiado alta? 21. En los últimos tiempos, el porcentaje de personas que compran un automóvil nuevo por Internet ha aumentado lo suficiente como para interesar a los vendedores de autos por el impacto que esto tendrá en su negocio. Se necesita una estimación de !a.proporción de personas que compran un auto vía Internet.· ¿Cuál deberá ser el tamaño de la muestra para que !a estimación tenga un· error máximo de 2% y un nivel de confianza de 98%? En la actualidad se piensa que- alrededor de 8% de los automóviles se compran vía Internet 22. Históricamente la proporción de adultos fumadores mayores de 24 años ha sido 0.30. En los liltimos tiempos se ha publicado mucha información en todós los medios acerca de que fumar no es bueno para !a salud. En una muestra de 500 adultos, únicamente 25% de los encuestados fumaba. Determine un intervalo de 98% para la proporción de adultos que fuma actualmente. ¿Estaría usted de acuerdo en que la proporción es menor de 30%? 23. El auditor de Ohio necesita una estimación de la proporción de residentes que juega regularmente a la lotería local. De un modo histórico, cerca de 40% juega por !o genera! a la !atería local, pero al auditor le gustaría tener alguna información actual. ¿De qué tamaño deberá ser la muestra para que el error máximo. de estimación sea de 3 puntos porcentuales, y el nivel de confianza sea 98%?
Caso Century National Bank
cuenta de cheques ha sido $1 600. ¿Indican los datos de la muestra que el saldo medio ha disminuido? Consulte la descripción del Century National Bank al final En los últimos años también ha aumentado el uso de los de! repaso de los capítulos 1 a 4. Hace algunos años, cuando el señor Selig se hizo cargo de la presidencia del banco, · cajeros autbmáticos. Cuando e! señor Selig asumió la presidencia del banco, la cantidad media de transacciones menel uso de. las tarjetas de débito apenas empezaba. Le gussuales por cliente era 8; él cree que ahOra ha aumentado a taría tener información actualizada sobre el uso de estas tarmás de 1O. A la empresa de publicidad que elabora los. coje_tas>Détermine uh- int.ervalo de confianza de 95% para la merciales de TV para el banco le gustaría utilizar esta inforproporción de clientes que usa tarjetas de débito. Basándomación en el nuevo comercial que está elaborando. ¿Hay se· en el intervalo de confianza,_ ¿'és razonable concluir que más de ía mitad de los clientes usa una tarjeta de débito? Insuficientes evidencias para concluir que el nl1mero medio d.e terprete los resultados. .transacciones mensuales por cliente es superior a '1 O? ¿Podría la empresa de publicidad decir que el nl1mero de tranCon muchas otras opciones disponibles, !os clientes no sacciones por 111es es mayor que 9? permiten que su dinero permanezca "inmóvil" en una cuenta de cheques. Durante muchos años el saldo medio en una
Pruebas de hipótesis para una muestra
335
Introducción En el capítulo 8 empezó el estudio de la inferencia estadística. Se describió cómo se puede tomar una muestra aleatoria y, a partir de esta muestra, estimar el valor de un parámetro poblacional. Por ejemplo, se tomó una muestra aleatoria de 5 empleados en Spence Sprockets, se determinó el número de años de servicio a !a compañía ele cada uno de ellos, se calculó la media de esta cantidad y se usó la media muestral para estimar la media de la cantidad de años de trabajo de todos los empleados de la compañía. En otras palabras, se estimó un parámetro poblacional a partir de un estadístico muestra!. En el capítulo 9 se continuó el estudio de la inferencia estadística con la determinación de intervalos de confianza. Un intervalo de confianza es una variedad de valores en la que se espera se encuentre el parámetro poblacional. En este capítulo, en lugar de determinar un intervalo de valores en el que se espera que se encuentre el parámetro poblacional, se desarrolla un procedimiento para probar la validez de una aseveración acerca de un parámetro poblacional. Ejemplos de estas aseveraciones cuya validez se desea probar son: ' ' •
La velocidad media de los automóviles al pasar por la milla 150 de la carretera West Virginia Tumpike es 68 millas por hora. La cantidad media de millas recorridas por las personas que rentan un Chevy Blazer, por 3 años, es 32 000 millas. El tiempo medio en el que una familia típica vive en su casa (en EUA) es 11.8 años. • El sueldo inicial medio de los egresados de un estudio de administración de cuatro años es $2 200 dólares mensuales. ' Treinta y cinco por ciento de los retirados, en no más de un año después de retirarse, vende su casa y se muda a un clima cálido. 0 El 80% de los que juegan regularmente a la lotería estatal nunca ganan más de $100 en un juego.
Este capítulo y varios de los siguientes se ocupan de las pruebas de hipótesis estadísticas. Se empieza por definir lo que significa una hipótesis estadística y una prueba de hipótesis estadística. A continuación se describen los pasos para realizar una prueba de hipótesis estadística. Después se realizan pruebas de hipótesis para medias y proporciones. En la última sección del capítulo se describen posibles errores en las pruebas de hipótesis, debidos a! muestreo.
Una hipótesis es una afirmación acerca de un parámetro poblacional.
¿Qué es una hipótesis? Una hipótesis es una aseveración acerca de una población. Para verificar si la afirmación es razonable se usan datos. Para empezar es necesario definir la palabra hipótesis. En el sistema legal de Estados Unidos una persona es inocente hasta que se demuestre que es culpable. Un jurado sostiene la hipótesis de que la persona acusada de un crimen es inocente y somete esta hipótesis a verificación revisando las evidencias y escuchando los testimonios antes de llegar a un veredicto. En un sentido similar, un paciente acude a su médico y le informa de varios síntomas. Basándose en éstos, el médico ordenará ciertos análisis, después, con base en los síntomas y en los resultados de los análisis, determinará el tratamiento a seguir. En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen pruebas para verificar la aseveración o para determinar que no es verdadera. Una prueba de hipótesis se define como sigue.
336
Capítulo
rn
Hip&tesis
Enunciado acerca de una población elaborado con el propósito de poner
1
~..J
a pru~ba.
En la mayor parte de los casos !a población es tan grande que por diversas razones no sería factible estudiar todos los elementos, objetos o personas en la población. Por ejemplo, sería prácticamente imposible entrevistar a todos los analiStas de sistemas en Estados Unidos, para averiguar su ingreso mensual. De igual 111odo, un departarnento de aseguramiento de calidad no puede verificar la resistencia a la ruptura de cada ampolleta producida, para determinar si está entre 5 y 20 psi (libras por pulgada cuadrada). Como se observó en eí capítulo 8, una alternativa de medir o entrevistar a la población es tornar una muestra de la población de interés. Por tanto, se puede probar una afirmación para determinar si la evidencia en1pírica de la muestra fundarnenta o no la afirn1ac1ón relativa a la población.
¿Qué es una prueba de hipótesis? Las expresiones prueba de l?ipótesis y probar una hipótesis se usan indistintan1ente. La prueba de hipótesis comienza con una afirmación, o suposición, acerca de un parámetro pobiacional, como la media poblacional. Corno se ha dicho, a esta afirmación se le denomina hipótesis. Una hipótesis podría ser que la comisión mensual media de vendedores de computadoras es $2 000 dólares. Noes posible entrevistar a todos los agentes para determinar si la media es en realidad $2 000. El costo de localizar e interrogar a cada vendedor de computadoras en Estados Unidos, sería exorbitant.e. Para probar la validez de la afirmación (p. = $2 000), debe seleccionarse una muestra de la población formada por todos los vendedores de computadoras, calcular valores estadísticos muestrales y, con base en determinadas reglas de decisión, aceptar o rechazar la hipótesis. Una media mues.tral de $1 000 para los vendedores de computadoras, claramente provocaría el rechazo de la hipótesis. Sin embargo, supóngase que la media rnuestral es $1 995. ¿Se aproxima, este valor, lo suficiente a $2 000 para aceptar la suposición que la media poblacional sea $2 000? ¿Puede atribuirse la diferencia de $5 entre las dos medias a error de muestreo, o es estadísticamente significativa?
Procedimiento de cinco pas_os para probar una hipótesis Un procedimiento siste-
mático.
Existe un procedimiento de cinco pasos que sistematiza la prueba de hipótesis; al llegar al paso 5, ya se puede rechazar o no la hipótesis. Sin embargo, una prueba de hipótesis seg(1n la usan los estadísticos, no proporciona evidencia de que algo sea verdadero, en la rnisrna forma que un matemático "prueba" una afirmación. Una prueba de hipótesis aporta una cla-
rl, o se rechaza /-/0 y se
aceptaH 1
337 se de "prueba más allá de una duda razonable", en forma similar a un proceso judicial. Por tanto, hay reglas específ!cas de evidencia, o procedimientos, que se siguen. Los pasos se muestran en el siguiente diagrama. Se analizará cada paso en detalle.
Paso l: Plantear la hipótesis nula (H0) y la hipótesis alternativa (H1) El primer paso es plantear !a hipótesis que ha de ser probada. A esta hipótesis se le denomina hipótesis nula, se designa mediante H0 , y se lee "H subíndice cero". La letra H significa hipótesis y el subíndice cero indica "no hay diferencia". Por !o general hay un <
pótesis nula es una afirmación que no se rechaza a menos que los datos muestrales proporcionen evidencia convincente de que es falsa.
Plantee la hipótesis nula
y la hipótesis alternativa.
Hay que subrayar que si la hipótesis nula no se rechaza con base en los datos muestrales, no es posible afirmar que sea verdadera. En otras palabras, el no poder rechazar la hipótesis nula no prueba que H0 sea verdadera, más bien significa que no se pudo rechazar H 0. Para probar sin duda alguna que la hipótesis nula es verdadera, tendría que conocerse el parámetro poblacional. A fin de determinarlo verdaderamente, se tendría que probar, revisar o contar cada elemento de la población. Por lo general, esto no es posible. La alternativa es tomar una muestra de la población. También hay que obser'Jar que, con frecuencia, la hipótesis nula principia afirmando que: "No hay una diferencia significativa entre ... ", o "La resistencia media al impacto, del vidrio, no es significativamente diferente ele ... ". Cuando se selecciona una muestra de una población, el valor estadístico muestra! por lo general es nu.méricamente distinto del parámetro poblacional hipotético. Como ejemplo, supóngase que la resistencia hipotética ai impacto ele una placa de vidrio es 70 psi (libras por pulgada cuadrada), y la resistencia media al impacto ele una muestra de 12 placas de vidrio es 69.5 psi. Hay que decidir si la diferencia de 0.5 psi es una diferencia verdadera, es decir, una diferencia significativa, o la diferencia entre el estadístico muestra! (69.5) y el parámetro poblacional hipotético (70.0) se debe al azar (muestreo). Como se observó, para contestar a esta pregunta se realiza una prueba de significancia, comúnmente. denominada prueba ele hipótesis. Para determinar lo que se quiere dar a entender mediante una hipótesis nula es:
·Hípótesisnnla
Una•afirmaciónacerca del valor de un parámetro poblacional.
J
La hipótesis alternativa describe lo que se concluirá si se rechaza la hipótesis nula. Se designa por H 1 y se lee "/-i subíndice uno". Se le conoce también como la hipótesis de investigación. La hipótesis alternativa se acepta si los datos muestrales proporcionan suficientes evidencias estadísticas de que la hipótesis nula es falsa.
HipÓtesis ~lternativa.
Una ·"firmaciónque.se acepta silos datos muestrales. propor....· cíonan "videncia suficiente ele que.la Mipótesis•nylaes.falsa. El siguiente ejemplo ayudará a entender el significado de las hipótesis nula y alternativa. Un artículo reciente indicó que la edad media de las aeronaves comerciales en Estados Unidos es i 5 años. Para realizar una prueba estadística respecto a esta afirmación, el prin1er paso es determinar la hipótesis nula y ia hipótesis alternativa. La hipótesis nula representa la condición actual o reportada. Se escribe H0 : IL ~ 15. La hipótesis alternativa es que la afirmación no es verdadera, esto es H 1: µ 15. Es importante recordar que sin importar cómo se haya planteado el problema, la hipótesis nula siempre incluirá el signo "igual". El signo "igual" (=)nunca aparecerá en la hipótesis alternativa. ¿Por qué? Porque la hipótesis nula es la afir-
*
338 mación a probar, y al realizar los cálculos se requiere de un valor específico. Se recurre a la hipótesis alternativa sólo si se prueba que la hipótesis nula es falsa.
Paso 2: Seleccionar el Seleccionar un nivel ele significancia o riesgo.-
de significancia
Después de establecer la hipótesis nula y la hipótesis alternativa, el siguiente paso es deter· minar el nivel-de significancia.
Nivelde signiíl.c:mcia
Probabilidad de rechazar la hipótesis nula cuando es verda~
dera. El nivel de significancia se denota mediante a, la ietra griega alfa. Algunas veces también se denomina nivel de riesgo. Este último es un término más adecuado, ya que es e! riesgo que se corre ele rechazar la hipótesis nula cuando, en realidad, es verdadera. No hay un nivel de significancia que se aplique a todas las pruebas. Se usa el nivel 0.05 (que con frecuencia se enuncia como nivel de 5%), el nivel 0.01, el 0.1 O o cualquier otro nivel entre O y 1. Tradicionalmente se selecciona el nivel 0.05 para proyectos de investigación sobre consumo, el nivel 0.01 para el aseguramiento de calidad, y el 0.10 para encuestas políticas. El investigador debe decidir qué nivel de significancia usar antes de formular una regla de decisión y recopilar los datos muestrales. A fin de ilustrar cómo se puede rechazar una hipótesis verdadera, supóngase que una compañía que fabri· ca computadoras personales utiliza un gran número de tarjetas de circuito impreso. Los proveedores ofrecen sus tarjetas, y al que presenta la oferta de menor precio, se le concede un contrato con un volumen de venta considerable. En tal contrato se especifica que el departamento de aseguramiento de calidad del fabricante de computado· ras someterá a un 1Tiuestreo todos los envíos de tarjetas de circuito in1preso que se reciban. Si más de 6% de las tarjetas muestreadas están debajo de un valor estándar, se rechazará el envío. La hipótesis nula es que la remesa de tarjetas que se recibe contiene 6% o menos productos que no cumplen con el estándar. La hipótesis alternativa es que más de 6% de las tarjetas de circuito impreso están defectuosas. Una 1Tiuestra de 50 tarjetas de circuito impreso que se recibieron, reveló que 4 de éstas -es decir 8%- estaban fuera de especificaciones. El embarque se rechazó porque excedía el máximo de 6% de tarjetas abajo del estándar. Si la remesa era en realidad fuera de especificaciones, entonces la decisión de devolver las tarjetas al proveedor fue adecuada. Sin embargo, supóngase que las 4 tarjetas fuera de especificaciones que se encontraron en la muestra de 50, eran las únicas que estaban abajo del estándar, en el envío de 4 000 tarjetas. Entonces sólo 1/1 O de 1% eran defectuosas (4/4 000 = 0.001). En este caso, menos de 6% de todo el envío estaba abajo del estándar y fue un error rechazar la remesa. En términos de una prueba de hipótesis, se rechazó la hipótesis nuia de que el envío no estaba abajo del estándar, cuando debió haberse aceptado. Al rechazar una hipótesis nula verdadera, se cometió un error de tipo l. La probabilidad de cometer un error de tipo 1 es a.
Error de tipo J:
Rechazar la hipótesis nula,, H0, cuando,esverdadera.
339 La probabilidad de cometer otra clase ele error, denominado error ele tipo il, se denota con la letra griega beta (p).
Error de tipo H
Acertar la hipótesis nula cuando es falsa:
El fabricante de computadoras personales cometería un error de tipo 11 si, ciado un envío de circuitos impresos en el que hubiera 15% ele tarjetas abajo clel estándar, se acepta el envío. ¿Cómo podría suceder esto? Supóngase que 2 ele las 50 tarjetas de la muestra (4%) estuvieron abajo del estándar, y que 48 de las 50 tarjetas de circuito impreso fueron aceptables. De acuerdo con el proceciimiento establecido, como la muestra contenía n1e11os de 6% de tarjetas abajo del estándar, se aceptó el envío. ¡Podría ser que debido al azar, las 48 tarjetas en buen estado que se seleccionaron en la muestra fueran !as únicas aceptables en la remesa completa, integrada por miles ele tarjetas! Visto en retrospectiva, el investigador no puede estudiar cada elemento o individuo ele la población. Por tanto, existe la posibiliclacl ele incurrir en clos tipos de error, un error ele tipo 1 en el que se rechaza la hipótesis nula cuando debería haber sido aceptada, y un error de tipo 11, en el que se acepta 'a hipótesis nula cuando debería haberse rechazado. La probabilidad de cometer estos clos errores se denominan alfa, u., y beta, ¡l. Alfa es la posibilidad de cometer un error de tipo 1, y beta(~) es la probabilidad de cometer un error de tipo 11. En la siguiente tabla se resumen las decisíones que puede tomar el investigador y las consecuencias posibles. investigador
Hipótesis nula
Se acepta
H,
H0 es falsa
:Paso 3: CaXct1lar
valor estadístico c1e ·prtJeba
Existen muchos estadísticos de prueba. En este capítulo se utilizan z y t como los estadísticos de prueba. En otros capítulos se emplearán los estadísticos de prueba F y 2 (este últi-· mo se denomina "Ji cuadrada", pues su símbolo base es la letra griega ji).
x
-:
--
"
'
··-
. Esta.dístico de pfueba Valordetermírtadoaparti1·de la información muestra!, que se !'- · utiliza pará .determinar si se rechaza la .hipótesís.·nula, · En las pruebas de hipótesis para la media (p.,), cuando se conoce a·, o cuando el tamaño de !a muestra es grande, el valor estadístico de prueba z se determina a partir de:
340
Gapí!ulo 10 El valor z se basa en la distribución muestral de X, que se distribuye de manera normal cuando la muestra es 1·azonable1nente grande con una media (µ. x) igual a µ,, y una desviación e~tánclar s x, que es igual a cr!Vn. De esta manera se puede determinar si la diferencia entre X y µ, es estadísticarnente significativa, encontrando el número de desviaciones estándar a las que se encuentra X de l' aplicando la fórmula i 0.1.
Paso 4: Fonnular la regla de decisión La regla de decisión esta· blece las condiciones
cuando se rechaza
f-10•
Una regla de decisión establece las condiciones especificas en las que se rechaza la hipóte· sis nula y las condíciones en las que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la proba· bilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota. En el diagrama ·1 O.'I se muestra la región de rechazo para una prueba de significancia que se realizará más adelante en este capítulo.
O
- - < - - - - - - - 0.95 probabilidad
+
1.65
Escala de z 0.05 probabilidad
Valor crítico
DlAGRAfillA i0.1
Distribución inuestral de1 valor estadístico z, prueba ele una cola a la derecha, nivel de significancia 0.05.
Obsérvese en el diagrama que: 1. La región en la que la hipótesis nula no se rechaza se encuentra a la izquierda de 1.65. Más adelante se explicará cómo llegar al valor de 1.65. 2. El área de rechazo está a la derecha de 1.65. 3. Se está realizando una prueba de una cola. (Esto también se explicará más adelante.) 4. Se eligió el nivel de significancia 0.05. 5. La distribución muestra! del valor estadístico z es una distribución normal. 6. El valor 1.65 separa las regiones de rechazo y de aceptación de ia hipótesis nula. 7. El valor 1.65 se denomina valor critico.
·.Valor crítitóPuntc! dedi\Jíiióo entté'iaregioheif 1ii qué'séreCllaza. ia hipótesis nula y la región en la que no se rechaza la hipótesis nula.
341
Paso 5: Tomar una decisión
La e§t'1dística en acción
El quinto y último paso en una prueba de hipótesis es calcular el estadístico de prueba, compararlo con el valor critico, y tomar la decisión de rechazar o no la hipótesis nula, Respecto al diagrama 1O. i si, con base en !a información muestra!, ei valor que se obtiene para z es 2,34, la hipótesis nula se rechaza en el nivel de significancia 0,05, Se tomó la decisión de rechazar H0 debido a que 2,34 se encuentra en la región de rechazo, es decir, más allá de 1,65, Se rechaza la hipótesis nula según el razonamiento de que resulta poco probable obtener un valor z tan grande como este, debido a la variación muestra! (a la casualidad), Si el valor calculado hubiera sido igual o menor que 'l ,65, por ejemplo 0,71, la hipótesis nula no se habría rechazado, Se pensaría que obtener un valor así de pequeño podría ser atribuido al azar, es decir, a la variación n1uestral. Como se observó, en una prueba de hipótesis sólo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula, En lugar de "aceptar" tal hipótesis, H 0 , algunos investigadores prefieren enunciar la decisión como: "No se rechaza H0", "No se puede rechazar H0", o "Los resultados muestrales no permiten rechazar 1-/0 ", Debe subrayarse de nuevo que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error de tipo I), También, hay una posibilidad definible de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo 11), Antes de realizar una prueba de hipótesis, hay que diferenciar entre una prueba de significancia de una cola y una prueba de significancia de dos co!as.
Pruebas de significancia de una y ~!e dos colas
dC- a'ná!isis para col!c.1\~
lar el hún1eió'.cle h1ITques iraqüíéS destruidos durante la operación niilitar Tormenta-. del Desierto.
La prueba es de una cola si H1 expresa que µ, >, o bien,µ<
Considere el diagrama 1O,1, que representa una prueba de una cola, La región de rechazo está sólo en la cola derecha (superior) de la curva, Para ilustrar esto, supóngase que al jefe del departamento de empaque de una empresa de cereales, le preocupa que algunas cajas de cereal tienen un sobrepeso significativo, El cereal se guarda en cajas de 453 gramos, de modo que la hipótesis nula es H0 : µ "°' 453, Esto se lee: "la media poblacional (µ) es menor o igual a 453", Por consiguiente, la hipótesis alternativa es H1: µ > 453, Esto se lee: "µes mayor que 453", Obsérvese que el signo de desigualdad, en la hipótesis alternativa(>) apunta a la región ele rechazo en la cola superior, 0Jer el diagrama 1O,1.) Asimismo, también se observa que la hipótesis nula incluye el signo de iguaL Esto es, H0 : µ "°' 453, La condición de igualdad siempre aparece en H 0 , nunca en H 1• El diagrama i 0.2 presenta una situación donde la región de rechazo está en la cola izquierda (inferior) de la distribución normaL Como ilustración, considere el problema de los fabricantes de automóviles, de grandes compañías arrendadoras de autos y de otras organizaciones que compran grandes cantidades de llantas, Ellos quieren que las llantas resistan en promedio, digamos 60 000 millas (mi) de uso, en condiciones normales, Por tanto, rechazarán un envío si las pruebas indican que !a duración de las llantas es significativamente menor que 60 000 mi, en promedio, ¡Con gusto aceptarán un envío en el que la vida promedio de las llantas sea mayor que 60 000 mi! A ellos no les preocupa esta posibilidad, Se preocupan sólo si encuentran evidencias muestrales para concluir que las llantas tendrán una vida útil menor que 60 000 mi. Por tanto, la prueba se realiza para satisfacer la preocupación de los fabricantes ele automóviles de que la vida media de las llantas sea menor que 60 000 mi, Las hipótesis nula y alternativa en este caso se escriben como 1-10 : µ"' 60 000 y 1-11 : I'" <
60 000, Una manera de determinar la ubicación de la reglón de rechazo es 111irar hacia donde apunta el signo de desigualdad en la hipótesis alternativa(< o>), En este problema apunta hacia la izquierda, y la región de rechazo está, por tanto, en la cola izquierda,
342
Gapilulo 10
o
-1.65
Escala dez
Valor crítico
Dlti.GR:Afü'lA 1ü.2
Si H1 establece una dirección, la prueba es de una cola.
Distribución 1nuestral del valor estadístico z, prueba de la cola izquierda, nivel de significancia 0.05.
En resumen, una prueba es de una cola cuando la hipótesis alternativa, H 1 indica una dirección, como por ejemplo en: H 0 : El ingreso medio de las mujeres corredoras de bolsa es $65 000 dólares por año. H 1: El ingreso medio de las mujeres corredoras de bolsa es superior a $65 000 dólares por año.
Si no se especifica dirección en la hipótesis alternativa, se acusa una prueba de dos colas. Modificando el problema anterior para ilustrar esto: H 0 : El ingreso medio de las mujeres corredoras de bolsa es $65 000 dólares por año. H 1: El ingreso medio de las mujeres corredoras de bolsa no es igual a $65 000 dólares por año. Si se rechaza la hipótesis nula y se acepta H 1, en el caso de dos colas, el ingreso medio podría ser significativamente mayor que $65 000 anuales o significativamente menor que $65 000 anuales. Para tomar en cuenta estas dos posibilidades, 5% del área de rechazo se divide en partes iguales en las dos colas de la distribución muestra! (2.5% en cada cola). El diagrama 10.3 muestra las dos áreas y los valores críticos. Observe que toda el área en la distribución normal es 1.0000 que es igual a 0.9500 + 0.0250 + 0.0250.
-1.96 Valor críticc
DitiGRA~.~A
10.3
o
1,96
Escala dez
Valor crítico
Regiones de aceptación y de rechazo para una prueba de dos colas; nivel de significancía 0.05.
Pruebas de hipótesis para
""ª mueslrn
343
Pn1eba para una media poblacional, con una desviación estándar poblacional conocida ~
~
Prueba de dos eolas Mediante un ejemplo se mostrarán los detalles del procedimiento de cinco pasos para la prueba de hipótesis. Se desea usar una prueba de dos colas. Esto es, no nos interesa si los resultados muestrales son mayores o menores que la media poblacional propuesta. Únicamente nos interesa si son diferentes del valor propuesto para la media poblacional. Partimos, como en el capítulo anterior, de una situación en la que se cuenta con información histórica acerca de la población y se conoce su desviación estándar.
EJEMPLO
La empresa Jamestown Steel Company fabrica y ensambla escritorios y otros muebles para oficina, en diversas plantas del oeste de Nueva York. La producción semanal del escritorio Modelo A325 en la planta Fredonia, se distribuye normalmente, con una media de 200 y una desviación estándar de 16. En tiempos recientes, debido a la expansión del mercado, se han introducido nuevos métodos de producción, y contratado más empleados. El vicepresidente de la compañía quis'1era saber si ha habido alguna variación en la producción semanal. Planteado de otra forma, ¿el número medio de escritorios producidos en la Planta mencionada es diferente de 200? Utilice el nivel de significancia 0.01.
SOLUCIÓN
Se utiliza el procedimiento estadístico de prueba de hipótesis para investigar si la tasa de producción ha cambiado respecto del valor de 200 por semana. Paso 1: La hipótesis nula es "La media poblacional es 200". La hipótesis alternativa es "La media es diferente de 200" o "La media no es 200". Las dos hipótesis se expresan como sigue:
/-lo: µ = 200 H1 : µ 'é 200
Paso 2:
Paso 3:
Fórmula para el estadístico de prueba.
Esta es una prueba de dos colas debido a que la hipótesis alternativa no establece una dirección. En otras palabras, no estabelce si la producción media es mayor o menor que 200. El vicepresidente sólo desea averiguar si la tasa de producción es diíerente de 200. Como se observó, se utilizará el nivel de significancia 0.01. Esto es o:, la probabilidad de cometer un error de tipo 1, y es la probabilidad de rechazar una hipótesis verdadera. El estadístico de prueba para una media es z, el cual se estudió ampliamente en el capítulo 7. La transformación de los datos de producción a unidades estándar (valores z) permite su uso no sólo en este problema, sino también en otros problemas de prueba de hipótesis. La fórmula 10.1 para z se repite a continuación, identificando las diversas literales.
344
Capíiulo rn Paso 4:
La regla ele decisión se forn1u!a hallando el valor crítico de z en e! apéndice D. Puesto que ésta es una prueba de dos colas, la mitad de 0.01, es decir 0.005, está en cada cola. El área en la que no se rechaza ~/ 0 , localizada entre las dos colas, es por consiguiente, 0.99. El apéndice D se basa en sólo la mitad del área bajo la curva, o sea 0.5000. Luego, 0.5000 - 0.005 es 0.4950, y así este valor de 0.4950 es el área entre O y el valor crítico. Localícese 0.4950 en la tabla. El valor más cercano a 0.4950 es 0.4951. Luego se lee el valor crítico en la fila y la columna correspondientes a 0.4951. Este valor es 2.58. Todos los aspectos de este problema se muestran en el diagrama 10.4.
0.005
-2.58 -t---
O
2.58
Escala dez
Región ~f.--~~~ No se rechaza f-fo --'--~,~~ Región._. ~ de rechazo de rechazo 1
Valor crítico llJ~?\.GiitJ;1¡\fU1o
"Hl4
Valor crítico
Regla de decisión para el nivel de significancia 0.01.
Por consiguiente, !a regla de decisión es: rechazar la hipótesis nula y aceptar la hipótesis alternativa (que establece que la media poblacional no es 200), si el valer z calculado no queda en la región entre -2.58 y 2.58. En caso contrario, 110 se rechaza la hipótesis nula si z queda entre -2.58 y
2.58. Paso 6:
Se toma una muestra de la población (producción semanal); se calcula z y con base en la regla de decisión, se toma la decisión de rechazar o no H0 . El número medio de escritorios producidos en el último año (50 semanas, porque la plarta estuvo cerrada dos semanas por vacaciones), es 203.5. La desviación estándar de la población es ·15 escritorios por semana. Calculando el valor z con la fórmula 10.1, se obtiene:
z
=
X - 1" = 203.5 - 200 oI\(ñ 16lv50
=
1 .55
Puesto que 1.55 no cae en la región de rechazo, no se rechaza H 0 • De modo que se concluye que la media de la población no es distinta de 200. Así que se informa al vicepresidente que la evidencia muestral no refleja que la tasa de producción en la Planta Freclonia haya cambiado de 200 por se-
Pruebas de hipótesis para una muestra
345
mana. La diferencia de 3.5 unidades entre la tasa de producción semanal histórica, y la del año anterior, puede atribuirse razonablemente al azar. Esta información se resume en el siguiente diagrama.
NCfse recha'zá'H0
-2.58
o
1 .55 2.58
Escala z
¿Se probó acaso que la tasa de fabricación sigue siendo 200 por semana? En realidad no. Lo que se hizo, técnicamente, fue no poder rechazar la hipótesis nula. No poder rechazar la hipótesis de que la media poblacional es 200, no es lo mismo que probar que es verdadera. Como se indicó en la introducción del capítulo, la conclusión es análoga a un proceso judicial. Veamos la explicación: una persona es acusada de cometer un delito, pero es absuelta por un jurado. Si fue exonerada, la conclusión es que no había suficiente evidencia para probar su culpabilidad. El juicio no demostró que el acusado fuera inocente, sólo demostró que no hubo la evidencia suficiente para confirmar su culpabilidad. Eso es lo que se hace en la prueba de hipótesis estadística cuando no se rechaza la hipótesis nula. La interpretación correcta es que no se pudo rechazar la hipótesis nula. Se escogió el nivel de significancia, 0.01 en este caso, antes d.e establecer la regla de decisión y de tomar la muestra de la población. Esta es la estrategia adecuada. El investigador debe establecer el nivel de significancia, pero tiene que determinarlo antes ele recopilar la evidencia muestra!, y no debe modificarlo basándose en las evidencias muestrales. ¿Cómo se compara el procedimiento ele prueba de hipótesis, que acabamos de describir, con el procedimiento de intervalos de confianza analizado en el capítulo anterior? Cuando se realizó la prueba de hipótesis para la producción de escritorios, se transformaron las unidades de escritorios por semana, en un valor z. Después se comparó el estadístico de prueba calculado (1.55), con los valores críticos (-2.58 y 2.58). Ya que el valor calculado estaba en la región en la que no se rechazaba la hipótesis nula, se concluye que la media poblacional podría ser 200. Por otro lado, para utilizar el método del intervalo de confianza, se determinaría un intervalo ele confianza emplenclo la fórmula 9.1. Este intervalo iría de 197.66 a 209.34, que se obtiene de: 203.5 ± 2.58(16/V50). Obsérvese que el valor poblacional propuesto, 200, se encuentra dentro de ese intervalo. Por tanto, se concluye que es razonable que la media poblacional sea 200. En general, H 0 se rechaza si el intervalo de confianza no contiene el valor hipotético. Si lo incluye, entonces no se rechaza H 0 • Por tanto, la "región ele no rechazo" de una prueba de hipótesis es equivalente al valor propuesto de la población que ocurre en el intervalo de confianza. La principal diferencia está en si el intervalo se halla centrado alrededor del valor estadístico muestra!, por ejemplo X, o alrededor de O, como en la prueba de hipótesis.
346
r
Au!oexamen lll.1
Capítulo 10
La tasa anua! media de renovación de frascos de aspirina con 200 pastillas es 6.0, con una desviación estándar 0.50. (Esto indica que las existencias de! medicamento, en un establecimiento, tienen que renovarse en promedio 6 veces al año.) Se sospecha que este promedio de ventas ha cambiado y ya no. es 6.0. Use el nivel de significancia 0.05 para probar esta hipótesis. a) Plantee las hipótesis nula y alternativa. b) · · [Cüál es la pYól:íabilidaddécdmeterün errordetipol? e) Proporcione la fórmula para el estadístico de prueba. cf¡ Enuncie.la regla de decisión. e) Una muestra aleatoria de 64 frascos de 200 aspirinas, indicó una media de 5.84. ¿Debe re-
chazarse !a hipótesis de que !a medía pob!acional es 6.0? Interprete el resultado.
Prueba de una cola En el ejemplo anterior se subrayó que solamente se deseaba informar al vicepresidente de la empresa, si había habido un cambio en el número medio de escritorios ensamblados en la Planta Fredonia. No interesaba si el cambio era un aumento o una disminución en !a producción. Para ilustrar una prueba de una cola se modificará el problema. Supóngase que el vicepresidente desea saber si ha habido un aumento en el número de unidades ensambladas. Dicho de otra manera, ¿se puede concluir, gracias a las mejoras en los métodos de producción, que el número medio de escritorios armados en las últimas 50 semanas fue rnayor que 200? Obsérvese la diferencia en la forrna en que se formuló el problema. En el primer caso se deseaba saber si había alguna diferencia en el número medio ensamblado, pero ahora se quiere saber si ha habido un aumento. Como se están investigando cuestiones diferentes, habrá que establecer las hipótesis de manera distinta. La principal diferencia sucede en la hipótesis alternativa. Antes, se estableció la hipótesis nula como "diferente de", y ahora se desea establecerla corno "rnayor que". En símbolos: Una prueba de dos colas H0 : µ = 200
H1: f1
* 200
Una prueba de una cola H0 : µ ~ 200 H1: µ>200
Los valores críticos para una prueba de una cola son diferentes de los de una prueba de dos colas, empleando un mismo nivel de significancia. En el ejemplo anterior se dividió el nivel de significancia en dos mitades, y se colocó una en la cola inferior, y la otra en la cola superior. En una prueba de.una.cola se coloca toda la región de rechazo en una sola cola. Véase el diagrama 10.5.
Valor crítico
DIAGRAMA "i0,5
crítico
Valor crítico
llegiones ele rechazo para pruebas de dos colas y de una cola, a.= 0.01.
347 En la prueba de una cola, el valor crítico es 2.33, obtenido de: (1) restar 0.01 de 0.5000, y (2) encontrar el valor z correspondiente a 0.4900.
Valor p en las pn1ebas de hipótesi~ Al probar una hipótesis se compara el estadístico de prueba con un valor crítico. Se toma una decisión ya sea para rechazar la hipótesis nula o para aceptarla. Así, por ejemplo, si el valor crítico es 1.96 y el estadístico de prueba calculado es 2.19, se decidirá rechazar la hipótesis nula. En años recientes, debido a la disponibilidad de los programas de cómputo (software), se
proporciona con frecuencia información adicional relativa a la fuerza del rechazo o de la aceptación. Es decir, ¿cuánta seguridad se tiene al rechazar la hipótesis nula? Este método proporciona la probabilidad (suponiendo que la hipótesis nula sea verdadera) de obtener un valor estadístico de prueba tan extremo, por lo menos, como el obtenido. Este procedimiento compara la probabilidad, llamada valor p, con el nivel de sígnifícancia. Sí el valor p es menor que el nivel de significancia, se rechaza Ha. Si este valor es mayor que el nivel de significancia, no se rechaza H0 .
~~'.~i~;e1~~io~~~~~~d~,~~~~%~:i~~~p¿~~~s~~j:t¡~1~:~d~~~~:.o, La estadística en acción
~ 2
prácticameútc signifi-
cativos,
I
Determinar el valor p no sólo da como resultado tomar una decisión respecto a Ha, sino que proporciona un conocimiento adicional acerca del fundamento de la decisión. Un valor p muy pequeño, tal como 0.0001, indica que hay poca probabilidad de que Ha sea verdadera. Por otro lado, un valor p de 0.2033 indicará que Ha no se rechaza y que hay poca probabilidad de que sea falsa. ¿Cómo se calcula el valor p? Para explicarlo se utilizará el ejemplo en el que se probó la hipótesis nula de que el número medio de escritorios producidos por semana en la planta de Fredonia, era 200. No se rechazó la hipótesis nula debido a que el valor z de 1.55 caía en la región entre -2.58 y 2.58. Se acordó no rechazar tal hipótesis sí el valor z calculado caía en esa región. La probabilidad ele obtener un valor z de 1.55 o mayor, es 0.0606, que se obtiene de 0.5000 - 0.4394. Esto es, la probabilidad ele obtener una X mayor que 203.5, sí µ = 200, es 0.0606. Para calcular el valor p, se necesita considerar la región de los valores menores que -1.55, así como la región de los valores mayores que 1.55 (debido a que la región de rechazo se encuentra en ambas colas). El valor pes 0.1212, obtenido de 2(0.0606). El valor p = 0.12-12 es mayor que el nivel de signifícancía 0.01 escogido inicialmente, así que Ha no se rechaza. Los detalles se n1uestran en el diagrama siguiente.
Región de rechazo
ge1;ir e1 nti~vo prdcluCfo sC'ríaü cStadística1ú'erltl°' ~ significativos,·no así
o más extre- ··.·.
= 0.01 = o.0051~ 2 -2.58 -í .55
¡ o
1 .55
l=!egión de rechazo 1 2~ = 2 =o .005
º·º
2.58 Escala ele z
Un valor p es una manera de e"presar la probabilidad de que ~/a no sea verdadera. Pero, ¿cómo se puede interpretar tal valor? Ya se estableció que si pes menor que el nivel de significancia, se rechaza f-/ 0 ; si es mayor que dicho nivel, no se rechaza /-/ 0 . Además, si el valor
348
Capítulo 10
p es muy grande, es probable que Ha sea verdadera. Si el valor p es pequeño, entonces es probable que la Ha no sea verdadera. El siguiente cuadro ayudará a interpretar los valores p.
le
lnterpretapióndélp"!s() fi.e ,eVifieri<;\¡¡ (;<)1'1~'? H0 . ··. < Si el \l~lorp es m~norque .. • • ••• , .•.•. ·•.....•...•.•...•. ·.. ·····•a)· 0 ..10,selienealgunaeviderrciade queH¡jno.esverdaderá.··· ó) .0:05/se tien"! una fuerteevic:!encia9e queH{}no ·esverdadera. c) ···O.Di, se tiene una muytµerte evidencladeqqeH0 noe~ v,erdaciera. cf) 0.001, se.tiene una evidencia extremadamente fuerte de.que H0no esverd.adera.
Pruebas para una media poblacional: inuestra grande y desviación estándar poblacional desconocida En los problemas anteriores se conocía tr, la desviación estándar de la población. Sin embargo, en la mayor parte de los casos la desviación poblacional no se conoce. Asi que rr debe basarse en estudios previos, o estimarse utilizando la desviación estándar de la muestra, s. En el siguiente ejemplo se desconoce la desviación poblacional, por lo que se usará la desviación estándar muestra! para estimar cr. Mientras el tamaño de la muestra, n, sea mayor que 30, se puede sustituir s por rr, como se muestra en la siguiente fórmula:
EJEMPLO
SOLUCIÓN
Una cadena de tiendas de descuento (Thompson's Discount Store) expide su propia tarjeta de crédito. El gerente del departamento de tarjetas de crédito desea averiguar si el saldo insoluto medio mensual es mayor que $400 (dólares). El nivel de significancia se fija en 0.05. En una revisión aleatoria de 172 saldos insolutos se encontró que la media muestra! es $407, y la desviación estándar muestra! es $38. ¿Debería concluir el funcionario de crédito que la media poblacional es mayor que $400, o es razonable suponer que la diferencia de $7 (obtenida de $407 ~ $400 = $7) se debe al azar? Las hipótesis nula y alternativa son:
Ha•µ"" $400 H 1: µ
> $400
Debido a que la hipótesis alternativa establece una dirección, se emplea una prueba de una cola. El valor critico de z es 1.65. El valor calculado para z es 2.42, el cual se determina con la fórmula 10.2:
X- µ $407 - $400 $7 z = -s!_y'ii_n = $381\/172 = ~$-2~.8-9-75- = 2 .4 2 La regla de decisión se representa gráficamente en el siguiente diagrama.
Pruebas de hipótesis parn
Uíla
349
mueslrn
2.42 Valor z caiculémo
Como el valor calculado del estadístico de prueba (2.42) es mayor que el valor crítico (1.65), se rechaza la hipótesis nula. El gerente de crédito puede concluir que el saldo insoluto medio es mayor que $400. El valor p proporciona información adicional acerca de la decisión. Recuérdese que el valor p es la probabilidad de encontrar un estadístico de prueba mayor o igual al obtenido, cuando la hipótesis nula es verdadera. En consecuencia, hay que buscar !a probabilidad de tener un valor z mayor que 2.42. En el apéndice D se observa que la probabilidad de que z esté entre O y 2.42, es 0.4922. Se desea determinar la probabilidad de tener un valor mayor que 2.42, de modo que 0.5000 0.4922 = 0.0078. Se concluye que la probabilidad de encontrar un valor z de 2.42 o mayor, cuando la hipótesis nula es verdadera, es 0.78%. Por consiguiente, es poco probable que la hipótesis nula sea verdadera.
Alifoe!{ameíl '!(!,2
Véase el autoexamen 10.1: a) Supon·ga que··e1 píobletiia dé prueba- d8 hipótesis se modifícó ¡jara convertirlo en una pruebade·L1na· cola; ·¿Cómo se escribiría simbólicamente la hipótesis nula si planteara: "La media poblacional es mayor o igual que 6.0"? b) ¿Cómo se eScdbirí<:l simbólícament_e !a hipót8Sis alternativa sl' indicara: "La media poblacional es menor que 6.0"? e) Mu8stre gráfiCa_m8nte _la regla_de decisión. S8ñale la r8gión de rechazo e indique e! valor Crítico·.
350
Capítulo 10
Ejercicios En los ejercicios i a 4 responda a las siguientes preguntas: a)¿ Es ésta una prueba de una o de dos colas? b)¿Cuál es la regla de decisión? c)¿Cuál es el valor del estadístico de prueba? d)¿Cuál es su decisión respecto a H0 ? e)¿Cuá! es el valor p? Interprete el resultado.
i. Se tiene la siguiente información. H0 : µ, = 50 H1: µ, 50
*
La media muestra! es 49, y el tamaño de la muestra, 36. La desviación estándar de !a población es 5. Utilice e! nivel de significancia 0.05.
2. Se dispone de la siguiente in~ormación.
H0 : µ,,; 10 H1: µ,> 10 La media muestral es 12 y el tamaño de la muestra es 36. La desviación estándar de la población es 3. Utilice el nivel de significancia 0.02. 3. Una muestra de 36 observaciones se selecciona de una población normal. La media muestra! es 2i, y la desviación estándar de !a muestra es 5. Efectúe la siguiente prueba de hipótesis utilizando el nivel de signífícancia 0.05.
H 0 : µ,,; 20 H1: IL > 20 4. Una muestra de 64 observaciones se selecciona de una población normal. La media muestra! es 215, y la desviación estándar de la muestra es 15. Realice la siguiente prueba de hipótesis utilizando el nivel de signifícancia 0.03.
H0 : µ, ;;;, 220
H1 :
µ,
<
220
En los ejercicios 5 al 8 responda a lo siguiente: a) Establezca. las hipótesis nula y alternativa. b) Enuncie la regla de decisión. c) Calcule el valor del estadístico de prueba. d) ¿Cuál es su decisión respecto a H0? e) ¿Cuál es el valor p? Interprete el resultado. 5. El fabricante de la llanta para camiones, radial X-15 con cinturón de acero, afirma que el millaje medio del neumático eri estado útil; es 60 000. La desviatfón estándar de los recorridos es 5 000. Una empresa camionera compró 48 llantas y halló que la duración media fue 59 500 millas. ¿Difiere la experiencia de esta empresa de lo que afirma el fabricante de !as llantas? Use el nivel de significancia 0.05. 6. Una cadena de restaurantes (fv1acBurger) afirma que el tiempo medio de espera de sus clientes está distribuido normalmente, con una media de 3 min (minutos) y una desviación estándar de 1 mln. El departamento de aseguramiento de calidad halló en una muestra de 50 clientes, teinada de uno de sus restaurantes, que el tiempo medio de espera era 2. 75 min. Al nivel de significancia 0.05, ¿se puede concluir que el tiempo medio de espera es menor que 3 min? 7. Una encuesta nacional reciente halló que estudiantes de bachillerato veían un promedio (media) de 6.8 películas en video por mes. Una muestra aleatoria de 36 alumnos universitarios reveló que el número medio de videos vistos e! mes pasado fue 6.2, con una desvlación estándar de 0.5. En e! nivel de significancia de 0.05, ¿puede concluirse que los estudiantes de universidad ven menos películas en video a! mes que !os de bachillerato? 8. Cuando Beth Bridgen fue contratada como camarera en un restaurante, Se !e.· dijo: "Puedes obtener, en promedio, más de $20 (dólares) diarios de propinas". En los primeros 35 días de su trabajo en el restaurante, el importe medio diario de las propinas recibidas. fue $24.85, con una desviación estándar de $3.24. Al nivel de significancia 0.01, ¿puede la señorita Bridgen concluir que gana más de $20 diarios en propinas?
351
Pruebas de hipótesis para una muestra
Pn:ieba para una inedia poblacional: n1uestra pequeña, desviación estándar poblacional desconocida La distribución normal estándar, es decir z, se puede usar bajo dos condiciones: 1. Se sabequelapoblación sigueuna distribución normal y se conoce la desviación estándar poblacional, o 2. No se conoce la forma de la población, pero el número de observaciones en la muestra es por lo menos 30. ¿Qué se hace cuando la muestra es menor que 30 y no se conoce la desviación estándar de la población? Se encontró la misma situación en el capítulo anterior cuando se determinó un intervalo de confianza. Véanse las páginas 306 y 307 del capítulo 9. Este problema se resumió en el diagrama 9.3. Bajo estas condiciones el procedimiento estadístico correcto es sustituir la distribución normal estándar por la distribución t. Recuérdese que las características principales de la distribución t son: 1. Es una distribución continua. 2. Tiene forma de campana y es simétrica. 3. Hay una familia de distribuciones t. Cada vez que cambian los grados de libertad, se crea
una nueva distribución t. 4. Conforme aumentan los grados de libertad, la forma de la distribución t se aproxima a la distribución normal estándar. 5. La distribución t es más plana o más esparcida que la distribución normal estándar. Para realizar una prueba de hipótesis usando la distribución t, la fórmula 10.2 se modifica como sigue.
·.· ·•Xc-c'µ;
t.=-.•-.-· · slyn con ri_ - 1 grados de libertad, donde: X es la media de la muestra. µ es la media poblacional hipotética. s es la desviación estándar de la muestra. n es el número de observaciones en la muestra. En el siguiente ejemplo se muestran los detalles.
El departamento de quejas de McFarland lnsurance encuentra que el costo medio de atender una queja es $60. Una comparación mostró que esta cantidad era mayor que en otras compañías de seguros, por lo que se tomaron medidas para disminuir los costos. Para evaluar el efecto de estas medidas, McFarland tomó una muestra aleatoria de 26 reclamaciones recientes. El costo medio por reclamación fue $57, y la desviación estándar, $1 O. ¿Pueden concluir que las medidas tomadas para reducir los costos fueron efectivas? ¿O deben concluir que la diferencia entre la media muestra! ($57) y la media poblacional ($60) se debe a la casualidad? Use el nivel de significancia 0.01.
SOLUCIÓN
Se usará el procedimiento de cinco pasos para la prueba de hipótesis. Paso 1: Se establecen la hipótesis nula y la hipótesis alternativa La hipótesis nula establece que la media poblacional es por lo menos $60. La hipóte-
352
Capítulo 10 sis alternativa sostiene que la rnedia poblacional es rnenor que $60. Las hipótesis nula y alternativa se pueden expresar corno sigue: H 0: µ"' $60 H 0: µ < $60
Paso 2:
La prueba es de una cola porque querernos ver si ha habido una disminución en los costos. La desigualdad en la hipótesis alternativa indica que la región de. rechazo se encuentra en la cola izquierda de la distribución. Se selecciona el nivel de significancia Se elige el nivel de significancia
O.O'I. Paso 3:
Se selecciona el estadístico de prueba El estadístico de prueba en esta situación es la distribución t. ¿Por qué? Primero es razonable suponer que los costos por reclamación siguen una distribución norrnal. Sin embargo, no se conoce el valor de la desviación estándar poblacional. Por tanto, hay que sustituir la desviación estándar poblacional por la desviación estándar muestra!. Si la muestra es grande se puede hacer esta sustitución y continuar usando la distribución normal estándar. Grande se considera, generalmente, 30 o rnayor. En este caso se tienen rnenos de 30 observaciones en la muestra, de manera que no se puede usar la distribución norrnal estándar. En su lugar se usa la distribución t. El valor del estadístico t se calcula usando la fórmula 10.3:
X-µ
t~-
s/yn
Paso 4:
Se formula la regla de decisión Los valores críticos de t se dan en el apéndice F, aunque una parte del misrno se presenta en la tabla 10.1. La columna que se encuentra en el extremo izquierdo de la tabla tiene corno título "Grados de libertad, g/". El número de grados de libertad es el número de observaciones en la muestra menos el número de muestras, que se escriben - i. En este caso el número de observaciones en la muestra es 26, por lo que hay 26 - 1 = 25 grados de libertad. Para encontrar el valor crítico se localiza primero el renglón correspondiente a los grados de libertad. Este renglón se muestra sombreado en la tabla 10.1. A continuación se determina si la prueba es de una o de dos colas. En este caso se tiene una prueba de una cola, así que se localiza en la tabla la parte titulada "una cola". Se localiza la columna con el nivel de significancia elegido. En este ejemplo el nivel de significancia es 0.01 .. Se recorre hacia abajo la columna correspondiente a "0.01" hasta llegar a la intersección con el renglón correspondiente a 25 grados de libertad. El valor de tes 2.485. Como esta es una prueba de una cola y la región de rechazo está en la cola izquier· da, el valor crítico es negativo. La regla de decisión es rechazar /-10 si el valor de t es menor que -2.485.
,.---....._
353
Pruebas de hipótesis para una muestra TABLA 10.1
Porción de la tabla de la distribución t.
Intervalos de confianza
gl Nivel de significancia para una prueba de dos colas
0.20
0.10
0.05
0.01
21 22 23 24
1.323 1.321 1.319 1.318
1.721 1.717 1.714 1.711
2.080 2.074 2.069 2.064
2.831 2.819 2.807 2.797
3.819 3.792 3.768 3.745
26 27 28 29 30
1.315 1.314 1.313 1.311 1.310
1.706 1.703 1.701 1.699 1.697
2.056 2.052 2.048 2.045 2.042
2.779 2.771 2.763 2.756 2.750
3.707 3.690 3.674 3.659 3.646
-2.485 Valor crítico
DIAGRAMA 10.6
Paso 5:
-1.530 Valor calculado de t
o
0.001
Estala de t
Región de rechazo, distribución t, nivel de significancia 0.01.
Tomar una decisión En este problema:
X= $57, la media muestra!. µ, = $60, la media poblacional hipotética.
s = $1 O, la desviación estándar muestra!. n =26, el número de observaciones en la muestra. El valor de tes -1.530, que se obtiene de:
t - X - µ, sh/ii
= $57 - $60 = -1 .530
$10/\/26
354
Capítulo 10 Como -1.530 se encuentra en la región a la derecha del valor crítico -2.485, con el nivel de significancia 0.01, no se rechaza la hipótesis nula. No hay una diferencia estadísticamente importante entre y µ. Esto significa que las medidas tomadas para reducir los costos no han reducido el costo medio por reclamación a menos de $60. La diferencia de $3 entre la media muestra! y la media poblacional debe haberse debido a la casualidad. ElyalordeJ 0 btenid 0 se muestra en el diagrama 10.6. Este valor se encuentra en la región en la que no se rechaza la hipótesis nula.
X
Autoexamen
10.3
La duración media de las baterías que se usan en los relojes digitales es 305 días. Las vidas útiles,d~,!~$-baterías _si_guen una.distribución normal. Últimamente se ha modificado e! diseño de las bat~rí_as para que duren_más. En.una muestra de 20 baterías modificadas, la duración
media fu9. 3t1 d_ías, y_ la desviación estándar, i 2 días. ¿La modificación aumentó el tie111po medio de vidá de las baterías?
a) Establezca la hipótesis nula y lahipótesis alternativa. b) Muestre gráficamente la regla de decisión. Use el nivel de significancia 0.05. e) Calci.Jle él valoí"-:dé t. ¿Qué decisióíl toma reS'pecto a la hipótesis nula? Describa sus resultados
Ejercicios 9. Dadas las hipótesis siguientes:
H 0 :µ"°10 H1 : µ> 10 En una muestra aleatoria de 10 observaciones, la media muestra! fue 12, y la desviación estándar muestra!, 3. Usando el nivel de significancia 0.05: a) Establezca la regla de decisión. b} Calcule el valor del estadístico de prueba. e) ¿Cuál es su decisión respecto a !a hipótesis nula? 1 O. Dadas las hipótesis siguientes:
H0 : µ = 400 H1: µ i' 400 En una muestra aleatoria de 12 observaciones, la media muestra! fue 407, y la desviación estándar muestra!, 6. Usando e! nivel de significancia 0.01: a) Establezca la regla de decisión. b) Calcule el valor del estadístico de prueba. e) ¿Cuál es su decisión respecto a la hipótesis nula? 11. El gerente de ventas de Rath Publishing, lnc., una empresa editorial de libros de texto en las montañas Rocallosas, afirma que los representantes de ventas hacen en promedio 40 lla1nadas semanales a profesores. Varios representantes consideran que esta estimación es muy baja. Para investigar esto, se toma una muestra aleatoria de 28 representantes de ventas y se encuentra que la media de llamadas es 42. La desviación estándar muestra! es 2:! llamadas. Usando el nivel de significancia 0.05. ¿Se puede concluir que el número medio de llamadas semanales por representante es mayor que 40? i2. E! gerente de White Industries está pensando en un nuevo método para armar sus carritos de golf. Con el método actual se necesita, en pro1nedio, 42.3 minutos para armar un carrito. El tiempo medio, empleando el nuevo métOdo fue 40.6 minutos, en una muestra de 24 carritos. La desviación estándar muestra! fue 2. 7 minutos. Usando el nivel de significancia O. i O, ¿se puede concluir que el nuevo método de ensamble es 1nás rápido? 13. Los registros de la empresa Yel!owstone Trucks indican que la duración media de un juego de bujías es 22 100 mil!as. La distribución de los tiempos de vida útil de las bujías es aproxima-
Pruebas de hipótesis parn
""ª m"estrn
355
damente normal. Un fabricante de bujías afirma que sus bujías tienen una duración medía superior a 22 i 00 millas. El dueño de los camiones coinpra muchos de estos juegos. En una
muestra de 18 juegos el tiempo medio de vida útil fue 23 400 millas, y la desviación estándar, 1 500 millas. ¿Hay suficientes evidencias, con el nivel de signlficancla 0.05, que apoyen la afirmación del fabricante de bujías? 14. Fast Service, una cadena de servicio para automóviles afirma en su publicidad que su personal puede hacer un cambio de aceite, cambiar el filtro del aceite y lubricar cualquier automóvil estándar en un promedio de 15 minutos. La oficina de atención a! consumidor ha recibido varias quejas diciendo que el servicio toma bastante más tiempo. Con objeto de verificar la afirmación de Fast Service, la oficina de atención al consumidor tomó el tiempo de 2i servicios realizados a automóviles. El tiempo medio para hacer el servicio a estos vehículos fue i 8 minutos, y la desviación estándar de la muestra, í minuto. Use el nivel de significancia 0.05 para verificar si es razonable lo que afirma Fast Service.
En los ejemplos anterioces, la media y la desviación estándar se dieron como datos del problema. En el ejemplo siguiente hay que calcularlos a partir de los datos muestrales.
EJEMPLO
La longitud media ele una barra de equilibrio es 43 milímetros. El supervisor de producción sospecha que la maquina que produce las barras se ha desajustado, y le pide al departamento de ingeniería que investigue esto. El departamento de ingeniería toma una muestra aleatoria de 12 barras y mide cada una. Los resultados de las mediciones se dan abajo, en milímetros. 1
42
39
42
45
43
40
39
41
40
42
43
¿Es razonable concluir que la longitud de las barras ha variado? Use 0.02 como nivel de significancia.
SOUJCIÓN
Se empieza por establecer la hipótesis nula y la hipótesis alternativa.
H0 : µ = 43 H1: ,LL 43
*
La hipótesis alternativa no indica una dirección, por lo que esta es una prueba de dos colas. Hay 11 grados de libertad, obtenidos de n - 1 = 12 - 1 = 11. El valor de tes 2. 718, que se obtiene buscando en el apéndice F bajo prueba de dos colas, usando 0.02 como nivel de significancia con 11 grados de libertad. La regla de decisión es: rechazar la hipótesis nula si el valor de t obtenido, de los cálculos, está a la izquierda de -2. 718 o a la derecha de 2.718. Esta información se representa en el diagrama 10.7.
DIAGRAMA i0.7
Región de rechazo. Prueba de dos colas. Distribución t de Student, a= 0.02.
356
Capítulo 10 La desviación estándar de la muestra se puede calcular, ya sea usando los cuadrados de las desviaciones respecto a la media, o mediante una fórmula equivalente usando los valores de los datos elevados al cuadrado. Las dos fórmulas, 4.5 y 4. 7, del capítulo 4, son: Usando los cuadrados de las desviaciones respeéto ·a la media:
Usando los valores de los datos elevados al cuadrado:
I
Z(X - X) 2
) ' S
--
s- \,
s-'--- ' n -1
-
n -1
l
Los cálculos ne~esarios en cada uno de estos métodos se muestran abajo, en la tabla 10.2. La media X, es 41.5 milímetros, y la desviación estándar s, 1.78 milímetros. TABLA 10.2
X
Cálculo de la desviación estándar de la muestra.
X)'
x-i
(X-
42 39 42 45 43 40 39 41 40 42 43 42
0.5 -2.5 0.5 3.5 1.5 -1.5 -2.5 -0.5 -1.5 0.5 1.5 0.5
0.25 6.25 0.25 12.25 2.25 2.25 6.25 0.25 2.25 0.25 2.25 0.25
1 764 1 521 1 764 2 025 1 849 1 600 1 521 1 681 1 600 1 764 1 849 1 764
498
o
35.00
20 702
(mm)
--
X' -
X=
498
12 = 41.5 mm
Método de los cuadrados de las desviaciones:
_ ¡:z1x-x) 2 _- ~ s-\ - - - 1 ._ 7 8 n-1
12-1
Valores de los datos elevados al cuadrado:
i;;;x' -
s= ~
(:ZX)'
n-1
n =
/20,702 -
y
l493 I'
12-1
12
= 1.78
Ahora ya podemos calcular el valor de t, usando la fórmula 10.3.
t = X - µ, s!vn
=
41.5 - 43.0 1.78/\IT2
= _ 2 _92
Se rechaza la hipótesis nula de que la media es 43 milímetros porque -2.92, que es el valor de t obtenido mediante los cálculos, se encuentra en el área de rechazo, a la izquierda de-2.718. Se acepta la hipótesis alternativa y se concluye que la media poblacional no es 43 milímetros. La máquina está fuera de control y deberá ser ajustada.
Una solución por computadora El paquete de cómputo para estadística MINITAB, usado ya en los capítulos anteriores, proporciona una manera eficiente de realizar una prueba de hipótesis con una muestra para la media poblacional. Los pasos necesarios para generar esta ventana de resultados se dan, al final del capítulo, en la sección Comandos para computadora. Observe que el valor de t (-2.91) calculado por MINITAB es aproximadamente el mismo que el obtenido usando la fórmula 10.1 (-2.92). La pequeña diferencia se debe al redondeo.
357
Pmebas de hipótesis para una muestra
!I !2
!!~eh 4>.5f>O
~<~
-~.-¡: ~'"'
;;t;.a; e¡ { 4?.>&7,
4!.~~'.')
0.~!5 ~
-Z.91
D.!JH
Un detalle adicional de MINITAB y de los otros paquetes de cómputo para estadística, es que dan el valor p, que proporciona información adicional sobre la hipótesis nula. El valor p es la probabilidad de tener un valor de t tan extremo como el calculado, dado que la hipótesis nula es verdadera. En este caso, el valor de p es 0.014, que es la probabilidad de tener un valor de t menor o igual a -2.91, más la probabilidad de tener un valor de t mayor o igual a 2.91, dada una media poblacional igual a 43. Una comparación del valor p con el nivel de significancia indica si la hipótesis nula estuvo a punto de ser rechazada, si se rechaza claramente) etcétera. Para explicarlo mejor véase el diagrama siguiente, en el que el valor p = 0.014 se identifica con el área oscura y el nivel de significancia corresponde al área clara. Como el valor p = 0.014, es menor que el nivel de significancia 0.02, se rechaza la hipótesis nula. Si el valor p hubiera sido mayor que el nivel de significancia, por ejemplo 0.06, 0.19 o 0.57, la hipótesis nula no se hubiera rechazado. Si el nivel de significancia hubiera sido 0.01 no se hubiera rechazado la hipótesis nula.
-2.718
2.718
~·--~--------~-------
En el ejemplo anterior la hipótesis alternativa era de dos colas, por lo que había áreas de rechazo tanto en la cola derecha como en la izquierda. Para determinar el valor p fue necesario determinar el área a la izquierda de -2.91 en la distribución t con 11 grados de libertad y sumarle el valor a la derecha de 2.91, también con 11 grados de libertad. ¿Qué se habría hecho si se estuviera realizando una prueba de una cola y toda el área de rechazo se encontrara en la cola izquierda o en la cola derecha? En ese caso sólo se habría dado el área de una de las colas. Si en el ejemplo de la barra de equilibrio, la H 1 hubiera si-
358
Capí!"lo 10 do µ, < 43, la desigualdad apuntaría a la izquierda, por lo que habríamos dado el valor p como el área a la izquierda de -2.91. Este valor es 0.07 que resulta de 0.014/2. De manera que el valor p para una prueba de una cola sería 0.007. ¿Cómo se puede estimar el valor p sin computadora? Para explicar esto, recuérdese que en el ejemplo de la longitud de la barra de equilibrio, se rechazó la hipótesis nula de que µ, ~ 43 y se aceptó la hipótesis alternativa de que µ, 43, por lo que lógicamente el valor de p es menor que 0.02. Para estimar con mayor exactitud el valor de p consulte el apéndice F y diríjase al renglón que corresponde a 11 grados de libertad. El valor obtenido para t mediante los cálculos, que fue 2.91, esta entre 2.718 y 3.106. (Se reproduce una parte del apéndice F en la tabla 10.3). El nivel de significancia para dos colas correspondiente a 2.7"18 es 0.02, y el correspondiente a 3.106 es 0.01. Por tanto, el valor p está entre 0.01 y 0.02. Lo que se acostumbra hacer es indicar que el valor p es menor que el mayor de los dos niveles de significancia. Así es que en este caso se reportaría "el valor pes menor que 0.02".
*
TABLA 10.3
Parte ele la tabla de la distribución t de Student. Intervalos de confianza
90o/a
80%
95%
99.9%
Nivel de significancia para una prueba de una cola
df
0.100
0.050
0.0005
Nivel de significancia para una prlieba de dos colas
0.20
0.10
0.05
9 10
1.383 1.372
1.833 1.812
2.262
12 13 14 15
1.356 1.350 1.345 1.341
0.001
2.228
4.781 4.587
2.179 2.160 2.145 2.131
4.318 4.221 4.140 4.073
-xíci9~1.782 1.771 1.761 1.753
Se ajusta una máqüina para llenar frascos con 9.0 gramos de un medicamento. En una muestra de ocho botellas se encuentran lás siguientes cantidades (en gramos) por frasco. 1
92
8.7
8.9
8.6
8.8
8.5
8.7
90
1
¿Se puede concluir, en el nivel de significancia 0.01, que el peso medio es menor que 9.0 gramos? a) Establezca la hipótesis nula y la hipótesis alternativa. b) ¿Cuántos grados de libertad se tienen? c) Dé la regla de decisión. d) Calcule el valor de t. ¿Cuál es su decisión respecto. a la hipótesis nula? e) Estime.el valor de p.
359
Pruebas de hipótesis para una muestra
Ejercicios 15. Dadas las hipótesis siguientes
Ha: fL;,, 20 H1 : fL < 20 En una muestra aleatoria de tamaño cinco se obtienen los valores siguientes: 18, 15, i 2, 19 y 21. Usando el nivel de significancia O.Oí, ¿puede concluirse que la media poblacional sea menor que 20? a) Establezca la regla de decisión. b) Calcule el valor del estadístico de prueba. e) ¿Cuál es su decisión respecto a !a hipótesis nu!a? d) Estime el valor de p. 16. Dadas las hipótesis siguientes
Ha: fL ~ 100 H 1: fL 1' 100 En una muestra aleatoría de tamaño cinco se obtienen los valores siguientes: 118, 105, 112, 119, 105 y 111. Usando el nivel de significancia 0.05, ¿puede concluirse que la media poblacional sea diferente de 100? a) Establezca la regla de decisión. b) Calcule el valor del estadístico de prueba.
e) ¿Cuál es su decisión respecto a la hipótesis nula? d) Estime el valor de p. 17. Un criador de pollos sabe por experiencia que el peso de !os pollos de cinco meses es 4.35 libras. Los pesos siguen una distribución normal. Para tratar de aumentar el peso de dichas aves se le agrega un aditivo al alimento. En una muestra de pollos de cinco meses se obtuvieron los siguientes pesos (en libras).
1
4.41
4.37
4.33
4.35
4.30
4.39
4.36
4.38
4.40
4.39
1
En el nivel 0.01, ¿el aditivo ha aumentado el peso medio de los pollos? Estime el valor de p. 18. El cloro líquido que se usa en !as piscinas para combatir el crecimiento de algas tiene una vida de almacenamiento relativamente corta. Según !os registros, la duración media de almacenamiento de un garrafón de 5 galones es 2 160 horas (90 días). Como experimento se le agregó al cloro una sustancia para prolongar su vida de almacenamiento. En una muestra de nueve galones, las vidas de almacenamiento encontradas fueron !as siguientes (en horas):
2170
2159
2180
2179
2160
2 167
2 171
2185
2 181
En el nivel 0.025, ¿esta sustancia ha aumentado la vida de almacenamiento del c!oro? Estime el valor de p. i9. Las pesquerías de una determinada región se quejan de que el número medio de trüchas muertas capturadas en un día es 4.0. Para su actualización anual el personal de pescadería pide a una muestra de nueve Pescadores !levar la cueíüa de! número de truchas encontradas muertas durante el día. Los números fueron 4, 4, 3, 2, 6, 8, 7, 1, 9, 3, 1, y 6. En el nivel 0.05, ¿puede concluirse que la cantidad media obtenida es mayor que 4.0? Estime el valor p. 20. Una empresa que se dedica a hacer encuestas se queja de que un agente realiza en promedio 53 encuestas por semana. Se ha introducido una forma más moderna de realizar las encuestas y !a empresa quiere evaluar su efectividad. Los números de encuestas realizadas en una semana por una muestra aleatoria de agentes son:
57
50
55
58
54
60
52
59
62
60
60
51
59
En el nivel de significancia 0.05, ¿puede concluirse que !a cantidad media de entrevistas realizadas por !os agentes es superior a 53 por semana? Evall1e el valor p.
360
Capitulo rn
Pruebas respecto a proporciones En el capítulo anterior se estudiaron Intervalos de confianza para proporciones. También es posible realizar una prueba de hipótesis para una proporción. Recuérdese que una proporción es la razón (o cociente) del nC1mero de éxitos entre el número de observaciones. Si X representa el número de éxitos y n el nC1mero de observaciones, entonces la proporción de éxitos en determinado número de ensayos es Xln. De manera que la fórmula para calcular una proporción muestra! pes p =Xln. Las siguientes son algunas situaciones potenciales para una prueba de hipótesis. '
e
•
nrr y n(1 - ") debe ser, por lo menos, igual a 5.
General Motors reporta que 70% de los vehículos que alquila son regresados con menos de 36 000 millas (mi). En una muestra de 200 automóviles devueltos recientemente se encontró que 158 tenían menos de 36 000 mi. ¿Ha aumentado la proporción de automóviles devueltos con menos de 36 000 mí? La asociación americana de personas pensionadas reporta que 60% de los pensionados cuya edad es inferior a 65 años volvería a trabajar tiempo completo sí encontrara un empleo. En una muestra de 500 pensionados menores de 65 años se encontró que 315 volverían a trabajar. ¿Se puede concluir que más de 60% volvería a trabajar? Una empresa de mudanzas, como parte de su publícídad, anuncia a sus clientes que en mudanzas a lugares muy alejados, los muebles se entregarán entre 3 a 5 días después de haberse cargado. Según sus registros, esto es así 90% de las veces. En una auditoría reciente, se encontró que esto fue así 190 de 200 veces. ¿Pueden concluir que su tasa de éxito ha cambiado?
Antes de probar una proporción de población deben hacerse algunas suposícíones y cumplirse ciertas condícíones. Para probar una hípótesís acerca de una proporción poblacíonal, se selecciona una muestra aleatoria de esa población. Se supone que se cumplen las suposícíones binomiales analizadas en el capítulo 6: (1) los dalos muestrales recopilados son resultado de conteos; (2) cada resultado de un experimento se clasifica en una de dos categorías mutuamente excluyentes: "éxito" o "fracaso"; (3) la probabilidad de un éxito es la misma en cada ensayo; y (4) los ensayos son índependíentes, lo que sígnífíca que el resultado de un ensayo no afecta el resultado de otro de los ensayos. La prueba que se realizará en breve es adecuada cuando n" y n(1 - rr), son por lo menos 5. Aquí 11 es el tamaño de la muestra, y 'lT es la proporción de la población. Esta prueba aprovecha la ventaja del hecho de que una dístribucíón binomial se puede aproximar a una dístribucíón normal.
Supóngase que las elecciones anteriores en un estado federal índícan que es necesario que un candidato a gobernador obtenga al menos 80% de los votos en la sección norte del estado para que sea elegido. El gobernador actual está interesado en evaluar las oportunidades que tiene de ser reelegido, y planea realizar una encuesta a 2 000 de los electores registrados en el norte del estado. Empleando el procedimiento de prueba de hípótesís evalúe la probabilidad que tiene el gobernador de ser reelegido.
SOUJC:lÓN
Se puede realizar la siguiente prueba de hípótesís, ya que tanto ll'IT como n(1 - 1T) son mayores que 5. En este problema n ~ 2 000 y 1T = 0.80 (1T es la proporción de los votos en el norte del estado, es decir 80%, que se necesita para ser reelegido). Por tanto, n'lT = 2 000(0.80) = 1 600, y n(i - TI)= 2 000(1 - 0.80) = 400. Tanto ·1 600 como 400 son mayores que 5.
Prnebas de hipótesis para una mues!ra Paso 1:
361
La hipótesis nula, H0 , es que la proporción poblacional TI, es 0.80 o mayor. La hipótesis alternativa, H 1 , es que la proporción es menor que 0.80. Desde un punto de vista práctico, al gobernador actual sólo le preocupa que la relación muestra! sea menor que 0.80. Si es mayor o igual que, 0.80, no tendrá problema; es decir, los datos muestrales indicarían que probablemente será reelegido. Estas hipótesis se expresan simbólicamente en la siguiente forma:
H0 : TI~ 0.80 H 1: TI< 0.80 H1 indica una dirección. En consecuencia, como se observó anteriormen-
Paso 2: Paso 3:
te, la prueba es de una cola, con el signo de desigualdad apuntando hacia la cola de la distribución que contiene la región de rechazo. El nivel de significancia es 0.05. Esta es la probabilidad de que una hipótesis verdadera sea rechazada. El estadístico adecuado es z, que se obtiene mediante la siguiente fórmula:
p-.1T
z ""-·-..-.-." p
donde: 1T
es la proporción poblacional.
p es la proporción muestra!.
n
es el tamaño de la muestra.
rr _ es el error estándar de la proporción poblacional.
" Se calcula mediante Y(TI(1 - TI)ln), por lo que la fórmula para obtener z será:
Paso 4: Encontrar el valor crítico.
El valor crítico (o los valores críticos) de z constituye el punto (o los puntos) divisorios entre las regiones de aceptación y rechazo de H0 . Como la hipótesis alternativa establece una dirección, ésta es una prueba de una cola. (Ver'el diagrama 10.8.) El nivel de significancia dei paso 2 fue 0.05. Esta probabilidad se encuentra en la cola izquierda y determina la región de rechazo. El área entrecero y el valor crítico es 0.4500, que se obtiene de 0.5000 - 0.0500: Al consultar el apéndice D y buscar 0.4500, se encuentra que el valor crítico de z es 1.65. Por tanto, la regla de decisión es: rechazar la hipótesis nula y aceptar la hipótesis alternativa si el valor z calculado se encuentra a la izquierda de -1.65; de otra 111anera, no se rechaza H0.
362
Capítulo 10
o
Escala dez
Valor crítico
DIAGRAMA 10.8
Seleccionar una muestra y tomar una decisión respecto a H0•
Paso 5:
Región de rechazo en el nivel de signifícancia 0.05, prueba de una cola.
Se elige una muestra y se toma una decisión respecto a H 0• En una muestra de 2 000 electores potenciales en el área norte del estado se encontró que 1 550 planeaban votar por el gobernador actual. ¿Es la proporción muestra! de O. 775 (que se obtiene de 1 550/2 000) lo suficientemente cercana a 0.80 como para concluir que la diferencia se debe al azar? En este problema: p es 0.775, la proporción muestra! de los que planean votar por el gobernador. n es 2 000, el número.de electores en la encuesta. rr es 0.80, la proporción poblaciorial hipotética. z es un estadístico de prueba distribuido normalmente cuando la hipótesis es verdadera y las otras suposiciones son verdaderas. Usando la fórmula 10.5 y calculando z resulta:
p
-TI
z~
/-rr(1 - 7T)
Y
n
1 550 - 0.80 2 000 /ü.80(1 - 0.80) .y~ 2 000
0.775 - 0.80 ~ -2.80 vo.00008
El valor calculado de z (-2.80) está en la región de rechazo, por tanto se rechaza la hipótesis nula en el nivel 0.05. La diferencia de 2.5 puntos porcentuales entre. el porcentaje muestra! (77.5%) y el porcentaje poblacional hipotético en la parte norte del estado, necesario para ganar la elección (80%), es estadísticamente significativa. Esto probablemente no se debe a la v.ariación muestra!. Dicho de otra forma, la evidencia obtenida no · fundamenta la aseveración de que el gobernador saliente regresará al puesto por otros cuatro años. El valor pes la probabilidad de obtener un valor z menor que -2.80. En el apéndice O, se ve que la probabilidad de que z sea menor que O y-2.80, es 0.4974. Por tanto, el valor p es 0.0026, que se obtiene de 0.5000 0.4974. En conclusión: ¡el gobernador no puede confiar en que será reelegido!
Pruebas de hipótesis para una muestra
Autoexarnen 10.5
363
En un informe reciente de la industria de seguros se -indica que 40% de las personas que tuv_ieron algún pequeño accidente de tránsito vehi_cular este año,_ habían tenido, por lo menos, Otrü accidenté de ese_tipo _ en ___las·ú_ltimos cin~o añoÉL_Un grüpo de consejeros decidió investigar esta cifra.creyendo que era dem_asiado alta. En_ una muestra de_ 200 accidentes de tránsito de e~te año'._en_c_ont~aron que 74_-persoílcis había'n . t8hido ya otrd accidente en los últimos cinco años. Use el nivel de significancia 0.01 a) ¿Se puede usar z como el estadístico de prueba? Indique por qué sí o por qué no. b) Establézca la hipótésis riula y la hipótesis alternativa. c) Muestre gráficamente la regla de decisi_ón. d) Calcule el valor de z y establezca su decisión respecto a la hipótesis nula. e) Determine e interprete el valor p.
Ejercicios 21. Se dan las siguientes hipótesis H0 : Ti~ 0.70 H1: " > 0.70 ¿En una muestra de iOO observaciones se encuentra que
p = 0.75. ¿Puede rechazarse la hi-
pótesis nula al nivel de significancia 0.05? a) Establezca la regla de decisión. b} Calcule el valor del estadístico de prueba. e) ¿Cuál es su decisión respecto a la hipótesis nula?
22. Se dan las siguientes hipótesis H0: H0 :
'IT 7f
= 0.40
* 0.40
¿En una muestra de 120 observaciones se encuentra que p = 0.30. ¿Puede rechazarse la hipótesis nula al nivel de significancia 0.05? a) Establezca la regla de decisión. b} Calcule el valor del estadístico de prueba. e) ¿Cuál es su decisión respecto a la hipótesis nula? Nota: para resolver los siguientes ejercicios se recomienda el uso del procedimiento de cinco pasos para una prueba de hipótesis 23. El consejo de seg~ridad nacional de un.país encuentra___que.~2% de los conductores en las autopistas son hombres. Ayer se encontró en una muestra de 30b autos que viajaban por una determinada autópista, que 170 de los conductores eran hombres. ¿Puede concluirse, en el nivel de significancia 0.01, que en esta autbpista conducían más hombres que los que indican !as estadísticas nacionales? 24. Un artículo recíente, publicado en el diario USA Today, indica que sólo a uno de cada tres egresados de una universidad !es espera un puesto de trabajo. En una investigación a 200 egresados recientes de su universidad, se encontró que 80 tenían un puesto de trabajo. ¿Puede concluirse, en el nivel de significancia 0.02, que en su universidad la proporción de estudiantes que tienen trabajo es mayor?
25. El expendio Pollos Deliciosos asegura que 90% de sus órdenes se entregan en menos de 1O minutos. En una muestra de í 00 órdenes, 82 se entregaron dentro de ese lapso. ¿Puede concluirse, en el nivel de significancia 0.01, que menos de 90% de las órdenes se entregan en menos de í O minutos? 26. En una investigación hecha en una determinada universidad se encontró que 50% de !os estudiantes, después de un año de estudio, cambiaban de área principal de estudio. En una
muestra de 100 estudiantes de la facultad de economía se encontró que 48 habían cambiado de área de estudio. ¿Ha habido una disminución significativa en la proporción de estudiantes que cambian de área de estudio? Emplee el nivel de significancia 0.05
364
Capítulo 10
Error de tipo U Recuérdese que el nivel de significancia, identificado con el símbolo a, es la probabilidad de que se rechace la hipótesis nula cuando es verdadera. Esto se denomina un error de tipo l. Los niveles de significancia más comunes son 0.05 y 0.01. Cuando se realiza una prueba de hipótesis, también existe. la posibilidad de qu¡¡ una hipótesis nula sea aceptada cuando en realidad es falsa. Esto es, se acepta una hipótesis nula falsa. A esto se le denomina error de tipo 11. La probabilidad de cometer un error de tipo 11 se denota con la letra griega beta (~). Para ilustrar. el cálculo de beta, supóngase que un fabricante compra varillas de acero para hacer pasadores de chaveta. Por experiencia sabe que la resistencia media a la tensión de todos los envíos que le llegan es 1O 000 psi (libras por pulgada cuadrada), y que la desviación estándar, cr, es 400 psi. Para tomar una decisión acerca de las remesas de varillas de acero, la empresa plantea esta regia que debe seguir el inspector de control de calidad: "Tómese una muestra de 100 varillas de acero. Si la resistencia media muestra! (XJ está entre 9 922 psi y 1O 078 psi, se acepta el lote. De otra manera, se rechazará". Véase en el diagrama 10.9 y la región A. Este diagrama indica las regiones de aceptación y rechazo de los lotes. La media de esta distribución se denota con µ 0 . Las colas de la curva representan la probabilidad de cometer un error de tipo 1, esto es, rechazar el lote recibido de varillas de acero cuando en realidad es aceptable, con una resistencia media de 1O 000 psi. ¿Cómo se calcula la probabilidad de un error de tipo 11? (Recuérdese que es la probabilidad de aceptar un lote como "bueno" cuando en realidad la media no es 1O 000 psi.)
EJEMP!Jl
Suponga que la media poblacional, que no se conoce de un lote recibido, denotada por µ 1 , es en realidad 9 900 psi. ¿Cuál es la probabilidad de que el inspector de control de calidad no rechace la remesa (un error de tipo 11)?
SOLUCIÓN
La probabilidad de cometer un error de tipo 11, representada por la región sombreada en el diagrama 10.9, región B, puede calcularse determinando el área bajo la curva normal que se encuentra a la derecha de 9 922 psi. El cálculo de las áreas bajo la curva normal se analizó en el capítulo 7. Haciendo un breve repaso, primero hay que determinar la probabilidad de que la media muestra! se encuentre entre 9 900 y 9 922. Después esta probabilidad se resta de 0.5000 (que representa toda el área más allá de la media de 9 900), obteniéndose .así la probabilidad de cometer un error de tipo 11. El número de unidades estándar (valores z) comprendidas entre la media del lote recibido (9 900), denotada por µ 1 , y Xc que representan el valor crítico para 9 922, se calcula mediante la fórmula:
Cálculo de ~ (error de tipo 11).
Pmebas de hipótesis µarn una m"es!ra
DIAGRAMA 10.9
Con
365
µ1
9 922
9 900
X,
Diagramas que 1nuestran los errores de tipo I y de tipo IL
n = 100 y u= 400, el valor z es 0.55: 9 922 -9 900 400/Viüü
22 40 ~ 0.55
El área bajo la curva entre 9 900 y 9 922 (considerando un valor z de 0.55) es 0.2088 (que se obtiene del apéndice D). El área bajo la curva, a la derecha de 9 922 psi es 0.5000 - 0.2088, o 0.2912; esta es la probabilidad de cometer un error de tipo 11, es decir, la probabilidad de aceptar un lote de varillas ele acero en el que la media poblacional es 9 900 psi.
366
Capítulo 10 Otro ejemplo presentado en la región C del diagrama 10.1 O, muestra la probabilidad de aceptar un lote en el que la media poblacional sea 10 120. Para encontrar la probabilidad se emplea la fórmula:
10 078-10 120 = -1.05 400/Viüo La probabilidad de que
z
sea menor que -1.05 es 0.1469, obtenida de 0.5000 -
0.3531. Utilizando los métodos que se ilustran en los diagramas 10.98 y 10.1 OC, para cualquier valor de µ 1 se puede determinar la probabilidad de aceptar una hipótesis como verdadera cuando en realidad es falsa. En la columna central de la tabla 10.4 se indican las probabilidades de cometer un
Regióílc
i - Beta
1
1 10 120 10 078
x,
D!AGRAMI\ 10.1 O
Errores de tipo I y de tipo ll (otro ejemplo).
En la columna central de la tabla 10.4 se indican las probabilidades de cometer un error de tipo 11, para varios valores de µ, dados en la columna izquierda. La columna derecha indica la probabilidad de no cometer un error de tipo 11, que también se conoce como la fuerza de una prueba.
367
Pruebas de hipólesís para una mues!rn
TABLA iü.4
Probabilidades de cornetcr un error de tipo II para µ 0 = 10 000 psi y diversas n1edias alternativas, nivel de significancia 0.05. Media
alternativa seleccionada (psi) 9 820 9 880 9 900 9 940 9 980 10 000 10 020 10 060 10100 10 120 10180
Probabilidad Probabilidad de de cometer un no cometer un error de tipo !l error de tipo H
!Pl
(1 -
0.0054 0.1469 0.2912 0.6736 0.9265
0.9946 0.8531 0.7088 0.3264 0.0735
0.9265 0.6736 0.2912 0.1469 0.0054
0.0735 0.3264 0.7088 0.8531 0.9946
'No es posible cometer un error de tipo 11 cuando µ. =
Auloexameíl i 0.6
Pl
µ~.
Supóngase que la media verdadera de un lote recibido de varillas de acero es 1O 180 psi. ¿Cuál es la probabilidad de que e! inspector de control de calidad acepte las varillas como si tuvieran una media de 1O000 psi? (Parecería incongruente que se rechacen tales varillas si la resistencia a la tensión es más alta que lo especificado. Sin embargo, puede ser que el pasador de chaveta tenga una función doble en un motor náutico fuera de borda. Puede estar diseñado para que no se rompa por cizal!amiento si el motor choca contra un objeto pequeño, pero para que se rompa si hay golpe contra una roca. Por tanto, e! acero no debe ser demasíado resistente.) El área clara en el diagrama 1o.·1 OC representa la probabilidad de aceptar erróneamente la hipótesis de que !a: resistencía media a la tensión del acero recibido sea i O 000 psi. ¿Cuál es la probabilidad de cometer un error de tipo 11?
Ejercicios 27. Considere la tabla 10.4 y el ejemplo anterior. Con n = 100, cr = 400, X,= 9 922, y ,, 1 = 9 880, verifique que la probabilidad de cometer un error tipo !I es 0.1469. 28. Considere la tabla 10.4 y el ejemplo anterior. Con n = 100, a = 400, X, = 9 922, y ¡c 1 = 9 940, verífique que la probabilidad de cometer un error de tipo 11, es 0.6736.
llesumen delcapítulo l. El objetivo dEl la prueba de hipótesis es verificar laValidez de una afirmación acerca de un par_ámetrQ poblacionaL
lt L.os pasos que se utilizan para realizar.Una prueba de hipótesis son: A; Plantéar las hipótesis.nula (f/0) yla hipótesisalternativa (H1 ), B. Sel.ec.cionar el nivel de significancia. 1. El nivelde significancia es la probabilidad.de rechazar una hipótesis nula verdadera. 2. _Lps-niV,e_le~ d_e sfgn_lficancía_ que.- se_ -utilizan c9n'.111ityor frecuen_cia son Q.01,_ 0.05 .y _0.1_0; pero esposiqle cualquier valor entre. O.y 1,00.
368 e~
Seleccionar e! estadístico de prueba: ·¡. Un estadística de prüeba es un valor calculado a partir de !a. irrforrnación de la muestra y se utíliza para determinar si se rechaza !a hipótesis nula. 2. En.este_;capítulO'.se estüdi8.ron.dos estadísticos de prueba. a) La c!isfribución non11.~1 . estárdar se usa cuando !a población sigue !a distribución norrnal·:y. se-..conoce-·fa·desviaclón··estándar·pobiacionai: b} La distribución norma! .estándar se usa cuando !a pob!aclón sigue la dlstribuc!ón normal;.nü se conoce !a·desvi8.ción estándar poblacional, pero la muestra contiene poi·'.10 menos 30 observacidnes. e) La distribüción i" se usa·cuando la poblaclón sigue !a distribución norma!, no seconoce !a desviación estándar po.b!acional y ia n:uestra contiene menos de 30 observaciones:· D. Establecer la regla ele dec:sióíl: i. La reg!a de.decisión indlcáJá condición o condíciones para rechazar !a hipótesis nula. 2. En una pruéba de dos colas·;. la región ele rechazo se divide en partes iguales entre la co!a superior y la co!a inferior: -9; En una prueba ele una cola toda !a región de rechazo se encuentra en la cola superior o en la cola tnferior. E. Seleccionar una muestra, calcular el valor estadístico ele prueba, tomar una decisión respecto a la hipótesis nula e·Jnterpretar el resultado. [it Un valor p es !a probabilídad de que et valor de!. estadístico de prueba sea tan extremo como e!'va!or obt8nido, dado·que fa hlpótesis nufa sea verdad8ra. ~V. Prueba de hipótesis respecto a una media poblacional. A. Si se· conoce la ·desviación-estándar de !a población; a; ·el estadístico de prueba: ·es !a clfs:.. tribució1i:.n_orma! están~lár, Y. se..determlna a part1r.. cl8:·
X-'
fL
z ~ a!Vñ
[ip.jj
EL,.Si no:se cqnoce:·. !a desvi.ación'. e;;,t.ándar pob!acional, ¡jero:. se,-tiepen 3í;:~~:~jí:~'.5,:3·9>o)':l~#rva-. clones.en.la.muestra, .se sustituy~ s.por.cL E! estacl.(stico de pru.eba eS·.la:.(}istriJj,u.c.iórvnor-. mal .est$nd.ar y su valor se. d.eterm_in? a:i:Jar..tir d.e:
X=:-_,
p;
-7.=.-.-. s!yn-
[10.2]
C. Si no se conoce la desviación estándar poblaciona!, pero se tiene menos de 30 observacio-:· ri'es ·en la ·rnuestra, Sé SuStituYe s·por ·ér~ E! eSt8.díStlcó"d8 p't'Lieba es··1a ·distf"ibUCióh 1-y·· Sli valor se cleterrnina a partlr de:
¡10.3] Las_. c:a.r~Fterfs~ica_s pri_~c)p~_le~ c1.e:1a ?.i.s,tr.1.~,Hói{>n_/ s?_n;. i. ¡:s_.una distr1b_u_c'i6.n cq1~\ipúa ..... ·,·,,,· . · , Ti:e,n6 fÜrma íl!º.~taña X. es,,.si!:1étrt.c:a. Es n1ás p!a1la o más dlspersa que' la diSÚibli'C!ón:nO·rm·;;l'¡ estándar. 4. Hay una famiila de distribuciones t que dependen de.IOs graclo.s de !ibe·rtad,' \/. Prueba de hipótesis para una proporción poblacionaL A. Tanto nri como n(i - 'IT} deb.en ser por !o·.me_n·os iguales· a 5, B: Er· estadístico de prueba es
8-ª
P~,Ti._ z= .. _.. ___
[10,5]
Vt Hay. dos··trpoS de ·erroi·es C¡ue püedeh. presentarse ·en Una prueba de hipótesis. A. Et error tipo 1·suc'ecle cuando sEr'recliazéi.'!a·-h¡pótesls nula verdadera. t; La·pro~abilidad de c'omete.r un:error.de·:tlpo.'1:es·rg,u8.! al nivel ele slgnificancla. 2. Esta pro.babiHdad se lndíca con !a tetra griega n.
369 !t Un error de·tipo 11-se presenta cuando no se rechaza una hipótesis nula falsa. i. La probabilidad de cometer un error de.tipo 11 se designa con la letra griega [l. 2.: La probabilidad de cometer un error de tipo 11 es:
>
z=----
[10.6]
Sii:nbología SÍMBOLO
X\;_
SIGNIFICADO HipótesiS' nula Hipótesis a!tern·ativa N_ive! de s_ígnifrcancia-de dos colas Límite ele !a_n1eclia muestra!
µ,º
Media poblacional supuesta
Ha
H, al2
FORMA EXPRESIVA
!-! SL(bíndice ·cero H sub/ndice uno alfa entre·· 2
/'
Ejercicios del capítulo 29. _Uri~f nueVa-empréS_a_?e téCnic_as Para-?bSérváCí'ón y có_ntro! dS_! peso de person_as, VVeight Reducers lnternatro~al, an~ncia que quienes· adopte_n Sus- métodos perderán, en promedio, i O!ibías-(!b) en 'l_as p_rim;erf¡S_ do_s _semanas._·_una_muestra__ a!eatoria. de 50 personas que adoptaron -~r--_~uevo progr_am~ de re_duccíón de_ peso, reveló.que la pérdida media es _9 !b. La desviación estándar de la muestra se.calculó en 2.8 lb. Al nivel de significancia de 0.05, ¿se puede concluir que !Os_ parti_cipant9S P_erdérá.n en'jJrome'dio· men_os d810 !b? _Determine el va!or p. 3o. La empresa Dale Pineápple, lnc. considera que las latas de 1.6 onzas (oz) ele rebanadas de piña se_-están llenando en exceso. El departamento de contra! de calidad. to1nó una· muestra a!eato~ia-de·so énvases·y encontró que el peso medio aritmético era ·rs.os oz, con una desviacióli-_es_t_ánd_ar de !a muestra de O.OS- oz. En e! nivel de signíficancia de 5%, ¿se puede conc;lpir que el peso.. me_d_i_o e_s.n1ayor_qL1e_ 16 oz?_ D13_term!~e.el va!or p. 31.__El_ Co=nseJ9_ de,_EdL1cación de_Peo~ia _dese~ considerar_ un nuevo programa académico patrocin_ado_por et _Departamento_-:de Ed_ucació_n d_el gobierno de E~tados Unidos: Para que se considere _la s91icitu?_9e _fÜfldos·fegera!es, e! ingreso rnecJio por··familia no debe ser mayor que $15: OOO{c,lólares}. ~! c:onsejo contr<7:tó a uria empresa_ de i_nyestígación para reunir los datos ne:cesarios. _ En su:_fnf_orm~, es_ta empresa in9_icó _ que_e!·in_gr~so medio (aritmético) en el área era $"17 000. Además s~ se~aló que se est~diaron. 75 familias y que la desviación estándar de la ~ue_str~_t,u~-~3. _ oop. _4p~e_?E3 _~~g_Llí11_~-~-tar_e_f:_~_o_n_~_~j_()__g_ue _la _d_if_er,e1~c_i~ e_1_1tre_ e_!_ i~greso r11edi() resµltante de la inyestigación muestra! y la. meclia especificada por el Departamento de Educa"· ció.O se deba al azar (muestr~o)? Util.ic~ .el nivel 0.05. 32. Una empresa de venta de bienes rafc·es· a nive!· estatal, Farm Associates, se especi_aHza en ventas clfpropiéclades ruráies en el estació de N.ebraska. Sus registros indican que el tiempo medio _de venta·. de una_ g_ranja es 9.0 días.__ Débtdo a r~cientes _condiciones de sequía, estim_a que ~L}í_;3mpo,- 1!1etj_l().-_,d_e J1e1Tta .será su~erior_ a.90 :dfas:_, Ufl_ estud_io_.a nivel estatal de· -100 granjas vendidas_ reci_entement7 r~Y~. !6 qL1~__ el_ tiempo me_dio de- y~~ta -~ra 94 días,. con un_a desviación e~tándar de 22 días.Al nivel. de significancia ele 0.1 O, ¿se p(tede concluir que el tiempo de venta ha aumentado? 39:. _De _qcu~t~o . _c;o_n-e_I pr~s.ídéírt!9 del ?í_11¡jicató_local, _e! irigreso.. ?,ruto medio ele plom_eros en e! área ele Sal!Lake City tiene una distribucíón normal, con una rnedia de $30 000 (dólares) y una des- viaéiÓn está_ndar_de $_3. 000:- Recíen_te_m.ente, _un reportero de inv~stigaclón para un canaf de televisión encontró, en una rnuestra de ·¡ 20 plomeros, que e! ingreso bruto medio era $30 500. ALf1lve! _de .. sigrüfica_nc!a.de 0_.1.0i_ ·¿se- pued_E3.- c_on<:;!uir.quE;r et Ingreso nledio no es igual a $30000? Determine el valor p. 3_4.-__Urt_artíCu!o pu_blicad_o_ r_ec_ientemente en la revista -Vlt~/ify _reportó-que !a cantidad 111edia de tlem_po Hbre. por__s_e!Tl_ana de l_os h_ombres estadounidenses, es 40.0 horas. Se cree que. esta cifra es muy_elevada.y _se _decide realizar _una prueba'. En _una muestra aleatoria de 60 hombres, se encuentra que !a rnedfa es 37.8 horas ele tíempo libre a !a se1nana, y que la desviación es-
370 tándar de la rnuestra es i 2.2 horas. ¿Puede concluirse C¡ue la información en el artículo es falsa? Utilice et nivel ele signiflcéincia 0.05 .. Determine el valor p y expllque. su significado. 35, Un noticiarlo de la cadena televisara NBC,:en una.cáp·sula·relativa a! costo de fa gaso!_ina:, reportó anoche que el precio medio a nivel nacicina! de la gasolina normal, sin plomO, (en EUA) es $1.50 (dólares) por galón, en las estaciones de autoservicio. En una muestra aleatoria_ de 3_5 estaciones en el área de Sait Lake City, encontró que el precio medio era $t52 por galón, y·-ia -"'"déSVIE\CióYféStáfldá('$U.'05"'"PóY-Q"éll6!i':''Al"'i1'/\i8!"'d8'Sfg•n'ifí'C8ncia"'dtr-0:05';'"'lSB"'PU~de·-c'onc_!Uir·que el precío de !a gasolina es rnayor en e! área de Salt La.~e (;ít~?· 9etermine .el valor p. 36, La empres¡i Rutter Nursery Company empqca s,r abono .d.e c.orteza. de pino en sacos. d.e 50. libras. (lb). Desde.hace mucho tiempo el departamento de empaque reporta que la distribución de los pesos.de tos sacos es .norma! y la des~iación estándar de este proceso e.s 3 !b por: saco. A! finaf de cada día, ·Je"ff Rutter, gerente de p_roducción 1 pesa i Osacos .Y calcula el P~.so medio de. !a muestra. A continuación se encuentran ros· pesos de 10 sacos de la producción de hoy.
~ 4._1_.7~~4-7._&~_4_6_.3~~46_.2__·~4-7_.4~~49_.2~~5~58
47.5
485 /
a) /,Puede el señor Rutter concluir que el peso medio de. los sacos es menor que 50 lb? Utilice el nive!: .ele significancia o:oi, b) En un reporte breve, diga pOr qué el señor Rutter puede utllizar la distribución z c'omo e! estadístico de prueba. el c.alcule el valor p. - 37. En una encuesta nac_ionat rec.lenté~.· se encdntró.que la.cantldfid.·:rr;i_é:~ia semanal, de. apoyo monetario, asignada a la semana para un(a) niñq(a) .de nueve años de edad, es $3.65 (dólares). Una m_~te_stra aleq.torfa .de..45 .infante_s .dEl 9 año~ .en _cie.rtá reQiófl, reveló que la asignación media .era $3.69 con una d.esviación estándar.$0.24, Al. nivel de significancia 0.05, ¿existe una diferencia en la cantidad___media:asignad.a 21 nivel .nacio_na!, y .en. la. cantidad media asignada en . esa región para !os infantes ele 9 años? 38. _El fabriCante ele las m.otocicletas OsoSki aSegura.que-éstas dan ur:i r_endímíento promedio de '87 millas por ga!ón. de-gasq!ína. ·.En una muestra de . ocho, 111otocicletas los rendimientos fuero.n:
1
82
88
81.
87
80
78
79
89 1
En el nivel de significan?ia O.D5, ¿el rendimi~nto es inferior a 87 millas por galón? 39. LJncl tie.nda ele. mob.iliario casual 8St:JgUra.. a SUS clientes_queJa.entrega de un pedído_esp~cial toma,rá 6 semanas (42 días). _En !~s C1l_timoS. rneses e! clu.?ño h<;l ~.stado recibiend_o algunas que-:jas porque la? .entreg_as están tomando más: de .4? dí.03s. En un~ muestra de 12 pedidos. espe-' ~f.-les entregados er..mespasado,.se. enc_ontró que_ e!,tlerrtPº:·medio de .espera era 51 dífi~ con .cl.esviElpió.n,están~a.r 8_ dí8.s. En_e! nlvel,cl_S:_ sígn_ificanci.a 0,05,:¿tíenen que esperar los clier::ites, en. p_ron1edlo, n1ás .de 42 .días? Esti.me er vaf?.r p. 40.· U_n:artícufo .re_cíente .en. !/l/a!I Stre,pt-.Jou.rnal·.indiGEt_·qü8 .l_2i-{iiS~;_ P,rincipaf de.. interés ·.en :l_o.s· grand_es banco~, ac1ua!t11ent~~:ce_x9ed_e:9%._.En.uílft íllUe.str,a. . ,de_o_c,ho. bancos pequeños d_e una de"° t.er.minada r.eg1ón se encqn,traroh láS sigulent~s-.tasas_ de_ \nterés:
¡
101
9.3
9.2
10.2
9:3
9:6
9.4
8.8
1
En·:e.t niye.1 de,s_igY1ifiCanciá ü.:01_-, _¿~~·p_ued..e\jQnc!Uir, qu8.-_etí' !éJS ·.t)ancos·peqúSños.18 tas·á ·.df}.interés._e~_ $Up_erior ~ª ·?%_? ~stin1.e,et_·.vakJ,r.P·.
Un estudiante universitario (de Estado.s Unidos) toma en prqm~dio 27 galones de cafépor año; o 2.25 galones por mes. En una muestrade 12 .estudi~ntes de u~a determinada universidad se encontraron ras. s!gu.iente9 c,a_ntidacles de. consumo de café por mes 1
f75
1.96
1.57
1.82
1.85
1.82
2.43
2.65
2.60
2.24
1.69
2.66
1
En· el. nivel cl8· Sigílíficancia- 0.05 ¿_hay.· un~- difere·n.c.ia. Signi.~t?ati~a entre.·e¡ có_nsu_mü' promediO gener_al y _e! c.onsun10_ promedio d.e. los estu.dia1~tes: de· esta _uniyersídad? ·42~. La sala de recupe_ración de un ho_spital·~e ampl.ió-recienterriente con la intención de ateride·r a r;iás pac!ente~ por-día, consi.derando .9ue l.a-c.antidad promedio _de pacientes- por día era superior a 25: la cantidad ele pacientes en una muestra a!eatoria·de- ·15 días fue:
Prnebas !!e hipótesis parn m1a mueslrn
26
25
371
28
28
27
24
25
29
25
27
_E~ el_r1_iverct.~ sigriifiCailcia 0.01: ¿se.·pc1_ede conc!uir_qu8 la :cantidad media de pacíentes atendic:tqs por día es superior a 25?_ Estime e! valor cle _p e interprételo. 43. eg_off:com recibe, en promed_io, 6.5 devoluciones por día de compradores en línea. En una ..... m_uéstra_de.J2..días:Jas.__qantidades . de.. de.V.O!uCiones::r·ecibidas..fueron:.
5
7
6
9
En,·~1- niv81 de sigliificáncia O.O!, ¿puede Ccinctuirse qLi9 fa cantidad 111edia de devo!üciones por dí_á:es_ inférfor a 6~_5_? _44.: DLirante la· ú_!tima:-esta9ión;· se ha Criticado' á !a __ Liga Mayor de Béisbol por !a duraclón de lo_s juegos~ Un fhforme indica que !a· duracíón promediQ de un juego es 3 horas y 30 minutos. En una muestra de 17 jueg.os,· las duraciones fueron las siguientes. (Observe que los minutos se transformaron en fracciones de horas, de mari8ra que una duración de 2 horas y 24 minutos, setransformó en 2.40 horas.)
2.98 2.38
2.40 3-,75
2.70 3.20
2.25 3.27
3.23
3.17
2.52
2.58
2.93 4.45
2.80
3.18 2.45
¿Pu~de concluirse c¡ye la duracíón-media.de 'un juego seá inferior a 3.5 horas? Use el nivel de significancia O.Q5. 45. _La' Asóciacfón de R¡;:!oje'ros d_e E)uiza asE;gura que sus_ reloje_s_ j.amás se adelantarán o se atrasa·rán en una Sf_ma11a. En una. muestr~ de ·¡ 8 relojes se ·encontraron los siguientes segundos d.e adelanto.(+) o.de atraso(-) por semana.
~o.3s
-0.37
-0.20 -0.61
-0:38 -0.48
-0.32 -0.47
-0.23 -0.04
+·0.32 -0.64
+0.30 -0.20
+0.25 -0.68
-0.10 +0.05
¿Es. raZótíabl'i:; Cohcftlir que el ·adelanto o atraso de estos i'8!ojes es O? USe el nlve! de signHicancia .0.05, Calcule el valor p. 4_6; A é::úritiúuat:ión Sé·. d'a Una:-rista del' interés anl1al (indicado como· porGentaje} 'de "I 2 accí.ones ctaSificadas cümo rerltab!es·, 1
4.63
4.15
4.76
4.70
4.65
4.52
4.70
5.06
4.42
4.5'1
4.24
Usando·- el ·nivef· cje-~igílificancia 0.05,. ¿es ·razonab!e concluir que la tasa media de interés. es maybr-que 4.5%? 47~:Tín"a:·oenn1.s- es:ta ·irrterve:ntcfra ·ae una empresa_. Ei!ci_.Gree que !a aCtúai' faifa de ii(¡uid6z de· ia empreSáse debe al-fento Cobro de·sus cuentás. La señorita Dennis·considera que más de 60% d8'.l?s c_uentas_tie.rlt:;n.wn atraso superíor a tres meses. En una 'muestra aleatoria de 200 cuentasse.encdntró que 140 tenían rn.ás dé tres meses.En el niv.el de signíficancia 0.01, ¿puede cOric!uir~.e ·que:. más de 60%_de-fás· CUeiitás-.t.íerien. un,atraso de niás de tres 1neses? 48. Una_ !,ínea de: a_utobuses__aum~nta un .autobús en cua!q_uiera de .sus rutas si más de-55% ·de los pasaj_eros __ potencíales indic;an que._-!tT nec~s.itané. En-una muestra_ de 70_ pasajero.s se encontró que 42 _usarían .una determinada ruti;t ¿Satis_face esta ruta .e! cri_terío estab!eci_do para .aumentar un-auto_bús? Use_ et nivel de·signifiCancia 0.05. 4!l-·En uiia agehcia de. viajes Se sabe por experiencia· qúe 44% _d_e tas personas qué contratán sus se11Jic_ios· planean víajar.-a:Eürbpa. En,_la,(1tti1:ria temPo_rad'a-alta se toriló de! arCh\vó, aleatoriamente;_ 'uha_.müe'strá: de_:¡ ooo--planes .de vaaacíon.és;· ,de_:-esto_s 480 corr'espündían a personas que_ querí_an lr-a Europa. ¿Ha habi.do un aúm_ento_ de:;l-porcentaje ele personas que desean viajar a Europa?.Haga una prueba en el nivel ele slgniflcancia 0.05.. 50.-:Un- ·fabricante .de .receptores de-televisión sabe, por:--expEiriencia, que 10%,_ o 111enos_ ele sus equip_os· _necesitará_ alguna· reparación durante .Jos primeros__ do_s aí'íos de -funcionamiento: De uha_muestra d6-50 _rece'ptore:s que-se_-fabricaron hace-do$ años, 9 habían·necesitado una reparación:. :Empteando:e! n)vel de.sígnificancla 0.05; .¿se- puede.·decir.que ha aumentado el porcentaje de equipos que necesitan alguna reparación? Determine el valor p.
372 5i. Un urbanista dedicado a la pfaneación ase9urá.que, a nivel nacional, en un-detérminadó año, 20% de l~1s personas que. rentan un departamento en Cündoniínio se mudan. En una muestra aleatoria. de f.amílias que re_ntE:ban un c,ond_oiníni?: en D=a!!as, -~e encontró ·que de 200 .familias,_ 56.s.e rnudaron dura_nte. e! aílp pasttdo. _¿.lndican._estas ..ev_íct:ncias, en ef nível·_de s_ignificanc_í.a 0.01, que.la proporción .de_ per_sonas. que_ rentan un c:_ondpmini{).Y s_e_ mudan, es .mayor_en la re-
$1?~. d=e ~-ªu~_s? ·°'-~te,rriin~. -~-¡- _v_a_!ore_'....... _ . ---· . ___ . _..:... __ _ . ~- ....:. ·_
··· -5~t··uno ae ·ros·prrnc:rpa!es· fábriCáílt8ifde ·autom6Vi!éS ercEstados-unidos-..O"frece' L_it1a·pouza-de. ga:.;· rántía de dOs 8.ños. Ésta cubre- el motor, !a. :transmisión, y el tren motriz para todos !Os autos nuevos, hasta por2 años o 24 000 millas (mi) de recorrido, to que ocurra primero, Eldepartamer:ito de._aseguramiento..de.calidad_de! 'fabrican_te, c;ree __que el n_lrmero·m_edio cl8- millas d.e.:recorrido es n1ayor que 24 000. Una muestra de 3_5 .automóviles. reveló que la cantidad media recorrid~ era .24 421 111i, c9n una. desvfaQ.ió_n estándar.i _944-.mL' a) Al. .nivel dé_sígnificancia·cJe_0.05_, realice !a.siguient8.prueb21.de hipótesis. H0 >µ, ,,; 24 000 /-11: µ, >24 000
b} ¿Cuá! es el valor mayor de ta m8clía rriL1estral en et_ que no se· recháza Ho-? e) Suponga que ta media. de la población cambia a 25 000 mL ¿Cuál es la probabilidad de que rio dete'~te este.- cambio? 53. Uha máquina expendedora .de refresco de cóla se aj Lista para desp~char _9.00 Onzas ·_(Oz). de .líquido _por vaso 1 c_on _un~ _desviación .está~-d~r de ~l.. 00: oz_. A_! fabricante_ de !a m_áquina l_e .gustaría establ_ecer !os límites· de· control. de man.era q.ue· al us~r . mue_stras de tama~o 36, ~n .5% de las medias muestra!es sea (Tiayor que el límite·superior·de control, y 5.% de.!.as.medias. mueSt'r,al_~s sea mehor_cjLÍB 9! límité._·inTedor·d8 óO-ntroL -, a) ¿En qué valor debe fijarse el límite de control? b) ¿Cuál es ta probabilidad de que sí ta media de ta población cambia a 8,9, no se detecte el cambib? e) ¿Cuál es ta probabilidad de que si ta media de la población cambia a 9,3, no se detecte el cambio? 54, Los propietarios del centro comercial Franklin ParkMall están estudiando los hábito.s de compra de sU:s. cli_entes.: Por estudios.anteriore_$, los due_ños tleneli !a,. impr9slón de qu~ un comprador com(1n pasa O, 75 hor.a (h) en et establecimiento; con una desvia.ción estándar de OJO h. Recientemente los propietarios' d_el centro han abierto,_ algur.os .restaurantes dé_ especialidades para n1antener n1ás tiempo a !os clientes eh e! ce'ntro.comercial. Se ha co_ntratado a·una er'n~ presa de consultoría,. Brunner and Swanson rVlarketinQ Errterprises 1 para eva!uai~ los e'fec_tós de !os restaurantes. Una muestra de 45 cHentes reve!ó--que el--tiempo medio de permanen_cia en ef· centro comercia! aun1e1itó a·o.so h. a} Elabore µna prueba: de hi_Pótesis·pa_ra:deteríllinar·:si-e!.tiempo medio de permanencia.es m~y_or q_ue 9.75. h: _ytmce _el .ni_ve_l _~e si_gnificanc.ié!_de:.o:.~.5. b) Suponga que et tiempo medio de compras en realidad auníénf6 deü,75 ha 0,77 h: !,Cuál es ta probabilidad de que este incremento no sea detectado? e) C~an_9?··-1a_ em.pres·a cc)_ritr~tadt:t presen.tó_·f_a !nformi3Cló_n. deL incis?-_b). ¡;t _lo_s propiet~rl_os_ del_ centro.comercfa!/!es- sorprencBó .léf afirmación déi·.que·.una . investigactón no·. p_odrí~ c:lete9tar_ un cambio ele OJ5.h <:\ 0,77 h en et. tiempo de compras: ¿Cómo podría reducirse esta probabilidad? 55, Se dan las sigüie11tes hipótesis. nulayalternativa,
se
H0: ¡1,; 50 /-/1'. fL > 50 Supóngase que la. desviación estan.dardela pob.lación és '10. La probabilidad de un error de tipo 1se fija en 0:0·1, y la protiabi.lidad de un error de tipo ti, en 0,30:Gonsidere que la rnedia de ta población cambia ele 50 a55; ¿Cuál debe ser el tama11o de ta muestra para cumplir con Sstcis -requisitos? 56;· Con báse':en !a eXp~riencía, úna compélñía_-de_ s·eguroS estrm.a' ·c1ué :·el. daño: ined!ó que píódu.'"' ce·un desastre natural en una-zona determfnada- es· $5 ooo-dólares, D_espués ele int.roducír varios- planes· para.:evltar-_ ras pérdidas;: ·se rean:Zó un°.müestreo:: aleatorio- entre 200 ,clue.ñ_os d_e pólizas, encontrándose que !a cantidad m_edia-por rec!ama_ción era $4 800 1 con una desviación
373 estándar de_ Bt! 3DO. ¿Los planes de prevención tienen !a-_B"fectlvidad necesaria para reducir !a Car:ittdad-medfa0_de-la recfam_ación?.Use.el.nive! de sig-nificancia de 0.05. 5'7-; Una. revista de. cir_cu!ación nacional _reporta- t¡ue., _ eLconsumi_dortí¡Jlco gasta 8 minutos (min) en la ·fila de las cajas. Una n1uestra.de 24 Clientes en-el,supermercaclo locat indlcó·una media de 7;5_ min;.·.con-una d_esv[adón e_stándar de-3.2 min:-¿El tiempo cle:espera en e! supern1ercado !ocal· es _inferior,al Uempo que.-se_ reporta ·en fa r;:::vista de c!rcu!ación nacional? Use e! nivel de el.año 2000
rnedio, Con descuento 1 .de:un viajp._ e_n-avión entre Charlotte, Carolina
del Norte y Seattle,Washington era $267 (dólares), En unamuestra aleatoria de los precios de viaje redondo cOn descuento en esta rúta (que se. tomó el rnes pasado), se obtuvieron !as si-
guientes cantidades. 1
~321
:>2BEi
$290 · $3.lü
$310
$250
$270
$280
$299
$265
$291
$275
$281
¿Se P.uede concluir,·,·en.el·nhiet.de signiftc:;_ancia O.Oi, que (1a_au,nJentadO e_l' pieci'o?':¿Ci.)'á!: e.s:ei 11a!or p? 59. Una propue~ta_de_Lpre_sidente e_s_apoyada._ por 483._de los 1 _002 ciudadanos aCfu!tp$;;c_o1iSUhados a nlve_! nacionaL ¿Es razonable c_oricluír que la nación s8 encuentra dívidfda en partes ígua0
l~srespecto.a esta propuesta? l)se el.nivel de significancia 0.05.
60. Los sitios en !a red de USA Today (http://vvw'N.usatoday:con1/sports/mtb.htn1} y de la _Liga M8.y0rde Béisbol' (http://www.m_ajoileaguebaseba!l.con1) clan regu!aftnente información sobre los Sá!artOs ind!Víduafes de los jugadores. Vaya a estos sitios y encuentre lós salarios lndlvic!ua!es dé sll equipo f_(;lVorifo; _Calcule la media y !a desviacióri estándar. ¿Es razonable c_onc!uir que e! s9lario promedio en su equipo favorito es diferente de_ $·1 .8 mii!ones (de dólares)? Si a usted !e interesa·más_e¡.futbot,_ e!. bast¡uetboJ o el jockey, también puede encontrar inforn1ación sobre fos _sél_lar!os. 6.i. _GáHUp_-:es una de.!as:·empresas·de encuestas de opinión niás conocidas en EUA. Con frecuenqía. éolab6ra Cón .USA Today o con _CNN p_ara rea!!zar encuestas so_bre temas de actualidad. L_a emp_re_sa;_cuentcrcon·· un__sít10-13n la red, http://wvvw_._gailup.com/lndex.htm!. Consulte este sitio_-pé!r?' ¡::ncontrar !o_~ l1ftímos_ resultados _de_Jas__í:?ncuestas·reaHzadas sobre la tasa de aprobac_ión del _desempeño d_el_ presidente-de: EstEid_os Unidos. Pro_bablernente necesite dar un clic en !f! __ op.cJ9n .fast Facts_, Pruebe:-~i-la 111~yoría _ (E:_sto es _más de 50%) aprueba el-desempeño de! pres!dente.·Si-.-e!-artícuto no-indica la cantidad ·de personas en !a encuesta,_ suponga que es i 000, que es !a cantidad que se acostumbra tomar.
Ejercicios con datos para computadora ·~~~~~~--.,-...~~~~......,~
62. Considere.: el_ conjunto de _datos de bienes rafees (Rea.! State), qlie_da. informac_ión- acerca de casas_ vend!das en el área de Ver1ice, Ftorlcla, durante e! año pasado. a} Uri artículo_ réciE:nte _publiCádo' en el-periódico Tárnpa -Times lnclicó·que é! precio· .de ·venta medio de las.cáSas·en !a c.osta:oeste de Florida es rnayor tjue $220 000-(dó!ares). ¿Se pue:' de concli.1ir-que é! pred_o medio de.venta erl e! área_de Venice es major que $220 000? Utilice el.nivel_ de signi·ficanc!a de O.Oi .. ¿CuáJ. es e! va!_or p? b} El mismo cirtículo infocinó que !a extensión· m_éclia de !as casas· es de más de 2 iOO pies cuadrftdoS. ¿Puede _.concluirse que et ta_mailo-_medld de las casas·_ vendidas 811 eJ área de VeniGe es ílléiy_or que 2 100 pies cüac!rad_os?· Utilic·e e! nivel de siQni·flcancia de o-.o·t. _¿Cuál es el valor p? e} Determfne fa ¡Jroporció_n de casas que tienen un garaje adjunto. Al· ni_vel ele· slQnificai·1cia de 0.05, ¿se puede decir que rnás de 60_% de !as· casas tiene cochera? ¿Cuál es el _vator p? d} Determine: la- p_roporcíón _de· casas que tienen-piscina. Al nivel de signíficancia de 0.05, ¿puede concluirse que 111ás d8 60~/o de !as casas tíenen piscina?· ¿Cuát·es e! valor p? 6_3. Refiérase a !os ·datos sobre.béisbol (Baseba!I 2000), ql1e dan información 8cerca de los 30 eql1ipos de fa.Liga riiayoi" de béisbot en !a temporada clel aíío 2000.
374
Capitulo "llJ a) Realice una prueba de hipótesis para determinar sí el salario medio de los equipos fue di.' ferente de $50.0 millones: Use el nivel de significanda 0:05. b} Realice una prueba dehípótesi.spara determinar_ sí la cantidad media.de espectadores por. equipo fue superiora dos mi lionés, 64: Vaya al conju0to de datos delaOECDqué brinda Información acercad~ censos, dat9seco~ nómicos y comerciales de 29 paíseq. Realice una prueba de hipótesis para determi0.~r si la ··cantidáclfñédia depéfsfü\ásempleadas·iua·inféfi?'ª•W!lii_l••(Recuerde que los datas serse portan en miles, de man~ra que la verdadera cantidad de empleados es. 20 millones:) Emplee · como nivel de sígnificancia o,05. Estime el valorp.
Comandos para compu.t
357 ;;on: •.. .. ·.·· .. ·...· · . .·. . . .··•:·. ·.. ··• .....·. •...• _.•·.·:.·-· · a) Introducir l~s datos en la columna C1 y nombrar Length VoF)giWd)á 1¡¡ v.ariable, b} En_ la P~.rr~ del me~ú, seleccionar l)tat, basic ~tatistíc,+~amf'l_e ty oprimir Ente~ En s¡¡guida áparecerá la siguiente venta0acjediálogo.
· ·
·
·.... .·.:.·::·. '. e) ~.e.i.e,~~i.on~\ L.eno~h 9ºíl1P ~.l_ft._ \f(:l~_i.ctf:J le, :_-~é_IE3_9?ip~~.r_ T~St _ _~-~~,rt;:. fri_s,_e_rt_élr, Oprilrúf}3n:: P~,:: tiónsy seleccionarAlternative y la opción not 9quaLDespués oprimir QI( en.las dósvén_" /_-
4a;: _
tanas.;de diálogo.
Pruebas de hipótesis para una muestra
375
376
10.6 Xc-1.A.1
z = - -..-.
r;/Vn
~ 2()_ü_l_~~-· 0 iS_(l_ ~ '--2.55 400/v'1ilü . El área bajo la curva para z ~ -2.55 es 0.4946 (apéndice D); y 0.5000:. 0.4946 0.0054 -
=
O!:lJET!VOS Al terminar este capítulo pódrá: UNO Comprender ta diferencia enfre ··
muestras dependie.ntes e._i_fl_d~~ pendientes. !l>OS Real.izar una prueba de bipótec sis··_ acerca_ -?:~_:(a diferenCi_a: ent¡e dos [fl~t:!ias de poblado-· nes independientes, cuando ambas·muestras 1ienen·3Q o más etemerffos.
1'RE~ Re~ti~E\r µn¡¡prueba de hip6te, sis acerca·de la diferencia enfre".db~iT!~c:lias poblacibhales; cuando por lo "'''nh~ '''"'" de las muestras tiene de :JO elementos.
:CrJATfiO Realizar.una prueba dé hipóte, sis acerca de ta diferencia entre dos proporciones poblacionéiles·.·
·:e:!HCO R~ali~ar unaprueba de hipóte8-¡~·-,aC~'.c~--~,~-- l_a dif_erenci_a
media entre observaciones por par~~( U: ób'sérvaclorles d8péri_ó..· dientes.
378
Capítulo 11
Introducción
La estadística en acción
En el capítulo 1O se inició el estudio de pruebas de hipótesis, Se describió la naturaleza de dichas pruebas y se realizaron pruebas de hipótesis en las que se compararon los resultados de una sola muestra con un valor poblacionaL Es decir, se tomó una sola muestra de la población y se-realizó una prueba para ver si el valor poblaciona! propuesto era razonable. Recuérdese que en el capítulo 1O se tomó una muestra de las cantidades de escritorios armados semanalmente en una empresa para ver si la tasa de producción se había modificado, También se tomó una muestra de votantes de una región de un estado específico, para determinar si la proporción poblacional que estaría dispuesta a apoyar la reelección del gobernador era mayor que Q,80, En ambos casos se comparó el resultado de un solo valor estadístico muestra! con un parámetro poblacionaL En este capítulo se amplía a dos muestras el concepto de prueba de hipótesis, Es decir, se toman dos muestras aleatorias para determinar si provienen de una misma población o de poblaciones iguales, Algunas de las preguntas que se desea probar son: ·1, ¿Existe alguna diferencia entre la cantidad media de inmuebles residenciales vendidos en el sur de Florida, por agentes de ventas de uno y otro sexo? 2, ¿Hay diferencia en la cantidad media de defectos producidos en el turno matutino y los producidos en el turno vespertino, en una empresa? 3, En la industria de comida rápida, ¿hay diferencia en el número de días de ausencia entre los trabajadores jóvenes (menores de 21 años) y los trabajadores de edad mayor (mayores de 60 años)? 4. ¿Hay diferencia en la proporción de egresados de la Universidad Estatal de Ohio y los egresados de la Universidad de Cincinnati, que son aprobados en el primer intento en el examen estatal para ejercer corno contadores públicos certificados (CPA)? 5. ¿Aumenta la tasa de producción si hay música en el área de trabajo? Este capítulo empieza.con la situación en la que se toman muestras aleatorias de dos poblaciones para investigar si estas poblaciones tienen la misma
n1eclía.
Pruebas de hipótesis: n1edias poblacionales regisl1os de clulo"""""'"' "de.sus lecto-
res.- En 1936 no había :túú_chct:i· perSoifas ·que ljudicrarí tCner üú tdéfón'o o un
propios. Además los leCtores dd Diges/' ten-
Un planeador urbano, en el estado de Florida (EUA), desea saber si hay diferencia en el salario medio por hora de plomeros y electricistas en el centro de ese estado. Un contralor quiere saber si la tasa media de ganancia ele fondos mutualistas ele alto rendimiento difiere de la tasa media de ganancia ele fondos mutualistas globales. En cada uno de estos dos casos hay dos poblaciones independientes. En el primero, los plomeros representan una población, y los electricistas, la otra. En el segundo caso, los fondos mutualistas de alto rendimiento son una población, y los fondos mutualistas globales, la otra, En cada uno de estvs casos, para investigar lo que se desea, se toma una muestra aleatoria de cada población y se calcula la media de las muestras. Si las dos poblaciones son iguales, es decir, si el salario medio por hora ele plomeros y electricistas es el mismo, se es-
Pruebas de hipótesis para dos íl1l!estras
Yse-verific_a,si· v_8rda
'ta"tiúíS:"'¿Qué' súceCll6
- 2o·n·erL'itefái)"DigeSt? Cei'i:6. sus ÜfíCfrú:iS.' poC6 ckspués:QC las cit~das elecciones· presidencia-'
les de 1936.
379
perará que !a diferencia entre !as dos medias muestrales sea cero. Pero ¿si los resultados muestrales dan una diferencia distinta ele cero? ¿Esa diferencia se debe a la casualidad o a que hay diferencia en !os ingresos por hora? Una prueba con dos muestras para !os valores medios ayudará a responder a esa pregunta. Es necesario regresar a !o estudiado en el capítulo 9. Recuérdese que se mostró que una distr_ibución de medias muestra_les tiende a aproximarse a la distribución no1·mal si el tamaño de la muestra es, por lo menos, igual a 30. Es necesario considerar una vez más que la distribución de las medias muestrales seguirá !a distribución normal. Se puede demostrar matemáticamente que la distribución de las diferencias entre dos distribuciones normales también es normal. Se puede explicar esta teoría con el ejemplo del planeador urbano de Florida. Para empezar se considera cierta información con la que generalmente no se cuenta. Supóngase que la población de plomeros tiene una media de $30.00 (dólares) por hora, con una desviación estándar de $5.00 por hora. La media para la población de electricistas es$ 29.00, y la desviación estándar, $4.50. Con esta información es claro que las dos medias poblacionales no son iguales. Los plomeros ganan $1.00 más por hora que los electricistas. Pero no se puede esperar que se descubra esta diferencia cada vez que se toman muestras de las dos poblaciones. Supóngase que se ton1a una muestra aleatoria de 40 plomeros y una n1uestra aleatoria de 35 electricistas, se calcula la media de cada muestra y se determina la diferencia entre las medias muestrales. Es esta diferencia entre !as 111edias muestrales lo que interesa. Si las poblaciones tienen !a misma media, se esperaría que la di-ferencia entre !as dos medias muestrales fuera nu!a. Si hay alguna diferencia entre las medias poblacionales, se esperaría encontrar diferencia entre las medias muestrales. Para entender Ja teoría, es necesario tomar varios pares de muestras, calcular las medias, determinar la diferencia entre las medias muestrales, y analizar la distribución de las diferencias entre las medías muestra!es. Por el estudio de la distribución de las rneclias muestrales, en el capítulo 9, se sabe que la distribución de las medias muestrales sigue la distribución normal (suponiendo que n ~ 30, por lo menos). Si las dos distribuciones de las medias muestrales siguen la distribución norma!, entonces se puede pensar que la distribución de sus diferencias se apegará también a la distribución normal. Este es el primer obstáculo. El segundo obstáculo se refiere a la media de la distribución de las diferencias. Si se encuentra que la media de esta distribución es cero, esto implica que no hay diferencia entre las dos poblaciones. Por otro lado, si la media de la distribución de !as diferencias es un valor distinto de cero, ya sea positivo o negativo, entonces se concluye que las dos poblaciones no tienen la misma media. Para dar números concretos, se volverá al caso de! planeador urbano, en Florida. La tabla 1 ·1.1 muestra los resultados obtenidos de tomar 20 muestras de 40 plomeros y 35 electricistas, calcuiar la media de cada muestra y determinar !a di·ferencia entre !as dos medias muestrales. En el primer caso, la muestra de 40 plomeros tuvo una media $29.80 (dólares), y en el segundo, la media fue $28.76. La diferencia entre las medias muestrales es $1.04. Este proceso se repitió -19 veces más. Obsérvese que en 17 de los 20 casos la media de los plomeros es mayor que la media de los electricistas.
380
Ga[Jítu!u i ·¡ lABlJJ, 1iJ
1\!Ic
i JV~uestra
1
2 3 4 5 6 7 8 9 10 11 12 13 ·14 15 16 17 18 19
L2º
Plomeros
Electricistas
Diferencia
$29.80 30.32 30.57 30.04 30.09 30.02 29.60 29.63 30.17 30.81 30.09 29.35 29.42 29.78 29.60 30.60 30.79 29.14 29.91 28.74
$28.76 29.40 29.94 28.93 29.78 28.66 29.13 29.42 29.29 29.75 28.05 29.07 28.79 29.54 29.60 30.19 28.65 29.95 28.75 29ZI
$ 1.04 0.92 0.63 1.11 0.31 1.36 0.47 0.21 0.88 1.06 2.04 0.28 0.63 0.24 0.00 0.4·1 2.14 -0.81 1.16 -0.47
El último obstáculo es que se necesita saber algo acerca de la variabilidad de la distribución de las diferencias. En otras palabras, ¿cuál es la desviación estándar de la distribución de ta!es diferencias? La teoría estadística indica que cuando se tienen poblaciones independientes, como las que se tienen en este caso, la varianza (la desviación estándar al cuadrado) de la distribución de las diferencias, es igual a la suma de las dos varianzas individuales. Esto significa que se pueden sumar las varianzas de !as dos distribuciones muestrales. ~-
~---=--~~~-·
VA~1¡.&,Nfi~\ D_E_:-~A_-_D~S~f-~üEH)GJÓN- P_!E-lA9
1 DIFE131';1'JCIAS EN MEDIAS NlUESTRAlES
'
-·-~------~
[11.1]
El primer n1ien1bro de la ecLación parece complicado, pero no es di'fícii de interpretar. E! término, s 2 , indica que es una varianza n1uestral, y e! subíndice X1 - X2 , señala que es una distribución de diferencias de medias 111uestraies. Esta ecuación se puede escribir en 'forn1a más usual tomando la rafz cuadrada, para obtener la desviación estándar de la distribución de las diferencias. Por L1!timo se estandariza la distribución de las diferencias. El resultado es la siguiente ecuación:
[11.2]
Antes de presentar un ejemplo, se recorciaré.n los supuestos necesarios para usar la 'fórrnula 11.2. Primero, no debe hc.ber relación entre !as dos poblaciones, es decir, tienen que ser independientes. Las muestras deben ser stxficienterr1ente grandes para que la distribución cie !as n1edias rnuestrales siga la distribuc!ón normai. Se acostumbra requerir que ambas rnuestras tengan por lo rnenos 30 observaciones.
381 El ejemplo siguiente muestra los detalles de una prueba de hipótesis de dos muestras para los valores medios.
IEJIEMPUJ
A cada paciente de un cleterrninado hospital se le pide que evalúe e! set·vicio cuando es dado de alta. Últimamente se han recibido quejas de que los médicos residentes y las enf8rn1eras de! piso de círugíéi tardan demasiado en responder a !as llarn·aaas· ae--iOS"-·pacientes adultos. Se quejan de que !os demás enfermos reciben un servicio n1ás rápido. El director del hospital pidióral consejo de administración que investigara lo anterior. Después de analizar el problema, el consejo de admínistración reunió la siguiente información muestra!. ¿Es razonable concluir, en el nivel de signiflcancia 0.01, que el tiempo medio de respuesta es mayor en e! caso de los pacientes adultos mayores? ¿Cuál es el valor p en este caso?
Tipo de paciente
Media muestra!
Pacientes adultos 5.50 minutos 5.30 minutos Otros
SOLUCIÓN
Desviación estándar de la muestra
latirnaño dla !a rrmestra
0.40 minutos 0.30 minutos
50 100
Se usa el proceso de prueba de hipótesis de cinco pasos. Paso 1: Establecer la hipótesis nula y la hipótesis alternativa. La hipótesis nula es que no hay diferencia en el tien1po i11edio de respuesta entre los dos grupos. En otras palabras, la diferencia de 0.20 minutos entre el tiempo medio de respuesta para los pacientes de edad mayor y el tiempo medio de respuesta para los demás pacientes, se debe a la casualidad. La hipótesis alternativa es que el tiempo medio de respuesta es mayor para los pacientes adultos. Se usará p. s para el tiempo medio de respuesta en !as poblaciones de los pacientes adultos y ~º para el tiempo medio de respuesta de los otros pacientes. La hipótesis nu!a y la hipótesis a!ternativa son:
Ha: /J"s ~ µo H1: P"s > µo
Paso 2:
!Paso 3:
Elegir el nivel de significancia. El nivel de significancia es la probabilidad de que se rechace la hipótesis nula cuando en realidad es verdadera. Esta probabilidad se determina antes de to111ar la muestra o realizar cualquler cálculo. Los niveles de significancia 0.05 y 0.01 son los más aplicados, pero también se usan otros niveles como 0.02 o 0.1. En teoria se puede elegir cualquier valor entre O y -¡. en este caso el departamento de aseguramiento de la calidad eligió el nivel de significancia 0.01. Determinar e! vaior estadístico de prueba. En e! capítu!o -¡O se utílizaron la distribución normal estándar (es decir, z) y t co1110 estadísticos de prueba. En este caso, como las muestras son grandes, se aplica la distribución z como estadístico de prueba. En capítulos posteriores se usarán otros valores estadísticos, por ejemplo, la distribución F. y la distribución Formuiar una. regla de decisión, La regla de decísión se basa en las hipótesis nu.a y alternativa (esto es, si se trata de una prueba de una o de dos colas), en el nivel de significancia y el estadístico de prueba usado. El nivel de significancia seleccionado es O.Oi, el estadístico de prueba es la distribución z, y se desea determinar si el tiempo medio de respuesta es mayor para los pacientes adultos. La hipótesis alternativa establecida indica que el tiempo medio de respuesta es mayor para los pacientes de edad mayor que para los demás. Por tanto, la región de rechazo se en-
x'.
Paso 4:
382
Capítulo 11 cuentra en la cola derecha de la distribución normal estándar. A fin de encontrar el valor crítico se coloca 0.01 del área total en la cola superior. Esto significa que 0.4900 (que procede de 0.5000 - 0.0100) del área, se encuentra entrez""' O y el valor crítico. A continuación se busca en el apéndice D un valor cercano a 0.4900. Este valor es 2.33, por lo que la regla de decisión es rechazar H0 si el valor calculado para el estadístico de prueba es mayor que 2.33. En el diagrama 11.1 se representa la regla de decisión.
La estadística en acción
o
2.33
Escala de z
Valor crítico
D!ft.GRAMA 11,1
7.6.
Regla de decisión para una prueba ele una cola en el nivel de significancia O.O 1.
Paso 5: Tomar la decisión respecto a H 0 e interpretar el resultado. Para calcular el valor estadístico de prueba se usa la fórmula 11.2:
z=
5.5 - 5.3
=
__Q1_
ioAo' o.3o' o.os4 V50+
=
3 13
.
100
El valor calculado 3.13 es mayor que el valor crítico de 2.33. La decisión es rechazar la hipótesis nula y aceptar la hipótesis alternativa. La diferencia de 0.20 minutos en el tiempo de respuesta de los pacientes adultos y los demás pacientes es demasiado grande para que hubiera ocurrido por casualidad. El consejo de administración puede informar al director del hospital que el tiempo medio de respuesta para los pacientes adultos es superior al tiempo de respuesta para los demás pacientes. ¿Cuál es el valor p del estadístico de prueba? Recuérdese que el valor p es la probabilidad de encontrar, para el estadístico de prueba, una magnitud tan extrema, cuando la hipótesis nula es verdadera. Para calcular el valor p se necesita la probabilidad de tener un valor z mayor que 3.13. En el apéndice D no se puede encontrar la probabilidad correspondiente a 3.13. El valor mayor es 3.09. El área que corresponde a 3.09 es 0.4990. En este caso se puede informar que el valor pes menor que 0.001 O, que proviene de 0.5000 - 0.4990. Se concluye que la probabilidad de que la hipótesis nula sea verdadera es muy pequeña.
En resumen, los criterios para emplear la prueba con muestras grandes para la media son: 1. El valor de ambas muestras es por lo menos 30. En el ejemplo del hospital, una muestra era 50, y la otra, 1OO. Como ambas muestras se consideran grandes, se puede sustituir la desviación estándar muestra! por la desviación estándar poblacional, y usar la fórmula 11.2 para encontrar el valor del estadístico de prueba.
Pruebas de hipótesis para dos muestras
383
2. Las muestras provienen de poblaciones independientes. Esto significa, por ejemplo, que el tiempo medio de respuesta para los pacientes adultos no tiene ninguna relación con el tiempo medio de respuesta para los demás pacientes. Si se considera a un paciente de edad mayor y se muestrea su tiempo de respuesta, esto no afecta el tiempo de respuesta de ningún otro paciente.
Auloexamen 11. 1
El propietario de un negocio ob.serva que hay una diferencia e~tre el monto de las ventas realizadas por !os ve.~dedores ho.mbres. y muje_res_ que !8.b?ran__ e_n,_su establecimiento. En una muestra de 40 días en?uentra que los hombres vendieron en promedio $1 400 (dólares) por día, · con desvi_ación_ estándar $200. En un~ muestra de_ 50 días encuentra que las mujeres vendieron.en promedio $1 500 por día, con desviación estándar $250. En el nivel de significancia 0.05,
¿puede concluirse_gu_e_el monto. de las ventas reaHza:_das por la? mujeres es superior? a) b) c) d) e)
n
Establezca .la hipótesis nula y la hipótesis alternativa. ¿Cuál .es. la regla de.decisión? ¿Cuál es el valor del estadístico de prueba? ¿Cuál es su .decisión respecto a la hipótesis nula? ¿Cuáles el valor p? Interprete los resultados.
Ejercicios 1. De una población se toma una muestra de 40 observaciones. La media muestra! es 102 y la desviación estándar, 5. De otra población se toma una muestra de 50 observaciones. La media muestra! es ahora 99 y Ja desviación estándar es 6. Realice !a siguiente prueba de hipótesis usando como nive! de significancia 0.04.
Ha: µ1 = µ2 H1: µ1 µ2
*
a) ¿Es esta una prueba de una o de dos colas?
b) Establezca la regla de decisión. e) Calcule el valor del estadístico de prueba.
d} ¿Cuál es su decisión respecto a la hipótesls nula? e) ¿Cuál es el valor p? 2. De una población se toma una muestra de 65 observaciones. La media muestra! es 2.67 y la desviación estándar es 0.75. De otra pob!acíón se toma una muestra de 50 observaciones, y ahora la media muestra! es 2.59 y la desviación estándar de la muestra, 0.66. Realice la siguiente prueb8.-de hipótesis usando como nivel de significancia 0.08.
Ha: µ1
~ µ2
H1: µ1
>
µ2
a) ¿Es esta una prueba de una o de dos colas? b} Establezca la regla de decisión e) Calcule el valor del estadístico de prueba d) ¿Cuál es su decisión respecto a la hipótesis nula? e) ¿Cuál es el valor p? Nota: En los ejercicios siguientes utilice el procedimiento de cinco pasos para una prueba de hipótesis. 3. Una empresa que elabora alimentos para bebés quiere comparar el aumento de peso en infantes que usan sus productos, con el aumento de peso de bebés que consumen los productos de sus competidores. En una muestra de 40 bebés que usan sus productos, el aumento medio de peso en los primeros tres meses de vida fue 7.6. lb (libras). La desviación estándar de la muestra fue 2.3 lb. En una muestra de 55 bebés que utilizaban los productos de la competencia, el aumento medio de peso fue 8.1 lb, y la desviación estándar, 2.9 lb. ¿Se puede
384
Capitulo 11 concluir, en el nivel de significancia 0.05, que el aumento de peso es menor en los bebés que usan su marca? Calcule el valor p e ínterprételo.
4. Como parte de un estudio de los empleados de un corporativo, el director de recursos humanos de una empresa desea comparar !a distancia que recorren los empleados que trab~jan en !as oficinas localizadas en el centro de la cuidad de Cincinnati, con la distancia que recorren quienes trabajan en las oficinas ubicadas en el centro de Pittsburgh. En una rnuestra de 35 empleados de Cincinnati, la rnedia fue 370 millas por mes, con una desviación estándar 30 millas por mes. En una muestra de 40 empleados de Pittsburgh, la media fue 380 millas por mes, y la desviación estándar, 26 milla.s mensuales. En el nivel de significancia 0.05, ¿hay alguna diferencia en la cantidad rhedla d9 nlil!aS recorridas por n1es ent.re !os empleados de ambas ciudádes? Use el procedimiento de cinco pasos para la prueba de hipótesis. 5. un analista financiero ha de comparar las tasas d8 !as transacciones comerciales, erf porcentaje, de participaciones en acciones _de finanzas relacionadas con e! petróleo, C.o.ntra_ otras acciones, como las de industrias de manufactura {GE e JBM.) Toma 32 acciones re!adionadas con el petróleo y 49 acciones de otras actividades. La tasa media del monto de transacciones relacionadas con el petróleo es 31.4%, y la desviación estándar, 5.1 %. En las otras acciones la tasa media fue 34.9% y !a desviación estándar, 6.7%. ¿Es esta una diferencia significativa en la tasa considerada de los dos tipos de acciones? Use el nivel de significancia 0.01. 6. La subdirectora del servicio de enfermeras en un hospital observó recientemente que los salarios de enfermeras sindicalizadas parecían ser un poco más altos que los de las enfermeras no sindicalizadas. Decidió investigar lo anterior y obtuvo la siguiente información muestra!.
Grupo
Sindica!izada No sindicalizada
Salario prom·edio
Desviación estándar muestra!
Tamaño de la muestra
$20.75 $19.80
$2.25 $°190
40 45
¿Sería razonable que concluyera que las enfermeras sindicalizadas ganan más? Use el nivel de significancia 0.02. ¿Cuál es el va!or p?
Comparación de poblaciones con muestras pequeñas En la sección anterior se consideró que las dos desviaciones estándar poblacionales eran desconocidas, pero que las muestras aleatorias tenían 30 o más observaciones cada una. En esta sección consideramos el caso en el que las desviaciones estándar pob!acionales son desconocidas, y el número de observaciones en por lo menos una de las muestras es menor
que 30. Lo anterior se conoce como "prueba con muestras pequeñas, para las medias". Los requisitos para la prueba con muestras pequeñas son más estrictos. Las tres suposiciones necesarias son:
1. Las poblaciones muestreadas siguen la distribución normal. 2. Las dos muestras provienen de poblaciones independientes. 3. Las desviaciones estándar de las dos' poblaciones son iguales. El estadístico d.e prueba es la distribución t. La fórmula para calcular el valor de t es parecida a la 11.2, pero se necesita hacer un cálculo adicional. La tercera de las suposiciones anteriores indica que lac; desviaciones estándar de la población deben ser iguales. Las dos varianzas n1uestrales se utilizan para obtener una sola estimación de la varianza poblaciona!
desconocida. En esencia, se calcula una media ponderada de las dos desviaciones estándar muestrales y se usa como una estimación de la desviación estándar poblacional. Las ponderaciones son los grados de libertad que proporciona cada una de las muestras. ¿Por qué se necesita conjuntar las desviaciones estándar? En la mayor parte de los casos en los que cada una de las muestras tiene menos de 30 observaciones, la desviación estándar poblacional no se conoce. De modo que, se calculas, la desviación estándar muestral, y se usa para
385
Pruebas de hipótesis para dos m"esiras
sustituir a
VARIANZA G.ONJUNTA
[ii.3]
donde: sj es la varianza (desviación estándar al cuadrado) de la primera muestra. s~
es la varianza de la segunda muestra.
El valor de t se calcula mediante la siguiente ecuación:
[11,4]
donde: )(_1
X2 n1
n2
s2
es es es es
la la el el
media de la primera muestra. media de segunda muestra. número de elementos en la primera muestra. número de elementos en la segunda muestra.
'ª
es la estimación combinada de la varianza de la población.
El número de grados de libertad en la prueba es igual al número total de elementos muestreados, menos el número de muestras. Como se tienen dos muestras, hay n 1 + n 2 - 2 grados de libertad. La empresa Owens Lawn Care, lnc., fabrica y ensambla cortadoras de césped, que se envían a comerciantes de Estados Unidos y Canadá. Se han propuesto dos procedimientos para instalar el motor en la armazón de una cortadora. La pregunta es: ¿existe alguna diferencia en el tiempo medio para montar los motores en las armazones de las cortadoras? El primer método fue desarrollado por Welles, un empleado de la compañía (y se designa como procedimiento 1), y el otro lo desarrolló el subdirector de ingeniería, Atkins (y se designa como procedimiento 2). Para evaluar los dos métodos propuestos, se decidió efectuar un estudio de tiempos y movimientos. Se consideró una muestra de cinco empleados que utilizaron el método 1, y otra de seis que aplicaron el procedimiento 2. Los resultados, en minutos, se muestran a continuación. ¿Existe diferencia en los tiempos medios de montaje? Utilice el nivel de significancia de O:I O. Procedimiento 1 (minutos)
Prncedimiento 2 (minutos)
2
3
4
7 5 8
9 3
2
4 3
386
SOLUCIÓN
Capítulo 11 La hipótesis nula expresa que no hay diferencia en el tiempo medio de montaje entre los procedimientos 1 y 2. La hipótesis alternativa indica que sí hay una diferencia.
Ho:
µ1::;;;
H,: f11
µ2
* f12
Los supuestos requeridos son: 1) Las observaciones en la muestra de Welles son independientes de las observaciones en la muestra de Atkins, cualquier otra. 2) Las dos poblaciones siguen la distribución normal. 3) Las dos poblaciones tienen desviaciones estándar iguales. ¿Existe alguna diferencia entre los tiempos medios de ensamble utilizando el método de Welles y el de Atkíns? El número de grados de libertad es igual al número total de elementos muestreados menos el húmero de muestras. En este caso es n 1 + n 2 - 2. Cinco ensambladores utilizaron el método de Welles, y seis, el método de Atkins. Por tanto, hay 9 grados de libertad, que se obtienen de 5 + 6 - 2. Los valores críticos de t, tomados del apéndice F para gl = 9, prueba de dos colas y nivel de sígnifícancia de 0.1 O, son -1.833 y+ 1.833. La regla de decisión se ilustra gráficamente en el diagrama 11.2. La hipótesis nula no se rechaza sí el valor calculado para t se encuentra entre -1.833 y + 1.833.
Valor
Vator crítico
DIAGRAMA 11 .2
Paso 1:
crítico
Regio_nes de rechazo, pr:ne_ba de dos colas, gl::::: 9, nivel de significancia 0.10.
Cálculo de las desviaciones estándar muestrales. Los detalles se presentan a continuación.
Procedimiento 1 . Procedimiento 2 .
X,
X'1
x,
2 4 9
4 16 81
3
3 2 20
9
4 114
X'
'9
7
49
5
25
8 4
64 16 9 172
3 30
387
Pruebas de hipótesis para dos muestras
1
2:X 2
s2
11 1 4(20) -j 5 - 15 = 2
Paso 2:
/
= \
2 "''X 1 2)
~--
-
nz
2
n2
r:::=
--
1
(30)2 y~ 16 = 2.0976
Combinación de las varianzas muestrales Se utiliza la fórmula 11.3 para combinar las varianzas de la muestra (desviaciones estándar al cuadrado):
sP' =
Paso 3:
2.9155
1
(n 1 -1)s\
+ (n
--
+ 2 n1 n2 - 2
1)s!
=
(5 - 1)(2.9155) 2 + (6 -1)(2.0976) 2 = 6.2222 5+6- 2
Determinación de t El tiempo medio de montaje para el procedimiento 1 es 4.00 minutos, que se obtiene de X1 = 20/5. El tiempo medio cl_e montaje para el procedimiento 2 es 5.00 minutos, que se obtiene de X2 = 30/6. Se usa la fórmula 11.4 para calcular el valor de t.
t=
x, - x,
=
4.00 - 5.00
= -0_662
~s~(~ 1 + ~,) ~5_2222(i + ~) La decisión es no rechazar la hipótesis nula debido a que -0.662 cae en la región entre -1.833 y+ 1.833. Se concluye que no existe diferencia en el tiempo medio para montar el motor en la armazón, cuando se usan ambos métodos. También se puede estimar el valor p recurriendo al apéndice F. Se localiza el renglón correspondiente a 9 grados de libertad y se emplea la columna para pruebas de dos colas. Se encuentra el valor t, sin considerar el signo, que esté más cerca al valor calculado de 0.662. Este valor es 1.383, que corresponde al nivel de significancia 0.20. Por tanto, aunque se hubiera usado 20% como nivel de significancia no se hubiera rechazado la hipótesis nula.de que las medias son iguales. Se puede informar que el valor pes mayor que 0.20.
Ejemplo de software en el que se utiliza el programa Excel Excel tiene un procedimiento denominado "Prueba t: Dos muestras, suponiendo varianzas iguales", que realizará los cálculos de las fórmulas 11.3 y 11.4, además del cálculo de las medias y varianzas muestrales. Los datos se introducen en las primeras dos columnas de la hoja de cálculo de Excel, marcadas "Uno" y "Dos". El resultado es el siguiente. El valor t, denominado "t Stat", es -0.66205, y el valor p para dos colas, es 0.52453. Como era de esperarse, el valor p es mayor que el nivel de significancia 0.1 O. La conclusión es no rechazar la hipótesis nula.
388
Gapilulo 11
9 3
B
'
~---------------------------------_,,
Autoexamen 11.2
____ ___ ,_,
~
El gerfnte de producción de. la empresa Bellevue Steel, fabricante de sillas de ruedas, desea comparar el ríúmero de unidades defectuosas que se producen diariamente en el turno matutino; con 18. cantidad de Unidades defectuosas del turno vespertino. Una muestra de la producclón-·de 6' días de! turno-rriatutihó·y 8 días del turno vespertlno reveló la siguiente cantidad de defectos:
.!Vlatutino · yesPér}ino
5 8
8
7
10
7
6 11
9 9
Éi1-ún-iiivel-de' Si9nific8.n6ia 0.05;--'¿éxlste una_-difer8ncfa· por turno? · , Establezca la hipótesis nula y la hipótesis alternativa. ¿Cuáles la regla de decisión? ¿cuál es el valor del estadístico de prueba? d} ··¿CUár·es'SU déCisiÓn respecto= a !a hipótesrS nüla? e) ¿Cuál es el valor p? Interprete el resultado
7 12
entré
14
9
la cantidad media de defec-
tos a) b) c)
n
Ejercicios En los ejercicios 7 y 8: (a) establezca la regla de decisión; (b) calcule la estimación conjunta ele la varianza poblacional; (c) determine el valor del estadístico de prueba; (d) indique su decisión respecto a la hipótesis nula; (e) estime el valor p. 7. Se consideran las siguientes hipótesis nula y_alternativa:
Ho: P-1 H1: µ1
= JJ.2
* µ2
Una ·muestra aleatoria de 1 O observaciOnes de una población dio una media mue_stra! de 23 y una desviación estándar muestra! igual a 4. Una muestra aleatoria de 8 observaciones de otra población indicó una media de 26, con una desviación estándar de la muestra igual a 5. Al nivel de significancia de 0.05, ¿existe diferencia entre las medias poblacionales?
389
Prnebas do hipótesis parn dos muesirns 8. Las hipótesis nula y alternativa son:
Ho:
µ1:;::;: µ2
H1: µ1
* ¡..t2
En una 111uestra aleatoria de í 5 observaciones provenientes de la primera población, la media muestra! es 350 y la desviación estándar muestral, es 12. En otra muestra también aleatoria de ·17 observaciones-provenientes de la segunda-población, la media muestra! es 342, y la desviación estándar es i 5. Al nivel de significancia de 0.1 O, ¿existe alguna di-ferencia entre las medias poblacionales? Nota: en los ejercicios siguientes use el procedimiento de cinco pasos para la prueba de hipótesis. 9. Una muestra de !as calificaciones en un exa111en presentado en un curso de estadística es: Hombres
72
Mujeres
81
69 67
98 90
66 78
85
76
8"1
80
80
79 76
77
Al nivel de significancia de 0.01, ¿la calificación media de las mujeres es rnás alta que la cali-
ficación media de los hombres? iO. En un estudio reciente se comparó el tiempo que pasan juntos los matrimonios en los que sólo un cónyuge trabaja, con las parejas en las que ambos trabajan. De acuerdo con los registros elaborados por las esposas durante el estudio, Ja cantidad media de tiempo que pasan juntos viendo televisión las parejas en las que s®larr1ente un cónyuge trabaja es 61 minutos (min) por día, con desviac'ón estándar 15.5 min. En l0s matrimonios donde los dos cónyuges
trabajan, la cantidad 111edia de minutos 8.nte el televisor es 48.4, con desviación estándar 18. I min. Al nivel de significancia 0.01, ¿se pue·de concluir que las parejas en las que solamente uno de los cónyuges trabaja, pasan en promedio 111ayor tiempo juntos viendo la televisión? Se estudiaron 15 parejas en !as que sólo un cónyuge trabaja, y 12 en !as que ambos lo hacen. i i. Lisa Monnin es directora de presupuesto en la empresa New Process Company, desea éomparar los gastos diarios de transporte del equipo de ventas y del personal de cobranza. Recopiló la siguiente información muestra! (cantidades en dólares). Ventas($)
Cobranza ($)
131 130
135
102
146 129
165 143
136 149
142 120
139
Al nivel de significancia de 0.1.0, ¿puede concluirse que los gastos medios diarios del equipo de ventas son mayores? ¿Cuá! es el valor p? 12. La Cámara de Comercio del área de Tampa Bay (Florida) desea saber si el sueldo medio semanal de las enfermeras fue superior al de los maestros de escuela primaria. Para investigar lo anterior, recopilaron la siguiente información mu8stral. (Importes en dólares.) .
Maestros de escuela ($) 845 841
Enfermeras($)
826 890
827 875 821 771
.
784 850
809 859
802 825
820 829
829
830
842
832
¿Es razonable concluir que el sueldo medio sen1anal de las enfermeras es mayor? Utilice el nivel de significancia 0.01. ¿Cuál es el valor p?
Piuebas para proporciones En las dos secciones anteriores se consideraron pruebas para la media. No obstante, con frecuencia interesa conocer si dos proporciones r'nuestrales provienen de poblaciones iguales. A continuación se dan varios ejemplos. •
0
El vicepresidente de rncursos l1umanos desea saber si hay diferencia entre las proporciones, en las plantas industriales de Atlanta y Houston, de los empleados que trabajan por hora, y que pierden más de 5 días de trabajo al año. La empresa automotriz General Motors tiene un nuevo diseño para el auto Pontiac
390
Capitulo 11
•
Grand Am. El diseño se muestra a dos grupos de compradores potenciales, uno de menores de 30 años, y otro de mayores de 60 años. La empresa desea saber si hay diferencia, entre los dos grupos, en la proporción de personas a las que les agrada el nuevo diseño. Una línea aérea analiza el miedo a volar entre los adultos. En especial, le interesa saber si hay diferencia entre las proporciones de hombres y mujeres que tienen miedo a v·olar.
En los casos anteriores, cada individuo o elemento que se toma en la muestra se puede clasificar como "éxito" o "fracaso". En el caso de la empresa automotriz, cada cliente potencial se clasifica como "le gusta el nuevo diseño" o "no le gusta el nuevo diseño". Después se compara la proporción de aquellos que gustan del nuevo diseño, en el grupo de menores de 30 años, con la proporción en el grupo de mayores de 60 años. ¿Se puede concluir que la diferencia sea sólo casualidad? En este estudio no se ha medido nada, sólo se clasifica a los individuos u objetos. Para realizar la prueba, se supone que cada una de las muestras es lo suficientemente grande para que la distribución normal se pueda usar como una buena aproximación a la distribución binomial. El estadístico de prueba sigue la distribución normal estándar. El valor de z se calcula mediante la fórmula siguiente:
~l'IUl:E!;(~Af'l~e'RdPQRQlbijes
···.·CoN-oOs.MUSsTRAS
[11.5]
La fórmula 11.5 es la fórmula 11.2 con las proporciones muestrales respectivas en lugar de las medias muestrales, y p, (1 -p,) en lugar de las dos desviaciones estándar de las muestras. Además: n1
es el número de observaciones en la primera muestra. es el número de observaciones en la segunda muestra. es la proporción, en la primera muestra, que posee la característica que interesa. es la proporción, en la segunda muestra, que posee la característica que interesa. es la proporción, en las muestras combinadas, que posee la característica que interesa. Se designa estimación conjunta de la proporción poblacional, y se calcula con la siguiente fórmula.
n2
p1 p2
p,
... ·....
,_,_
,_
.. .,. __ ,___
,.,_.
__
-________ , ___ _
í>flóí>ol'lc1óf\J cofl!JüNTA
[11.6]
donde: X1
X2
es el número de personas u objetos que poseen la característica en la primera muestra. es el número de personas u objetos que poseen la característica en la segunda muestra.
El ejemplo siguiente ilustra la prueba para proporciones con dos muestras.
EJEM PUi
Una perfumería acaba de desarrollar una nueva fragancia que se llamará "Celestial", Las investigaciones de mercado indican que la fragancia tiene mucho potencial de mercado. Al departamento de ventas le interesa saber si hay diferencia en la proporción de mujeres jóvenes y de mujeres mayores que comprarán la fragancia. Se tienen dos poblacio-
Pruebas de hipólesis para dos muestras
391
nes independientes, una integrada por las mujeres jóvenes y otra formada por las mujeres mayores. A cada mujer que se tome en la muestra se le pedirá que huela la fragancia e indique si le gusta lo suficiente para comprarla. Se usará el acostumbrado procedimiento de cinco pasos para la prueba de hipótesis:
SOLUCIÓN
Paso 1: Establecer H0 y H 1• En este caso la hipótesis nula es: "No hay diferencia entre las proporciones de mujeres jóvenes y mujeres mayores que prefieren la nueva fragancia". Se indica con 11 1 la proporción de mujeres jóvenes que estarían dispuestas a comprar la fragancia, y con TI2 la proporción de mujeres mayores que estarían dispuestas a comprarla. La hipótesis alternativa es que las dos proporciones no son iguales:
Ha:
TI1;::; 'ii2
H1: 'IT1
Paso 2: Paso 3:
Paso 4:
DIAGRAMA 11.3
Paso 5:
*
'IT2
Elegir el nivel de significancia. En este ejemplo se usará el nivel de significancia 0.05. Determinar el estadístico de prueba. El estadístico de prueba sigue la distribución normal estándar. El valor del estadístico de prueba se puede calcular con la fórmula 11.5 .. Formular la regla de decisión. Como la hipótesis alternativa establecida en el paso 1 no indica ninguna dirección, en consecuencia se trata de una prueba de dos colas. Para determinar el valor critico, se divide el nivel de significancia en dos partes iguales, y se distribuye cada parte en una cola de la distribución z. A continuación se resta esta área conjunta del área total a la derecha del cero. Esto es 0.5000 - 0.0250 = 0.4750. Por último se busca en la tabla de z (apéndice D) el valor más cercano, el cual es 1.96. Los valores críticos son -1.96y+1.96. Como sucedió antes, si el valor calculado para z se encuentra entre -1.96 y+ 1.96, no se rechaza la hipótesis nula. Si esto ocurre, se supone que cualquier diferencia entre las proporciones muestrales se debe a una variación casual. Toda esta información se muestra resumida en el diagrama 11.3.
Regla de decisión para la prueba de hipótesis ele la fragancia, nivel de significancia 0.05. Seleccionar una muestra y tomar una decisión En una muestra aleatoria de 100 mujeres jóvenes se encontró que a 20 la fragancia les gustó lo suficiente para comprarla. Análogamente, en una muestra de 200 mujeres
392
Capítulo 11 mayores se encontró que a 100 les gustaba lo suficiente para comprarla. Se emplea p 1 para representar la proporción en las mujeres jóvenes, y p 2 para la proporción en las mujeres mayores.
P1
= x1 = ~ = o.20 n
-
x, --- 200 1 oo - o 50 - ·
p, - n
100
1
2
Lo que se ir,vestiga es si la diferencia de 0.30 entre las dos proporciones. muestrales se debe a la casualidad o si hay diferencia entre las proporciones de mujeres jóvenes y de mujeres mayores a las que les agrada la fragancia. A continuación se combinan (o se conjuntan) las proporciones muestrales. Se aplica la fórmula 11 .6.
20+100 100
+ 200"
=
OAO
Obsérvese que la proporción conjunta está más cerca de 0.50 que de 0.20, porque en la muestra se tomaron más mujeres mayores que mujeres jóvenes. Para encontrar el valor del estadístico de prueba se usa la fórmula 11 .5:
z
P1 - P2
=
¡p,(1 - p,)
\
n1
0.20 - 0.50
+ p,(1 -
p,)
n,
= ~
5.00
{ü.46(1 - 40) 0.40(1 - 40) Y-100 + 200 ·
El valor calculado -5.00 está en el área de rechazo, es decir, a la izquierda de -1 .96. Por tanto, al nivel de signiiicancia 0.05, se rechaza la hipótesis nula. En otras palabras, se rechaza la hipótesis de que la proporción de mujeres jóvenes que estarían dispuestas a comprar la nueva fragancia es igual a la proporción de mujeres mayores que estarían dispuesta a comprarla. Es poco probable que la diferencia entre las dos proporciones
muestrales se deba a la casualidad. Para encontrar e! valor p, en el apéndice D, se busca la probabilidad de tener un valor z menor que -5.00, o mayor que 5.00. El valor z más grande encontrado es 3.09, al que corresponde la probabilidad 0.4990. De manera que la probabilidad de encontrar un valor de z mayor que 5.00 o menor que 5.00 es virtualmente cero. En consecuencia se informa que el valor p es cero. La probabilidad de que la hipótesis nula sea verdadera es muy pequeña. Se concluye que sí hay diferencia entre las proporciones de mujeres jóvenes y mayores que estarían dispuestas a comprar la nueva fragancia.
--
~--~~,-~~-,=~~~,~~
De los 150 a,dultos que probaron un nuevo.pastelillo, 87 lo calificaron como excelente. De 200
'niños, 123 tambíén !o evaluaron.como excelente. Usando-·e1 nivel de significancia 0:10, ¿se pued8'Cohcluir-que hay unádíferencia significativa entre la proporción de adultos y la proporción· de niños que calificaron al nuevo pastélH!o como excefente? a) Establezca la hipótesis nula y la hipótesis alternativa. b) ¿Cuál es la probabilidad de cometer un error de tipo I?
e) ¿S~_~rat~,aquí ~~ un_a_ pr~~ba de_una o de __dos colas? d) e) fj g)
¿Cuál es la regla de decisión? ¿Cuál es el valor estadísticó de prueba?
¿_C[jál_i_es_ I~_ .d8'~isi_ón re_spect°:_ a la. hipc)_ttp_sis.. n,ula_?
_,
¿Cuál .es el valor p? Explique lo que significa en términos de este problema.
1
393
Pmebas de hipótesis para dos muestras
Ejercicios 13. Las hipótesis nula y alternativa son: '1T1
~ 'IT2
H1: 'IT1
> TI2
Ho:
En una muestra de 100 observaciones provenientes de !a prirnera población se encuentra que X1 = 70. En una muestra de i 50 observaciones de la segunda población se encuentra que X2 ~ 90. Use el nivel de significancia 0.05 para probar las hipótesis. a) Establezca la regla de decisión. b) Calcule la proporción conjunta. e) Calcule el valor estadístico de prueba. d) ¿Cuál es su regla de decisión respecto a !a hipótesis nula? 14. Las hipótesis nula y alternativa son:
1-lo:
'1T1 ::::: Tr2
H1: 11 1
*
TI2
En una muestra de 200 observaciones de la primera población se encuentra que X 1 = i 70, y en un.a muestra de 150 observaciones de la segunda población se encuentra que X 2 = i i O. Use el nivel de significancia 0.05 para probar las hipótesis. a) Establezca la regla de decisión. b) Calcule la proporción conjunta. e) Calcule el valor del estadístico de prueba. d) ¿Cuál es su regla de decisión respecto a la hipótesis nula?
Nota: Para resolver los ejercicios siguientes use e! procedimiento de cinco pasos para pruebas de hipótesis. i 5. La familia Damon posee grandes viñedos. Al principio de la estación hay que protegerlos contra varios insectos y erífermedades, mediante la aplicación de insecticidas. Hay dos nuevos insecticidas, A y B. Para probar su eficiencia se rociaron tres hileras largas de viñas con e! insecticida A, y otras tres, con e! insecticida B. Cuando !as uvas maduraron se tomaron 400 plantas tratadas con el insecticida A, y 400 tratadas con el insecticida B, para verificar si tenían alguna infección. Los resultados fueron:
Jnsecticida
A B
Número de viñas en Ja muestra (tamaño muestra!)
400 400
Número de viñas infectadas
24 40
Al nivel de significancia 0.05, ¿puede concluirse que hay diferencia entre !as proporciones de viñas lnfectadas usando el insecticida A, y usando el B? 16. Una organización llevó a cabo dos encuestas idénticas en 1990 y en 2000. Una de las preguntas planteadas a las mujeres era, "¿La mayoría de los hombres son amables, atentos y gentiles?''. En 1990, de 3 000 mujeres interrogadas, 2 01 O dijeron que sí. En 2000, 1 530 de las 3 000 encuestadas contestaron afirmativamente. A! nivel de slgnificancia 0.05, ¿puede concluirse que en e! año 2000 las mujeres creen que los hombres sün menos' amables, atentos y gentiles que en 1990? 17. A una muestra a nivel nacional (en Estados Unidos) de ciudadanos influyentes de los partidos republicano y demócrata, se les preguntó, entre otras cosas, si estaban de acuerdo con la disminución de los estándares ambientales para permitir el uso del carbón con alto contenido de azufre como combustible. Los resultados fueron:
394
Capilulo 11
Cantidacl muestreada Cantidad a favor
Republicanos
Demócratas
1 000 200
800 168
Al nive! de significancia 0.02, ¿puede decirse que hay una proporción mayor de Demócratas a favor de reducir los estándares? 18. El departamento de investigaciones de una compañía de seguros investiga continuamente las causas de los accidentes automovilísticos, las características de los conductores, etc. En una
muestra de 400 pólizas de seguros que adquirieron personas solteras, se encontró que ·120 habían tenido por lo menos un accidente en !os últimos tres años. De manera similar, en una muestra de 600 pólizas de personas casadas, se encontró que 150 habían tenido por !o menos
un accidente. Al nive! de significancia 0.05, ¿hay una diferencia significativa entre las proporciones de personas solteras y casadas que tuvieron algún accidente en los últimos tres años?
Muestras dependientes En la sección "comparación de poblaciones con muestras pequeñas" de este capítulo, se probó la diferencia entre las medias de dos muestras independientes. Se comparó la cantidad media de tiempo requerido para montar un motor utilizando el método de Welles, con la cantidad media de tiempo necesario en el procedimiento de Atkins. Las muestras eran independientes, es decir, la muestra de los tiempos de ensamble utilizando el primer método no estaba relacionada de ningún modo con la muestra de los tiempos de ensamble correspondientes al segundo método. Sin embargo, hay casos en los que las muestras no son independientes, en otras palabras, las muestras son dependientes o están relacionadas. Como ejemplo, la empresa Nickel Savings & Loan se sirve de otras dos empresas: Schadek Appraisals y Bowyer Real Estate, para realizar avalúas de las propiedades en bienes raíces sobre las que otorga préstamos. Es importante que ambas firmas aporten avalúas similares. Para revisar la consisteni:ia de las dos empresas, Nickel Savings seleccionó al azar diez casas y pidió a ambas agencias que realizaran los avalúas correspondientes. Para cada casa habrá un par de valuaciones. Esto es, para el primer inmueble habrá un avalúo de Schadek Appraisals y otro de Bowyer Real Estate. Las valuaciones dependen de, o están relacionadas con, la casa seleccionada. A esto también se le denomina muestra por pares. Para la prueba de hipótesis a realizar, interesa la distribución de las diferencias en la valuación, por tanto, sólo hay una muestra. Dicho formalmente, se desea investigar si la media de la distribución de diferencias en los avalúas es igual a O. La muestra está constituida por las diferencias entre los valores determinados por Schadek Appraisals y Bowyer Real Estate. Si las dos firmas en realidad reportan estimaciones similares, entonces en algunas ocasiones el valor presentado por Schadek Appraisals será el más alto y otras veces lo será el de Bowyer Real Estate. Sin embargo, la media de la distribución de las diferencias será aproximadamente igual a O. Por otra parte, si una de las agencias reporta las valuaciones más altas en forma consistente, entonces la media de la distribución de las diferencias no será cero. Se utilizará el símbolo µd para indicar la media poblacional de la distribución de las diferencias. Se considera que la distribución poblacional de las diferencias sigue la distribución normal. El estadístico de prueba sigue la distribución t y su valor se calcula mediante la fórmula siguiente:
[i1.7J
395
Pruebas de hipótesis para dos muestras Hay
n-
d sd
n
1 grados de libertad, y es la media de las diferencias entre las observaciones relacionadas o pares de observaciones. es la desviación estándar de las diferencias entre las observaciones relacionadas o pares de observaciones. es el número dEi ·pares de observaciones.
La desviación estándar de las diferencias se calcula con la fórmula 4.7, sólo que se usa
d en vez de X. La fórmula es: i
r:Zd
sd
=
2
Cid)2
--n-
n~i
\'r
El siguiente ejemplo muestra esta prueba.
EJEMPU:I
Recuerde que la empresa Nikel Savings & Loan desea comparar las dos agencias que utiliza para realizar avalúos de casas. Para esto seleccionó una muestra de 1O propiedades residenciales y programó un avalúo por cada agencia. Los resultados, reportados en miles de dólares, son:
Gasa 2 3 4 5 6 7
8 9 10
Schadek
Bowyer
135 11 o 131 142 105 130 131 110 125 149
128 105 119 140 98 123 127 115 122 145
Al nivel de significancia de 0.05, ¿puede concluirse que hay una diferencia en los avalúos medios de las casas?
SOLUCIÓN
El primer paso es establecer las hipótesis nula y alternativa. En este caso, es adecuada una hipótesis alternativa de dos colas porque interesa determinar si hay alguna diferencia entre !Os avalúas. No se desea mostrar si una agencia realiza valuaciones más altas que la otra. La cuestión es si las diferencias rnuestrales en los avalúes podrían provenir de una población con media O. Si la media poblacional de las diferencias es O, se concluye que no hay diferencia entre los avalúos. Las hipótesis nula y alternativa son:
Ha: l"d=O H1: ¡id* O Ambas firmas valuaron 10 casas, por tanto, n = 1O, y gl = n -1 = 10 - 1 = 9. Se tiene una prueba d.e dos colas y el nivel de significancia es 0.05. Para determinar el valor crítico, consulte el apéndice F, y siga el renglón de 9 grados de libertad, hasta llegar a la columna para una prueba de dos colas y nivel de significancia 0.05. El valor en la intersección es 2.262. La regla de decisión es rechazar la hipótesis nula si el valor t calculado es menor que -2.262 o mayor que 2.262. A continuación se indican los detalles del cálculo.
396
Capítulo 11
Gasa 2 3 4 5 6 7 8 9 10
Schadek
Bowyer
Diferencia, d
Diferencia ai cuadrado, d 2
135 110
128 105 1"19
7 5 12 2 7 7 4 -5 3 4
49 25 144 4 49 49 16 25 9 16
"131
MO
142 105 130 131 11 o 125 149
98 123 127 115 122 145
--
46
386
d = Ld = 46 = 4.60 n / sd =
1O
(Ld}'
Ld'-~-
~ '
n- 1
n
Aplicando la iormula 11.7, el valor de
y
tes 3.305, que se obtiene de:
t = _lJ___ =
s/Vn
_
-
2 =(46) 386-10 _, 1 O - 1 - l.40 2
46 · 4.402/Viü
= 3.305
Como el valor calculado para t está en la región de rechazo, es decir, más allá del valor crítico, se rechaza la hipótesis nula. La distribución poblacional de las diferencias no tiene media O. Se concluye que sí hay diferencia en los avalúas medios de las casas. La diferencia más grande, $12 000 (dólares), corresponde a la casa 3. Ese puede ser un lugar adecuado para empezar una revisión más detallada.
TABLJ:\ 1i .2
Una parte ele la distribución t de Student, del apéndice
"!:"""'.
Intervalos de confianza 80%
90%
95%
;_9$'._Sftr:
98%
Nivel de significancia para prueba de una cola gl
0.100
0.050
0.025
0.010
' 0:605' ·.
. 0.00.0.5
Nivel de significancia para prueba de dos colas 0.20
0.10
0.05
0.02
2 3 4 5
3.078 1.886 1.638 1.533 1.476
6.314 2.920 2.353 2.132 2.015
12.706 4.303 3.182 2.776 2.571
31.821 6.965 4.541 3.747 3.365
6 7 8
1.440 1.415 1.397
1.943 1.895 1.860
2.447 2.365 2.306
3.143 2.998 2.896
10
1.372
1.812
2.228
2.764
3.169
4.587
397 Para encontmr el valor p se utiliza el apéndice F y la sección para la prueba de dos colas. En el renglón correspondiente a 9 grados de libertad, se localizan los valores de t cercanos al valor calculado. Para el nivel de significancia 0.01, el valor tes 3.250. El valor calculado es superior a este dato, pero más pequeño que 4. 78"1 que corresponde al nivel de significancia 0.001. Por tanto, se reporta que el valor p es menor que 0.01. Esta información se resume en la tabla 11.2. Excel tiene un procedimiento llamado "Prueba t para medias de dos muestras en pares" que realiza los cálculos de la fórmula 11.7. Los resultados que da Excel se muestran en la siguiente pantalla.
- 1~8-_Priiúbíl t riiríl 1110dfaS-dii'dOs· rTiüa'S1~:p¡fr-¡iiiieS
'"'
,,,~----~-~-7 .sc°'h•"·de°'h~..,B"c'"'w'"•96 '/Mbnio
12:.fób-<ÍowílCiOmii 1;!!_.C~_ufici.an~~ ~~ _r-.9•[~hn;i6n
_1'15
Oifw~ndR
rjG f:'_e_~r>Wíl __ hlpo!étic<1 de los medi
_1~'.:1.Grndoz
!Je litrnrtod 145 fa!atJfatlN t
P(T<=_!J. UllJ_CQI~. Valo_r c'itlc~_ ;fo!_ (u'nn_Col,¡J _ ,_Pff?"I) dgs_c_o!os _____ _
Valor critico M ! (do$ colas)
126.8 208.6444 --
--1(1
122.2 204.1778 11J
0.853144.
o g
:j¡'jo450¡ OfOJ4582,"-1.833!14
3.304501
Q)J!J~\$~' 1.2i521W
El valor calculado para tes 3.304501 y el valor p para dos colas es 0.009164. Como p es menor que 0.05, se rechaza la hipótesis de que sea cero la media de la distribución de las diferencias entre los valores de los avalúas. El valor p es, en realidad, inferior a 1.0%. Es muy poco probable que la hipótesis nula sea verdadera.
Comparación de muestras dependientes e independientes Los estudiantes que se inician en el estudio de la estadística se confunden frecuentemente al considerar la diferencia entre las pruebas para muestras independientes (fórmula 11.3), y las pruebas para muestras dependientes (fórmula 11.7). ¿Cómo puede explicarse la diferencia entre muestras dependientes e independientes? Hay dos tipos de muestras dependientes: (i) !as caracterizadas por una 111edición, una intervención de cierto tipo y después otra medición; y (2) una formación de pares de las observaciones correspondientes. Para explicarlo con más detalle:
1. El primer tipo de muestra dependiente se caracteriza por una medición seguida por una intervención de algún tipo y después otra medida. Esto se puede llamar un estudio "antes" y "después". Dos ejemplos ayudarán a aclarar lo anterior. Supóngase que se desea mostrar que al colocar bocinas en el área de producción y transmitir ml1sica suave, pue-
398
Capítulo 11 de incrementarse la producción. Se comienza por seleccionar una muestra de trabajadores y medir su rendimiento en las condiciones actuales. Después se instalan las bocinas en el área de producción y se mide otra vez el rendimiento de los mismos trabajadores. Hay dos mediciones, una antes de colocar las bocinas, y otra después de colocarlas. La intervención consiste en colocar las bocinas en el área de producción. Un segundo ejemplo tiene que ver con una empresa educativa que ofrece cursos diseñados para mejorar las ca:ificaciones finales obtenidas en los exámenes y la aptitud para la lectura. Supóngase que la empresa desea ofrecer un curso que ayudará a estudiantes de preparatoria, a elevar sus calificaciones en la prueba SAT (de Scho/astic Aptitude Test) que se aplica en EUA. Para comenzar, cada alumno presenta el examen SAT en el penúltimo año de la escuela preparatoria (high schoo~. Durante el verano, entre el penúltimo y el último año de la escuela, los estudiantes participan en el curso que les ayudará a presentar mejor los exámenes. Finalmente, durante el otoño de su último año escolar, vuelven a presentar el SAT. Otra vez el procedimiento se caracteriza por una medición (presentar el SAT en el tercer año), una intervención (los cursos de verano) y otra medida (efectuar el examen SAT durante el último año). 2. El segundo tipo de muestra dependiente se caracteriza por la formación de pares de observaciones. En el ejemplo anterior, de Nickel Savings, se tiene una muestra dependiente de este tipo. La empresa seleccionó una propiedad que requería avalúo, y después solicitó dos avalúas de la misma propiedad. Como un segundo ejemplo, supóngase que una psicóloga industrial desea estudiar las similitudes intelectuales de parejas que contrajeron matrimonio rec'1entemente. Para comenzar, se selecc·1onó una muestra de recién casados. Después, les aplica una prueba estándar de inteligencia tanto al hombre como a la mujer para determinar la diferencia en sus puntuaciones. Obsérvese la formación de parejas que se da, al comparar las puntuaciones de los hombres con las de las mujeres. ¿Por qué se prefieren las muestras dependientes que las independientes? La respuesta es que al utilizar las muestras dependientes puede reducirse la variación en la distribución muestra!. Para ilustrar esto se usará el ejemplo anterior de la empresa Nickel Savings & Loan. Supóngase que se tienen dos muestras independientes de bienes raíces para evaluar, y se realiza la siguiente prueba de hipótesis usando la fórmula 11.3. Las hipótesis nula y alternativa son:
Ha:µ,=µ, H,: µ, µ,
*
Existen dos muestras independientes, cada una con 1O elementos, por tanto, el número de grados de libertad es 1O+ 1O- 2 = 18. En el apéndice D, usando el nivel de significancia 0.05, se ve que se rechaza Ha si tes menor que -2.101 o mayor que 2.101. La media de los avalúas hechos por Schadek de las 1O propiedades es $126 800 (dólares) y la desviación estándar es $14 500. El avalúo medio obtenido por Bowyer es $122 200, y la desviación estándar, $14 300. Para hacer los cálculos más fáciles, se utilizarán miles de dólares en vez de dólares. El valor de la estimación conjunta de la varianza, aplicando la fórmula 11.2, es _ 82 P -
(n 1
-
1)s] + (n 2 - 1)s! _ (10 - 1)14.52 + (10 --1)14.3 2 _ n 1 + n2 - 2 1O + 1O - 2 - 207 ·37
Aplicando la fórmula 11.3,
t resulta ser O. 714. 126.8 - 122.2
6.:4603
~
0.714
El valor calculado para t (0.714) es menor que 2.101, y por tanto, no se rechaza la hipótesis nula. No se ha podido demostrar que existe una diferencia en el avalúo medio. Esta no
399
Prnebas de hipótesis para dos muestras
es la misma conclusión obtenida anteriormente. ¿Por qué sucedió esto? El numeíaclor es el mismo en la prueba de observaciones por pares (4.6), sin embargo, el denominador es menor. En la prueba en pares el denominador es 1.3920 (véanse los cálculos en ta página 396). En el caso de muestras independientes, et denominador es 6.4403. Hay más variación o incertidumbre. Esto explica la diferencia en los valores t; y la diferencia en las decisiones estadísticas. El denominador mide el error estándar del estadístico. Cuando las muestras no eStán en pares, se presentan dos tipos de variación: di'ferenclas entre las dos empresas de avalé1os y ta diferencia en e valor de los inmuebles. Las propiedades número 4 y 10 tienen valores relativamente altos, en tanto que en !a casa con el nú111ero 5 tiene un valor relativamente bajo. Estos datos muestran qué tan diferentes son tos valores de las propiedades, pero to que en realidad interesa es determinar la diferencia entre las dos firmas de avalé1os. El truco es formar pares de valores para reducir ta variación entre las propiedades. La prueba por pares só!o utiliza la diferencia entre !os avall1os realizados por !as empresas a una misma propiedad. Así que el estadístico dependiente, o estadístico por pares, se centra en la variación entre Schadek P.ppraisals y Bowyer Real State. Por tanto, su error estándar siempre es menor. Esto, a su vez, produce un valor superior en el estadístico de prueba y una mayor oportunidad de rechazar la hipótesis nula. En consecuencia, siempre que sea posible, los datos de deben agrupar en pares. Sin embargo, también existen desventajas. En la prueba de observaciones por pares, tos grados de libertad son la mitad de lo que serían si las muestras no estuvieran formadas en pares. Con relación al ejemplo de los inmuebles, los grados de libertad se reducen de 18 a 9 cuando las observaciones se toman por pares. No obstante, en la mayor parte de los casos, este es el pequeño precio que se paga por una prueba mejor.
A11toexamen 11.4
La publicidad de la compañía Sylph Fitness Cent.er asegura que al terminar su curso se obtendrá una efectiva pérdida de peso corporal. Una mu_estra aleatoria de ocho participantes recien-
tes reportó !os siguientes pesos corporales, an_tes de ingresar al curso y después de terminarlo. Al nivel de significancia de 0.01, ¿se puede concluir que los participantes perdieron peso?
Nombre
Antes
Después
Hunter Cashman Mervine Massa Creo la
155 228 141 162 211 164 184 172
154 207 147 157 196 150 170 165
Pert~rson
Redding Poust
a) Establezca la hipótesis nula y la hipótesis alternativa. b} ¿Cuál es el valor crítico de t? e) ¿Cuál es el valor calculado de t?
_J
1.
·~~~~~~~-dJ~_1n_t_er_p_re_t_e_e_1_re_s_u_1t_a~do_._"_·c_u_á_1_e_s_e_1_va_1_or_p_?_.~~·~~~~~~~~-~---------
Ejercicios 19. Las hipótesis nula y alternativa son:
Ho: µd >S: O H1:1Ld>O La siguiente información muestral representa el número de unidades defectuosas producidas en el turno matutino y en el turno vespertino para una muestra de cuatro días del mes pasado.
400 Día 1
¡-····-
l IVlalulino
'10 8
Vespertino
12 9
,, o
4
-¡5
19 15
2
'12
P.J nivel de significancia de 0.05, ¿se puede concluir que, en promedio, hay n1ás unidades defectuosas producidas en el turno vespertino? 20. Las hipótesis nula y alternativa son:
Ho: p,d::::O 1-11: /..l,1 o
*
Los siguientes pares de observaciones muestrales representan el número de multas que el ofi-
cia! Dhondt y la oficial Mer'edith, in1pusieron a automovilistas por c_onducir a alta velocidad, en la autopista de Carolina del Sur (EUA), en los últin1os cinco 111eses.
Dhonclt Meredith
1
Día
'
Mayo
Juílio
Ju1;0
Agosto
Septiembre
30 26
22 19
25 20
19 15
26 19
Al nivel de significancia de 0.05, ¿hay alguna diferencia en el número medio de multas impuestas por los oficiales? Nota: Use el procedimiento de 5 pasos para la prueba de hipótesis en la resolución de los siguientes ejercícios. 21. Se realiza un estudío en la North Central Universlty para medir el efecto del cambio ambiental en estudiantes extranjeros. Uno de los aspectos de! estudio es una co111paración del peso corporal de los alumnos al ingresar a esa urliversidad, y su peso un año más tarde. Se sospecha que los alimentos estadounidenses más nutritivos provocan aumento de peso .. se .utiliza el nivel O.Oí. Se selecciona una muestra aleatoria de i i estudiantes extranjeros para 81 estudio. ¿Cuál es su conclusión?
Nombre Nass
Farouk Thatcl1er Sambu! Onassis Pie1Te
a~
Peso !legar
124 157 98 190 103
135 149 176 200 180 256
Peso un aílo después
142 157 96 212 116 134 150 184 209 180 269
22. La gerencia de la empresa Discount Furniture, una cadena de mueblerías de descuento establecidas en el no~·este de EUA, diseñó un plan de incentivos para !os vendedores. A ·fin de evaluar este plan innovador, se seleccionaron aleatoriamente i 2 agentes de ventas, y se registró su ingreso promedio semanal ::.ntes y después de aplicar el plan.
Pmebas de hipótesis pam dos muestras
401
Vendedor
Antes
Sicl Mahone Carol Quick Tom Jackson Andy Janes Jean Sloan Jack Walker Peg Mancuso Anita Loma John Cuso Carl Utz A. S. Kushner Fern Lawton
$320 290 421 510 210 402 625 560 360 431 506 505
Des~ués
1
$340
285 475 510 210 500 631 560 365 431 525 619
¿Hubo un incremento significativo en el ingreso promedio semanal ele los vendedores debido al plan innovador de incentivos? Utilice el nivel de significancia 0.05. Calcule el valor pe inter-
prételo. 23. Harry Hutchings es propietario de un gimnasio, y afirma que la ingestión de ciertas vitaminas aumenta la fuerza corporal. Se seleccionan aleatoriamente í O estudiantes atletas y se les aplica una prueba de fuerza muscular. Después de dos semanas de tomar las vitaminas y de entrenamiento se les aplica nuevamente la prueba. Los resultados se muestran a continuación.
Peso (lb) Nombre Evie Gorky Bob Mack Lou Brandon Karl Unger Sue Koontz Pat O'Leary Kim Dennis Connie Kaye Tom Dama Maxine Sims
Antes
Después
190 250 345 210 114 126 186 116 196 125
196 240
345 212 113 129 189 115 194 124
¿Puede concluirse, empleando el nivel de significancia O.Oí, que las vitaminas aumentaron la fuer:Za muscular ·de los estudiantes atletas? ' 24. El gobierno federal (en EUA) ha dedicado L1ltimamente fondos a un progran1a especial para reducir los delitos en una zona donde el índice de criminalidad es elevado. En un estudio de los resultados del programa en ocho zonas de alta crimínalidad se obtuvieron los datos siguientes:
Número de delitos por área
A Antes Después
14 2
G
7
4
5
7
3
6
E
f
17 8
12 13
·----G
8
9
3
5
¿Ha habido una disminución en la cantidad ele delitos desde que en1pezó el programa? Use el nivel de significancia O.Di. Estime el valor p.
402
Gapílulo 1·1
_!lesun1en del capítulo t
Cua1ldo se co_mparan doS íllediaS muestra!es se quiere saber si provienen de cióri ó_ ele poblaciones igL1aleS.
Ja misma pobla-
A. Se investiga_ si la distrib_l.1ción de las diferencias entre las medias muestra!es puede tener
uria mediá O,
B.
:E,r-eSf8dlSflC-b'"d8""PrUeb'~'"'8S"-'8f'ilOrmá1"'éStaildi:ií'"(.ZfSl'"árílb8S""fñ"LiBSfráS:'C'6ritf8riéri''POf"'IO''fñ"e~
nos 30 ob_servaciones,
yse desconocen !as desviaciones estándar de la población.
1. No es necesario hacer ninguna suposición acerca de la forma de ninguna de las dos poblaciones.
2ó Las múeStras provienen d8 poblaciones índepenclientes. 3. La formula para calcular el valor z es
z=
X1-X2 I~
[11.2]
~~+n; C-. Si Lf1'n':l-de las íliuestras; 'Ó las dOs; contieiien menos cte:30 óbservaciones, entonces el es-' tadístico de prueba es la distribución t. 1; Ambas·poblaciones deben se·gutr la·distribuCión nürmal: 2. Las desviaclones éstándar de fas dos·,pob!aCioíle·s.deben ser iguales. 0
0
3. Las muestras.son independientes.
4. Para encontrar e! valor t se necesitan dos: pasos; a) E! prin1ero es conjuntar las dos desviaciones estándar de acuerdo con !a fórmula .Siguiente·. 52
=
P
(n1 ·~ i)s1 + (n2 - ·1)s~ n 1 + n2 - 2
[11.3]
b) E! valor t se calcula mediante la fórmula siguiente.
X1-X2
[11.4]
H. Ta1nbíén se puede probar si::dos muestras provienen de dos poblaciones con !a misma pro-
porción de éxítos. A.. Las dos proporciones.muestra.les se conjuntan usando !a fórmula siguiente: X1 +X2
p
~---
+ nz
e., 171
[11.6]
B. El·vator del estadístico .de.:pru!39a.se:catcu!.a ·rnE!d!art~J.a.f~(mu!a siguiente:
-;======== P1' .:.....p2
z ~ ¡p,(l-:-p,) + p,(1 e-pe) 1 v n.1 n2
[11.5}
!H. E:n. e! _qaso. (:le· :mue$tr~?: de)Jéridí8ntes s·e sU\Jo.ne é¡ue !a distribución de las diferencia_s en la
población tiene media O.
,
A. Primero se ca'!cu!_a:ia. me'dia y !.a tj_e_syiació_n_.estándar de IEis dif6re1iciaS müestrales.
B. E! valor del eStidístico de prueba se calc.u!a mediante la fórmula siguiente: [113]
Simbología SÍMBOLO
SIG!lllFICAIJO
PRONUNCIACIÓN
P,
Proporción conjunta Varianza conjunta de la muestra cuadrada
p subíndice e
s~
s subíndice p al cuadrado
Pruebas de hipótesis para dos muestras
403
x,
Media de la primera rnuesfra
X c·on barra_ subíndice 1
X2
Me.dia d.e fa segunda_ müestra
X-con barra.subíndice 2
d
M"edia de--.la diferencía: entre observaciones.dependientes Desviación estándar de la
d c.an barra
· ·--alfere-ncfai'enrre--·05·ser_vac-rdnEú3"-
s subíndice d
depenctíenieis
Ejérciciosdel·capítulo ·25,:_:$_8-·_quiér~·-:c:orn_par~.r~·.1:áyitj~_'(1tu,_,_e'ii_--1n·~-~e8:, ·_d_e do~:·ma~_ca~{dE/pintura que s8 uSarl en los seMarc:i~.ieptps:d.~_i_~s_.,_ca_~~eter_a~._Lft_ ¡:)iqtyréf-:A dur,a_e,n_ prorr¡eciio_.~Q.-.2 _meses, .con desviación están~º' .J 14 nieses: S?/evis.aron. l9s s~ñalamie.ntps el? 35 carreteras. La pintura B dura en
proni_edio_.37:9:meses, con desvi_ación eStáridar 1.3:qie~$}'.:_Se _ r_evísaron l_os señalamientos de _1_9;c;=a_rre_te_r~~·-:_,:_Ep-:ip.l_fJ_ando ef n_iveL de $i.gnificr:inci_a_ o.p;t.,_¿hELY- diferencia en_la vicia l1til de las c!os pirtyt¡i.sJ .Galcu le. el valpr p. • ..•. .. .. ••. •.•.......•.•..... ~6, .Un inf)enierg industrial d?sea s¡iberi'i se producen mií.s uhfdad;s en el tumo nocturno, Cjue en el diurno:. En. unamuestr¡i qe 54 c;lí~s del. turno diurno., el número medio de unidades procluciCt_a~Jue_ ?4!3,. y-_ra ~e¡.sviélcí¡)_n :e,st~ndElr,:21:'.- E~.-~na =1~~e:::;tra. .d:~ _6_0 dfas- del· turno _vespe_rtíno, l_a · mi'di¡ifue 351 .unicla.des y la desviación estándar, 28 unic:lades .•En el nivel de signíficancia 0.05, ¿ei111li'Yü\ l¡i. qintidad de unídFde.s producida p9r el turno n.octurno? 27.L.a empres¡i FryBrpthe(s Heating &Air Conditlonin!] s.e dedica~ instalár equipos de aíre aconqicíon~doy calefacción. Se contrató a larry Clark y (3eorge Mumen para realizar los servicios de rep¡¡rapión de tales equipos instalados en los hogares. Al propietario de la empresa le gusta_rí~ ~ab_er$i,hay::Jifere~cla,~n.:!<1ca_~tidad111.edi_a._de:s_ervi_c_ios,que rea!_izan los dos empleados por_.p~¡;¡._ ~n-.U_n~·-\11.ll~~tt.(;l al_<'.3atp_ria_de.40-:dí~s del_a~o-_pasa_~o,_se enc_ontró que L§rry ~ea!i~.~-·~-'l._.,. proíl)edi() 1J7 servicios.por dia, ~· la d9sviaciór es.tándar. es 1.05 servicios. poi-díá~-En una niuestra de pO díi's fe enco~tró que9eorg9 realiz.cí en pro1J)edio 5,02 servicios por día, con u_n=ª- desvi_fic.ióp _e.stá,íl_.d_9t :de_ -1 _.2q.-·~e_rVicLos por_?ía ..En_:_E;}I _nivet de _signíflcancia 0.05, ¿hay dífer,encja :en~_re . _a_nl,_bo~i ~mp!eacfos_. respeqtp a_Ja c¡:¡11tidcid rn,e_dia -~Ef servicios rea!ízados por día? , ¿C:u~IJJs el valorp? ....... ·. •·.•. > . .· ...· . :2€h: ~--_úq produqtor_._~te cafá,!e. _iptere8-·ª .s_élper.-Si_. i_?~-bebédor:e_s·_·:~.é c,afé normal toman me_nos· café · que los bebedores de café ~escafein¡¡do. En unamuestra de SO.bebedores de café normal se encont~ó. que en promedío·_toman 4.35 ·tazas _pür día~- con. una:d_esviación estándar de -1.20 ta• z~? p9r,dfa .• En un~,r¡i~estr~ de ~O bebedores de caf$ descafeinacio la media fue 5.84 tazas pO\ día qon u.na desviaciqn estándar de 1 •.~B tazas por dí¡¡; Use el nivel de significancia 0.01 y calpule el.valor p. ····•· < . .• ·• ·. ·. . .. .··. : ¡:1 ccíl)ité de íl)iembros.cíel club..de yates Anchor PQinte analiza la frecuencia de· uso.de los bote) porpartt')de susa§ocia?os: En unt') íl)L1estra cíe 3Q r¡iiembros que tienen botes de 10 a 20 p_i~.s/:le. e~!qr~, s'6 ,e~c~.n_t,.ró_ ,(iye. :en_. .el n1es·_ de ful_iQ.,L'1sc;ir:on _su5-_ botes, et:i. promedio,-1 i días. La ~-e~y_i·ª·S¡_9n;:_~~tcír,i_i;ia~}:\_e._. I_~ rJ'1_.ue~tr_.a.--fP~::.3._?8_.: dJas:, E~ pga.:-r1~uestra,de. 4°: miembros: que _tienen [jote§ dt').~1.a4ümie;;cle .eslora, el núíl)ero pror¡iedio de días que usaron sus. botes en julio fue •• 7.67días, c9n desviaci(jn est.ánclar 4.42días ..Al nivel.de significancia 0.02, ¿el comité puede .-c.e.qp_!_Y_.i _r_-;g.w e;; l()_~_:-.rn_.i~rn ~ f()~ _._d.y_eft9s·_ d ~ :· b,~,te;;;:__p-~q~e~_?s,: _u_s9p,_._s,qs _.9-i:lt~s con más. free ue_ncia? 30. •E.1/Qdip~f?ll s~µs~ pW~mecHr.la•.dificultad de lefr text9s escritos: Los. pasos para calcular. es~~;ílJ.~l9-~:.-_sq11;J}: d_et~r~.l.n~_r,_e,1_, r¡ú_rn,_e,t~;-_rn.~9_r9_ 9e;.pal21_bra~_.por. o,ració_n; 2)· cJ8terminar_e! _nl'.1me-. ro.íl)ediqde palabra~.cqn tr~s o más sfü¡bas; 3) ~I índi'i~fog es 40% ele la suma de 1y2. En ~n'.' ni~estra de 36. artículos de revistas dentificas, la íl).~dia .del índice fog fue 1rn, y la cles·~Jacip~ 8:stándaé 2,6'>.. En ~n[l r¡iuestra d~ 40 ~rtfculosde. publi9aciones comerciales la med.ia fue.8.9, y la desviaciqnestá~d.ar 1.. 64. Alnivel de signifícancia Q. 01, ¿es el índice fog signifícatly~r1ten.te/T\.á_s; ¡;;Jt_q·::·~~: e,f .S-8,~(i, d_'.3," re.v_i~.t:~r:> ,_~í_eqt_ífi_c;.~~?:_ 3t~::~ps:t~Qrlc_é18t~,~·-9; . .u_n.- _m~_~_ir.::,arn~n.to, con_tr~ :e.1_ ,?()tor _cte·_:c_ab8Zél,_-_.-acábar1 de__ desarrollar una· nue', _vél .\?rrn_i,.dElc;_i.ó_i:l,-,~-'f_I :_flli~ni()_flu.~,-~-~-:._S~\R-ºQ~ l_o,r_ar~ rn~_s_ t;if~cUvo.: _ Para evaluar la nueva. formula~¡?~--·:;;.~-: pi_d_ti:,~: . ~na, ml).e::;_tra'. d_e- ·290-_pe_rs9.n_.as_ q.~e- ~c_o~t~:fTl.~r~n· __ us_ar ·el anterior medicamento q~e_ p_~u_e!:¡e·n.rl._nu_e_V(). P:espués de_.un·_nií3~ cl.e. .pr_LJ~pa_iJ30_-_personas.ind_icaron que e_! nuevo mediqamento_er?;.m~·s___efe_cti_~o. Al:_mlE}mo ,tiem,po .a~_una .mqest_ra._de.300. person.as· que norma!men..,
404
Capílulo 11 te y~an . .el __rrie_dicameílto aiiter_i_?r .s_~)EJS. dio _ el -.rn_iSfnQ-:mediqameilto,_ pero dlciéndoléS qué.é'ra ·_de nu~va formulac,ión,. De est:e Q_rup?~- 26_l opí~a_ron qye el me_dicamento sí-era_ mejor,· _UU!icauo-_ni·veJ·df)·_s1gníf/c~ncía 0.05-1 ¿se ¡:Íuede-conctúfr-que._ei:nuevo mediGafTl:ento e;is más_- ef_ectivo? 32. Una muestra aleatoria de 1000 ciudadanos nacidos en EUA, reveló que 198 estuvieron afüvor cle __la- reanudación de:fas.re!_~ciones-.dipfomec\ttc_as con Cuba:_ Análog_amente ,1 i? ·c_iudad~ n·os_ de-Ufl_(l f{IUGStra _de 50.Q_ estadounitj_ens_es: qq nac;ld_os en_· EU'A,-,,eStllV_ie_ron ~lfavor. AJ-:_nivet' ·· .• .. ··· designitieancia0:05;¿hay dif.ererrciaen.la propd.rc;téin deeiudadanosde EUAnacidosahíque · están a favor de la reanudación de las relaclonesdiplomátlcas con suba, y la proporción .de los est.adounidetises no. nacícios e~ e! pá_ís._qué._eStán _afavo_r.detale~ refaci.one~? 33. ¿_Hay diferencia ·entre.- la propo_r:9ióp _ de_.:estt1?fan.:tes: un,iY$r~i:t-~rí9_s_:_hombres. y- \fl_. próporcíó_h_-_de_ estudiantes universitarios mujeres; quefuman por lo menos•un":pajetilla de cigarrqs al día? En una mye~tra d":.400,m~jer":s.se:encontró gu¡¡ 72 .furnabar porlp menos u.na cajetilla al día.En unamue~tra ?e5oq v.arones,70 fumapan p9r .lor¡¡enos una 9\jietilla al.dfa .. Al niveldesignificancia 0.05; ¿exíst": e~ realidad diforenciaen la proporción d": hom,bres y de mujeres que fu··ma~·~lmeno.s··una. c~jetill~al día, o.1.á diferenc:i¡t~nJ~s pr9porciones se.puedeatribuir·al error. ct~:)n_u,esrr$'.1? :;___:_. -:·, .--;, '_. _ _ _ ·- -_- :-_--_·-- <,_.:-- _-.: ,_-::____ ._:_·:·_-::.-_· ->-:·/'_;::::-~·:_ .-_-:-·-- ,·,·.·,_,_' '_ _ ·_; :/ 34~-.- La-Nationá!-Associatíori·of Purch_asíng ,f\i1~-~--élger~:,:CA$~_~J_~s_i~_~'p~cioiia!_ de·gererit~s- cte:caói·pras ~nEUA). public¡¡ el índice NAPM. Una.de las .Pregunt~s 9ue• '!~.l~s.hace en la encuest¡i .a Jos agentes de compras es: "¿yree U'3led quaJ.a.eco~omíl'( S? está !3Xpandiendq?.". El rne?pasadq, de 300 éncuestados,.16Qrespondieron que sL Este mes,po de 290 encuestado~ dieron una rys_.~L{~St§l_ ~firrnay~a·:_·A:I·_ niveL_:ct,e· si9_n_Hlsa_h_cl17t_, 0'.05,, ¿_pu,~df1__ 9p~cl_uir?e ,que__ est_~- mes es rl1ªYºr laprópqrción.de compradores que.pien~a quelaeconorr¡í~,·en EUA, se estáexpandí~ntj9? 35. yn. psicpa~ali'3ta industrial encontró; c9mqparte de. ~n.es~ydiq ·reciente. realizado .~n par~jas en las quefos .d?s. csnyuges perdbían un ~alqr.io, que..de J 500 hombres encuestadps, 990 consid~rab~nque la.divisi.Sn d.el traba]9 dorr¡éstícoerajusta:~nuna·muestra de 1•600rJ1Uje" res, resultó que 970 de ell~s.qpinaban.que .era justa la diyisló~•de los trabajos en .el h9gar. Al· ~iv8!_~de s_í_gnific;_a~ci_a_o.01·; _¿~s___ra~9!1Elb_!E(__ q~nc_!_yi~_'que es in:~y9r_ la:_ P_ro_porción _de hom_b_rE)s_ qu~ cr~e. qµ~ ~s justa ladivlsió~·.del trabajo cjoméstic??• ¿Cuál ~s.~I valor p? 36,· E~ uílª'
<····>.··. ·. .· .· · . · . . ·. · .·•· · .
ternet? < ·..•. •.···· · < ·.•. . ···< 37.Un estudio. de losqpníuntos ct;i.pr~~t~sio~es, de s.a1y9 para éitlpleadosdée[rlprésas grandes y pequeñas, f.ue terminado recientemente porpphlrnary ,l\s~oci~tes, una agencia consultora. Eóntre. l~s 15c?.fl1Pañí~s·g~~~?•.s•.es1u?i~das, elqpst?.·tl1~.dío•dtlpa,quete de..prestac;iones.9qu.ivale a 17.o'Jlodels9e.ldp/yonüna d~sví.~ciórt~stánc!arde.:!:~o/o•·Entre 1.as 1.2 cOfi1pañías pee··. q.u_~ñ.ª8-·:-.e-~t~diadas;.:,~.1_ .8?qL¡_et_e:· derp·r~~ta9igry_e?::eg1Jiy~.te:: . ~.~: . P~qm~_di_o:··.16.;?% .·de.r ._s.Hel_dq,:_qon. u~~·q~_s_yi:~,?iór,r:_e~t~n,_dél( fl~ ~---~-.~·:·':¿E:x_iS.t,e:· ~f QLll)_~.·-?iter~n9i_,~_-S~9r:l_fic.élt!v~ ent,re·.es_t()_S_ p_o~c~,-~t~~ ]es ·m~dios de 19s s~eldo~ deJqs err¡plea99s de empr~~a~ grapc:le~gue .se:;iplica a ·la~ presta~ .
ª.
csignificancia . .·i.º.·.· n. e . . s.•. ·.·. ·.e...·.·.•·.so:os. ...·.ª l•u.·d..·.;.¿Cuál º. ·. º. ·.m.··.·. P .•.·.·ª . r···ª.·.· .el ª.· .·.º.·.valor · .· .·•.·.·.º. •.º.·. ·n·.·p? .· ··.·.ª.·!··. .•• ..ª.·.··•·..ª. ·. •·. .•Iª•.· . s.•••. ·•.· .•.· . c.·.·.º· ...m .. ·.·.·.P. .• n.-•.•. ¡ª.· ..·•.. . t····i··.l·..•i·c e·•·.... .·.·..·.· ··.•.e·.·.l· ·. .·••.•.n.•.· .i·v·.•...· e· !·.· · ·..de·· ·.·. es ·. ··.s. .·.·.· .·.·.· p·.··.·..e.·q.···.u.... · ·• e.ña. ·s·?·· · .·. · . U _38.~ .: El~.~_er(jnt~, :~-6:: -~-~-~-:. 9:ínPfE!~~·-d~;.~~_rV/~.io.s.· ,d,E1,·:11J~ns,aj_?_rí~-·-~~.~~i:?:~r~ ;9~.ª' t.º? p21qqet~:s '.~pyi_a~o-~:: a! ·
ª.
fi~.~1_--é:l.el_Jn9-.;~ ..~o~-_.íllá.~-.:P_~~<:i.9.9~·-.q~~~--l.9si':~nv_i~.99?._-~;p_r_ipc_ipi.B_~ .9:t?::m9_~.:._Cp~o-·.:_un:_experJ111_E!,ry_to,
pesó ~~ª. mue~traal¡¡~t9riade 2.0.pag~~J¡¡s reJ11ilid?s aprirdpiosde.un· mes .. Enc9ntró q~e eL p
>< · ./. ..• · · . . ... ·. · ·.·.· .· •·•·•
0
Pruebas de hipó!esís parn dos mueslras
405
4,0 •. Ef Depcirta·m_erüó de.lngení8ría en.SJnis· Scíft_yi¡are, :_ti)C::_~a:producid_o dos.-so!uclones_.química$ para_ ?umen_t?r_ ta vidf!.,(Jtil ,dí:7: _ discos.para c_otrip~tad?_rEl. Una muestra· de discos tratados con el primer líquido duró 86, 78, 66, 83, 84, 81,84, 109, 65 y 102 horas (h). Los discos a los que s~ les aplicó 121 otra s0 1Ltciéip, dur~ron .9'L}l,, 75, 76, 87, 79, 7.:J,7¡¡, 79, 78, 87, 90, 76 y 72 horas.::A! ni~et.,d~,,_qignifican_ci~ __cl~ _9.1 Q, ··¿se_puetjE?;_cqr,¡c!_ll!r_ qLie _hay una díferencia en la durac_ión
, •
;:18;13¡;d3stipo~ cté tratamiento?·.
<····· .. ·· ....····•· <
• .· ..•············· <
· · · 41:r:;1. c;e.nt1·3.~oinenoiatWH191V R7ín. Qútlet. Mali \i~ri~ d8" V~ndils, .~náIOcalizadáeiilaca11ePeacfi, ·· · Y,1'1 otra·en la calle PIL1."1•.i)rJ)b~s .~xhilJen sus ar\í9ul?s el~ ,"J9do diferente, pero los·gerentes d~ !os estab!~c_imíentos as_e:Q\!~~h_.,g_~~-:::SH_for_~a,cft::_ p_r~;:;en_tar :!_?_. p1ercancía au_rrtenta él¡· máximo
!os ingresos que se reciben'_ debido' á !a comp_ra inipu!Síva de-tos clientes. U_na muestra _de 1O c?mpradores en la, tienda de la calle Peachreveló que gastaron las siguientes cantidades (en dólares) adiclonalesalas planeadas: $17.58, $19.73, $12.61, $17.79, $16.22, $15.82, $15.40, $15.86,>$11,82 y $15.85. Una muestra de 14 clientes en el establecimiento ele la calle Plum dio a'qonocer-qye: sus_ c!íent_es. _·gas_tarqQJEJ.~::.~_i9Lr,fe_nt_e,~ :_?-ªf1tldade$-ad19iona!es _ª las- pro_gramadas: $18,19, $20.22, $17.38, $ff.96'. ~g3.92, ~)§,.~(, $16.47, $fü96, $16.79, $'16.74, $21AO, . $20.57; $19.79 y $.14.83,NniveJde'significanci.a cie 0.01, ¿existedíferencia en las cantidades ri;~_dl~~ ::-9,C'!_§tad_a{;___i\fl_ pyJsiv_amente ¡::_rt, u_n_a_: _Y: q~r~.__1l~~d~s .? · 42, El Centro Mécliéo Familiar Grand Stra8d.se ha estable.Sido 66'1~1 fin de tratar emergencias médig~s men9re.s, de losyisita8tet; <;le la zona.. Myrtl<> B.eaoh. Jiene d()S. sucursales, una en.lazod~partamenl() 'de aseguramiento de callda.d na de. Little, River, yJ¡¡91r'> en Murrells Jnlet qHJ~~e,,ó?rr__pa_r~r_.!?s_tí_~~ffiP_~:S n1.~~i9s:_Pf:1_:-~_sp~r.?_ 9-~, _ !pS_.P~f_i_e_rt7?=e_n las dos sucursares.-A- con·unu_~CíQ_n ,$_9._dari_ :n:iue§t_ras ·de IÓ~_ t_ie_mpos _ d~_-espi;:;_r~, ._en _ m_in_utos.
,E/
Ubicación Uttle RiVer 31.73 2sn 29.53 22:oa 29.47 · 18.60 32.94 25!18 29.82 26.49 MuriellSlnlet 22.93' 23.92 26.92:' 27.20 · 26.44 25.62 30.61'29.44 23.09 23.10 26.69 22.31
Af _ nível:de_siQ.riifícancia ó.05, ¿h_ay·atguna diferehcia._en tos-tiemp?s de e'spera? 43. UiJ:det_er_rninado banco_._des-:ea analfzar el uso de_ -sus cajeros auto171áticos. -L_e _interesa, eri- es_P-~-(;iEL_l;c_:,_sa_ber.~f_J_os;_~-?u!tos jóven'e.s,(menores de· 25-años}_usan niás fo_s cajero_s _automáticos que !ós_ adulto_s l)layorés. Para in\f~stigar esto se ton1aron r_nuestras de ql_ientes menores_. de 25 años:y muestras d_e_ clie11te_s nlªY?res d8 60 años. _ se_deterrnín~-et_ n_úm_ero de·transac_cion_es realizadas _a través del cajero automátic.o por cada. persona seleccionada. Los resultado$ se dan_~_c·ontinuaciórt _C_on ün:ni_vel ;!=_le·s_ighificancia O.'O_i, ¿ia ger'encia·de!_-banco puBde concluir que los· adultos jóvenes utilizan-fo_$ cajeros con mayor frecuencia? ~.dad
(áílos) Menor de-25 Mayor de60
Núrriero dC Traí1sacciOneS
4
10 8
15 7
7
4
11 5
10
9
1
7
4
10
5
+i:,.~os···~'1vío.s,el.~e~.lf'1~vl'X".L~.~~· ()~'1.~r¡, Sº")Piten•par¡¡ o6t~6erlin .r.uga(,eG..la próxim~ .carr.er? cf(l ta. C:qp~ flm~r/c¡¡, ['ar~ éJ~cidiryuál ele los dos rep[e~entará a EUA, compiten varias v~ C~?- :)n /·_ unG}_.·: Pél_rt.~; ._:dt;il__·_reSqrri_tj_9:,,~tje¡t13r,_n:iinád_o_ ,_ .__.A::·-c:o_n_t_ifl~ªc_i_ó~ .se .P\!3Sentan _!os.·. tiempo_s ,m_.u_e_~tre,~_d_ _p_~,~~J11ip.u_to_s_:)~_l-_n_iv~L-c:le -_~ignjfica_n_ci_a-_cJe b.Qt)/ ¿s_e Puede _co_nc!ui_r que hay-diferen~ _9i_a"'-é_n_;Jé)_s,- tl~_tnp_o9 _rpedi9s,? Tiemp 0 (minutos)
Barco
Séa'Hawk -Sefi_QÍfeerf
12,g 14.1
125 l4,1
. . n.o 14:2
'[$,3 HA
11.2 15,8
Hc4 fü?
11.6
12 . 3
14.2
16.1
13.3
13.4
11,3' '13.6.
'I0.8
19.0
45., El-febd_cante:.d_e .U!! .:é[p_a_r_ato re?rodu¡;:;tbr Par.á disóo_s=. c:brílpactos quiere sab.er: sf ·una_re_duéci:ón de,.j O.% -en el precio, es suficiente-para aumentar.las. ventas de su producto~ A fin 'de ínvestlgar estq.-: ,e_l.prop_ie_tarlo-~_~l~_Gctdhó ar-áz,ar- oého_ Uéndás y_ vendió_ sus- aP~ratos _a píe_c_íO r_e_b_ajad~_. En::f:>_i.~te tiend,as se_te5qio_n_adas-a! ªf.étí, se_.ven_díó af precio í1ormaL}\-_continu~c1ón_se reporta · ·elnlimero de unidadesvendidas elmes pasado en los establedrnientqsseleccionados. Al niVE:f d_e·_s_i911.iD_c_ancia_ de·_o_._Oi ;_ ¿pue~l(?_conc!uir e! fabrícante que reducción en el precio ge_neró' un aumento en. las ventas?
ia
407
Pruebas de hipótesis para dos muestras
Pi'ogtama Sin- coJ)r0Cesador- Gón prOées·adOr 1.37
1.35 0.67 0.89 1.29
49cEld0ctorThomas. Sbarkey, decano.de laEscyel~ de Adrninistr~ción en Genoa University, .de, sea estudiar el efecto que se produce en las calíficacío~es promedio de lqs estudiantes (GPA, de Grade Point}\verage)¡ cuando se realiza .el cambio del siste.ma. trimestralal semestral. (En el _pdmer.si_s_terna;._el:_a,fí,o-aca_dé_míqo se di_vicje en tre.s pertodos _de_-qiez semana_s,:mien_tras que-·f)_n eJ._s_e_g_undo._~ist~ma_ hay dos P,.erio_dos:de_ quince s_ernan_as'.) _Esa_ universidad rec_ientemE::nté _cam,bip_- al sístema semestr~t:·- parq ta· investigación, ef decano. Sharkey seleccion_ó una m_uestra de 1Q estu.diaDleil inscritosen el trimestre d~ o\oño el año. pasado y en el semestre de. otoño este _año~_A contiQuaclón 5:ª- presentan·!as calificacfones.. Al niv7lde significancía d(3 0.05, ¿existen evidencias de que las caltficaciones de los eStudiantes hayan disminuido después del cambio? Estudiante
Asad Becha
2.98
Bow8rman · Sweede O.avis
l/o!mer Anderson Bolger Palmar Weis
Otoño··ántetior Otoño· actual 2.34 3.68 3.13 3.34 2.09 2.45 2.96 2.80 4.00
3.17 2..04 3.62 3cl9. .2.90 2,08 2.88 3.15 2.49 3.98
5(); El presidel)te delAmerican lnsurance lnsfüute d~.sea comparar el costo anual del seguro para au~omóvil.-que_.ofre?e_n. dqs,·compañ_ías__ !íder~s. ,f'.n-el _mercado. Selecc_i.?nó_.u~a muestra d_e 1_5 fa_milia~·, algunas con ~n so_lo con(juctor ase_gurado,- y otras:con varíos.conductoresado!~s.cen te_s _,con segyro; y pagó. a _es·as-fa_rnHias uq~ -ca_ntid~d p_ara-qUe. llam_aran a-!éls dos _compañías de seguros ___y solicita_r~n.·una C?tízac_ión: P~r_a _hacer·-.co_r:npara_bles·_ !_os- datos;· se_ estanda_rizan cí~rl:Cl_S,_c~r-~cteríst_ica_~,_ ?º111:º _e!_-rnon_tq, d.e_~ugJb!é. y -losJírt1_ites-Qi:; _n:¡sponsabilid_a_d.- _La informa~ ción de Ja mqestra (en d.ólares) se pr.esenta a qont.ioyación, .Al .nivel de significamoia de 0.10, ¿pued~ ,_co11cJu_irs'e_. qLJe _hflY. u_na·,diferencíÉt en_ !a$_-Co~izac;tonés?
: ra·milia Bécker Berry . Cobb
Debuck DuBrul Eckroate Germ·an
Glaeson King Kucic Méredith Obeid Pííce
Phiili8s Tre·size
American: car lnsurance $2 090 1683 1402. 1830 930 697 1 741 1 lW
1,018 1 881 157.1 874 1579 1577 860
Mutual lnSuran.Ge$.1 610 1 247 2327 1.367 1 461 1789 1 621 .1.914 1956
1772
l375 1527 1 767 1 636 1188
408 51. L_a co_n1páilía F8írfie!d ,Ha.mes está d_esarro!!ando dos fraccionamientos residenciales. Con e¡ fin ele probar di'ferentes__.n1?todos de publicidad, emplean varios medíos para llegar a _clientes Potenciales. Ei ingreso farniliar medio anus.1 de 75 personas que s_e han interesado por e! primer des2frollo es $'!50 d_OO'(dólares), con desviación estándar $40 000. La n1edia de las ·120 personas_ que se han interesado por e1 ·segun·do desarroilo es $i 80 000 con $30 000 como des~ v!ación estándar. En -el hivei de slgnifibanci8. O.OS, ¿puede conc!uír la empresa que_ !as medías:
52. Lo's_ siguientes reSülta:é!os· se obtu,jieron ·de una prueba en !a que se analizó 8! sabór de dos barras ·de_ choc_olatEf:dif8reiltes.- E! ··prini'er nl1mGro- es !a CeJHiCación ·dada a! sabor, que_ puede ir de O- a_-5.: El. nl1mero:5: indíc_a- que a !a persona: !e a_g_radó muc¡16 e! sabor. E! segundo número en la tabta_ in_dica-si-hay un segundo "ingr~diente secreto'.'. Si hay un ingrediente secreto se usa ef·."i'-', y si·no;'el "O"; AJ nive!- c!e· sígnl-ficancia 0.05, ¿indican estos datos alguna diferencia?
ncorl/ Sha'1
Stn 11
3 1
1
o
o
2
1
o o
4 4 2 3 4
3
o o
-----·---·
53. En una- investigacfón sobre la efectividad de. un jabón antíbacteria! que se utiliza para reducir la cóntárninación eh !a sala de opera:cioíles, se o.btuvierón /os datos siguientes. E! nuevo jab_ón se ptobó en una muestra c!e ocho-sa!as de operaciones en una zona urbana de .Seattie, e! año pasado.
Sal.a de Antes DesplléS
A
B
e
~
6.6 6.8
6:5' 2.4
9.0
10.3 8.5
H 8:1
1"1
n.6 2.0
Ar tih1ál-d8 siQniffcanCla 0.05,- :¿s-e--¡jci8de t;on-cll!ir cjuá lá: COritanlinaclón disminuyó después de u~l'ar" ei_-~ue~o jabón-1 54. tos s_lgu_í13_nte_s_ dcitos_ áon_ IEts tasas de_iri_terés· ~ílu8J de c_i_nco aCé_!ones de! organism_o !\iew York S_tock_ Exc,hánge- (N.YSE),_ --t~rr;~íé~ :co_nsci_ d_o corn?-.Ht~e ·btg, board", y de c_inco ·accion_es de NASDAQ;-A!- niv_ef'de significancla: O. iO, ¿puede conclulrSe que !as tasas de interés anual son rnás altas en f\JYSE?
f:)~YsE rll)6-
17· · ·º•
~
5.51 .... ª. tt43.
5.15
·15.80 16.28 16.21 iT.97
7.77
55" A _co1~tinua_cíón_ se pre~EJntan varia_s:_c_Orflp~ñías importantes.y los precios de s_us _~ccíon~s.·en eLverano de 2000, Refiérase al sítío c:l,e__ !_ct red (V\feb) y encuentre los precios- ac_tuafes de.dich_os títulos. Hay muchasJuentes-donde e_n_c;q.ntrar !os precios de !as acciones,_ por_ejemp!o_,. Ya/100 o:Cf\JNF!. La dirección en la red de _!.~·_Pf,imera es http://ww1J1r.quote.yahoo.co1n. fngrese e! símbo_l,o _de !dentificació_~ _para encontrE(r _e!_ precio actual (en dólares) d~_ los tftu!os. A! nivel dE? slgnific_a_nc_ia_ de 0_._Q5,_ ¿se' puede __con_q_!ufr qu(3 han cambiado !os precíos de !as acciones?
409 Sínibo!O Coca~Co!a
1Na!t Dísn.ey. Eastm:J.n Kodak
Für_d Motor Company GoodyGar Tir'o IBIVI McOonalcl's McGraw-Hill PUblishíng Oracie Johnson and Johnson General ~!ectrlc_ Home.Depot
__KQ DIS EK F
GT IBM MCD MHP ORCL
JNJ
!a acción 58.75 38.0625 60.3.125 44.8125 21.4375 ·105 31.8125 54.5625 72.3125 90.25
GE
Ho
56; Elsilio en Internet .de USAToclay (http://www;usatoday.com/sports/mlb.hlm) y el de la Liga Mayor de Béisbol (http://wwwcmajorleaguebaseball.com) reportan en forma regular informa·
c_ión relativa a los salarí_os individuales de los jugaclores.---Vfsite alguno de estos sitios y encue_n· ··-tre: [os-_salaríos· inc:JividualeS-para Su-equlpo-:favorito. Calcule la.media y !a desviació_íl _.9st_$n9ar. razonable concluir que-su·. equipo.favorito tíene-una-salarío medio por jugador. diferente· de 500 000 dólares?
fi:jercicios con datos para computadora , - Ji7~-·C,'ü'rlslde'íe·:_:er.:C{)njunto--de.:datOS>dB'íJ¡8ri:~·S·_r_~íé_Ss:fRe,al-_Estate), que·da información acerca de , c_a~-~;3.-y~_n,~t_J_q~-~:-.-~-P_·.-Y~pJ~_e_,- Flori_d_a; ·du~;:;¡pt~. et ?ñ._o-__pasado. fi) Al_:niy_et·ct_e .s_i(J~ifi_?-Etf:l~í_a,0.0_5, _¿_pued9-_co_nc!_uirsB_que ef precio medio de venta de una cas_a _con ~iscína 0 (3s. di.fet_e0t.e det p_re_cl_o.-til~.d!_o .de-_venta de una casa sin pi_scina? ti) A!,_niv:~-[-dE3_.-_si~n_lf1_can_c.1_a-_de._O.Q5,_ ¿se·pu_ede _concluir que el precio medio de venta de una casa con .up_.g_araje, ~S:Jl.íferente __de!:-P_recío.m_eclio_ de venta de una casa sin garaje? G} Al ni_vel, de-_13fqníficancla de_ 0.05'. _¿puecJe-_co_~c!u_irse que existe una diferencia entre el preci_o__m(3dío . _de._v~nta p~ra-.una casa_ e_n_.el _barrio·¡ :c_o_mparada con otra casa en el _barrío 2? d) E:nc,uentre,_etprec!_o _ de_v~rta medio de:!as.c;asas _y divida éstas en dos grupos: !as· que se v_e_ndi_e_r~n ,en _ u_na.~-~~~1dad;super_io_r (o_._í_9Ltal}_ar,pre,_oio m_edio_ y las que se vendieron por deb?jO,_:tJ.E?·.dic~bo _-pre.c_i_o ... ·.~-~-a~-difere_l\t';_ia\en _ l~._pro_porclón de casas con piscina que se ven_d~_n, c~rr:-~. e~ _el p_rtmet·_.:caso, r~,spe_cto- a .la~-Y-ª:~didas en el segundo caso? U_se el nive! ele > >significansiaü,05. <·•·/.. >
e•·•·• ..
5!kConsidere el.so~junto de dalo$ ele béisbol (E}ilsebalf2oOO), que da información ac.erca de los 30 equipos_debéisbol de liga_mayor(enEUA) para latemporacla de 2000. a} ----~J,r:iívE;L;_de_ s_igQ_ifi_9_ªn9ia _c)e0_,0_5;;-¿_p_Ut3de:_con_c_!uirs~,que-hay una.diferencia en el sueldo. 111e-
dio de !os _equip_os. de fa Liga An1ericana, en comparación con !os equipos ele la Liga Nacional? b) Af níveL-dé sfgriíficancia de 0~05, ¿puede conc!u1rse·quE{hay una diferencia en !a a·sistencla_ media :d.e pl1bHc_o,a.lo_s jue_gos de tos equip_os_de !a Li_ga_Americana coniparacla.con-la asistencia a Jos juegos de !_os equipos ele la Liga Nacional? e) Al n!Vfll.'de si9nl"ficaricía de 0.05, ¿haY díferencla.en !a ca·ntidad _de juegos ·ganados por Jos equipos U8nén. estadios con· Césped natura! y los e(juípos que tienen estadfos con césped artificial? d) A! nivel cte· sfgnifiéanc.la 0.05, ¿se puede concluir que hay diferencia en _indice ele home runs obtenidcis por equipos. que juegan- en estadios con césped artífici8.I y los ·equipos que jueg·an .en campos cbn césped natural? 59, Vaya:al conjunto de datos de !a OECD que.dan informacíón- sobre censos, datos econón1icos y' comerciales de _29 países. Realice una prueba ele hipótesis para tleterrninar si e! porcentaje c!e: pers'onaS con edad mc:yor d8 65 años es !gua!" en !os países que son mie_mbros de! G7, y en_fos países qüe no son miembros de ta! grupo.
410
Gap¡tulo 11 E)O.. Cbnsi.dere el .co.~juntó de datos de es.cw.el.as (Schoofs), que informa acerc_'a _de !oS 94 _distritos escolares _en el no_roeste de Ohio: Divida los.distritos escolares en d_os grupos,_ uno qu~ l~cl_u ya a todas las escuelas con menos d.e. 2 000 estudiantes (distritos pequeños) y otro para las éscllelas con más de .2 000 estudiantes (distritos graneles).
·
·a) Calcule el salario medio de los profesores en ambos grupos. Al nivel de signifícancia 0.05, ¿se puede Concluir que·eJ salario niedio e_s más· alto en los-_disfritos esc~lares_grandes?. b) ··Calcule la·cantidadrnedia gastada·por alumno en cada.grupo,·Al•niveLde·· significancia ·· 0.05, ¿se puede concluir que hay alguna diferencia en la cantidad mecliagastada por alum, no? e) <;:alcule el porcentaje promedio diario de estudiantes que asisteh a las escuelas de los di~, .tr.itos grandes y de los distritos· pequeños. Al nivel ele significancia 0.05, ¿se puede. concluir qúe existe una dffe_rencla en ta:a?istelicia diaria promedio?
Cómandos para computa~lora
-----·
i. _Los-c"ümand6s de Exce!-para la Prueba-t de la.página 388 ·.son.:
----,.---~-'-~~
Introducirlos datos en las colllmnas Ay B (o en otras .dos columnas cualesquiera) de .la hoja> de· cálculo; Úsese el primenenglón. de cada columna•paraingresar los nombres •de las variables; b) En la,barra del rrienú elegir Herramient.asy Análísis. de datos. Elegir Prueba. t para dos muestras suponiendo. va.rianzas: iguales.-y pre~ionar-Acept.r;tr. e) En.la ventana de diálogo indicar que eLrangode la Variable'.1 va de.A 1 aA6, y.el rango de la Variable 2 va de 81.a 87, la Diferencia hípotéticaenlre.las medias es O, los Rótulos estitn en el primer renglón, Alfa es 0.05 y el Rango de salida es 02. Presionar Aceptar,
411
Pruebas.lle hipótesis para dos muestras
2. Los comandos de Excel para la prueba t por pares de la página 397 son: a} lntro<;lucir los. datos ea las. co.lumnas A y B(o en otras. dos. columnas. cualesquiera) de la hoja de cálculo, dando los nombres de .las variables en el primer renglón. b} En la barra del menú el~gir Herramientas y Aná.lisis de. datos .. Elegir Pruebafpara me>
días detdos .muest.r~~· . ~11.Pª.r-~.s,-__j __~_~e~í-~p-~r::J.\?~Ptar.-_
a
e} E11.1a, venta~a de diálogo indicar que .él. rango dela Vafiable lvá.déH1 BH,\/ eliángo .... de la Vá~íáble 2va.de e·¡ a C11.; lá Diferencia hipotética entre las medias es O; los Ró' lulos están .en el primer renglón, Alfa es 0.05 y el Rango de salida .es 02. Presionar Aceptar.
412
mayor que 2:179.
-oo . si=
- - 42 "-1 ~¡ V '"'~/•1-5 .
V
/\2
=
880 = i 0.00 s =
i 42-2 1304--" \·I 6~1 ·o· =·A· 1 '14º<::.
UNO CO-rripreílder ta noción genera! del ané.!isis de varianza. !JOS
Eounciar_!as características de !a distribución F. TRES
Reaiizar- una prueba de hipótesis para determinar si d.os vgrianzEts de dos poblaciones son ig_uales. CUAlfül Organizar ·clatós en una·- tábla de ANOVA de una y dos direcc ciones.
-.Una en1prcSa internacional dcdlcada a !a publicidad clcsea .snbcr si el l';nnai'io icl cólor de !os <1E1uncio:rtícncn efecto en la rcspLtesta de los clientes. Se torna una n1ncstú1 alcatorfa de éstos_ y se les hace unó-encucsta para ver su rc;-1ccióri- aritc- 3 diferentes h1t'nal'ios '¡ 4 difercntcs"Colorcs ele ariuilcio,< Basándo~c en su8 r'cspncst<1s a !as cÜn1blnacioncs de tan1aho y colo1:, dctcrn'ünesi el t·c1111año v Color tienen efecto sobre ia efectividad de- un anuncio. Use- cl'nivd de·s.ignificm1Cía 0.05. (\1cr objetivo 6 y ejercicio 3
C!lllCO Definir y entender el sígrfrficado de !os términos trata1nieni"os y bloques. SE~S
Reaiízar una pruebe. de h!pótB-· sis entre tres o n1ás rnedias detratarniento. Slf~TE
Desarrollar Intervalos de con·fianza para la diferencia entre 111edias ele tratarniento.
oc1m Rea!lzar una prueba de hipóteSís para determinar s! existe algUna dlfer8nciá e'ntre medias de bloques.
414
Capítulo 12
Introducción En este capítulo se prosigue con el estudio de las pruebas de hipótesis. Recuérdese que en los capítulos 1O y 11 se examinó la teoría general de la prueba de hipótesis. Se describió el caso en el que fue seleccionada una muestra grande de la población. La distribución z (la distribución normal estándar) se empleó para determinar si era razonable concluir que la media poblacional era igual a un valor especificado. Se probó si dos medias poblacionales eran iguales. También se realizaron pruebas para una y dos muestras según proporciones poblacionales, usando, una vez más, la distribución normal estándar como la distribución del valor estadístico de prueba. Se describieron los métodos para realizar pruebas de medias suponiendo que las poblaciones fueran normales, pero las muestras eran pequeñas (con menos de 30 observaciones). En este caso se utilizó la distribución t como la distribución del valor estadístico de prueba. En este capítulo se desarrolla más ampliamente la idea de pruebas de hipótesis. Se describe una prueba para varianzas y después una prueba que compara en forma simultánea varias medias para determinar si provienen de poblaciones iguales.
La distribución F La distribución de probabilidad que se utilizará en este capítulo es la distribución F. se denomina así en honor de Sir Ronald Fisher, uno de los fundadores de la ciencia estadística moderna. Esta distribución de probabilidad se utiliza como la distribución del estadístico de prueba en varios casos. Se usa para probar si dos muestras provienen de poblaciones con
varianzas iguales, y también es útil cuando se desean .comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se denomina análisis de varianza (ANOVA de analisys of variance). En estos dos casos, las poblaciones deben ser normales, y los datos, por lo menos deben estar en nivel de intervalo. ¿Cuáles son las características de la distribución F? Características de la distribución F.
1. Existe una "familia'' de distribuciones F. Un miembro específico de la familia queda determinado por dos parámetros: los grados de libertad en el numerador y los grados de libertad en el denominador. La forma de la distribución se. ilustra en la g(áfica siguiente. Hay una distribución F para la combinación 29 grados de libertad en el numerador y 28 grados de libertad en el denominador. Hay otra distribución Fpara 19 grados en el nume~ radar y 6 grados de libertad en el denominador. Obsérvese que la forma de las curvas cambia conforme se modifican los grados de libertad.
1'
1 l¡ 1
o
415
Análisis de varianza
2. La distribución Fes continua. Esto significa que puede tomar una cantidad infinita de valores entre O y más infinito. 3. La distribución F no puede ser negativa. El menor valor que puede asumir Fes cero. 4. La distribución Fes positivamente sesgada. La cola larga de la distribución se encuentra a la derecha. Conforme el número de grados de libertad aumenta, tanto en el numerador como en-el-denomlílador, la-distribución--se aproxima a una distribución normal. 5. La distribución Fes asintótica. Conforme los valores de X aumentan, la curva de la distribución F se aproxima al eje X, pero nunca lo toca. Esto es parecido al comportamiento de la distribución normal, descrito en el capítulo 7.
Comparación de dos varianzas poblacionales La distribución F se utiliza para probar la hipótesis de que la varianza de una población normal es igual a la varianza de otra población normal. En los siguientes ejemplos se muestra el uso de esta prueba:
'
' Dos cizalladoras Barth se ajusc tan para producir barras de acero de la misma longitud. Por tanto, las barras deben tener la misma longitud medía. Se desea estar seguro de que además de tener la misma longitud media, tengan una variación similar. ' Las tasas de interés de dos tipos de acciones comunes pueden ser iguales, pero puede haber más variación en la tasa de interés de uno de los dos tipos. Una muestra de 1O acciones de Internet y 1O acciones de empresa pública muestran la misma tasa de interés, pero es probable que en las acciones de Internet exista mayor variación. En un estudio realizado por el departamento de mercadotecnia de un periódico importante, se encontró que hombres y mujeres dedican aproximadamente el mismo tiempo en leer el per'ódico. Sin embargo, la variación entre los hombres era aproximadamente del doble de la correspondiente a las mujeres.
La distribución F también se utiliza para validar los supuestos para algunas pruebas estadísticas. Recuérdese que en el capítulo anterior, cuando se supusieron muestras pequeñas se utilizó la distribución t para determinar si diferían las medías de dos poblaciones independientes. A fin de emplear esa prueba, es necesario suponer que las varianzas de dos poblaciones normales son iguales. Véase la lista de suposiciones en la página 384. La distribución F proporciona un medio para realizar pruebas respecto a la varianza de dos poblaciones normales. Independientemente de si se desea determinar si una población tiene más variación que otra, o si es deseable validar un supuesto respecto a una prueba estadística, primero se establece la hipótesis nula. Esta hipótesis es que la varianza de una población normal, uj, es igual a la varianza de otra población también normal, u~. La hipótesis alternativa podría ser que las varianzas difieren. En tal caso la hipótesis nula y la hipótesis alternativa son:
Ha: crf = H1: cr~ -=F
ªªcrª
416
Capítulo 12 Para realizar !a prueba se toma, de una población, una muest1·a aleatoria de n 1 observaciones, y una 111uestra de n 2 observaciones ele una segunda población. El estadístico de prueba se define como sigue: ---¡
sr
F=--s¿--
[1!2.i].
1 1
Los términos s~ y s~ son las varianzas muestrales respectivas. Si la hipótesis nula es verdadera, el estadístico de prueba sigue la distribución F con n, ~ ·1 y n 2 ~ 1 grados de libertad. Para reducir el tamaño de la tabla de valores críticos, la varianza muestra! 111ás grande se coloca en el numerador; en consecuencia, !a razón F sien1pre será mayor que i .OO. Por tanto, sólo se necesita el valor crítico de la cola derecha. El valor crítico de F para una prueba de dos colas se obtiene dividiendo entre dos el nivel de significancia (oJ2), y buscando después bajo el número adecuado de grados de libertad en el apéndice G. Un ejemplo ilustrará lo anterior.
EJEMPLO
Lammers Limos ofrece servicio ele llmusinas desde el edi·ficio del ayuntamiento de ia ciudad de Toledo, Ohio, hasta el aeropuerto Metro, en Detroit El presidente de la compañía, Sean Larrimers, esta considerando dos rutas. Una vía es la ruta U.S. 25, y la otra es vía la autopista 1-75. Desea estudiar el tiempo necesario para llegar al aeropuerto por cada uno de estos caminos y despu~s comparar los resultados. Obtuvo los siguientes datos de muestra (en minutos). Utiliwndo el nivel de significancia de 0.1 O, ¿existe alguna diferencia en 1.a variación de los tiempos de reco.rrido por ambas rutas?
1
Ruta U.S. 25
lnteres!aial 75
52 67 56 45 70 54 64
59 60 61 51 56 63 57 65
l__ SOLUCIÓN
El tiempo medio requerido por las dos rutas es casi el mismo. El tiempo promedio por la U.S. 25 es 58.29 minutos y por la 1-75, 59.0 minutos. Sin embargo a! señor Lammers también le interesa la variación en los tiempos de recorrido. El primer paso es calcular las dos varianzas muestrales. Se usará la fórmula 4. 7 para calcular las desvlaclones estándar muestra!es. Para obtener la varianza muestral se eleva al cuadrado la desviación estándar. Ruta U.S. 25 2 1 . (408) 2 /24266--408 7 n X = IX = = 58 29 s= \ 7- 1 = 8.994 7 n 7 · \ n- 1
/,x, _·czxi
1'"''
Interestatal 75
n -8
;;; _ IX_ 472 _ A
--
-· 59.00
s=
! (472) 2 /27982--8
v---• 8-1
= 4.3753
Según indica la desviación estándar, hay más variación por la Ruta U.S. 25 que por la 175. Esto coincide con lo que él sabe de los dos caminos alternativos; por el U.S. 25 se
Aílá!isls de variaílza
417
tienen más semáforos, mientras que el camino por la 1-75 es una autopista interestatal de acceso limitado. Pero el recorrido por la ruta 1-75 es un poco más largo. El señor Lammers decide realizar una prueba estadística para determinar si realmente hay diferencia en las variaciones de las dos rutas. Se empleará el procedimiento usual de cinco pasos para prueba de hipótesis. Paso 1:
Se establecen las hipótesis nula y alternativa. La prueba es de dos colas, ya que se busca la diferencia en la variación de las dos rutas. No se trata de mostrar que una ruta en particular tiene rnás variación que la otra.
Ho:
af
= rr~
H1 : a~* a~ Paso 2: Paso 3: Paso 4:
TABLA 12.1
Se selecciona 0.1 O corno nivel de signiíicancia. El estadístico de prueba apropiado sigue la distribución F. El valor crítico se obtiene del apéndice G, parte del cual se reproduce en la tabla 12.1. Corno se está realizando una prueba de dos colas, el nivel de significanóa que se busca en las tablas es 0.05, que se obtiene de [J)2 ~ 0.10/2 = 0.05. Hay n 1 - 1 = 7 - 1 = 6 grados de libertad en el numerador, y n2 - 1 = 8 - 1 = 7 grados de libertad en el denominador. Para encontrar el valor critico, recórrase en dirección horizontal la parte superior de la tabla F (tabla 12.1, o apéndice G) para localizar el nivel de significancia 0.05, a 6 grados de libertad en el numerador. Después recórrase hacia abajo en la col.urnna hasta el valor crítico frente a 7 grados de libertad en el denominador. El valor crítico es 3.87. Así, la regla de decisión es: si la razón de las varianzas muestrales es mayor que 3.87, se rechaza la hipótesis nula.
Valores críticos de la distribución F, a::;:;: 0.05 Grados de libertad en el denominador
Paso 5:
Grados de libertad en el numerador
5
7
2 3 4 5 6
230 19.3 9.01 6.26 5.05 4.39
8 9 10
3.69 3.48 3.33
8
237 19.4 8.89 6.09 4.88
239 19.4 8.85 6.04 4.82
3.29 3.14
3.23 3.07
El último paso es obtener la razón entre las dos varianzas rnuestrales, determinar el valor del estadístico de prueba y tornar la decisión respecto a la hipótesis nula. Obsérvese que la fórmula 12.1 se refiere a varianzas rnuestrales, pero lo que se calculó fueron desvíacfones estándar muestrales. Para determinar las varianzas se necesita elevar al cuadrado las desviaciones estándar.
s) F=
sj
(8.9947) 2 = (4.3753) 2 = 4 ·23
418
Capítulo 12 La decisión es rechazar la hipótesis nula, porque el valor calculado para F (4.23) es mayor que el valor crítico (3.87). Se concluye que sí hay diferencia en las variaciones de los tiempos de recorrido de los dos caminos.
Como se observa, lo que se acostumbra es determinar la razón F colocando la mayor de las varianzas en el numerador. Esto hará que la razón F sea, por lo menos, 1.00. Lo anterior permite que se utilice siempre la cola derecha de la distribución F, evitándose así la necesidad de tablas más extensas de F. Una cuestión lógica surge respecto a las pruebas de una cola. Por ejemplo, supóngase que en el problema anterior se sospechaba que la varianza en los tiempos utilizando la ruta U.S. 25, era mayor que la varianza en los tiempos si se utiliza la 1-75. Las hipótesis nula y alternativa se establecerían como H0:
H1:
crf ::::; cr~ rrf
>uª
El estadístico de prueba se calcula así s¡;s¡. Obsérvese que a la población que se cree tiene mayor varianza se le considera como población 1. De manera que sf aparece en el numerador. La razón F será mayor que 1.00, de manera que se puede emplear la cola derecha de la distribución F. En estas condiciones no es necesario dividir a la mitad el nivel de significancia. Como el apéndice G sólo da los niveles de significancia 0.05 y 0.01, se está restringido a estos niveles en pruebas de una cola, y a 0.1 y 0.02 en pruebas de dos colas, a menos que se consulten tablas más completas o se aplique la función de distribución de MINITAB o de Excel. Excel tiene un procedimiento para realizar una prueba de varianza. A continuación se muestra la pantalla de Excel con los resultados. El valor obtenido para Fes el mismo que el encontrado mediante la fórmula 12.1.
---~=~_,.<.?5 58.2$571 58 8Ct90475 19.1,!2GE ObSBlV~·;ii.'O~S :·· 8 Gm
419
Análisis de varianza
r~-~-··-.-~··-,.-----------------------------------~
1 J.\u!oexam1m 12.1
1 1
1 i 1
La empresa Steele Electric Products ensambla componentes eléctricos para equipo estereofónico. Durante los últimos 10 días Mark Nagy ha ensamblado un_promedio de nueve productos defectuosos, con una desviación estándar de 2. Debbie Thorton ha ensamblado en promedio 8.5 componentes con defectos, con una desviación estándar de 1,5 productos defectuosos en el mismo periodo. Al_nivel de significancia de 0.05, ¿es posible concluir que hay más variación
er¡- ar-número ·de-cómpóne-ntés ·aetec-túoso~.-- ar díá ·qüe··se--átribüyen ·a-Mark?
l·------------------·-----------------~
Ejercicios 1. ¿Cuál es el valor crítico de F para una muestra de seis observaciones en el numerador y cuatro en e! denominador? Utilice una prueba de dos colas y el nivel de significancia 0.1 O. 2. Aplicando una prueba de una cola y el nivel de significancia de 0.01, ¿cuál es el valor crítico de F para una muestra de cuatro observaciones en e! numerador y siete en el denominador? 3. Se dan las siguientes hipótesis:
crr = cr~ H1: crr *a~ Ha:
En una muestra aleatoria de ocho observaciones de !a primera poblaclón, la desviación estándar fue 1O. En una muestra aleatoria de seis observaciones de la segunda población, !a desviación estándar fue 7: A! nivel de significancia 0.02, ¿existe diferencia entre la variación de ambas poblaciones? 4. Se dan las siguientes hipótesis.
Ha: cr~ H1:
:S
cr~
crf >a-~
En una muestra aleatoria de cinco observaciones. de la primera población la desvlación estándar fue 12. En una muestra aleatoria de siete observaciones de la segunda población la desviación estándar fue 7. A! nivel de significanc1a 0.01, ¿hay más variación en la primera población? 5. La compañía Stargell Research Associates realizó un estudio acerca de los hábitos de los radioescuchas, tanto de hombres como mujéres. Un aspecto del estudio comprendió el tiempo promedio de audición. Se descubrió que el tiempo promedio-para los varones es de 35 minutos al día. La desviación estándar en la muestra de los 1 O hombres que se estudiaron, fue i O minutos por día. El tiempo promedio de a~dición para las 12 mujéres estudiadas fue también 35 minutos, pero la desv·ación estándar fue. 12 min •. Al nivel eje significancia 0.1 O, ¿es posible concluir que existe diferencia entre la va~¡~~_i,~~-.?e los ..~i~íl).~-?_S de audición de hombres y mu_.-.-:_·, ...,,:·:.::·:. -'· _ ·::·:·.:-(. · jeres? 6. Un corredor de bolsa de la empresa CriUc.a.1-S.e~uríties infortnó.que_.la tasa media de rendimiento de una muestra de 1 acciones petro. l~rás, _ fue_ ,1_.~·.6%;_-:e?JJ.d_~E;viación estándar 3.9%. La tasa media de rendimiento en una muestra d_9. _9C.fi0_· acc_i_on,e.s:de S~rvicios públicos ·fue 10.9%, con una desviación estándar 3.5%. Al n.iy~J_ d~·Si!;jni.f(canc;ia:·Q.~,05; . ¿es posible concluir que hay · · - ·- - · ' más variación en !as acciones petroleras?.
o
Suposiciones para eIAl'J_QVA Otro uso de la distribuciónF es la técnica del análisis de varianza (ANOVA), con la que se comparan tres o más medias poblacionales para determinar si son iguales. Para usar el ANOVA se considera lo siguiente: 1. Las poblaciones están distribuidas normalmente. 2. Las poblaciones tienen desviaciones estándar iguales (s). 3. Las muestras se seleccionan independienten1ente. Cuando se satisfacen estas condiciones, F se utiliza como la distribución del estadístico de prueba.
420
Usar la disiribución t produce una acumulación del error de tipo l.
Gapilulo 12 ¿Por qué es necesario estudiar el ANOVA? ¿Por qué no se puede usar simplemente la prueba para diferencias entre medias poblacionales que se examinó en el capítulo anterior? Podrían compararse las medias de tratamiento de dos en dos. La razón principal es la propagación del error de tipo l. Para explicarlo mejor, supóngase que se iienen cuatro métodos diferentes (A, 8, C y D) de capacitación para nuevos bomberos. Aleatoriamente se le asigna a cada uno de los 40 nuevos bomberos uno de los cuatro métodos. Al final del pfiríodo de capacitación se aplica a los cuatro grupos un examen en común para medir su comprensión de las técnicas para combatir el fuego. Lo que interesa saber es: ¿hay diferencia entre las calificaciones promedio de los cuatro grupos? La respuesta a esta pregunta permitirá comparar los cuatro métodos de adiestramiento. Usando la distribución t para comparar las cuatro medias poblacionales, habría que realizar seis pruebas t. Es decir, habría que comparar las calificaciones promedio de los cuatro grupos como sigue: A contra B; A contra C; A contra D; 8 contra C; B contra D; y C contra D. Si se establece como nivel de significancia 0.05, la probabilidad de una decisión estadística correcta es 0.95, que se obtiene de 1 - 0.05. Como se realizan seis pruebas separadas (independientes), la probabilidad de no tomar una decisión incorrecta debida al muestreo en cualquiera de las seis pruebas independientes es:
P(Todas correctas)= (0.95)(0.95)(0.95)(0.95)(0.95)(0.95) = 0.735 Para encontrar la probabilidad de por lo menos un error debido al muestreo, se resta esta cantidad de 1, por lo que la probabilidad de tomar por lo menos una decisión incorrecta debida al muestreo es: 1 - 0.735 = 0.265. En resumen, si realizamos seis pruebas independientes utilizando la distribución t, la probabilidad de cometer por lo menos un error muestral, se incrementa de 0.05 a 0265. Es obvio que se requiere un método mejor que el de realizar seis pruebas t. El Al~OVA permite comparar las medias de tratamiento simultáneamente y evita la propagación del error de tipo l. El ANOVA se desarrolló para utilizarlo en la agricultura, y aún se conservan muchos de los términos relacionados con ese contexto. En particular, el término tratamiento se emplea para identificar las diferentes poblaciones que se están examinando. La ilustración siguiente servirá para aclarar el término tratamiento y demostrará el uso del ANOVA. Bruce Kuhlman, propietatio de las Granjas Kuhlman, desea usar la marca de fertilizante que produzca el máximo rendimiento de trigo por acre. El señor Kuhlman puede escoger de entre tres marcas comerciales: Wolfe, White y Korosa. lºara comenzar, divide el campo de cultivo en 12 parcelas de igual tamaño. Después planta el trigo al mismo tiempo y de la misma forma. La única diferencia en las parcelas es que asigna aleatoriamente la marca de fertilizante Wo/fe a cuatro parcelas, el de marca White a otras cuatro, y el de marca Korosa a las últimas cuatro parcelas. Al final de la temporada de crecimiento, se registra el número de bushels 1 de trigo producidos en cada parcela. En este ejemplo hay tres tratamientos. Esto es, las tres clases diferentes de fertilizantes son los tres tratamientos distintos. Los resultados, en bushels, al final de la temporada de crecimiento son:
Wolle
White
55 54 59
66 76 67 71
56 1
El bushel es medida de capacidad y equi,·ale a 35.23 litms
Korosa
47 51
46 48
421 ¿Hay alguna diferencia en ei nllmero promedio de bushels de trigo producido? En ei diagrama i 2. i se rnuestra córno se verían las poblaciones si hubiera alguna diferencia en las medias de tratamiento. Obsérvese que las poblaciones son aproximadamente normales y la variación es igual en todas, pero las medias del fertilizante (tratamiento) no son iguales.
(en busl1els)
DIAGRAMA 12.í
Caso en el que las rnedias de tratamiento son diferentes.
Supóngase que las poblaciones son iguales. Esto es, que no hay diferencia en la media de ios fertilizantes (tratamientos). Esto se muestra en el diagrama 12.2, e indicaría que las medias poblacionales son iguales. Obsérvese de nuevo que las poblaciones son aproximadamente normales y que la variación es, en todas, la misma.
DJAGRAMA 12.2
Caso en el que las n1cclias de tratan1icnto son iguales.
La pn:iebaAl'\JOVA ¿Cómo funciona la prueba ANOVA? Recuérdese que se desea determinar si las diversas medias muestrales provienen de una sola población, o de varias poblaciones con medias distin-
tas. En realidad se comparan estas medias muestrales por medib de sus varianzas. Para explicarlo, recuérdese que en la página 419 se enlistaron las suposiciones requeridas para el ANOVA. Una de ellas era que las desviaciones estándar de las diferentes poblaciones nor-
422
Capitulo 12 males tenían que ser iguales. En la prueba de ANOVA se aprovecha esta condición. La estrategia fundamental es calcular la varianza poblacional (desviación estándar al cuadrado) en dos formas, y después encontrar la razón de estas dos estimaciones. Si esta razón es aproximadamente igual a 1, entonces las dos estimaciones son iguales, y se concluye que las medias de población son iguales. Si la razón es muy diferente de 1, se concluye que las medias de población no son iguales. La distribución F sirve como árbitro indicando cuándo la razón (o cociente) entre las varianzas muestrales es mucho mayor que 1, como para haber ocurrido por casualidad. Refiérase al ejemplo de las Granjas Kuhlman de la sección anterior. El propietario de la granja desea determinar si existe alguna diferencia en los rendimientos medios de trigo con los distintos fertilizantes. Tiene 12 parcelas de tierra y asigna aleatoriamente cuatro parcelas a cada fertilizante. Para empezar, encuentra la media total de rendimiento de trigo, en bushels, de las 12 parcelas. Esta media es 58 bushels, obtenidos de (55 + 54 +... + 48)/12. Después, encuentra la diferencia en el rendimiento de cada una de las 12 parcelas y la media total. Cada una de estas diferencias se eleva al cuadrado y los cuadrados resultantes se suman. Este término se denomina la variación total.
Variación total
'Suma de los cuadrados de las diferencias, entre cada observación
y la media total, En el ejemplo actual, la variación total es 1 082, que se obtiene de (55 - 58) 2
+ (54 - 58) 2
+ "' + (48 - 58)". Después, se divide esta variación total en dos componentes: uno se debe a los tratamientos, y otro es aleatorio. Para encontrar ambos componentes hay que determinar la media de cada uno de los tratamientos. En el ejemplo de las Granjas Kuhlman, se calcula el rendimiento medio de trigo en las cuatro parcelas fertilizadas con la marca Wo/fe, el rendimiento medio en las parcelas fertilizadas con White, y el rendimiento promedio de las cuatro parcelas en las que se aplicó Korosa. La primera fuente de variación se debe a los tratamientos.
yai:ifl
mecli~\(je lratamientoyl'!n1edia total.
En el ejemplo de los fertilizantes, la variación debida a los tratamientos es la suma de los cuadrados de las diferencias entre la media de cada fertilizante y la media total. Este término es 992. Para calcularlo, primero se encuentra el rendimiento medio de cada uno de los tres tratamientos. El rendimiento medio obtenido con Wo/fe es 56 bushels, proveniente de (55 + 54 + 59 + 56)/4. Las otras medias son 70 y 48 bushels respectivamente. La suma de los cuadrados producidos por los tratamientos es:
(56 - 58) 2 + (56 - 58) 2 + .,, + (48 - 58) 2 = 4(56 - 58) 2 + 4(70 - 58) 2 + 4(48 - 58) 2 = 992. Si existe una variación considerable entre las medias de los tratamientos, es lógico que este término sea grande. Si las medias de tratamiento son similares, este término tendrá un valor pequeño. El valor más pequeño posible es cero. Esto ocurriría si todas las medias de tratamiento fueran iguales. La otra fuente de variación se conoce como el componente aleatorio o el componente del error.
Varfa9ional~atoria Suma cl~.loscya.dradps.(jela.s difere~cías, entre.cada ot?servaqión y sµrnedi.E1.de jratamiepto.
423
Análisis de varianza
En el ejemplo de los fertilizantes, este término es la suma de los cuadrados de las diferencias entre el rendimiento de trigo en cada parcela y el rendimiento medio de esa parcela en particular. La variación del error es 90. (55 - 56) 2 + (54 - 56) 2 + ...
+ (48 - 48)2 = 90.
Se determina el estadístico de prueba F, que es la razón de las dos estimaciones de la varianza poblacional, mediante la siguiente ecuación:
F=
Estimación de la varianza poblacional con base en las diferencias entre las medias de muestra Estimación de la varianza poblacional basada en la variación dentro de las. muestras
La primera estimación de la varianza poblacional se basa en los tratamientos, es decir, la diferencia entre las medias. Esta estimación es 992/2. ¿Por qué se divide entre 2? Recuérdese del capítulo 4, que para encontrar una varianza muestra! (ver fórmula 4.5), se divide entre el número de observaciones menos uno. En este caso existen 3 tratamientos, así que se dividió entre 2. La primera estimación de la varianza poblacional es 992/2. La estimación de varianza dentro de los tratamientos es la variación aleatoria dividida entre el número total de observaciones menos el número de tratamientos. Es decir, 90/(12 - 3). De ahí que nuestra segunda estimación de la varianza de la población es 90/9. Esto es en realidad una generalización de la fórmula 11.3, en la que se conjuntan las varianzas muestrales de dos poblaciones. El último paso es calcular la razón de estas dos estimaciones.
F = 992/2 = 49 6 90/9 . Debido a que esta razón es muy diferente de 1, puede concluirse que las medias de tratamiento no son iguales. Hay diferencia en el rendimiento medio de los tres fertilizantes. La anterior visión conceptual del ANOVA es bastante difícil de realizar, pues los cálculos pueden ser muy tediosos, en particular cuando la media total y las medias de los tratamientos no son números enteros. Existen dos alternativas para evitar los cálculos extensos. En el ejemplo siguiente se proporciona un método eficiente para minimizar los cálculos para resolver el problema del ANOVA. También se puede usar una hoja de cálculo o un paquete de computación para estadística. Más adelante, en este capítulo, se proporcionará un ejemplo. En el ejemplo siguiente se presentan algunas fórmulas simplificadas de cálculo, y también se consideran muestras de diferentes tamaños.
EJEMPIJJ
Un profesor del curso de Mercadotecnia pidió a los alumnos de uno de sus grupos que evaluaran su desempeño como excelente, bueno, regular o deficiente. Un estudiante egresado recopiló las evaluaciones y aseguró a los estudiantes que el profesor las recibiría hasta que las calificaciones del curso se hubieran enviado a la oficina de registros. La evaluación (es decir, el tratamiento) que cada alumno asignó al profesor se comparó con la calificación, que podía ir de O a 100, que obtuvo el estudiante en el curso. A continuación se presenta la información de la muestra. ¿Existe diferencia entre los promedios de las calificaciones de los alumnos en cada una de las cuatro categorías de evaluación? Utilice el nivel de significancia 0.01.
424
Capítulo 12
Calificaciones del curso
Excelente 94 90 85 80
Bueno
Regular
75 68 77 83
70 73 76 78 80 68 65
88
SOLUCIÓN
-----Deficiente
68 70 72
65
74 65
Se seguirá el procedimiento usual de cinco pasos para la prueba de hipótesis. Paso 1:
Plantear la hipótesis nula y la hipótesis altemativa. La hipótesis nula es que las calificaciones promedio son !as mismas en las cuatro categorías:
H,: IL1 = JL2= µ,= IL4 La hipótesis alternativa es que las calificaciones promedio no son las mismas en las cuatro categorías. H 1: Los promedios de las calificaciones no son todos iguales.
Paso 2: Paso 3: Paso 4:
Si no se rechaza la hipótesis nula, se concluye que no hay diferencia en los promedios de.las calificaciones del curso con base en !as evaluaciones a! profesor. Si se rechaza H0 , se concluye que hay diferencia en al menos un par de promedios de calificaciones, pero por el momento no se sabe qué par o cuántos pares difieren. Seleccionar el nivel de significancia. Se elige el nivel 0.01. Determinar el estadístico de prueba. El estadístico de prueba sigue la distribución F. Establecer la regla de decisión. Para establecer esta regla se necesita el va!or crítico. El valor crítico del estadístico F, se encuentra en el apéndice G. Los valores críticos para el nivel de signiiicancia 0.05 están en la primera página, y para el nivel 0.01, en la segunda página. Para usar esa tabla es necesario conocer los grados de libertad en el numerador y en el denominador. El número de grados de libertad en el numerador es igual al número de tratamientos, designado por k, menos 1. El número de grados de li.bertad en. el denominador es igual al número total de observaciones, n, rnenos el número de tratamientos. En este proble111a l1ay 4 tratamientos y 22 observaciones. Grados de libertad en el numerador = k - 1 = 4 - 1 = 3 Grados de libertad en el denominador=
Paso 5:
n - k = 22 -
4 = 18
Consulte el apéndice G y el nivel de significancia 0.01. Muévase en dirección horizontal por la parte superior de la página hasta 3 grados de libertad en el numerador. Después, por esa columna, hacia abajo, hasta la fila correspondiente a 18 grados de libertad. El valor en esta intersección es 5.09: Así que la regla de decisión es rechazar H0 si el valor calculado para Fes mayor que 5.09. Se-ieccionar la inueStra, realiza·r los Cálculos y tomar una decisión. Es conveniente resumir los cálculos del estadístico F en una tabla ANOVA. El formato de tabla ANOVA es el siguiente:
Análisis de varianza
425 Tabla ANOVA
fuente de variación
Tratamientos
Error Total
Suma de cuadrados Grados de libertad SST SSE SS total
k-1 n- k n-1
Media de cuadrados
F
SST/(k-1) - MST SSE/(n - k) - MSE
MST/MSE
················
........
..
Hay tres valores, llamados suma de cuadrados (SS, de sum of squares), que se usan para calcular F. Estos valores se pueden determinar encontrando SS total y SST (de sum of squares, treatments), y después SSE (sum of squares, error) por sustracción. El término SS total es la variación total, SST es la variación debida a los tratamientos, y SSE es la variación (error) dentro de los tratamientos. Para determinar el valor de F, hay que ir encontrando los valores de la tabla. Los grados de libertad del numerador y del denominador son los mismos que sirven para hallar los valores críticos de F. El término cuadrado medio es otra expresión para una estimación de la varianza. El cuadrado medio del tratamiento es SST dividido entre sus grados de libertad. El resultado es el cuadrado medio de tratamientos y se escribe MST (mean square, treatments). En forma similar se calcula el cuadrado medio del error (MSE, de mean square error). Se divide SSE entre sus grados de libertad. Para terminar el proceso y encontrar F, se divide MST entre MSE. Normalmente este proceso se empieza encontrando SS total. Este término es la suma de los cuadrados de las diferencias entre cada observación y la media total. La fórmula para determinar SS total es:
donde: es la suma de los valores X elevados al cuadrado. (LX)' es el cuadrado de la suma de los valores X n es el número total de observaciones.
LX"
Después se determina SST, la suma de cuadrados debidos al tratamiento. La fórmula para encontrar SST es
Sl.JM.¡l\·DE Cl.J¡l\D!'lADQS R.!:.l¡!D()SAL..Jf!J\TJ\Ml.EN"f.() donde:
T,
n,
es el total de la columna de cada tratamiento. es el número de observaciones (tamaño de la muestra) de cada tratamiento.
Finalmente se determina SSE, la suma de los cuadrados del error, por substracción. La fórmula es
SUMA
CUADRADos·oeL•.ERROR
SSEce SS total-SST
Los cálculos detallados para 'este ejemplo se muestran en la tabla 12.2.
[12Al
426
Capítulo 12
T.&BU\12.2
Cálculos necesarios para detcrn1inar el valor de F.
Bueno
Excelente
La estadística en acción
T,
n,
Regular
X
X'
X
X'
X
94 90 85 80
8 836 8100 7 225 6 400
75 68 77 83 88
5 625 4 624 5 929 6 889 7744
70 73 76 78 80 68 65 510 7
349 4
X'
391 5 30 561
Deficente
X'
X
X'
4 900 5 329 5 776 6 084 6 400 4 624 4 225
68 70 72 65 74 65
4 624 4 900 5 184 4 225 5 476 4 225
414 6
30 811
37 338
28 634
Total
1 664 22 127 344
Las entradas para la tabla ANOVA se calculan como sigue. Primero se usa la fórmula 122 para calcular la variación total: SS total
= ZX' -
(D<)
2
n
6672 = 127 344 - 1 = 1 485.09 22
Después, aplicando la fórmula 12.3, se calcula la vwiación de tratamiento. SST
2 3492 391 2 . 510 2 414 2 (ZX) 1 664 2 = Z (-T() - - = - - + - - + - - + - - - - - = 890.68
n,
n
4
5
7
6
22
Finalmente, por substracción, se determina la variación del error. SSE =SS total - SST = 1 485.09 - 890.68 = 594.41 Al insertar estos valores en una tabla ANOVA y calcular el valor de F se tiene: Fuente de variación
Tratamientos Error
Total
cativarne_nte menor cuando el usuai-io esta·-
ha solo.
Suma de cuadrados
Grados de libertad
Cuadrado medio
F
890.68 594.41
3 18
296.89 33.02
8.99
1 485.09
21
El valor calculado para Fes 8.99, que es mayor que el valor crítico 5.09, por tanto se rechaza la hipótesis nula. Se conéluye que las medías poblacíoríales no son iguales. Las calificaciones promedio no son iguales en los cuatro grupos de evaluación. Es probable que las calificaciones que obtuvieron los estudiantes en el curso estén relacionadas con la opinión que tienen de la capacidad y desempeño del profesor en el aula. Por ahora sólo se puede concluir que hay diferencia entre las medias de tratamiento. No se puede determinar cuáles o cuántos grupos de tratamiento difieren.
Como se observó en el ejemplo anterior, los cálculos se vuelven muy tediosos si el número de observaciones en cada tratamiento es grande. A continuación se muestran !os resultados de MINITAB para el ejemplo de las evaluaciones realizadas por estudiantes. Los resultados se presentan en una tabla ANOVA.
427
Análisis de varianza
El sistema MINITAB utiliza el término factor en lugar de tratamiento, con el mismo significado. El valor p es 0.001 y se local.iza bajo el encabezado "P". ¿Cómo se interpreta este valor? Es la probabilidad de encontrar un valor Fa 18. derecha de 8.99, con 3 grados de libertad en el numerador, y 18 en el denominador, dado que H 0 sea verdadera. Así que la probabilidad de cometer un error de tipo 1 al rechazar una H 0 verdadera es 0.001, o 0.01 %. ¡Efectivamente, es una probabilidad muy pequeña!
Autoexamen 12.2
Se tiene un nuevo limpiador de .uso múltiple cuya demanda. se prueba exhibiéndolo en tres lugares diferentes dentro· de diversos, supermercados. A· continuación se muestra el número de botellas de 12 onzas, de "Clean All", que se vendieron en cada ubicación. Ventas
Con otros limpiadores
20 12 25
15 18 28
24 1o 30
18 15 32
Al- nivel de significaricia de 0.05, ¿existe una diferencia en el número medio de botellas vendidas: en los tres lugares? a) Plantee las hipótesis nula y alternativa. b) ¿Cüál es la regla de decisión? e) Calcule los va.lo/g dé SS total, SST \
Ejercicios 7. La siguiente es información muestra!. Pruebe la hipótesis de que las medias de tratamiento son iguales. Utilice el nivel de significancia 0.05.
428
Capitulo 12 Tratamiento 1
Tratamiento 2
Tratamiento 3
8
3
3
6
2
4
10
4
5
9
3
4
a) Establezca las hipótesis nula y alternativa.
b) ¿Cuál es la regla de decisión? e) Calcule SST, SSE y SS total.
d) Elabore una tabla de ANOVA. e) Exprese su decisión respecto a la hipótesis nula. 8. La siguiente es información muestra!. Pruebe la hipótesis de que las medias de tratamiento son iguales. Utilice el nivel de significancia 0.05.
Tratamiento 1 9 7 11 9 12 10
Tratamiento 2 Tratamiento 3 13 10 20 9 15 14 13 14 15
a) Establezca !as hipótesis nula y alternativa. b) ¿Cuál es la regla de decisión? e) Calcule SST, SSE y SS total.
d) Elabore una tabla ANOVA. e) Exprese su decisión acerca de la hipótesis nula. 9. Una compañía de desarrollos inmobiliarios considera la inversión en un centro comercial en las afueras de Atlanta, Georgia. Se evalúan tres terrenos. El ingreso de los pobladores de la zona aledaña al centro comercial es de especial importancia. Se selecciona una muestra aleatoria de cuatro familias que viven cerca de cada terreno. A continuación se presentan los resultados muestrales. Al nivel de significancia de 0.05, ¿ puede concluir la compañía que hay diferencia en los ingresos promedio? Utilice el procedimiento usual de cinco pasos para prueba
de hipótesis. Southwyck (miles US$)
Parque Franklin (miles US$)
Old Orchard (miles US$)
64 68 70 60
74 71 69 70
75 80 . 76 78
10. El gerente de una compañía de programas para computadoras desea analizar, de acuerdo al tipo de industria, la cantidad de horas que los.ejecutivos de alto nivel pasan frente a sus computadoras. Se obtiene una muestra de cinco_ ejecutivos de cada una de las tres industrias. Al nivel de significan_cía de 0.05, ¿puede conc:luirse que existe una diferencia -por industria- en el número promedio de horas por semana que los ejecutivos dedican a trabajar en sus computadoras?
Banca
Comercio al menudeo
Seguros
12 10
8
10
8
s
10
6
12 10
8 10
6 8
10
.
429
ll"álisis de varianza
Inferencias acerca de pares de valores medios de tratamiento Supóngase que se realiza el procedimiento de ANOVA, y se decide rechazar la hipótesis nula. Esto permite concluirque todas las medias de tratamie.nto son d"1ferentes. Algunas veces, basta con esta conclusión, pero en otros casos puede que se quiera saber cuáles son las medias de tratamiento que son diferentes. En esta sección se proporcionan los detalles para una prueba de este tipo. Recuérdese que en el ejemplo relativo a las opiniones de los estudiantes y sus calificaciones, hubo una diferencia en las medias de tratamiento. Esto es, se rechazó la hipótesis nula y se aceptó la hipótesis alternativa. Si difieren las opiniones de los estudiantes, la pregunta es: ¿entre qué grupos hay diferencia entre las medias de tratamiento? Existen varios procedimientos para responder a esta pregunta. El más sencillo es mediante el uso de intervalos de confianza, es decir, la fórmula 9.2. Del resultado de computadora del ejemplo anterior, se observa que la calificación promedio de los estudiantes que evaluaron la instrucción como excelente, es 87 .250; y la calificación de quienes la evaluaron como deficiente es 69.000. Así, los alumnos que la evaluaron como excelente, parecen haber obtenido calificaciones más altas que los alumnos que la evaluaron como deficiente. ¿Hay una disparidad que justifique la conclusión de que existe una diferencia significativa en los promedios de calificaciones de ambos grupos? La distribución t, descrita en los capítulos 1O y 11, se utiliza como base para esta prueba. Recuérdese que una de las suposiciones básicas del ANOVA es que las varianzas poblacionales son iguales en todos 1.os tratamientos. Este valor poblacional común es el error cuadrado medio o MSE, y se determina por SSE/(n - k). Un intervalo de confianza para la diferencia entre dos medias poblacionales se encuentra mediante:
[12,5]
donde: )(1
X2
t
MSE n1 n2
es es se es es es
la media de la primera muestra. la media de la segunda muestra. obtiene del apéndice F. El número de grados de libertad es n - k. el cuadrado m.e.dio del error obtenido de la t.abl.a de ANOVA [SSE/(n - k)]. e! número de observaciones en la primera muestra. el número de observaciones en la segunda muestra.
¿Cómo se decide si hay ciferencia entre las medias de tratamiento? Si el intervalo de confianza incluye al cero, no hay diferencia entre las medias de tratamiento. Por ejemplo, si el extremo izquierdo del intervalo de confianza tiene signo negativo, y el extremo derecho tiene signo positivo, las dos medias no difieren. Así se desarrolla un intervalo de confianza empleando la fórmula 12.5 y se encuentra que las diferencias entre las medias muestrales es 5.00, es decir, si X1 -X2 = 5, y t ta 17.00, es decir:
- X-
(X 1
-
2)
±
~ MSE(~-1 + ~2 ) =
12, el intervalo de confianza irá desde -7.00 has-
.
1MSE"(n1 +n,
t\
·1 )
1
= 5.00
± 12.00
=
-7.00 hasta 17.00
Obsérvese que en este i.ntervalo se incluye el cero. Por tanto, se concluye que no existe diferencia importante entre las medias de tratamiento seleccionadas.
430
Capilulo 12 Por otra parte, si los extremos del intervalo de confianza tienen el mismo signo, esto indica que las medias de tratamiento difieren. Por ejemplo, si
X1 - X2 = 0.35 y t~ MSE(~ + ~,)
1
= 0.25, el intervalo de confianza irá de -0.60 a -0.1 O. Como -0.60 y -0.1 O tienen el mismo signo (ambos son negativos), se concluye que ambas medias de tratamiento sí difieren. Usando el ejemplo anterior de las opiniones de los estudiantes, se calculará ahora el intervalo de confianza para la diferencia entre los promedios de las calificaciones de los estudiantes que evaluaron al profesor como "excelente" y las de los que lo clasificaron como "deficiente". Supóngase que se ha identificado a estas dos poblaciones como 1 y 4. Con un nivel de confianza de 95%, los extremos del intervalo son 10.46 y 26.04.
(X1 - X4) ±
t~MsE(~, + ~,)
= (87.25 - 69.00)
± 2.101 ~33.o(1 + ~)
= 18.25 ± 7.79
donde: ><.1 = 87.25.
x, = 69.00.
t = 2.101 del apéndice F, con (n - k) = 22 - 4 = 18 grados de libertad. MSE = 33.0, de la tabla de ANOVA, con SSE/(n - k) = 594.4/18. N1 =4. N4 = 6. El intervalo de confianza de 95% va de 10.46 a 26.04. Ambos extremos son positivos; por tanto, se puede concluir que estas medias de tratamiento difieren significativamente. Esto es, los estudiantes que evaluaron al profesor como excelente, tienen calificaciones significativamente más altas que los estudiantes que lo evaluaron como deficiente. De igual modo, se pueden obtener resultados aproximados de la pantalla MINITAB en la página 427. A continuación se reproduce la parte inferior de tal salida. En el lado izquierdo se encuentra el número de observaciones, la media y la desviación estándar correspondientes a cada tratamiento. Por ejemplo, siete estudiantes evaluaron al profesor como regular. El promedio de sus calificaciones es 72.857. La desviación estándar de sus calificaciones es 5.490. Individual 95% Cis Far Mean
Based on Pooled StDev
Level Excellen Go6d Fair Poor
5 7 6
Mean 87.250 78.200 72.857 69.000
Pooled StDev
5.747
N 4
StDev 6. 076
----------+---------+---------+-----(------*-------) ( ------*-----)
7. 662
5.490 3.688
(-----*-----) (-----*-----)
----------+---------+---------+-----72. 0
so.o
88.0
En el. lado derecho se encuentra un intervalo de confianza para cada una de las medias de tratamientos. El asterisco(') indica la localización de la .media de tratamiento, y los paréntesis, los extremos del intervalo de confianza. Si hay un área de coincidencia, es decir una sobreposición de los intervalos de confianza, puede ser que las medias de tratamiento no sean diferentes. Si los intervalos de confianza no tienen área en común, entonces las dos medias son diferentes. Los extremos del intervalo de confianza de 95% para las calificaciones de los estudiantes que evaluaron al docente como regular, son aproximadamente 69 y 77. En el caso de los alumnos que clasificaron al profesor como deficiente, los extremos del intervalo de confianza son aproximadamente 64 y 74. En este intervalo de confianza hay un área común, por lo que se concluye que los dos vaiores medios no difieren. En otras palabras, no hay diferencia significativa entre las calificaciones de los estudiantes que evaluaron al profesor como regular y las de los que lo clasificaron como deficiente.
Análisis de varianza
431
Hay dos pares de medias que difieren. Las calificaciones de los estudiantes que evaluaron al profesor como excelente son distintas de las calificaciones de los alumnos que lo consideraron regular, y de las calificaciones de los que lo clasificaron como deficiente. No hay ninguna área en común entre estos dos pares de intervalos de confianza. Hay que hacer énfasis en que esta investigación es un proceso que va paso por paso. El primer paso es realizar la prueba de ANOVA. Sólo cuando se rechaza la hipótesis nula de que las medias de tratamiento son iguales se debe intentar hacer cualquier análisis acerca de las medias de tratamiento individuales.
Autoexamen 12.3
Los siguientes datos representan el costo de colegiaturas (en miles de dólares) de una muestra de universidades· privad.as en diversas reglones de Estados Unidos. A! nivel de significancia de 0.05, ¿puede concluirse que existe alguna diferencia en el costo promedio de las colegiaturas?
Noreste (miles US$) 10 11 12 10 12
Sureste (miles US$)
Oeste (miles US$)
8 9 10 8
7 8 6 7 6
a) Establezca las hipótesis nula y alternativa. b) ¿Cuál es laregla de decisión? c) Elabore una tabla de ANOVA. ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su decisión con respecto a la hipótesis nula? e) ¿Podría haber una diferencia significativa entre la colegiatura media en el Noreste y la del Oeste? Si es así, desarrolle un intervalo de confianza de 95% para esa diferencia.
Ejercicios 11. Dada la siguiente información muestra!. Pruebe la hipótesis de que las medias de tratamiento son iguales, al nivel de significancia de 0.05.
Tratamiento i
Tratamiento 2
Tratamiento 3
8 11 10
3 2 1 3 2
3 4 5 4
Establezca las hipótesis nula y alternativa. ¿Cuál es la regla de decisión? Calcule SST, SSE y SS total. Elabore una tabla ANOVA. Exprese su decisión respecto a la hipótesis nula. Si se ·rechaza H0 , ¿se puede concluir que el tratamiento 1 y e! tratamiento 2 difieren? Utilice el nive! de confianza de 95%. 12. Dada la siguiente información muestra!. Pruebe la hipótesis de que las medias de tratamiento son iguales al nivel de significancia de 0.05.
a) b) e) d) e) f)
432
Gapfü1lo 12
Tratamiento 1 Tratamiento 2
3 2 5
Tratamiento 3
9 6 5 6 8 5 4
3
6 3
5 5 5 4
1
7
5
6 4
a) b) e) d) e) f}
.
Establezca las hipótesis nula y alternativa. ¿Cuál es la regla ele decisión? Calcule SST, SSE y SS total. Elabore una tabla de ANOVA.
Exprese su decisión respecto a la hipótesis nula. Si se rechaza H0 , ¿se puede concluir que difieren el tratamiento 2 y el tratamiento 3? Utilice el nivel de confianza de 95%. 13. Una egresada de contaduría tiene ofertas de trabajo de cuatro empresas. Para examinar un poco más las propuestas, solicitó a una muestra de personas de nuevo ingreso, decirle cuántos meses trabajaron cada una para su compañía, antes de recibir un aumento de sueldo. La información muestra! es:
Número de meses antes del primer aumento de sueldo
CPA, lno.
AB lnll.
Accl Ud.
Plisters
12 10 14 12
14 12 10 1o
18 12 16
12 14 16
Al nive! de significancia de 0.05, ¿existe alguna diferencia, entre las cuatro empresas, en el número medio de meses antes de recibir un aumento de sueldo? 14. Un analista financiero desea determinar si hay diferencia en la tasa media de rendimiento de tres tlpos de acciones: de servicios públicos, de comercio al menudeo y bancarios. Se obtuvo la siguiente información mi.;estral: ..
Tasas de rendimiento Servicios Comercio 14.3 18.1 17.8 17.3 19.5
1·1.5 12.0 11.1 il .9 11.6
Banca 15.5 12.7 18.2 14.7 18.1 13.2
a) Utilizando el nivel de signi'ficancia 0.05, ¿existe alguna diferencia entre los tres tipos de acciones, en la tasa media de rendimiento? b) Supóngase que se rechaza la hipótesis nula. ¿Puede concluir e! analista financiero que hay diferencia entre las tasas medias de rendimiento de las acciones de servicios públícos y las de comercio al menudeo? Explique su respuesta.
Análisis de varianza
433
Análisis de varianza en dos direcciones En el ejemplo de las evaluaciones hechas por los estudiantes, se dividió la variación total en dos categorías: la variación entre los tratamientos y la variación dentro de los tratamientos. A Ja variación dentro de los tratamientos también se le denominó el error o la variación aleatoria. Es decir, se consideraron sólo dos fuentes de variación, la causada por los tratamíentos y la debida al azar. En el ejemplo de las evaluaciones realizadas por los estudiantes pueden existir otras causas de variación en !as calificaciones de los estudiantes, además de la evaluación del trabajo del profesor. Entre estos factores se puede considerar la cantidad de horas de estudio por semana, su aptitud para las matemáticas, o el género del estudiante.
La ventaja de considerar otros factores reside en que se puede reducir la varianza del error. Es decir, si se reduce el denominador del estadístico F (reduciendo la varianza de error, o más directamente, el término SSE), el valor de F será mayor, haciendo que se rechace la hipótesis de las medias de tratamiento iguales. En otras palabras, si se puede explicar más de la variación, entonces el "error" disminuye. Un ejemplo aclarará la reducción en la varian-
za de error.
EJEMPUJ
La organización Warren Area Regional Transit Authority (WARTA), en EUA, realiza la ampliación del servicio de autobuses desde un suburbio de Starbrick, hasta el distrito central de Warren. Hay cuatro rutas a considerar: 1) vía U .S. 6, 2) vía West End, 3) vía la calle Hickory y 4) vía la ruta 59. Se tiene que WARTA realizó varios recorridos de prueba para determinar si había diferencia entre los tiempos en las cuatro rutas. Como habrá una gran cantidad de conductores, la prueba se realizó de manera que cada uno de los conductores recorriera cada una de las cuatro rutas. A continuación se 111uestran los tiempos del recorrido, en minutos, de cada combinación conductor-ruta. Tiempo del recorrido de Starbrick a Warren (minutos) Conductor Deans Snaverly Ormson Zol!aco Filbeck
U.S.6
WesI End
Calle Hickory
Ruta 59
18 21 20 25 26
20 22 23 21 24
20 24 25 28 28
22 24 23 25 25
Al nivel de significancia de 0.05, ¿existe alguna diferencia en el liempo medio de viaje a lo largo de las cuatro rutas? Si se elimina el efecto de los conductores, ¿existirá alguna diferencia en el tiempo promedio de viaje?
SOlllC:IÓN
Para empezar, se realiza una prueba de hipótesis usando un ANOVA en una dirección. Es decir, se consideran sólo !as cuatro rutas. En estas condiciones la variación se debe
434
Capí!"lo 12 a los tratamientos o al azar. La hipótesis nula y la hipótesis alternativa para comparar el tiempo medio del recorrido a lo largo ele las cuatro rutas son:
Ha:
/h1
=
fL2
= ~1,,3 =
/J-4
H 1: No todas las medias de tratamiento son iguales. Hay cuatro rutas, así que los grados de libertad. en el numerador son k - 1 = 4 - 1 = 3. Hay 20 observaciones; de modo que los grados de libertad en el denominador son n - k = 20 - 4 = 16. En el apéndice G, con el nivel de significancia 0.05, el valor crítico de Fes 3.24. La regla de decisión es rechazar la hipótesis nula si el valor F calculado es mayor que 3.24. Los detalles de !os totales y cuadrados del tratamiento se presentan en la tabla 12.3.
TABLA 12.3
Cálculos necesarios para un ANO\!A en una dirección y en dos direcciones. Tiempo de recorrido de Starbríck a Warren (minutos)
Conductor
U.S.6
Deans Snaverly Ormson Zollaco Filbeck
West End
Ruta 59 Suma renglones, Br
Galle Hickory
18 21 20 25 26
20 22 23 21 24
20 24 25 28 28
22 24 23 25 25
80 91 91 99 103
Tata! de colurílna, Te 11 o Suma de 'cuadrados 2 466
11 o 2 430
125 3169
119 2 839
464 10 904
Las cantidades para la tabla de A.NOVA se calculan como sigue. Primero, usando la fórmula 12.2, se determina la variación total:
s.s total
= :?;X 2 -
(:?;~)
2
= 1o 904 -
4
~i
2
= 139.2
Después, mediante la fórrrula 12.3 se calcula la variación de tratamiento:
Por último, por substracción, se determina la variación del error. SSE =SS total - SST = 139.2 - 32.4 = 106.8 Al introducir estos valores en una tabla ANOVA y calcular el valor de F, resulta: Fuente de variación
Tratamientos Error
Total
Suma de cuadrados
Grados de libertad
Cuadrado medio
F
32.4 106.8
3 16
10.8 6.675
1.618
139.2
19
Debido a que el valor de F calculado 1.6-iB, es menor que el valor críiico 3.24, no se rechaza la hipótesis nula. WARTA puede concluir que no hay diferencia en el tiempo medio del recorrido a lo largo de las cuatro rutas. No hay razón para indicar que una de ellas es más rápida que las otras.
435
Análisis de varianza
En el ejemplo anterior se consideró la variación debida a los tratamientos (rutas) y se supuso que toda la variación restante era aleatoria. Sin embargo, no se establecieron pruebas considerando que cada une de los cinco conductores recorrió cada una de las 4 rutas. Si se pudiera considerar el efecto de los diversos conductores, esto permitiría reducir el término SSE, lo que llevaría a un valor F más grande. La segunda variable de tratamiento -los conductores en este caso- se conoce como variable de bloqueo.
Vaú'1lbl~.
qe
~l!)qneo Un~ se>lyndav'!rí~bled1 tratamiento, ·que· al ser considerada en..el ANOVl\,tien~el ~f~ct() de re.ducir .ai.lérmí.no. SS.E.
En este caso los conductores son la variable de bloqueo, al eliminar el efecto de los conductores en el SSE se modificará la razón F para la variable de tratamiento. Primero se necesita determinar la suma de cuadrados de los bloques. La ecuación para determinar la suma de cuadrados de los bloques es muy similar a la ecuación para la suma de cuadrados de tratamiento.
ª')k P. . SB .. ·(-'-. ' .·.·.. "" }; ..
SUllllA DE CUADRADOS DE BLOQUES
(IX)'
n
[12.6]
donde 8 1 se refiere al total del bloque, esto es, al total del renglón, y k es el número de elementos en cada bloque. Se utiliza el mismo formato en la tabla de ANOVA de dos direcciones, que en el caso de la tabla de ANOVA de una dirección, excepto que hay un renglón adicional para la variable de bloqueo. Se tiene que SS total y SST se calculan como antes, y SSB se calcula con la fórmula 12.6. El término SSE se encuentra por substracción. SUl\/I~ DE (;l;JADRADOS l)EL ERROR,
SSE = SS total ~ SST - SSB
DOS DIRECCIONES
[12.7]
Los valores de los diferentes componentes de la tabla de ANOVA se calculan como sigue. Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
F
SST SSB SSE SS total
k-1 b- 1 (k- 1)(b -" 1) n- ·¡
SSTl(k- 1) = MST SSB/(b - 1) = MSB SSE/(k-1)(b-1) = MSE
MST/MSE MSB/MSE
Tratamientos Bloques Error
Total
El valor de SSB se encuentra mediante la fórmula 12.6. SST =
z(ªr)k
(ZX)' = (80 n 4
2
+ 91 2 ~ 91 + 992 + 103 2
4
'
4
4
4
2 )
_
2 464 = 78 2 20 ·
El valor de SSE se obtiene con la fórmula 12.7. SSE =SS total - SST - SSB = 139.2 - 32.4 - 78.2 = 28.6
436
Capítulo 12 (1) Suma de cuadrados
(2) Grados ele libertad
(3) Cuadrado medio (1)/(2)
Bloques Error
32.4 78.2 28.6
3 4 12
10.80 19.550 2.383
Total
139.2
Fuente de variación
Tratamientos
Existe un desacuerdo en este punto. Sí el propósito de la variable de bloqueo (los conductores de auto, en este ejemplo) era sólo reducir la variación del error, no se debería realizar una prueba de hipótesis para la diferencia entre las medias de bloques. Es decir, si el objetivo era reducir el término MSE, entonces no se debería probar una hipótesis con relación a la variable de bloqueo. Por otra parte, puede desearse dar a los bloques el mismo status que a los tratamientos, y realizar una prueba de hipótesis. En el último caso, cuando los bloques son lo suficientemente importantes para ser considerados como un segundo factor, esto se conoce como experimento de dos factores. En muchos casos, la decisión no es clara. En el ejemplo, interesa conocer las diferencias entre los tiempos de recorrido de los conductores, así que se realizará la prueba de hipótesis. Los dos conjuntos de hipótesis son:
1. H0 : Las medias de tratamiento son iguales (11 1 = 112 = 113 = 114). H1 : Las medias de tratamiento no son iguales. 2. H0 : Las medias de bloque son iguales (11 1 = l"z = 113 = 114 = 11 5). H 1 : Las medias de bloque no son iguales. Primero se probará la hipótesis relativa a las medias de tratamiento. Se tienen k - 1 = 4 -
1 = 3 grados de libertad en el numerador, y (b - 1)(k - 1) = (5 - 1)(4 - 1) = 12 grados de libertad en el denominador. Utilizando el nivel de significancia 0.05, el valor crítico de Fes 3.49. La hipótesis nula de que los tiempos promedio son iguales en las cuatro rutas se rechaza si la razón Fes mayor que 3.49.
e: _ MST _ 10.80 _ MSE - 2.383 - 4 ·53
' -
Se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Se concluye que el tiempo medio de viaje no es el mismo en todas las rutas. Así que WARTA deseará realizar algunas pruebas para determinar qué medias de tratamiento difieren. A continuación se realiza una prueba para determinar si el tiempo de viaje es igual con los diferentes conductores. Los grados de libertad en el numerador para bloques son b - 1 = 5 - 1 = 4. Los grados de libertad para el denominador son !os mismos que antes (b - 1)(k- 1) = (5 -1)(4-1)=12. La hipótesis nula de que las medias de bloque son iguales se rechaza si la razón Fes mayor que 3.26.
F = MSB = 19.550 = 8 20 MSE 2.383 . Se recl1aza la hipótesis nula y se acepta la alternativa. El tiempo medio no es igual para todos los conductores. Así que la gerencia del organismo WARTA puede concluir, con base en los resultados muestrales, que hay diferencia entre las rutas y entre los conductores. La hoja de cálculo Excel tiene un procedimiento para el ANOVA de dos factores. Los resultados en el ejemplo de WARTA que se acaba de concluir, se repiten a c011tinuación. Éstos son iguales a los obtenidos antes. Excel proporciona además los valores p. El valor p para la hipótesis nula respecto a los c011ductores es 0.002, y para las vías es 0.024. Estos valores p confirman la hipótesis de que las hipótesis nulas para tratamientos y para bloques, deben rechazarse usando el nivel de sig11ificancia 0.05.
Análisis de varianza
r~-----~~~~-~~---~--~-----~---
il
~ 1 1
~
1
f4iLJl~'.[]$X2lfiílBH 112,t~,
-- - --
437
- - -
-
-
--~-~-~~~----------------~--~-~~--------------------:¡
La empresa Rudduck Shampoo vende tres clases de champú: para cabello seco, para cabello norm,al y para cabello .graso. Las ven~as, en millones de .dólares .. durante los últimos cinco me_ses, se present2:1n en la siguiente tab!a. Utilice el nivel de signi,ti_cancia 0.05, pruebe si las ventas medias por mes de los tres tipos de champú son diferentes. '
-
'
.
'
Mes
Seco
Junio Julio Agosto Septiembre Octubre
il
~
I¡
~
'~' ,,
Ventas (millones de dólares) 1I· 1,,
il
Normal
Graso
12 14
7
9
11 13
12 11
8
9
7
9
10
13
!!
li
8
'
-
•~~~~~,~--~"'~~~~~--3"•"J,~T~~-~~m~,=-,~-,~••n~-~~c--~'~TJ. ~-~~~~~~~~~~~~~~~~---~·~~·~~.-;~~.J
Fjercicios En los ejercicios i5 y í 6, realice una prueba de hipótesis para determinar si difieren las medias de bloques y las de tratamiento_ Utilice el nivel de significancia de 0_05 y: (a) establezca las hipótesis nula y alternativa para tratamientos; (b) establezca la regla de decisión para tratamientos; (c) establezca las hipótesis nula y alternativa para bloques-. Además, formule la regla de decisión también para bloques; (el) calcule SST, SSB, SS total y SSE; (e) elabore una tabla ANOVA; (D ¿cuál es su decisión con respecto a los dos conjuntos de hipótesis? 15. Se proporcionan los siguientes datos para un ANOVA de dos factores: Tratamiento
2
Bloque
A B
e
46 37 44
31 26 35
438
Gapilulo 12
16. Se proporcionan los siguientes datos para un ANOVA de dos factores:
Tratamiento Bloque
A
12
B
9
e
7
2
3
14 11 8
8 9 8
17. La empresa Brunner Manufacturing Co. opera 24 horas al día, cinco días a la semana. Los trabajadores cambian de turno cada semana. La gerencia está interesada en saber si hay alguna diferencia en el número de unidades producidas cuando los empleados !abaran en diversos turnos. Se seleccionó una muestra de cinco obreros y se registró su producción en cada turno. Al nivel de significancia 0.05, ¿se puede concluir que hay diferencia en !a producción media por turno o en la producción media por trabajador? Unidades producidas Empleado
Mañana
Tarde
Noche
31 33 28 30 28
25 26 24 29 26
35 33 30 28 27
Skaff Lum Clark Treece Margan
18. En el área de Tulsa hay tres hospitales. Los siguientes datos muestran el número de intervenciones quirúrgicas practicadas a pacientes externos en cada uno de los hospitales, !a semana pasada. Al nivel de significancia 0.05, ¿se puede concluir que hay diferencia en el número promedio de cirugías realizadas por hospital o por día de la semana?
Número de intervenciones realizadas
Dia
St. Luke's
St. Vincent
Merey
14 20 16 18 20
18 24 22 20 28
24 14 14 22 24
Lunes Martes Miércoles Jueves Viernes
:':'- )\:_ -:>·:;::·. :.-i ':'· ___,.--)_='.,':_-:_- _.::::.·:·_-:,;:;:_<:-'./:_._ :-_:::,._·_--:·- :,;/..-;-_>, :·::·;;;;_ ._-:-/-'.: ' --;.--:
-
···<··~¿~~~~~~~i'.c1~¡í~f~·· 1: t~~Ci~r&61~fístic~~ci~• 1& ciisfr15u6ióg·g,;¿¡,: .·
g~·<;ontipu~¡.·
A B.· ?~~·,_val?-~~~ . np••·.;·•.J.·.•· . _-_puf?_d_~n' U•·.·>··············. ser:-neg_at!yos~_
,
C. Ti~~\l3~~9ºp()~itivo; D. Exist<;lunfifamilia dedi~tribuciones F; Cad~ vezg~e. cambian los gla~cisd~Jibertap, ya sea en el~um~rad 0 r?eneldenominador, se ere.a una nueva.dis\ríbudón:.· 11. ka di~tribu 0 i~n. 5s,éutiliz.a p~ra proparsí dos.varíanzas8obl.aaionale:iso.n iguales. A. L_~s_ -_p.99Jaci_oge~_- mu~~~r~~da~. _d~ben_:_$.e_r_ norn)afe~:>. __ _. .-_._.- .: _·_:: B. La. m~xor .deJj!s dos~ari~nz~~ muestrales.seaqloaa en.el·numeradbr, loqµe obliga Efqu~ .·. la r¡gqo sea pqr lq menos igual !l 1.00, · ·
Análisis de varianza
439
C. El valor de F se calcula aplicando la siguiente ecuación:
s'
F~~
[12.1]
s!
HL .Se usa un ANOVA de una dirección para cdmparar varias medl8.s de tratamiento. A. Un tr8.tamiento es·:uiia fuénte de Variación, s: Lassup0Sicidnesimplfcitas•·$n81ANOVAS:on•·· 1. LaS 111uestrás provien_en _de._r_qblaCíones que si_guen la distribución riormal. 2. 3. C. La 1.
Las desviaciones estándar- de las poblaciones son iguales~ Las muestras son independientes. ·
info_rríl'ación ·PE!ra obten Sr- el va!ór de_· F se, _resume en una tabla de J\NOVA. La fórmula para SS total, la suma ele cuadrados total, es: (:ZX)'
~-,¡-
SS total= 2X 2
[12.2]
2. La fórmula para SST, suma de cuadrados de tratamiento, es: SST =
:z(~t) e CE~)'
[12.3]
3. La sc1ma de .cuadrados de error, SSE, se obtiene por substracción. SSE" SS totab SST
[12.4]
4. ESta ínfonnactón se resúm_e en ·1a sJguíente. t_ab_la_y se d9termiria el valor de F, Fu"én10 deí variación Trata.mientas Error Total
Stima de cuadrados Grados deliberlad. Cuadrado medio SST SSE SS total
F
SST/(k-1) = MST MST/MSE SSE/(n - k) =. MSE
k-.1 n- k
n -- 1
nt. SL.se rei::haza una_ hip_ót_esís iluta de medias de tratamiento iguales, se pueden identificar los par_es que difieren a:partir_de! síguie_nte- iirtet11_a_fo
(X, - X,)
±
d~
cOnfianza:
rf~sE~;r-:;~)
[12.5]
V. En _un_ ANO\[A-cte. d_b_s.._di'.Bccion_es_tde_:con_Si_dera uti'a._~egL_1nd3_.Variable de tratamiento. A. L~ seg uncia variable de tratamie~to se denomina la. variab.le de bloqueo_ B. d~~·e_rrni~_fl. _ ~~a~d_o.:la s_ipL1íeflt_e_._ecué'.qlón:
?.e
.
. (ª1)· (SX) k ---n-
[12.6]
SS total -SST - SSB
[12.7j
2
SSB ~ 2:
SSE D~-
~
Et·:vator estadístico F:parao la varfable._de: tratamie_nto .Y· .ta_ variabl_e de bloqueo, se determinan en .la siguient
Fuénte·cte vaíiaCión
---Tratamientos· Bloques Error
Total
sum~ de.cuadrados
SST SSB SSE SS total
Grados· d.e. libertad k-1 b~1
Jk:..-1)(b - 1) ~1
Cuadrado medio SST/(k~ 1) ~ MST SSB/(b - 1) = MSB SSE/(k- l)(b-1) = MSE
F
MST/MSE MSB/MSE
440
Capítulo 12
Sin1bología SÍMBOLO
~:HGN!·FiCADO
fOR~~1¡.\
SS total
Suma de cuadrados, total Suma de cuadrados de tratamientos
S S total SS T
suma de colurnn·as· e!8Vadas a! Cüadrado Núrnero de observaciones eri Cada tratamiento Error cuadrado medio Suina de c'uadi'ádos de !os bloques
T subíndice e al cuadrado
SST
Fe ne MSE
SSB
EXPRESIVA
n subíndice e M
sE
SSB
Ejercicios del capítulo 19. Un agente_ de.bienes··raíces_en.e! área _cqstera_ de !as Carolinas (en_EUA), desea comparar la variatión en el precio de Venta de casas ubicadas frente a! n.1ar,. con las que están una distancia-de una a·treS caHeS de la costa. En L1na 1nuestra de 21 casas frente a! mar que se vendieron el año pasado, la desviación estándar de los precios ele venta fue $45 600 (dólares). En üna- muestra dé 18 casas a tres calles· de distancia de!' n1ar, vendidas también e! afío pasado, !a désviación estándar fue $2i 330. A! nivel de signi-fícancia de 0.0i, ¿se puede concluir que hay más yariacióh en lc)s- pre_éios_ de _venta _de_ !as casas__ frente al mar? 20: Un fabrícante de computadoras está a punto de laniar a!. mercado una nueva y más rápida computadora personal. La nueva máquina es claramente más rápida, pero las pruebas iniciales indican que hay más variaci_ón en el tiempo de procesamiento. El tiempo de procesamiento depende_de! programa que se_ ejecuta, de !a cant[dad de elatos de entrada,. y de la.cantidad de datos de salida. En una muestra de ·¡ 6 computadoras, -C¡ue cubren una serie de tareas de pro_ducción, mostró que !a desviación estándar en el tiempo de pro_cesamlento fue.22.(centésrmoS--de. ségurido)' p8ra. fi máC¡uina nLieva;--~/12· (c9ritéSitTiós.-de-se9undo) para !a máquina actua1:- A1 nlve! de sígn1fiCá:ncift 0.05, ·¿se Puede cbr1cll1ir que-hay· más variaclón en el tie111po ele procesanliento de !a rnáquin'a nueva? 21. Hay dos distribuidoras Chevr61et'en Jamesto\/1111, Nueva York: Las ventas semanales- promedio e_11 las__ agencí_as. S!1arkey Chevy, y Oave_;VVhite Cheyt·otet,_ so_n. c_así_ !as mismas. Sin embargo, Torn___Sharkey -::eL._d_~e.ño de_ 1a:prirnera-:_.cr~e que sus ventas -~on más consistentes. A continuación se presen_t2lef_,nlimerQ. d~_.a,utos v~0dld_os:en Sharkey_ e_r:i !bs l1ltimos siete meses~ y los vendidos en-los últín1os ocho.- meses; en !a agencia-Dave VVhite.-¿Está usted ele acuerdo con e! _señor Sharkey? ·Utillce_ e!. nivel de signi"ficancia 0,0-1.
a
Sl1arkey
98
73
54
57
~º-ª_ve~W_h_it_e~_1_s=_s_1__ 81_~
68 82
64
7D~
-~~ 58~1
22. Se tomaron_ mu~stras_ aleat_orla_s_ d~ tam_año_ cinco1 _en_cáda unR_de-tres poblaciones, La Suma de cuadrados tata! fue iOO, La surna-de:cuadrados debldos·a1· tratamiento fue 40. aj Establezca las hipótesis n_u!a_ y alternativa; b) ¿Cuál es la regla de clecisión?·_use el-nlve!_de s!gnlficancia 0.05. e) Termine !atabla .de ANOVA. ¿Cuál es el valor. cleF? d} ¿Cuál·eS ·sLr.decislón r_e~pecto-a f'a hipótesis nula? 23. En una tabla ANOVA el MSE fue 10,.se tomaron muestras aleatorias de 6 elementos, a partir ele.cada una de cuatro poblaciones, donde la SS total fue 250. a) Establezca las hipótesis nu!a y alternativa. b) ¿Cuáf es la reg!a ele deciSión? Use =el_ nivel de signi'ficanc_ia 0.05. e) Elabore una tabla ele ANOVA. ¿Cuál es el valor de F? d) ¿Cuál es su decisión respecto a !a hipótesls nula? 24. A continuación se presenta una tabla de ANOVA incompleta.
Análisis de. variar.za Cuadrado medio
Suma de
gt
cuadrados
Fuénte
Tratamiento
F
2
20 11
500
Complete la tablay responda a las siguientes preguntas. Utilice el nivel de significancia 0.05. a} ¿Cuántos tratamientos hay? b) ¿Cuál es el tamaño total de la muestra? e) ¿Cuál es el valor crítico de F? d) ¿Cuáles son las hipótesis nula y alternativa? e) ¿Cuál es su conctusfón respecto a la-hipótesis nula? 2_5. Una·-Organizacíón de consumidores quiere _saber sí hay diferencia eíl e! precio de un juguete en particular en tres _tipos de tiendas. E! precio· del juguete se revisó en_ una muestra _con 5 ti en-' das de descuento;·clnco tiendas de novedades, y cinco tiendas departamental.es. A continuación se muestran los resultados (en dólares) ..Use el nivel de signíficancia 0.05. Ti€rida de Tienda de Tienda descuento novedades departamental
12
$15 17 14 18
15
17
$12
13 14
$19 17 16 20 19
,26. Un.médico especia!ista:en·el controf dé_ peso,:recomfenda.tre.s·dietaS. Como experimento, ·seleccionó a!eatoríamente. a.15. pacientes. y asignó 5 pacientes a cada dieta: Después de tres semanas se registraron las siguientes pérdidas de peso, en libras, Al nivel de sígnificancia 0.05, ¿puede concluirse que hay alguna diferencia, entre las 3 dietas, en la pérdida media de peso perdido? · Dieta A
Dieta B
5
6 7 7
7
4 5 4
Dieta G 7
8 9 8 9
5 6
27. La .ciudad de Maumee está dividida en cuatro distritos. El jefe de policía quiere determinar sí hay. a.lgun;a,d_iferencia. efi- ~l. número promed.io. de crím.enes cometidos _en. ?ada distrito. Reg.istró. e.1 nC1merO de crímenes reportados en cada distrito en una muestra de seis días. A.1 nivel de signlf[~~~.ci? 0.05, ¿puede.el fun_cionar.io concluir que.hay._diferencia en el nl1mero promedío de crímenes? ·cantidad· de: crímenes Réé Cénter
Key Street
MoncloVa
Whi!ehouse
13 ·15 14 15 15
·19
12 14 15 13 12 15
16
·14
21 13 18 ·19 ·13
17
18 15 20 18
442 28. El clirect_or de personal el.e Cander fv1achine Products desea investigar el "petfeccionismo" 8n el trabajo./.\ una myestraaleatoria.de ·¡g empleados les aplicó un examen dlseñado para medir el perfeccíonismo. Las puntuacio.n'es vaíl d8sde 20 hasta casi 40. Una ele las facetas del estudío incluyó !os antecedentes de Cada empleado. ¿El empleado proviene de una región rural, de una ciudad pequeña o de unan1etróp6li? Las puntuaciones son: Ciudad
pequeña 28 24 25
Reglón furá!
35 30 36 38
Metrópoli
24 28
26 30 34.
30 32 28
29
34 31
aj Al -~iv_e! de significancía 0_.0_5, ¿'puede- concluirse- que existe una diferencia en las tres puntuaciones medias? bj Si se rechaza la hipótesis nula,. ¿puede decirse que !a puntuación medía de !os empleadós que provienen dé-zonas rurales, es diferente de la puntuación de los qüe provienen de una cíudad grande? 29, Se puede mostrar que cuando sólo se tienen dos tratamientos, el ANO VA y la prueba t de Stuc den! (capítulo 1O), se obtienen las m.ismas conclusiones. Además t 2 ~ F. Como ejemplo, supóngase que 14 estudiantes seleccionados aleatoriamente se dividen en dos grupos, uno integrado pOr 6 escolares, y otro, por 8. A un grupo se !e da un curso usando una combinación· de- conferencias e instrucción programa:da, y-af- otro; -una ·combinación de conferenCías y televfsión. Al final:de!._curso,acada grupo· se le aplica Lin examen de 50 preguntas. La siguiente es· una lista.del número d_e resPuestas,correctas en cada.uno, de tos dos grupos. 0
Conferencias
lnstn.icción progrmnada_
Conferencias y televisión
19 17
32 28 3·¡ 26 23. 24
fi
23 22
·17 ·15
27
25 B) Mediante ta técníé:a d8 ·aiiá!Js.is de-v'cirianza, pluébe"!~-·H0 .l_ás dos puntuaciones promedio de los exámenes son iguales; a:::: 0.0_5 . .ó} Usando. !a prueba t del capítulo 10, calcule t. e] Interprete los .resultados; -30.:Se- sabe que· un .eg_resad_o (c:on licenciatura)_: d_e una escuela de- administración gana- más é¡ue un: egresado_ de la enseñanz~· preparatori.a' siil. Instrucción adíclona!; y que: una persona· con n1aestría o _doctorado,: gana al1n más. Para· prObar..estO, se tomó una muest_ra aleatoria _de_· 25 ejecutivos de compañíaS\;.uyos activos· eran suPeriOres un millón de cló!areS. A continuación se inuestraii _sus ingresosi clasi-ficadoS:-Segl1n,el níve( más alto de edúcación.
a
443
Análisis de varianza
ingreso {miles de dólmres}
PrePa:ratorla o menor 45
Maestría
Licenciatura ----49
47
.. 57
53 62 39 43 54
85 73
o doctorado 51 ...73 82 59 94 89 89 95 73
81 84 89 92 62
Prliebe al nivel de signílicancia 0.05 que no hay diferencia en los salarios medio.s de los tres grupos. Si .sé rechaza la hipótesis nula, realice las pruebas para determinar qué grupos difieren. 31.-Una _compci_f'iíª_d_e_pu_Pl_!c_i_da_d _a niv_el _ nacióna_I,_ Shank's !_ne., _quie_re saber si e! tamaño de un an_un_qi..o y_._~u:,co!orido producen ·diferencia e_n la respuesta·_ de !os lectores ele revistas. A ·una mues_trEt__~!-rator_iéi !ecto_rEl~- .1.es _ f!J,8, pr_esentacla u~a serie _de: anuncios __con cuatro colores_ distintos v·.tres tamaños .diferentes; A cada lector se !e pide que asigne una calificación, de 1 a 1U, a. cada combtrícición de color y.tartiaño. Supóngase tjue las calificaciones se distribuyen en forma aproxrmactamente· nórm8.I. Lás puntuaciones de cB.cla combinación se muestran en la siguiente tabla (por ejemplo, la calificación para un anuncio rojo y pequeño es 2).
ct:
Color de! anuncio Tamaño. del anuncio
Pequeño Mediano Grarict·e
Azul
Naranjá
Verde
2
.3
3
8
3 6
5 7
6 8
7 8
~ojo
¿.Hay· diferencia ·en 18. efectividad del·. anuriclo de acuerdo con· su color y tamaño? Utilice et· nivel de significancia 0.05. 32. Hay cuatro restaurantes McBurger en Columbus, Georgia (en EUA). Las cantidades de hamburgue~as y_e.ndidas en cada uno .de .!os establecimientos durante las últimas 6 semanas, se inue¡:;tran _él_ .continu_ación,.: A.t :nivel O.Q..5. de.. s.ignificancia, ¿existe diferencia en !a cantidad promedío de ha111_burguesas· vendidas··en: los cuatro restaurantes, cuando se considera el factor de semana? Restaurante
2 3
6
Metro 124 234 430 105 240 310
!nteresi:ata!
Universidad
·150 220. 290
320 340 290 310 280 270
245
205 260 -----
Río
·-----
190
230
240 170 180 205
a) ¿Háy dilérencia e.n 1'1:>fl1.edia~ de 1ratatn.iento? b) ¿Hay diferencia en las medias de bloque?· 33. En la ciudad deTucson, Arizona (EUA), se emplea personal para estimar el valor d~ las casas con el propósito de establecer un impuesto sobre bienes rafees. El adrninistrador de !a ciudad envía regu!afmente. a. cada asesor a 5 inmLieb!es y deSpués compara los resultados. A. continuación se _p.ropor'cion_a·ra infdrmación 1 en r:ni!es de dólares. ¿Se piJede concluír que ·existe aL"' guna difer8.ncia entre los asesores 1 ·considerando a,::::: 0.05?
444
Gapítulo 12 Asesor lnmueble A B
e D
E
Zawodny
$53.0 50.0 ,,... 48.0 70.0 84.0
Normail $55.0 51.0 ... 52.0 68.0 89.0
Cingle
Holiday
$49.0 52.0 47.0 . 65.0 92.0
$45,0 53.0 53.0. 64.0 86.0
a}' ¿Hai¡ díferencia·Bn las medias de· tratamiento? b) ¿Hay diferencia en las medias de bloque? 34. La empresa Martín Motors tíene en almacén tres automóviles de la misma marca y modelo. Al ge!'ent.e le gusta.ría comparar el consumo de gaso!ína ·de los tres:v.ehículos {desigÍ1.adoS .como A, B y C) usando cuatro típos diferentes de gasolina. Para cada prueba, se depositó un galón de combustible en el tanque vacío de ca.da aut 0 móvily se manejó Hasta agotar la gasolina. La siguiente tabla·muestra:.e! número. de millas recorridas _en .cada-prueba. Distancia (míllas) TijJo de g_aSolina
Regular Super.regular Sin.plomo Premiurn sin pfomo
Auto A
Auto B
Auto G
22.4 17.0 19.2 20.3
.20.8 19.4 20.2 "18.6
21.5 20.7 2t2 20.4
Utili~arido el n_l_vel de-_significancia .0~05: a) .· ¿Hay diferencia entre los tipos de gasolina? b) ¿Hay diferencia entre los autos? 35, Una empresa de investigación desea comparar los rendimientos en millas por galón, de las gasolinas: regular s_ín pfo_mo; grado medio-:Y·,súper pr_emium. Debido a !a diferencia en-e!_ funcionamiento de. !os· difere_ntes motore·s-de los· automóvites, se seleccionaron siete de ellos y se les trató-corno blot¡Ues. Pbr_ta11to1 cada-Upo de gasolina-se probó conc:ada Clase de·automó,ví!. Los resultados de las pruebas, en millas por galón, se muestran en la tabla siguiente: Al nivel de signíficancia 0.05, ¿hay alguna diferencia entre. las gasolinas y los automóviles?
1 2 3 4 5 6 7
Regular
Gratfümedio
Siip·ér Premium
21 23 24 24 26 26 28
23 22 25 24 26 24 27
26 25 27 26 30 27 32
:36~ Cácla_ una de las tr_~s-_cad~n~s _de supe_rm,er_qados· _e_o.-la regf~n-de· DenVer·índica qUe· Of(BC~: los
precios más b'1jos, gamo parte de un estudio de investigación sobre publicidad de supermercados, _el diario _D~rrver Daily News_.re_alizó_ ~n est~dio. Primero sefecci_onó una rnuest_ra.ai_?atoria .. de __ nqev~- a_rt[cutos::c_on1estibles ..:Después se revisó e! precio de cada uno _d~· est_os productos en. CiJ.da unil, c]ejas tr~s ca.dem1s, el•. rnismo d.ía. Alryivel de signífícancí¡¡ 0.05, ¿hay alguna diferen_c1a:·e_n fas Precios mecJíos>de_ los_:sup_8tr:ne.rcado_s:_Y .de. los_ .artfcu!os?
445
Aíláiisfa, ide varrianz~ Jktícuio
suPér$
Ralphis-
l0Wb!a1,iys
2 3
$1.12 1.14 ·1.72 2.22
$1.02 1.10 2.09
$1.07 1.2'1 2.08 2.32
4.04 5.05 4.68 5.52
4.32 4,95 4.13 5.46
4.15 5.05 4.67 5.86
6 7
8 9
'l.97
----
37. A contlnu_acióp_ ap9rece_n !os p_esos_ (en _g..ra111os) de una muestra de dulces M&M, clasificados de·-acuerclo con su co!or. Utllíce un sistema estadísHco de software-para deterrninar s! hay una ··cfrféfqiiCíá eri_ !OS '¡Jés·os 'rfi8dióS 'd8 dü1c·e-s 'dé-dlféreiifi3$_:co1orés. Utilice el nivel de signi'ficancia 0.05. ROJo
~~aranja_
Amari!!o
Gafé
Canela
Verde-
0.946 'l.107
0.902' 0.943 0.916 0.910 0.903 0.90'1 0.9'19 0.901 0.930 0.883
0.929 0.960 0.938
0.896 0.888 0.906 0.941 0.838 0.892
0.845 0.909 0.873 0.902 0.956 0.959 0.916 0.822
0.935 0.903 0.865 0.822
0.913 0.904 0.926 0.926 l.006 0.914 0.922 1.052 0.903
0.'933 0.932 0.899 0.907
0.906 0.930 0.952 0.939
0.905
0.824 0.908 0.833
O.STI 0.905 0.905 0.852 0.965 0.898
o.94o
0.895
0.882 0.906 38~
Existen ~cuatro .estaclones-_ racliodifusoras en Mld.land (EUA), ..y ;tienen diferentes formatos (rock pesado, ·clásica, country/western y_n_l_ús_ica _ligera}, _p13_ro a.to.das !es preocupa !a cantidad·. de rninutos de músi_ca _transmittd?- por.hora.. E.n una.muestra_de_ ·¡O_ horas de cada estación, se obtuvieron las sig_uíentes [yled[as._ ele m_u_Eqstra:
x,
=·s'i.43.K"' 44.64 x,;..47.2 X4 =5o.ss SS total = 650 .75
a) Determine SST: ib} D8ten11fne SSE. e) Ela.bore una tabla,de.ANOVA. .· . .. e!)_- A!_. nivel·_de :signíf_icancia. 0.05, .¿:hay: a!guna _diferencia :·Eln_-laS;-rnedias· de.tratamiento? e):_ -¿Hay· diferencia._en:e! tíempo_ 111eclio .de-música transmít(da entre_ !a estación 1. Y. !a estación 4;rutj!_lce-. el. -nivel de:-sifiníficanCia 0·.05;·
·ejercicios.com 39~
En i~ ·á¿tua!idad;_-~úéh2S· enipi-6~as.-dé _biene~ :raíc~s ·p~ibHC8n sus- ofertas en _·Internet. Por_ ejemplo Dunes Realty Company, ubicada en Garden City Beach, Carolina del Sur (EUA): Visite su- _página en !a red _http://www.dur:ies.com, elija Cotlage_ Search, _Y después indíque_ 5_recámaras, capacidad para-"f4 personas,. segunda: fila (esto significa que esté a-una calle de la playa), Sín alberC'a n_i n1uel!e 'flotante, elija un periodo en julio o agosto, e indique que está dis-
446
Capllu!o 12 pu.e.sto. a gastar $5 000· (dQlares) por semana; a continuación pulse .en Search the Cottages. El resultado le .dará detalles de los inmuebles que satisfacen sus requisitos de búsqueda. Al niVel de signific·ancia 0.0.5 1 ¿hay. difereílcia en los precios medios de· renta de ac.uerdo coh el número de recámqras? (Por ejempló, puede combinar algunas de las casas graíldes;.con·!as el~. 8 recámar.as.} .¿Qué pares de valores..medios difle_ren? 40 •. Lasvariacionestrimeslralesen el productointerno bruto. (PIB)de.20 países se encuentran.en ··· ·· ·· 1asigüiénté página dé 1ñíérnéi: h!íjo:l/www.o~cd.org/stéJ/qnágdpíqnágéJp.iítm. có¡)ie 1ós .datos· gue corresponden a Alemania, Japón y Estados Unidos en tres columnas, ya sea en l\/llNITAB n-en Excel. Realice un ANOVA· para ver sí hay, diferencia entre !os valores medios.-¿Qué poncluye?
Ejercicios con datos paracompütadora 41: ConSidere el conjunto dé datos ele. bienes raíces (Rea/State), que brinda información acerca de las casas vendidas. en el área de Venice, Floridaj ef año pasado. a}. Al nivelde significa~cia 0.02,¿hay diferenci.a en la variabilidad de los precios de las casas - cíue tienen _pisciné_"l,- . c()_íl_ relación-á l_as que, no·tíenen? b) Al nivel de ~ignificancia 0.02, ¿hay diferencia en la variabilidad de los precios de las casas que tien_en_cochera, con re(acfón á las que no·tien$n? e} A! nivel'_de signiflcancía 0.05,-.~hay difert3nCia·entre los cinco distrit_os O inuniciPios respecto a! precio medi,o de las ·ca_sas? 42. Refiérase al conjunto de datos d~ béisbol, (Baseba/12000), que informa acerca de los.30 equiposde béisbol de Liga mayor enfa temporada de 2000, en Estados Unidos. a) Al nivel de significancia 0.1 O, ¿existe alguna diferencia en la. variación de la cantidad debases robadas entre los equipos que juegan sus partidos locales en campos de pasto natura!, con_tra los qu(? fUe_gan e_n_:campos coh_ P.asto _artificial? b) Genere una variable que clasifique la asistencia total de público, por equipo, en tres gru-. pos: menos de 2.0. (millones), de 2.0 a3.0,y3.0 o más. Al nivel de significancia 0.05, ¿existe alguna diferencia, entre los tres grupos, respecto al número medio de juegos ganados? e} Utilizando !a misma vari'able de asistencia del ínciso b), ¿existe alguna diferencia en e! promedio ele bateo por equipo? d) Empleando la misinávariable de asistencia del público de la parte b), ¿hay alguna diferenCiá ·entre 81 _S81ad0-medio en· los .tres QrupoS? 43. Vaya al conjunto de datosde la OECD que da inforlllacióri sobre·Censos y datos .económicos y comerciales de 29 países. a) Clasifique ros·-·paíS6s;·indic_a:n_dCrSi_--se encuéritl'aíl_é_li. EtJí_o_pa, No_rteanlérica ú en 81.-Lejano Oriente. A.1 nivel de significancia 0.05, ¿hay diferencia en el porcentaje. de la población cuya edad es mayor de 65 años? b) Use las tres regiones del inciso a). Divida el producto intern,o bruto entr~ la población par¡t crear u_na·nueva·-.var_iaQle. Esta-variable indica el _PIB p~rcápita. A[· nivel de significa_ncia 0,05,_ ¿hay. diferencié]. en !,a_ _ media d_e, esta va_riable_ po_r.regi_ón ·ge_ográfic_a_? 4.4: Considere el conjunto de datos. de escuelas (Sc/Jools); qüe brinda información acerca de' 94 distritos ésco!_ares en. el rloreSte. de Ohi·o_; a) Establezca Una variable relacionada qon.el tamaño del distrito escolar•. Los tres grupos son: (l) pequeño (menos de 1 000 estudiantes), (2) mediano (de 1. 000 a 3 000), y (3) gr~nde (más de 3 OOOestudiantes). ¿Exist~ üna diferencia enla cantidad medi,a gastada en la.educación. para_esto~.'tres grupbs?-':Si:-se:reChaia. ·la· hipót_esis nula, deterrnine qué· par o.pares de medias difieren... _. b) Si se utiliza la variable que se g~neróen el inciso a), ¿hay qlferenci¡¡ ~n la rnedia, de los slieldos .de .docentes para los tres grupo~? Uti.lice. el ~ivelde significan.ci
447
Análisis de varianza
··1. fos 8qrr\al1cjo~ de ExÓél pilla 1a: pruebá d" 'l~rianzaá deJa. pagina 418, son: a) Capture los d_atos de laruta. L).S. 25 en l~ c2rumna
Rotul~ las gos c,91ytl1nl\:'•
\
. ..· ...•...•._.. ··• ··••···..·
0· y los de la ruta 1-75 erif~ 9¡o1p(1i~fB.
< (
.. . ..·.·· .· . --.••· .
/
/
·
•·· b) Pr~~-i.on~··He.rr~tlliel)la~,Análís.i_s eje dl\t(l¡¡;_•~lij~-P~~"b" F paravarianzasde.ctosmues'····· .·"tras y wesiore A?ePfªr· /> X <·· .... ·•· ·•..•.•.. · •· .•....·. · •·• •• i . . e} El
'~79')Per~la_pri[l1~rayariable es/\J:A~ya1 :~9.parálasegu_nda, préiiati& F)ÓtoJos;·eli-
ja 01 como rango d~ salid~y presione Aceptar. · ··
·
·
2. Los c?maric!os de MlNlTAB pala el análisis de várianzadeun sentid~ de lá págípa 427san: a) Capture los. datos en cuatro columnas y.rotule las- co.lumnascon E;xce//er¡t¡ Good, _Faíry · Poor. · b) ElijaStat, A!llOVA)I. 011eway (Unstacked)y pUlse en OK
448
Capitulo 12 3, Los comandos. de ExcelLpara el l\N.OVA en dos se11tidos, de la, página 437 son: a} En el primer re_ng!ón de _ !a_p_rini~ra column_a escriba_ fa-_~_a!abr~ _Conductor, después íntroduzci:l_, ~n. la__pr_íqier_a :c()!_urµna, !o~-~0111b_res de:t.ps _cinco ponductores. En el primer rengló_n _de !a_s cuatro.s1gu1entes pqlumna::3: introduzca los _non1bres_.de !as rutas. l_ngrese !08 datos Correspondientes· a dada r_uta.
_.,: ___,_.f?l: ?E;J.egy_i_()_n_e_ ~~~~~rf1i~nt<]~_i,/\~~-l!~-!~-~-?":~-~~?·~--X ~i1:?1i_13i_~~: °--~- -Y~-~i~n-~a_ 9.? _~_¿s-~?1.?t9_r,,~~:·-.?~.n_ ·una· Soía--mue-stra-po·r grupo-~r'_ct_éS_Pú_é·s:pú1$¡;;_-_en~_AC_BBtar.- · ·- -_- -"-- ·-- ;_--~:·.--:_·'.,--:::>:-~:<>;~,:-;_: -cJ Enla yentana ?~ diálqgo,el R¡;ngo de, entrada es Al :E6, pulse en Ró'!ulos, elija A10 como Rango C:l.~ ~ailid~_y clesp_u,és__ presiob~_ en_-Acept_ar.
Análisis de varianza
449
450
Sección de repaso 4
Repaso de los capítulos 1O- 12 Esta sección es un repaso de los conceptos y términos principales presentados en los capítulos 1O, 11 y 12. El capítulo iü empezó el estudio de las pruebas de hipótesis. Una hipótesis es una aseveración acerca de! valor de un pará111etro poblacional. En una prueba de hipótesis se empieza por hacer una aseveración acerca del valor del parámetro poblacional en la hipótesis nula. Al terminar la prueba se decide si se rechaza o no la hipótesis nula. Si se rechaza la hipótesis nula, se concluye que la hipótesis alternativa es verdadera. La hipótesis alternativa se acepta sólo si se muestra que la hipótesis nula es falsa. A la hipótesis alternativa también se le llama la hipótesis de investigación. La mayoría de las veces lo que se quiere probar es la hipótesis alternativa. En el capítulo i O se tomó una muestra aleatoria de una sola población, y se probó si era razonable que e! parámetro poblacional en estudio fuera igual a un valor dado. Por ejemplo, se desea investigar si el tiempo medio de permanencia en la presidencia ejecutiva de una empresa grande es i 2 años. Se toma una muestra de personas en ese puesto, se calcula la media muestra! y se compara la media muestra! con la media de la población. La C1nica población a considerar es la de los presidentes ejecutivos en empresas grandes. Se describieron métodos para realizar la prueba cuando se tenía !a desviación estándar poblacional, cuando la muestra era grande (generalmente igual o mayor que 30), y cuando la muestra era pequeña. En el capítulo iO también se realizaron pruebas de hipótesis acerca de una proporción poblacional. Una proporción es la fracción de individuos u objetos que poseen cierta característica. Por ejemp!o, los registros industriales indican cjue 70% de la gasolina que se vende para los automóviles es del tipo comC1n. En una muestra de i 00 ventas de gasolina en una determinada gasolinera, se encuentra que 76 fueron de gasolina común. ¿Puede concluir el propietario del establecimiento que más de 70% de sus clientes compran gasolina común? En el capítulo 11 se extendió la idea de la prueba de hipótesis para comparar si dos muestras aleatorias independientes provenían de poblaciones independientes o de poblaciones iguales. Por ejemplo, el hospital San Mateo tiene dos sucursales para atender urgencias, una en el norte y la otra en el sur de la ciudad Forth Wayne, Indiana. Lo que se quiere investigar es si el tiempo de espera de los pacientes es el mismo en ambas sucursales. Para investigar lo anterior, se toma una muestra aleatoria de cada una de las sucursales y se calcula la media muestra!. Se prueba la hipótesis nula que indica: el tiempo medio de espera es igual en ambas sucursales. La hipótesis alternativa indica que el tiempo medio de espera no es igual en ambas sucursales. Si !as dos muestras son a! menos iguales a 30, entonces se usa !a distribución z como la distríbución del estadístico de prueba. Si una de las muestras es menor que 30, entonces el estadístico de prueba sigue !a distribución t. En el capítulo 11 también se estudiaron las muestras dependientes. En el caso de muestras dependientes, se empleó la prueba de diferencias por pares. El estadístico de prueba es la distribución t. Un problema típico de pares de muestras (o muestras apareadas) es medir la presíón sanguínea de un individuo antes y después de administrarle un -medicamento, con el fin de evaluar la efectividad del mismo. También se consideró el· caso de dos proporciones poblaciona!es. Por ejemplo, el gerente de producción quiere comparar la proporción de defectos en el turno matutino con la proporción de de'fectos en el turno vespertino. En el capítulo i i se estudió la dlferencia entre dos medias poblaclona!es. En el capítulo i 2 se presentaron pruebas para varianzas y un procedimiento llamado análisis de varianza o ANO VA, que se usa para determinar simultáneamente si varias poblaciones normales e independientes tienen la misma media. Esto se hace comparando las varianzas de las muestras aleatorias tomadas de estas poblaciones. Se emplea el procedimiento normal de prueba de hipótesis, pero se usa la distribución F como el estadístico de prueba. Los cálculos suelen ser tediosos por lo que se recomienda utilizar un paquete de cón1puto. Como ejemplo del análisis de varianza, podría haberse rea!ízado una prueba para determinar si hay alguna diferencia, en la efectividad de cinco 'fertilizantes, sobre el peso de las mazorcas de maíz. A este típo de análisis se le conoce como ANOVA de un factor, ya que se puede llegar a conclusiones respecto a un solo factor, denominado tratam;ento. Si se desea obtener conclusiones acerca de los efectos sin1ultáneos de más de un factor o variable, se emplea la técnica de ANOVA de dos factores. Tanto Ja prueba de un factor como la de dos factores utilizan la distribución F como la distribución del estadístico de prueba. La distribución F también es la distribución de! estadístico de prueba que se utiliza para determinar si una población normal tiene más variación que otra.
Repaso de los capítulos 10 a 12
451
Glosario Capítulo 1O Alfa La probabiliclacl de cometer un error de tipo l. Se representa por la letra griega a.
Error de tipo l Se presenta cuando se rechaza una H0 verdadera.
Error de tipo í! Se presenta cuando se acepta una H0 falsa. Grados de libertad Es el número de elementos en una muestra que pueden variar libremente. Supóngase que una muestra tiene dos elementos y se conoce la media. Se tiene libertad para especificar sólo uno de los dos valores, ye. que el otro queda determinado automáticamente (pues la sun1a de los dos valores es el doble de la media). Ejemplo: si la
media es $6 (dólares), sólo se puede elegir libre111ente un valor. Si se elige $4, el otro valor será $8 ya que $4 + $8 ~ 2($6). Así que, en este ejemplo hay un grado de libertad. Los grados de libertad se pueden determinar mediante n - 1 : : : 2 1 ~ 1 grado de libertad. Si n ~ 4, entonces hay 3 grados de libertad, que resultan den - 1 ~ 4 - 1 = 3. Hipótesis Una aseveración acerca del valor de un parámetro poblacional. Eíemplos: 40. 7% de las personas de 65 años o más, viven solas. La cantidad promedio de personas en un automóvil es i .33. Hipótesis alternativa La conclusión que se acepta cuando se demuestra que la hipótesis nula es falsa. También se conoce como hipótesis de investigación. Proporción Fracción o porcentaje de una muestra, o una población, que tiene una característica determinada. Si en una muestra a 5 personas de 50 les gusta un nuevo cereal, la proporción es 5/50, o 0.1 O. Prueba de dos colas Se usa cuando la hipótesis alternativa no establece ninguna dirección, como por ejemplo, H 1: µ. '=F 75, que se lee "la media poblacional no es igual a 75". En cada co!a hay una región ele rechazo. Prueba de hipótesis Procedin1iento estadístico basado en evidencias muestrales y la teoría de probabilidad. La prueba de hipótesis se usa para determinar s! una aseveración acerca de un parámetro poblacional es razonable. Prueba de una cola Se usa cuando !a hipótesis alternativa establece una direcclón, como por ejemplo, H 1 : µ. > 40. En este caso la región de rechazo se encuentra sólo en una cola (en la cola derecha). Valor crítico Un valor que es el punto divisorio entre la región en la que no se acepta la hipótesis nula, y la región en la que sí se acepta. En una prueba de una cola hay sólo un valor crítico, por ejen1plo, "l .65. En una prueba de dos colas hay dos valores críticos, uno en cada cola, corno por ejemplo -1.96 y +1.96. Vaior p Probabilidad de encontrar, para el estadístico de prueba, un valor tan extren10 o mc"ls que el obtenido con los datos muestrales, dado que la hipótesis nula sea verdadera.
Capitulo 11 Distribución t Fue investigada y dada a conocer por William S. Gossett, en 1908, bajo el seudónimo de Student. Es
similar a la distribución normal que se presentó en el capítulo 7. Sus principales características son: ·1. Es una distribución continua. 2. Puede tomar valores comprendidos entre menos infinito y más inifinito. 3. Es simétrica respecto a su media de cero. Es más extendida y plana en su ápice que la distribución normal estándar. 4. Se aproxima a una distribución normal estándar conforme aumentan. 5. Hay una "fa1nilia" de distribuciones t. Hay una distribución t para una muestra de 15 observaciones, otra distribución para una muestra de 16, y así sucesivamente. Estimación conjunta de la varianza pobiacional. Promedio ponderado de s~ y s~ que se usa para estimar la varianza común, cr 2 , cuando se usan muestras pequeñas para probar la diferencia entre dos medias poblacionales. Muestras dependientes Las muestras dependientes se caracterizan porque se hace una medición, después una intervención, y de nuevo se realiza una medición. Las muestras en pares también son dependientes, ya que un mismo individuo u objeto es miembro de ambas muestras. Ejemplo: diez participantes en un maratón se pesaron antes y después de la carrera. Se quiere estudiar la cantidad media de peso corporal que pierden los participantes. Muestras independientes Las muestras tomadas aleatoriamente no están relacionadas una con otra. Se quíere estudiar la edad promedio de los internos en las prisiones A y B. Se toma una muestra aleatoria de 28 internos en !a prisión A, y una muestra de i 9 internos en la prisión B. Una persona no puede ser interno de ambas prisiones. Las muestras son independientes, es decir, no están relacionadas.
Capítulo 12 Análisis de varianza (ANOVA) Técnica que se usa para probar simultáneamente si las medias de varias poblaciones son iguales. En esta técnica se utiliza la distribución F co1no !a distribución del estadístico de prueba. Bloque Es üna segunda fuente de variación, además de los tratamientos. Distribución F Se emplea como el estadístico de prueba en el ANOVA, así como en otras pruebas. Sus características principales son las siguientes: i. El valor de F nunca es negativo. 2. Es una distribución continua que se aproxima indefinidamente al eje X, pero nunca lo toca. 3. Tiene sesgo positivo. 4. Se basa en dos conjuntos de grados de libertad. 5: Como en el caso de la distribución t, existe una "familia" de distribuciones F. Hay una distribución F para i 7 grados de libertad en el numerador y 9 grados de libertad en el denominador. Hay otra distribución F para 7 grados de libertad en el numerador y 12 grados ele 1 en el denominador, y así sucesivamente.
452
Parte 1~· Opción Múltiple i. En una prueba de una cola en la que se usa fa distribución z como estadístico de prueba, el nivel de signiticancia es O.Oí, el valor crítico es: a) -1.96o1.96 b) -1.65 o 1.65 e) -2.58 o 2.58 d) o1 e) Ninguna ele las opciones anteriores es correcta. Se comete un error de tipo !! cuando: a) Se rechaza una hipótesis nula que es verdadera. b) Se acepta una hipótesis alternativa verdadera. e) Se rechaza una hipótesis alternativa que es verdadera. d) Se aceptan a la vez la hipótesis nula y la hipótesis alternativa. e) Ninguna de las opciones anteriores es correcta. Las hipótesis son 1-/1 f1 ~ 240 libras de presión y H 1 f1 240 libras de presión. a) Se trata de una prueba de una cola. b) Se trata de una prueba de dos colas. e) Se trata de una prueba de tres colas. d) Se trata de una prueba equivocada. e) Ninguna de las opciones anteriores es correcta. En un experimento se usa el nivel de significancia 0.01 y una prueba de una cola, con la región de rechazo en la cola izquierda. E! valor obtenido para z es -i .8. esto indica que: a) No se debe rechazar la H 0 . b) Se debe rechazar H 0 y aceptar H 1 • e) Es necesario tomar una muestra mayor. d) Se debió usar el nivel de significancia 0.05. e) Ninguna de !as opciones a1terlores es correcta. El estadístico de prueba para probar una hipótesis con rr1uestras pequeñas, cuando no se conoce !a desviación estándar poblacional, es: a) z b) t c) F d} ;;:2• Se quiere probar una hipótesis acerca de la diferencia entre dos medias poblacionales. Las hipótesis nula y alternativa son:
o
2.
3.
4.
5.
6.
*
Ho: H,: a} b) e} d)
µ1 = IJ.2
f.11
*
f.12
Se debe emplear una prueba de la cola izquierda. Se debe emplear una prueba de dos colas. Se debe emplear una prueba de la cola derecha. Con la información que se tiene no se puede determinar si se debe utilizar una prueba de !a cola derecha, de la cola izquierda, o una prueba de dos colas. e) Ninguna de las opciones anteriores es correcta. 7. La distribución F: a) No puede ser negativa. b} No puede ser positiva. e) Es la misma que la distribLción t. d) Es la 111isma que !a distribLción z. e) Ninguna de las opciones anteriores es correcta. 8. Conforme aumenta el tamaño de la muestra, la distribución t se aproxima a: a) ANOVA b) La distribución normal estándar o distribución z. e) La distribución de Poisson. d) Cero. e) Ninguna de las opciones anteriores es correcta.
453 9.
Para realizar una prueba :::le diferencias en pares, la muestra debe ser: a) lnfinitarr1ente grande. b) Igual al ANOVA e) Independiente. dj Dependiente. e) Ninguna de las opciones anteriores es coi-recta. -:JO. Se realizó una p1·ueba deANOVA respecto a la rnedia poblacional. Se rechazó la hipótesis nula. Esto indica que: a) Hay demasiados grados de libertad. b) No hay diferencia ente las 111edias poblacionales. e) Hay di'ferencia, en Pº' lo menos dos medias poblacionales. d) Se debió ton1ar una muestra más grande. e) Ninguna de las opciones anteriores es correcta.
Parte 11
~-
Prnblemas
En cada uno ele los problemas siguientes establezca: a) las hipótesis nula y alternativa, b) la regla de decisión, y e) la decisión respecto a la l1ipótesis nula, d) después interprete sus resultados. 11. Se ajusta una máquina para producir pelotas de tenis, de manera que el rebote medio, cuando la pelota cae desde una platafor111a de una altura determinada, sea de 36 pulgadas. El supervisor sospecha que el rebote medio ha variado, y que es inferior a 36 pulgadas. Se probaron 42 pelotas que se dejaron caer de la plataforma y la altura media del rebote -fue 35.5 pulgadas, siendo la desviación esté.ndar 0.9 pulgadas. Al nivel de significancia 0.05, ¿puede concluir el supervisor que Ja altura media del rebote es menor que 36 pulgadas? i2. En una investigación realizada por un banco, se encontró que sóio 8% de sus clientes tienen que esperar más de cinco minutos para 1·ealizar sus operaciones bancarias. El gerente considera esto razonable y no asignará más cajeros a menos que la proporción sea mayor a 8%. El gerente de una de las sucursales cree que en su sucu1·sal la espera es mayor que la estándar, y solicita más cajeros de medio tien1po. Para apoyar su solicitud indica que en una n1uestra de í 00 clientes, 1O esperaron más de cinco minutos. A! nivel de signi'ficancia O.Oí, ¿es razonable concluir que más de 8% de los clientes espera más de cinco minutos? 13. Se planteó la hipótesis de que los empleados de o-ficina de las universidades no se dedican al trabajo productivo 20 minutos (min), en promedio, ele cada hora. Algunos plantearon que la pérdida de tiempo era mayor que 20 min. En una universidad se llevó a cabo un estudio, utilizando un cronó111etro y otros medios para vigilar !os hábitos de trabajo de los empleados. En una comprobación aleatoria de los empieados se encontraron las siguientes cantidades de tien1po improductivo, en minutos, por hora (a excepción de !os descansos programados regularmente):
Lº
25
17
20
28
30
18
23
rn
1
Al nivel de significancia 0.05, ¿es razonable concluir que la cantldad de tiempo lmproductivo es mayor que 20 rnin? i 4. Se hará una prueba para 1nedir la fuerza rnedia de adhesión de dos pegamentos de plástico. Primero, se cubre con Epoxy el extremo de un gancho pequeño de plastico y se fija a una hoja del mismo material. Después ele que seca, se va agregando peso al gancho hasta que se separa de la hoja de plástico y entonces se registra el peso. Esto se repitió hasta que se probaron 12 ganchos. El mismo procedimiento se realiza con el pegarnento Holdtite, pero sólo se usan i O ganchos. Los resultados rnuestrales, en libras, son:
1
fM~ciia muestíal Desviación estándar muestra! Tamafio ele la muestra
Epox
HoldHte
250
252
5
8
12
10
Al nivel de 0.01, ¿existe di'ferencia entre la fuerza rneclia de adhesión de Epox y de Holdtite?
454
Sección de repaso 4 i5. Se probará un aditivo for111ulado para prolongar !a duración de !as pinturas que se utilizan en una región. La mitad superior de una tabla se pintó utilizando la pintura normal. En la mitad inferior se aplicó pintura con el aditivo. El mismo procedimiento se aplicó a ·1 O tablas. Después cada tabla se sometió a un rociado de agua a alta presión y a luz brillante. Los datos, es decir la cantidad de horas que resistió la pintura en cada pieza antes de desvanecerse, se presentan a continuación:
Número de horas por muestra
Sin aditivo Con aditivo
A
B
e
D
E
F
G
H
325 323
313 313
320 326
340 343
318 310
312 320
319
330
3"13
340
J 333 330
319
315
i
Utilice el nivel 0.05 y determine si el aditivo es eficaz para prolongar la duración de la pintura.
16º Una distribuidora de refrescos en e! área de Buffa!o, N.Y., ofrece una venta sl1per especial en paquetes de 12 botellas. Se pregunta dónde colocar los refrescos para que llamen más la atención. ¿Cerca de la puerta principal de las tiendas de comestibles, en la sección de refrescos, junto a las cajas registradoras, o cerca de la leche y otros productos lácteos? Cuatro tiendas con ventas similares cooperaron en un experimento. En una tienda los paquetes de ·12 refrescos se colocaron cerca de la puerta principal, en otra tienda se colocaron cerca de las cajas registradoras, y así sucesivamente. Se inspeccionaron las ventas a horas específicas en cada tienda, durante exactamente cuatro minutos. Los resultados fueron:
Cerca de la puerta
En la sección de refrescos
Cerca de las cajas registr.
$6
$ 5 10 12
$ 7 10 9
4
4
9
5 7
8 3 7
Cerca de los lácteos $10 9 6 11
La distribuidora de Buffa!o desea determinar si hay diferencia en los promedios de venta, en las cuatro ubicaciones diferentes de las tiendas. Utilice el nivel de significancia 0.05.
Casos lt
Geílt~ry
Nalioílal 13ank
Refiérase a la descripción del Century National Bank que se encuentra a! fina! de la sección de repaso de los capítulos 1 a 4, en la página 143. El banco cuenta con sucursales en cuatro ciudades: Cincinnati, Ohio; At!anta, Georgia; Louisville, Kentucky; y Erie, Pennsylvania. El señor Selig desea saber si hay diferencia en e! saldo inedia de las cuentas de cheques de las cuatro sucursales. Si hay diferencias, ¿entre qué sucursales se presentan? El señor Selig también está interesado en el uso de los cajeros automáticos. ¿Existe diferencia en el uso de los cajeros automáticos en las sucursales? ¿Los clientes que tienen tarjetas de débito tienden a utilizar los cajeros de modo distinto de aquellos que no las tienen? ¿Existe diferencia en
el uso del cajero por parte las personas que tienen cuentas de cheques que pagan intereses, en comparación con quienes no? Prepare un reporte para el señor Selig donde se respondan estas cuestiones.
B. Bell Grove Medica! Genter La señora Jean Dempsey dirige el centro de urgencias del Bell Grave Medical Center. Una de sus responsabl!idades es contratar suficientes de enfermeras para que los pacientes que ingresan reciban atención inmediata. A los pacientes les resulta estresante esperar mucho tiempo para ser atendidos, aun cuando la atención que necesitan no sea urgente. La señora Dempsey reunió la siguiente información respecto al nl1mero de pacientes en las últimas semanas. El
Repaso de los capítulos 1oa 12 centro no abre sábados ni dominQos. ¿Parece haber algunas diferencias en el número de pacientes atendidos en los distintos días de la semana? Si las hay, ¿qué días parecen tener más actividad? Fecha 9-29-00 9-30-00 10-1-00 10-2-00 10-3-00 10-6-00 10-7-00 10-8-00 10-9-00 10-10-00 10-13-00 10-14-00 10-15-00 10-16-00 10-17-00 10-20-00 10-21-00 10-22-00 10-23-00 10-24-00
Pacientes
Día Lunes Martes
Miércoles Jueves Viernes
Lunes Martes Miércoles
Jueves Viernes Lunes
Martes Miércoles
Jueves Viernes Lunes
Martes Miércoles
Jueves Viernes
..
38 28 28 30 35 35 25 22 21 32 37 29 27 28 35 37 26 28 23 33
455
OIEl:;J¡;:y¡vos Al terminar este capítulo podrá: íj~\1)
Trazar un diagrama de dispersión. l:lOS Entender e interpretar los términos variable dependiente y variable independiente.
Calcular y explicar el coeficiente de correlación, y el coeficiente de determinación, así como el
error estándar de estimación. CU!t%1~©J
Re
!:!liW,'.:l:l Determinar la línea (o recta} de regresión de mínimos cuadrados.
Elii,borar .e. interpretar .intervalos de confianza e intervalos de predi.cción para la variable dependiente. SH~T~
E¡;t~bleqer ~.interpretar una. tab.la deANOVA;
Regresión lineal y correlación
457
Introducción Los capítulos 2 al 4 se dedicaron a la estadística descriptiva. Se organizaron datos sin procesar en una distribución de frecuencias y se calcularon varias medidas de tendencia central y de dispersión, a fin de describir las principales características de los datos. En el capítulo 5 se inició el estudio de la inferencia estadística. Se destacó principalmente cómo deducir algo acerca de un parámetro poblacional, como la media de la pobla-
Wbe11you're J~éJd and too
Se probó cuán razonable resulta-
wear cute clod1es.
ba una media o una proporción
ción, con base en una muestra.
poblacional, la diferencia entre dos medias poblacionales, o si son iguales varias medias poblacionales. En todos estos casos se trabajó sólo con una variable de nivel de intervalo o de razón, como el peso de una botella de plástico para refresco, el ingreso de los presidentes de bancos o el número de pacientes aceptados en cierto hospital. En este capítulo el énfasis será cambiado. Aquí se estudiará la relación entre dos o más variables, y se desarrollará una ecuación que permita calcular una variable basada en otra. Por ejemplo, ¿existe relación entre lo que gasta una empresa en publicidad y sus ventas? ¿Se puede calcular el costo de la calefacción doméstica en invierno con base en el área que tiene el inmueble? ¿Hay alguna relación entre la tasa de publicidad por línea en un periódico y su circulación? ¿Existe una relación entre la antigüedad en el trabajo de un empleado de producción y el número de unidades que elabora? Obsérvese que en cada uno de estos casos hay dos variables, por ejemplo, el número de años en un trabajo y la cantidad de unidades producidas. En este capítulo se examinará primero el significado y el objetivo del análisis de correlación. Luego se analiza una gráfica diseñada para representar la relación entre dos variables: el diagrama de dispersión. Se continúa el estudio desarrollando una ecuación matemática que permita calcular el valor de una variable con base en el valor de otra, y a esto se le denomina análisis de regresión. Asimismo, se hará lo siguiente: (1) Se determinará la ecuación de la recta que mejor se adapte a los datos; (2) se calculará el valor de una variable con base en otra; (3) se medirá el error de la estimación, y (4) se establecerán los intervalos de confianza y de predicción para el cálculo.
¿Qué es un análisis de correlación? El análisis de correlación es el estudio de la relación que existe entre las variables. Para explicar lo anterior supóngase que el gerente de ventas de la compañía Copier Sales of Ameri-
458
Capil"lo 13 ca, empresa que tiene una gran fuerza de ventas en todo Estados Unidos y Canadá, desea determinar si existe una relación entre el número de llamadas telefónicas de ventas hechas en un mes, y la cantidad de copiadoras vendidas durante ese lapso. El gerente selecciona al azar una muestra de ·¡O representantes, y determina el número de tales llamadas que hizo cada uno el mes anterior y la cantidad de productos vendidos. La información muestra! aparece en la tabla 13.1. Il\Bll\ ·13. ·¡
Llamadas y copiadoras vendidas por 1O representantes.
Representantes de ventas Tom Keller JeffHall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds Soni Janes
Número de llamadas
Número de copiadoras vendidas
20 40 20 30
30 60 40 60 30 40 40 50 30
10
10 20 20 20 30
zo
Parece haber cierta relación entre el número de llamadas y la cantidad de unidades vendidas. Esto es, el agente que realizó el mayor número de llamadas vendió más copiadoras. Sin embargo, la relación no es "perfecta" o exacta, Por ejemplo, Soni Janes hizo menos llamadas que Jeff Hall, pero ella vendió más unidades. En vez de hablar en lo general, como se ha hecho hasta ahora, se desarrollarán algunas medidas estadísticas para presentar en forma más precisa la relación entre las dos variables: llamadas de ventas, y copiadoras vendidas. A este conjunto de técnicas estadísticas se le denomina análisis de correlación.
~~11~ls;~<:.5?rJ:~l~~~~¡j','¡~j)r)iqf\t&'9~téd~t~~~e§t~dís\icas eíl)pleado para medir la intensidad de láasoci¡u;:i@•en!re.dcís;.variables; ·•
·
El principal objetivo del análisis de correlación consiste en determinar qué tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.
Un ejemplo mostrará cómo se aplica el citado diagrama.
EJEMPUJ
La empresa Copier Sales of America, lnc., vende copiadoras a negociaciones grandes, medianas y pequeñas en Estados Unidos y Canadá. La señorita Marcy Bancer fue promovida recientemente al puesto de gerente nacional de ventas. A la próxima junta de ventas asistirán los representantes de todo el país. A ella le gustaría hacerles notar la importancia de hacer llamadas extra cada día. Decide reunir alguna información acerca de la relación entre el número de llamadas y el número de productos vendidos. Seleccionó al azar una muestra de 1O representantes y determinó el número de llamadas que hicieron el último mes, y el de copiadoras que vendieron. La información muestra! se tiene en la tabla 13.1. ¿Qué observaciones puede hacer usted acerca de la relación entre el nú-
459
Regresión lineal y correlación
mero de llamadas y la cantidad de copiadoras vendidas? Trace un diagrama de dispersión para representar esta información.
SOLUCIÓN
Con base en los datos presentados en la tabla 13.1. la señorita Bancer sospecha que existe una relación entre el número de llamadas hechas en un mes, y la cantidad de copiadoras que se vendieron. Soni Janes vendió el mayor número de unidades el mes anterior, y era una de las tres representantes que hizo 30 o más llamadas. Por otra parte, Susan Welch y Carlos Ramírez hicieron sólo 1O llamadas en el mismo mes. A la señorita Welch correspondió el menor número de copiadoras vendidas entre los representantes en la muestra. La deducción es que el número de copiadoras vendidas tiene relación con la cantidad de llamadas realizadas. A medida que aumenta el número de telefonemas crece la cantidad de unidades vendidas. El número de llamadas de venta se denomina variable independiente, y la cantidad de copiadoras vendidas, variable dependiente.
Variabléd~pendiente
Lavaiiatlle
quesepi~c:lice; calcula;,.,,
• '
Yafi~hÍ<) i#
. Ja,vari~bi<3de,precficcióQ;• 2 ••
(''•.•·•'···· ···
''
"°''
x.,. ·
Es práctica común marcar la variable dependiente (en este ejemplo, copiadoras vendidas) en el eje vertical, o eje Y, y la variable independiente (número de llamadas a clientes) en el eje horizontal, o eje X. Para establecer el diagrama de dispersión para la información de ventas de la mencionada empresa, se comienza con el primer representante, Tom Keller, quien hizo 20 telefonemas el mes anterior y vendió 30 copiadoras; así que X = 20 y Y= 30. Para ubicar el punto se desplaza sobre el eje horizontal hasta llegar a X= 20, después se sube en dirección vertical hasta Y= 30, y se sitúa así el punto respectivo en el plano XY. Este proceso se continúa hasta situar todas las parejas de datos, como se muestra en el diagrama 13.1.
DIAGRAMA 13.1
Diagrarn'a de dispersión que n1uestra las llamadas de ventas y las copiadoras vendidas.
El diagrama de dispersión indica gráficamente que los representantes de ventas que hacen más llamadas telefónicas, tienden a vender más copiadoras. Es razonable que la señorita Bancer, la gerente nacional de ventas de la empresa mencionada, diga a sus representantes que cuanto mayor sea el número de llamadas a clientes que hagan, más copiadoras podrán esperar vender. Obsérvese que aunque parece existir una relación positiva entre las dos variables, no todos los puntos quedan en una misma línea recta. En la siguiente sección se medirá la intensidad y la dirección de esta relación entre dos variables, determinando el coeficiente de correlación.
460
Capítulo 13
Coeficiente de correlación Se requieren datos de nivel de intervalo o de razón.
Características de r.
Originado por el investigador Karl Pearson, aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo (o variables de nivel de relación o razón.) Como se le denota con r, con fre- cuencia- se-- menciona--también- como--r de Pearsonj--O---como coeficiente de correlación producto-momento de Pearson. Puede tomar cualquier valor de -1.00a+1.00, inclusive. Un coeficiente de correlación de -1.00 o de+1.00 indica una correlación perfecta. Por ejemplo, un coeficiente de correlación para el ejemplo anterior calculado como+ 1.00, señalaría que el número de llamadas era un pronóstico perfecto de la cantidad de copiadoras vendidas. Esto es, el número de telefonemas y el de productos vendidos están perfectamente relacionados en un sentido lineal positivo. Un valor de -1.00 indicaría que las llamadas a clientes y el número de copiadoras vendidas están perfectamente relacionadas en un sentido lineal negativo. La forma como quedaría el diagrama de dispersión si la relación entre ambos conjuntos de datos fuera lineal y perfecta, se tiene en el diagrama 13.2.
DiAGRAMA 13.2
Diagramas de dispersión que ilustran una correlación negativa perfecta y una correlación positiva perfecta.
Si no existe en absoluto alguna relación entre los dos conjuntos de variables, lar de Pearson será cero. Un coeficiente de correlación r cercano a O (por ejemplo, 0.08) indica que la relación es muy débil. Se llega a la misma conclusión si r = -0.08. Coeficientes de -0.91 y +0.91 tienen igual fuerza; ambos indican una correlación muy intensa entre los dos conjuntos de variables. De modo que la fuerza de la correlación no depende de la dirección (ya sea - o+). En el diagrama 13.3 se muestran diagramas de dispersión parar= O, una r débil (por ejemplo, -0.23) y una r fuerte (por ejemplo, +0.87). Obsérvese que si la correlación es débil, existe una dispersión considerable con respecto a una recta trazada a través del espacio central de los datos. Para que el diagrama de dispersión represente una relación fuerte, debe existir poca dispersión con respecto a la citada línea. Esto indica, en el ejemplo correspondiente al diagrama, que el promedio de calificaciones de bachillerato (GPA) da un pronóstico muy certero del desempeño futuro en una institución universitaria.
46]
ílegresiÓ!] linea! y conre~aclón Ejemplos de grados de
correlación.
Nlwnero de hijos
D!AG.Rf.Hlf~A
13.3
GPA bachillerato
Precio
l)iagn1111as de dispersión que representan correlaciones nula 1 débil y fuerte.
El siguiente cuadro resune la intensidad y la dirección del coeficiente de correlación:
Correlabión. Correlación Co,rrelaci
positiva débil
-í.00 -0.50 o 0.50 1.00 c----Correlación negativa ~-~-+----Correlación positiva----->
Medídót ele la ihiénsidaci aé fa'r~lación lineal entre
dos
variables. ¿Cómo se determina el valor del coeficiente de correlación? A manera de ejemplo se usarán los datos de la empresa Copier Sales of America, que se presentan en la tabla 13.2. Se empieza con un diagrama de dispersión similar a los presentados en el diagrama 13.2. Se traza una línea vertical sobre la media de los valores X, se traza una recta horizontal sobre la media de los valores Y. En el diagrama 13.4 se ha añadido una recta vertical sobre el punto correspondiente a 22 llamadas (X= 'i.Xln = 220/1 O= 22) y una recta t1orizontal sobre el punto correspondiente a 45.0 copiadoras (Y= 'i.Y/n = 450/1 O= 45.0). Estas rectas pasan por el "centro" de los datos y dividen al diagrama de dispersión en cuatro cuadmntes. Puede considerarse que origen se desplaza de (O, O) a (22, 45).
462
Capítulo 13 TABLA 13.2
Llamadas a clientes realizadas y copiadoras vendidas por los 10 vendedores de una muestra.
Llamada Copiadoras
Representante de ventas Tom Keller Jeff Hall
Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds
SoniJones Total
a clientes vendidas .....
(X)
(Y)
X'
20 40 20 30 10 10 20 20 20 30 220
30 60 40 60 30 40 40 50 30 70 450
400 1 600 400 900 100 100 400 400 400 900 5 600
o
10
20
30
40
Y'
XY
900 3 600 1 600 3 600 900 1 600 1 600 2 500 900 4 900 22100
600 2 400 800 ·1 800 300 400 800 1 000 600 2100 10 800
..
50
Llamadas a clientes
DIAGRAMA 13.4
Cálculo del coeficiente de correlación.
Si la relación entre las dos variables es positiva, entonces el número de copiadoras vendidas es mayorque la media, el .número .de 11.amadas a clientes también será mayor que la media. Estos puntos, en el diagrama 13.4, se encuentran en el cuadrante superior derecho. Análogamente, si el número de copiadoras vendidas es menor que la media, también lo será e! número de llamadas a clientes; estos puntos se encuentran en e! cuadrante inferior izquierdo. Por ejemplo la última persona de la lista en la tabla 13.2, Soni Janes, hizo 30 llamadas a·clientes y vendió 70 copiadoras. Estos dos valores son mayores que sus respectivas medias, por lo que este punto se encuentra en el cuadrante superior derecho. Soni hizo ocho (X - X 30 - 22) llamadas más que el promedio y vendió 25 (Y - Y = 70 - 45) copiadoras más que el promedio. Tom Keller, que es la primera persona en la lista de la tabla 13.2, hizo 20 llamadas y vendió 30 copiadoras. Estos dos valores son menores que sus respectivas medias, por tanto, este punto se encuentra en el cuadrante inferior izquierdo. Tom hizo dos llamadas menos a clientes y vendió 15 copiadoras menos que los valores medios respectivos. En la tabla 13.3 se presentan las desviaciones, respecto al número medio de llamadas a clientes y respecto al número medio de copiadoras vendidas, correspondientes a los 1 O representantes de ventas. La suma de los productos de estas desviaciones respecto a sus medias es 900. Es decir, es el término l:(X -X}(Y - Y) = 900.
=
füJgresió~
lineal y corrnlación
TABLA 13.3
463
Desviaciones de la inedia, y sus productos.
Representantes de ventas Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds Soni Janes
Llamadas Ventas y X
20 40 20 30
rn ·10 20 20 20 30
30 60 40 60 30 40 40 50 30 70
X-
Ji
-2 18 -2 8
-12 -12 -2 -2 -2 8
Y- f
(X - X)(Y - i")
-15 15 -5 15 -15 -5 -5 5 -15 25
30 270 10
120 180 60 10
-10 30 200 900
Tanto en el cuadrante superior derecho como en el cuadrante inferior izquierdo, el producto (X - X)(Y - Y) es positivo porque los dos factores tienen el mismo signo. En el ejemplo, todos los representantes de ventas, menos Mike Kiel están en este caso. Por tanto es de esperarse que el coeficiente de correlación sea positivo. Si la relación entre las dos variables es inversa, una variable será mayor que la media y la otra será inferior que la media. En este caso, la mayor parte de los puntos están en los cuadrantes superior izquierdo e inferior derecho. Ahora (X - X) y (Y - Y) tendrán signos contrarios, así que su producto es negativo. El coeficiente de correlación será negativo. ¿Qué pasa cuando no hay una relación lineal entre las dos variables? En el diagrama de dispersión los puntos se encontrarán en los cuatro cuadrantes. Los productos negativos (X - X)(Y - Y) anularán a los productos positivos y la suma será casi cero. Esto genera un coeficiente de correlación cercano a cero Pearson no quería que el coeficiente de correlación se viera afectado por las unidades de las dos variables. Por ejemplo, si se hubieran usado cientos de copiadoras vendidas en lugar de cop'radoras vendidas, el coeficiente de correlación hubiera sido el mismo. El coeficiente de correlación es independiente de la escala usada si el término L(X - X)(Y - Y) se divide entre las desviaciones estándar muestrales. También se hace independiente del tamaño de la muestra y queda limitado a valores desde-1.00 hasta+1.00 si se divide entre (n-1). Este razonamiento lleva a la fámula siguiente.
Para calcular e! coeficiente de correlación se usan las desviaciones estándar de la muestra de 1O llamadas a clientes y 1O copiadoras vendidas. Para calcular las desviaciones estándar se puede usar la fórmula 4.7 o uno de los paquetes de cómputo. La siguiente es la ventana de resultados proporcionada por Excel. La desviación estándar de las llamadas a clientes es 9.189 y del número de copiadoras vendidas, ·14.337.
464
H~
t:iro1 tipi~o
l·. lecfüin
lla11a•;z,-, d;c 1 Curtos1·;
70 4~0
Luego, estos valores se sustituyen en las variables de la fórmula 13.1 para calcular el coeficiente de correlación.
r=
:Z(X - X)(Y {n ·- 1) $~
Sy
Y) (1
o-
900
1)(9.189)(14.337) ~
0 rg ' o
El coeficiente de correlación también se puede calcular usando una ·fórmula más adecuada para su cálculo que se basa en los valores X y Y. Esta fórmula es: COJEf¡C~ENTE
i:JE CORRELACIÓN
r
n(:ZXy)- (:ZX)(:ZY)
-·~·1 [~l3.2]
~----
donde:
n
ZX LY
(I.X2) (LX)2 (LY") (L\'] 2
LXY
es e! n(1mero de pares de observaciones. es la su111a de los valores de la variable X. es la su111a de los valores de la variable Y. es la suma de los cuadrados de !os. valores de es el cuadrado de la suma de los valores de la es la suma de los cuadrados de los valores de es el cuadrado de la suma de los valores de la suma de los productos de X y Y.
la variable)(, variable X la variable Y. variable Y.
Regrese a! ejen1p!o anterior en el que se trazó un diagrama de dispersión representando la relación entre el número de llamadas a clientes y la cantidad de copíadoías vendidas. Detern1ine el coeficiente de correlación e interprete su valor.
SOLUC!Ó~~
En la tabla í 3.2 se 1·epite la información de los números de llamadas a clientes y de la cantldad de copiadoras vendidas. También se presentan los totales adicíonales necesarios para determínar el coeficiente de correlación.
¡
1
465
Regresión !ineal y correlación El coeficiente de correlación es 0.759 y se encontró empleando la fórmula ·13.2.
r
=
nZXY - 'ZX'ZY \Í[n('ZX2) - ('ZX) 2 ][n('ZY 2 )
·-
(ZY) 2]
10(1 o 800) - (200)(450) \1[10(5 600) - (200) 2]['i0(22 100) - (450) 2] ~
0.759
¿Cómo se interpreta un coeficiente de correlación igual a 0.759? Primero, es positivo, de manera que se ve que hay una relación directa entre el nl1mero de llamadas a clientes y la cantidad de copiadoras vendidas. Esto confirma nuestro razonamiento basado en el diagrama de dispersión (diagrama 13.4). El valor 0.759 está bastante cercano a 1.00, por lo que se concluye que la relación es fuerte. Dicho de otra manera, un aumento de 25% en las llamadas. posiblemente llevaría a un aumento de 25% en las ventas.
Coeficiente de determinación En el ejemplo anterior respecto a la relación entre el número de llamadas telefónicas y la can· tidad de productos vendidos, el coeficiente de correlación, 0.759, se interpretó como "fuer· te". Sin embargo, los términos como débil, moderado y fuerte no tienen significado preciso. Una medida que tiene una acepción más fácil de interpretar es el coeficiente de determina· ción. Se calcula elevando al cuadrado el coeficiente de correlación. Para el ejemplo, dicho coeficiente de determinación,,~, vale 0.576, que proviene de (0.759) 2 . Esta es una proporción o porcentaje; puede decirse que 57.6% de la variación en el número de copiadoras vendidas se explica por la variación en el nú111ero de llamadas a los clientes.
Coeficiente' de deter:minación • diente - ,_
La porción de la variación total en la variable depen-
Y, que se explica por la variacipn. en la variabl_e independiente X. :"_; _- ;.-:e .-, ._, -
Más adelante en este capítulo, se estudiará con mayor detenimiento el coeficiente de de· terminación.
· Una advertencia Si existe una relación intensa (por ejemplo, 0.91) entre dos variables, el lector puede sentirse inclinado a considerar que un aumento o una disminución en una variable causa un cambio en la otra. Por ejemplo, se puede mostrar que el consumo de cacahuates (o maníes) y el de aspirinas tiene una gran correlación. Sin embargo, esto no indica que un incre1nento en e! consuino de aquéllos causó un aumento en el consumo de aspirinas. lgual111ente, !os ingresos de profesores y la cantidad de internos en !nstituciones de atención a enfermos mentales han crecido en forma proporcional. Además, a medida que lia desminuido la población de alu1nnos "fósiles", ha ocurrido un aumento en e! número de doctorados académicos. A relaciones como éstas se las denon1ina correlaciones falsas (o espurias}. Ló que se puede concluir cuando se encuentran dos variables con una correlación 'fuerte, es que existe una relación entre las dos variables, y no que un cambio en una origine una 1noclificació11 en !a otra.
466 Auioexamen 13.1
Capitulo 13
La empresa Reliab!e Furniture es un negocio familiar que realiza ventas al menudeo, en Chicago, durante muchos años .. S_e anuncia ampliamente por radio y televisión, destacando sus bajos precloS y accesibles cündiciones de· crédito. A! dueño le gustaría analizar la relación entre las ventas y !o que. gasta en publicidad. A continuación se encuentra la información acerca de las_.ventas_y__ fos.gastos.de .. publicidad_ <;:Jurante los últimos cuatro r:neses. Gastos en publicidad {millones de dólares)
Mes
Ingresos pnr ventas (millones de dólares)
2
Julio Agosto Septiembre Octubre
7 3
1
3
8
4
10
a) Al propi~~ari_o-18-gustarí8: píoílosticar tás,;etitás__con_.base en_ los ·gastos publicitarios. ¿Cuál es la variable dependiente, y cuál ia independiente? b) Trace el diagrama de dispersión. e) Determine el coeficiente ele correlación. d) Interprete !a fuerza del coeficiente de correlación. e) Evalúe el coeficiente de determinación. Interprete su respuesta.
Ejercicios 1. Se seleccionaron al azar las siguientes observaciones de muestra.
4 4
5
3 5
6
6 7
10 7
Eva!L1e el coeficiente de correlación y el coeficiente de detenninación. lnterprételos. 2. Se seleccionaron al azar las siguientes observaciones de muestra. 5 13
3 15
6 7
3
12
4 13
4 11
6 9
8 5
Evalúe el coeficiente de correlación y el coeficiente de determinación. lnterprételos. 3. Una empresa comercial tiene establecimientos en varias zonas metropolitanas. La gerente general de ventas planea lanzar al aire un anuncio por televisión en algunas estaciones !ocales, al menos dos veces antes de realizar una venta gigante que ha de empezar el sábado y terminar el domingo. Planea tener !as cifras de las ventas de videocámaras del sábado y el domingo en las diversas tiendas y agruparlas en pares con e! número de veces que apareció el comercial en la-televisión. El objetivo -fundamenta! de la investigación es determinar si existe alguna relación entre el número de veces que se transmitió el anuncio y las ventas de cán1aras de video. Los pares de datos son:
Localización de la televisora
Buffalo Albany Erle Syracuse Rocllester
Número de anuncios transmitidos
4 2 5 6
3
Ventas en sábado y domingo (miles de dólares)
15 8 21 24 17
467
flegrnsióíl lineal y currnlación
a) ¿Cuál es la variable dependiente? d} Calcule el coeficiente ele determinación. b} Trace el diagrama de dispersión. e} Interprete estas medidas estadísticas. e) Calcu!e el coeficiente de correlación. 4. En un departamento de producción (de !a empresa NDB Electronics) se desea exan1inar !a relación entre el número de trabajadores que arman un subensamble, y la cantidad de suben-
sambles producidos. Como experimento, se asignaron dos empleados para arrnar el dispositivo electrónico. Produjeron i 5 unidades durante una hora. Después se asignaron cuatro obreros al mismo trabajo, y produjeron 25 durante unidades en dicho periodo. A continuación se presenta el conjunto completo de pares de observaciones.
Cantidad de empleados
2 4 5
3
Producción en una hora (unidades)
15 25 10 40 30
--
La variable dependiente es la producción; es decir, se considera que el nivel de !a producción depende del número de trabajadores asignados. a) Trace el diagrama de dispersión. b) Con base en tal diagrama, ¿parece haber alguna relación entre el número de trabajadores y la producción? Explique su respuesta. e) Calcule el coeficiente de correlación. d) Evalúe la fuerza de la re!ación calculando el coeficiente de determinación. 5. El concejo municipal de la ciudad de Pine B!uffs está considerando aumentar el n(1mero de agentes de policía, en un esfuerzo por reducir la cantidad de delitos. Antes de tomar una decisión fina!, el organismo pide a! jefe de Policía que realice una encuesta en otras ciudades de tamaño similar, a fin de determinar !a relación entre el nt'.1mero de vigilantes y la cantidad de delitos reportados. El funcionario recopiló la siguiente información:
Ciudad
Policía
Número de delitos
15 17 25 27
17 13 5 7
Oxford Starksville Danvi!!e Athens
Ciudad
Policía
Número de delitos
17 12 11 22
7 21
Holgate Carey Whistler Woodville
19
6
a) Si se desea evaluar los delitos con base en la cantidad de agentes, ¿cuál es la variable dependiente y cuál es la independiente? b] Trace un diagrama de dispersión. e) Determine el coeficiente de correlación.
d) Calcule el coeficiente de determinación. e} Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa? 6. El dueño de !a agencia f\llaumee Motors desea estudiar Ja relación entre la antigüedad de un automóvil y su precio de venta. A continuación aparece la lista una muestra aleatoria de i 2 autos usados vendidos en el establecimientos durante el último año.
Auto 2 3 4 5 6
Antigüedad {años)
Precio de venta (miles de dólares)
9
8.1 6.0 3.6 4.0 5.0 10.0
7 11 12 8 7
Auto 7 8 9
10 1'I ·12
Antigüedad (años)
Precio de venta (miles de dólares)
8 11 10 12 6 6
7.6 8.0 8.0 6.0 8.6 8.0
468
Capítulo 13 a} Si se desea calcular el precio de venta con base en la antigüedad del vehículo, ¿cuál es la variable dependiente y cuál es !a independiente? b) Trace e! diagrama de dispersión. e) Establezca el coeficiente de correlación. d) Calcule el coeficiente de determinación. e) Interprete estas medidas estadísticas. ¿Le sorprende que la relación sea inversa?
Prueba de significancia del coeficiente de correlación
¿Podría ser nula la correlación en la pobla-
ción?
Recuérdese que la gerente de ventas de Copier Sales of America, encontró que la correlación entre el número de llamadas telefónicas y la cantidad de copiadoras vendidas fue 0.759, Esto indica una marcada relación entre las dos variables, Sin embargo, sólo se incluyeron diez vendedores en la muestra, ¿Podría ser que la correlación en la población sea en realidad cero? Esto significaría que la correlación de O, 759 se debió al azar, La población en este ejemplo son todos los vendedores que emplea la compañía, Resolver este dilema exige una prueba para contestar la pregunta obvia: ¿podría haber una correlación cero entre la población de la que se tomó la muestra? En otras palabras, ¿la r calculada proviene de una población de observaciones por pares con correlación nula? Para continuar con !a convención de utilizar letras griegas para representar un valor poblacional, se utilizará la letra p (es decir, la ro) para representar la correlación en la población, Se continuará con la ilustración que considera las llamadas a clientes y copiadoras vendidas, Las hipótesis nula y alternativa son: H 0 : p ~O (La correlación en la población es nula o cero,) H 1 : p O (La correlación en la población es diferente de cero,)
*
Debido a la forma en que está enunciada H 1 , se sabe que la prueba es de dos colas, La fórmula para tes:
PRUEBA t PARA !:l . COEFICIENTE DE CORRELACIÓN
~ t.·.= -.·vi '"····. ~ ,-"·c.·····on n - 2·· grado. ··· s.de
liberta.el
[13.3]
Utilizando el nivel de significancia 0,05, la regla de decisión indica que si la t calculada se encuentra en el área entre +2,306 y -2,306, no se rechaza la hipótesis nula, Para localizar el valor crítico 2,306, consúltese el apéndice F para gl = n - 2 ~ 1O - 2 ~ 8, Ver también el diagrama 13,5,
D!AGRAJV!A i 3.5
Regla de decisión para prueba de hipótesis al nivel de significancia, 0.05 y 8 grados ele libertad.
469 ,l\p!icando la ·fórmula (-13.3) al ejemplo de las !!amadas de ventas y copiadoras vendidas resulta: .•. =
'
r/n~2 \/1-r2
=
0.759~
= 3 297
1-0.7592
·
E! valor calculado ele t qJeda en la región de rechazo, ele manera que se rechaza f--/ 0 al nivel de significancia 0.05, lo cua! significa que la correlación en la población no es nu!a. Des-
de un punto de vista práctico, esto in_dica a. l_a _g¡;::reri:te d_e__ _ventas CjL_l_E; _definitivan1ente existe correlación en la población de- véíld8dO·re·s-:.r~§p:ecto _a!_ n_L!ñl8í0_ d_e llamadas realiiéidas· y·1a cafltidactae·ci5Pi2dbras· ver.did8s. - La·pnJ85ECde hipófGSiS se·pued'E) interpretar también en términos de !os valores p. Un valor pes la probabilidad de encontrar un valor, para el estadístico de prueba, más extremo que el calculado, dado que H 0 saa verdadera. Para detern1inar el valor p, diríjase al apéndice F al renglón que corresponde a 8 grados de libertad. El valor del estadístico de prueba es 3.297, por tanto, en la fila de 8 grados de libertad y prueba de dos colas, encuentre el vaior n1ás cercano a 3.297. Para una prueba de dos colas, al nivel de significancia 0.02, el valor crítico es 2.896; y al nivel 0.01, el valor crítico es 3.355. Como 3.297 está entre 2.896 y 3.355, se concluye que el valor p es menor que 0.02. Tanto MINITAB como Excel reportan la correlación entre dos variables. A,demás de la correlación, MINITAB da el valor p para la prueba de la hipótesis de que, en la población. la correlación entre las dos variables es O. A continuación se muestra !a pantalla con los resultados de MIN!TAB. Los resultados son los mismos que los calculados antes.
Uha nlúéstra dé 2S- Canipáñas ¡jará a!Caldé en- Ciudádes ccin pobiaciones superiores a 50 000 habitantes, mostró que la correlación entre el porcentaje de votos recibidos y la cantidad de dinero que·e1 c·andidato gastó en la campaña, flle 0.43. Al nivel de-significancia 0.05, ¿existe una asociación positiva entre !as variables?
470
Gapilulo 13
llº
o
o
~1erc1c1os
7. Se dan las siguientes hipótesis.
H0 : p,,:;;; O
H1 : p >O
Una muestra al azar de 12 observaciones en pares indicó una correlación 0.32. ¿Se puede concluir que !a correlación en la población es mayor que cero? Aplique el nivel de significancia 0.05. 8. Se proporcionan las siguientes hipótesis.
H0: p"' O
H1 : p
Una muestra aleatoria de 15 observaciones por pares tiene una correlación
~0.46.
¿Se puede
concluir que la correlación en la pob!ac!ón es menor que cero? Aplique el nivel de significancia 0.05. 9. Una empresa (Pennsylvania Refining Company) que produce combustible para autos estudia
la relación entre el precio de la gasolina en la bomba expendedora y el nl1mero de galones vendido. Para una muestra de 20 gasolinerías, se consideró que la correlación fue 0.78. Al nivel de significancia O.Oi, ¿la correlación en la población es mayor que cero? iO. Un estudio de 20 instituciones financieras (a nivel mundial) mostró que la correlación entre sus activos y sus utilidades antes de impuestos, es 0.86. Al nive! de significancia 0.05, ¿puede concluirse que existe correlación posítiva en la población?
En la sección anterior se desarrollaron medidas para expresar la intensidad y la dirección de la relación que existe entre dos variables. En esta sección se quiere determinar una ecuación para expresar la relación lineal (en línea recta) entre dos variables. Además, se desea estimar el valor de la variable dependiente Y, con base en un valor de la variable independiente X. A la técnica empleada para desarrollar la ecuación y dar las estimaciones se conoce como análisis de regresión. En la tabla 13.1 se presenta el número de llamadas telefónicas y la cantidad de unidades vendidas para una muestra de 1O representantes de ventas de la empresa Copier Sales of America. El diagrama 13:1 muestra esta información en un diagrama de dispersión. Ahora se desea desarrollar una ecuación lineal que exprese la relación entre e! número de llamadas a clientes y la cantidad de uñidacles vendidas. La ecuación para la línea recta empleada para calcular Y, con base en X, se conoce como ecuación de regresión.
La gráfica de dispersión que se muestra en el diagrama 13. 1 se reproduce en el diagrama 13.6, e incluye una línea trazada con regla que pasa a través de los puntos, para ilustrar que es muy probable que tal recta sea la que mejor se ajusta a los datos. Sin embargo, esa línea trazada con regla tiene una desventaja: su posición se basa, en parte, en el juicio de quien la dibuja. Las rectas trazadas a mano en el diagrama 13. 7 representan los criterios de cuatro personas. Todas ellas, excepto la A, parecen razonables. No obstante,. cada una daría una estimación distinta de unidades vendidas que corresponden a un número determinado de llamadas.
471
Regresión lineal y correlación
o Y---+---1---1--1---lo I O 20 30 LQ 50, Llamadas DIAGRAMA 13.6
Lla111adas telefónicas y copiadoras vendidas por 1O representantes de ventas.
o
1O
DIAGRAMA 13.7
20
30
40
50- Llamadas
Cuatro rectas sobrepuestas en el diagra1na de dispersión.
Principio de mínimos cuadrados La recta de mínimos cuadrados proporciona el "mejor" ajuste; el método subjetivo no es confiable.
El juicio personal se elimina al determinar la recta de regresión utilizando un método matemático denominado principio de mínimos cuadrados. Este procedimiento origina lo que comúnmente se conoce como la recta de "mejor ajuste".
rifif¿¡jj¡().aif •tli•rifril()i ciriadia~.jJ fo()~ic~ .?~t11~k~¡¡ip~ikiíbteneria ~cuadi6bd~ •. reg¡esíón,,miniJT)i~andpla suma de los cu~drad(J~ dela~ cjistáncias·verticales~ntrelo5 yalore5·v~rdaqem§ de,Yylo5y¡¡lores•pronostiq¡¡dos-·de Y•
Para ilustrar este concepto, los mismos datos se grafican en los tres diagramas siguientes. La recta de regresión del diagrama 13.8 se determinó empleando el método de mínimos cuadrados. Es la línea de mejor ajuste porque la suma de los cuadrados de las desviaciones verticales con respecto a ésta es mínima. El primer punto localizado (X= 3, Y= 8) tiene una desviación de 2 con respecto a la recta, obtenida de 1 O - 8; el cuadrado de su desviación es 4. El cuadrado de la desviación para el punto X= 4, Y= 18, es 16. El cuadrado de la desviación para el punto X= 5, Y= 16 es 4. La suma de los cuadrados de las desviaciones en cuestión es 24, determinada por 4 + 16 + 4.
Afícis':d~-S~~ido
-en ·1a compáñla DIAGRAMA 13.3
Recta de inínin1os cuadrados.
DIAGRAMA 13.9
Línea trazada con 1:egla.
Años de servicio en la compailía
DIAGRAMA '13.iO
Línea trazada con regla.
Considérese que las rectas de los diagramas 13.9 y 13.10 se trazaron a mano utilizando una regla. La suma del cuadrado de las desviaciones verticales en el diagrama 13.9 es 44.
472
Capítulo 13 Para el diagrama 13.10 esta suma es 132. Ambas sumas son mayores que la suma para la recta del diagrama 13.8, obtenida utilizando el método de mínimos cuadrados. La forma general de la ecuación de regresión es:
La estadística ., en acc10n
FORMAGEN§RAL DE LA ' ... ECUAQIÓN,DE.REGRESION.LINEAL
Y'=á+bX.
[i3.4j
donde:
Y' se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado de X. a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X= O. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X= O. b es la pendiente de la recta, o el cambio promedio en Y' por unidad de cambio (incremento o decremento) en la variable independiente X. X es cualquier valor seleccionado de la variable independiente.
rníe'rttb: fófilú:dd,base del anB.liSis de:- regi:'e~ sión.
Debe observarse que la ecuación de regresión lineal para la muestra de vendedores es sólo una estiniación de la relación entre las dos variables en la población. De modoque, en general, los valores de a y b en la ecuación de regresión se denominan coeficientes de regresión estimados, o simplemente coeficientes de regresión. Las fórmulas para b y a son:
PENDJENTE•DELA·•LíNEA DE REGFlESIÓN'.é.
[13.5]
donde: X es un valor de la variable independiente. Y es un valor de la variable dependiente. n es e! número de elementos en la muestra.
EJEMPLO
Volviendo al problema de la empresa Copier Sales of America, la gerente de ventas recopiló información respecto al número de llamadas tel,efónicas hechas y la cantidad de copiadoras vendidas, para una muestra aleatoria de 1O representantes de ventas. Como parte de su presentación en la próxima junta de ventas, a la señorita Bancer, gerente de esa área, le gustaría ofrecer información eSpecífica referente a la relación entre el número de llamadas y la cantidad de productos vendidos. Utilice el método de mínimos cuadrados para determinar la ecuación lineal y expresar la relación entre las dos variables. ¿Cuál es el nC1mero esperado de copiadoras vendidas por un representante que realiza 20 llamadas a sus clientes?
SOLUCIÓN
La tabla 13.4 repite la información muestra! de la tabla 13.2. También incluye las sumas que se necesitan en las fórmulas (13.5) y (13.6) para obtener la ecuación de regresión. Los cálculos necesarios para determinar la ecuación de regresión son los siguientes:
b =
n(:ZXY) - :ZX:ZY
n
.
:ZX 2 -
.
(:ZX)'
=
o
10(1 800) - (220)(450) 10(5600) - (220) 2
=
1.1842
llegresió" lineai y correlación
473
a= ~Y - b ~x = ; TABLA·¡ 3_4
°-
5 0
(1.1842)
°=
22 10
18.9476
Cálculos necesarios para deten:ninar la ecuación de regresión de 1nínimos cuadrados. Llamadas de ventas (X)
Copiadoras vendidas (Y)
X'
Y'
XY
Soni Janes
20 40 20 30 10 10 20 20 20 30
30 60 40 60 30 40 40 50 30 70
400 ·1 600 400 900 100 100 400 400 400 900
900 3 600 1 600 3 600 900 1 600 1 600 2 500 900 4 900
--
600 2 400 800 1 800 300 400 800 1 000 600 2 rno --
Total
220
450
5 600
22100
10 800
Representantes de ventas Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds
Por tanto, la ecuación.de regresión es Y'= 18.9476 + 1.1842X. De modo que si un vendedor hace 20 llamadas telefónicas, puede esperarse que venda 42.6316 copiadoras, valor que se obtiene de Y'= 18.9476 + 1.1842X = 18.9476 + 1.1842(20). El valor b = 1.1842 significa que para cada llamada adicional que realizan los representantes de ventas pueden esperar aumentar en casi 1.2 el número de copiadoras vendidas. Para decirlo de otra forma, cinco llamadas extra en un mes resultarán en casi seis copiadoras vendidas adicionalmente [1.1842(5) = 5.921]. El valor a de 18.9476 es el punto donde la ecuación cruza el eje Y. Una traducción literal es que si no se hacen llamadas, esto es, X= O, se venderán 18.9476 copiadoras. Obsérvese que X= O se encuentra fuera del intervalo de valores incluidos en la muestra y, por tanto, no debe emplearse para calcular el número de productos vendidos. Las llamadas a clientes fueron de 1O a 40, así que los cálculos se deben hacer dentro de esa gama de valores.
Trazo de la línea de Iegresión La ecuación de mínimos cuadrados, Y'= 18.9476 + 1.1842X, se puede graficar en el diagrama de dispersión. El primer representante de ventas en la muestra es Tom Keller, quien hizo 20 llamadas telefónicas. El número calculado de copiadoras vendidas es Y'= 18.9476 + 1.1842(20) = 42.6316. El punto X= 20 y Y= 42.6316, se localiza recorriendo hasta 20 sobre el eje X y subiendo luego verticalmente hasta 42.6316. Los otros puntos de la ecuación de regresión se pueden determinar introduciendo el valor particular de X en la ecuación. Representantes de ventas Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch
llamadas (X)
20 40 20 30 10
Ventas estimadas (Y')
Representantes de ventas
llamadas (X)
Ventas estimadas (Y')
42.6316 66.3156 42.6316 54.4736 30.7896
Carlos Ramirez Rich Ni!es Mike Kiel Mark Reynolds Soni Janes
10 20 20 20 30
30.7896 42.6316 42.6316 42.6316 54.4736
'
474
Capítulo 13 Todos los demás puntos se unen para obtener la recta. Ver el diagrama 13.11.
O
D!AG~f~M.A
13."ií
1O
20
· 30
40
50 Llamadas
Línea de regresión trazada en el diagra1na de dispersión.
Tal recta tiene características interesantes. Según se analizó, no existe otra línea recta que pase por los datos y tenga una suma de desviaciones al cuadrado que sea menor. Además, esta recta pasará por los puntos representados por las medias respectivas de los valores X y Y, esto es y?. En este ejemplo, 22.0 y 45.0.
X
r~"~'"~~--~~~~---~·~-~~~-··---,~~·~
1
.i~utoexáP.ílen .13.3
X=
Y=
----- --
--~~-~~-~~~--~~~--~~-~~·~---~,,=--
~~~-----~~~I
Refiérase al autoexamen 13, 1_ i donde el d_Líeño de la empresa Reliable Furniture analizó la relación_ entre las ventas y los gastos de publicidad ..A continuación se repite la información de las veíltás durante ros ú!timbs cLÍatro meses. G
Mes Julio Agosto Septiembre Octubre
1
Ingresos pór_ventas (millones de dólares)
2
7
1 3
3 8
4
10
8) Defermine la eCUación de regresión. b) Interprete los valores de a y b. c) Calcule los importes de las ventas cuando se gastan 3 millones de dólares en publicidad.
po
o o
., ,'e"""'l'"'O··",_,, .,'-·P JL~ll><.,.,_a
Nota: Se sugiere que se con Serven aparte los va!Ores obtenidOs para LX, D< 2 , IXY, LY y LY 2 , ya que se considerarán estos problemas más adelante en este capítulo. 11.- Se seleccionaron al azar las siguierites observaciones de muestra:
X: Y:
4
5
3
6
4
6
5
7
10 7 1
1
a) Establezca la ecuación de regresión. Obtenga el valor de Y' cuando X vale 7. 12. Se seleccionaron al azar las siguientes observaciones muestrales.
b)
X: Y: 1
5
13
3 15
6 7
3 12
4
4
13
11
6 9
8 5
Regresión lineal y corrnlaoión
475
a} Determine la ecuación de regresión. b) Obtenga el valor de Y' cuando X es 7. 13. La empresa Bradford Electric llluminating Co., analiza la relación entre el consumo de energía (en miles de kilowatts-hora, kWh) y el número de habitaciones en una residencia privada unifamiliar. Una muestra aleatoria de i O casas produjo !o siguiente. Número de habitaciones
(miles de kWh)
12 9 14 6 10
7 10 5 8
Consurno g
Número de habitaciones
(miles de kWh)
Consumo
8 10 10 5 7
6 8 ·10 4 7
a) Determine la ecuación de regresión. b) Evalúe el consumo, e:i miles de kilowatts-hora, para una casa de seis habitaciones. 14. El señor James McWhinney, presidente de la empresa Daniel-James Financia! Services, considera que existe relación entre el número de entrevistas con clientes y el importe en dólares de las ventas. Para documentar esta afirmación, recopiló !a siguiente información muestra!. La colurnna X indica el número de entrevistas con clientes durante el mes pasado, y la columna Y muestra el valor de las ventas (en miles de dólares) del mismo mes para cada cliente en la muestra. Número de contactos, X
Ventas (miles de dólares),
14 12 20 16 46
Ventas (miles de dólares),
y
Número de contactosj X
24 14 28 30 80
23 48 50 55 50
30 90 85 120 11 o
y
a} Determine la ecuación de regresión. b) Evalúe las ventas estimadas sl hay comunicación con 40 clientes. 15. Un reciente artículo en Business Week pres~ntó una lista de !as "mejores compañías pequeñas". Hay interés en !os resultados actuales -de las ventas y ganancias de las empresas. Se seleccionó una mueStra aleatoria de 12 compañías. A continuación se indican !as ventas y ganancias, en millones de dólares.
Compañía Papa Jol1n's lnternational Applied !nnovation lntegracare Wall Data Oavldson Associates Cllico's Fas .
Ventas Ganancias (mili. US$) (mili. US$) $89.2 18.6 18.2 71.7 58.6 46.8
$4.9 4.4 1.3 8.0 6.6 4.1
Compañía Checkmate Electronics Royal Grip M-Wave Serving-N-Slide Daig Cobra Golf
Ventas (mili. US$)
Ganancias (mili. US$)
$17.5 11.9 19.6 51.2 28.6 69.2
$ 2.6 1.7 3.5 8.2 6.0 12.8
1
..
Las ventas serán la variable independiente, y las ganancias, la variable dependiente. a) Trace un diagrama de dispersión. b) Calcule el coeficiente de correlación. e) Evalúe el coeficiente de determinación. el) Interprete los resultados obtenidos en los incisos b) y e). e} Determine la ecuación de regresión. f) Calcule las ganancias de una compañía pequeña con 50 millones de dólares en ventas.
476
Capítulo 13
16. Se estudian los fondos de bonos mutuales para invertir en varios de ellos. Este análisis en particular se centra en !os activos de un fondo y su rendimiento a cinco años. La pregunta es: ¿puede calcularse la tasa de rendimiento a cinco años con base en los activos del fondo? Se seleccionaron nueve mutualidades a! azar, y a continuación se muestran sus activos y tasas de rendimiento.
Activos Rendimiento (mili. dólares) (%) Fondos
Fondos AARP High Qualily Bond Babson Bond L Compass Capital Fixed lncome Galaxy Bond Retail Keystone Custodian B- i
$622.2 <60.4 275.7 433.2 437.9
10.8 '11.3 11.4 9.1 9.2
Activos Rendimiento (mili. dólares) (%)
MFS Bond A Nichols lncome T. Raive Price Short-term Thompson lncome B
$494.5 158.3 681.0 241.3
11.6 9.5 8.2 6.8
a) b) e) d) e) t)
Trace el diagrama de dispersión. Calcule e! coeficiente de correlación. Evalúe el coeficiente de determinación. Redacte un breve informe acerca de los resultados obtenidos en los incisos b) y c). Determine la ecuación de regresión. Utilice los activos como !a variable independiente. Establezca la tasa de rendimiento a cinco años (en porcentaje) de un fondo con 400 millones de dólares en ventas. 17. Refiérase al ejercicio 5. a) Determine la ecuación de regresión. b) Estlme el número de delitos para una ciudad con 20 agentes de policía. e) Interprete la ecuación de regresión. 18. Refiérase a! ejercicio 6. a) Determine la ecuación de regresión. b) Calcule el precio de venta de un automóvil con 1O años de uso. e) Interprete la ecuación de regresión.
El error estándar de estirnación Obsérvese en el gráfico de dispersión anterior (diagrama 13.11) que no todos los puntos quedan con exactitud en la recta de regresión. Si todos hubieran quedado en la línea y si el número de observaciones hubiera sido suficientemente grande, no existiría error en el cálculo del número de unidades vendidas. Dicho de otra forma, si todos los puntos estuvieran en la recta de regresión, las unidades vendidas podrían pronosticarse con una precisión de 100%. Entonces no habría error al pronosticar la variable Y con base en la variable X. Esto es cierto en el caso hipotético que sigue (véase el diagrama 13.12). Teóricamente, si X= 4, entonces podría pronosticarse una Y exacta de 100 con 100% de confianza. O bien, si X= 12, entonces Y= 300. Debidciaque no hay diferencia entre los valores observados y los valores pronosticados, ílo existe error en esta estimación.
Caballos de fuerza ele un motor
DIAGRAMA 13.12
Ejen1plo de una predicción perfecta: caballos de fuerza y costo de la electricidad.
477 El pronóstico perfecto no
es realista en cuestiones
económicas.
Obtener una predicción perfecta en los aspectos de economía y administración es prácticamente imposible. Por ejemplo, los ingresos anuales provenientes de ventas de gasolina (Y) con base en los registros de automóviles (X) hasta cierta fecha, sin duda podrían aproximarse con gran exactitud, pero el pronóstico no sería preciso con redondeo a unidades monetarias enteras, o tal vez hasta el millar de unidades monetarias. Aun los pronósticos de resistencia a
la tensión mecánica de los alarnbres de acero, con base en el diámetro externo-de los mismos, no siempre son exactos, debido a ligeras diferencias en la composición del acero. Entonces, lo que se necesita es una medida que indique qué tan preciso es el pronóstico de Y con base en X o, por el contrario, cuán inexacta podría ser la predicción. A esta medida se le denomina error estándar de estimación, el cual se representa por sy ·X , y es el mismo concepto que el de la desviación estándar, analizada en el capítulo 4. La desvíacíón estándar mide la dispersión respecto a la línea de regresión.
Medida de la dispersión de los val.orE1~tibseh''1~os, doiúespecto a la línea de regresión.
Erróf.estáhdiíl: ile estimadón
El error estándar de estimación se determina aplicando la siguiente ecuación. Obsérvese que ésta es muy semejante a la de la desviación estándar de una muestra.
_ l:Z(Y - Y')2
-v."n-2 La desviación estándar se basa en los cuadrados de las desviaciones respecto a la media, mientras que el error estándar de estimación se basa en los cuadrados de las desviaciones respecto a la línea de regresión. Si la suma de los cuadrados de las desviaciones es pequeña, esto significa que la línea de regresión es representativa de los datos. Si los cuadrados de las desviaciones son grandes, entonces la recta de regresión puede no representar a los datos.
!EJEMPLO
Recuér.dese el ejemplo que se relaciona con la empresa Copier Sales of America. La gerente de ventas determinó que la ecuación de regresión de mínimos cuadrados era Y'= 18.9476 + U 842X, donde Y se refiere al número de copiadoras vendidas, y X a. la cantidad de llamadas telefónicas hechas. Evalúe el error estándar de estimación como una medida de cuán bien se adaptan los valores a la recta de regresión.
SCllUG!ÓN
Para evaluar el error estándar se comienza determinando la diferencia entre el valor Y, y el valor calculado mediante la ecuación de regresión, Y'. A continuación tal diferencia se eleva al cuadrado, esto es, (Y - Y') 2 . Esto se hace para cada una de las n observaciones y se suman los resultados; es decir, se calcula L(Y - Y') 2 , que es el numerador de la fórmula (13.7), Finalmente se divide entre el número de observaciones menos 2. ¿Por qué menos 2? Se pierde un grado de libertad cada vez que se calcula el valor de intersección, a, y el valor de la pendiente, b. Los detalles de los cálculos se resumen en la tabla 13,5,
478
Capitulo 13 Tf~BLA
13.5
Cálculos necesarios para obtener el error estándar de estimación.
Representante de ventas
La estadística ., en acc1on
Tom Kel!er Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds
SoniJones
(Y')
Desviación (Y- Y')
Desviación al cuadrado (Y - Y')'
42.6316 66.3156 42.6316 54.4736 30.7896 30.7896 42.6316 42.6316 42.6316 54.4736
-12.6316 -6.3156 -2.6316 5.5264 -0.7896 9.2104 -2.6316 7.3684 -12.6316 15.5264
159.557 39.887 6.925 30.541 0.623 84.831 6.925 54.293 159.557 241.069
0.0000
784.208
Ventas reales (Y)
Ventas calculadas
30 60 40 60 30 40 40 50 30 70
El error estándar de estimación es 9.901, que se determina aplicando la fórmula (13.7):
s
y·x
=
Y')2 _ ~784.208 = 9.901 n-2 10-2
/2:(Y -
\
Las desviaciones (Y - Y') son desviaciones verticales con respecto a la recta de regresión. Para ilustrar esto se muestran las 10 desviaciones de la tabla 13.5 en el diagrama 13.13. Obsérvese en la citada tabla que la suma de las desviaciones señaladas es igual a cero, lo cual indica que las desviaciones positivas (por encima de la línea de regresión) están compensadas por las desviaciones negativas (por debajo de tal recta).
LHAGRAMA 13.13
Lla1nadas de ventas y copiadoras vendidas en una muestra ele 10 vendedores.
La fórmula (13. 7) para el error estándar de estimación sirve para mostrar la semejanza que existe, en concepto y cálculo, entre la desviación estándar y el error estándar de estimación. Supóngase que se estudia un gran número de observaciones y que las cifras son grandes. Determinar cada punto Y' sobre la recta de regresión y elevar al cuadrado las diferencias, esto es (Y - Y') 2, sería muy tedioso. La fórmula que sigue es idéntica desde el punto de vista algebraico a la anterior (13.7), pero es mucho más fácil de utilizar.
479
Regresión lineal y correlación
[13.8] Los cuadrados, sumas y otras cifras para el problema de la empresa Copier Sales of America, se calcularon en la tabla 13k Al introducir esos valores en la fórmula se tiene que:
s .= yx
/22 100 - 18.9476(450) - 1 .fB42(1 o 800) 10-2
,,,¡-
=9.901 Se trata del mismo error estándar de estimación que se calculó antes.
Consideraciones básicas para la regresión lineal Para aplicar correctamente la regresión lineal deben satisfacerse varias suposiciones, las cuales se ilustran en el diagrama 13.14.
o D!P.,\GRA!VL,.S\ 13.14
Representación gráfica de las suposicionés para la regresión.
1. Para cada valor de la variable X hay un conjunto de valores Y. Estos valores Y siguen la distribución normal. 2. Las medias de estas distribuciones normales se encuentran sobre la línea de regresión. 3. Las desviaciones estándar de todas estas distribuc.iones normales son iguales. La mejor estimación que se tiene de esta desviación estándar en común, es el error estándar de estimación (sy.x ). 4. Los valores de Y son estadísticamente independientes. Esto significa que al tomar la muestra, un determinado valor de X no depende de ningún otro valor de X. Esta suposición es especialmente importante cuando se toman los datos durante un periodo. En
esos casos, Jos errores en un determinado periodo suelen estar correlacionados con !os de otro periodo.
480
Capitulo 13 Recuerde del capitulo 7, que si los valores siguen una distribución normal, entonces 68% de las observaciones estarán comprendidas entre la media más una desviación estándar y la media menos una desviación estándar; 95% de las observaciones estarán comprendidas entre la media más menos dos desviaciones estándar, y virtualmente todas las observaciones se en~ontrarán entre la media y rnás men9s tres desviaciones estándar. Esta misma relación existe entre los valores pronosticados Y'y el error estándar de estimación (sY·X ).
1. Y'± sY·X comprenderá 68% de las observaciones. 2. Y' ± 2sY·X comprenderá 95% de las observaciones. 3. Y ± 3sy.x comprenderá virtualmente todas las observaciones 1
Ahora es posible relacionar estas consideraciones con el problema de la empresa Copier Sales of America, donde se estudia la relación entre el número de llamadas telefónicas y la cantidad de copiadoras vendidas. Suponga que se toma una muestra mucho mayor que n = 1O, pero el error estándar de estimación sigue siendo 9.901. Si se traza una recta paralela a 9.901 unidades por arriba de la línea de regresión, y otra a 9.901 unidades por abajo de dicha linea, cerca de 68% de los puntos estarían entre las dos lineas paralelas. De modo semejante, una recta a 19.802 [2sy. x = 2(9.901)] unidades sobre la línea de regresión, y otra a 19.802 unidades abajo de tal recta, el espacio entre ellas debería incluir aproximadamente 95% de los valores de los datos. Como una revisión rápida refiérase a la segunda columna de la derecha en la tabla 13.5, en la página 478, la columna con el encabezado "Desviación". Tres de las 1O desviaciones exceden a un error estándar de estimación. Esto es, la desviación de -12.6316 para Tom Keller, -12.6316 para Mark Reynolds, y+ 15.5264 para Soni Janes, exceden todos el valor de 9.901, que está a un error estándar desde la recta de regresión. Por tanto, dicho de otro modo, siete de las diez desviaciones en la muestra quedan dentro de un error estándar con relación a la línea de regresión, lo que es un buen resultado para una muestra relativamente pequeña.
Refiérase a los autoexámenes 13.1 y 13.3, donde el dueño de la empresa Reliable Furniture estudiaba larelapíón entre las.ven.tas y los gastos en publicidad. Determine el error estándar de estimación. _
~-1
Ejercicios 19. Véase el Ejercicio 11. a) Determine e! error estándar de estimación. b} Suponga _que se selecciona una muestra granpe (en vez de sólo cinco). ¿Entre qué par ele valores estaría aproximadamente 68% d.e las predicciones?
20. Considere.el ejercicio 12. a) Determine
er error 8stándar de estirii.ación.
b) Cons_i_d~r~ que_ se _sel_eccio_n_a una muestra_ gr_ande (en !ugar _ de solamente ocho}. ¿Entre qué par de valores estaría alrededor de 95% de ías predicciones?
21. Consulte el ejercicio 13. a) Evalúe el error estánda'r' de estimaCión.
b) Suponga que se selecciona una muestra grande (en vez de sólo 1O). ¿Entre qué par de valores estaría cerca de 95% de las predicciones de consumo (en kilowatts-hora)? 22. Con relación el ejercicio i 4: a) Determine e! error estándar de estimación.
481
Regresión lineal y correlación
b) Suponga que se selecciona una muestra grande (en vez de únicamente i O). ¿Entre qué par de valores estaría aproximadamente 95% de las predicciones referentes a las ventas?
23. Considere el ejercicio 5. Determine e! error estándar de estimación. 24. Vea el ejercicio 6. Evalúe el error estándar de estimación.
Intervalos de confianza y de predicción El error estándar de estimación también se utiliza para establecer intervalos de confianza cuando el tamaño de la muestra es grande y la dispersión con respecto a la línea de regresión se aproxima a la distribución normal. En el ejemplo relacionado con el número de llamadas telefónicas y la cantidad de copiadoras vendidas, el tamaño de la muestra es pequeño; por tanto, se necesita un factor de corrección que considere el tamaño de la muestra. Además, al alejarse del valor medio de la variable independiente, los cálculos están sujetos a mayor variación, y esto también se debe corregir. Se desea proporcionar estimaciones de intervalo de dos tipos. El primero, denominado intervalo de confianza, presenta el valor medio de Y para un valor dado de X. El segundo tipo se conoce como intervalo de predicción e informa acerca de la gama de valores de Y para un valor particular de X. Para explicarlo más ampliamente, supóngase que se calcula el sueldo de ejecutivos en la industria de ventas al menudeo, con base en su experiencia. Si se necesita una estimación de intervalo del pago laboral de todos los ejecutivos de esa actividad que tienen 20 años de experiencia, se calcula un intervalo de confianza. Si se desea una estimación del sueldo de Curtis Bender, un funcionario de la industria en cuestión, con 20 años de experiencia, se calcula un intervalo de predicción. A fin de determinar el intervalo de confianza para el valor medio de Y para un valor dado de X, se utiliza la fórmula siguiente: t(s
)
Y x
/:t, +
1ln j
2
(X -X ) (SX)2 :SX2--n-
[13.9]
donde:
Y' X X
n sY. x
t
es es es es es es
el valor pronosticado para cualquier valor X seleccionado. cualquier valor seleccionado de X. la media de las X, evaluada mediante í:X!n. el número de observaciones. el 'error estándar d8 estifn8.Cióri'. el valor t tomado del apéndice F para n - 2 grados de libertad.
De nuevo conviene recordar que el concepto de t lo dedujo William Gossett, a principios del decenio de 1900, observando que X± z(s) no era exactamente correcto para muestras pequeñas. Por ejemplo, se percató de que para muestras de tamaño 120, 95% de los elementos quedaban dentro de X± 1.98s, en vez de X± 1.96s. Esta diferencia no es crítica, pero obsérvese lo que sucede conforme disminuye el tamaño de la muestra:
g/ 120 60 21 10 3
1.980 2.000 2.080 2.228 3.182
Esto es lógico. Cuanto más pequeña sea la muestra, tanto mayor será el error posible. El incremento en el valor de t compensa esta posibilidad.
482
Capitulo 13
IEJIEMPIJIJ
Regresemos al ejemplo relacionado con la empresa Copier Sales of America. Determínese un intervalo de confianza de 95% para todos los representantes de ventas que realizan 25 llamadas telefónicas, y para Sheila Baker, una vendedora de la Costa Oesie que hizo 25 llamadas.
SOLUCIÓN
Se utiliza la fórmula (13.9) para determinar un intervalo de confianza. La tabla ·13.6 incluye los totales necesarios y se repite la información de la tabla 13.2 de la página 462.
TABLA 13.6
Cálculos necesarios para determinar el intervalo ele confianza y el intervalo de predicción. Llamadas
Representante de ventas
realizadas (X)
Tom Keller Jeff Hall Brian Virost Greg Fish Susan Welch Carlos Ramirez Rich Niles Mike Kiel Mark Reynolds
Soni Janes
-
Total
Copiadoras vendidas (Y)
X'
Y'
XY
30 60 40 60 30 40 40 50 30 70
400 1 600 400 900 100 100 400 400 400 900
900 3 600 1 600 3 600 900 1 600 1 600 2 500 900 4 900
600 2 400 800 1 800 300 400 800 1 000 600 2100
20 40. 20 30 10 10 20 20 20 30
-
220
--
450
5 600
-22100
-10 800
El primer paso es determinar el número de copiadoras que espera vender un (o una) representante de ventas si realizan 25 telefonemas. Esto es 48.5526, obtenido mediante
Y' = 18.9476 + 1.1842X = 18.9476 + 1.1842(25). Para determinar el valor t, primero se necesita conocer el número de grados de liber. tad. En este caso, tales grados son n - 2 10 - 2 = 8. Se establece el nivel de confianza de 95%. El apéndice F presenta el nivel de significancia, que se obtiene por la diferencia de 1 menos el nivel de confianza. Se utiliza la categoría de dos extremidades. Para encontrar el valor t, vaya hacia abajo en la columna de la izquierda hasta 8 grados de libertad, y después a través de la columna con el nivel de significancia de 0.05, para dos colas. El valor de t resulta ser igual a 2.306. En la sección anterior se obtu~o que el error estándar de estimación es 9.901, X= 25, y de la tabla 13.6, LX= 220 y LX'= 5 600, Además, X= LX!n = 220/10 = 22. Introduciendo estos valores en la fórmula (13.9) se determina el intervalo de confianza.
=
---·-··-.
_
;+
Intervalo de confianza - Y - tsr·x
1 /n + 1
1
=
(X-X)'
(:SX)'
2X 2 - n
48.5526 :': 7.6356
Regresión lineal y correlación
483
Por tanto, el intervalo de confianza de 95% para todos los representantes de ventas que realizan 25 llamadas telefónicas va desde 40.9170 hasta 56.1882. Para interpretarlo se redondean los valores. Si un vendedor hace 25 telefonemas, puede esperar vender 48.6 copiadoras. Es probable que sus ventas variarán de 40.9 a 56.2 de tales máquinas. Para determinar el intervalo de predicción para un valor particular de Y dado cierto valor de X, se modifica ligeramente la fórmula 13.9: Se agrega un "1" como sumando bajo el radical. La fórmula se convierte en:
lNj'EHVALO DE PREDICCIÓN PARA Y, DJl,DO UNVAlOfl DE X·
[13.10}
Supóngase que se desea calcular el nC1mero de copiadoras que vendió Sheila Baker, quien hizo 25 llamadas telefónicas. El intervalo de predicción de 95% se determina como sigue:
Intervalo de predicción
=
Y' ±
/
tsy. X
1
\11 + n +
(X-X) 2 (2:X)' >'X'-~~ n
=
1 1 48.5526 ± 2.306(9.901) ¡1 + 10 +
v
(25 - 22) 2 (220)' 5600--10
= 48.5526 ± 24.0746 De modo que el intervalo va desde 24.478 hasta 72.627 copiadoras. Se concluye que el número de productos vendidos se encontrará entre aproximadamente 24 y 73 para un representante de ventas en particular. Este intervalo es muy grande. Es mucho mayor que el intervalo de confianza para todos los vendedores que hicieron 25 llamadas. Sin embargo, es lógico que habrá mayor variación en el estimado de ventas para un individuo que para un grupo.
La siguiente gráfica de MINITAB muestra la relación entre la recta de regresión (línea continua), el intervalo de confianza (linea punteada) y el intervalo de predicción (línea con puntos y guiones). Las franjas del intervalo de predicción siempre se encuentran más alejadas de la recta de regresión que las del intervalo de confianza. También conforme los valores de X se alejan del número medio de llamadas (22), tanto en dirección positiva como negativa, las bandas del intervalo de confianza y del intervalo de predicción se hacen más amplias. Esto es ocasionado por el numerador del término de la derecha dentro del radical en las fórmulas 13.9 y 13.1 O. Es decir, conforme aumenta el término (X - X) 2 , también aumentan las amplitudes del intervalo de confianza y de predicción. Dicho de otra manera, conforme se aleja de la media de la variable independiente, hay menos precisión en las estimaciones.
484
Capitulo 13 Intervalos de confianza y de estimación para los datos de la empresa Copier Sales of America.
10
20
30
40
Llamadas
Hay que subrayar nuevamente la diferencia entre un intervalo de confianza y un intervalo de predicción. Un intervalo de confianza se refiere a todos los casos correspondientes a un valor dado de X y se calcula usando la fórmula 13.9. Un intervalo de predicción se refiere a un caso particular para un valor dado de X y se calcula usando la fórmula 13.1 O. El intervalo de predicción s9rá siempre más amplio debido al 1 agregado en el radical en la segunda
ecuación.
l\utoexamen 13.5
Refiérase a los datos muestrales en los autoexámenes 13.1, 13.3 y ·13.4, donde el dueño de la empresa Reliable Furniture estudiaba la relación entre las ventas y los gastos de publicidad. A continuación se repite la información de ventas para cuatro meses.
Mes Julio Agosto Septiembre Octubre
Gastos en publicidad- Ingresos pi:>r Ventas (millones de dólares) (millones de dólares) 2
7
1
3
3 4
8 10
Se calcula que la ecuación de regresión es Y' = 1.5 + 2.2X, y el error estándar es 0.9487. Ambas variables se presentaron en millones de dólares. Determine el intervalo de confianza de 90% para el mes típico en el que se gastaron 3 millones de dólares en publicidad.
Ejercicios 25. Refiérase al ejercicio 11. a) Determine el intervalo de confianza 0.95 para el valor medio pronosticado cuando X= 7. b) Establezca el intervalo de predicción 0.95 para un valor individ_ual pronosticado cuando X= 7. 26. Considere el ejercicio 12. a) Obtenga el intervalo de confianza 0.95 para el valor medio pronosticado cuando
X=7. b) Evalúe el intervalo de predicción 0.95 para un valor individual pronosticado cuando X = 7. 27. Consulte el ejercicio 13. a) Halle el intervalo de confianza 0.95, en miles de kilowatts-hora, para la media de todas las casas con seis habitaciones.
Regresión lineal y correlación
485
b). Determine e! intervalo de predicción 0.95, en miles de ki!owatts-hora, para una casa de seis habitaciones en particular. 28. Refiérase al ejercicio 14. a) Determine el intervalo de confianza 0.95, en mi!es de dólares, para la media de todo el personal de ventas que realiza. 40 entrevistas con clientes. b) · Establezca el intervalo de predicción 0.95, en miles de dólares, para un vendedor particular que realiza 40 entrevistas con clientes.
Algo n1ás acerca del coeficiente de detenninación La formula 13.2 es una expresión conveniente para calcular el coeficiente de correlación, r. El coeficiente de determinación se obtuvo elevando al cuadrado el coeficiente de correlación. Para examinar más de cerca el concepto básico del coeficiente de determinación, supóngase que interesa la relación entre los años de permanencia en el trabajo, X, y la producción semanal, Y. Los datos muestrales indicaron que:
Años de
servicio, X
Empleado Gordon James Ford Salter Art9S
Producción semana!, Y
14
6
7
5
3
3 9
15 11
7
Los datos muestrales se graficaron en un diagrama de dispersión. Debido a que la relación entre X yy parece ser lineal, se trazó una recta por los puntos determinados (ver el diagrama 13.15). La ecuación es Y' = 2 + OAX. Obsérvese en el diagrama 13.15 que si se fuera a utilizar esa recta para pronosticar la producción s.emanal de ur empleado, en ningún caso la predicción sería exacta. Esto es, existiría cierto error en cada uno de los pronósticos. Como ejemplo, para Gordon, que ha estado con la empresa 14 años, se pronosticaría una producción semanal de 7.6 unidades; sin embargo, él sólo produce 6 unidades.
L..~~"---~~--'--__.c.~~~~~--·X
2
4
6
8
10 12 14 16
Afios en el :trabajo
DIAGRAMA 13.i5
Datos observados y la recta de n1íniinos cuadrados.
486
Variación no explicada.
Capítulo 13 Para medir el error general en nuestro pronóstico, cada desviación con respecto a la recta se eleva al cuadrado y se suman los cuadrados. El punto pronosticado sobre la recta se indica con Y', el cual se lee "ye prima", y el punto observado se representa con Y. Para Gordon, (Y - Y') 2 = (6 - 7.6)2 = (-1.6) 2 = 2.56. Lógicamente, esta variación no puede explicarse por medio de la variable independiente, de manera que se denomina variación no explicada. No es posible explicar en forma específica por qué la producción de Gordon de 6 unidades está 1.6 unidades abajo de su producdón pronosticada de 7.6 unidades con base en el número de años de permanencia en el trabajo. La suma de las desviaciones al cuadrado, Z:(Y - Y') 2 es 4.00 (ver la tabla 13.7). El término Z:(Y - Y') 2 = 4.00 es la variación en Y (producción) que no puede pronosticarse a partir de X. Es, por tanto, la variación "no explicada" en Y.
TABLI\ 13.7
Cálculos necesarios para determinar la variación no explicada.
Gordon James Ford Salter Artes
Total
X
y
Y' • Y- Y'
14 7 3 15 11 50
6 5 3 9 7
7.6 4.8 3.2 8.0 6.4
30
(Y - Y') 2
-1.6 0.2 -0.2 1.0 0.6
2.56 0.04 0.04 1.00 0.36 4.00
o.o·
*Debe ser O.
Variación total en Y
Supóngase ahora que sólo se conocen los valores Y (en este problema, la producción semanal) y se desea pronosticar la producción de todos los empleados. Los valores reales de la producción para los empleados son 6, 5, 3, 9 y 7 (a partir de la tabla 13. 7). Para hacer tales predicciones, podríamos asignar la producción media semanal (6 unidades, obtenida de Z:Y/n = 30/5 = 6) a cada empleado. Esto conservaría la suma de los cuadrados de los errores de pronóstico en un valor mínimo. (Recuérdese del capítulo 3 que la suma de los cuadrados de las desviaciones con respecto a la media aritmética, para un conjunto de números, es menor que la suma de los cuadrados de las desviaciones a partir de cualquier otro valor, como la mediana.) En la tabla 13.8 se muestran los cálculos necesarios. La suma de los cuadrados de las desviaciones es 20, como se ve en la tabla 13.8. Tal valor 20 se conoce como varia-
ción total en Y. TABLA 13.8
Cálculos necesarios para determinar la variación total en Y.
Producción semanal, Nombre
y
Gordon
6 5 3 9 7
James Ford Salter Artes Total ~oebe
Media de la producción semanal, y
6 6 6 6 6
y o
Y-
Y)'
(Y -
o
-1 -3 3
9 9
o·
20
ser o.
Lo que se realizó para determinar la variación total en Y se muestra gráficamente en el diagrama 13.16.
487
Años en e! trabajo ,
DIAGRAMA 13.16
Puntos que n1uesh·an la desviación con respecto a la media de Y.
Lógicamente, la variación total en Y puede subdividirse en variación no explicada y variación explicada. Para llegar a la variación explicada, conociendo la variación total y la variación no explicada, simplemente se realiza una resta: Variacíón explicada ;:;: ; Variación total ~ Variación no explicada. Al dividir la variación explicada entre la variación total se obtiene el coeficiente de determinación, r 2, que es una relación proporcional. En términos de una fórmula:
Variación
tot~a~i:c~~~:~~ 1no explica~ 113.11}
1 1
______J En este problema:
r'~20~ 20
~
0.80
20
'
Como ya se ha mencionado, 0.80 corresponde a un porcentaje. Se dice así que 80% de la varíacíón en la producción semanal, Y, está determinado, o explicado, por su relación lineal con X (años de permanencia en el trabajo). Para verificar podría aplicarse la fórmula ('13:1) para el coeficiente de correlación. Al elevar r al cuadrado se obtiene el coeficiente de determinación. En el ejercicio 29 se presenta
una veri-ficación del problerna anterior.
Ejercicios 29. Utilizando el problema anterior, relacionado con años de pern1anencla en el trabajo y producción semana!, verifique que el coeficiente de determinación en realldad es igual a 0.80. 30. El nl1mero de acciones de la empresa lcorn, lnc., que variaron durante un 111es y el precio al fina! del mes, se en!istan en la siguiente tabla. Además, se dan los puntos Y' en la recta que pasa por los datos observados.
488 Movirílierot{l (miles de acciones),
acüm~,
Prec!o estimado,
X
y
Y'
$2
$2.7 0.6
4 2
3.4
Li
Prec~n
2.0 1.3
a) Elabore un diagra111a de dispersión y haga pasar una línea recta a través de los puntos. b} Calcule el coeficiente de ceterminación utilizando la fórrr1ula (12. i O). e} Con10 veri-ficación, utilice la ·fórmula 13.2 para r. dJ Interprete el coeficiente de detenninación.
' .e· . t e ct'e coffe¡acion, l ', Relac1ones entre ex' coenc1en el coeficiente de detenninaclón y el error estándar de estimación En una sección anterior se analizó el error estándar de estimación, que mide cuán cerca de la recta de regresión se encuent1·an ios valores 1·eaies. Cuando e! error estándar es pequeilo, elio indica que las dos variables están re!acionaclas muy de cerca. En e! cáiculo de! erro1· estándar, e! término clave es L(Y ~ Y 1) 2 . Si el valor de ta! término es pequeño, entonces el error estándar también lo será. El coeficiente de correlación mide la intensidad de la asociación entre dos variables. Cuando !os puntos en el diagrama de dispersión parecen cercanos a la recta, se observa que el coe-ficiente de correlación tiende a ser grande. Asi que e! error estándar ele estimación y el coeficiente de correlación indican la misma información, pero utilízan una esca!a diferente para señalar el vigor de la asociación. Sin embargo, en ambas n1edidas interviene el término
l:(Y - Y') 2 • También observamos que el cuadrado del coeficiente ele correlación se denomina coe'ficiente de determinación. Este útin10 mide el porcentaje de la variación en Y que se explica por la variación en X. Un rnedio conveniente para mostrar la relación entre estas tres medidas es una tabla ANOVA. Esta tabla se asemeja a la de análisis de varianza desarrollada en ei capítulo 12. En dicllo capítulo, !a varíación total se dividió en dos con1ponentes: la que se debe a los tratamíentos y !a que se debe al erroraleatorío. El concepto es sen1ejante en 211álisls de regresión. La variación total, Z(Y - Y) 2 , se divide en dos con1ponentes: (-1) la variación exp!icada por la regresíón (que la explica la variable Independiente), y (2) el error, o variación no explicada. Estas dos categorías se identifican en !a prin1era columna de la tabla A'l\iO\/A que sigue. La coiumna con el encabezado "gf" se refiere a los grados de l!bertad asociados a cada categoría. El nún1ero total. de grados de libertad es n - 1. El número de grados de libertad en la i-egresión es í, debido a que hay solan1ente una variable independiente. E! nlJmero de grados de libertad asociado con e! térn1ino de error es n - 2. El término "SS", que está en el centro de la tabla ANOVA, se refiere a la suma de cuadrados: la variación. Los térrninos se calculan corno sigue: Regresión = SSR = S(Y' - Y) 2 Variación de error= SSE = S(Y - Y') 2 Variación total = SS totai = S(Y -
YJ 2
489
Regrnsión lineal y correlación El formato para la tabla ANOVA es: Fuente
gl
SS
Regresión
n-2 n --· 1
Error Total
'
'SS tctal
=
SSR SSE SS totalk
11/íS
SSR/1 SSE/(n ·- 2)
SSR + SSE.
El coeficiente de determinación, r 2 , puede obtenerse dimctarnente a partir de la tabla ANOVA mediante:
COEFICIENTE DE OETERiVl!NACIÓN
2
r
SSR SSE 1 = SS total "" SS total
1 [13.121
1
El término "SSR/SS total' es la relación proporcional en la variación de Y explicada por la variable independiente X. Obsérvese el efecto del término SSE sobre r 2. Conforme SSE disminuye, r 2 aumenta. Por el contrario, conforme disminuye e! error estándar, aumenta e! término r 2 • El error estándar de estimación también puede determinarse a partir de la labia ANOVA, utilizando la ecuación que sigue:
El ejemplo de la empresa Copier Sales of America sirve para ilustrar los cálculos dei coeficiente de determinación y del error estándar en la estimación a partir de una tabla ANOVA.
En el ejemplo de Copier Sales of América se estudió la relación entre el número de llamadas telefónicas realizadas y la cantidad de copiadoras vendidas. Utilice un paquete de' Computación para determinar la ecuación de regresión de mínimos cuadrados y la tabla ANOVA Identifique tal ecuación, el error estándar de estimación y el coeficiente de determinación en la salida de computadora. De la tabla A~IOVA en dicho resultado, obtenga e! coeficiente de determinación y e! error estándar ele estimación aplicando las fórmulas (13.12) y (13.13).
SOLUCIÓN
A continuación se presenta la pantalla de resultados de Excel.
490
Utilizando la fórmula 13:12, el coeficiente de determinación es 0.576, que se obtiene mediante:
r' =
= 1 066 = 0 _576
SSR SS total
1 850
Este es el mismo valor que se calculó anteriormente en este capítulo, cuando se encontró e! coeficiente de determinación elevando al cuadrado el coeficiente de correlación. De nuevo puede decirse que la variable independiente, llamadas (Calls), explica 57.6% del cambio en la variable número de copiadoras vendidas. Si fuera necesario el coeficiente de correlación, se habría tomado la raíz cuadrada del coeficiente de determinación:
r=
W
=
Vü.576 =
0.759
Pero aún existe un problema, y éste implica el signo para el coeficiente de correlación. Recuérdese que la raíz cuadrada de un valor puede tener signo positivo o negativo. El signo del coeficiente de correlación siempre será el mismo que el de la pendiente en la gráfica. Esto es, b y r siempre tendrán el mismo signo. En este caso es positivo, por lo que el coeficiente de determinación es O. 759. El error estándar de estimación se calcula con la fórmula 13.13:
s
X
= {SSE =
y
'>!n-2
!
\
784.2 = 9.901 10-2
De nuevo, este valor es igual al que se calculó anteriormente en este capítulo. Estos valores aparecen en el resultado de computadora en Excel.
Ejercicios 31. Se presenta la siguiente tabla ANOVA: FUENTE Regresión Error Total
GL 1 13 14
SS 1000.0 500.0 1500.0
MS 1000.00 38.46
F
26.00
Regresión lineal y correlación
491
a) Obtenga el coeficiente de detenninación. b) Suponiendo una relación directa entre las variables, ¿cuál es el coeficiente de correlación? e) Determine el error estándar de estimación. 32. En el primer examen de estadística, el coeficiente de determinación entre las horas estudiadas y la calificación obtenida fue 80%. El error estándar de estimación tuvo un valor de íü. Había 20 estudiantes en la clase. Elabore una tabla ANOVA.
[13.3] .
b es la pendiente de la recta.
. .. . . . . 1. Indica la magnitud del cambio en Y' para una variación de valor 1 en X. 2. Un valor positivo para b indica una relación directa entre fas dos variables, y un cain-
,bío negativo ind1ca una relación ínversa.
492
Gapílulo 13 3. El signo de b y·eLsignn de r~.el-coetiCienté:.de.·correlación, siempre son iguales. 4.. b .se:calcula_corl'.fa siguiente ·étuéi.ción: [13.5]
D. )( es el .valor de la variable indep endi€Jf1te:
-{¡¡-~----Ef--6rrof-8stáíldár- ér8 ·eStim3.dón 'íríide !Et i./ariEiC!óh--aWetledoY·de:--1a--1ínea·de-Tegresión-;·
A. Está"n las. mismas unidades que la variable dependiente. B. Se basa en las desviaciones al cuadrado respecto de la recta de regresión. c. Valores. pequeños indican q~~ lo.spynt0s se agrupanrceq;<' de.la recta de remesión. [), Se calcula usando la 5igL1ient~ fórfT)9l¡t: · · s
·.~. f'Z{y=y;j?:_··.·¡,;y 2 -a~Y)-.b.·.·.•:.(Z.XlQ
Yf
' -::- ';_;:-__ :-<: _-
_-·-· -,
\¡
\¡
ri.C-2.
n-2
[13.7, 13.8]
:: ,_::- .>::_:-_ ··-:·_·--::::_ - . _.;>:::·::<::-··":;_-:::_ :. -:_.- . :~<~:::·_<::·--·_ -:,
\1ii~-L:éljnfEJre9_cié1_~c~~q_Cl_.~e,J_a_J~gresi9f1_:-_lh1e_al--s,,~,,:tj~Sa::'~_!'.\.J¡;¡S_,_~_i9,uik0t~S Co~s_lde-rac_ióne_S. A~ ~ara un valor dado de X, los v~lor~s de Y sedistd[juyen defort)1a norma\re~pectod9 la IÍ" pea._cte ,regr_E}S_ión'.·-} > .: :_: .·=- =-·-·-<-': :·;_·. _____,-;-_:_·_ ., _.:-:. .-::::-:. _:: ___ :.--_.--_-_·.-·_._-_,:----:,··=._-=_>___ ::.=/ .\·__ ___-, __-. ~ B~ l?· .9~$v_íap_iótJ·:e8:táp.<:l~(d.~--cad_~- u_~a;:c:Je_·:l.~s-_slist_ribLfck:t(les,-po_rma!~_s_, . es_·_l_a=_ :tnisrtia: P~ta _tq;.
i:1o.s los. valore.sp~ X; y f;ecalculap9rme<:Ji9.Pe!error estápdar d.e estimación, C~ L_Gts-. c!!3-!3V!(1cto,ri(3_S re$p~_9t? -el~ -I~ l(n~~--~,6,_:r~Qr~_S_ió,_n;_s_oh,_inq_ep,en_dí_e_ntes·,_ siri. nlílg~f,- hiÜd~~
lp r~ferenle a!Jamañoo .la.direcciórn > i . VIII. Existen dos tipos de. estim~ciones de int~ry.alps. i >• A. En uninterv~lo de cpnli~n~a, elvalc¡rmecii\>dey S
[i3.9]
... 2. La amplitucl d~Jintet\/ªl9 se ve afectad" por el n¡yel de C:olifía.n.za, la t)1ª9n.rtud del error . están_dar de_ l_¡;i_est_lrfiació_n 'Y- ef-t.Etma0o.·.d_e)a· r:nu.e¡E;t(a1· así comn._por.e;l-vaJor:de. !a-varia_ble independiente. . . . · B. En un intervalp d.e pre.dicción, elvalor individualde Y se calcula para unválqr dado de X. 1. Se ootiene por medio de fa siguiente fórmula: ·
· ·¡
·y• ~t •• . -
sy '
(X~. X.·)'·· n. ·.c+x•••-,---••~{Z. ~-)~'
·. ·1·· ·+·.· ·1ec·~·
Y.
[13~10]
2. La ditere.~q.iaenir".1~~J§/rnula$.fr3.91y·(j :J.1~).es e;·núm~(P 1••bajo•. e1.• radical: a). .El••in.teryatp.ctepré?i~cións~rti . rn.á.s :ªmB{ipgu". el •. in~e(\/al 0 .cte.. c
-
,-
"•'
.S!~#bc)l()gf~ SÍMBOLO.
tXY p
SIGNIFICADO ·Suma dé los .produclos,deXVY.
.FC)~¡\¡!A EXPRESIVA SígmaXY
Co6ffciértt8-'dif:c'Q:rreracíQh' ef] 1~. poblaoi1n Valor .calculado de Y Error.estándar d6 €stiríl8.Ción · Coeficiente _de detérrfiiílcióióíl ·;
y prima s subíndice ypulito x. ra/ci!adtado ·
493
Ejercicios deicapftulo 33~ una.ímpo~ante-.á8rdlfnea_-_sere_cci6nó l1na ~uestra_ ái8at0dcide 25 vuelos, y encontró que la co-
rrelación entr~·:e! nú.niero:de_ pasaj_e_ros y:e! peso·to:~d dE;-eq~iP?]e, _ en_!íbra_s, alm_acenado en e_J _compartí_mento ?_orr~_sp_ondiente; es-q.~~-::_Usa~~-º e,I nl_v_el:de:·si_gnificancia 0.05, ¿puede con-
c,IL1,i_r~e_ 9l!~-_§_~is_t~_ _ lll1.ª".fl~9_c;iétgJéJrrP()~_i:tiy_Et:.~.rit.~~ 1_~?. e:!.?~ y~ri?_?r~_s_?
--- '3'4~"uíl SóCfólóQo-Etfírnía Ctú8 ef-_éxitO d8-8stuéiiailié_s· érí--uña·u-nív8i-81Cfa·d_"{íl18dlCfO--p·a·r-su·.--promeCHO... de. calificaciones,_ PC) Se relaciona.con_ su ingreso__monetar!o familiar. Para una _muestra _dt:; 20 alumnos; e! coeficiente dé correlación es 0;4ü: Usando el ni ve! :de sígnlficancia O.Ol, ¿puede coricluirse·que:éxiste una_"corre!ación p6sitiva·.elitre las variables? 35. Un estudio .de 1.a Agencia de Protección Aíl!bienfal (EPA) de sstados Unidos acere.a de 12 au. to.móviles, ·mostró una correlación de 0.47 .entre. el tarnaño de! motor y su funci,onamientof Al níver de sígn_lf,i.p_a·ncia O.Oi ,,¿puede Concluirse. que hay uh?·_aS.OcJaCión pos(tiva ·entre !as Variab!e.s? ¿9~á1 . :.s _,el valor p? Interprete su. respuesta. 36. Un estudto.~e p'arttdos de.futbof s.occer uni_versítarlo._'indlc;_ó 8:~e;!a c.orrelaéión eátre e! número de. tiro.s i_rrtentados y ef·_de..g.ol_es an_otado.s, es 0'.21 pa_r.a unEL .muestra de .20 juegos. ¿Es razo-nab!e.concluir que existe una correlci.ción·posltiva e.ritre las do'S variables? Utilice el. nivel de. significancia0.05;.De!erlllineel.valorp; 37. Una íl!Uestra de 30 autoíl!óviles usados vendidos por Northcut Motors en 1998 señaló que la corre!acíón_entré·et.-.pre.cio·de-·venta. y:ei·-recorrido,en·.·mmas, fue:igua! a -0.45. Aj nlve!·d8·s_igní:. flcancia:0.05.,'.¿puede;conclu.irse que·exlste. una.·asociación·ne.gativa e.n la· población entre tas dos.variables? 38. Para-uná"_muestra de 32 cíudades grandes:dé.Estadosc.Uni_dos, .ta··c'oi'refación· entre el número m.edio de pies .·cuadrados por trabajador de oficina, y !a tasa_ mediEl'de_ la renta mensual.en e! distrito central de negocios, es -0.363. Al nivel de sígni!icancía 0.05, ¿se puede llegar a la conc!usíón de que existe._~Qª. asoyíación negati~a -~r¡ .ta _pobla~.ión_ entre !as dos. variables? 39. ¿Cuál es fa re!ació.r1_entr~ .t~ . cant_i_d~ct·g.astada pdr_ semana e.n_alimentos y el tamaño de.la fa:milia? 4Las familias .9r<::l~.?es gast?n.rná's· en .alime.n.to7?--.~0ª m.uestra de. i O famili.as en el área de Chi9ag_o .r:_ve!ó. l_~s-.?igu_J_éntEl.s_ cifras_.re:fer~.ntes al_ tamaño de".familia y !a cantídad .de dinero ·(en dólares} ga.stada en.a!inlentos,· póf:semana. 0
Tamaño de· !a famiii.a
cantidad gastada
3
$ 99 W4 151 129 1.42
6 5
6 6
Tamaño de !a familía
Ganlídad gastada
3
$111
4
74
4
9·1 1.19 91
5 3
a) Calcule el coeficiente de correlación. b} Evalúe _e.! ?º_eficien,t_~>cie: 9e.t~r_1]1irt.Etdó.n . .
cf
¿Se-puedH:conctuír que'ex!ste un·a. asoCiacíOri pdS!tiva·.-entre-!a:cantidad· g8St8:d3.:én.-cómf:..day eLtamaño. de la faíl!ilia? Utilice el nivel de signíficancia de 0.05. 40~ _Se:.~e!eécio.nó .un~.__mL_ie_stra.. de·::12 ·qas.as-.,ve.ndlc!a:? .1·a. se_rn~n8.-PáSada en·una.ciiJ,dad. de: EU_A; ¿Pu~.de ·ca_nc!u_!rse'.ctu_(3- a.:_medi~,ª. que:_.aumei:t~'1Ef e~tehsi?n. de!: i~mu.eble_ (indlcada. en mi.les. de pies cuadrados), el precio de venta (en íl!íles de dólares) auíl!ehta taíl!bi~n?
EXtéílSió11'
Exteílsió1}' (m,ih~S ~~:·~·ieS ·,
cuadrados)
1.4 1.3 1.2
Precio de iJérita (fuiléS;d!:i"dóláreS}- -.--100
no
u
105 120
1.4 1.0
80
u
105
1.1
Precio de venta (míi!is do dólares)
·110 85 105 75 70 95
494
Capítulo 13 a) Cal~ule el coefici~nte de correlación,
b) Obteng~.e.1.coefic.ient(O de determiQaci6~. ··•· •. ·. pJ · _¿~-~:-_PLI_f):de _c,oncJuk q_y,e. _ e,xís_t~:-_y_n9 :~s_o.yi8.qlq,r{p=9Sit_i_;;a:túi_tr6:.-l~:~xtens16Í\ ·de'Una ·_c_as~ y Su p.re.cip de yenfa?,L)se. el n,iv~I de 5ignifíe'1nci\l,9·º.5, 41, Un fa[Jricanté de equipos par~ ~jerci¡;ios físicos e[es ea ~~fuqiar)a relad6n elltre el. nú~ero c[e
·. . rp.0ses desde qu" s.ep?mpró.el equipo, y eLtie¡ppo ql1e se usaron 1.os aparatos la semana ¡¡n· ·-- ---('~erfor.:..-:y...
·
flBtsona ·
Meses de-pOséS_ión
Horas de:·eJerciciO
2 8 2 5
:<.-.·-_<·::···. a) Trace la
',
'-_·_,-,. __:· . ::·:_·.•_'_-: __--."-
,-_::·;-.·_··.:_·.::-··.::>.<:
informació~~n ~ndia~ram~cteslis;er~iÓn: Sean las horas de <'ljeréiciü lavariable CO'.n.•
_-,_
d~pendi,;ntei Comente acerca de la gr$fica. .. b} Determine•el c;oeficient¡; de correlación¡e int~rpretes~•r~Spuesh¡. . •··.· ·.··e) .Al·pivel.designific.ancia IJ.Qi, ¿puedec;prcluirse queexiste•·una asociación.• ~egativa. las variables? > ·.·.. ·.·. · .. ·. ·..••.•.•.· . . .·•·. . O . . ·<· . > ¡ > i 42,·.Lasiguiente ecuación de 'egr9sión-se calculó a.partiqJe unaJ]1uestra de. 2Qobs.ervacion.es:
< ·>··· .
<
·Y,~15..:5x Sehi116 (i~~SSE .valeJpo,•yss t~i0!1, ¡¡) D':'t':'rmine el.','r~or.estánctar de.es!i¡pacióQ, .· ·. /< . Y.J . . b) Estebl':'<'.C:~elcpeficientede.,teter(íl.inación.i .·"•. >> · ~). Evalúe el c9eficient~ oe.correlec.ip~, (Pre9a~ción: ¡TeQ9"Suidactoqon el sígno!J L)na tabla.ANOVA es: ..
¿loo.
<< .. ·.• . . .... >
R.egr:es.ión: Error ·_Tótal
14
500
a)· ?omp!e¡e dicha tabla. b) ¿Pe9ll.é t¡¡nie.~Q. erªJªrn"estra? ....••••..•......
CJ Det_e~íl1i_ni:!·-e,1 ·~_rror:e~t,~9_d,~r:?~_e.~tl_rn~c,1ó_ri
d) Obte~ga. el coeficiente de c!eterrnina919n. 44;-·_Lci:s_iguien_tELeS __u11a ecu8.ci,ón d_e-regresión;·
~°'t7.ü8+.o:J.6X
···••t,¿i~.Ji~nt~ 1«1~;~iciilr}díl1b1.~n $stácti;~~Hio1~: ~' x#t>.~s,··i;x';210,•í:i< 2 ~ 9~.5a,~p~ 5. a) Estime•~lvalor.deY':cuando.x=po,. •• >. h•t>•·•·.·. ········.··.>y.··.•·.··.· ·· .....· . ·. .· · o) .. D','swr0 11e un intervalo deprec!ícc:ió~de?5.<¡fopara un ~alorindividual d':'•Y,•paraX..'C. !iº· ••
45. La N~ti?~"!flighway Associatio~estu.dia lªsrel'\(Oiones.~ntr~el númerp cle.licita?ores para•un, proyeptp 9p9arretera, yJ21prop~e,ol[igae~ctor,a(fape tnás bajo cost?) para el prqyecto. [)~ Par· ticular)n\er,é;~~~ ,si· el.Qútnero; ele. 89~\oree;Anm,qnt~. o·dísminuye· elitnporte de.la· [idtación ga~ nadara, · · ·
!!egresión lineal y correlación
710
6 837
937
7242 7 263
7 540
b) e)
498
Gapi!ulo 13
Ejérctcios·9ondatospara computadora 52;Considereel conjunto dedat.(jsdébí~nes.raíc.es.·(Real $tate)t, que da información acerca de la$.casas;.-yéndidas_ en:ve~i~e:.'.fkJrida,-:du_ra~te ·el:año-_p11sado. ~) Sea eLpredo de ven!¡¡ la variable dependient~, ye! ta.maño de la casa, la variable lndepen-
9¡_!?_°-t~; _q~:~~-rrili_n_e_ _ l~:-,_~(:;_~:~?_i?n; ?~.- ~~_qr:~~í_?º·-. --~~:_tirn,~ .:_IP-~-~-i-~: _9e:.Y.~-~!a- .?-~.:u~. _i_~rn_u_e~_i: ??.º
una e.xtensfóí1éfe2 2bQ píes cuadráops. ()6tenga el inforváló de Cónflanzade 95% yél In" terval.o de predicción .de 95% para erwecio ~le venta de una casa cqn. superficie de 2 200 ple~ ?~ladrados._ _ __-_ _ b) Sea el precio de ventaf~ Variable dépe~diente, y la distancia de la 0asa al centro de la cilldad,~--1(3; _~ariabte. indepéndi_~nte; De_t_~_r111Jn~ _ !Et- ecuación. de· _r~_g_reslón. _E;stime··_el pre:ci.o:Oe venta .de un inmuebl<'fquedista20 mili.as del c.entro,Qbte~ga el interyalo de confianz~ de 95% y el intervalo de predicción de 95% para casasisituadas a 20. millas del centro de la ciudad.
. . ·... ·. · .·. •. .
·......·.....· ·.. .• . . .
.
. .....·.
.
e) ¿Se puede ~oncluir que las variables independientes."dista~cia desde el centro ,de laciu-
da.d'.'·:y;..''.p.re?io.tje_ve11_ta-'.~ _est_á_n. r¡e_g~ti~:~_mente. cq_rre!ací_onéldaf_>, y que_ ~I á_rea- tje fa _.cas~_y el- precio de venta estáp_-P_?.s_ítiV<:tl)J.ente; correlacionado_s? Utilice-el ·nivel de.-_signi_ficancía o.os, Indique el valorp de !aprueba:..·· .· ... ·. . ·.·. . . . ..• 53, Considereel.conjuiltod" cieitos debéis.bol •.\Baseba//2000),que aporta información acerca de .la temporada 2000 della UgaMayordebéisboJenEstados l)nidos. '1) Sea la V?fi~ble gependiente el núrf\ero dgjuegos.ganados,y la variable independiente, el sueldo total .en el equipo;en:rt\illon~s ciedól¡ires,•¿Puede concluirse que existe una asopiap_ iPrtpps_itl_va--etitre,.f~s;vari:qbl_e_EiJ- p_e~GrmJr:i_e._1.a ·eGuació_n._ Qe_ regresión, . .,l.nte_rprete la pendient.e, es decir el¡ valor· de b: bl'mroxirf\adamente .cuántos juegos. adicionales ganados daránun·sue.ldoa.diclonal de 5rµillqnes de.dólares? .......... b) Determine la correlaciqn entre los juegosganados y el llamado ERA, así como entre los jue' gas ganados y el "promeclio" de bateo.en .el equipo; ¿CuáHiene .la correlación más fuerte?-· ¿S_e pue~_e co_nc!_uir tjll_~·exíste_ upa:R:ºfF~l~i::;. i_8~-P?-~itiva -~-nt,r\3 _!os triunf_os y-_13! bateo _de! equipo, y una correlación ~egativao.entre los tri4~fos y el ERA? ~tilice el nivel designifican-
ci~ ?'05. · '' /<· . .
'"'•·
''>< ''•·. · • •· .•.·•·•· · ·.· · ·
. ·i <'•'•.<·<'•·
e) ·Sea el.núm~ro .dejuegps Qflnadosla~aríab.1~ dependiente, y la asistenciad.epúblic9, laya,
-- ri~_bte . --ind~p~nc:Jiente.- -¿eu~_dé~ c_onc!_uin::13-_:gue·_._1a-. ~orreláclón_.entre estas dos_ variables.: es mayor qúe O?-•Utilice el nivel de significancia 0:05• 54.Vaya al conjunto de datos de la OECD que da información sobre 2.9 países. ·• a} Sup9ngase que se quiere us.ar la población comovariabl~ independiente parapredecir el número de personas enipl.eadas Q~ variabled~pendiente). Obtenga la ecuación de regresión:a,d~c_u_ada;-_Üs~ _la_:ec~a_ción:-para pre_deéiret''empleo:en. México, donde !a. población es ... ·.·····.········¡·····... '.· ., . . • ·¡•/····.························.............········. ·'··· •• ··'b).·9()582 Encue~tr~ ~l. c.oefici~nte.de c.orr~l~cíón..entreext~nsión•·? ..,.1. paí~·.yp~oducdón . interne. U~e el nivel designificancie0,05•para probar.sí hay unacorr9la9ión positiva.entre estas dos va-.
ríables. · e) i\~fec: h~ber rel.~Sión·~?treet~.ivel ;le pl?i:Jucción y· ~.LcOnsumo de e,ner~ía?. ~p.oyesu _:- - :-· -:_~:;-:-; ---_>-r~_sp_d~~t~\?_r:r:e_~_i_d_;n.9ias'-E1Sta(ff~tlc_Els,:·---} _·'_:.:_- .-: -: ·:_\: _-'.-: · - - - _- :_\ ·:;-;,:-'--''-_ - - /:/ _550.ponsid.ere el conjúnto ?~ datos d,e escuelas (School:S), que incluye información. sbbrel0s .94 distritos escolares eri eLnoroestade Ohio: · a) ?~al.aya~iable·.indep~ndierite\elp~rcentaj~··dé far1)ille$ ..c~n···~erVici? . d8 ~sistencia .sqcial en .eh distrito escolar.y !avariebte·.ctependiente;..el n;lrf\erode estudiantes. inscritos en esed.is: frito.•••····< .<<}\i:.· ;••'Y<'. ; t~ ~~te_rrnír1e~!a_ ec_~_ació_n_.-:cte:,regr~_s_i~rk__._G?~ªtlt~·-respec_to;:a lo_s._vafores::_qu_e--en_c_Ohtró_ p·arala pe9dient~ y la intersección, ¿Son raz<)nable~? •••··... < · 2. Calcule al número ~e estudi~nt.es ¡¡n el distrito esc?l~r; en el qUe 10% de fas famílias c~:en_t_a_:-~o_n·:ayucfa.-_so~f_aL:::-_--,_-_'_<.-_,_.,._,_-:-:.-:·-.-::::- -.----_--_----:::·--_::;-.'-~,-::-'---. _,. -; . -. .. - _:,, ·· 3; ~esar\olle unint~rvalode confianza9~%y un intervalo de predi.cción de .95% pará!b-,::da9._la_s:~_es_cu_e!as_:'_qpe0tienen'·to% _ _ de famiHas·-in_scrifas en_ d_icho:programa_. b) Sea ,la variable indepen.diente latasa de asiste.ncia¡ ytavariable dependient.e, el porcen!a' je•de;elumnos qlie·aprueban, el .examen deaprovechamiento,. 1; Deté_rmine:-_ta:écuac_tóp_:-de-regr'esión:-:_comente-acerc_a_de !os vá!Ores.é¡ué obtuvo para a y b. ¿Son razonables?
•···•·.···,·:·•.•<·.•:.,•c.. . ·
Regresión lineal y correlación
499
2: §~tirn~.~fpd~c~!ll<)l~?.~ ~st[Jdiaor°'.$,tjde pasar) $1 examen de aprovechamiento si 1.a ta. ·sEl:.de.. a.sisf~~.círi-·e:s.9_0%:_ __ - ._______ __._.:-.· 3. D~sarrolle un intervalo de.confianza de 95%y un intervalo de predicción de .95%, pará et p_orc~ntaje·qye: p~sa.e! :e~,a,rnep,_de::élPr?v_eqhamiento, si !a_ tasa.de asistencia ¡;i_s:90%: é), -~I; _niy~t: _d_E:) :_~i-~n_ific_anc_ía,-0;_01/ _¿s~ p~ec:f e._,.~onc_fuk'-qu~--$xiste una _ as()ciadó_n. positiva e_ntre
-:;'_:-::·: !_~~--y-~-~X_éOt_fa\~.~,--~'.!.El~~:~--~-§ J:~~,!~t-~_Qgi_E,(_ y,,,'.'.PC?-f.~~Tlt§!j_~_._q,t/~---~~---ªPr9P.?.9_g__~D-,.~L~x.?rD§Et9.º.,9PfQY§.:-."_": chamiento'j?
·
Comandos•. par • •• . , : . .. . . · · a)(;apturarlos·datos e.n·1as,column~f(;1·.Y(;2:.~sar ~l.comancinf•fame.para iqentificar.las. variables .• Aquí se uswon los nombres Call~ (liarnadas).y Sales. (ventas.) b) Selec.cio~.ar Stat,• Basic. Sl~li¡¡.ti?sy:C.aryel
par~ 1a'.f!an\kll~ r~sl111~J
~áginaA9tJ
2. Los coma"cdO$ cie Extell ile de I'( s9n: •. / •· ·•••·•• •• •.·. a) · En e/renglón 1. ?e las oolumnasAy B,.papturar 10snpmbre.sde las variables. En losren" glones 2 a.11. delas.mismaspolurnnas,capt~rarlos?atos, b) pelecci9nar H~rr~t11i~?l~s,· j),nálisi~d~ datos y después Regresit)~· e) Aquí, en la hoja de cáleulo.>setiene,la v
Análisis de regresión y correlación múltiples
503
Introducción En el capítulo anterior se describió la relación que existe entre dos conjuntos de medidas de nivel de intervalo o de razón. Una era la variable independiente, y la otra era la variable dependiente. Se observó que si la relación entre las dos variables es lineal, la ecuación de regresión Y' .= a + bX puede predecir la.variable dependiente, Y, basándose en la variable independiente, X. Además, el coeficiente de correlación es una medida que indica si la relación es fuerte, moderada o débil. Un coeficiente cercano a+ 1.00 o a -1.00 (-0.88 o 0.88 por ejemplo) indica una relación lineal muy fuerte entre X y Y. Un coeficiente cercano a O (por ejemplo -0.12, o +0.12) indica que la relación es muy débil. El uso de una variable independiente para predecir la variable dependiente no toma en cuenta la relación de otras variables con la variable dependiente. En este capítulo se amplía el estudio de la correlación y de la regresión, examinando la influencia de dos o más variables independientes sobre la variable dependiente. Esto se denomina análisis de regresión y correlación múltiples. Se presenta primero el análisis de regresión múltiple desarrollando y explicando el uso de la ecuación de regresión múltiple, así como del error estándar de estimación múltiple. Después se mide la intensidad de la relación entre las variables independientes y la variable dependiente.
Análisis de regresión múltiple Recuérdese que en el capítulo 13 se vio que la ecuación de regresión lineal con una sola variable independiente tiene la forma Y' = a + bX. En el caso de la regresión múltiple la ecuación se amplía y puede tener más variables independientes adicionales. La forma general de la ecuación de regresión múltiple con dos variables independientes es:
son las dos variables independientes. es la intersección con el eje Y. Es la ordenada del punto de intersección con el eje Y. es la variación neta en Y por cada unidad de variación en X,. manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente, coeficiente de regresión. es el cambio neto en Y para cada cambio unitario en X2, manteniendo X 1 constante. También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente, coeficiente de regresión. La interpretación geométrica, cuando se tienen dos variables independientes y sólo una variable dependiente, es un plano de regresión ya que se están considerando tres dimensiones. El diagrama 14.1 es un ejemplo de cómo se vería una muestra de 1O observaciones.
504
Cap¡!"lo 14
DIAGRAMA 14.1
Plano de regresión con 10 puntos 1nuestralcs.
Para ilustrar la interpretación de la intersección y de los dos coeficientes de reg1·esión, supóngase que en un vehículo el rendimiento del galón de gasolina está directamente relacionado con el octanaje ele la gasolina que se utiliza (X1), e inversamente relacionado con el peso del automóvil 9<2). Considérese que la ecuación de regresión múltiple obtenida a partir de un paquete de cómputo es:
Y' = 6.3 + 0.2X1 - 0.001X2 El valor 6.3 indica que el plano de regresión intercepta al eje Y en 6.3, cuando X 1 y X2 son cero. Desde luego esto no tiene sentido', poseer un automóvil que no tiene peso (igual a cero) y usar gasolina sin ningún octanaje. Es importante tener presente que generalmente, una ecuación de regresión no se usa fuera del intervalo de los valores muestrales. La b1 = 0.2 indica que por cada aumento de 1 en el octanaje del combustible, el rendimiento del auto será de 2/1 O de milla más por galón, independientemente del peso del vehículo; esto es, el peso del vehículo se mantiene constante. El valor b 2 -0.001 indica que por cada aumento de una libra en el peso del automóvil, el rendimiento por galón de combustible disminuirá en 0.0001, independientemente del octanaje de la gasolina que se utilice. Por ejemplo, si el peso de un atomóvil es 2 000 libras y el octanaje de la gasolina es 92, el rendimiento promedio del galón de gasolina será 22.7 millas, que se obtiene de:
Y'= a+ b 1X 1 + b 2X2 = 6.3 + 0.2(92) + (-0.001)2 000 = 22.7 El valor 22.Testá én millas pcir galón. Se puede aumentar el número de variables independientes. La ecuación general de re. gresión múltiple con tres variables independientes, denotadas por X,, X 2 y X3 es:
• EÚUAC!ÓN DEREGRES!ÓN MÓLTIPLE'.coN
TRES''· .
[14.2]
.. VARíABLES INDEPENDIENTE$
Esto puede ampliarse a cualquier número (k) de variables independientes, siendo la ecuación general de regresión múltiple:
EC!JACIÓl\! DE REGRESIÓN. MÚLTIPLE CON k VM>IABLES INDEPENDIENTES
Y' = a + b1X 1+ b;x2 + b 3X3 + ... + b,(<"
[i4.3]
Como en el capítulo ·13, el método de minimos cuadrados para estimar a, b,, b2 , etc., mini111iza la su111a de los cuadrados de las desviaciones verticales respecto al plano de regre-
Análisis de regresión y correlación múltiples
505
sión. Lo mismo ocurre en la regresión múltiple. En la ecuación de regresión múltiple, la ob· tención de a, b 1 y b 2 resulta muy tediosa, aun cuando se utiliza una calculadora, debido a la gran cantidad de cálculos. Por ejemplo, con dos variables independientes hay que resolver simultáneamente, tres ecuaciones que son: ¿;y~
na + b,:zx, + b,:zx,
:zx1Y~ a:ZX1 + b1L:Xi + b2:ZX1 x2 :ZX2 Y~ a:ZX2 + b 1:ZX1 X2 + b2:ZXj Hay muchos paquetes de computación que realizan los cálculos y presentan los resulta· dos. Los paquetes MINITAB, Excel, SAS y SPSS son cuatro de los más utilizados. El formato en que dan los resultados es bastante estándar. El análisis de la regresión múltiple comienza con la descripción de una situación en la que se tienen tres variables independientes.
La empresa Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles compradores hacen con más frecuencia es: si adquirimos esta casa, ¿cuánto tendremos que pagar por la calefacción en invierno? Se le pidió al departamento de investigación de la compañía que elabore algunos lineamientos relacio· nados con los costos de calefacción para casas unifamiliares. Se consideró que el cos· to incluye tres variables: (1) la temperatura media diaria en el exterior, (2) el espesor en pulgadas del material de aislamiento térmico que se coloca en el desván, y (3) la antigüe· dad del calefactor. Para realizar esta investigación, el departamento en cuestión selec· cionó una muestra aleatoria de 20 casas vendidas recientemente. Determinó el costo de la calefacción de cada casa en el mes de enero, la temperatura exterior en la región, el espesor en pulgadas de material aislante instalado en el desván, y la antigüedad del ca· lefactor. En la tabla 14.1 se presenta la información muestra!.
IABLA
-~4;¡
Factores en el costo de la calefacción de 20 casas, en el mes de enero, para una muestra de 20 casas.
Casa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
17 18 19 20
Costo de la calefacción (dólares)
Temperatura promedio en el exterior (ºF)
Aislante térmico en el desván (pulgadas)
Antigüedad del calefactor (años)
$250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
3 4 7 6 5 5 6 10 9 2 12 5 5 4 8
6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5
5
7 8 9 7
506
Capíl"lo 14 Determine la ecuación de regresión múltiple. ¿Cuáles son las variables independientes? ¿Cuál es variable dependiente? Analice los coeficientes de regresión. ¿Qué indica el signo de los coeficientes, es decir que algunos sean positivos y otros negativos? ¿Cuál es el valor de la intersección? ¿Cuál es el costo estimado para la calefacción de una casa, si la temperatura media en el exterior es de 30 ºF, hay 5 pulg de material aislante en el desván y el calefactor tiene 1O años de antigüedad?
SOlUCIÓf~
El paquete de cómputo sistema para estadística MINITAB genera la siguiente pantalla de resultados.
l>'ii
" " iOJ :E~
:':-00
"ª 1:0
73 :;¡¡¡
"º
"
0>.5
w
"w " ",,;;o
" "w n
1\0):
"
'.';'i
m
'" ,;
~
"" g4
" ' "
~]
"
:!J_
;
" " "'
La variable dependiente es el costo de !a calefacc!ón en enero. Se tienen tres varia-_ bles independientes, la temperatura media en el exterior, el número de pulgadas de material aislante en el desván y la antigüedad del calefactor. La forma general de la ecuación de regresión múltiple con tres variables independientes es:
Y'
cionCs de trahajo. Los_ dos tercios restante~ no
son explicadós por es-- tos factores sociales.
~a+
b 1X 1 + b,X2 + b3 X3
En este caso la ecuación de regresión múltiple es Y' ~ 427 - 4.58X1 -- 14.80X2 + 6.1 OX3. El valor de la intersección es 427. Este es el punto donde la ecuación de regresión cruza al eje Y. Los coeficientes de regresión para la temperatura media exterior y la cantidad de material aislante térmico instalado en el desván son negativos. Esto no es de sorprender. Conforme aunenta la ten1peratura exterior, disn1inuye el costo de !a calefacción en una casa. Por t~:ito, se espera una relaci6n inversa. Por cada grado de aumento en la ternperatura media exterior, se espera que el costo de la calefacción disminuya $4.58 (dólares) al nes. Por tanto, si la temperatura media en Boston es 25 ºF, y en Filadelfia 35 ºF, y todo lo demás permanece sin cambios, se espera que en Filadelfia el costo sea menor por $45.80. La variable "aislante térn1ico del desván" también muestra una relación inversa: conforme aumenta la cantidad de material aislante que se instala en el desván, el costo de la calefacción de una casa disminuye. Así que es lógico que el signo de este coeficiente sea negativo. Por cada pulgada adicional de material aislante, se espera que el costo de la calefacción de una casa di~minuya $14.80 al mes, independientemente de la temperatura exterior y la antigüedad del sistema calefactor.
Análisis de regresión y correlación rmílliples
507
La variable "calefactor" 1nuestra una relación directa. Si se usa un calefactor antiguo, el costo de la calefacción aumenta. Por cada año adicional en el calefactor, se espera que el costo aumente $6.1 O al mes. El costo mensual estimado de la calefacción es $276.60, para una temperatura media en el exterior es 30 ºF durante el mes, se utilizan 5 pulgadas de material aislante en el desván y un calefactor con 1O años de antigüedad.
Y' =a + b 1X1 + b,X2 + b3X3 = 427 - 4.58(30) - 14.8(5) + 6.10(1 O) = 276.60
E! ingeniero de control de calidad de industrias Palmer deSea estimar !a resistencia a la tensión mecánica de un alamb_re de acero, en función de su diámetro exterior y el contenido de molibdeno en el acero. Para hacer un experimento, seleccionó 25 trozos de alambre, midió su diámetro exterior y determinó el' contenido de molibdeno. A· continuación midió la resistencia a la tensión de cada trozo.. ·Los resultados obtenidos en 1o·s primeros Cuatro trozos fueron:
Resi'stencla a !a tensión, (lb/pulg 2), Tranio' A B
Diámetro
Cantidad
exterior
de molibdeno {unidades),
(mm),
y
X,
x,
11
0.3 0.2 0.4 0.3
5 8 7
9
e
16
D
12
6
Con la ayuda de un paquete de cómputo, el ingeniero de control de calidad encontró que la ecuación de regresión era Y';:;: ~0.05 + 20X1 + 1X2. a)
Basándose en la ecuación, ¿cuál es la_ resistencia estimada a la tensión para un alambre de acero cuyo diámetro exterior es 0.35 mm y tiene 6.4 unidades de molibdeno? b) Interprete el valor de b 1 en la ecuación.
i. El director de 111ercaclotei::nia de una compañía (Reeves Who!esale) está estudiando las ventas mensuales. Se seleccionaron tres variables independientes como estimadores de las ventas: población regional, in9reso per cápita y tasa regiollá! ele deserilpleo. La ecuación de regresión encontrada.es (en dólares): Y'~
64 ·100 + 0.394X1 + 9.6X1 - 11 600X3
a) ¿_Cuál es e! nombre completo de.la ecuación?
b) Interprete el número 64 100. e} ¿Cuál es el monto estiinado de_ !as ventas mensuales en una región en la que hay 796 000 habitantes, el ingreso per cápita es 6 940 dólares y la tasa de desempleo es 6.0%? 2. En Thompson Machlne Works se adquirieron varias máquinas nuevas de alto dese111peílo. El departamento de producción necesita cieitos lineamientos con respecto a la capacitación necesaria para un operario. ¿Es la edad un factor importante? ¿Es importante la experiencia como operario de máquinas? A fin de explorar aún máS los factores necesarios para evaluar el desempeño con las nuevas- máquinas, se consideraron cuatro variables: X 1 = Tiempo como Operador de máquina. X2 = Puntuación obtenida en la prueba de aptitudes mecánicas. X3 = Puntuación obtenida en !a operación anterior. X4 =Edad.
508
Capitulo 14 E! trabajo con !a nueva máquina se denota por Y. Se seleccionaron aleatoriamente 30 operarios. Se recopilaron los datos de cada uno y se registró la puntuación de su desempeño con las nuevas máquinas. Algunos de los resultados son:
Tiempo
Desempeño
en la máquina nueva,
Desempeño
Puntuación
en la operación anterior,
como operario en !as aptitudes de la máquina, mecánicas,
Nombre
y
x,
x,
x,
Andy Kosin Sue Annis
112 113
12 2
312 380
121 123
52 27
La ecuación es:
Y'
~
11.6 + 0.4X, + 0.286X, + o.112x, + 0.002X,
a} ¿Cuál es el nombre completo de la ecuación? b) ¿Cuántas variables dependientes hay? ¿Cuántas variables independientes hay?
e) ¿Cómo se denomina al número 0.286? d) Con un incremento de un año en la edad ¿cuánto aumenta el desempeño estimado con la nueva máquina? e) Car! Knox solicitó trabajar en una de las máquinas nuevas. Carl ha sido operario de maquinas durante seis años, y obtuvo 280 puntos en la prueba de aptitudes mecánicas. Tiene una calificación previa de 97 en su desempeño en el oficio y 35 años de edad. Estime el desempeño de Carl en la nueva máquina. 3. Se estudió una muestra de personas mayores viudas para determinar el grado de satisfacción en su vida actual. Se utilizó un índice especial, denominado índice de satisfacción, para medir esta cualidad. Se estudiaron seis factores, que son: edad en el momento del primer matrimonio (X1), ingreso anual (X2), número de hijos vivos (X3), valor de los bienes poseidos (X4 ), estado de salud expresado como índice (X5) y cantidad promedio de actividades sociales por semana, como jugar al boliche y bailar, (XJ. Supóngase que la ecuación de regresión múltiple es:
Y'
~
16.24 + 0.017X, + o.002sx, + 42X, + o.0012x, + 0.19X5 + 26.SX,
a) ¿Cuál es e! índice estimado de satisfacción de una persona que se casó por prímera vez a los 18 años, tiene un ingreso anual de $26 500 (dólares), tres hijos vivos, bienes por $156 000, un índice de estado de salud de 141, y en promedio 2.5 actividades sociales por semana? b} ¿Qué proporcíonaría más satisfacción: un ingreso adicional de $10 000 anuales, o dos acti_vidades_sociale_s_ más por sem~na? 4. CelÍulOn, fabricante de un nuevo tipo de ais!Élílte térm.ico para casas, desea e!aborar lineamientos para constructores y consumidores respecto a los efectos que tiene en e! consumo de gas natural (1) el espesor del material aislante en el desván de una casa, y (2) la temperatura exterior. En el laboratorio se variaron el espesor del aislante y 18. temperatura. Algunos de los resultados son:
Espesor del material aislante (pulgadas),
Temperatura exterior
y
x,
x,
30.3 26.9 22.1
6 12 8
40 40 49
Consumo mensu'al de gas natural (pies cúbicos),
(ºF),
Con base en !os resultados muestrales, !a ecuación de regresión es:
Y' = 62.65 - 1.86X1 - 0.52X2 a) ¿Cuánto gas natura! esperan consumir al mes los propietarios de casas que instalan 6 pulgadas de material aislante, si !a temperatura exterior es 40 ºF?
i111álisis de regresión y omrelación m(illip!es
509
b) ¿Qué efecto tendría sobre e! consumo mensual de gas natural la instalación de 7 pulgadas de material aislante en lugar de 6 pulgadas (suponiendo que la temperatura exterior sigue
siendo 40 ºF)? e)
¿Por qué son negativos los coeficientes de regresíón b 1 y b 2? ¿Es esto lógico?
Error estándar múltiple de estimación En el ejemplo de la empresa Salsberry Realty, se estimó que el costo de la calefacción en una casa durante el mes de enero, suponiendo que la temperatura media exterior sea 30 ºF, que tenga de 5 pulgadas de material aislante en el desván y un calefactor de 1O años de antigüe· dad, era $276.60 (dólares). En esta estimación se espera tener cierto error aleatorio. La cale· facción de una casa con estos datos estadístícos, algunas veces costará más y otras costará menos. El error en esta estimación se 111ide mediante el error estándar múltiple de estimación. El "error estándar", como se le denomina normalmente, se denota por sY. 123 . Los subíndices indican que se emplean tres variables independientes para estimar el valor de Y. Recuérdese, como se vio en el capítulo 13, que el error estándar de estimación describía la Variación con respecto a !a recta de regresión. Un error estándar pequeño indicaba que los puntos estaban cercanos a la recta de regresión, mientras que un valor grande señalaba que los puntos estaban esparcidos alrededor de la recta de regresión. Este mismo concepto es válido en la regresión múltiple. Si se tienen dos variables independientes, puede pensarse en la variación respecto a un plano de regresión. Ver el diagrama 14.1. Si hay más de dos varia· bles independientes, no se tiene una interpretación geométrica de la ecuación, pero el error estándar sigue siendo una medida del "error" o variabilidad de la predicción. La fórmula para calcular el error estándar es similar a la que se utilizó en el capítulo ante· rior. Véase la fórmula 13.7. El numerador es la suma de los cuadrados de las diferencias en· tre los valores estimados y reales de la variable dependiente. En el denominador se hace un ajuste porque se están considerando varias, esto es k, variables independientes.
ERfü)R E$TÁNIJAR IVIÜJ..Tlf'lE. IJE .ESTIMACIÓN
[14.4J
donde:
Y , es Y' es n es k es
el. valor observado. el. valor estimado mediante la ecuación de regresión.
el nú111ero de observaciones en la. m_uestra. el número de variables independientes.
En el ejemplo de Salsberry Realty, k ~ 3. De nuevo se emplea el problema de Salsberry Realty como ejemplo. En la primera casa la temperatura media en el exterior era 35 ºF; la casa tenía 3 pulgadas de aislamiento térmico en el desván y el calentador tenía 6 años de antigüedad. Sustituyendo las variables de la ecuación de regresión, con estos valores, el costo estimado de la calefacción es $258.90 (dó· lares), que se obtiene de 427 c. 4.58(35)-14.80(3) + 6.10(6). fos valores Y' para las otras ca· sas se encontraron en forma similar y se presentan en la tabla 14.2. El costo real de la calefacción de la pl"imera casa es $250, en comparación con el costo estimado que es $258.90. Esto es, el error de la predicción es -$8.90, obtenido de ($250 $258.90). A la diferencia entre el costo real y el costo estimado se le llama residual. Para en· contl"ar el error estándar múltiple de estimación, se determina el residual de cada una de las casas en la 111uestra, se eleva a! cuadrado este residual y después se suman estos cuadrados de los residuales. Esta suma aparece en la esquina inferior derecha de la tabla 14.2.
510
Capítulo 14 TABLA 14.2
Cálculos necesarios para el error estándar múltiple de estimación. Temperatura
Aislamiento
Gasa
(ºF)
(pulgadas)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
3 4 7 5 5 5
Edad (años)
Costo,
y
Y'
(Y - Y')
(Y- Y')'
6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5
$250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139
258.90 295.98 176.82 118.30 91.90 246.10 335.10 307.94 264.72 176.00 26.48 139.26 352.90 231.88 70.40 310.20 76.06 192.50 218.94 216.50
-8.90 64.02 -11.82 -75.30 0.10 -46.10 19.90 -17.94 -34.72 -56.00 46.52 65.74 47.10 88.12 1.60 -38.20 17.94 -2.50 16.06 -77.50
79.21 4 098.56 139.71 5 670.09 0.01 2 125.21 396.01 321.84 1 205.48 3 136.00 2164.11 4 321.75 2218.41 7765.13 2.56 1 459.24 321.84 6.25 257.92 6 006.25 41 695.58
6 10 9 2 12 5 5 4 8 5 7 8 9 7
Total
En este problema, n = 20 y k múltiple de estimación es:
= 3 (tres variables independientes), así que el error estándar
1L(Y - Y')'
sy.123=~n-(k+1) =
41 695.58 = 51.05 20-(3+1)
¿Cómo se interpreta el 51.05? Es el "error" típico que se comete cuando se aplica esta ecuación para predecir el costo. Primero, las unidades son las mismas que las de la variable dependiente, así que el error estándar está en dólares. Segundo, si los errores se distribuyen de forma norrnal, aproximadamente 68% de los residuales deberán ser menores que± 51.05, y aproximadamente 95% deberán ser menores que± 2(51.05), o± 102.1 O. Refiérase a la segunda columna de la derecha en la tabla 14.2, la columna con el encabezado (Y - Y'). De los 20 residuales presentados en esta columna, 14 son menores que± 51.05 y todos son inferiores a± 102.10, valores muy cercanos a los lineamientos de 68% y 95%. En el capitulo 13 se utilizó el error estándar de estimación para obtener intervalos de confianza e intervalos de predicción. No se detallarán estos procedimientos para la regresión múltiple, pero se encuentran en paquetes de cómputo (software) para estadística, como MlNITAB.
Hipótesis para la regresión múltiple y la correlación 1núltiple Antes de continuar con el análisis de la correlación múltiple, se enunciarán las hipótesis en las que se basa tanto la regresión múltiple como la correlación múltiple. Como ya se observó en varios de los capitulas anteriores, es necesario identificar estas hipótesis porque si no
Análisis de regresión y correlación múltiples
Homoscedasticidad.
Autocorrelación.
511
se satisfacen íntegramente, los resultados podrían presentar un sesgo. Por ejemplo, al seleccionar una muestra se supone que todos los elementos de la población tienen una posibilidad de ser seleccionados. Si en una investigación hay que encuestar a todas las personas que esquían, pero no se toma en cuenta a aquellas mayores de 40 años porque se estima que son "demasiado viejos", se estarían sesgando las respuestas hacia los esquiadores más jóvenes. Sin embargo, debe mencionarse que en la práctica, apegarse en forma estricta a las hipótesis siguientes en problemas de regresión y correlación múltiples, relacionados con el siempre cambiante clima de la administración y economía, no siempre es posible. Pero las técnicas estadísticas que se analizan en este capítulo parecen funcionar bien, aun cuando una o más de las hipótesis siguientes no se cumplan. Incluso si los valores en la ecuación de regresión múltiple quedan ligeramente "desviados", las estimaciones basadas en la ecuación serán mejores que cualquier otra estimación que pudiera obtenerse de otra manera. Cada una de las hipótesis siguientes se analizará más detalladamente conforme se avance en el capítulo. 1. Las variables independientes y las variables dependientes tienen una relación lineal. 2. La variable dependiente es continua y por lo menos de nivel de intervalo. 3. La variación en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Esto es, (Y - Y') debe ser aproximadamente igual para todos los valores de Y'. Cuando tal sea el caso, las diferencias presentan homoscedasticidad. 4. Los residuales, calculados mediante de Y - Y', están distribuidos en forma normal con media igual a O. 5. Observaciones sucesivas de la variable dependiente no están correlacionadas. A la violación de esta hipótesis se le denomina autocorrelación. La autocorrelación se presenta con frecuencia cuando se recopilan datos sucesivamente en intervalos de tiempo. Hay disponibles pruebas estadísticas para detectar la homoscedasticidad y la autocorrelación. Para quienes estén interesados, estas pruebas se describen en textos más avanzados, como Applied Linear Statistical Modeis, por Neter, Kutner, Nachtscheim y Wasserman (4a. ed., 1996, publicada por Richard D. lrwin, lnc.).
Como se mencionó antes, los cálculos relacionados con la regresión múltiple son muy laboriosos. Por fortuna se dispone de muchos sistemas de cómputo para realizarlos. La mayor parte de los resultados se presentan en un formato bastante estándar. El cuadro que sigue, proveniente del sistema MINITAB, presentado anteriormente, es típico. Comprende la ecuación de regresión, el error estándar de estimación, el coeficiente de determinación y el análisis de una tabla de varianza. Ya se describió el significado de los coeficientes de regresión en la ecuación Y' = 427 - 4.58X1 - 14.8X2 + 6.1 OX3 • Más adelante, en este capítulo, se analizarán las columnas "Coef", "StDev" y "T" (es decir, razón t). Ahora se estudiará la tabla de análisis de varianza. A continuación se repite una parte de la pantalla de resultados de MINITAB.
512
Capilulo 14
R11grei;slon Analysls: Cost Yersi,s Temp, insulation TI>< <0g<0ooton •'1'1etion is
= 'l90 - .';.15 T;,i,p - H. 7 fo>ula<:tm>
C•>"~
r
ln•ulati
'
5~-~~
coof
0.711l-' 4. 93~
-iq_ 7rn R-~q
Soij~ce
DF
R~~r~s3ion
Rosid'1hl t
;: 17
T"':al
H
.,
Coee
" 44-4l
q30.29
-s. l'i~~
77.t";
li:04 -7.J4
"
l65l9> 47721 2'29'(,
D,000
-<:.90
o.oo~
74.
R-Sq[urlJ)
~~
~ 82597
'
29.•\2
O.
'
D~O
W07
Primero, la atención se debe centrar en la tabla de análisis de varianza. Es semejante a la tabla ANOVA que se describió en el capítulo 12. En ese capítulo la variación se dividió en dos componentes: la componente debida a los tratamientos y la componente producida por el error aleatorio. Aquí el total también se divide en dos componentes: el explicado por la regresión, es decir, las variables independientes, y el error, o variación no explicada. Estas dos categorías se identifican en la columna "Source" (fuente) .de la tabla de análisis de varianza. En el ejemplo hay 20 observaciones, así que n = 20. El número total de grados de libertad es n - 1, es decir, 20 - 1 = 19. El número de grados de libertad, en el renglón de "Regression" es el número de variables independientes. Sea k el número de variables independientes, entonces k = 3. El número de grados de libertad en el renglón del "Error" es n - (k + 1) = 20 - (3 + 1) = 16 grados de libertad. El encabezado "SS", en la parte central de la tabla ANOVA, se refiere a la suma de cuadrados, o !a variación. Variación .total= SS total= L(Y - Y) 2 = 212 916 Variación de error= SSE = L(Y - Y')' = 41 695 Variación de la regresión = SSR = SS total - SSE = 212 916 - 41 695 = 171 220 La columna con el encabezado "MS" (mean square, es decir, cuadrado medio) se obtiene dividiendo el término SS entre el término gl. Así que MSR, la regresión cuadrada media, es igual a SSR/k, y MSE es igual a SSE/[n -(k + 1)]. La forma general de la tabla ANOVA es: Fuente
g/
SS
Regfesión
k n-(k+1) n-1
SSR SSE SS total
Error Total
MS MSR MSE
= =
SSR/k SSE/[n- (k+ 1)]
f
MSR/MSE
El coeficiente de determinación múltiple, que se escribe R2, es el porcentaje de la variación que es explicado por la regresión. Es la suma de cuadrados generada por la regresión, dividida entre la suma de cuadrados totales.
COEFICIENTE DE DETERfüllNACIÓN· MÚlTIPlE
R'
=
SSR SS total
[14.5J
513
Análisis de regresión y correlación múltiples
R'
=
=
SSR SS total
= 0 _804
171 220 212 916
El error estándar mC1ltiple de estimación también puede obtenerse directamente de la tabla ANOVA.
f
. j .. 41695
SSE. ..
.
sY· 123 =Yn-(k+1) =Y[(20-(3+1)] = Estos valores, de MINITAB.
R2 = 0.804ysr_1 23 ~ 51.05,
5
1
·
·º5
aparecen también en la pantalla de resultados
~
1 1
Refiérase a la siguiente tablaANOVA FUENTE
GL
SS 10
Regresión Error
20
5
Total
24
15
4
F 10.0
MS 2.50 o. 25
1
a) ¿Cuál es el tamaño de la muestra? b) ¿Cuántas variables independientes hay? c) Calcule el coeficiente de determinación ·múltiple.
~
'----~~---~-d¡--E-va_1_úe~e-1e_r_r_o_r_e_s~ta-·n_d_a_r_m_ú_lt-ip-le_d_e_e_st_im_a_ci_ó_n_._ _ _ _ _ _~--~-
1!:'
o
•
•
r.,¡erc1c1os
--------5. Refiérase a la siguiente tabla ANOVA. ?U ENTE Regresión
GL
3rror
15 18
Total
SS 21 45 66
3
MS
F
7.0 3.0
2.33
a) ¿Cuá! es el tamaño de !a muestra? b) ¿Cuántas variables independientes hay? e) Calcule el coeficiente de determinación múltiple.
d) Determine el error estándar múltiple de estimación. 6. Refiérase a la siguiente tabla ANOVA.
FUENTE Regresión Error Total
GL 5 20 25
SS 60 140 200 .
a) ¿Cuál es el tamaño de la muestra? b) ¿Cuántas variables .ndependientes hay? e) Calcule el coeficiente de determinación múltiple. d) Calcule el error estándar múltiple de estimación.
MS 12 7
F
1.714
.
514
Capitulo 14 11'
l-
O,.P
[¡
1:
-
O/
O/
~~v~---~~-~~~?~~~~e 1~a ec~-~~~-?-~2~-., ____!r~g~-~~-~~~~,
Anteriormente, en este capítulo, se describió un ejemplo en el que una empresa (Salsberry Realty) desarrolló, usando técnicas de regresión múltiple, una ecuación para expresar el cos· to de la calefacción de una casa durante el mes de enero, con base en la temperatura media exterior, el número de pulgadas de material aislante térmico instalado en desván y ia antigüe· dad del calefactor. La ecuación pareció razonable, pero se desea verificar que el coeficiente múltiple de determinación sea significativamente mayor que cero, evaluar los coeficientes de regresión para ver cuáles no son iguales a cero, y verificar que se cumplan las hipóteis de re· gresión.
lJso de urn1 c].iagrarIDJa de dlsi:Jersió11 Hay tres variables independientes denotadas por X 1 , X2 y X3. La variable dependiente, el cos· to de la calefacción, se indica con Y. Para visualizar las relaciones entre la variable depen· diente y cada una de las variables independientes se trazaron los siguientes diagramas de dispersión.
"
o'--~~~~~-L-+
o
o.
35 Temperatura exterior
4
Aislante térmico (pulgadas)
5
10
15
Edad
De las tres variables independientes, la que muestra la asociación más fuerte con el cos· to de la calefacción es la temperatura media en el exterior. Las relaciones entre el costo y la temperatura, así como entre el costo y e! n1aterial aislante, son inversas. Esto es, a medida que aumenta la variable independiente disminuye la variable dependiente. La relación entre el costo de la calefacción y la antigüedad del calefactor es directa. A medida que ia antigüe· dad del calefactor aumenta, aumenta también el costo de la calefacción de la casa.
Una matriz de correlación también es útil para analizar los factores relacionados con el cos· to de la calefacción de una casa. ;.- __ :·
--
--_:-,,,,<.- -..-·_;-____ -
::' - - -.-·_ ..-.-, :".)':'_;
fy'Katw:U- {[e·c~:R'tél_a~i6:m-_.._ E~ __-9na·-"matÍiZ.-.~ue c0r1tíene-. los -c_oefl~terlt-es· d6 corre!~cfÓ·n ~ntreto.do.s los-.p~tEí~ de: y~ri¡¡bi!'s.
A continuación se presenta la matriz de correlación para el ejemplo del problema de Sals· berry Realty. La matriz que aparece en el lado derecho de la siguiente ventana de resultados se obtuvo usando Excel.
515
Análisis de regresión y correlación múltiples
5; "8 20
"'°5
"5
'5
1
o o o T1
'-"ít 272
"
1;Q 235 ¡jgi
20 5B
8 3
'"
11
y 30
8 5
e __¡
El costo es la variable dependiente, Y. Se está particularmente interesado en las variables independientes que tengan una fuerte correlación con la variable dependiente. Tal vez se desee desarrollar una ecuación de regresión múltiple más simple, empleando menos variables independientes; y la matriz de correlación ayuda a identificar cuáles son las variables relativamente más importantes. Como. se observa en la pantalla de resultados, la temperatura es la que tiene la correlación más fuerte con el costo: -0.81151. El signo negativo indica la relación inversa que se esperaba. La correlación entre antigüedad y costo es más intensa que entre el material aislante y el costo. También como se esperaba, la correlación entre antigüedad del calefactor y costo es directa, 0.536728. Un segundo uso de la matriz de correlación es verificar si existe multicolinealidad.
La mul.ticolineal.idad puede distorsionarel.error estándar de estimación y, por tanto, llevar a conclusiones incorrectas en cuanto a qué variables independientes son estadísticamente significativas. En este caso, la correlación entre la antigüedad del calefactor y la temperatura es la más fuerte, pero no lo es lo suficientemente grande para causar problemas. Un método práctico que se utiliza es que las correlaciones entre las variables independientes, cuyo valor está comprendido entre -0.70 y 0.70, no ocasionan dificultades. El remedio usual para la multicolinealidad es eliminar una de las variables independientes que estén fuertemente correlacionadas, y volver a calcular la ecuación de regresión.
Prueba global: verificacíonde fa validez del modelo de regresión múltiple Se puede probar la capacidad de las variables independientes X 1, X 2 •• ., Xk para explicar el comportamiento de la variable dependiente Y. Esto es: ¿Se puede estimar la variable dependiente si no se consideran as variables independientes? La prueba utilizada se conoce como prueba global. Esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a cero. En otras palabras, ¿podría la cantidad de variación explicada, R 2 , presentarse por casualidad? Para relacionar esta pregunta con el ejemplo del costo de la calefacción, se probará si las variables independientes (cantidad de material aislante en el desván, temperatura diaria me-
516
Capitulo 14 dia en el exterior y antigüedad del calefactor) son capaces de estimar en forma efectiva el costo de calefacción de una casa. Recuérdese que en una prueba de hipótesis, primero se establecen las hipótesis nula y alternativa. En el ejemplo del costo de la calefacción hay tres variables independientes. No hay que olvidar que b 1, b 2 y b 3 son coeficientes muestrales de regresión neta. Los coeficientes correspondientes en la población se representan por los símbolos ~ 1 , ~ 2 y ~ 3 . Ahora se verificará si los coeficientes de regresión neta en la población son cero. La hipótesis nula es:
Ho: ~1 = ~' = ~'=O La hipótesis alternativa es: H1: No todas las ~son O. Si la hipótesis nula es verdadera, ello implica que todos los coeficientes de regresión son cero y, lógicamente, no son de utilidad al estimar la variable dependiente (costo de la calefacción.) Si éste fuera el caso, se tendría que buscar otras variables independientes -o adoptar un enfoque diferente- para predecir los costos de calefacción de una casa. Para probar la hipótesis nula de que todos los coeficientes de regresión múltiple valen cero, se emplea la distribución F que se presentó en el capítulo 12. Se usará el nivel de significancia 0.05. Recuérdense las siguientes características de la distribución F.: Características de la distribución F.
1. Tiene sesgo positivo, con el valor critico localizado en la cola derecha. El valor crítico es el_ punto que separa la región donde se acepta H0 , de la región en la que se rechaza. 2. Se construye conociendo el número de grados de libertad en el numerador, y el número de grados de libertad en el denominador. Los grados de libertad para el numerador y para el denominador pueden encontrarse en la pantalla de resultados de MINITAB, en la tabla de análisis de varianza. A continuación se presenta esa parte de la pantalla. El número superior en la columna marcada "DF" es 3, lo que indica que hay 3 grados de libertad en el numerador. El número central en dicha columna (16) indica que hay 16 grados de libertad en el denominador. Tal cifra 16 se obtiene de n - (k + 1) = 20 - (3 + 1) = 16. El 3 corresponde al número de variables independientes.
sº''"ºe
Df
g¡
110
~
nuzc
S7D13
)l~s1tlual Enor
16
416n
Z6llG
"lo
19
21Z9H
R~gr.ossJ.o"
p
2l.9n
0.000
~1
El valor de F se encuentra mediante la siguiente ecuación.
Análisis de regresión y correlación múltiples
517
PRUEBA GLOBAL
[14.6]
SSR es la suma de cuadrados "explicados por" la regresión, SSE es la suma de cuadrados del error, n es el número de observaciones y k es el número de variables independ'1entes. Sustituyendo con estos valores las variables en la fórmula 14.6 tenemos
F
~
SSR/k SSE/[n - (k + 1)]
~
171 220/3 41 695/[20 - (3 + 1)]
~
21 9 ·
º
El valor critico de F se obtiene del apéndice G. Utilizando la tabla para el nivel 0.05, se mueve en dirección horizontal hasta llegar a 3 grados de libertad en el numerador; luego se mueve hacia abajo, hasta llegar a 16 grados de libertad en el denominador, y se lee ahí el valor crítico, que es 3.24. La región en la que H0 no se rechaza y la región donde se rechaza H0
se muestra en el siguiente ciagrama.
3.24
Escala de F
Continuando con la prueba global, la regla de decisión es: no rechazar la hipótesis nula de que todos los coeficientes de regresión son O, si el valor calculado de Fes menor o igual que 3.24. Si la F calculada es mayor que 3.24, se rechaza H0 y se acepta la hipótesis alternativa, H1• El valor calculado de Fes 21.90, que está en la región de rechazo. Por tanto, se rechaza la hipótesis nula de que todos los coeficientes de regresión mCiltiple son cero. El valor p es 0.000 según la tabla de análisis de varianza que se presentó antes, así que es muy poco probable que H0 sea verdadera. Se acepta la hipótesis alternativa, lo que indica que no todos los coeficientes de regresión son cero. Desde un punto de vista práctico, esto significa que las variables independientes (cantidad de material aislante, etc.) tienen la capacidad de explicar la variac.ión en la. variable dependiente (costo de calefacción). Ya se esperaba esta decisi.ón. Es lógico que la temperatura exterior, el grosor del. material aislante térmico y la antigüedad del calefactor tengan mucho quever con los costos de calefacción. La prueba global asegura que así es.
Evaluación de cada uno de los coeficientes de regresión Hasta ahora se ha mostrado que algunos, pero no necesariamente todos los coeficientes de regresión, no son iguales a cero y, por tanto, son útiles para las predicciones. El siguiente paso consiste en probar individualmente las variables para determinar cuáles coeficientes de regresión pueden ser O y cuáles no.
518
Capitulo 14 ¿Por qué es importante saber si alguna de las ~ es igual a O? Si una ~ puede ser cero, ello implica que esta variable independiente en particular no tienen ningún valor para explicar cualquier variación en el valor dependiente. Si hay coeficientes para los cuales no se puede rechazar Ha, se pueden eliminar de la ecuación de regresión. Ahora se realizarán tres pruebas de hipótesis: para la temperatura, para el material aislante térmico y para la antigüedad del calefactor. Para la temperatura
Para el material aislante
Ha: p.,= O H1 : ~ 1 *O
Ha: P2 = o H1 : P2 *O
Para la antigüedad del calefactor
Ha: p3 =O H1 :
p3
*O
Se probará la hipótesis al nivel 0.05. La forma en que se ha establecido la hipótesis alternativa indica que la prueba es de dos colas. El estadístico de prueba es la distribución t de Student con n - (k + 1) grados de libertad. El número de observaciones muestrales es n. Hay 20 casas en el estudio, así que n = 20. El número de variables independientes es k, que en este caso es 3. Por tanto, hay n - (j< + 1) = 20 - (3 + 1) = 16 grados de libertad. El valor crítico para t se presenta en el apéndice F. Para una prueba de dos colas, con 16 grados de libertad y nivel de significancia 0.05, se rechaza Ha si tes menor que -2.120, o mayor que 2.120. El sistema MINITAB generó la siguiente pantalla de resultados:
P~•~ic
Coe< 427.l\> -4.,SB27
u.mm
o. 7723
'
Tu~p
-s.~:i
o.ano
m,ul~ti
-l4..~31
4..754.
6.101
4.012
-3.1:1 LS2
0.1@
Cono"""º
'"
$
Cooi'.
.19.00
7.11
0.007
_J
La columna con el encabezado "Coef" da la ecuación de regresión múltiple:
Y'= 427.19 -4.5827X1 -14.831X2 +6.101X3 Interpretación del término -4.5827X1 en la ecuación: Por cada grado que aumente la temperatura, se espera que el costo de la calefacción disminuya cerca de $4.58 (dólares), manteniendo constantes las otras dos variables. La columna con el encabezado "Coef" en la pantalla de resultados de MINITAB", da el error estándar del coeficiente de regresión muestra!. Recuérdese que Salsberry Realty seleccionó una muestra de 20 casas a lo largo de la costa oriental de Estados Unidos. Si se selecciona aleatoriamente una segunda muestra y se calculan los coeficientes de regresión de la muestra, los valores no serían exactamente iguales. Si se repitiera el proceso de muestreo muchas veces se podría diseñar una distribución de muestra! de los coeficientes de regresión. La columna marcada "SE Coef" estima la variabilidad de estos coeficientes de regresión. La
Análisis de regresión y correlación múltiples
519
distribución de muestra! de Coef/SE Coef sigue la distribución t con n - (k + 1) grados de libertad. Por tanto, pueden probarse las variables independientes en forma individual a fin de determinar si los coeficientes de regresión neta son diferentes de cero. La razón t calculada es -5.93 para la temperatura, y -3.12 para el material aislante. Ambos valores t se encuentran en la región de rechazo, a la izquierda de -2.120. Así que se concluye que los coeficientes de regresión para las variables temperaturay aislante no son cero. La razón t calculada para la antigüedad del sistema calefactor es 1.52, así que se concluye que ~ 3 podría ser igual a O. La variable independiente "antigüedad del sistema calefactor" no es un predictor significativo para el costo de la calefacción, en consecuencia se puede eliminar del análisis. Se puede probar cada uno de los coeficientes de regresión usando la distribución t. La fórmula es:
La b 1 se refiere a cualquiera de !os coeficientes de regresión neta y sb 1 refiere a al desviación estándar de esa distribución del coeficiente de regresión. El cero que aparece en la ecuación se debe a que la hipótesis nula es ~ 1 =O. Para ilustrar esta fórmula vaya a la prueba del coeficiente de regresión de la vari.able independiente Temperatura. Sea b 1 el coeficiente de regresión neta. En la pantalla de resultados presentada en la página 518, se encuentra que su valor es -4.5827. sb, es la desviación estándar de la distribución muestra! del coeficiente de regresión neta de la variable independiente temperatura. También, en la pantalla de resultados de la página 518, se da su valor que es 0.7723, Sustituyendo estos valores en la fórmula 14.7:
t = E_,_~ = -4.5827 sb,
o = -5.93
0.7723
Este es el valor que se localiza en la columna "T" de la pantalla. En el autoexamen 14.3 se vuelve a hacer el ejemplo de regresión múltiple empleando MlNITAB, pero sólo se consideran dos variables, "temperatura" y "aislante". Estas dos variables explican 77.6% de la variación en el costo de la calefacción. Usando las tres variables -temperatura, material aislante y antigüedad del sistema calefactor- se explicó 80.4% de la variación. La variable adicional R 2 aumentó en sólo 2.8%, que es un incremento bastante pequeño considerando la adición de una variable independiente. En este punto se debe desarrollar también una estrategia para eliminar variables independientes. En el caso de Salsberry Realty había tres variables independientes , y una (la antigüedad) tenía un coeficiente de regresión que no era diferente de cero. Es claro que se debe eliminar esta variable. Así que se suprime y se vuelve a determinar- la ecuación de regresión. Sin embargo, en algunos casos puede no ser tan evidente cuál es la variable que se debe suprimir. Para explicar lo anterior, supóngase que se desarrolló una ecuación de regresión múltiple basada en cinco variables independientes; Se realizó la prueba global y se encontró que algunos de los coeficientes de regresión eran diferentes de cero. A continuación se probaron individualmente los coeficientes de regresión y se halló que tres eran significativos y dos no lo eran. El procedimiento preferido es eliminar la variable independiente con el valor t absoluto más pequeño, o el valor p más grande, y volver a determinar la ecuación de regresión con las cuatro ·vari'ab!és restantes. Des¡)ués, en la nueva ecuación con cuatro variables independientes, se realizan la prueba global y las pruebas individuales. Si aún hay coeficientes de regresión que no sean significativos, se suprime de nuevo la variable con el menor valor absoluto de t. Para describir el proceso de otra manera, debe eliminarse sólo una variable a la vez. Cada vez que se suprime una variable, es necesario volver a determinar la ecuación de regresión y revisar las variables restantes.
520
Capitulo 14
~~··¡J.~u.~t~D~e~x·a·~íl~le~l1~··1·~4·_·3~-··~~L~o~s~d-~at~o~s~d~e~re.•g~r-e~si·ó··n····y· ~:~r~~-la_c_i~~=~últiples
del ejemplo anterior ~obre el costo de la ca!e- - -=11
facción _se volvieron a emplear utilizando sólo l_as dos primeras_ variables independientes significativas: temperatura y mate_rial aislante. (Ver la siguiente pantalla de resultados de MINITAB.)
~,.¡ ,
a) ¿Cuál es la nueva ecuación de regresión múltiple? (La temperatura es X 1 , y el aislante, X2 .) b) ¿Cuál es el coeficiente de determinación múltiple? lnterprételo, e) ¿Cómo se puede decir que estas dos variables independientes son valiosas para predecir los costos de la calefacción? d) ¿Cuál es el valor p que corresponde al material aislante? lnterprételo.
Regression Analysls: Cost versus Te1~p. 1i1sulation TI1e toq"es.ion «N•t:1on b Cose, " 4~0 - S. IS Tt>~ll - l~. "l InsUlHion r"edictoc
Con~"°''"
··~~ I»>Ul~cj_
,
So\\•C~
~.-Sq o
UF
Re~tossion
To
14~S
" coe(
ll.04
O.OGO
-?.~~
-2.n
0.000
4.934
h
2 l7 l?
'
44.41
Q,"IOH
-l4.7l0
52.n
Resi~ll~l
Coot 490.29 -S,
TJ,.;,
R-Sq(~dj)
'
o.oM M.~''
55 105H5
1!5
F
82597
2?.·12
47721
ZOO'l
P
o.oou
212~1s
Variables cualitativas independientes Las tres variables utilizadas en el ejemplo de Salsberry Realty eran cuantitativas; es decir, te· nían naturaleza numérica. Con bastante frecuencia se desea utilizar en el análisis variables de escala nominal, como el género, si la casa tiene piscina o si el equipo deportivo era el equi· po local o el visitante. A estas variables se les denomina variables cualitativas, porque describen una característica en particular, como masculino o femenino. Para utilizar una variable cualitativa en el análisis de regresión, se emplea un esquema de variables ficticias, en el que una de las dos condiciones posibles se codifica como O y la otra como 1.
· · Y?.]"iil~l¡g fic~d-~.·••iY~ri
·
·
·
Por ejemplo, se podría estar interesado en estimar el sueldo de un ejecutivo con base en !os años de experiencia en su trabajo, y en si tiene o no estudios universitarios terminados. "Estudios universitarios" puede tomar sólo uno de dos valores: sí o no. Así que se conside· ra una variable cualitativa. Supóngase que en el ejemplo se Salsberry Realty se agrega una variable independiente "garaje". Para las casas que no tienen garaje se usa O, y para las casas que sí lo tienen se usa 1. La variable "garaje" va a ser la variable X'" Los datos de la tabla 14.3, se introducen en MINITAB.
521
Análisis de regresión y correlación múltiples
TABL/!, ·14,;j
Costo de la calefacción de una casa, temperatura 1 n1aterial aislante y presencia o no de garaje en una 1nucstra de 20 casas.
en acción
Costo,
Temperatura,
Material
y
X,
$250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
aislante, X2 3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7
Garaje,
x, o 1
o o o o 1 1
o o o 1 1 1
o 1
o 1
o o
La pantalla de resultados de MINITAB es: 'dl!J:d
:-0~1~1©fB!l11T1'1·riT Regresstcn Ana!vsls: Cost versus Tem¡>, lnsulation, Garage Tu" t
Cos<: " 394. - J.%
Conooono
39:).07 -3.9?2$ -ll.3:J4 77. ~3
T•"P InBulati. Ga~a~e
'~
Toool
Coet "'o.6sn 4.S.DO
4.00Z 22.73
o.
75 -6.07 -2.83
'·~
R-Sq{odj)
O.GOO
n.ooa O.ül2 (l.004 B4.5~
of Vo
Soutc• Rog
- U.3 In.oulOC1''" + 77.4. G5
R-S~ = 87.0'<
'll.62
AnalJ~i:<
Te~p
Coet
Ptedioto<
E>:
"' '"
"
"
l65?.íl2 27713
'"
6173•1 1732
35.0·1
ª·ªºº
zi2ns
¿Cuál es el efecto de la variable "garaje"? ¿Debe incluirse en el análisis? Para mostrar el efecto de esta variable, supóngase que se tienen dos casas exactamente iguales, una junto a la otra, en Buffalo, Nueva York; una tiene garaje, y la otra no. Ambas casas tienen 3 pulgadas de material aislante y la temperatura media exterior, en el mes de enero, en Buffalo es 20 ºF. Para la casa sin garaje, en la ecuación de regresión X4 se sustituye por cero. El costo estimado para la calefacción es $280.90 (dólares), obtenido de:
522
Capitulo 14
Y' = 394 - 3.96X1 - 11.3X2 + 77.4X4 = 394 - 3.96(20) - 1 ·1.3(3)
+ 77.4(0) = 280.90
Para la casa con garaje, en la ecuación ele regresión X4 se sustituye por 1. El costo estimado para la calefacción es: $385.30, que se obtiene de:
Y' = 394 - 3.96X1
-
11.3X2 + 77.4X4
= 394 - 3.96(20) - 11.3(3) + 77.4(1) = 358.30
La diferencia entre los costos estimados para la calefacción es $77.40 ($358.30-$280.90.) En consecuencia, se espera que el costo de la calefacción en una casa con garaje rebase en $77.40 el costo en una casa equivalente sin garaje. Se ha demostrado que la diferencia entre los dos tipos de casas es $77.40, pero ¿es significativa esta diferencia? Se realiza la siguiente prueba de hipótesis:
Ha: 13" =O H,:13,*0 La información necesaria pera responder a esta pregunta puede encontrarse en la pantalla anterior de resultados de MINITAB. El coeficiente de regresión neta correspondiente a la variable garaje es 77.43, la desviación estándar de la distribuciór muestra! es 22. 78. Se ha considerado a esta variable como la cuarta variable independiente por lo que se usa el subíndice 4. Por C1ltimo, se sustituyen en la fórmula 14.7 las variables con estos valores.
t= b 4 -0
= 77.43-o = 3 :4 0 22.78
En el análisis tenemos tres variables independientes, por lo que hay n - (k + 1) 20 - (3 + 1) = 16 grados de libertad. El valor crítico encontrado en el apéndice F es 2.120. La regla de decisión usando una prueba de dos colas y el nivel de significancia 0.05, es rechazar Ha si el valor calculado para t se encuentra a la izquierda de -2.120, o a la derecha de +2. 120. Como el valor calculado, que es 3.40, está a la derecha de 2.120, se rechaza la hipótesis nula. Se concluye que el cceficiente de regresión no es cero. La variable independiente "garaje" debe incluirse en el análisis. . ¿Se puede utilizar una variable cualitativa que pueda tomar más ele dos valores? Sí, pero el esquema de codificación se vuelve más complejo y requerirá una serie de variables ficticias. Para explicarlo mejor, supóngase que una empresa comercial está estudiando la relación entre sus ventas y los gastos de publicidad, por trimestre, durante los últimos cinco años. Las ventas son la variable dependiente, y los gastos ele publicidad son la primera variable independiente, X 1 . Para considerar la información cualitativa correspondiente al trimestre, se necesitarán tres variables independientes adicionales. La variable X2 , tomará el valor i con cada una de !as cinco observaciones correspondientes al primer trimestre de cada uno de los cinco años, y el valor O con las observaciones correspondientes a los otros trimestres. Análogamente, la variable X3 tomará el valor 1 con las cinco observaciones que se refieren al segundo trimestre, y con las observaciones que se refieren a los otros trimestres será O. La variable, X4 tom.ará el valor 1 con las cinco observaciones que corresponden al tercer trimestre, y tomará O con las observaciones. de los otros trimestres. Uría observación que no corresponda a ninguno de los primeros tres trimestres deberá corresponder al cuarto trimestre, así que ya no es necesaria una variable independiente distinta para las observaciones del cuarto trimestre.
Análisis de regresión y correlación múltiples
523
Eiercicios
------' 7. Refiérase a la siguiente información: Predictor Constante J::l
,,y2 X
'
FUENTE Regresión Error
Total
Coef
StDev
Ἴ -1 .DO
10 . OO.
12 .00 -15. 00
8.00 5.00
. 20
0.25
GL
SS
3 18 21
7,500 .DO 10 1 000
MS
F
.,o
a) Complete la tabla ANCVA b) Realice una prueba de hipótesis global utilizando el nivel de significancia 0.05. ¿Puede concluirse que alguno de !os coeficientes de regresión neta es diferente de cero? e) Realice una prueba de hipótesis para cada uno de los coeficientes de regresión. ¿Se puede eliminar alguna de las variables? 8. Refiérase a la siguiente información: Predictor Constante _..yl X
x,'
-.:r:,
x, FUENTE
Regresión Error
Total
Coef -·150
2000 -25
StDev 90
soo 30
s
s
-300 0.60
100 0.15
DF s
1,500.0
15 20
2,000.0
SS
MS
F
a) Complete la tabla ANOVA b} Realice una prueba de hipótesís global utilizando el nivel de significancia 0.05. ¿Se puede concluir que alguno de los coeficientes de regresión neta es diferente de cero? e) Realice una prueba de hipótesis para cada uno de los coeficientes de regresión. ¿Se puede eliminar alguna de las variables?
Análisis de residuales En una sección anterior se describieron las hipótesis necesarias para el análisis de regresión y de correlación. Estas hipótesis son: 1. 2. 3. 4.
Hay una relación lineal entre la variable dependiente y las variables independientes. La variable dependiente es el nivel de intervalo o de razón. Observaciones sucesivas de la variable dependiente no están correlacionadas. Las diferencias entre los valores reales y los valores estimados -esto es, los residualesestán distribuidos en forma normal. 5. La variación de los residuales es la misma para todos los valores ajustados de Y'. Es decir, la distribución de (Y - Y') es la misma para todos los valores de Y'.
Las dos últimas hipótesis se pueden verificar si se grafican los residuales. Esto es, se espera confirmar que los residuales sigan una distribución normal y que tengan la misn1a variación, ya sea que el valor de y· sea grande o pequeño. En la tabla 14.4 se presentan los datos necesarios. La columna titulada "Costo real" es el costo original de la calefacción, presenta-
524
Capítulo 14 do por primera vez en la tabla 14.1. La siguiente columna, rotulada "Costo estimado", es el costo de la calefacción de la casa, estimado mediante la ecuación de regresión. A este valor también se le conoce como el valor ajustado, y es Y'. El valor para la primera casa se encuentra sustituyendo en la ecuación de regresión los valores reales de las tres variables. Por ejemplo, según indica la tabla 14.3, para la primera casa la temperatura media en el exterior es 35 "F, la casa tiene 3 pulgadas de material aislante en el desván, y no tiene garaje. El costo real de la calefacción es $250 (dólares). y el costo estimado para la calefacción es $221.08, que se obtiene mediante:
Y' = 393.67 - 3.96(35) - 11.33(3) + 77.43(0) = 221.08 El residual se encuentra en la llltima columna, y es 28.92, que se obtiene de 250 - 221.08. Los residuales correspondientes a los otros 19 valores se calculan en forma semejante.
TABLA 'l4.4
Costos reales, costos estin1ados y residuales para el eje1nplo de Salsberry Realty.
Costo real1 Casa
y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
250 360 165 43 92 200 355 290 230 120 73 205 400 320 72 272 94 190 235 139
Costo
estimado,
Residual,
Y'
Y- Y'
221.08 310.94 171.80 88.09 79.62 218.22 363.52 330.08 208.54 153.21 43.87 224.37 335.25 271.34 65.43 335.25 84.68 222.06 184.78 195.56
28.92 49.06 -6.80 -45.09 12.38 -18.22 -8.52 -40.08 21.46 -33.21 29.13 -19.37 64.75 48.66 6.57 ·-63.25 9.32 -32.06 50.22 -56.56
.
.
Se puede usar la última columna, los residuales, para verificar la hipótesis de normalidad. La siguiente pantalla de resultados de MINITAB, muestra un diagrama de tallo y hoja y un histograma de los residuales. Las dos gráficas indican.que la distribución de los residuales es en cierto modo normal, como lo requieren las hipótesis. Para interpretar los resultados, observe que los residuales están distribuidos en clases, con un intervalo de clase 20: de -70 a -50 con punto medio -60; de -50 a -30 con punto medio -40, y así sucesivamente. Los detalles de las primeras tres clases son: Clase
Punto medio
Residuales
Conteo
-70 hasta -50 -50 hasta -30 -30 hasta -1 O
-60 -40 -20
-63.25, -56.56 -45.09, -40.08, -33.21, -32.06 -19.37, -18.22
2 4 2
Análisis de regresión y correlación m(lltiples
525
Steu·ond-Hot ~f REOll Uni< • lú
1 Leot
-O & ·O 544
-o :n -!J
Homoscedasticidad.
1.1.ílU
Las hipótesis para el análisis de regresión también requieren que los residuales permanezcan constantes para todos los valores de Y'. Recuérdese que a esta condición se le denomina homoscedasticidad. Para verificar si hay homoscedasticidad, los residuales se grafican contra los valores ajustados de Y. Es decir, se traza un diagrama de dispersión, primero se grafican en el eje horizontal los valores de la columna costos estimados "Estimated Cost" (de la tabla 14.4), y en el eje vertical se grafican los valores de los residuales de la misma tabla. El primer punto es X= 221.08 y Y= 28.92. Como no hay mayor variación alrededor de los valores grandes de Y' que alrededor de los pequeños, se concluye que no se ha violado esta hipótesis.
A continuación se presentan dos ejemplos en los que no se cumple el requerimiento de homoscedasticidad. Obsérvese que en el primer ejemplo, la gráfica de residuales tiene forma de embudo. Esto es, conforme aumentan los valores ajustados de Y, se incrementa la variación en los residuales· En el segundo ejemplo, los residuales siguen un patrón. Los residuales parecen tomar la forma de un polinomio, o de una ecuación de segundo grado.
526
Capítulo 14
c_._ _ _ _ _ _ _ _~
Y'
¿Cuáles son los problemas causados por los residuales que no muestran homoscedasticidad? Las desviaciones estándar de los coeficientes de regresión serían subestimadas (muy pequeñas), ocasionando que las variables independientes potenciales parezcan ser significativas cuando no lo son. El remedio para esta condición es seleccionar otras variables independientes o transformar algunas de las variables. Para una exposición más detallada del análisis de residuales, consúltense textos avanzados, como Appfied Linear Statistica/ Models, de Neter, Kutner, Nachtsheim y Wasserman (Richard D. lrwin, 1996).
·· R~§liilleo;·~~lc:lpíWfO. . El ~hálisi
!'.
D~ Los·.resídu~tes_ ~stán distrib_ui,dos en forma normal; E._ Obse_rvac_i~ne~_-_sucesivas__de _ la-va_riable dependi_e~te._no eStán correlacionadas.
11,
•·~aformwg!lnewl•
>
> <•···
.
r,~~~;~'1'Xqit~wy·· + e~
qÓ?
:.
b,Xk [14.3] la intersecpión con el eje Y, las literales b son los coefi~
.:·;-::~t·.·~_;:_::,.;:_)i:~J.~p~.~s de regresión mu_estral, !as_X representan. !os. v,~lores de las diferentes vadab!es inde.• r·./•····p~ndiente.s: •.;-- A:ct'fuede h.aber cualquier núm.ero de variables indepéndientes. . : ffl'l.; $.eutiljza el..crit§rio de. mínimos cuadmc)os para desarrollar 1a·ecuac)óri.. •,, •\'8+,S'! necesita una computadora para,determinaray_los diversos valores b. 1\!tJi"Y dos medidas de l_a. efectividad· de la ecuación· de regresión:
··.A.• . :~
-._,__·:._i··.•,·,_·.·••.:'_._•.·.•.;.·•.
·.·.:º_._·.·... •••·'
.:_.~J:;e.rro_r. e.s.t~n.9-~r_ IJllJltrpl~'. de_ ~s.tifTlE}_c.ió.rt_ -~?-.se.me_je;1qt:~ .ª la .ctesVi_aci.ó11· e.Stándar. Í' . Se mid~ ~n. lás mismas unidades. que la variablE> dependiente.
, ·"'• 2,:
Es difícildeterminar cuál es un valor grande y c_uál es un valor pequeño del e_rror están\ } da_r. ...•··· .... ··· ·..·. i . ' . ···.. . . . .. .· :· ,EJ.coeficie~te de deter~nina~ló~.pueqe varía,r ?esd~ Oh,~sta 1. '···· •ti ,fl
>a,
>
IV:
v.
•.·•· •r)aP;.i~~[n¡j°'~-~Qtliente~:·· ;•·,(i,•j<, 2 .,, ..••~.RiPcjipa,la,•~if~fC:ió9:·(jel,a;relaci.óp¿":••
láfa.Qla. ANOVAda lavariaci<ín Wla .variabie·dS[Jeitdiente, .explicada por 1.a ecuación de· re-
Q.f8sí6r{-- --·:_:-: -.... ·' ;: ...-·-<> . :··.·-:- . ::_··-:: .... -_·:_,-· -_.- . . -- ·-·-----.:;· .-_
Ynct·.m:~-tr,r_z -~~.-ce~r~_151srp_~ :f!l~_f:1_sfra . t9~~~-·.19~-.P?~ip!13_~;?.C>ª.f_i9_íétlteS de co.rre!aCión si.mple entre pare,;
cl,<»v~ri¡ilJl~s>
,·.·.•..•. , ... ·.
<
:
.... ··.
•
111.Unapru~b~ glb[lal.se usa para investigatslalguna de. las varíabl~s-independientes. tiene coe-• ;ficiéntes.:?e::regresi9n-.si.g'nificativos;- ....- . _. _ , . , ·. A; La hipótesis ~ul¡; es: Todos los C'oefidente_s•.de•regresión•scih•cero. B:; .:-. La; hipóte_s.is ~.lternatlvit- es:. Por. ·10·: _me11os_·un_; c.oe.ficí_~nte~:de:-_regresió11 no . es cero.
Análisis de regresión y correlación múltiples
527
C. El estadístico de prueba es la distribución F con k (el número de variables independientes) grados de libertad en.el numerador, yn - (k+ 1) grados de libertad en el denominador, donde n es el tamaño de la mueslra .
. D. La fórmula para calcular el valor del estadístico de prueba para la prueba global es:
528 1 i. Se obtlivo la siguiente pantalla ele resultados en. MINITAB.
DF
Total
5
SS 100
25
140
PrediCtür
StD8v
t:..ratio
1,_50 3·: 00
2.00 1.3-3 15.00 4.00 -2' 50 0.75
ód
CoriStant
MS
4 .00 ]·, 00.
Q
_,20
o ~2.0
O';, 05
-2 .50
1.00
3.00
'l.ºº
_a) ¿~_u_á,f_es E)Ltarn21ñ9}:le la íl1l18-~tra? b) Calcule el valor de R 2 , e} c·~1_9u!Q·0Le_rr?_l_~$-\$.nd_21r _rnµ_!ti_p!9'_:dt¡:eSfiry1aG'íó,:n. , _ :·_. ,. , _._ d} Realis_e ,una_ p~-~-1-e9·a,. 9l~ba!,,d.Ei hip9te~is para _ ~_et~-r~i_n~r si afgu~O de los c_oeficientes de ·regresi?,r1 _ e$ sí_gnif_icEitiv_o_._ _ LJtilic_e_ ~f, nlv~l-_?:El __s,iQ_n.l'fi_c_fnc/a _o_,_05. €:}, Ptu_ E;¡Qe:·_-~n. formél)ndiyic!ual __ l_o._s.,p_g~fk:i~~te_~_ d_~ _re_gre~ió_n. ¿_Perisada- en _omiUr alguna ·o' algunas var!ab=!_E1~! s_¡-..~_s a_~_í,:·¿cu~l _._o._c~1$!~?-7: _lj$ej3I.n,_iyeL de _significancia 0.05. i2 •. En una ecuación de regresión mC1ltiplek~ 5 yn.~ 20, el valor MSE es.5.10, y el SS total, 519.6.8, Al_n!ve! de significancia 0.05, ¿se puede concfuir que ni.nguno de !,a.S coHfioien_tes de regresión es O? 13. La_g_ere.nte de distrito de-Jasons,. una g_ra0 ~ad_en~:d8-tien.daS -9ª.~~-ntas al' menudeo Con ·ctescuento,'investíga por qué ciertos establecimientos'en su regi'án:.tlenen mejores-resultados que qtro.s~. . E.l!a Cree. que._h.ay·.tres _factore_8', relacJqíladO_s .. co.n las ventas, t_ota!éS: et número de-'éom-: petídoi-es en la región, la pob:ac,fón:·?_n-_e_l-.área.c_írc;undante_ y 18 canti_dad de dínero_g_ast~d.a·en _pu_bH?idad. De_ ~up_i_strit9,:t9rrrt¡;t.dq_,.p9r vartos~_c,ie_n;to_s . de tiend.as, se:tecc!onó una muestra afeatorla d8 30 tiendas. Para cada _ur\afecopi_!ó .!a. síguie:nte información:
Y= ventas totales del último año (en .miles cie dólares)
·x1-:::: núrriero de competidores en la reglón. X2 ::::: población de la zona (en millones). X3 ~ gasto en publicid¡¡cl
(~n
miles de cjólares).
Los datos n1uestra!es se:corrr8'íon e~··'~¡-: si~tem~:p~oQfamátiC-c/M1N1TAB, obteniéndo.se· .lo$ resultados qu.e-,Sigueri;
Di" 3
26
SS
MS
3050.00 2200.00
1016.67 8-tl. 62
l?:i:edi..e.t.o-r · _C.on.::j_~ant·
'.:tí:'.,
J.<1. 00
.00
~1.00
43
3-0
.-oo
0.20
.50
~~=~~~~----======"'-~c.l
3)' ¿Cüá!e~-·~6ri.'1as_V~íltás. ~:s·tírii-ac1aS del·.:e~t~bf~~(friíSílt.O··B:Yrrí~ ·sto_re,_ que t_iene:é.uat_ro Competidores, una poblaciónregional de .0.4 (400 000) y gastos ele publicidad de 30 ($30 000)? b) Calc:ule_.el.varor./1_.2 . e) Calcule el error estándar·mc1ltfp!e de estimación. d) Realice- una prueba/de hipótesis globá! para d~terrílinar.::Si .algunos de los coeficientes de regresión- no._SO(l iguafes .a·cero:-.U_se él._ nivel: de signiffcancia 0.Ó5.
Análisis .de regresión y correlación mú!líples
529
e) Efectúe pruebas de hipótesis para determinar.cuáles ele las variables independientes tie. nér¡·.coeficient.es:-de- r~gte;;ión significativos. _¿Qué variables pensaría eliminar?· Us_e el nivel de significancia 05.
o.
14. Súpónga_Se_qüe 8-¡ gerente de_vehtas de una gran compañía disfribi.Jidora de part_es_.para· automó_vHes, _dEJsea.estir,nar _fas ventas an~ale_s_ tl)ta!es, desde abrH, de una región. Según las venJ~-~- _r~~iori~-!~_~;::_t_an~p_i_~_n_ ~-u-~-~~~ :_::1s_~iri:_~~s_e_._.!~~--v:~.!~~ _ !_u~-~18,s--cl_~_._la _ ?_º~.8~-~í~'.- _ ~_i_,,_ _ c_o_? _ a~e- e_n_ -- ··ta experíehcia~- sf:fe_rícúentra-_qüe-.ras e'Stlinaaos. de··abríf d$ ·ias_ve·ntas anLrares Sañ·razonaore- · rn.:nte. e~aqtos, entonces- en años- futuros· podría util.izarse e,I .pronó.stico .de a.brí! .Para-revisar los p!a_n.es d_e pr9d~cción y.mantener el'.inventarío .corr~cto en las tíendas al menudeo. Vart.os facto.res. pare.cen _es.tar relacionados: con· tas ventas, incluyendo el número de t!endas a!: menudeo e.n la. regfón_que alm_a.cena.las_.partes comer?ia!izaclas por la compañ.ía,: el. nú:m.erod~.automóviles registrados en la zona hesta atiríl 1, y el ingreso personal tot.al para el _primert~irÍ)estre 'del_año. FinaJment~ se. sele.ccionaron cinco.variables .in.dependiente~.como .las más.importantes (de acuerdo. con e! .gerente cte·ventas.) Después se recopilaron .datos para un.. añ~. re.ci.e_nte;':Jafnbién-·se registraron tas Venta:s ~riuates totates_ en ese .año- s~gún· cada reg¡ón. Obsérvese en la tabl~ anexa que para la región 1 ~e tuvieron ·1 739 tiendas .al menudeo,. que almac;enan las parte~ de aut? de la empresa, ~~istieron 9 270 qoo automóviles registrados en la región· hasta el 1.de abril,y las ventas.para ese año fueron por $37 702 000 (dólares),
?_
Númerct.
Ventas ariualés (millones US$),
d0 ti'érid3S'.:: de. menude·o,
37)02 24.196 32.055 3.611 17.625 45.919 29.600 8J14 20.116 12.99'4
X1 .1739 1 221 1 846 120 l096 2290 1.,687 241 649 1 427
y
NúiTié~o.de .. , Ingreso automóviles personal (miles de regi.stradoS (millones), mil!ones!JS$), x, X3 9.27 85.4 5.86 60.7 68.1 8.81 3.81 20.2 10.31 33.8 11.62 95 ..1 8.96 69.3 fü3 6.28 7.77 34.9 15.1 "I0.92
Porcentaje de autnirióviles· (años);
Número de supervison:is,
3.5 5.0 4.4 4.0 3.5 4.1 4.1 5.9 5.5 4.1
9.0 5.0 7.0 5.0 7.0 13.0 15.0 11.0 16.0 "ID.O
x,
x,
Se útilizó el programa MINITl\B para generar los siguienies resultados.
.
éJ} ,()qp$i.,d.8-r~ ;,l,a;_.rTléltti~'.P~ ,,~·o~:~r~c.i?n .:9_~,~.:_s_ig.~:~: _ .l,9.~.~ y~~i-~b! t;, _tiene 1a .cor_re.!ac_ió_~ ..íJl.áS f.u-~_r~. ie. eón' fá v.áría.b!e, dep~~d.íe:~tE;_? '~¡;tS .~:orr&J_~clp_riS:s,:.ent~~:,!as. Var!abl_es indepen?ienteS~. ''tien~ 1 d~_s.~' _e:·','ingreso 1 ~, :y .entre "automóviles'! _y .'_tiendas" son: bastante fu_ertes. ¿Podría . ser esto un pr.ob!ema?..¿Cómo-se. denomina a-esta condición?
sal2s
outletS
o '.954
o ..605
0.775 0.825
'-0 .323
-o .489
0.'409 -0.4,17
0.286
0.183
0.395
outlet·S cars
o .,899
income age
bósses
cars
in come
-0;349 0.155
b) .se..obtuvó !a. siguiSnfe ·ecuación ·de-regresíón usando las .Cinco variables indepehdientes. .l()_ué,_._pgrcentajt) .de !a- .Vf;Lrf.ación· 8'S explicad.El. por !a ecuación ele regresíón?
530 equatíon is ---' O.J006J:.outl8t's + 1.-74 Cars - O. 034 bosse·s
+
0.410 income
Predictor
0.8779
2.0357
age bosses
o ..1aso
-0.03"44
2 .32, --0.lB
v'arici.nce SOURCR
DF
SS
MS
5 4 9
1593'>81
318.76 2.27
Regiession Error Tcítal
9. os·,., Í602.89
e) Realice u.n~ prueqa de hipótesis glqb
+
1.61 cars
Predictor Constant Cars Income Age
+
0.400 income
Coef -18. 924 l.6129 0.40031 ·1. 963·7
+
1.96 age
StDev
t-rat:io
3.636 0 .. 1979 o. 0156'9 o. 5846
-5 .. 20 8 .. 15 2_s_.-s2 3',36
i'l..nalysis of Variance SOtJRCE
Regressi_on Error TO tal
DF
SS
MS
3 6 9
1593.66 9.23 1602.89
531-.22: 1.54
1) A continuación se presenta un histograma, y ún diagrama de tallo y hoj¡:u;le los residuales. ¿Parece razonable la 'hipótesis de normalidad? . Histograrn of residual :N
Sterri-ánd..:leáf "Of 'r'esidual rt
lO
Leaf-Unit Midpoint -1.5 -1..0 --O .5
Count 1 1
0.5
2 2 2
1.0
1
1.5
l
-o.o
lO
= o·.10
*•
* **
**
*'
* *
1 2 2 5
-L 7 ...:.1
2
5
-o -o o
440 24
3 l
1
1
1
o
68 7
gj A continuación se presenta una gráfica.de los valores ajustados.de Y (es de'C:_ir, Y') y !os valores de los residuales. ¿Se advierte alguna violación de las hipótesis?
531
Análisis de regresión y correlación múl!iples
8
16
24
32
40Y'
Ajuste
15. El admini.stradord~un nuevo programa legal en el Seagate Technical College desea estimar el prome.dio· de calificaciones en dicho. pro·grama. Consideró que el promedio de calificaciones en bachillerato (GPA, de Grade Point Average), la puntuación en expresión oral e~ el Examen de Aptitud Académica Superior (SAT, de Scho/astic Aptitude Test); y las calificaciones de matemáticas en el SAT, serían buenos predictores (o elementos de predicción) del GPA legal. Los datos' p~ra nlreve estudiantes son:
GPA
hachilleratiJ
SAT verbal
SAT
Estudia.nte
matemáticas
legal
1
3.25 1.80 2.89 3.81 3.13 2.81 2.20 2.14 2.63
480 290 420 500 500 430 320 530 469
410 270 410 600 490 460 490 480 440
3.21 1.68 3.58 3.92 3.00 2.82 ·1.55 2.30 2.33
GPAde
2 3 4 5 6 7 8 9
Se utifizó el. programa MINITAB parage~erar el siguiente resultado: a) COnsídere· !a_ stgui8nte-.matriz _de correlación. ¿Qué variable tiene la correlación más fuerte con _!a_variable dependiente? Algunas de las correlaciones entre !_as variáb!es iridepend1entes son fuertes. ¿Parece ser esto un problema? legal
gpa
verbal
Ü-.-91-1o .616 0:437
0.609 0.636
0.599
.gpa verbal math
----Considere la siguie0te par\lalla de resultados. Calcule el coeficiente de determinación rnúl-. tiple: ·
.
.
The _iE;9réS_Sid_ri:_.:éq'uafi6ri-- .i'.s
legal_= c-c0;_41·1
+·
1.20 gpa
PrédiCt:'or Coristarit gpa
verbál inath
+
0.00163 ;7erbal -
Coef
StDev
.:...·o_·_ 4.111
o. 78-23
1.201.4
0.-2955 0.002147
0.001629' 77'0.001939
0.002074
An_a_ly-sis of Variance SOUR-CE
Regr8ssicin Error Total
0.00194 rnath
D:F 3 5 8
SS
MS
4.3595 0.7036
1.4532
5. 0.63'1
0.1407
t-ratio ~-o.
53
4.07 0.76 -o. 94
532
Capitulo 14 e) Realice una prue.ba de hipótesis global a partir de los datos de la pantalla anterior, ¿Pareé:e- que algurios· _de !o'~>" coefiC(eíltéS de r~g_res_ión no_ son iQUal9s_ a,c'ero?_ d} Realice una prueba de hipótesis con cada una de .las variables indepe~dientes. ¿Pensaría
en eliminar- !aS' variab!es··"eXpreSióll.oral" 'y "mateniáti_cas"? Sea_a-;;,, 0.05. e) Se vO!vió.-.a_ reárizar _el an.á!isis · si_fl · las_ variables· _$xpresión Cir.ar., j'_verba_I_," ·y _-·ma_temátfcas "math", Véanse lo.s resultados siguientes. Cal.cule el coeficiente de de\erminaciónc ¿Cuán-
,,_tó"hfi\/ádád6'"R·2···corfY9Sj58Ct6--ar·a'ilalíSIS··anteffr5f_T·--· - - - -
· ·
· -- - -- ·
·
'Í'he r8gressión e·qU.ation-.is legal
+·
-0.454
=
Predictor Cbnstan.t gpa A,ria:L~/sfs
Coef
StDev
---o-.4542 l'."1589
0·:.5542 ·a :·J.,"977
t'-r8.tio B2 5.86
~o-.
of variah6e
SOURCB
SS. -4:.·2,0:6,l 0.8570 5 ...á6,31'
Error
Total
f¡
1:-16 gpa
,MS
4·.....2.0"61 Ü_',·-1224
A continuación s.e prese11tanün histógrama y undiagrama detallo y.hoja de. los residuales; ¿Parecerazonaole. la suposición .de normalidad d.e los residuales? · Hi'Stogr·am: of. residual N
Midpciint ':'"'"Ü .4
-= - 9
Count
*
l 3 3 l
0.4
o
*** *** *
O.'. 6
1
*
--·O. 2
º~º
Q .·2
s.tein--:_artd-18.a~ ó'f reSidu.al 'N Le·af úriit' ,,;,, o-~ -1 O
9
.':"O 4
2
-,Q
í3'!
~o
4
o
[ ·~.....~·
2 110
00
.
1.
o
6
-~--..,-~=-~--c---c--c-ccc-,-~----c~
g) A continu~oiOn• se··~resen¿ Úhagráficade· los a!gqna.v!o!ación._a .las. hlpótesís nece.sarias_?
re~iauales \'ele ·los valores Y' .. ¿seac.lvié.rte
1.50
Y' Para los siguientes problemas se necesita utilizar un paquete decómputo·(o de sqftvvare)c
preside~te del sindicato deprofesw~s del Distrito escolar de Otsego. C).o_rnq_ préf:}.aración par,_~~-,-!_as,J~1t,u,ras __negg?_l~p.i9nes,_ a Mike= !_e gustaría in_vestigar !a es_tructura d_e !Q$__ :-~l,IE1[<:f9_$: _de! _peryona! cl()_yente· en_-_e! .Cllstrito. ___C_o.q;:;ídera que existen tres factores que afe_ctan·a( safario de-·un_profesor:.-!os.años_ ~e experíetlci~,-una ca!iflcac!ón de la efectividad en la enseñariza -asign::~éfa por er_-dlrector~_y si tiene o hó el gra_do de·maestría. Una muestra aleatoria de 20. profesores dio C()mo resul·_taclo !os datos_ siguientes:
16. El sefíor!Vlil
Sue!¡lo (miles
t\fios' Ge
da-(Iólates),
e:xperieílcia 1 X¡
V
•
21.1 23.B
19.3 33.. D
23,5 35.0 32.. 0 26.3 38S 21.7 15.7
8 5 2 15 Jl. 14
Calitlcáéióíl del di_!'eGtor,
X2
o o
51
1
60
73. 80
23.4 23.6 3·1.s
20.7 22.3
23 17 ..
.8
4 2 3
o ·1
o 54 55
90 30
44 41:8 36.7
_!2._ __
35
.9
7 22 3
Gradüde
niaesiría/
84 76 68 25
90 .62 .80 7.2
o o o o 1
o o
J a}' Desarrolle unaffiatriz cle-·corr81aCió11: ¿Qüé\iariable-indep·ehdíent_e tlehe !a-cürre!ación más fuerte con lavariabie dependiente? ¿Parece que habrá algún problema con .la multicollnea, lidad? b} q?t~n!l_Ín~_ fa_._:e~u8:~ión _?-e-_reg,r~_sJ?n,_· ¿_CL!á!:es_.e_! _sue!?_o__qüe _:s~irrt~_ría_ y~~-~-~ ~ara_ u~ p_rc,f_esqr c_q_n:.qinco_ ciil9~:-_d_~ exp_~rJe,rycia;_JIT)a_._ 6,alifícaci_ón de 6ü·otorgad_á por _el director, y sín
'ín118.$tr{a?:.. ;.;:----·. :::. >:-:.,'.~-.::--.<:
o-.·,·_._-/.o
e}_ RE3alic:e _una_ prueb_~y_d_~-;_h_ipp~~-s_i~. glo!Jat-_·_para _dét~rmin_ar_ si a_lgünos_ de l_os _cpeficientes ele regresiór,t r\eta soq;dJ_ffer~nt51~ ·oe cero. ,~tilice e!. nívelde signific~ncla 0_.0$. · d} ReaHcr::.un_a prueb_a,·cte_hip?t~sís. pa_ra !os·c~enclentes de regrestón<¿Pensarfa en eliminar alQ_L.Hlé[._de !as_ vari~.?_l._es_ ind~ppQ.dientes?. U$e·e!.níve! de.sígnific;an~la .o_.05. e} SL.su 9.onc!.usiór.1 e.,n_,:el. in,c_fsS.Cci.}/ue sL1pdn1ir una o más-variables independientes, ·efectú.e d~ rilJ.E:)VO. et an.á!ls(~ . ~in e~E.l.s. _ vaiiab!es, f) Determine los resid~ales para la ecuaciqn del inciso e). U1ilice un dlf!grama.de .talloyhoja o un· h!stogrf}rna para.veríficar que fa diStrfbucl.ón. de _los residuales $ea aprqx_imacl2tme.nte_
:fi)
riotlilaL Grafi(fue !OS reSidüa!eS c_at?ú!ado.s-en.eHnciso·(~ e'n Ü(l.'diagíama-de _diSpersión con !.os.rt3-: ,;icluales en el. eje Y, y los. válores Y' en el eje X. ¿Indica la gráfica alguna violación de las
nrpótesis .de- r$grésió_n? i 7. El. gere0te de ventas del distrito de un importante fabricante de aútomóviles esta estudiando la~ ventas: .. Esp~cíficamente !e,gust;:tría _cle.termina_r qué factores afectan .f?l. núm~ro __de 0utos vendidos ~n _una.agencia: Para.investígar, .seJecciona .ateatoriamente:i 2 .agencias. -De el fas obti~ne· ~¡· _n_úrnero· de.-vehícu!os· vend_idos el 0ltiino mes,' !os· minutos de .publ.icidad ·radiofónica-. comprados-en-dicho periodo,-.el_núm.ero de· vendedores de _tien1po completo empleados en fa agencia; y sl. ésta se localiza ·en .la: ciudad o no. La informac!_ón es la slguiente:
534
Capítulo 14
'
'
'
'
Desarrolle una matriz de correlación. ¿Qué variable independiente tiene la correlación más fuerte con la variable dependiente? ¿Parece que habrá algún problema con la multicolinealidad?
535
Análisis .de regresión y correlaciól) ll)úlliples a) Determim'1a $cl1ación deregresióíl. .
., . .
., .
.
b) ¿Cuál "set valor dé R2? Haga un comentar.io acerca.de este valor. e). Réalic~,un.a.prueba de hipótesis globaLparadeterminar si alguna de las variables independientes es diferente•deceró,
d) ~;~~:n~~~~t~~~ •. in~i~iduales ci:hipotesispara dete71nar s1 ,se puedensuprimir .vari.ables ··· e). .si sa élimi~an v"riabl~s;wuelv"a cal~pk¡r .l«ec~~ciónderegresi6.n yR 2 ••.·
19. El s~(íorStev" oougla~ !~e contratado_com.º gerente en capacitación por.unaimp6rtan.ta em-
presa. finan~iera, Qomo prríl)er proy~cto, se le picjic) que estudiara·la utilidad bruta en laind.ustri~ 9yímica.; ¿Qué·. f~ctores afeéfa~. lasytilidádes·.~-~··esa .i~dustrla? Steve·selecci 0 na al· azar u~~ .íl)Uestr~ aleatori,a ?_.,,15compañiasy 09t19ne?atos respecto a la cantidad de empleados, e!rúme.ro clediyid9qdoscon.secutiyospa9ados d~accionescomunes,.el_valor total del inVentaripallnici8del,present~año ylagaqancla bruta de cada empresa; Sps hallazgos son: ·
__ ~an~h_f_iá,:-~rút~
lnv.e·ntariQ iniCi3J -.
Dividendos
(miles de dólares), y
(miles de _dó,~r_és), X~
1800 320 820
76 3 600. 8 400 508 870
5 500 9875 6 500 9130 1 200 890 1 200 1300
24 '/'_·-,_,:_,.__;'.<:'';;'__.-.------·<->·--
.,. "·-·::- ·'·'-':<- --- -----~ ' ·.·.:-:_ :·
a) Pet_errnine)a ecuaci{¡rr de.regreiían. La· Master _Chernical •Compahy emplea 220pe'.s0nas, h~': p~g_adz-.}~4 _tjivi,cien(jo~-~-·cqn~e-c~ti_vgs __de _ acp_iones _comun~!3-_,Y Uene_ at:inít;io_ _ del·añü·un ínyen,\ari()_.yaly~
el
gr~síón n~~ ~sdWe\ente:pe Ce\º·
.· ·_· · • .. . ·.· ·_·
.· ,•. . .
. · ·••·· ·. . ·-· _. > .•
_f)~~life.q~~pru;tia.~e. hipóte~i;' ..Pª[~lo~.~oefi.cien\es•d~.-re•gr~.sió~ in.diyi9u~les_,_.•¿Pen~ar.í
>
,_·
1) Graflc¡ueen.qn .di?9\?ma d.e disp9rsióQ losresid~ale~.calc.ulad,os en.elincisoe)_losr~sldu~ lesen,_et_eje Y,y lqsyalores Y'•_en·el eje.X.· ¿lndicaJ" gráfica alguna•,viotación.a las._hipótesí~'-·:d::,regr~:sJ(?n?·.:i;_:>_(·:.-·_-_
___ -_·,:·,- - .. _:.-:-.-.'-:._·:--·- .
· -....:_: . .-.:-.- ...~.··::.-:.: _ ·:_:-.'~
___ .-·· ___ :-.. _:- -·
20 .. El Timee Qbse(Jleres un, diario .en M.etro City; Como mu.chos. periódi?os. d.e lacíudad, dicha. pubHc.ación-,está,pasando po;tlef11posJinancieros difíciles, ·La gerente·de circulación está estud_i~ndq otro~
Oade_S' simHares.,Se.usa- fa .siguiente-.notac,íón:
536
Capítulo 14 Suscr""' NL1mero de subscriptores. (en miles). P0bl '°'Población. metropolitana (en miles). Public "'·Presupuesto para publicidad
Diario
2 3 4 5 6 7 8 g
io 11 12 ·13
Su ser
Pobl
Public
lngr
Dia'rió
SU ser
Pobl
Public
lngr
37.95 37.66 37.55 38.78' 37.67 38_.2_3 36.90 38.28 38.95 39.27 38.30 38:84 38.14
588.9 585.3 566.3 642.9 624.2 603.9 57"1.9 584.3 605_Q 676. .3 5_87.4 576.4 570.8
13.2 13.2" 19.8 17..6 . 17.6 15.4 11.0 28.6 28.6 17.6 17.6 22.0 17.6
35 .. 1 34.7 34.. 8 35.1 34.6 34.8 34.7 35.3 35:1 35.G 34.9 35.4 35.0
14
38.39 37.29 39.15 38.29 38.09 37.83 39.37 3.7.81 37.42 38.83
586.5 544.0 611.1 643.3 635.6
15.4 11.0 24.2 17.6 19.8 15.4 22.0 15.4 19.8 22.0 24.2 33.0
35.5 34.9 35.0 35.3 34.8 35.1 35.3 35:1 35.1 35.3 34.7 35.8
·15
16 17 18 19 20 21 22 23 24 25
.38.33 40.24
598.9
657.0 595.2 520.0 629.6 680.0 651.2
"f¡} Det.ermine la e~üac:;ión de re·gresíó:n.'. b) Realice una pru~ba de hipótesis gldbal para determinar si algunos de los coeficientes de reQrésió.n neta-no.son iguales a c·ero. C) Realice una prÜéba para los coefi_cieiites lndívidualeS. ¿Pensaría. en elimiílar á!gunos-. de ellos? ti) Determine !Os Í'esid_uales y grafíqL_1élbs en función d_e- !oS valores ajustados. ¿Ve algún problema? · e) Desarrolle un histograma con los residuales. ¿Advierte·algunos problemas con la hipótesis de normalidad?
21. :¿Qué tan importante-:es el GPA en_ la déter'minaéión del sa_lario inicíal de los recién·- egresados de una escueta de adtnin_istración? ¿Aumen_ta:et salario por el hechO de ser egres.ado de.una escuela de administración?_Et di(ector de_urta uni_vérsidad quiere analizar esta cuestíón y para eso recolecta la siguiente información muestra!. de 15 recién egresad.os en !a primavera pasada. Estudiante :salarlo
1 2. 3
4 5 6.
7". 8 9
$31.. 5 33.0 34:.1 3.5.4 34.2, 34:0. 34.5 35.0 34:7 .32.5 31.5
GPA
3.245 3.278 3.520 3.74.0 3.520 3:421
3:41.0
32:2
3.1)30 3.355 3.080· 3.025 3:146.
34.0 32.8 31.8
3.245 3.025
Administración
o
o t l
3:465
o o
·· Los salarios estál1. dados en miles de dólares, elGPA en la escala tradicional de 4 puntos. Un 1·indlca que es· estudiante·_ es 6gr_esado-"de··una escuela de'administración; un O índica que el estudi8.hté--es· egré'sado de:'a!'gllria--otra·:escue1~.--
Análisis de regresión y correlación múltiples
537
a) Desarrolle. una matriz.de correlación. ¿Se ve alglln problema de multicolinealidad? b) Determine· la ecuación ele. regresión. Analice la ecuación de regresión, En cuánto aumenta el .salario iniciaLpor.ser egresado de una escuela de administración. ¿Cuál sería el salario ini.cial que estim.aría para un estudiante C()ll calífícacíón de 3.00 en· el GPA ·y que es egresado d_f;! una_ .t3S_cuela de cic]111inistración? e) ¿Cuál es .el val.ar de R 2? ¿Se puede concluir q~e este valor es mayor que cero?
dJ
¿_~~-~~-é!r_ía,_e::n__ l3_li_f!1i_~_?t.?.lg_L1,n,~,.cie_Ja;:; _v?r:i_~_qr~s J.11.9.E:P1ªr1.cl_i_E?_ti_tf:}_s'?,.
___ __
___
e) Grafique !os residuales. én un histograma. ¿Hay a!gl1n problema con !a hipótesis de nonnalidad? f) Grafique los valores ajustados contra los resicluales. ¿Indica esta gráfica algún problema con la homóscedasticidad? 22. El def>artamento de hipotecas en_ un gran banco está estudiando. sus préstamos _recientes. De particular interés·es conocér la forma en la que [os siguientes· factores están relacionados c_on el. ingreso familiar: el valor de la casa (en miles de dólares), el nivel de educación y .la edad del guía de la familia, (masculino= 1, femenino= O). ¿Son estas variables predictores efectivos del ingreso familiar? Se obtiene· una muestra.aleatoria de 25 préstamos re:c_ientes: Ingreso (miles de dólares)
Valor (miles de dólares)
$40.3 39.6 40.8 40.3 40.0 38.1 40.4 40.7 40.8 37.1 39.9 40.4 38.0 39.0 39.5 40.6 40.3 40.1 41.7 40.1. 40.6 40.4 40.9 40,1 38.5
$190 121 161 16"1 179 99 114 202 184 90 181 143 132 127 153 145 174 177 )88 1.53
Años de
educación
Edad
150
14 15 14 14 14 14 15 14 13 14 14 15 14 14 14 14 15 15 15 15 .16
173 163 150 139
14 15 14
53 49 44 39 53 46 42 49 37 43 48 54 44 37 50 50 52 47 49 53 58 42 46 50·
13
45
~ago de la hipoteca
$230 370 397 181 378 304 285 551 370 135 332 217 490 220 270 279 329 274 433 333 148 390 142 343 373
Sexo
o o o o o o o
o ·1
o o
o
a} Determiílé:fa··_ecu_ac_íó'hide. regrésióh. b) ¿Cuál es.elvalor de R 2? Comente acerca del mismo. e) Realice Una prueba global.de hipótesis· para déterminar.sialgunas de las variab.les independientes· son ·diferentes de.cero. el) Realice pruebas de hipótesis individuales para establecer si se puede eliminar alguna de tas: variab!eS- índep_endientes: e) Si.-S:e súpr!rrien-Va'riabli:!s",; vu"elvct"a_Ca!cufar !a-ecuación de- regresión _y R 2• 23•. EI señor Fred G. Hire es e: gerente de recursos humanos. del Centro Médico St Luke. Como parte-de:su reporte.-anua! al presidente:i de_ dicha-institución, _se: le pidió que presentara un análisis de los empleados asalaria.dos.Debido a que hay más de ·1 000 empleados, no tiene el personal_ para reunir la lnformación de cada uno. de eltos, así que-selecciona una muestra aleatoria
538
Capítulo 14 de 30. De c·ada empleado registra e!· salario mensual, antigüedad. en.St Luke, en meses, el género (í-= masculino, O= femenJ'no), y sr.e1·en1p!eádo. tiene·un puesto técriiCo o de oficina. LoS que hacen.trabajos técnicos· se codlfícan como:·1, y.fas· offcinlstas, como O.
Empleado Sal8rio An!igiledad en la muesfra mensual (US$) (e!i mes·es) 2
3 4
5 6 7 8 9 'ID
"11 12 ·13 14 15 16
n
18 19 20 21 22 23 24 25 26 27 28 29 30
$1769 1 740 1941 2 367 2 467 1 640 1756 1 706 H67 1 200 ·1 706 1 985 1555 1 749 2 056 1 729 2186 1 858 1 819 1350 2 030 2 550 1 544 1 766 1 937 1 691 1 623 1 791 2. 001 1 874
Edad
93 104 104 126 98 99 94 96 124 73 11 90 104 81 106 113 129 97 101 91 100 123 88 117 107 105 86 131 95
42 33 42 57 30 49 35 46 56 23 67 36 53 29 45 55 46 39 43 35 40 59 30 60 45 32 33 56 30
. 98
47
o
Sexo
1
o o
o o o o o
o
o 1
o
o o o
·1
o
o
o o o
1
1
o o o
1
1 1
o
1
o
a] Deterílline la' ecuación de:. regre$ión usantló ·el sa!8.fió .como. variable· depe.ndíente·, y !~s_. otías-cüatrcf.-variab!es con~lo variables inde,p·endi.entes. b) ¿Cuál es el valor de R 2 ? Come.nte respecto a este valor. e) Realice unáprueba de hip(jtesis.global para determinar si algunas de.las variable¡¡ inde.pendíentes.spn diferentes·9e cero. _ _.- _ ·.. . _ . _ dJ Re0lice una prueba individual par_a determinar si se puede eliminar alguna de tas variables independientes: $) Vye!'va a-'esta_blec_er la .ecuaci.ón de regresíón::utllizando: só_!~ l_as var_iabléS:-i_n_d€3P~ndi.entes que son s.lgnlficatívas~: ¿Cuánto_.más'gana a[: mes.- un homb_re_ que.Lina mujer? ·ll-:l.ªY alguna di·ferencia_sker·emp_!eado:-ti'ene un- puesto_técnico o _Uflo·._de--oficina? 24; Muchas regiones a lo largo de las .costas de Carolimdel Norfo y Carolina d.el Sur ha.n experi' mentad.o un rápido crecirníento_ d~ pb_b!ación-en !os-_ último~- 10-años..se.esper~ que_~l-crec.i míento continúe ·en_ los próximos io·años.:_ Es_to-ha· dado_-como resultado que muchas de las grand.es cadenas de ti_endas· d_e. abarrotes:cónStn.iyarl~.-nueyás· tiendas en la régió_n._ El diréctor_ de una de. estas tiendas está estudiando la posibilidad de ab.rirmás tienda~ en esta .región. ~I considera que existen·dos ·factores·.principales que indican ta-cantidad que !as famílías gaS;tan en a!iméntüs. Ef primero es Sú-ingreso'Y-eLótro:es el ril1niero·d_e personas.en !a fámilia. El director obtiene ta,inform·a'cióh siguiente.
53.9
Análisis de regresión y corrn!aciór. múltiples
------Alim'Elnto ----
Fari1i!ia
2 3 4 .5 6 7 8 9 1\) 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
$5.04 4.08 5.76 3.48 4.20
4.So 4 ..32 .5:04 6:12 3.24 4.80 3.24 6.60 4,92 6.60
5AO 6.00 5.40 3.36 4.68 4,32 5.52 4.56 5:40 4:80
ingreso
Tamaño
$ 73.98 54.90 94.14 52.02 65.70 53.64 79.74 68.58 165.60 64.80 '138.42 125.82 77.58 17:L36 82.08 '141.30 36.90 56.88 7'1.82 69.48 54.36 87.66 38.16. 43.74 48.42
4 2 4
2
4 3
4 5 1 3 7 2 9 3 5 4 1 3 2 5 3 7 5
El_~nme_nt.? y,el _i_~g~Sso_ estan_en-mileS'de dóláres--pcfr·'año;--y· la.variable '_'tamaño" se refiere hl1mer_o_ _de-· pers?na_s_ --~n _,,ta_-familía~
ar
a)_ Desarroll_e,; u_rí_a_ .niéltríz_de_ c?rrelae;i6n-. ¿óbs·erv_a á_l_9uno~_pro_b!emaS con la colinealidad? b) D~terí!li-~_8 _!a _ ec_uació~: (fe· regre~:iO~ .. _Analfce)a ecuación de (egreslón. ¿En cuánto aumenta 'ª-~~~tid~d_ 9,a9_!<;t_9a_ _a_liíliénto _e()_~_ un·n;i¡8-~-b_ro fld;ic,io_na! en !a fan1ilia? e} ¿,C~_ál es_ et· va!ór dtJ f?_2_? ;¿S~·puede conc!_uir: c¡ue ;este valdr-_es mayor: que cero? ti) ¿pensa'.íaen eli~inar alguna de la~ v~riables independientes? e) Grafic¡ue los residu.ales en un histograma. ¿Hay algún problema con la hipótesis de normalidad? f) Gr'afi~.u .e _l_os_ya_!o_i-e's_·_ajuS_ta_dO-s cOn.tíá loS reSidUal8S'.'-¿frldida esta· gráfica que haya afgún problema con la homoscedasticidad?
er
eierc!diosi.corn 25. El Na_t,ioíia_r _lnstltüt~- of$tan·dar<:fs_ and:!~ch,no!óg9_ p:ropor9iótiá v_ari_as-baseS de datüs para permitir-a- cual_t¡ui~r-u~uariq,_p_n:1_bar- l_~_-_PrH~isión-de:su·_paquete- d_e cómputo-- para estadística, Vaya al sitio de la Red http://WIOl~(·ítl.nistg.ov/cliv898/strclo Seleccione. la sección "Datase! Archives" y_ lüego_-!a op5ión-'_'L.i~ea,_r Regr_ession''. :-E~co_n~rará los_-_n_oíf1_b_!es de 11 b~ses de datos almacenadas en fdrmato ASOIL Selecdoneunoy ús.elo º?.n ~u paquete de cómputo paraestadístíc¡¡. Compare sus r?sultados con los resultados oficiales del gobierno. federal (de Estados Unidos). 26•. _ c_o_ ~(}_ya . _se_ m:enclo_n_?-1:1n__ r.?s ~~pí~_u!_?s:._i 2 3_;' m~chas- compañías de bienes raíces publican .sus o.ferias en la Red, Un ejemplo es la Dunes Realty Oompany, localizada en Garden Oity y ~-~_rfs_ide_~e_ach_:e_s,_e,n <:;arorí~·-ª d_el-Su_r.·Vaya al-sitió de I~ _Red !Tttp://vvvvvv.dunes.com, seleccione::_(}o_ttpge _S_eary_h;- -_desp_ués: ihdlq:ue-_ 5--h~bi~-~-Óione_s;-a_lojam_fento ·para -14 personas, frente a! rnar-_Y_--s_i_n: _pisC_íh~:
:y·-!
540
Capitulo 14 var_i$_~les indep_endientes._:i~nalice: las
ecuacione_s de regresión. ¿Pensaría en e!iniinar· afgüna de las variables independientes? ¿Cuál es el coeficiente de determinación? Si suprime alguna de !as variabl_es;.·vuelva a :determinar_ !a ecuación de regresión y ana_líce!a.
Ejercicios con.datos para computadora 21. Re!ierase alCOríJürifo aédatüs de· bienes raíces (Reiir sfate)qüe brindáinfoirriacróri·ac:ercaae
tas :casas. yeri_~lidas. e!Í _el _área de.,\ferlice, F!_orida, durante €! ú!ti_mo año. _Us8 el píecio de._venta delinmueble como variable dependiente y determine la. ecu.ación de regresión consider.ando el número de habitaciones, él tamaño de la casa, si tiene piscina, si.tiene garaje anexo, la distancia d_e la cEtsECal éentrO de la c_iudad, y.8!· número de b8_ños, como variab!e9 indepeíldientes. a} Es9ri_ba: !a· ecuació_~- de reQreSió_n ·y,anatice cada una de las varíab!es. Por ejem¡jlo, ¿l_e·. Sof_prende que. sea negativo el coeficiente de regresión para la distancia desd.e el centro de la ci.udad,? ¿_En cuánt()· ,aumenta-_,el precio ·de !a casa si·- tiene piscina o garaje? b) Determineoel valor de R2 e interprételo. e} Desar(_q!té< de .batea d9I equipo, núr¡iero df) bases robadas, cantidad de errores cometidos, ERAdel equipo, y si el campo del equipo local t.iene césped natural o artificial. a) E.s.crib~_·f~ _ ecu~ción d,e:,re_gresl.ón. _A~alic.e-cada ~na_.c;J_e-.las .variabl_es. Por ejemplo, ¿le sorprendé) gu,e e.I Coeifici_e_nte _de ~~.gr_esión_.del.J=RA ~ea>negatl~_o? ¿Cuántos. triunfos adiciona o resta._a las victoria$ de·la temporada et jugar en un,ca_mpo con césped. natu.ral? b) Deterr¡iin~ ely~lor deR 2 . lnterprétel 0, > .·.·· ·.... e) De.sar_rol!e una. ma.t.ri_~.: _ d,13 :c()rr~!agió0.: ---~pué.-. ya,ric_ilJl9s_:J~_d~pen.cl_ien.tes: tienen·.· correfcición fuerte o débil con. la váriáble dependiente? ¿Percibe algunos problemas con la multicoli, nealidad? d) Realice una pruebag10 balcon el grupp deva:!ebl?sind~p <. • > •• • . . . . . .. h) GrafiqueJos residua.les enfünciqn defos valores ajustados apartir de la ecuación de re, gresióofinal de.sarrollad.~ en .eUnciso (~· Marque los residuales en el ejevertical, y los valores ajustados en eLeje horizontaL . ·. . ·. 29. Vaya alco.njunto de. datos de)a OECD que da información•sobre censos y datos econ.órnicos y comercia.les de 29países.Sea empleo la variable dependiente, y área del país, población, producció11 in\erna, r¡iiembro o no del('Ty consumo de energía las variables. independientes. a) Escri_b_aJ_a_,eq.uación _de r:egreslón_ e in.terpret_e lo_s.:cq_eficient~s. b) ¿Cuál es el valar .del coefit;iente de dete.rminación? e) Revise la .multicolin.ealidad de las variables.independientes,
<
541
Amílísís de regresión y. correlación múltiples
dJ,- R€8.licé u!la-p\-Líe_ba glóbal á laecúación.de reg!'eS1óti. ¿Ocufre algo_ importante? ·e) Pruebe la:s/Qnifícarioiá de-cada uno-de 16S-_-cóEifici€nteS. f) Vuel.va~ hacer elanállsfs de regresión sqló con las variables independientes sígQificatívas de r_a.-e_c_u_a_ción~_'_'.··_:_;. _ - - - - - - '-.,_ .-_ - ', __ ---,_,/:-.:->::<)' t:<; g) 'Trace- un histo_grama-de-los·restduafes de su respúe:Sta en el Inciso f). ¿Parecen- esfar diS0
,, ._, -
tri_p_ui.9.?~----, ~ ~-~[l}~1r1-~\1t~?_.-'_ --: - "-:·: ·-,;_ ,.,-_,- - ,-"'<-:t-:/'. -:,:- :' -'. --:c--.:'- :::-:,_\-.-'-:
CfiJ Graliquelo.sresiqualescontralosN¡¡lores;ajµs!ad0iy.verifique.si.se satísfacen.las.hipóte~is-usua!es.
. •.•' ·>'
·; ._ .:--_ .. -
---.-.
_.
. __ ::,__-,_
.?º· Vaya al conjunts dedatqs escol'!res (Scbop/s), qu~ P(oporciona
información respecto a los 94 d_tst_rito~=.-e:sc_o_l~re~' ~n: e~.-~9r~~?te de._ OhiÓ.:--S-ea el porc_eqtaje_ de los alumnos con- apro_bación del examen< de. aprovechamiento la variable ¡jepe~dien'.e; y sean: .el sueldo promedio de los profesores, el porq~qt~je de los que reciben. ayuda soci~I en el distrito, el costo de la instrucci,ón por e~tu_dignte.-en_ !a_regió:n, y _et_ por_centaje de ClS_istencla en la misma, las variables independientes. !!) Escriba la écuadóndé regresión. Aqalice cada una de las variables. ·b) De\ermine .elyalo~ de R 2 .JnterprétélO. e) --__9ésarro!!6 üna m_~t_ri_z:_ de _q_orre_l~ci_c)q,:. ¿,q_~~-l~~-Y-?d.a,blf3S-inde_pendientes tieneri corr6!acióil Nerte o débil con la~ariable ~ependiente? ¿Percít~é algunos problemas con .la multicolínealidad? . . . . • . . . ..·. • < .•• . • >. ' . . .· .d) Realice una prueba.,glob~I parae.l C8njunt9 d_e varia?les independientes, lnterprétela. e} _R,eafl_ce'u_na: p_ru13_ba _d~ _hipé¡tes_ls para ~caga una de la~ variables independientes. ¿Pensaría en .eliminar a!gunas,dE;i. las-varia_bles?-_ S_i. es así;_ ¿c_uá!es? f} Haga nuevamente _eLanáHsis has_ta q_ue sólo· queden !os coeficientes de regresión neta Signifí catiyo,s :..lde~tifi gue.· astas . vari ª.b 1.es. g) Elabore un histcigrama o una representadorlde tallé) y hoja, de los residuales obtenidos da t_~-e~l!~qió_n _q~ -~egr~-~i.?~ ;fi_~_a!_ (je_ s~rr?!lacja __e_n e!:_inCiso_ f).·:¿E~_ razonable concluir que-se· ha satisle?ho,·la.. hipó\ee;is.de nor.mali<:lad? .,. .,. lil Grafi9.u3 los . r3sí¡ju3l.es3°'fun9ión de ·1os.• valqres.~just3dos .obtenidos. mediante la ecuación de regresión fínaLdésa'.rollada.en.~1 irícisory en,.furíción de los valores ajustados ele Y. Ma~que lqsr~sídua/es.en el ej9yertical; '{ l93yalores ajustactos en el eje horizontal.
1: • L6scófriárid6i'~e \\i1it-.íl+A8biliii 1á pánfanil de cornpacto.'.EI nordbre del archivo.esTbl14-1. b) Seleccionarstat, Regressioií; Y. cje~pués pc1lsqr en Regression. e) SeleccJ?~e(;ost.como la varia.ble. R~~ponse.(Respuesta) y Temp, lnsul (Aislamiento térmico) y41ge (Edad) como lo.s Predi9torn (El&mentos de Predicción). Después pulsar en OK.
542
Capítulo 14
Regresión lineal y correlación
543
544
Sección de repaso 5
Repaso de los capítulos i 3 ~ 14 La regresión y correla.ción simples estudian la relación entre dos variables.
La regresión y correlación múltiples estudia la relación entre dos o más variables independientes y una variable dependiente.
Esta sección es un repaso de los principales conceptos y térmínos presentados en los capítulos í 3 y í 4. En el capítulo i 3 se observó que la intensidad de la relación entre la variable independiente y la variable dependiente 'puede medirse por medio del coeficiente de correlación. Lar de Pearson (ideada por Karl Pearson) puede tomar cualquier valor entre -1.00 y +1.00, inclusive. Los coeficientes -1.00 y+ i .00 indican una relación perfecta, y O indica que no hay relación. Un valor cercano a O, como-0.14 o 0:14, indica una relación débil. Un valor cercano a-1 o a +i, como0.90 o +0.90,. indica una relación fuerte. Al elevar r al cuadrado se obtiene el coeficiente de determinación, también denominado r 2 , que indica la magnitud de la variación total en la variable dependiente, que es explicada por la variable independiente. De manera semejante, la intensidad de la relación entre varias variables independientes y una variable dependiente se mide por inedia del coeficiente de determinación múltiple, R 2 , el cua! mide la magnitud de la variación en Y que es explicada por medio de dos o más variables independientes. La relación lineal en el caso simple con una variable independiente y una variable dependiente se describe por medio de la ecuación Y' ;:;:: a+ bX. Con tres variables independientes, X1 , X2 y X3 , !a ecuación de regresión ml1ltiple muestra! es:
Y';:;:: a+ b 1X1 + b 2X2 + b 3X3
La computadora es indispensable en la regresión y en la correlación múltiples.
Encontrar los valores de b 1 , b 2, b 3, ... , bk implicaría horas de tediosos cálculos. Por fortuna, este tipo de problema puede resolverse con rapidez utilizando uno de los muchos paquetes estadísticos y de hojas de cálculo dispon'1bles para computadora. Diversas medidas, tales como el coeficiente de determinación, el error estándar múltiple de estimación, los resultados de la prueba global y la prueba para las variables individuales, aparecen en la salida de la 111ayoría de los paquetes de computación para estadística.
Glosario Capitulo 13 Análisis de correlación Grupo de técnicas estadísticas empleado para medir la intensidad de la relación entre dos variables. Coeficiente de correlación Medida de la intensidad o fuerza de asociación entre dos variables. Se calcula mediante la siguiente fórmula:
n(2XY) - (2X)(:ZY)
r ~ -:-Vfrl7Dr.[n=(:=2=:X:= 2)=-=(:=2=X=:)2J"'[1=:1(2.: :':c"Y=:2~)'=_=:(2.:c:c,Y=:):= 2]
[13.i]
Coeficiente de determinación Proporción de la variación total en la variable dependiente que es explicada por la variable independiente. Puede tomar cualquier valor entre O y +1.00, inclusive. Un coeficiente de 0.82 indica que 82% de !a variación en Y se debe a X. Este coeficiente se calcula elevando al cuadrado el coeficiente de correlación, r. Diagrama de dispersión Gráfica para representar la relación entre dos variables. Ecuación de regresión lineal Expresión matemática que define la relación entre dos variables. Tiene la forma Y' ;:;:: a + bX. Se emplea para pronosticar Y con base en un valor de X seleccionado. Y es la variable dependiente y X !a variable independiente. Error estándar de estimación Mide la dispersión de los valores de Y rea!es con respecto a la recta de regresión li-
neal. Se expresa en las mismas unidades que la variable dependiente. Método de mínimos cuadrados Técnica que se emplea para obtener la ecuación de regresión minimizando la suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores pronosticados de Y. Prueba de significancia de r Fórmula que permite responder a Ja pregunta: ¿Es, la correlación en la población de la que se obtuvo la muestra, igual a cero? El estadístico de prueba es t, y el nl1mero de grados de libertad es n - 2:
[13.2]
Capitulo 14 Autocorrelación Correlación de residuos sucesivos. Esta condición ocurre con frecuencia cuando en el análisis interviene la variable tiempo. Ecuación de regresión múltiple La relación entre varias variables independientes y una variable dependiente, expresada en 'forma de una ecuación. La forma general es Y' ;: : : a + b 1X1 + b,)<2 + b 3X3 + ... + bJ
545
Repaso de los cap¡tulos 13y14 el mlsmo para todos !os valores ajustados de !a variable dependiente.
Matriz de correlación Una lista de tocios los posibles coeficientes de correlación simples. Una matriz de correlación con1prende las con·elaciones entre cada una de las variables independientes y la variable dependiente, así corno aquéllas entre todas las variables dependientes. Mu!tico!lnealidad Condición que se presenta en el análisis de regresión 111t'.1ltiple si las variables independientes están correlacionadas entre sí.
Residual Diferencia entre el valor rea\ de la variable dependiente y el valor estimado de la variable dependiente, es decir Y- Y'. Varlab!e cualitativa Variable de nivel nominal que puede adoptar solamente uno de dos valores posibles. Por ejemplo, una persona se considera como empleada o dese111pieada.
Ejercicios Parte 1- llene los espacios en blanco y analice las rns¡:mestas i. La intensidad ele la relación entre un conjunto de variables independientes X y una variable dependiente Y se mide mediante _ _ __ 2. Se calculó que un coeficiente de correlación era -0.90. Comente este resultado. 3. Lar de Pearson obtenide en un problema con 60 pares de datos fue igual a 0.40. Comente este resultado. ¿Es, la correlación en la población, cero? Proporcione alguna evidencia. 4. En un problema en el que se tiene una variable independiente y una dependiente se obtuvo que el coeficiente de determínación era 0.38. ¿Qué significa esto? 5. ¿Cuál es la relación entre el coeficiente de correlación y el coefíciente de determinación? Los ejercicios del 6 a! 1O se basan en la tabla que sigue. La división de contabilidad de una gran cadena de tiendas departamentales intenta pronosticar la utilidad neta en cada una de las tiendas, con base en el número de empleados de éstas, los gastos generales, etc. Algunos datos estadísticos provenientes de algunos de los establecimientos son:
Tienda
Utilidad neta (miles de dólares)
Número de empleados
$846 513
143
2
110
Costo (miles de dólares)
Tasa promedio
$79 64
69 50
Pérdidas por robo (miles de dólares)
$52
45
6. La variable dependiente es _ __ 7. La ecuación general en este problema es _ _ _ _ _ __ 8. La ecuación de regresión ml1ltíple obtenida es: Y'= 67 + 8X_1 - 1OX2 + 0.004X3 - 3)(4 • ¿Cuáles son las ventas pronosticadas para una tienda con 112 empleados, $65 000 (dólares) de gastos generales, 50% de tasa de 1novimiento y $50 000 de pérdida por robo? 9. Suponga que se obtiene que R 2 es 0.86. Explique este valor. 10. Suponga que el error estándar múltiple ele estimación fue 3 (en miles de dólares). Explique qué significa esto en este problema.
Parte 11 ~ Problemas 11. Unas empresas que venden equipos de impresfón rápida en el área comercial del centro de una ciudad gastan la mayoría de su presupuesto para publicidad en anuncios colocados en las paradas de autobús. En un proyecto de lnvestigación se quieren pronosticar las ventas mensuales con base en la cantidad anual gastada para colocar los anuncios. De una muestra de estas en1presas se obtuvieron los gastos en publicidad y ventas siguientes (1ndd = miles de dólares):
546
Sección de repaso 5
Cantidad anual gastada Ventas en publicidad en las mensuales paradas de autobús (miles de dólares) Firma (miles de dólares)
a) b) e} d)
A B
2
e
5
D E
3
10 40 30 50 20
4 7
Elabore un diagrama de dispersión. Determine el coeficiente de correlación. ¿Cuál es el coeficiente de determinación?
Determine la ecuación de regresión. e} Estime las ventas mensuales de una empresa que gasta $4 500 dólares en los anuncios en las paradas de autobús. t) Resuma los resultados. 12. Se da el siguiente resultado de ANOVA: SOURCE
Sum of Squares
DF
MS
1050.8
4
262 .70 4 .19
Regression
Error
83.8
20
Total
1134.6
24
Predictor
Coef 70 .06
Constant
x, x, x,
0.42 0.27 0.75 0.42
""
St .Dev.
t-ratio
2 .13 O. 17 o. 21 o .30 o .07
32.89 2 .47
1.29 2.50 6.00
a) Calcule el coeficiente de determinación. b) Calcule el error estándar mllltiple de estimación. e) Realice una prueba de hipótesis para determinar si algunos de los coeficientes de regresión netos son diferentes de cero. d} Realice una prueba de hipótesis para los coeficientes de regresión individual. ¿Pueden descartarse algunas de las variables?
it
~~a~f:Gn1~~
Bamik
Refiérase a los datos del Century National Bank. Utilizando
el saldo de las cuentas de cheques como variable dependiente, y como variables independientes el nl1mero de transacciones en cajeros automáticos, la cantidad de otros servicios utílizados, si una persona tiene o no tarjeta de débito, y si paga intereses en alguna cuenta. Redacte un informe que indique cuáles de !as variables parecen estar relacionadas con el saldo de la cuenta y qué tan bien explican la variación en los saldos de !as cuentas. ¿Se deben utilizar en el análisis todas las variables independientes propuestas, o se pueden descartar algunas?
B.
aíldl Pi.ssf.Dci.ates:
IE!
para eritregar
médii::;[j!g
La firma Terry and Associates es un centro especializado en pruebas médicas ubicado en Denver, Colorado. Una de sus fuentes principales de ingreso es un equipo utilizado para medir cantidades elevadas de plomo en la sangre. Las personas que trabajan en talleres automecánicos, las que trabajan en la industria delown care, y los pintores de casas comerciales, están expuestos a cantidades elevadas de plomo, por lo que deben ser sometidos en forma aleatoria a esta prueba. Estas pruebas tienen un costo elevado, por lo que los equipos se entregan a diversos sitios, en toda a región de Denver, conforme son requeridos.
547
Repaso de los capítulos 13y14 A Kathleen Terry, la propietaria, le preocupan los gastos relacionados con cada entrega. Para investigar este punto, reunió información de una muestra aleatoria de 50 entregas recientes. Los factores a considerar como relacionados con los gastos de entrega de un equipo son:
Número Costo (en de muestra dólares)
El tiempo transcurrido entre el momento en el que se hace el pedido y aquel en el que está listo para la entrega. Entrega El tiempo real de transporte de la planta al
Preparación
cliente. Millaje
Número
El recorrido (en millas) desde la planta hasta el cliente.
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Millas
Costo (en
dB"muestra dólares) $32.60 23.37 31.49 19.31 28.35 22.63 22.63 21.53 21.16 21.53 28.17 20.42 21.53 27.55 23.37 17.10 27.06 15.99 17.96 25.22 24.29 22.76 28.17 19.68 25.15 20.36
Preparación
Entrega
ret:orridaS
10 11 6 9 8 9 9 10 13
51 33 47 18 88 20 39 23 20 32 35 23 21 37 25 15 34 13 12 41 28 26 54 18 50 19
20 12 19 8 17 11 11 10 8 10 16 9
10
5 7 9 7 9 15 13 8 12 6 3 4 9· 7 6 9
10
16 12 6 15 4 4 14 13 10 16 8 13 7
. '
'
1
..
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
21.16 25.95 18.76 18.76 24.29 19.56 22.63 21.16 21.16 19.68 18.76 17.96 23.37 25.22 27.06 21.96 22.63 19.68 22.76 21.96 25.95 26.14 24.29 24.35
Preparación
3 10
12 8 7 2 8 5 11 5 5 5 10
6 8 9 8 7 8 13 10 8 8
3
Entrega
19 45 12 16 35 12 30 13 20 19 14 11 25 32 44 28 31 19 28 18 32 44 34 33
Millas recorridas
8 14 5 5 13 6 11 8 8 8 7 4 12 14 16 9 11 8 10 9 14 15 13 12
.
!
.
i. Desarrolle una ecuación de regresión !lnea! múltiple que describa la relación entre el costo de entrega y las otras variables. ¿Explican estas tres variables una cantidad. ra:. zonable de variación en la variable dependiente? Estime el costo de entrega de un equipo que toma 1O minUtoS de preparación, 30 minutos ·para su entrega, y debe re.:. correrse una distancia de 14 millas. 2~ Realice una prueba para determinar si algunos dé los coeficientes de regresión netos son diferentes de cero. Haga tamblén una prueba para observar si se puede eliminar alguna de las variables. Si esto es posible, forr:riüle la ecuación de regresión nuevamente hasta que sólo se tengan las variables significativas. Redacte un informe breve interpretando la ecuación de regresión fina!.
1
Meto10Sn
DOS Realizar una prueba de hipótesis comparando un conjunto observado de frecuencias y una distribución esperada. TRES Efecfüaruna prueba de hipó-
t~~ís'..denormalidad.aplicando l¡¡'di~tribucíón ji cu.adrada.
CUAT!tO Realizar una prueba de hipótesis para determinar si están relacionados db$ criterios de
1-[ay cuatro·entradas al Edificio Central de Gobierúo'en el c_entro'-cle_·_ Filádel: fía. Para deternünar sí todas las entrndas son igualrnenl:e utilizadas;. se obsct~ V<1fon_400 _personas que,_entrahan al_ edificio .. ;\l i:ivel de significaoc!A-0.0_1 basándose en l_o.':t datos proporcionados, ¿hay diferencia en el_ uso de las _cualTo entradas~ (VCr 'objetivo 2 y eicrclcío· 22.)
Métodos no paramé!ricos. Aplicaciones de ji C!ladrada
Introducción Los capítulos del 9 al 12 se dedicaron a datos que por lo menos estaban en nivel de intervalo, como pesos, ingresos y edades. Se llevó a cabo un n(1mero de pruebas de hipótesis acerca de una media poblacioml, dos medias poblacionales y tres o más medias poblacionales. En tales pruebas se supuso que la población seguía la distribución normal. Estas son pruebas disponibles en las que no es necesario hacer ninguna suposición acerca de la forma de la población. También hay pruebas exclusivamente para datos ele nivel de medición nominal u ordinal. Recuérclese del capítulo 1 que los datos a nivel nominal son el tipo de datos "más bajo" o más primitivo. En mediciones de este tipo, los datos se clasifican en categorías en las que no hay un orden natural. Algunos ejemplos son género, lugar de nacimiento o marca de una crema de cacahuate. El nivel de medición ordinal supone que una categoría tiene un rango más alto que la siguiente. Como ejemplo, a solicitud de una empresa de investigaciones de mercado, una muestra de aficionados al trote evalúa un calzado de reciente producción como "extraordinario", "bueno", "aceptable" o "no satisfactorio". Está implícito que un rango de extraordinario es superior a bueno, que bueno es mejor que aceptable, y asi sucesivamente. Sin embargo, no se sabe si la cantidad por la que excelente supera a bueno es la misma por la que bueno supera a aceptable. Las pruebas de hipótesis no paramétricas o libres de distribución usan datos de nivel nominal y ordinal. El (1ltimo nombre implica que estas pruebas están libres de suposiciones con respecto a la distribución de la población de origen. Es decir, no es necesario que se suponga que la población sigue la distribución normal. Dichas pruebas libres de distribución son de aplicación relativamente fácil y, por lo general, los cálculos son mínimos.
Prueba de bondad de ajuste: Frecuencias esperadas iguales La prueba de bondad de ajuste es una de las pruebas no paramétricas más utilizadas. Karl Pearson, la misma persona que desarrolló el coeficiente de correlación, fue el primero que la describió a principios de 1900. Puede usarse para cualquier nivel de datos. El primer ejemplo de esta prueba presenta el caso en el que las frecuencias de celda esperadas son iguales. Como lo indica el nombre completo, el objetivo de la prueba de bondad de ajuste es comparar un conjunto de frecuencias observado con un conjunto de frecuencias esperado. Un ejemplo puede describir mejor el caso de la prueba de hipótesis.
EJEMPLO
La señora Jan Kilpatrick es la gerente de mercadotecnia de una empresa que se dedica a elaborar postales deportivas. Planea iniciar una serie de tarjetas con fotografías y estadísticas. de juego de ex jugadores de Liga Mayor de Béisbol. Uno de los problemas es la selección de los antiguos jugadores. En la exhibición de dichas tarjetas, en el centro comercial de Southwyck, la semana pasada, colocó un estante y ofreció las tarjetas de los siguientes seis jugadores que se encuentran en. el Salón de la Fama del Béisbol: Tom Seaver, Nolan Ryan, Ty Cobb, George Brett, Hank Aaron y Johnny Bench. El primer día vendió un total de 120 tarjetas. En la tabla 15:1 se muestra el número de tarjetas vendidas de cada jugador de antaño. ¿Puede concluirse que las ventas de tarjetas son iguales para cada uno de los seis ex jugadores, o debe concluirse que las ventas no son iguales?
550
Capítulo "15 If~BLJJ,
15-1
Cantidad de taríetas vendidas de cada jugador. Jugador
Tarjetas vendidas
Tom Seaver ·~olan Ryan Ty Cobb
13 33 14 7 36 17 -120
George Brett HankAaron Johnny Bench Total
Si no hay diferencias significativas en la popularidad de los jugadores, se esperaría que las frecuencias observadas (f0 ) fueran iguales, o casi iguales. Esto es, se esperaría vender la misma cantidad de tarjetas de Tom Seaver y de Nolan Ryan. Por tanto, cualquier discrepancia entre las frecuencias observadas y esperadas podría atribuirse al muestreo (a la casualidad). Debido a que existen 120 tarjetas en la muestra, es de esperar que 20 queden en cada una de las seis categorías: Tales categorías se denominan celdas. Un examen del conjunto de frecuencias observadas mostradas en la tabla 15.1 indica que la tarjeta de George Brett se vende muy escasamente, en tanto que las de Hank Aarón y Nolan Ryan se venden con mayor frecuencia. ¿La diferencia en ventas se debe al azar, o puede concluirse que existe una preferencia para las tarjetas de algunos jugadores?
TABLA i5.2
Frecuencias observadas y frecuencias esperadas para las 120 tarjetas vendidas.
Jugador Tom Seaver Nolan Ryan Ty Cobb George Brett Hank Aaron Johnny Bench Total
SOLUCIÓN
Tarjetas vendidas, fª
Número vendido esperado, fe
13 33 14
20 20 20 20 20 20 120
7
36 17 120
Se usará el mismo procedimiento sistemático de cinco pasos para prueba de hipótesis, seguido en los capítulos anteriores. Paso 1:
Paso 2:
Se establecen las hipótesis nula y alternativa. La hipótesis nula, H0, es que no existe diferencia entre el conjunto de frecuencias observadas y el · conjunto de frecuencias esperadas; esto es, cualquier diferencia entre ambos conjuntos de frecuencias puede atribuirse al muestreo (al azar). La hipótesis alternativa, H1 , es que sí existe una. diferencia entre los dos conjuntos de frecuencias. Si H0 se rechaza y H, se acepta, ello sígnificaque las ventas no están distribuidas igualmente entre las seis calegorí\ls (celdas). Se selecciona el nivel de significancia. Se elige el ni.vel 0.05, qu~ es igual a la probabilidad de cometer un error de tipo .1. Por tanto, 0.05 es la probabilidad de rechazar una hipótesis _nula verdadera.
551
Métodos no paramétricos. Aplicaciones de ji cuadrada Paso 3:
Se escoge el estadístico de prueba. El estadístico de prueba es la distribución ji cuadrada, que se denota por x':
con k - 1 grados de libertad, donde:
k f, f,
Paso 4:
es el número de categorías, y es una frecuencia observada en una categoría determinada. es una frecuencia esperada en una categoría determinada.
En breve se examinarán con más detalle las características de la distribución ji cuadrada. Se formula la regla de decisión. Recuérdese que la regla de decisión en la prueba de hipótesis necesita encontrar un número que separe la región de aceptación de Ha, de la región de rechazo de la misma. A este número se le denomina valor crítico. Como se verá luego, la distribución ji cuadrada en realidad es una familia de distribuciones. Cada distribución tiene una forma ligeramente diferente, dependiendo del número de grados de libertad. En este tipo de problemas el número de grados de libertad se determina por medio de k - 1, donde k representa el número de categorías. En este problema en particular hay seis. Puesto que existen seis categorías, hay k - 1 = 6 - 1 = 5 grados de libertad. Como se mencionó, a unas categorías se les denomina celdas, de modo que hay seis celdas. El valor critico para 5 grados de libertad y el nivel de significancia 0.05, se encuentra en el apéndice H. En la tabla 15.3 se muestra una parte de la tabla del apéndice. El valor critico es 11.070, que se obtiene al localizar 5 grados de libertad en el margen izquierdo, y recorriendo horizontalmente (hacia la derecha) para leer el valor crítico en la columna 0.05. !ABt;}., 15.3
Parte de la tabla de ji cuadrada. Grados de
Área de la cola derecha
libertad, g/
0.10
0.05
0.02
0.01
2 3 4 5
2.706 4.605 6.251 7.779 9.236
3.841 5.991 7.815 9.488 111.0701
5.412 7.824 9.837 11.668 13.388
6.635 9.210 11.345 13.277 15.086
La regla de decisión es rechazar Ha si el valor de ji cuadrada que se obtuvo de los cálculos es mayor que 11.070. Si es menor o igual a 11.070 no se rechaza Ha. En el diagrama 15.1 se representa la regla de decisión.
552
Capítulo 15
11.070 Valor crítico
O!P.GR.l\MA 15.1
Paso 5:
Esca!a de
x2
DislTibución de probabilidad de ji cuadrada para 5 grados de libertad, que indica la región de rechazo, nivel de significancia 0.05. Básicamente la regla de decisión indica que si existen grandes diferencias entre las frecuencias observadas y las frecuencias esperadas, dando como resultado una x' calculada mayor que 11.070, debe rechazarse la hipótesis nula. Sin embargo, si las. diferencias entre f, y f, son pequeñas, el valor calculado de x2 será 11.070 o menor, y entonces la hipótesis nula no se rechaza. La razón es que tales diferencias pequeñas entre las frecuencias observadas y las esperadas probablemente se deben al azar. Se calcula el valor de ji cuadrada, y se toma una decisión. De las 120 tarjetas yendidas en la muestra, se cuenta el número de veces que se vendieron las de Tom Seaver y Nolan Ryan y cada uno de los otros beisbolistas. Los conteos se presentan en la tabla 15.1. A continuación se indican los cálculos para ji cuadrada. (Obsérvese nuevamente que las frecuencias esperadas son iguales en todas las celdas.) Columna 1: Si" determinan las diferencias entre f, y f,. Esto es (f, - f,). Por (1ltimo, la suma de estas diferencias es igual a cero. Columna 2: La diferencia entre cada frecuencia observada y cada frecuencia esperada respectiva se eleva al cuadrado. Esto es
sin1bólicamente (f0
f,,J 2.
-
Columna 3: Cada uno de resultados de la columna 2 se divide entre su
(f0 - f )2
correspondiente frecuencia esperada. Esto es, -
- , - '-
r,
Finalmente, se suman estos valores. E! resultado es el valor de)(', que es 34.40. (1)
(2)
(3)
(f, - f~'
f!n. - f,)2 t,
Jugador
de béisbol
t,
t,
Tom Seaver Nolan Ryan Ty Cobb George Brett HankAaron Johnny Bench
13 33 14 7 36 ·17
20 20 20 20 20 20
{fG -
fe)
-7
13 -6 "-13 16
-3
rº
~
Debe.ser
49 '169 36 169 256 9
49/20 169/20 36/20 169/20 256/20 9/20
~
2.45
~
8.45 1.80 8.45 12.80 0.45
~
~ ~
~
~34.40
x'
553
Mélodos no paramétricos, Aplicacimes de ji cuadrada
La x2 calculada de 34.40 está en el área de rechazo, más allá del valor crítico de 11.070. En consecuencia, la decisión es rechazar H0 al nivel 0.05 y aceptar H1• La diferencia entre las frecuencias observadas y las esperadas, no se debe a la casualidad. Más bien, las discrepancias entre 10 y 1, son lo suficientemente grandes como para ser consideradas significativas. La posibilidad de que estas diferencias se deban al muestreo es muy pequeña. Por lo que se concluye que no es probable que las ventas de tarjetas de los seis jugadores sean iguales. Para calcular el valor de ji cuadrada se pueden usar programas de cómputo para estadística. A continuación se presenta la pantalla de resultados de MegaStat. Los pasos se muestran al final del capítulo en la sección Comandos para computadora. El valor obtenido para ji cuadrada es 34.30, el mismo que ya habíamos calculado antes.
~~ob~~"'~''"~~~~C!"°'"'""'~-.;º""·~~J_~ __l(, of ohioq
13
~'Ú.000
·7.000
2.450
7.12
33 14
20.00J 21),000
13.000 -6.000
6A51l 1.000
2t..56 5.23
7
20.000
-13.ooo
a.~5o
24.56
36
20.[)0()
lú.000
12.800
37,21
·3000
0.450
1.31
:3:4.400
100.00
17 20.()()1) ,~l:iüíOO 3~.'10
o.ooo
chi·squíl
'"'
l.9l:JE-OG
r-v~I~'
La distribución ji cuadrada, utilizada como el concepto estadístico de prueba en este capítulo, tiene las características que siguen: 1. El valor calculado de ji cuadrada nunca es negativo, porque la diferencia entre 10 y 1, se eleva al cuadrado, esto es (10 - f,)2. 2. Existe una familia de distribuciones ji cuadrada. Hay una distribución ji cuadrada para 1 grado de libertad (gl), otra para 2 gl, otra para 3 gl, etc. En este tipo de problemas, el número de grados de libertad está determinado por k - 1, donde k es el número de categorías. En consecuencia, la forma de la distribución ji cuadrada no depende del tamaño de la muestra pero sí depende del número de categorías utilizadas. Por ejemplo, si 200 empleados de una aerolínea fueran clasificados en una de tres categorías -personal de vuelo, personal auxiliar en tierra, y personal administrativo- habría k - 1 = 3 - 1 = 2 grados de libertad. 3. La distribución ji cuadrada tiene sesgo positivo. Sin embargo, conforme aumenta el número de grados de libertad, la distribución comienza a aproximarse a la de tipo normal. El diagrama 15.2 muestra las distribuciones para varios grados de libertad seleccionados. Obsérvese que para 10 gl la curva se aproxima a la distribución normal.
554
Capítulo 15
Conforme aumenta el número de grados de libertad, la forma de la distribución x' se aproxima a la de tipo normal.
O.OO O 1 2 3 4 5 6 7 8 9 10111.213141516171819
X
Valores de ji cuadrada ( x'I D!AGRAMA '.l5.2
Distribuciones ji cuadrada para grados de libertad seleccionados.
Una gerente de personal está preocupada por el absentismo. Ha decidido muestrear !as listas
de asistencia para determinar si e.! ausentismo está distribuido uniformemente entre los seis días de la semana laboral. La hipótesis nula que ha de ser probada es: e! absentismo está dis-
tribuido equitativamente durante toda la semana. Se usará el nivel de 0.01. Los resultados muestrales son: Ausencias
Ausencias
Lunes Martes Miércoles
12 9 11
Jueves Viernes
Sábado
10 9 9
a) ¿Cómo se les denomina a los números 12, 9, 11, 10, 9 y 9?
b) ¿Cuántas categorías (celdas) existen? e) ¿Cuá! es la frecuencia esperada para cada día?
d) ¿Cuántos grados de libertad hay en este caso? e) ¿Cuál es el valor crítico para ji cuadrada a.1 nivel de 1 %? ~
Calcule el valor estadístico de prueba x 2 .
g) ¿Qué decisión se toma respecto a la hipótesis nula? h) En forma específica, ¿qué le indica esto a la gerente de personal?
1. En determinada prueba de bondad de ajuste de ji cuadrada hay cuatro categorías y 200 observaciones. Utilice el nivel de significancia 0.05. a) ¿Cuántos grados de libertad existen? b) ¿Cuál es el valor crítico de ji cuadrada? 2. En cierta prueba de bondad de ajuste de ji cuadrada hay seis categorías y 500 observaciones. Utilice el nivel de significancia 0.01. a) ¿Cuántos grados de libertad existen? b) ¿Cuál es el valor crítico de ji cuadrada?
555
Métodos no paramé!ricos, Aplicaciones de ji cuadrada
3. Las hipótesis nula y alternativa son:
H0: Las categorías de las celdas son iguales. H 1; Las categorías de las celdas no son igua!es.
Categoría
10
A
10
B
20 30
e
a) Enuncie la regla de decisión, usando el nivel de significancia 0.05. b) Calcule el valor de ji cuadrada. e) ¿Cuál es su decisión ¡especto a H0 ? 4, Las hipótesis nula y alternativa son:
H0 : Las categorías de !as celdas son iguales. H 1 : Las categorías de !as celdas no son iguales.
Categoría
f0
A B
10
e D
20 30 20
a} Establezca la regla de decisión aplicando e! nivel de significancia 0.05.
b) Calcule el valor de ji cuadrada. e) ¿Cuál es su decisión respecto a H0? 5. Se tira un dado 30 veces. y los números del 1 al 6 aparecen como se muestra en la siguiente distribución de frecuencias. Al nivel de significancia 0.1 O, ¿puede concluirse que el dado es "legal"?
Resultado
Frecuencia
Resultado
Frecuencia
3
4 5 6
3 9 7
2
6
3
2
6. El director de un club de golf desea estimar el número de rondas que juegan los miembros del club en cada día de_ !a semana. Obtiene la siguiente información muestra! de 520 rondas.
Día
Lunes Martes Miércoles Jueves Viernes
Rondas
124 74 104
98 120
Al nivel de significancia 0.05, ¿hay diferencia en el número de rondas jugadas cada día de la semana? 7. Un grupo de compradores en una tienda departamental, después de ver una nueva línea de vestidos, expresó sus opiniones. Los resultados son:
556
Gapilulo 15 Opinión
Núrnero de compradores
Extraordinario Excelente Muy bueno
Opinión
47
Bueno
45 40
Regular Inaceptable
Número de con11uadores 39 35 34
Como el número más elevado (47) indicó que la nueva línea es extraordinaria, el diseñador principal cree que es imperativo realizar la producción en masa de los vestidos. E! jefe de otra área (que por alguna razón tiene que ver en el asunto) cree que no está claro el motivo, y señala que las opiniones están distribuidas por igual entre las seis categorías. Además, expresa que las ligeras diferencias entre las cantidades probablemente se deban al azar. Pruebe la hipótesis nula de que no existe diferencia significativa entre las opiniones de los compradores. Use el nivel de riesgo de 0.01. Siga un enfoque formal: esto es, establezca la hipótesis nula, la hipótesis al-
ternativa, etc. 8. El director de seguridad de la empresa Honda, de Estados Unidos, tomó muestras aleatorias del archivo de accidentes menores, y los clasificó de acuerdo con la hora a la que ocurrió el accidente.
Hora
Número de accidentes
Hora
Número de accidentes
8a9A.M. 9a10A.M. 10a 11 A.M. 11a12 P.M.
6 6 20 8
·¡a 2 P.M. 2 a 3 P.M. 3a4P.M. 4 a 5 P.M.
7 8 19 6
Utilizando la prueba de bondad de ajuste y el nivel de significancia O.Di, determine si los accidentes están distribuidos uniformemente o no durante el día. Dé una breve explicación acerca de la conclusión.
Prueba de bondad de ajuste: 1°.r •· F,recuenc1as esperanas cnrerenres o
-,
-~.,--.
En este problema las frecuencias esperadas no son iguales.
Las frecuencias esperadas (f,) en el problema anterior referente a las tarjetas con lotos de jugadores de béisbol, las frecuencias esperadas (f,) eran todas iguales (20). De acuerdo con la hipótesis nula, se esperaba que la tarjeta con la foto de Tom Seaver apareciera 20 veces aleatoriamente, la tarjeta con la foto de Johnny Bench 20 veces de los 120 ensayos, y así sucesivamente La prueba de ji cuadrada también puede utilizarse si las frecuencias esperadas no son iguales. El ejemplo siguiente ilustra el caso de frecuencias desiguales, y también muestra un uso práctico de ji cuadrada que es encontrar si una situación local difiere de una situación nacional.
557
Métodos no paramátrkos, Aplicaciones lle ji waliralia
Un estudio a nivel nacional de las admisiones en hospital, durante un periodo de dos años, presentó los siguientes estadísticos respecto a los adultos mayores residentes en centros de asistencia y que fueron hospitalizados en cualquier momento durante el periodo. Se tiene que 40% fueron admitidos sólo una vez en el periodo de dos años. Que 20% lo fueron en dos ocasi_ones. Que 14.% fueron admitidos tres veces, y así sucesivamente, La distribución completa del porcentaje se muestra en la tabla 15.4.
TABLA 15.4 E.studio nacional: Nú1nero de veces que adultos 111ayores ingresaron a un hospit,'ll en un periodo de dos años .
TABLA i 5.5 Estudio local: Adn1isión ele personas en edad senil en el Barto•v County l-lospital en un periodo de dos aüos.
..
Número de veces admitirlas
Porcentaje del total
2
40 20
3
14
4
10
5 6 7
8 6
--
2 100
Número de 'lleces admitidas
Número de
personas, f0
165 2 3 4 5 6 7
79
50 44 32 20 10
400
La administradora del h9spital local desea comparar la experiencia del Bartow County Hospital con el patrón o distribución nacional, Seleccionó a 400 adultos mayores en centros de asistencia locales que necesitaron hospitalización, y determinó el nú-
mero de veces que cada uno fue admitido en el Bartow County Hospital durante un periodo de dos años. Las frecuencias observadas se muestran en la tabla 15.5. El valor estadístico ji cuadrada sirve para comparar la experiencia local con la experiencia nacional. La pregunta es: ¿Cómo pueden compararse las frecuencias locales observadas en la tabla 15.4 con los porcentajes nacionales en la tabla 15.4? Se usará el nivel de significancia 0.05.
SOUJJCIÓN Determinación de frecuencias esperadas.
Obviamente, el n(1mero de frecuencias observadas que resulta del estudio de los adultos mayores de la localidad, no puede compararse directamente con los porcentajes dados para los hospitales de la nación, Sin embargo, tales porcentajes nacionales de la tabla 15.4 pueden convertirse en frecuencias esperadas, f,. La tabla mencionada muestra que 40% de las personas que necesitaron hospitalización, sólo la recibieron una vez en el periodo de dos años. Por tanto, si no existe diferencia entre lo experimentado en el hospital Bartow County Hospital y la experiencia nacional, entonces 40% de los 400 hospitalizados de la muestm seleccionada por la administradora (es decir, 160 personas) habrían sido admitidos una sola vez durante el lapso. Además, 20% de las 400 personas de la muestra (80) habrían sido admitidas dos veces, y así sucesivamente. Las frecuencias locales observadas y las esperadas con base en e! estudio nacional, se indican en la tabla -15.6,
558
Capítulo 15 T/~Blffe,
1:5.6
Frecuencias observadas y esperadas para la admisión en el Bartoiv County I-Iospital.
Número de
veces admitidas
Número observado de admisiones, f,
Número esperado de admisiones, f,
165 2 3 4 5 6
7
160 40% 8 0 - 20% 56 14% 40 _,,,__ 10% 3 2 - 8% 2 4 - 6º/o 8 - - 2º/o
79 50 44 32 20 10 400
'
X 400 X400 X400 X 400 X 400 X 400 X 400
400
/
Deben ser,iguales·
Las hipótesis nula y alternativa son: H0 :
No existe diferencia entre la situación local y la situación nacional.
H1:
Sí existe diferencia entre las situaciones local
y nacional.
Para determinar la regla de decisión, se utiliza el apéndice l. Existen siete categorías de admisión, por lo que los grados de libertad son g/ = k - 1 = 7 - 1 = 6. El valor crítico es 12.592. Por tanto, la regla de decisión es rechazar H0 si x' > 12.592. Tal regla se ilustra en forma gráfica en el diagrama 15.3.
Valor crítico
DlAGRAfl/lA '15.3
Criterios de decisión para la investigación del Barto\V County f-Iospital.
Métodos no paramétricos. Aplicaciones de ji cuadrada
559
Ahora para calcular el valor estadístico de prueba ji cuadrada: Número de veces admitidas
t,
t,
2 3 4 5 6 7
165 79 50 44 32 20 10
'160 80 56 40 32 24 8
(f fa -
fe
5 -1 -6 4
fJ'
(f, -
25 36 16
o
o
-4
16 4
- 2-
o
fJ'
t, 0.156 0.013 0.643 0.400 0.000 0.667 0.500
x2 = 2.379
El valor calculado para ji cuadrada (2.379) queda a la izquierda de 12.592 y, en consecuencia, está en la región de aceptación de H0 • Por tanto, se acepta la hipótesis nula de que no existe diferencia entre la situación local en el Bartow County Hospital, y la situación nacional. La administradora del hospital puede concluir que la situación local con respecto a la hospitalización de personas ancianas en centros de asistencia es similar a la de otras regiones del país.
Limitaciones de ji cuadrada Tenga cuidado al aplicar x2 a algunos problemas.
Si hay una frecuencia esperada inusitadamente pequeña en una celda, la ji cuadrada (si se aplica) puede llevar a una conclusión errónea. ¡Esto puede deberse a que t, aparece en el denominador, y la división entre un número muy pequeño produce un cociente demasiado grande! Dos reglas de aceptación general respecto a frecuencias de celda pequeñas son: 1. Si sólo hay dos celdas, la frecuencia esperada en cada celda debe ser igual a 5 o mayor. El cálculo de ji cuadrada sería permisible en el siguiente problema, que implica un valor mínimo de 6 para t,. Persona Alfabeta Analfabeta
t,
t,
643 7
642 6
2. Para más de dos celdas, no debe aplicarse ji cuadrada si más de 20% ele las celdas ele fe tienen frecuencias esperadas menores que 5. De acuerdo con esta regla no sería apropiado usar la prueba de bondad de ajuste dados los siguientes datos. Tres de las siete categorías, es decir, 43o/O, contienen menos de 5 observaciones.
560
Capfü1lo 15 -·
Nivel de empleado Encargado Supervisor
Gerente Gerente medio Asistente del vicepresidente Vicepresiclente Vicepresidente ejecutivo Total
f"
f,
30 110 86 23
32 113 87 24
5 5
4
4 263
263
2
Para mostrar la razón de por qué 5%, se realiza la prueba de bondad de ajuste con los datos anteriores sobre el nivel del empleado. La pantalla de resultados de MegaStat es:
·2.000 ·3.l)l'J
0.125 0.000
-1.ü!J()
0.011
o.ca
-1.000 3.000
0.042 4.500
O.:Y.l 3112
1.mo
O.SS! 0.57
3.!l-~O
o.25D 9.000
6~.25
D.G!JO
14.0üB
10D.GiJ
1.w
14.01 ch1·squ<1re G Uf .0295
p·v¡lu~
En esta prueba al nivel de significancia 0.05 se rechaza H0 si el valor obtenido para ji cuadrada es mayor que 12.592, El valor que se obtuvo es 14.01, por lo que se rechaza la hipótesis de que las frecuencias observadas representen una muestra aleatoria de la población de las frecuencias observadas. Examínese la pantalla de resultados de MegaStat. Más de 98% del valor obtenido para ji cuadrada proviene de las tres categorías de vicepresidente ([4.500 + 0.250 + 9.000]/14.008 ~ 0.9815). Es claro que se les está dando demasiado peso a estas tres categorías. Este problema se puede resolver uniendo categorías. En el ejemplo anterior se unen las tres categorías de vicepresidente, satisfaciéndose así la regla de 20%. Nivel directivo
t,
f,
Encargado Supervisor Gerente Gerente medio Vicepresidente Total
30 110 86 23 14 263
32 113 87
24 7
263
561
Métodos no paramétricos. Aplicaciones de ji cuadrada
El valor obtenido para ji cuadrada una vez modificadas las categorías es 7.26. Ver la siguiente pantalla de resultados. Este valor es menor que el valor crítico de 9.488 correspondiente al nivel de significancia 0.05. Por tanto, no se rechaza la hipótesis nula al nivel de significancia 0.05. Esto indica que no hay diferencia considerable entre la distribución esperada y la distribución observada.
·'~"'~---~~~~r-+c;Jc-"' 'ii'jt-~"'i~1 ft(J
11.l(;(J)
""
6/lf_I)
~
Autoexamen 15.2
~:·~~!
La Asociación Estadounidense de Contabilidad clasifica las cuentas por cobrar como "al corriente", "atrasadas" y "no cobrables". Las cifras en la industria muestran que 60% de !as cuentas por. cobrar están al corriente, 30% son atrasadas.y 10% son no cobrables. Massa y Barr, abogados en Greenville, Ohio, tienen 500 cuentas por cobrar: 320. están al día, 120 tienen atraso y 60 son. no cobrables. ¿Estos números co.ncuerdan con la distribución en Ja industria? Utilice el nivel de significancia 0.05.
Ejercicios 9. Se dan las siguientes hipótesis: H0 :
Se tiene que 40% de las observaciones están en la categoría A, 40% están en Ja B, y 20%, en la C.
H 1:
Las observaciones no son como se describen en H0 .
Se toma una muestra de 60, con !os resultados que siguen.
Categoría
fu
A B
30 20 10
e
a) Enuncie la regla de decis'1ón aplicando el nivel de signif'lcancia O.Oi. b) Calcule el valor de ji cuadrada. e) ¿Cuál es su decisión considerando H0? 10. El jefe de seguridad de un gran centro comercial fue encargado de estudiar el problema de 111ercancías faltantes. Seleccionó una muestra de 100 cajas que habían sido manipuladas indebidamente, y averiguó que para 60 de ellas, la desaparición de ropa, pantalones, zapatos,
562
Gepílt1lo 15 etc., se atribuyó al "hurto en tienda". De las otras 30 cajas, los empleados substrajeron lamer-'' cancía, y para las 1O cajas restantes, se culpó al deficiente control de inventario. En su reporte a la administración, ¿puede ella declarar que la "toma sin pagar" es doblemente probable como causa de la pérdida, en comparación con la substracción por empleados o ei deficiente control de inventario y que la sustracción de mercancía por los en1pleados y error en el inventario son dos causas igual111ente p1·obables? Aplique el nivel ele 0.02. i1. E! deparfamenfo" d8 tarjetas 08 créditO bcl.ncaiias d8!"Carollna Bank sabe por su la1·ga experiencia, que 5% de los tarjetahabientes han tenido algunos estudios de bachillerato, 15% han terminado dicho nivel escolar, 25% han tenido ciertos estudios universitarios, y 55% han concluido la instrucción en unii.rersidad. De los 500 tarjetahabientes que fueron reportados por falta de pago en este mes, 50 tenían estudios de bachillerato, 100 terminaron tal nivel escolar, i 90 tenían cierta preparación universitaria y i 60 concluyeron la ínstruccíón en la universidad. ¿Se puede concluir que la distribución de tarjetahabientes que no han pagado sus cuentas es diferente de la ele los demás? Aplique el nivel de significancia O.DI. i 2. Durante muchos años los ejecutivos de televisión utilizaron como lineamiento que, por !as noches entre semana, 30% de la audiencia veía alguno de los canales principales y 10% veían televisión por cable. Una 111uestra aleato1·ia de 500 telé'itidentes, tomada del é.rea de Tampa-St. Petersburg, Florida, la noche del lunes pasado, reveló que en i 65 hogares se sintonizaron con la compañía afiliada a ABC, 140 con la red asociada a CBS, ·125 con la compailía afiliada a NBC, y el resto veía una estación de cab!etelevisión. Al nivel de significancia 0.05, ¿puede concluirse que la guía sigue siendo razonable?
Utilización de la prueba de bondad de ajuste para probar normalidad La prueba de bondad de ajuste es una de varias maneras para determinar si un conjunto de frecuencias obsetvadas coincide con un conjunto de 'frecuencias esperadas que tienen una distribución normal. En otros términos, ¿coinciden los valores obsetvaclos en una di~tribución de frecuencias con los valores esperados con base en una distribución norma!? Recuérdese
de capítulos anteriores que usualmente se supuso que las poblaciones muestreadas se distribuyen en forma normal. Esta prueba aporta el medio para verificar tal suposición;
La doctora Beth McPherson, presidenta de la institución Duval University, recopiló información acerca de los sueldos anuales de profesores de tiempo con1pleto en 160 cole-
gios universitarios. Utilizó un sistema programático para Estadística (software), y determinó que e! pago laboral medio era 54.03 (miles de dólares), y que la desviación estándar era de 13. 76. La distribución ele frecuencias para estos sueldos por año se muestra en la tabla 15.7. TABLA i.5.7
Sueldos ann
i\iúmero de colegios
20 a 30
4
a 40 40 a 50
20 4·1
30
1
1 1
50 a 60
44
60 a 70 70 a 80 80 a 90 90 a 100
29 16 2 4
Total 1
f~r·:·;
-160
Métodos no parnmé!ricos. Ap/icacim1es de ji cuadrada
563
¿Coinciden las frecuencias observadas con las frecuencias esperadas, con base en la dístribución probabilística normai?
SOllJC:IÓN
La media y la desviación estándar se introducen en la fórmula 7. 1 (la expresión para determinar z). La X en la fórmula es el límite de clase inferior o superior. Para ejemplificar el cálculo de los valores z, se selecciona la clase de "70 a 80".
X- I" z;::::;--o-
donde X es el límite de clase de un sueldo específico, como 70 miles de dólares, µ,es la media (54.03), y rr es la desviación estándar (13.76). El valor z para 70, el límite inferior de la clase "70 a 80", es 1.16, que se obtiene mediante
X-
IL
70 - 54.03 13.76
1.16
z~---~--
cr
Esto indica que 70 está a 1.16 desviaciones estándar por encima de la medía de 54.03. Para el límite superior de la clase "70 a 80", z ~ 1.89, que se obtiene por 2
~ X-~ ~ 80 - 54.03 ~
cr
13.76
_ 1 89
Así, 80 se encuentra a 1.89 desviaciones estándar por encima de la media de 54.03. Para determinar el área en la distribución normal estándar de O a 1.16, se recurre al apéndice D, o a tal distribución, que se presenta en la tercera de forros de este libro. Vaya hacia abajo por el margen izquierdo hasta 1.1, y después horizontalmente l1asta 0.06, y lea que el área vale 0.3770. Esta también es el área bajo la curva entre la media de
54.03 y 70.00. A continuación, el área entre 54.03 (la medía) y 80 es 0.4706. Para determinar el área bajo la curva entre 1.16 y 1.89, se realiza la siguiente resta 0.4706 - 0.3770 ~ o.0936. Por tanto, se espera que 0.0936, o el 9.36%, de los sueldos se encuentren entre 1.16 y 1.89 desviaciones estándar de la medía. Así, el número esperado de sueldos entre 70 y 80 miles de dólares es 14.97E, obtenido por 160 (0.0936). Esta información se resume en el
siguiente diagrama. Las frecuencias esperadas para todas las demás categorías se muestran en la tabla 15.8.
:o.3no[ 9093~ ---------·~--~ -~---·
54.03
70
_________º__ 1.16
80 1.89
Salario Escala de z
·
.J
Antes de continuar, se debe enfatizar una de las limitacíones de los ensayos que utílizan la jí cuadrada como el valor estadístico de prueba. La segunda lim'1tació11, presentada en la página 559, indica que si más de 20% de las celdas tienen frecuencias esperadas menores que 5, se deben combinar algunas de las categorías. En la tabla 15. 7 se presentan tres casos donde las frecuencias observadas son rnenores que 5. Para evi-
564
Capitulo 15 tar la posibilidad de que haya demasiadas celdas con frecuencias esperadas menores que el valor 5, se combinan las dos categorías más grandes de sueldos en la tabla 15.8. Por tanto, los grupos "80 a 90" y "90 a 100" se combinan en un solo grupo de "80 o más". Los detalles para determinar la frecuencia esperada (f,) para cada una de las categorías se muestran en la tabla 15.8. TABLA i 5.8
Sueldos, valores z, ;íreas nonnalcs y fe· Frecuencia esperada,
Salario (miles de dólares)
Menor que 30 30 a40 40 a 50 50 a 60 60 a 70 70 a 80 80 o mayor
Valor Menor que
z
t,
Área
~i.75
-·1.75 a -1.02 -1.02 a -0.29 -0.29 a 0.43 0.43 a 1.16 1.16 a 1.89 Mayor que 1.89
0.040"1 0.1138 0.2320 0.2805 0.2106 0.0936 0.0294 1.0000
6.416 <-0.0401X160 18.208 f-0.1138 X 160 37.120 <-0.2320 X 160 44.880 <- 0.2805 X 160 33.696 f- 0.2106 X 160 14.976 f- 0.0936 X 160 - 4.704 - - <- 0.0294 X 160 160.000
Ahora se calcula el valor de ji cuadrada (ver la tabla 15.9). La columna 2 muestra la frecuencia observada, y la columna 3 la frecuencia esperada para cada una de las categorías de sueldos. Las columnas 4, 5 y 6 presentan los cálculos para el valor de ji cuadrada. Tal magnitud calculada vale 2.590.
TABLA 15.9
Cálculos para ji cuadrada.
(1) Salario (miles de dólares) Menor que 30 30 a 40 40 a 50 50 a 60 60 a 70 70 a 80 80 y mayor
(2)
(3)
(4)
t,
t,
fo - fe
4 20 41 44 29 16 6 160
6.416 18.208 37.120 44.880 33.696 14.976 4.704
-2.416 1.792 3.880 ·-0.880 -4.696 1.024 1.296
160
(5) (f, -
fJ'
5.837 3.211 15.054 0.774 22.052 "l.049 1.680
(6) (f, - fJ'
t,
0.910 0.176 0.406 0.0·17 0.654 0.070 0.357 2.590
Como es usual, se enuncian primero las hipótesis nula y alternativa: H 0 : La población se distribuye en íorma normal. H1 : La población no está distribuida normalmente. Para determinar el valor crítico de ji cuadrada, se requiere saber los grados de libertad. En este caso existen 7 categorías (ver la tabla 15.9), por lo que tales grados son 7 1 ~ 6. Además, los valores $54.03 (dólares), el sueldo medio, y $13.76, la desviación estándar de los sueldos de profesores de tiempo completo, se calcularon a partir de esta
565
Métodos no paramé!ricos. Aplicaciones de ji c11adrada
muestra de todos los profesores. Cuando se estiman los parámetros de la población a partir de información muestra!, se pierde un grado de libertad en cada cálculo. De modo que se pierden dos grados de libertad adicionales para estimar la media poblacional y la desviación estándar de la población. Así que el número de grados de libertad en este problema es 4, que se obtiene por k - 2 - 1 = 7 - 2 - 1 = 4. El valor crítico de x' es 9.488, obtenido del apéndice 1, utilizando el nivel de signi'ficancia 0.05. H, se rechaza si el valor calculado de ji cuadrada es mayor que 9.488. En este caso se estima que x' vale 2.590, y por tanto no se rechaza la hipótesis nula. Puede concluirse que la distribución de los sueldos de profesores de tiempo completo sigue la distribución normal.
Para mencionar más acerca del cálculo del número de grados de libertad, supóngase que se conocen la media y la desviación estándar de una población, pero se desea determinar si parte de la información de a muestra se adapta a la distribución normal. En este caso, los grados de libertad son iguales a k, el número de categorías menos 1. Por otra parte, supóngase que se tienen datos muestrales agrupados en una distribución de frecuencias, pero no se conoce la media poblacional o la desviación estándar de la población. Se desea probar si la información en la muestra se distribuye en forma normal .. Debido a que se estima la media y la desviación estándar poblacionales a partir de los datos de la muestra, el número de grados de libertad es igual a k - 2 - 1. En general, cuando se utilizan valores estadísticos de muestra para evaluar los parámetros de población, el número de grados de libertad se obtiene mediante k - p - 1, donde p representa el número de parámetros poblacionales que se han estimado a partir de la información muestra!.
Autoexamen 15.3
Refiérase' al problema' de sueldos de los profesores.de tiempo complejo. Determine el número esperado de percepciones que están entre 60 y70 (miles de dólares),
Ejercicios i 3. El fabricante de una tenninal de computadora informa en su material de publicidad que la duración media de tal dispositivo, seglln uso normal, es de 6 años, con una desviación estándar de i .4 años, suponga que son los valores de la población. Una muestra de 90 unidades vendidas hace 1 O años, mos:ró la siguiente distribución de las duraciones. A! nivel de significancia 0.05, ¿puede el fabricante concluir que tales tiempos están distribuidos normalmente?
Vida útil (años) Hasta 4 4a5
5a6 6a7 7a8 8 o mayor
Frecuencia
7 14 25 22 16 6 --
14. Se informa que las comisiones sobre !as ventas de autos nuevos, tienen como promedio $1 500 (dólares) por mes, con una desviación estándar de $300. Una muestra de 500 agentes o representantes de ventas en la región noroeste de Estados Unidos, indicó !a siguiente distribución de las comisiones. Al nivel de significancia 0.01, ¿se puede concluir que la población está dístribuida normalmente; con una media $1 500 y una desviación estándar $300?
566
Capíl"lo 15 Comisión (dólares) Menos que 900 900 a 1 200 1200a1500 1500a1800 rsoo a 2100 2100omás
Total
Frecuencia 9
63 165 180 71 12
-500
C:~~~j~is_d:=: t~'.Ei~~-:~~~~~~~~1tir!~:='.~~i~s Las pruebas de bondad de ajuste aplicadas en las secciones anteriores se relacionaban sólo con una variable y una característica. La prueba de ji cuadrada también puede usarse para un proyecto de investigación relacionado con dos características. Los siguientes son algunos ejemplos: 0
•
'
¿Hay alguna relación entre el promedio de calificaciones obtenido por estudiantes de universidad, y su ingreso o percepción monetaria 1O años después de su graduación? Las dos características medidas para cada persona son el promedio de calificaciones y el ingreso. El gerente de control de calidad de una empresa que trabaja con tres turnos (las 24 horas del día) quiere saber si hay alguna diferencia en la calidad de los tres turnos. Para investigar esto selecciona una muestra de 500 piezas de la producción de ayer. Cada pieza se clasifica de acuerdo con dos criterios: si es o no aceptable y en cuál de los turnos fue producida. ¿Un hombre liberado de una prisión federal se ajusta mejor a la vida civil si regresa a su ciudad natal o si vaa vivir a otra parte? Las dos características son el ajuste a la vida civil y el lugar de residencia. Obsérvese que ambas características se miden en nivel nominal.
Supóngase que la Federal Correction Agency (de Estados Unidos) desea investigar el interrogante indicado antes: ¿hay diferencia en la readaptación a la vida civil, de un hombre liberado de una prisión federal, si regresa a vivir a su ciudad natal o si se va a vivir a otra parte? En otras palabras, ¿existe relación entre la readaptación a la vida civil y el lugar de residencia después de ser liberado de la prisión?
SOLUCIÓN
Como antes, el primer paso en la prueba de hipótesis es establecer las hipótesis nula y alternativa. H 0:
H,:
No existe relación entre la readaptación a la vida civil y el lugar de residencia de un individuo después de ser liberado de la prisión. Existe relación entre la readaptación a la vida civil y el lugar donde resida la persona después de salir de prisión.
Se usará el nivel de significancia 0.01 para probar la hipótesis. Recuérdese que esto es la probabilidad de un error de tipo 1 (es decir, que existe la probabilidad de 0.01 de que se rechace una hipótesis nula verdadera).
Méiodos 010 parnmélricos. Aplicacimes de ji cuadrada
567
Los psicólogos de la agencia entrevistaron a 200 ex convictos seleccionados aleatoriamente. Utilizando una serie de preguntas, los psicólogos clasificaron la readaptación a la vida civil de cada individuo como excelente, buena, regular o insatisfactoria. Las clasificaciones de los 200 ex convictos 'fueron cuanti'ficadas como se muestra a continuación. Por ejemplo, Joseph Camden volvió a su ciudad natal y mostró una excelente readaptación a la vida civil. Sucaso corresponde a una de las 27 marcas que se tienen en la casilla supel'ior de la extrema izquierda, en el cuadro:
---
'
-
Sitio de residencia después -· de !a liberación
Readaptación a la vida civil
!Excelente
Buena
Regular
Insatisfactoria
Jltl m·r JH·r Yf1 11
JH'I J/·11' JHI JI-!'! Jl-11 Jltl Jltl
JHI JIN JH'I JI·/'! JI/'! J./-N
JH'I JH'I Jltl .IHI Jl·tl
wr
Ciudad de origen
J!-11 JHf I f I
Otra ciudad
111
JH'I JH1 JH-r 1
''
Tabla de contingencias que consiste en datos de conteo.
mr mr JHI JI/'! J/-11 11
J111 mr Jltr Jltl Jltl
Se contaron los registros en cada casilla, o celda. Los conteos se muestran en la siguiente tabla de contingencias. (Véase la tabla 15.10.) En este caso, a la Federal Correction Agency le interesaba determinar si la readaptación a la vida civil es contingente o no con respecto al lugar a donde vaya a vivir el ex recluso después de ser liberado.
TABLA ·15.iO
H. eadaptación a la ·vida civil y lugar de residencia .
.
Sitio de residencia después de la liberación
Ciudad de origen Otra ciudad Total
.
Readaptación a la vida civil
Excelente
Buena
Regular
27
35
33
13
15
27
40
50
60
lnsatisfactori_a 1 1
25 25,
Total 1
1
50
120 80 200
Una vez que se conoce cuántos renglones (2) y cuántas columnas (4) hay en la tabla de contingencias, pueden determinarse el valor crítico y la regla de decisión. Para una prueba de significancia de ji cuadrada donde se clasifican dos características en una tabla de ese tipo, se determinan los grados de libertad por medio de:
gl = (número de renglones - 1)(nC1mero de columnas - 1) = (r - 1)(c - 1) En este problema: gi=(r-1)(c-1):::.(2-1)(4-1)::-3 Para determinar el valor crítico para 3 grados de libertad y el nivel 0.01 (seleccionado antes), se consulta el apéndice 1, y se obtiene 11.345, En consecuencia, la regla de decisión es: se rechaza la hipótesis nula si el valor calculado de x2 es mayor que 11.345. La regla de decisión se muestra en forma gráfica en el diagrama 15.4.
568
Capítulo 15
La estadística en acción
11.345 Valor.
Escala de
x'
crítico
DIAGRAMA "!5.4
Distribución ji cuadrada para 3 grados de libertad.
Ahora se determinará el valor calculado de x 2 : Las frecuencias observadas, 10 , se presentan en la tabla 15. 1O. ¿Cómo se determinan las frecuencias esperadas, f,, correspondientes? Obsérvese en la columna "Total" de la tabla 15. 1O que 120 de los 200 ex convictos (60%) regresaron a sus ciudades natales. Si no existe relación alguna entre la readaptación y la residencia después de la liberación, puede esperarse que 60% de los 40 ex convictos tuvieron excelente readaptación a la vida civil al volver a residir en sus ciudades natales. Por tanto, la frecuencia esperada 1, para la casilla superior izquierda es 0.60 x 40 = 24. En forma similar, si no hay relación entre el ajuste y la residencia actual, puede esperarse que 60% de los 50 ex convictos (30) que tuvieron "buen" ajuste a la vida civil radiquen de nuevo en sus ciudades de origen. Además, obsérvese que 80 de los 200 ex convictos estudiados (40%) no regresaron a vivir en sus ciudades de origen. Por tanto, de los 60 considerados por los psicólogos que tuvieron ajuste "regular" a la vida civil, 0.40 x 60, o sea 24, podria esperarse que no regresen a sus ciudades natales. La frecuencia esperada para cualquier celda puede determinarse mediante: taba ITtei1or que_ 0.0001.,¿Pnede obtener usted tales resultados?
FRECUENC.iA ESPERADA .Frecuenciaesperadaparaunacelda
por columna) = (íofal por renglór\j(rotál Gran total
[15.2]
Utilizando esta fórmula, la frecuencia esperada para la casilla superior izquierda de la tabla 15. 10 es: Frecuencia esperada =
(Total por renglón)(Total por columna) Gran total
Las frecuencias observadas, f0 , y las frecuencias esperadas, f 8 , para todas las casillas en la tabla de contingencias se indican en la tabla 15. 11.
Métodos no paramétricos. Aplicaciones de ji cuadrada l,{~BlA
i 5. 11
569
Frecuencias observadas y esperadas. Readaptación a la vida civil lnsatis-
SitiO: de residencia Excelente después de la liberación f, f,
Bueno
Regular
factorio
Total
f,
f,
f,
t,
f,
f,
Ciudad de origen
27
24
35
30
33
36
25
30
120
120
Otra ciudad
13
16
15
20
27
24
25
20
80
80
Total
40
40
50
50\60
60
50
50
200
200
. . . . ~! . .
t
t
D13beíl ser ig_uáles
··~eUe.pserig!f?1$~
{80)(!\0)
21)!1
Recuérdese que el valor calculado de ji cuadrada se determina por la fórmula (15.1 ):
Comenzando con la casilla superior izquierda:
2 -
X -
(27 - 24)2 24
+
+ (35 -
(13 - 16)2 16
~
0.375
~
5.729
+
30)2 ~ (33 - 36)2 ' (25 - 30) 2 30 ' 36 -,30 (27 - 24) 2 24
+
(15 - 20) 2 20
+
0.833
+ 0.250 +
0.833
+
+
0.563
(25 - 20) 2 20
+ 1.250 + 0.375 + 1.250
Puesto que el valor calculado de ji cuadrada (5. 729) se encuentra en la región ubicada a la izquierda de 11.345, se acepta la hipótesis nula al nivel 0.01. Se concluye que no hay relación entre la readaptación a la vida civil y el lugar donde resida el prisionero después de haber alcanzado su libertad. Para el programa de orientación de la Federal Correction Agency, el ajuste a la vida civil no está relacionado con el lugar donde viva luego el ex convicto.
570
Capil"lo 15 Los resultados del programa MINITAB son los siguientes:
~"'"tonel
GoM
21
3S
fo.u Uno~'·'"t ~3
T<>c"l l2U
Nótese que el valor calculado ele ji cuadrada es el mismo que se obtuvo anteriormente. Además, el valor p se presenta como 0.126. Por tanto, la probabilidad de encontrar una magnitud del valor estadístico de prueba tan grande o mayor, es 0.126, cuando H 0 es verdadera:
Autoexamen 15.4
Actual.mente dada la fuerte economía, el gobierno Federal (de Estados Unidos) estará generan-
do un supe.rál.iít dürante__los.próxi111ós _diez años. En q'i.1_é.gastar·este dinero es un punto de debate_ actual. Las tres opci_ones pri~dpa!_es_son,_reducir l_os impuestos, pagar la deuda o 111ejorar las prestacio"nes de !a seguridad sociaL Se_ clasificó a los integrantes de una muestra de 135 votante$ de acuerdo con su afiliacióíl- ·política y a Su opinión sobre c~1á! de las tres opciones debería_ d~ ser. atendida primero. Los resultados se presentan a continuación. Use el nivel ele significancia 0.05.
Opciones
Reducir-los impuestos Pagar la deuda Mejora_r_las pr~s_taciones _sociales Total
a) b) e) d)
Demócratas Republicanos
18 17 9 44
15 9 36
independientes
10 13 22 45
Total
40 45 40
·125
¿Cómo se le llama a esta tabla? .Establezca la hipótesis nula. Determine el valor de ji ·cuadrada. ¿Cuál es su deCisión respecto a la hipótesis nu!a? Interprete los resultados.
Ejercicios 15. El director de 1nercadotecni2 de un diario metropolitano estudia la relación entre el tipo de comunidad en que el (o la) lector(a) vive y la parte del periódico que lee primero. Para una muestra de lectores, se reunió la información que sigue.
IVlélodos no parnmélricos. Aplicaciones de ji cuadrada
571
His.ior.iel~
Noticias Comunidad
nacionales
Deportes
170 120 130
124 112 90
Urbana Granjera Suburbios
com1cas 90 100 88
Al nivel de signif1cancia 0.05, ¿se puede concluir que existe una relación entre el tipo de comunidad donde la persona resíde y la parte del diario que lee primero? 16. Se están considerando cuatro marcas de lámparas eléctricas para su uso en una gran planta manufacturera. El director de compras pidió muestras de 100 lárnparas cada fabricante. Las cantidades de productos aceptables e inaceptables de cada uno se indican a continuación. Al
nivel de significancia 0.05, ¿existe alguna diferencia en Ja calidad de las lámparas?
Fabricante Productos
A
B
e
D
Inaceptable Aceptable
12 88
8 92
5 95
11 89
100
100
100
100
Total
17. El departamento de control de calidad de la empresa Food Town, !ne., una cadena de tiendas de comestibles en Nueva York, realiza una inspección mensual para comparar los precios registrados con los precios anunciados. El siguiente diagrama resume los resultados de una muestra de 500 artículos en el mes anterior. La administración de !a empresa desearía saber si existe alguna relación entre las tasas de error en mercancía de precio regular y en los artículos de precio especial. Utilice el nivel de signif1cancia 0.0i. Precio regular
Precio especial anunciado
20 15 200
10 30 225
Precio menor Sobreprecio Precio cop·ecto
18. El empleo de teléfonos celulares (o portátiles) en automóviles ha aumentado notablemente en los l1!timos años. El efecto de tal uso en las tasas de accidentes de tránsito es de interés para los peritos viales y para los fabricantes de dichos teléfonos. ¿Es·más probable que alguien que utilice un teléfono celular participe en un accidente de tránsito? ¿Cuál es su conclusión a partir de l_a sig.uiente información muestra!? Utilice el nivel de signi'ficancia 0.05.
Tuvo un accidente en el año pasado
accidente en tal año
No tuvo un
25 50
400
--·----------------------j 300
Usando el teléfono celular ~utilizando el teléfono ce!u!ar
k
~~:ts_- ca.rat:t$rfstidas .ct8_)a::·91=str:_i_?(ICíÜh:-i!- düéldrada .·sO'n: -f!f.._ ~1- _va,fgD_ci,_~ 'J(p~ac{r~d_a::~Lr?.ca_ es_-_.neg~tivo.- .. _-_ B. la distribución jLcuadradáti~ne s~sgo positiYo: C; Existe una familia de dístribuclonesji cuadrada. 1: Cada vez. que ?ªm~ian)qs grad2s de libertad se d~~arrolla .una nuevadistribucion .. 2; Conforme se incrementan los grados de libertad,. la distribución se aproxima a.una dé ~M~
..
Métodos no paramétrícos. Aplicaciones de ji cuadrada
573
574
Capítulo 15 E~tO-·Significa que·. hubo·.50:_:día·s·:én_!os·q_ue;no--s~- recíbió.riinguna solicltUd-de crédito, 77 días :-- en.Jo~tqLIE):·s_ó!_o:se- re_cípió una . _solicitud;--·y.:a_sí sucesivamente._-_ ¿,_Se_ría razonable---.con_cluír que_ la distribución de la población .es la distribución de Poisson con media 2.0?. Use el nivel de signifi_cq~ci~; 0.05'. ~ugerencia:. _P8ra_ encontr~r .ta;:; frecuencias __esperadas· use la distribución d_e Poí_ss:on_-._q_orl''fn~9ia-._2_ ,_Q ..>-_Ef1:C~?ntre_ fa probabi!!dad_ de exactar:ii_ente: un. éxito; dada una dist_ribuciónde 12oisso~ con 111edJa.?.O. Multíplique esta probabilidad. por 300 para encontradatre, cuencia esperada del número de días en los que hubo exactamente .una solicituq de crédito, De manera semejante; obteng~ I~ frecu.encia esperada de los otros días. . . .. 25.Afinale¡¡ de{ siglo XX I¡¡ enipxesap~epDown Mining Company estableció nueyos. lineamien_t_ps_~~'-~'~9_Hfft;i_.a1:L:fa.n_te_s·,cfe_ ~s_t_O)i_._nu~y~EJ 1.i~~_ami:~_ntos_:-_~1.,g_~re,nt_e e~peraba que ~-() hubiera nin~ 99.n ac9lc18:nte .~n 4p% d~ l?s m":~~s, ~O ascidf19té ~Q ~D.<¡-¡; dg tos meses, dos accidentes. en 20% de,lqs me¡;~sy )res . :. h~bp. :15::--~_rse~;-~_'J-_.!q$_ qu_~ no _se._ tuv_o ningl1n a~c_i:. • de~lf), ~fi 'fl~SeS, en IQS qy.e hubo µn a~citj,ente, 2? we,ses enlo~que hubo dos accidentes y12. m.es7s ~n.lo¡;g~e 9ugp.tres
J
N~rilero
Númeró de 'teievlScires.
de hogares 7
3 4 5. o frlás
27 28
Número de hogares
18 10 10
Al niye_ 1_-_d_e·.-_si~_nlfica~ci~_,o;o;?[_¿~s_ razónabté _concluir_que él númer{) de _ap-aratos-_de tefevis¡6n ~prfa~ma,_s_ig_ue_~na di~~ri_b_u~ión non'.la!?). Sugf!rencia_: Uti:llc_~_fflll_i_t~-~-tales como_ 0:50 1 1,5,_etG.) · 27:fa empresa.Eckel Manufaqturingcree que los ¡;ueldo5que paga por hora siguen unadistribU" ción probabílfstica nor111~L confi.rm~r esto, se¡omóunamuestra de 300trabajadores y los re~ultado~fuero~organizados en la siguiente distribució.n. de frecuencias. Determine .la media ylf) d~svlació~•estándarde•estos datos agrupados en tal di~!ribución de.frecuencias.Al nivel _d_e significa_ncia-0.10;-·¿se puede.-concluir rázonabl_em_ent_e.que fa distribución. de salarios (o su_erd_o:3} por _hora s.e·a_proxir1"}_8:.~ una. de _tipo:norma_I?
'.'ª'ª
0
S.uelilo por hora. (US$)
;;:soa 6.5o
20 54 130 68 28 300
7,50 a 8,50 9c50
.·
Frecuencia
~~,O~estJJiQrebi~bte"r~~li~aL
retaci.ón. ~ntre la. importancia que un.gerente daa la P.ubli,cidady el .tamañ.o del e~tab.lecimienc to_ co~ne_rci_a_I_, -_presentó !a información_ ml!estra! que ·sigue_: Importante
No_ importante
p~que~q
40
52
Mediana
106 67
47 32
Grande
¿Cuál es su conclusión? U.tilice el nivel de significancia 0.05.
575
Métodos no paramélrícos. Aplicaciones de ji cuadrada
29. Doscfentos hombres·c1e-diversds niveles-,gerE¡ncial_e_~!_·sel~_écioo_a\:l_os_ al azar, fueron entrevistad~~- con_ respecto a_·:~u int_eré_s o preoc_upación _acerca·d.e_· asuntos ,~mbiental,í?S. _La_ resp_u_~:8.tf de cada personase regtstr~.en una de tres categ'orías: ínterés nu!o;:a!go de interés rgrEin pr~o'.'"'_ Cupaóíó_ri.- Lbs reSL-1ltados fuerolif
' -::·,
Nivel_ dire_étivo
Gerencía:a!ta .Ger'ehcla·média
supervisor U!Hicei el ~iVelde signifiéáricia
preocupación
12 2·1
7. 21
7
28
Jefédegrupo
'Gtarr
·111ga Sin ,i11te-rés_ de interés n 1.5 20 19
6
31
?:?1 para detérl11itiar si existe relación entre el. nivel directivo o
;_'.9~~eilp_i~!-y_ el:: i~t~-~és·_e_n---~suntos :~~--bí_~nta,!~_s:
3(}; Un~studio referente ala relacióQ entre 1.a edad y la presión que el personal de ventas siente c?n'r~.sp:~to. ~--~!J._ t_~ª,~ªJ°,· _p_re_S,~_n_tó_' I~- i~f?_r!Tl~9ió?: mu~str_al :qu_e s1gue .. AI nivet de significancia 0.01: .¿existe algúna.relaciórientre la presión laboral y la edad? NiVel de_ ¡Jré~-iOll:_en el t.r.rihajo Edad (años)
Bajo
Mediano
Menor de 25
20
1.8
Ailo 22
25a40
50
46
44
4o·aso
58
63
5S
soy mayor
34
43
43
31. El departamemo de reclamaeiones de la aseguradora Wisé lnsurance Company considera que los·_conductores· de: auto más jóvenes tíenen:más a:ccideptes y, por tanto, se·!es debe cobrar: cuotas de pólizasmás alülsc El análisis deunamuestrade1 200 personas aseguradas por Wise revetá:--la síguie'nte-.clasifica:ción referente-a _ .s_¡ se habfa. tramitado una demanda.en !os úfti.: fTI·?s:tres·~años·:Y: fa:e,·?ád-del ré,c;!~mante·aseguradó_. _¿Esrazbnabl_e conc!üir que existe..-re!ació'_n entre la edad de .la persona con ·póliza y si ha presentado una demanda (pago de seguro) o n'o? Utilice el nivel de signiflcancia 0.05. Grupos de eda<(es 16a25 25a 40
4oa 55 55 o mayores Total
No hubo demanda
Si hub6 demanda
170 240 400
74 58
44
32;-:S~·.pl:dló_::~::~~a-.-_tTI_u'.eS_tr'~ ·::~-~-\'~~-pl,~~doS_ -e"~-L}jn_~---·~:r,~rr~_p/a:nta:-:_í'nduStría! _quí!Tli_cEt :qúe- i_ndicara su
preferencia por?~º d<'! t_r~s_plane~pepensi?n~t~tir9.tos.r~s~ltados se presentan .en la.tabla
q_ll~,-s_igu_ ei-·_¿~_~f9_~e ·hti~\~::~lgurt~-- t9_!aciór¡ ___~!1tr~.: e_rp_la~.{1~_-P~nS,,ión _seleccionado y la.c!as_ifica:. cióndeltrabajódelos empleados?Utillcee_I nivel designlfoanéía 0.01.
Pl
~~---1
Cfase de trabajo
Plan A
PlariB
·ro
13
!---+-------~·
SJpervisor Ofiéinista Obrero
-~~-'c---1
576
Capítulo 15
Métodos no paramélricos. Aplicaciones de ji cuadrada
577
578
Capitulo 15 3. Los comandos deMINITAB.para el análisís, empleando ji cuacirada, presentado en la página 570 son: a) . Introduzca el hombre. de las variables en el primer renglón y los datos en Jos dos siguientes· rénglones-:Como:'Se··muestra- en Ja· pantalla siguiente. b) E!lja Stat, Table y después presione. en ChF-square test y_ presione· en_.Entér• •9) .Eq la.venta~.acle.dii\logo.elij¡ot..laswlymnas.desdeOutstandíng .hasta.Unsatísfactoryy pub en OK
se
Res¡:nmstas al autoexamen a} Frecuencías observadas. 15.3 33.696, que se .obtiene mediante z = (60 - .. b) Seis (seis dlas de. la semana}. 54.03)113.76 = 0.43 yz = (70- 5!L03)/13.76=1.16 .. e) 1o. Totál de frecuencias observadas + 6 o; 60/6 Después 0.3770- 0.1664 = 0.2106 y 0.2106 x 160 = 10. = 33.696. d) 5; i<-1 = 6 - 1 = 5. . . 15.4 a} Tabla de contingencias. e) 15.086 (ele la tabla de ji cuadrada en elapéndi· ·' b) No existe relación entre el niVef económico y !a ce 1). filiación política. <''.••.······ ,.., •..: k•\J,<'•>c;ú< e) El valor de ji cuadrada se completa a partir de • la siguiente tabla: . ·
13
16.20
22
14.40 45.00
El valor crítico de ji cuadrada es 9.448,.por lo .
·
que Se r8chaza H0 .
"/ . ·
.
.
·
.
d) Existe una relación entre el nivel ele educación ·. y t~ frecuencia de !a actlvídad socia!. · ·
Métodos no paramé!ricos. Análisis de datos orde11ados por rango
581
Introducción En el capítulo 15 se trataro1 las pruebas de hipótesis no paramétricas -o libres de distribución-. Se subrayó que la prueba de bondad de ajuste es muy útil para el nivel nominal de medición. (Recuérdese del capítulo 1 que en el nivel nominal de medición los datos sólo se pueden clasificar en categorías y que no hay un orden entre éstas.) El objetivo de estas pruebas es determinar si un conjunto de frecuencias observadas, f0 , difiere en forma significativa de otro conjunto correspordiente de frecuencias esperadas, f,. En forma similar, si se tiene interés en la relación entre dos características, como la edad de un individuo y su preferencia musical, se introduce la información en una tabla de contingencias y se usa la distribución ji cuadrada como estadístico de prueba. En estos dos tipos de problemas no es necesario considerar la forma de la población. No se requiere suponer, por ejemplo, que la población de interés tiene distribución normal, como se hizo en las pruebas de hipótesis en los capítulos 1O a 12. Este capítulo es una continuación de las pruebas de hipótesis desarrolladas especialmente para datos no paramétricos. Sin embargo, en lugar de ser aplicable a datos de nivel nominal, estas pruebas requieren que las respuestas sean cuando menos de nivel ordinal. Esto es, las respuestas se pueden clasificar por rangos de menor a mayor. Un ejemplo de ordenación por rango (o jerarquía) son 'os títulos de funcionarios o ejecutivos. Los ejecutivos tienen rangos, vicepresidente adjunto, vicepresidente, vicepresidente ejecutivo y presidente ejecutivo. El vicepresidente tiene un rango más elevado al de un vicepresidente adjunto; un vicepresidente ejecutivo tiene un rango superior al de un vicepresidente, etcétera. En este capítulo se considerarán cinco tipos de pruebas libres de distribución y el coeficiente de correlación de rango de Spearman. Estas pruebas son: la prueba del signo, la prueba para la mediana, la prueba de rangos con signo de Wilcoxon, la prueba Wilcoxon de suma de rangos, el análisis de varianza por rangos de Kruskal-Wallis.
La prueba del signo La prueba del signo se basa en el signo de una diferencia entre dos observaciones correspondientes. Generalmente se utiliza el un signo "más" para designar una diferencia positiva, y el signo "menos" para designar una diferencia negativa. Por ejemplo, si unas ventas aumentan desde $34 698 (dólares) en el mes de octubre, hasta $51 276 en el mes de noviembre, la diferencia de $16 578 se registra como un signo más. Si una producción disminuye de 98 000 computadoras en el primer trimestre, a 51 000 en el segundo, se registra un signo menos. En una prueba del signo, no se toma en cuenta la magnitud de la diferencia, sólo el sentido (o dirección) de la misma. La prueba de signo tiene muchas aplicaciones. Una es en los experimentos de "antes y después". Como ejemplo, supóngase que se hace una evaluación de un nuevo programa de afinación de motores de automóvil. Antes de la afinación se registra el rendimiento, en millas recorridas por galón de gasolina, loanterior se repite después de la afinación. En teoría, si !a afinación no fue eficaz, es decir, no tuvo efecto en el rendimiento del automóvil, entonces aproximadamente la mitad de los automóviles probados mostrará un aumento en la cantidad de millas recorridas por galón, y la otra mitad, una disminución. A un aumento se le asigna un sig-
no"+" y a una diminución, e! signo"-". Un experimento producto-preferencia ilustrará otro uso de la prueba del signo. Una empresa envasadora de café, Taster's Choice, vende dos clases de café en frascos de 4 onzas: descafeinado y normal. Su departamento de investigación de mercado desea determinar qué tipo de café prefieren los consumidores, descafei-
582 nado o normal. A un grupo de consumidores ele café se les dan dos tazas ele café sín marca alguna, y se les pregunta cuá! prefieren. La elección de! descafeinado puede cocli"ficarse como"+", y la preferencia por el normal como"-". En cierto sentido los datos son de nivel orclinal, porque los consumidores otorgan al producto que prefieren el rango más alto, y otorgan a la otra clase un rango inferior. Como en el caso anterior, si !os consu111iclores no tienen preferencia alguna, se espe1·aría que la.mitad de.la muestra de consumidores de café prefieran el descafeinado, y la otra mitad, el normal. Con un e¡emplo puede demostrarse mejor la aplicación de la prueba del signo. Se utilizará un experimento de "antes y después",
EJEMPLO
El director de informática de la compañia Samuelson Chemicals recomendó un programa de capacitación en computación "en planta" para los gerentes. El objeto del programa es mejorar la capacidad en e! uso de con1putadoras en contabilidad, adquisiciones, producción y otras operaciones. Algunos de los gerentes opinaron que el programa sería útil; otros no estuvieron de acuerdo y argun1entaron que no tendría valor alguno. A pesar de las objeciones, se anunció que el programa comenzaría el primer día del mes. Se eligió al azar una muestra aleatoria de 15 gerentes. Antes de comenzar el programa, un grupo de expertos determinó el nivel general de habilidad en computación de cada uno de los gerentes. Sus l1abilídades y comprensión se calificaron como sobresaliente, excelente, bueno, aceptable o deficiente (véase la tabla 16.1). Después del programa de capacitaciór, de tres meses, el mismo grupo de expertos en computación evaluó de nuevo a cada gerente. Se muestran las dos calificaciones (antes y después) con el signo de la díferencía. El signo "+" índica mejoría, y el signo "-" indica disminución en la habilidad en computación después del programa de capacitación. TABU\ 16.1
}-labilidades antes y después de asistir al prognnna de capacitación en co1nputacíón. Nombre
Antes
Después
T. J. Bowers Sue Jenkins James Brown Tad Jacl.;son áy-hm Saral1 Truett John Sinshi Jean Unger Coy Farmer Troy Archer V. A. Janes Coley Casper Candy Fry Arthur Seiple Sancly Gumpp
Bueno Aceptable Excelente Deficiente
Sobresaliente Excelente Bueno Bueno li'.HGe!er.te Sobresaliente Aceptable SobreSalíente Deficiente Bueno Sobresaliente Excelente Acept¡¡ble Sábresáliente Bueno
~xee-leRte
BuBno Deficiente Excelente Bueno Deficiente Bueno Aceptable Bueno Bueno Deficiente
Signo de diferencia
+ + + ·O-
--
+
+ + + + + +
Se quiere determinar si el programa de capacitación fue efectivo para mejorar la habilidad de los gerentes en materia de computación, Esto es, ¿los gerentes están mejor habilitados después ele cursar el programa de capacitación?
SOlUClÓ~l
Se empleará el procedimiento de cinco pasos para prueba de hipótesis. Paso 1:
Establecer la hípótesís nula y la hipótesis alternativa.
Métodos no parnmélrócos. Análisis de datos ordenados por rango Hipótesis
Significado
H0: '1T :s; 0.50
No hay aumento en la habilidad como resultado clel programa de capacitación en computación. Ha aumentado la habiliclacl en computación de los gerentes .
H,. 11 > 0.50
583
.
El símbolo 1T se refiere a la proporción de la población con una determinada característica. Si no se rechaza la hipótesis nula, ello indicará que el programa de capacitación no produjo ningún cambio la habilidad en computación, o que ésta ha disminuido. Si se rechaza la hipótesis nula, esto significará que la habilidad en computación de los gerentes ha aumentado, como resultado del programa de capacitación. La distribución binomial expuesta en el capítulo 6 se usa como estadístico de prueba. Esta distribución es apropiada porque la prueba del signo satisface los requisitos binomiales, que son:
en 21cción
1. Sólo hay dos resultados posibles: "éxito" y "fracaso". Un gerente aumentó su capacidad en computación (éxito), o no (fracaso). 2. Se supone que la capacidad de éxito en cada ensayo es 0.50. De manera que la probabilidad de éxito es la misma en todos los ensayos (gerentes en este caso). 3. El número total de ensayos es fijo (15 en este experimento). 4. Cada ensayo es independiente. Esto significa, por ejemplo, que el aprovechamiento de Arthur Seiple en el curso de tres meses no está relacionado con el de Sandy Gumpp. Paso 2: Paso 3:
c¡iie se ,5iéilfon
Seleccionar el nivel de significancia. Se escoge el nivel 0.1 O. Decidir cuál será el estadístico de prueba. El estadístico de prueba será el número de signos más que se obtengan en el experimento (11 en este caso). Paso 4: Formular una regla de decisión. En el curso de computación se inscribieron 15 gerentes, pero Andy Lave no mostró aumento o disminución de habilidad (véase la tabla 16.1.) De modo que se le eliminó del estudio, y entonces n ~ 14. De la tabla de distribución de probabilidades binomiales, en el apéndice A, paran~ ·14 y una probabilidad de 0.50, se copió la distribución de probabilidad binomial mostrada en la tabla 16.2. El número de éxitos se localiza en la columna 1; la probabilidad respectiva, está en la columna 2; y la probabilidad acumulada, en la columna 3. Para obtener las probabilidades acumuladas se suman las probabilidades de éxito ele la columna · 2, de abajo llacia arriba. Por ejemplo, para obtener la probabilidad acumulada de 11 éxitos o más, se suman 0.000 + 0.001 + 0.006 + 0.022 ~ 0.029. Esta es una prueba de una cola debido a que la hipótesis alternativa señala una dirección. El signo de desigualdad(>) apunta llacia la derecha. Por tanto, la región de rechazo está en la cola derecha. Si el signo de desigualdad apuntara hacia la izquierda (<), la región de rechazo estaría en la cola de izquierda. Si ese fuera el caso, se sumarían las probabilidades de la columna 2, de arriba hacia abajo, para obtener las probabilidades acumuladas que figuran en la columna 3. Recuérdese que se seleccionó el nivel de significancia 0.1 O. Para obtener la regla de decisión, se va a las probabilidades acumuladas en la columna 3, de la tabla 16.2. Se lee ele abajo hacia arriba hasta llegar a la probabilidad acumulada más cercana, sin exceder al nivel de significancia (0.10). Esta probabilidad acumulada es 0.090. El número de éxitos (signos "más") en la columna 1 que corresponde a 0.090, es 1O. En consecuencia,
584
Gapítulo 16
la regla de decisión es: si el número ele signos positivos en la muestra es
"''
mayor o igual a 1 O, se rechaza la hipótesis nula y se acepta la hipótesis alternativa.
~
TABLA 16.2
Distribución de probabilidad binon1ia1paran=14,
(1) Número de éxitos
o 2 3 4 5 6 7 8 9 10
11 12 13 14
(2) Probabilidad
= 0.50.
(3)
1
Se suma hacia arriba
1.000 0.999 0.998 0.992 0.970 0.909 0.787 0.604 0.395 0.212 0.090 0.029 <--------0.000 + 0.001 + 0.007 0.006 + 0.022 0.001 0.000
Repitiendo: Se suman las probabilidades hacia arriba desde la parte inferiar debido a que el sentido de la desigualdad (>) apunta a la derecha, lo que indica que la región de rechazo está en la cola derecha. Si el número de signos positivos en la muestra es igual o mayor que 1O, se rechaza la hipótesis nula; de otra manera no se rechaza H 0 . La región de rechazo se ilustra en el diagrama 16.1.
o
OIAGRAMA16.1
~
Probabilidad acumulada
de éxito 0.000 0.001 0.006 0.022 0.061 0.122 0.183 0.209 0.183 0.122 0.061 0.022 0.006 0.001 0.000
'IT
~;
f'. •
·.••-·'_ -.·_;._·•·. ·
-~
2 3 45 6 7 8 g '!011121314 Número de éxítos (número de signos+)
Regiónderechazo,n=l4, 1T:::::0.50.
¿Qué procedimiento se sigue en una prueba con dos colas? Se suman las probabilidades de éxito en las dos colas hasta estar tan cerca de a como sea posible, pero sin sobrepasarla. En este ejemplo, a es 0.10. La pro-
~-'
585
Métodos no paramélricos. Análisis de datos ordenados por rango babilidad de 3 o menos éxitos es 0.029, obtenida de 0.000 + 0.001
+ 0.006
+ 0.022. La probabilidad de 11 o más éxitos también es 0.029. Sumando
Paso 5:
las dos probabilidades se obtiene 0.058. Esto es lo más que se puede acercar a 0.10 sin sobrepasarlo. Si se hubieran incluido las probabilidades de 4 y 10 éxitos, el total hubiera sido 0.180, que es mayor que 0.1 O. Por tanto, la.regla de decisión en una prueba de dos colas sería rechazar la hipótesis nula si hay 3 o menos signos positivos, u 11 o más signos positivos. Tomar una decisión respecto a Ja hipótesis nula. Once de los 14 gerentes que asistieron al curso de computación, aumentaron su habilidad en esa materia. El número 11 está en la región de rechazo, que empieza en 1O, de modo que H0 se rechaza. El curso de computación de tres meses fue efectivo. Con este curso aumentó la habilidad en computación de los gerentes.
Debe hacerse notar nuevamente que si la hipótesis alternativa no establece una dirección, 0.50, la pruepor ejemplo, H 0 : 11 = 0.50 y H 1 : "IT ba de hipótesis es de dos colas. En tales casos habrá dos regiones de rechazo: una en la cola izquierda y otra en la cola derecha. Si a = 0.10 y la prueba es de dos colas, el área en cada cola es 0.05, ya que (a/2 = 0.10/2 = 0.05). Esto se ilustra en el autoexamen 16.1.
*
Autoexamen 16.1
Diríjase de nuevo al problema de la empresa Taster's Choice descrito en la página 581, de una prueba a consumidores para determinar sü preferencia pór el café descafeinado o regular. Las hipótesiS· hu/a y· 'alternativa son:
H0 : ri = 0.50 H1 : '1T =f. 0.50
n = 12
Cl=0.10
a) ¿Esta prueba de hipótesis es de una o de dos colas? b) Muestre la regla de decisión en un diagrama. c) Siendo"+" la preferencia del consumidor por el café descafeinado, y"-" la preferencia por el café normal, se-encontró que dos cliéntes preféríari:.eLdescafeinado. ¿Cuál es su decisión? Explique.
Ejercicios Ti*
1. Se da el siguiente caso de prueba de hipótesis: H 0: 0.50 y H 1: TI> 0.50. El nivel de signiflcancia es 0.1 O y el tamaño de la muestra, 12. aj ¿Cuál es la regla de decisión? b) Existen nueve éxitos. ¿Cuál es su decisión respecto a la hipótesis nula? Explique. 2. Se da el siguiente caso de prueba de hipótesis: H0 : TI:::: 0.50 y H 1: TI* 0.50. El nivel de significancia es 0.05 y el tamaño de muestra, 9. aj ¿Cuál es la regla de decisión? b) Existen cinco éxitos. ¿Cuál es su decisión respecto a la hipótesis nula? 3. Una compañía que produce alimentos para el control de peso ofrece desayunos, comidas y cenas bajos en calorías. Sus afiliados recibirán dos alímentos por día. La compañía, Calorie Watchers, asegura que se puede comer !o que se desee como tercer alimento, y aun así per-
586
Capítulo 16 der cuando menos cinco libras de peso corporal durante e\ primer mes. A los participantes se les pesa antes de comenzar el progran1a y nuevamente al final del primer mes. La experiencia de los integrantes de una muestra aleatoria de i i participantes es:
Nombre
Cambio en eU peso
Nombre
Cambio en el peso
Foster Taoka Lange Rousos
- Pérdida--Pérdida Aumento Pérdida Sin cambio Pé:clida
Hercher Camder Hinc\.;le
Pérdida Pérdida Pérdida Pérdida Pérdida
Stephens Cantrell
Hinkley Justin
Se quiere saber sí ha habido pérdida de peso como resultado del programa.
a) Establezca H0 y H 1. b) Usando e\ nivel de significancia 0.05, ¿cuál es la regla de decisión? e} ¿Cuál es su conclusión respecto a este progra111a? 4. Muchos.corredores de valo.re.s con poca experiencia se resisten a hacer presentaciones ante banqueros y otros grupos,;:Ar.per,c.i.blr esta fatt.~_ de co_nfianza ~Ji-ellos mismos, la dirección hizo arreglos para que un gr.upo. muestra de nUeVos. c_orre.dcir8s .asistiera a un seminario para lograr la autoestima; contrató así· a una organi:~?tlón ·de cap~citaCión para que impartiera un curso de tres semanas. Ante,~ de .1~ p.ritílera~_j.e;S·ión', · 1_os_ in.st[uc'tOres midieron el nivel de confianza de cada participante y v?IY_i7ron a. meC.iir!q.des!}ués. de concluido el seminario. Los niveles de autoestima antes y .despLiéS para los i 4 aSistentes al curso, se indican a continuación. La autoestima se clasificó co.ñiO negativa, baja, alta o mUy alta. Antes del Corredor
seminario
Después del . _se~¡nario
J. M. Martin T. D• Jagger
Negativa Negativa
Baja
A. D. Hammer
Baja Muy alta
Alta Baja Alta Alta Alta
T. A. Janes, Jr. J. J. Cornwall D.A. Skeen C. B. Simmer
Bajél
Baja Negativa
Negativa
Corredor F. M. Orpl1ey C. C. Ford A. R. Utz M. R. Mu1plly P. A. Arms B. K. Pierre
N.S. Walker
Antes del
Después del
seminario
seminario
Baja Baja
Muy alta Alta Baja Alta Baja Alta Muy'al.ta:
Negativa
Baja Negativa
Baja Baja
, •' .
.·
....
El objetivo de dicho estudio es verificar la efectividad de la organización que imparte la capacitación, para elevar \a autoestima de los corredores. Esto es, ¿fue mayor el nivel ele autoestima despu~s de! seminario? Ltilice·el nivel de significancia 0.05.
a) Establezca las hipótesis nula y alternativa. b} Usando el nível de significancia 0.05; exprese la regla de decisión con palabras, o bien 111ediante un diagrama. e} Llegue a, una conclusión respecto a\ se1ninario ofrecido. "T ·~¡ ''' l)so_~:~ ap~ox1n1~~,~1
' ºl I'...orrna1a11a101no1n1a.
Si el núrnero de observaciones en la muestra es rnayor que 1 O, se puede usar la distribución norrnal para aproximar la binomial. Recuérdese que en el capítulo 6 se calculó la media de la distribución binomial empleando la fórmula I' = Tin. y la desviación estándar a partir de
· Métodos
"º parnmétricos. Análisis de datos ordenados por rango
587
Si el número de signos més, o signos 111enos, es mayor que n/2, se usa la forma siguiente como el estadístico de prueba:
PRlJEBJ\.DELSIGNO, MUESTRA GRANDi::,l\l(i!lllERQ.PE SIGNOS(+) MAYOR QUE n/2
.
(X - 0:50) - µ,
(X - 0.50).., 0.50n
v
cü)ó\Tn
z-=-----~=
Si el número de signos más o menos es menor que n/2, el estadístico de prueba z es
!'RUEBA DE 81GNQ,.!1i1UEST.RA GRAl\IDE, l\IÚMl;RO DE SIG.!'JOS., (+) M~NOR<;!Ui; 17/2 .. .
(X+ 0.50) - 0.50n
(X+0.50)- fJ:_ u
0.50Vn
{16.3]
1
En las fórmulas anteriores, X es el número de signos más (o menos). El valor +0.50, o -0.50, es el factor de corrección de continuidad, presentado en el capítulo 7. En pocas palabras, este factor se aplica cuan.do una dístribuci.ón continua, como la normal (que es la que se está utilizando), se empleapara aproximar una distribución discreta (la binomial).
!EJEMPLO
SOLUCIÓN
Una empresa de refrescos ha encomendado a su departamento de investigació~;de rn~r cado poner a prueba un nuevo producto. Se .consideran dos versiones de la b~IJida: una con sabor dulce y otra algo amarga. Se realizará una prueba de preferencia· con .t,ma muestra de 64 consumidores. Cada uno probará la versión dulce (marcada A) y la amarga (marcada B) e indicará cuál prefiere. ¿Cómo se deberá efectuar la prueba de hipótesis y qué bebida, si hay alguna, tiene mayor preferencia? Paso 1:
Establecer las hipótesis nula y alternativa. H0: TI= J.50 0.50 H 1:
TI*
Paso 2: Paso 3:
No hay preferencia Hay preferencia
Seleccionar el nivel de significancia. El nivel de significancia es 0.05. Seleccionar el estadístico de prueba. El estadístico de prueba es z, que está dado por la fórmula (16. 1). (X± 0.50) - 1~
z~~--~-
Paso 4:
donclé µ, = 0.50n y u= 0.50Vn. Formular una regla de decisión. Consultando el apéndice D, áreas bajo la curva normal, para una prueba de dos colas (debido a que H 1 establece que " 0.50) y el nivel de significancia 0.05, los valores críticos son +·1.96 y -1.96. Recuérdese del capítulo 1O que en una prueba de dos colas, la región de rechazo se divide a la mitad y se coloca una mitad en cada cola. Esto es, a/2 = 0.05/2 = 0.025. Continuando, 0.5000 - 0.250 = 0.4750, Buscando para 0.4750 en el cuerpo de la tabla y leyendo el valor de z en el margen izquierdo, se obtiene 1.96, el valor crítico. En consecuencia, no se rechaza Ha s·1 el valor calculado para z está entre+ 1.96 y 1.96. De otra forma, se rechaza Ha y se acepta 1-11 . Calcul.ar z, comparar el valor calculado con el valor crítico, y tomar una decisión respedo a Ha. A la preferencia por el refresco A se le asignó un''+", y a la preferencia por el refresco B, un "-".De los 64 consumí-
*
Paso 5:
Capítulo 16
588
dores en la muestra, se tiene que 42 prefirieron el refresco dulce, A. En consecuencia, hay 42 signos positivos. Puesto que 42 es mayor que n/2 = 64/2 = 32, se usa la fórmula 16.2 para calcular z:
z=
(X - 0.50) - 0.50n
(42 - 0.50) - 0.50(64)
0.50Vn
0.50v'64
=
2.38
El valor calculado para z, que es 2.38, está más alla del valor crítico 1.96. Por tanto, al nivel de sígnificancia 0.05, se rechaza la hipótesis nula "no hay diferencia". Por tanto, sí hay diferencia en la preferencia de los consumidores. Esto es, se concluye que los consumidores prefieren uno de los refrescos. El valor p es la probabilidad de encontrar un valor z mayor que 2.38 o menor que -2.38. Del apéndice D se obtiene: la probabilidad de encontrar un valor de z mayor que 2.38 es 0.5000 - 0.4913 = 0.0087. Por tanto, el valor p para dos colas resulta ser 0.0174. En consecuencia, la probabilidad de que la hipótesis nula sea verdadera es menor que 2%.
Autoexamen
16.2
El Departamento dé Recursos Humanos de una gran planta de ensamble de automóviles comenzó, a principios de año, a monitorear y dar educación acerca de la presión arterial a 100 -~m_pl~~do~-~-ª-1__dep~rtam_e:n_to d_e pint~r~·- C_o_mo_segu\rniento, en juH~ se monitoreó de. nu_evo=.-la pr,.sión de_ los 100 trabajadores, y 80 mostrnron una reducción. ¿Se puede concluir que el mo'
nitor13_o·c6nt_rí_buyó_ a !:a redu_cci~n d_e la presión arterial? a) · Enuncielas hipótesis _nula y alternativa. b) ¿Cuál es lá regla de decisión para un nivel dé significancia 0.051 c) Calcule el Valor del estadístico de prliebac el) ¿Cuál es sll decisión respedo a la hipótesis nula? e) Interprete su decisión.
Ejercicios 5. Una muestra de 45 varones con sobrepeso participó en un programa de ejercicios físicos. De ellos, 32 mostraron pérdida de peso al terminar e! programa. Al nivel de signíficancia 0.05, ¿se puede concluir que el programa tuvo éxito? a) Enuncie !a hipótesis nula y la hipótesis alternativa. b) Establezca la regla de decisión. c) Calcule el valor del estadístico de prueba. d) ¿Cuál es su decisión acerca de la hipótesis nula? 6. A una muestra integrada por 60 estudiantes universitarios se le aplicó un programa especial de capacitación diseñado para mejorar la habilidad para el estudio y la administración del tiempo. Un mes después de terminar el curso, se pidió a !os estudiantes que informaran si las habilidades aprendidas en el programa fueron eficaces. De ellos, 42 respondieron afirmativamente. Al nivel de significancia 0.05, ¿puede concluirse que e! programa fue efectivo? a) Enuncie las hipótesis nula y alternativa. b) Establezca la regla de decisión. c) Calcule el valor del estadistico de prueba. el} ¿Cuál es su decisión respecto a la hipótesis nula? 7. Un restaurante anunció que en la noche de! jueves el menú consistirá en platillos nuevos propios de gourmets: calamar, liebre, caracoles de Escocia y verduras diente de león. Como parte de una investigación más amplia, se preguntó a una muestra de 81 clientes habituales si preferían el menú norma! o el menú nuevo para gourmet; 43 eligieron este últi1no. Utillzando la prueba del signo y el nivel de confianza 0.02, pruebe si a los clientes les agradó más el nuevo menú que el común. Justifique su conclusión.
Métodos no paramé!ricos. Análisis de datos ordenados por rango
589
8. Los operarios de ensamble en una industria de computadoras solamente arman uno o dos subensambles y los insertan en un bastidor. Los directores de la compañía creen que los empleados estarían más satisfechos con su trabajo si armaran todos los subensambles y probaran la computadora terminada. Se selecciona una muestra de 25 trabajadores para experimentar la idea. La hipótesis nula es que !os empleados no tienen preferencia. Después de un programa de capacitación, se preguntó a cada trabajador su preferencia. A 20 les agradó la acción pro-
puesta. Al nivel de significancia 0.05, use la prueba del signó para tomar a una decisión respecto a la preferencia de los trabajadores. Explique los pasos que siguió para tomar su decisión.
Prueba de una hipótesis acerca de la mediana La mayor parte de las pruebas de hipótesis que hasta ahora se han realizado están relacionadas con la media poblacional o con una proporción. La prueba del signo es una de las pocas pruebas que se pueden usar para verificar el valor de una mediana. Recuérdese del capítulo 3 que la mediana es el valor tal que la mitad de las observaciones son mayores que él, y la otra mitad de las observaciones son menores que dicho valor. Dados los salarios por hora (en dólares) de $7, $9, $11 y $18, la mediana es $1 O. La mitad de los salarios son mayores que $1 O y la otra mitad, menores que $10. Para realizar una prueba de hipótesis, a un valor superior al de la mediana se le asigna un signo positivo. y a un valor inferior al de la mediana, un signo negativo. Si un valor es igual a la mediana, se elimina del análisis. El procedimiento es idéntico al seguido en la prueba del signo, con muestra pequeña y con muestra grande.
EJEMPU:l
En un estudio realizado hace algunos años por el Customer Research Department of Superior Grocers (en Estados Unidos) se encontró que la mediana del gasto seman.al en comestibles. de una pareja joven, es $123 (dólares). A la vicepresidente ejecutiva le gustaría repetir la investigación paca ver si esta mediana ha variado. Según la nueva información muestra! de Customer Research, en una muestra aleatoria, tomada la semana pasada, de 102 parejas jóvenes, 60 gastaron más de $123; 40 gastaron menos de $123, y 2 gastaron exactamente $123. Al nivel de significancia 0.01, ¿es razonable concluir que el gasto mediano no es igual a $123?
SOLUCIÓN
Si la mediana poblaciona! es $123, se esperaría que aproximadamente la mitad de las parejas muestreadas hubiera gastado más de $123, la semana pasada. y la mitad, menos de $123. Después de eliminar a las dos parejas que gastaron exactamente $123, se esperaría que 50 hubieran tenido un gasto superior a la mediana, y 50, un gasto inferior a ésta. ¿Es la diferencia encontrada atribuible a la casualidad o ha tomado la mediana un valor diferente de $123? La prueba estadística para la mediana ayudará a responder a esta pregunta. Las hipótesis nula y alternativa son: H0 : Mediana= $123 H 1 : Mediana* $123 Esta es una prueba de dos colas porque la hipótesis alternativa no indica ninguna dirección. Es decir, no interesa si la mediana es mayor o menor que $123, sólo si es diferente de $123. El estadístico de prueba satisface las suposiciones binomiales. Es decir: 1. Cada observación es mayor o menor que la mediana propuesta, por lo que sólo hay dos resultados posibles. 2. La probabilidad de éxito permanece constante en 0.50. Es decir, Tr = 0.50. 3. Las parejas elegidas como parte de la muestra representan ensayos independientes. 4. Se cuenta el número de éxitos en un número fijo de ensayos. En este caso tenemos 1DO parejas y contamos cuántas gastan más de $123 en comestibles.
590
Capítulo 16
Sin embargo, dado que el tamaño de la muestra es "IOO y TI = 0.50, se tiene que nTI = 100(0.50) = 50 y n(1 - "IT) = 100(·1 - 0.50) = 50, son ambos mayores que 5. Por tanto se usa la distribución normal para aproximar la binomial. Es decir, se emplea la distribución normal estándar como estadístico de prueba. El nivel de significancia es 0.1 O, de manera que CJ./2 = 0.10/2 = 0.05 del área se encuentra en cada cola de la distribución normal. En el apéndice D que muestra las áreas bajo la curva normal se encuentran los valores críticos que son -1.65 y 1.65. La regla de decisión es rechazar H0 si z es menor que -1.65 o mayor que 1.65. Dado que 60 es mayor que n/2 (100/2 = 50), se usa la fórmula 16.2 para calcular z.
z=
(X - 0.50) - 0.50n
(60 - 0.50) - 0.50(100)
0.50Vn
0.50\(i(jO
=
1.90
Como el valor calculado para z, que es 1.90, es mayor que el valor crítico, 1.65, se rechaza la hipótesis nula. El gasto semanal mediano en comestibles de una pareja joven no es $123. En esta prueba el valor pes 0.0574, que se obtiene de 2(0.5000 -0.4713).
-
..
. . .
---~--~-~--¡
Despüés-de recibir'_d81 Custonieí Res'eaÍCh Oepartnient"los resultadOs sobre la media del gasto semanal en comestibles-de una parej'a joven; el presídente ejecuti\/o ele Superior Grocers se pregunta si la mediE111a es la misma en las parejas de adultos mayores. En este caso él quiere que el Customer Research Departmeni investigue si la_ medi~na del g_asto semanal en comestibles de una pareja de adultos mayores es superior a $123. En una muestra de 64 parejas de adultos
mayores se encontró que 42 gastaron más de $123. Use el nivel de
¡I'
1
i ! 1
sig:~lica~c1a ~O~.....~..~~~J
Ejercicios 9. En una revista sobre comercio se afirma que el sueldo inicial mediano de los ingenieros en sistemas es $80 000 (dólares). Un grupo de recién egresados encuentra esta cantidad muy baja. De los 205 ingenieros en sistemas de una muestra, i 70 empezaron con un sueldo superior a $80 000 y 5 con exactamente $80 000. a) Establezca las hipótesis nula y alternativa. b) Establezca la regla de decisión. Use el nivel de significancia 0.05. e) Realice los cálculos necesarios e interprete los resultados. i O. Una compañía aérea (Central .Airlines) afirma que la mediana del precio de un boleto de viaje redondo a cierto destino, es $503 (dólares). Esta aseveración fue puesta en duda por la Asociación de Agencias de Viajes. que considera que la mediana es menor que dicho valor. Para resolver el asunto, se seleccionó una. muestra aleatoria de 400 boletos de viaje redondo. De éstos, 160 costaron menos de $503. Ninguno de los boletos era exactamente de $503. Sea a=
0.05.
a} Establezca las hipótesis nula y alternativa. b) Tome una decisión respec:o a la controversia.
Prueba de rangos consigno d~ vVilcoxoi~~ La prueba t por pares, expuesta en el capítulo 11, tenía dos requisitos. Primero, las muestras deben ser dependientes. Recuérdese que las muestras dependientes se caracterizan por una medición, algún tipo de intervención, y después otra medición. Por ejemplo, una compañía grande inició un programa de "salud" al inicio del año. Supóngase que 20 trabajadores se inscribieron en la parte de pérdida de peso corporal. Al empezar el programa se pesó a tocios los participantes. Después éstos llevaron una dieta e hicieron ejercicio para bajar de peso. Al final del programa, que duró 6 meses, todos los participantes fueron pesados de
Métodos no paramétrioos. Análisis de datos orde11ados por rango
591
nuevo. La diferencia en el peso inicial y final es la variable de interés. Nótese que hay una medición, una intervención, y después otra medición. El segundo requisito en la prueba t por pares es que la distribución de las diferencias siga una distribución normal. En el ejemplo del programa de salud, eso requeriría que las diferencias de peso de los 20 participantes siguieran la distribución normal. En ese caso, esta suposición es razonable. Sin embargo, existen casos en los que se desea estudiar las diferencias entre observaciones dependientes pero no se puede suponer que la distribución de tales diferencias se aproxima a una distribución normal. Frecuentemente se tiene un problema con la suposición de normalidad cuando el nivel de medición en las muestras es ordinal, y no de intervalo o de razón. Por ejemplo, supóngase que en una clínica hay 1 O pacientes de cirugía, y el supervisor de enfermeria pide a las enfermeras Benner y Jurris.que los evall1en según una escala del 1 al 1 O, con base en la dificultad que implica su cuidado. La distribución de las diferencias probablemente no se aproxime a la distribución normal, y en consecuencia, la prueba t por pares no será apropiada. En 1945, Frank Wilcoxon desarrolló una prueba no paramétrica basada en las diferencias en muestras dependientes, en la que no se requiere la suposición de normalidad. Tal prueba se conoce como prueba de rangos con signo de Wílcoxon. El siguiente ejemplo detalla su aplicación.
EJEMPLO
Fricker's es una cadena de restaurantes familiares localizados principalmente en la parte sureste de Estados Unidos. En él se ofrecen comidas completas, pero su especialidad es el pollo. Recientemente, Bernie Frick, el dueño y fundador, desarrolló un nuevo sabor para la mezcla en la que se cocina el pollo. Antes de reemplazar el sabor actual por el nuevo, desea realizar algunas pruebas para estar seguro que a los comensales les gustará inás el nuevo sabor. Para comenzar, Bernie selecciona una muestra aleatoria de 15 clientes. A cada miembro de la muestra se le da una prueba, una porción del pollo actual y se le pide que califique su sabor general con una escala del 1 al 20. Un valor cercano a 20 indica que al participante le gustó el sabor, mientras que una calificación próxima a O indica que no le agradó. A continuación, a ''os mismos 15 participantes se da una porción del platillo con el nuevo aderezo, y se les pide que califiquen su sabor. Los resultados se muestran a continuación. ¿Es razonable concluir que la gente prefiere el nuevo sabor? Utilice el nivel de significancia 0.05.
Participante Arquette
Janes Fisll Wagner Baclenhop Hall Fow!er Virost
Calificación nuevo sabor
Calificacíón sabor actual
14
12
8
16
6 18 20 16 14 6
2
4 ·12
16 5
16
Participante García Sundar Miller Peterson Boggart Hein Whitten
Galificación nuevo sabor
19 18 16 18 4 7
16
Calificación
sabor actual 10 10
13 2
13 14 4
592
SOLUCIÓN
Gap;¡"¡º 16 Las muestras son dependientes o están relacionadas. Esto es, a los participantes se les pide que califiquen ambos sabores del pollo. De modo que si se calcula la diferencia entre las calificaciones, los valores resultantes indican la cantidad en la que los participantes favorecen a uno de los sabores. Si se resta la calificación asignada al sabor actual de la calificación dada al nuevo sabor, un resultado positivo es la "cantidad" en la que el.par-
ticipante favorece al nuevo sabor. Uila·di"ferencia·negativa·en·!as-calíficaciones indica que el participante favorece el sabor actual. Debido a la naturaleza algo subjetiva de la evaluación, no es seguro que la distribución de las diferencias se aproxime a la distribución normal. Se decidió utilizar la prueba no paramétrica de rangos con signo de Wilcoxon. Como siempre, se utilizará el procedimiento de cinco pasos para la prueba de hipótesis. La hipótesis nula es que no hay diferencia en la evaluación de los sabores de pollo realizada por los participantes. Esto es, en el estudio, la cantidad de participantes que otorgaron mayor calificación al nuevo sabor y, la cantidad de participantes que otorgaron mayor calificación al saber actua! son iguales. La hipótesis a!ternatlva es que las calificaciones otorgadas al nuevo sabor son más altas. Más formalmente: N 0 : No hay diferencia en las calificaciones otorgadas a los dos sabores. /-/ : Las calificaciones al nuevo sabor son más altas. 1 Esta es una prueba de una cola. ¿Por qué? Porque Bernie Frick, dueño del restaurante en cuestión, cambiará el sabor de su pollo sólo si los participantes en la muestra reflejan que a la población de clientes le gustará más el nuevo sabor. El nivel de signiíicancia es 0.05, como se estableció en el problema anterior. Los pasos necesarios para realizar ia prueba de rangos con signo de Wilcoxon son los siguientes:
i. Se calcula la diferencia entre la calificación al nuevo sabor y la calificación del sabor actual para cada participante. Por ejemplo, la caliíicación dada por Arquette ai nuevo sabor fue 14, y la dada al sabor actual fue 12, de manera que la diferencia es 2. La diferencia en e! caso de Jones es -8 que resulta de 8 - 16, y en el caso de Fish es 4, que es 6 ~ 2. Las diferencias de todos los participantes se muestran en la columna 4 de la tabla 16.3. 2. En adelante sólo se considerarán las diferencias positivas y negativas. Esto es, si la diferencia en las calificaciones de! sabor es O, ese participante se elimina de! análisis y se reduce el número en la muestra. En la tabla 16.3, el sexto participante (Hall), calificó ambos sabores con i 6. Por tanto, se ellmina dei estudio y el tamaño de la muestra se reduce de 15 a 14. 3. Se determinan las diferencias absolutas de los valores calculados en la columna 4. Recuérdese que en una di·ferencia absoluta se ignora el signo de la diferencia. Las diferencias absolutas se muestran en la colurnna 5. 4. A continuación se ordenan las diferencias absolutas de n1enor a mayor. Arquette, e! primer participante, calificó el sabor nuevo con í 4 y el sabor actual con 12. La discrepancia entre ambas calificaciones es 2, la diferencia absoluta más pequeña, asf que recibe el primer lugar o el rango ·1. La siguiente diíerencia en orden de tamaño es 3, que corresponde a Mi!ler, así que se le asigna el ·rango 2. Las otras diferencias obtienen un rango de 111anera simílar. Hay tres participantes que presentan una diferencia en las calificaciones igual a 8. Se trata de Jones, Badenhop y Sundar. Para 1·esolver este prob!en1a, se promedian los rangos que les corresponderían y se les asigna a cada uno e! pron1edio de ios rangos. En esta situación se encuentran los rangos 5, 6 y 7, así que a cada uno de estos participantes se les asigna el rango 6. Lo mismo sucede con los participantes cuya diferencia es 9. Los rangos a conside1-ar son 8, 9 y i O, así que a los tres participantes se les asigna el rango 9.
Métodos rio paramétricos. Análisis de datos ordenados por rango TABLA 16,3
593
Calificaciones de los sabores :nuevo y actual.
{1)
(2)
(3)
(4)
(5)
Participante
Sabor nuevo
Sabor actual
Diferencia en la- calificación
Diferencia absoluta
14 8 6 18 20
12 16
2
2
-8
2
4
3
3
4 12
14 8
8 4 14
13
8
6
B 6
rn
rn 9
Arquette Jones Fish Wagner Baclenhop Hall Fowler Virost Garcia Suncler Miller Peterson Boggart He in Whitten
14
5
6 19 18 16 18 4 7 16
16 ,. 10 10
13 2 13 14
(6)
{7) Rango asignado ¡¡R+
6
6
9
9
9
-10
10
11
9
9
9
9
8 3
8 3 16
6
6 2 14
16 -9
-7
9 7
2 H 9 4
n
9 4
4
Total
5, A cada rango de la columna 6 se le asigna el mismo signo de la diferencia originaL Los resultados se muestran en la columna 7, Por ejemplo, en el segundo participante, la diferencia entre las calificaciones es -8 y su rango es 6. Este valor se localiza en la sección R- de la columna 7. 6. Se suman los valores de las columnas R' y R-. La suma de los rangos positivos es 75, y la suma de los rangos negativos es 30. La menor de las dos sumas de rangos se utiliza como estadístico de prueba y se denomina T. Los valores críticos para la prueba de rangos con signo de Wilcoxon se localizan en el apéndice H. Una parte de esa tabla se repite en la siguiente página, El renglón marcado con a se usa para las pruebas de una cola, y el renglón 2a para las pruebas ele dos colas. En este caso, se quiere demostrar que los clientes prefieren el nuevo sabor. Como se trata de una prueba de una cola, se selecciona el renglón a,. Se eligió el nivel de significancia 0.05, así que hay que moverse hacia la derecha, hasta la columna con el encabezado 0.05, y después hacia abajo por esa columna, hasta llegar al renglón en el que n es 14. (Recuérdese que una persona calificó igual a los dos sabores y se eliminó del estudio, haciendo que el tamaño de la muestra fuera 14.) Ei valor en la intersección es 25, por lo que el valor crítico es 25. La regla de decisión es rechazar la hipótesis nula si la menor de las sumas de rangos es igual o menor que 25. El valor obtenido del apéndice Hes el valor más grande en la región de rechazo. En este caso la menor de las sumas de rangos es 30, de manera que la decisión es no rechazar la hipótesis nula. No puede concluirse que exista una diferencia en las calificaciones otorgadas al sabor actual y al sabor nuevo, El señor Frico< no ha demostrado que los clientes prefieran el nuevo sabor.
594
Capítulo 16
2a IJ.15 "0.075
ll
0.04
0.03
ll.020
0.015
0.02 0.010
0.01 0.005
o
4 5 6 7 8 9 10 1 ·1 12
Auloexameíl 16.4
0.05 íl.025
2
o
4
2 3 5 8 ID
7 9 12 16 19
o
o
ü
3 5 7 9 12
2 4 6 8 11 14
o ·1 3 5
3 5 7 9
12
Durante cierto lapso se lleva un registro de la producción de cada operario de una máquina. Se sugirieron -ciertos cambiós en el procedímiento ele producción y:s_é eSc_ogíeron i 1 operadores como grupo de prueba experimental para determinar si el nuevo-procedimiento era mejOr. Las tasas dé producción· antes y deSj)üés del nuevo prdCedimíento se mueStran a continuación:
Ope_rario
S,M .. D. J.
M.O. B. B. M.F. A. A.
Producción
Producción
antes 1.7
d_espués
21 25 ·15 10. 16
Producción
Operator U. Z.
18 23 22 25 28 16
Y. u.
u. T. Y. H. Y. Y.
antes
Produc~ión
1
después
10 20 17 24 23
22 19 20 30 26
a} ¿(;uántos pares_uti!i;:::abl_es hay?:_E'.3. decir, ¿_cuál _es _el valor_ den,?: b) Aplican_do la: prueba de rangos con signo <:]e_ Wil.co_xon, det~rm_ine si en realidad e! nuevo proced.imíento increment.a ta.produ.cción.:-Utillce.el..nivel .de signifl.cancia 0.05 y una prueba de una cola .. ,
Ejercicios 1 i. Se seleccionó una rnuestra aleatoria de siete parejas de jóvenes profesionales urbanos (o yuppíes, de young urban p'rofessionaf: yuppy) que eran propieta'rias de sus casas. La superficie de sus casas (en pies cuadrados) se comparó con el área de la casa de sus padres. Al nivel de significancia 0.05, ¿se puede concluir que los jóvenes tienen casas n1ás grandes?
la pareja
Gas·a de la pareja
Casa de sus padres
Gordon Sl1arkey Uselding Bell
·1 725 1 310 ·1 670 1 520
1 175 1 120 1420 1 640
Nombre de
Nombre de la pareja
Kuhlman Welcl1 Anderson
Gasa de la pareja
Gasa de sus padres
1 290 1 880 ·1 530
1 360 ·¡ 750 1 440
Mélodos no ~aramétricos. A11álisis de datos orde11ados por ra11go
595
12. Uno de los principales fabricantes de autos está estudiando el rendimiento de la gasolina común (Gas.C) contra el de la gasolina de alto octanaje (Gas.AO) en sus autos económicos. Se seleccionaron diez ejecut'vos y se les pidió que llevaran un registro del número de millas recorridas por galón de gasolina. Los resultados son como sigue:
Mmas por Galón
Millas por Galón Ejecutivo
Gas.G
Gas.AD
25 33 31 45 42
28 31 35 44 47
Bowers Demars Grasser DeTato líleg
Ejecutivo Rau Greolke Burns Snow Lawless
Gas.e
Gas.AD
38 29 42 41 30
40 29 37 44 44
Al nivel de significancia 0.05, ¿existe diferencia en el número de millas recorridas por galón entre la gasolina común y la gaso1'111a de alto octanaje? i 3. Se ha sugerido un nuevo procedimiento para una línea de ensamble. Con objeto de probar si el nuevo método es mejor que el anterior, se seleccionó una muestra aleatoria de ·15 operarios. Primero se determinó la producción con el procedimiento acostumbrado {l), y después se aplicó el nuevo procedimiento (11). Una vez que transcurrió un periodo adecuado, se midió otra vez la producción. Los resultados fueron:
Prociucción
Producción
Operario
(1)
(11)
A B
60 40 59 30 70 78 43 40
64 52 58 37
e o E F G
H
Operario
(1)
(11)
1
87 80 56 21 99 50 56
84 80 57 21 108 56 62
j
K L
M N
7"1
83 46 52
o
Al nivel de significancia 0.05, ¿se puede concluir que Ja producción aumentó usando el método 11? a) Establezca las hipótesis nula y alternativa. b) Establezca la regla de decisión. e} Llegue a una decisión 1·especto a Ja hipótesis nula. 14. Se ha sugerido que la producción diaria de un subensamble aumentaría si se tuviera mejor iluminación, ml1sica de fondo, café y galletas durante e! día. La gerencia convino en hacer la prueba durante cierto tiempo. Las cantidades de subensambles producidos semanalmente por los empleados de una muestra fueron:
Empleado
JD SB MD RCF MF
UHH 18
Registro de Registro de producción producción después anterior de los cambios
23 26 24 "17
20 24 30
33 26 30 25 19 22 29
Registro de producción En1pieado WWJ
OP CD
PA RRT AT
QQ
anterior 21 25 2·1 16 20 17
23
Registro de producción después de los cambios
25 22 23 17 15 9 30
Utilizando la prueba de rangos con signo de Wilcoxon, determine si los cambios sugeridos tuvieron efecto.
596
Capítulo 16 a) b) e) d)
Establezca la hipótesis nula. Decida cuál será la hipótesis a!ternativa. Determine el nivel de signi'ficancia. Enuncie la regla de decisión. e) Calcule T y decida.
Prueba de suma de rangos de Wilcoxon
Prueba empleando muestras independientes.
Una prueba específicamente diseñada para determinar si dos muestras independientes provienen de poblaciones iguales, es la prueba de suma de rangos de Wilcoxon. Esta prueba es una alternativa a la prueba t de dos muestras descrita en el capítulo 11. Recuérdese que la prueba t requiere que las dos poblaciones estén distribuidas de forma normal, y que tengan varianzas poblacionales iguales. Estas condiciones no se requieren para la prueba de suma de rangos de Wilcoxon. La prueba de suma de rangos de Wilcoxon se basa en el promedio de los rangos. Los datos se ordenan por rangos, de menor a mayor, como si las observaciones ·fueran parte de una sola muestra. Si la hipótesis nula es verdadera, entonces los rangos estarán distribuidos homogéneamente entre las dos muestras, y el promedio de los rangos en las dos muestras será aproximadamente el mismo. Esto es, los rangos bajos, medianos y altos estarán repartidos en forma homogénea entre las dos muestras. Si la hipótesis alternativa es verdadera, una de las muestras tendrá más rangos bajos y, por tanto, un promedio de rangos menor. La otra muestra tendrá mayor número de !os rangos altos y, por tanto, un promedio mayor. Si cada una de las n1uestras contiene por lo menos ocho observaciones, la distribución normal estándar se emplea como estadístico de prueba. La fórmula es:
PRUEl3ADE SUMA DE RANGOS DE WILCOXON
z
W ~ n 1 (n1 + n 2 + 1) 2 ¡n-;n;,(n1 + nz+ 1) 11 12
[i6.4]
donde: n 1 es el número de observaciones provenientes de la primera población. n2 es el número de observaciones provenientes de la segunda población. W es la suma de los rangos de la primera población.
EJEM PUi
El presidente ejecutivo de CEO Airlines, notó un aumento en el número de pasajeros no registrados, en vuelos que salen de Atlanta, Está particularmente interesado en determinar si hay más pasajeros no registrados en vuelos que salen de Atlanta que en los vuelos que parten de Chicago. La tabla 16.4 presenta una muestra de 9 vuelos de Atlanta y ocho de Chicago. Al nivel de significancia 0.05, ¿se puede concluir que hay más pasajeros no registrados en los vuelos que salen de Atlanta? TABLA 16.4
Nún1cro de pasajeros no registrados para vuelos progran1ados. Atlan!a
Chicago
11 ·15 10 18 11
13 14 10 8
16
Atlania 20 24 22 25
Ghicago 9
17 21
Mé!o!ios íllY parnmétr;cüs. Análisis da dalas orde11ados por rango
597
Si las poblaciones de pasajeros no registrados tienen una distribución norma! y varianzas iguales, !a prueba t para dos n1uestras, presentada en e! capítulo i i, es !a apropia-
da. En este caso, el presidente cree que no se pueden cumplir estas dos condiciones. Por tanto, una prueba no paramétrica, como la prueba de sun1a de rangos de \Afilcoxon, es la adecuada. Si el nt'.imero de pasajeros no· registrados es el mismo en Atlanta que en Chicago, se espera que las rnedias de los dos rangos sean aproxin1ada111ente iguales. Si ei número de pasajeros no registrados no es el misn10, se espera que las sumas de rangos sean muy diferentes. El presidente cree que hay más pasajeros no registrados en los vuelos de Atianta. Por tanto, es adecuado utilizar una prueba de una cola, con la región de rechazo localizada en la cola de valores mayores. Las hipótesis nula y alternativa son:
H0 : La distribución de pasajeros no registrados es la misma en Atlanta que en Chicago. 1-11: La distribución de pasajeros no registrados es mayor en Atlanta que en Chicago. El estadístico de prueba sigue la distribución normal estándar. Para el nlve! de significancia 0.05, se encuentra en el apéndice D que el valor critico de z es 1.65. La hipótesis nula se rechaza si el valor calculado para z es mayor que 1.65. La hipótesis alternativa es que hay más pasajeros reg;strados en vuelos desde Atlanta, lo que significa que la distribución es más grande y se localiza a la derecha de la distribución de los vuelos desde Chicago. Se calcula el valor de W para el grupo de Atlanta y se encuentra que es 96.5, que es la suma de los rangos de los pasajeros no registrados en los vuelos desde Atlanta. Los detalles de la asignación de rangos se muestran en la tabla i 6.5. Se ordenan por rangos las observaciones de ambas muestras como sí fueran un solo grupo. El vuelo de Chicago con sólo 8 pasajeros no registrados es el que tiene menos, de manera que se le asigna el rango 1. Al vuelo de Chicago con sólo 9 pasajeros no registrados se le dio el rango 2, y así sucesivamente. El vuelo de Atlanta con 25 pasajeros no regisirados es e! que tiene el número rnás alto, en consecuencia se le asigna e! rango más alto, -17. También hay dos casos de rangos iguales. Hay un vuelo de Atlanta y otro de Cllicago, cada uno con 1O pasajeros no registrados, y dos vuelos de _Atianta con 1i pasajeros no registrados. ¿Qué se hace con estos casos? La solución es promediar los rangos correspondientes y asignar e! rango promedio a ambos vuelos. En el caso de los 1 O pasa¡eros no registrados, los rangos correspondientes son ei 3 y el 4. La media de estos rangos es 3.5, en consecuencia a los vuelos con 1O pasajeros no registrados, tanto de Atlanta como de Chicago, se les asigna el rango 3.5. TABLA 16.5
Nú111ero de pasajeros no registrados, con sus rangos, en vuelos programados.
¡--
Ali anta
Chicago
No registrados Rang-o 11 ·15 10 18 11
20 24
22 25
No registrados Rango
5.5
13
9
14
3.5 12 5.5 13 16 15 17
10 8 16 9 17 2·1
96.5
7 8 3.5 10
2 ·11 14
56.5
Obsérvese en la tab!a "16.5 que hay nueve vuelos que salen de Atlanta y ocho de
598
Capitulo 16 Chicago, por lo que n 1 ~ 9 y n2 mo resultado:
~
8. Calculando z a partir de la fórmula 16.4 se tiene co-
W- n 1 (n 1 +n 2 +1)
z
96.5
2
=
¡n 1n 2 (n 1
~
9(9+8+1) 2
-;======~ =
+ n2 + 1)
19(8)(9
~
12
+ 8 +1)
1.49
12
Puesto que el valor calculado para z (1.49) es menor que 1.65, no se rechaza la hipótesis nula. La evidencia no muestra diferencia en el número típico de pasajeros no registrados. Esto es, parece que el número de pasajeros no registrados es el mismo en Atlanta que en Chicago. El valor p es 0.0681, obtenido al determinar el área que se encuentra a la derecha de 1.49 (0.5000 - 0.4319). El paquete de cómputo MegaStat produce los mismos resultados. El valor p que da MegaStat es 0.0677 que es muy cercano al calculado. La diferencia se debe al redondeo que hace el sistema.
SUJO ">ta~thd 4•:~~1io'l lXo! :r, corre-o!~cl für1i~o .f'ET!
P·•·>l~e (on,·1~'io;Jj
Al usar la prueba de suma de rangos de V\Jilcoxon se pueden numerar las dos poblaciones en cualquier orden. Sin embargo, una vez que se ha decidido cómo numerarlas, W debe ser la suma de los rangos de la población identificada como la n(rmero 1. Si, en el ejemplo de los pasajeros no registrados. la población de Chicago fue la número 1, la dirección de la hipótesis alternativa deberá modificarse, pero el valor absoluto de z sigue siendo ei mismo. H 0 : La distribución de los pasajeros no registrados es la misma para Chicago y Atlanta. H 1 : La distribución de los pasajeros no registrados es más pequeña para Chicago quepara Atlanta. El valor calculado de z es -1.49, determinado por medio de:
z
=
w-
n 1 (n 1
+ n2 + 1) 2
rn;n;¡¡;;-+
1i
12
ñ~ + 1)
8(8
+ 9 + 1)
56.5 -
(8(9)(8
y
2
+ 9 + 1) 12
= - j
.4
9
599
Niétodos líliD paramétricos. Aruá!isis de datos ordenados por rango
l\utóexamell 16.5
El direCtor-"d8 invesÍiQac'ión dé'uha tábriéa de pérotas de QÜlfdesea saber si hay diferencia en la._ diStribuCióíl. de fas distandas r8é::órrídaS Poi dos"d8 faS pelótas de go_lf fabricadas P,or la empresa . Ocho .de su marca Dino y ocho de sus pelotas marca Maxi fueron lanzadas con un aparato autoniáticO. LaS distancias (en yaf'_das) fueron lás siguientes:
¡=;:;;,
252, 263, 279., 279, 271, 265, 257, 280
~·-i'~~2_6_2,_2_4_2,_2_56~,-26_0_,2_s_s_,2_4_3_,2_3_9,_2_65_.~
Supóngase que laS d.istribuciories no son_norma!es. Ar iiivel de slgnific'ancia 0.05, ¿existe alguna díferenc[a entre !as dos distribuciones?
Ejercicios 15. Las siguientes observaciones 'fueron seleccionadas aleatoriamente de poblaciones que no necesariamente estaban distribuidas en 'forma norn1al. Use el nivel de signíficancia 0.05, una prueba de dos colas y la prueba de suma de rangos de Wi!coxon para determ'1nar si hay alguna di'ferencia entre las dos poblaciones:
Población A: Población B:
38,45,56,57,61,69, 70, 79 26,31,35,42,51,52,57,62
16. Las siguientes observaciones se seleccionaron aleatoriamente de dos poblaciones que no necesariamente tienen distribución norma!. Use e! nivel de sígnificancia 0.05, una prueba de dos colas, y la prueba de suma de rangos de Wilcoxon para determinar si hay alguna diferencia entre las dos poblaciones: Población A: PoblaciónB:
12, 14, 15, 19, 23, 29, 33, 40, 51 13,16,19,21,22,33,35,43
17. Se analízan dos grupos de müsicos profesionales, de rock y ml1sica country. Un aspecto que se estudia son las edades de los integrantes en los dos grupos. Supóngase que las poblaciones de edades no están distribuidas de forma norma!. Una muestra de í O mllsicos de rock y i2 de country presentó las siguientes edades, en años: Rock: Coun1ry:
28, 16,42,29,31,22,50,42,23,25 26, 42, 65, 38, 29, 32, 59, 42, 27, 41, 46, i 8
Al nivel de significancia 0.05, ¿puede conclui¡se que los músicos del género country tienen 111ayor edad que !os ml1sicos de rock? i8. Se enseña un procedimiento de ensamble a un grupo de obreros empleando una secuencia de pasos ya conocida, y se enseña a otro grupo una técnica nueva. Los tiempos, en segundos, necesarios para realizar el ensan1ble, obtenidos de una 111uestra de empleados se presentan a continuación:
1
38·~1
Métcdo conocido: 41, 36, 42, 39, 36, 48, 49, L_IV1"1oclo nuevo: 21, 27, 36, 20, 19, 21, 39, 24, 22
.
Al nive! de significancia 0.05, ¿se puede concluir que el método nuevo es más rápido? Supóngase que la distribución de líneas de ensa111ble no es normal.
600
Prueba de Kruskal-vVallis: análisis de varianza por rangos La prueba de Krusl
El procedimiento ele análisis de varianza (ANOVA) expuesto en el capítulo 12 se empleaba pa· ra detern1inar si varias medias poblacionales eran iguales. Los elatos eran de nivel de intervalo o de nivel de razón. También se suponia que las poblaciones seguían la dis.tribución normal, y que sus desviaciones estándar eran iguales. ¿Qué sucedería si--los-datos--fueran de nivel ordinal o si las poblaciones no fueran normales? En 1952, W.H. Kruskal y W.A. Wallis elaboraron una prueba no paramétrica en la que sólo se necesitan datos de nivel oídinal (ordenados por rangos). No se requiere ninguna suposición respecto a la forma de las pobla·
clones. La prueba se conoce como anái¡sis de varianza en un. sentido por rangos1 de Kruskal-Wallis. Para que la prueba de l\ruskaHNallis sea aplicable, las muestras seleccionadas ele la po· b!ación deben ser índependíeníes. Por eje1T1plo, si se van a seleccionar las n1uestras de tres grupos (ejecutivos, directivos de nivel n1edio y supervisores) para entrevistarlos, las respuestas de un grupo (por decir, de los ejecutivos) de ningún modo debe influir en las respuestas de los otros grupos. Para calcular \a magnitud del estadístico de prueba F(ruska!-\tVa\lis, (°l) se unen todas !as muestras, (2) estos valores se ordenan de menor a mayor, y (3) los valores ordenados se reemplazan por rangos, comenzando con el 1 para el valor más pequeiio. Un ejen1plo aclara el procedimiento.
EJEMPLO
Se va a realizar un seminario de administración para un gran n1Jmero de ejecutivos de manufactura, finanzas y ventas. Antes de programar las sesiones, el director del seminario quiere detern1inar si los tres grupos tienen conoc1mientos semejantes acerca de los principios de adrninistración. Se planea tomar muestras de !os ejecutivos de !os tres grupos, y aplicar una prueba a cada uno. Si no existe diferencia en las calificaciones de los tres grupos, el director del se111inario impartirá sólo una sesión. Sin embargo, si se encuentra diferencia en las calificaciones, se impartirán sesiones por separado. Se utilizará la prueba de Kruskai-Wallis en vez de la A~JOVA, porque el director del seminario no desea suponer que (i) las poblaciones de las calificaciones de los gerentes se distribuyen en forma norrnal, o (2) las desviaciones estándar de ias poblaciones son iguales.
SOUJCIÓN
El primer paso, como es usueJ en una prueba de hipótesis, consiste en establecer las hipótesis nula y alternativa. H 0 : Las distribuciones de !as ca!i'ficaciones de los gerentes en las poblaciones de ejecutivos ele 111anufactura, 'finanzas y ventas son iguales. /-/ : Las distribucíones no son iguales. 1
El director del seminario elige 0.05 como nivel de riesgo. El estadístico de prueba usado en la prueba de Kruskat-Wa!lis se denota por H. Su fórmula es:
. . fZR)']
+ ... + r,f-
- 30~ + 1)
con k - 1 grados de libertad (k es et né1mero de poblaciones) donde: ZR 1 , LR2 , •.• , LRk son !as sumas de los rangos de las muestras í, 2, ... , k, respectivamente. n1 , n2 , •. , n1r son los tamaños de las muestras 1, 2,,. .. , k, respectivamente.
n
es el número de obsenJaciones en todas las muestras una vez reunidas.
601
Métodos no parnmélrícos. Anáiisís de datos ordeiiados por rango
La ji cuaclrada se usa si cada muestra es por lo menos de 5.
La distribución del estadístico muestra! Hes muy parecida a la distribución ji cuadra-
da con Ir- ·1 grados de libertad, si el tamaño de cada muestra es por lo menos igual a 5. Por tanto, se usará ji cuadrada al formular la regla de decisión. En este ejemplo hay tres poblaciones: una de ejecutivos de manufactura, otra de ejecutivos de finanzas, y una tercera, de ejecutivos de ventas. De modo que hay Ir - 1, o 3 - 1 ~ 2 grados de libertad. Véase la tabla de valores críticos de ji cuadrada en eí apéndice l. El valor crítico para 2 grados de libertad y el nivel de riesgo 0.05 es 5.991. No se rechaza H 0 si el valor calculado para el estadístico de prueba H, es menor o igual que 5.991. H0 se rechaza si el valor calculado para Hes mayor que 5.991, y entonces se acepta /-11 . El paso siguiente es seleccionar muestras aleatorias de las tres poblaciones. Se eligió una muestra de siete ejecutivos de manufactura, ocho de finanzas y seis de ventas. Sus calificaciones en la prueba figuran en la tabla 16.6.
TABLA 16.6
Calificaciones en la prueba de principios de adnúnistración para los ejecutivos de manufactura, finanzas y ventas.
Ejecutivos de manufactura
Ejecutivos de finanzas
56 39 48 38 <-empate(ant a la más baja) 73 50 62
Ejecutivos de ventas
103 87 51 95 68 42 107 f- la más alta 89
42 38 f-empate(ant a !a más baja) 89 75 35 f- la más baja 61
Considerando las calificaciones como una sola población, la más baja es la del ejecutivo de ventas, que obtuvo 35, y se le asigna un rango de 1. Hay dos calificaciones de 38. Para resolver este empate, a cada calificación se le asigna el rango 2.5, obtenido de (2 + 3)/2. Este proceso se realiza con todas las calificaciones. La puntuación más alta es 107, y se asigna un rango de 21. Las puntuaciones, los rangos y las sumas de los rangos de cada una de las tres muestras se indican en la tabla "16.7. TABLA 16.7
Calificaciones, rangos y sun1as de rangos de las puntuaciones en la prueba sobre principios de la adn1inistración.
Ejecutivos de manufactura
Ejecutivos de finanzas
Ejecutívos de ventas
Puntuaciones
Rango (111)
Puntuaciones
Rango (R,)
Puntuaciones
Rango (113)
56 39 48 38 73 50 62
10.0 4.0 7.0 2.5 14.0 8.0 12.0
103 87 51 95 68 42 107 89
20.0 16.0 9.0 19.0 13.0 5.5 21.0 17.5 121.0
42 38 89 75 35 61
5.5 2.5 17.5 15.0 1.0 11.0
2R 1 ~ 57.5
2R2 ~
'LR3
~
52.5
602 Despejando H:
H
--_
·12
[(:i:R
1)"
n(n + i)
n1
2
1
2
(ZR2) CZR3) +--·+ -. -· n2
= 21(2112+1) [57752 +
n3 _
3(n
+ 1)
1~12 + 5265~]- 3(21+1) =
5.736
Como el valor calculado para H (5.736) no es mayor que 5.991, no se rechaza la hipótesis nula. No hay diferencia entre los ejecutivos de manufactura, finanzas y ventas respecto a sus coi1ocirrlientos de principios de administración. Desde un punto de vista práctico, el direCtor del seminario debe.considerar ofrecer una sola sesión para los ejecutivos de tbdas !as áreas. El sistema MINITAB ofrece la prueba de Kruskal-Wallis. ¡:.,continuación se presenta la pantalla de resultados para el ejemplo anterior, relativo a !os conocimientos de principios de administración para los ejecutivos de diversas áreas. El valor calculado para H es 5.7 4, y el valor p que proporciona MINITAB es 0.057. Esto concuerda con los cálculos anteriores.
!lodJ."''
A'-'" R!J>'.I}:
50,(lO SB.ml
15.l
si.;;n H=5.H 11" 5.75
Df=
~e0.üS7
D~"
?
o
º·' "·º n.o
'
~1.4>
2."39 -)_.G5
0.057 (aj)v..so
t.i~o)
Recuérdese del _capítulo ·12 que para poder_u_s_ar la técnica dei análisis de varianza se debe suponer que: (1) las poblaciones se distribuyen normalmente; (2) estas poblaciones tienen desviaciones estándar iguales, y (3) las muestras se seleccionan independientemente. Si se cumplen estos supuestos, se emplea la clistribución F como estadístico de prueba. Si estas süposiciones no se pueden satisfacer, se en1piea la prueba libre de distribución de Kruska!Wa\lis. Para destacar las semejanzas entre !os dos métodos, se resolverá este mismo ejen1plo usando la técnica ANOVA. Para empezar se establecen !as hipótesis nula y alternativa para los tres grupos:
Ho:
~l-í
= µ2
= ~l3
/-1 1: Las 111edias ele tratamiento no son todas iguales. Aplicando el nivel de signilicancia 0.05, con k - ·¡ = 3 - ·1 = 2 grados de libertad en el numerador, y también n - k = 21 - 3 = 18 grados de libertad en el denominador, el valor crítico ele Fes 3.55. La regla de decisión es rechazar la hípótesis nula si e\ valor calculado para Fes mayor que 3.55. A continuación se presenta la pantalla de resultados del sistema ExceL
603
Del resultado anterior, el valor calculado para Fes 4.12 (redondeado) y el valor p es 0.034 (también redondeado). La decisión es rechazar la hipótesis nula y aceptar la hipótesis alternativa. Utilizando esta prueba se concluye que las medias de tratamiento no son iguales. Es-
to es, el conocimiento relativo a los de principios de administración es diferente en los tres grupos de ejecutivos.
Se tienen conclusiones contradictorias con los mismos datos. ¿Cómo es posible esto? Si se comparan los resultados usando valores p, las respuestas son semejantes. En la prueba de Kruskal-Wallis, el valor p era 0.057, un valor ligeramente mayor que el nivel de significancia 0.05, pero la decisión fue no rechazar H 0 . El valor p usando ANOVA es 0.034, que no está muy alejado de! va!or crítico dentro de !a región de rec!12zo. Para resum!r, se cometió un error al rechazar H 0 con !a prueba de Kruskal-Wa!lis, y apenas se cayó en la región de rec!1azo apJícando ANOVA. La diferencia entre los valores pes 0.023. Por tanto, los resultados están en realidad bastante cerca en términos de los valores p. , . _ ,___
~~-~=-~=~~'
--.
EL ger~nte_,r~_g_iónaL, del ~~~_b_o_.~t_ri_t~_WfcJg_ .Fin,áílqiaJ é_stá int8reSado: en__ el índice de rnovimiento de_._las_ c;.ue_nt¡;¡s_ perspnále:3_ de ch_eques. en. c¡Úatro. de. fas g_rand.e.s_ bancos filiales. (El índice de mov_i_mlento es la rapidez corl_ !a_qu_e e! diner6 de. u_na' cuenta es__ depositado y retirado. Una cuenta. extrem_aslani~nte._¡;¡ctiva_pu~_tj_e _te_n_er_ _ uq_fndice_ de 300;-.si,só!o se giran uno o dos cheques, el índic_e_ pued_e ser aproximadam_ente-_30.)·Se presentan·_ét continuación !os índices de movimiento _en las muestras seleccionadas de fas cuatro filiales bancarias. Usando el nivel O.Oi y !a prueba de Kruskal.":Wa!lis;. determine si hay diferencia entr_e_ los índices de movin1ie11to de las cuentas perso_na.!es_ de_cheques de los cuatro bancos filiales. 0
Filial
208 307
Filial West
Filial Flliai
S!de
Great Nort!uern
Sy!vania
g·¡
302
99
-i
!
604
Capitulo 16
Ejercicios i9. ¿En qué condiciones debe utilizarse la prueba de Kruskal-Wa!lis en lugar de análisis de varianza? 20. ¿En qué condiciones debe utilizarse la prueba de Kruskal-Wallis en lugar de la prueba de suma de rangos de Wi!coxon? 21. Los siguientes datos muestrales-se obtuvieron de tres pobiaciones que no eran necesariamente normales. Muestra 1
Muestra 2
Muestra 3
.50
48 49 49 52 56 57
39 41 44 47 5·1
54 59 59 65
a) Establezca la hipótesis nula. Utilice el nivel de riesgo 0.05, establezca la regla de decisión. e) Calcule el valor del estadístico de prueba. d) ¿Cuál es su decisión acerca de la hipótesis nula? 22. Los siguientes datos muestrales fueron obtenidos de tres poblaciones que no tenían varianzas iguales, se desea comparar las poblaciones.
b)
Muestra í
Muestra 2
Muestra 3
21 29 35 45 56 71
15 17
38 40 44 51 53
22 27 31
a) Establezca la hipótesis nula. b) Utilizando el nivel de riesgo 0.01, establezca la regla de decisión. e) Calcule el valor estadístico de prueba. d) ¿Cuál es su clecisión acerca de la hipótesis nula? 23. Un fabricante de motores fuera de borda para embarcaciones, inventó un proceso de recubrimie"nto con pintura epóxica ¡jara protección contra la corrosión de los componentes:del sistema de escape. Los ingenieros quieren determinar si las distribuciones d6 los tiempos de duracióri de la pintura son iguales bajo tres condiciones. diferentes de u~o: ag~él _s.ala_da·, agua dulce sin vegetación y agua dulce con gran concentración de vegetales. En el laboratorio se realizaron pruebas activadas de duración y se registraron !os tiempos de estado útil· de !a pintura antes de que empezara a desprenderse.
Agua
Agua salada
dulr.a
Agua dulce con vagetación
167.3 189.6 177.2 169.4 180.3
160.6 177.6 185.3 168.6 176.6
182.7 165.4 172.9 169.2 174.7
Aplicando la prueba de Kruskal-Wallis y el nivel de 0.01, determine si la duración de la pintura es !a misma para !as tres co1dicíones acuátícas.
605 24. La National Turkey Association desea probar tres 111ezclas de alimento para crías de pavo. Como no se tiene experiencia respecto a tales mezclas de alimento, no se puede hacer ninguna suposición respecto a la 'forn1a de la distribución de los pesos de las aves. La prueba-de Kruskal-VVallis debe aplicarse para determinar si los pesos de los pavos son iguales después de ali111entarlos durante un periodo específico. A cinco pavos se les dio el alimento A; a seis, el 8,
y ~- cin_c?, el C._ Pr_uebe al __nivel Qe significancia 0.05 si los pesos promedio de los pavos aliment8-dos con los alimentos A, By C son iguales.
La estadística en acción
Conelación rango-orden
les.de m;;';~:,;;í;";[;(;q una fuerte ?qsitiY~':..C.óq1~ re~t~0lta-: do;.Flóáda creó Zom1s d~·~d~-:~·e·Pr_Óhaje ~f· tnínSito de botes ·para qúe fos mam1lítis puedán cori.~e·rvarse.
En el capítulo -¡ 3 se analizó r, e! coeficiente de correlación, que mide la relación entre dos variables de intervalo o de razón. Por ejemplo, el coeficiente de correlación indica la relación entre el sueldo de los ejecutivos y sus años de experiencia, o la relación entre las millas recorridas por un en1barque, y la cantidad de días que le tomó llegar a su destino. Charles Spearman, un estadístico británico, introdujo una medida de correlación para datos de nivel ordinal. Esta medida permite estudiar la relación entre grupos de datos ordenados por rangos. Por ejemplo, a dos integrantes de la Oficina de Investigación de la Universidad del Valle se les pide que ordenen por rangos 10 propuestas de investigación para docencia. Se desea estuCiar la relación que existe entre los rangos dados por los miembros del personal. Esto es, ¿consideran ambas personas las mismas propuestas como la más importante y la n1enos in1portante? El coeficiente de correlación por rangos de Spearman, denotado por f 3 , propo,~ciona una medida de ta! relación. El coeficiente de correlación de rangos se calcula usando !a siguiente fórn1ula:
nOE!'lCIENTE DE COf!RELACIÓN
L.
DE RANGOS DE SPEARMAN ·.·.
r--;;,i s
6Zd 2
'n(ri2"' 1)
-i
[16,6]
1
donde:
d
n
es la diferencia entre los rangos ele cada par. es el nl1mero de pares de observaciones.
Al lgua\ que el coeficiente de correlación, el coeficiente ele correlación de rangos puede asumir cualquier valor desde -·1.00 hasta+ 1.00. El valor -1.00 indica una correlación negativa perfecta, y el valor+ i .00 indica una correlación positiva perfecta entre los rangos. La correlación O indica que no hay una relación fuerte entre los rangos. Las correlaciones de ra.ngos de -0.84 y 0.84 señalan una fuerte relación, pero la primera manifiesta una relación inversa entre !os rangos, y la segunda, una relac'1ón directa.
606
IEJIEMPUll
Capíll1lo 16
Los ejecutivos de una e111presa otorgan una puntuación cornpuesta a cada egresado de la universidad que ingresa a une empresa que fabrica plásticos. Esta puntuación es una expresión del potencial futuro del egresado. Las puntuaciones representan, por supuesto, el nivel de medición ordinal. El recién egresado entra a un programa de capacitación en ·ta ·planta, y recibe otra -puntuación compuesta basada en pruebas, opiniooes __ d_~J_qs líderes de grupo, supervisores de capacitación, etc. Las puntuaciones asignadas por los ejecutivos y las puntuaciones obtenidas en el programa de capacitación en p!ant_a se muestran en la tabla 16.8.
TABLA 16.8
Puntuaciones asigJJ
Egresado
Puntuación asignada por e! ejecutivo, X
A B
8 10
e o
9
4
4 12 11
3 6
K
9
L
E
F
Puntuación del programa de capacitación, Y
Puntuación asignada por
Puntuación del programa
de capacitación, :V
Egresado
el ejecutivo, X
4
G
4
H
11 7 8 13 10 12
j
9 6
6 9 5 9
Calcule el coeficiente de correlación de rangos. Interprete el valor obtenido.
SOIJJC:IÓN
Se decidió ordenar (asignar un rango) a las variables de menor a mayor. La puntuación más baja otorgada por los ejecutivos fue 4 y se asignó ai egresado D, por lo que se le dio el rango 1. La siguiente fue 7 al egresado H, así que se le asignó el rango 2. Hubo dos graduados con una puntuación de 8. El empate se resuelve otorgando a cada uno el rango 3.5, que es el prome:Jio de los rangos 3 y 4. Se sigue el mismo procedimiento cuando hay más de dos puntuaciones iguales. Por ejemp!o, obsérvese que la puntuación de capacitación más baja es 3, y se le dio el rango 1. Después se tienen tres calificaciones de 4. El promedio de los tres rangos empatados es 3, obtenido de (2 + 3 + 4)/3. Esto se ilustra junto con los cálculos necesarios para rs en la tabla i 6.9.
TABLA 16.9
Ctilculos necesarios para rs.
Puntuación Pum.uacióíl Rango asignada por dei programa Egresado el ejecutivo1 X de capacitación, Y Ejecutivo Capacitación A B
e D E F G H
8 ID 9 4 12 11 11 7
j
8 13
1(
10
L
12
4 4 4 3 6 9
9 6 6
9 5 9
3.5 6.5 5.0
1.0 10.5 8.5 8.5 2.0 3.5 12.0 6.5 10.5
3.0 3.0 3.0 1.o 7.0 10.5 10.5 7.0 7.0 10.5 5.0 10.5
Diferencia !Jifr~rencia eíltre rangos, al cuadrado, d d'
0.5 3.5 2.0
0.25 º12.25 4.00
o
o
3.5 -2.0 -2.0 -5.0 -35 1.5 15
12.25 4.00 4.00 25.00 12.25 2.25 2.25
o
o
o.o
78.50
607 El valor calculaclo parar, es OJ26, obteniclo de:
.
62d 2
r, = 1 - n(n'
"
-1} = ' -
6(78.50) ci2(143)
-
= 0.726
El valor 0.7.26 ·1n.dica una fuerte relación positiva entre las puntuaciones· asignadas· por los ejecutivos y el personal de capacitación. El egresado que recibió pun:tuaciones altas de los ejecutivos, tan1bién tiende a recibir puntuaciones elevadas ele parte del personal de capacitación.
P1ueba de la significancia de rs Probar sí la correlación en la población es cero.
Muestras "grandes" (10 o más).
En el capítulo ! 3 se probó la significancia de lar de Pearson. En el caso de datos ordenados por rango también surge la pregunta síguiente ¿la correlación en la población es en realidad igual a cero? Por ejemplo, en el caso anterior, sólo había 12 egresados en !a muestra. En la solución del ejemplo, el coeficiente de correlación de rangos, O. 726 indica una relación fuerte entre los dos grupos de rangos. ¿Es posible que la correlación de 0.726 se deba al azar, y que la correlación en la población sea en realidad cero? Ahora se realizará una prueba de significancia para responder a esta pregunta. Para una muestra de i O o mayor, la significancia de r5 se determina calculando t con \a siguiente fórmula. La distribución muestra! de rs sigue la distribución t, con n - 2 grados de libertad.
.
..
~~·~~ "-~~~-·~-~~~l
PRUEBA DE HIPÓTESIS, CORRELACIÓN DE RANGOS
¡ =
r, 1/1 n - 22
[Wº7j
l~G
'¡•
k -~~~·~
Las hipótesis nula y alternativa son:
H 0: La correiación de rangos en !a población es cero. /-/. : 1
Existe una relación positiva entre los rangos.
La regla de decisión es rechazar 1-10 si e! valor calculado para tes mayor que í .8i2 (del apéndice F, nivel de sigrfrf\cancia 0.05, prueba de una cola y i O grados de libertad), obtenido de n - 2 = 12 - 2 = 1O. El valor calculado para t es 3.338: .
r
,----
¡-c¡--2 - ? -
,'n-2 ¡ ' -= 1_ 11 - - = 0.126 --s 1' i - rf \1 -¡ -(0.726) 2
=
3.338
Se rechaza 1-10 clebiclo a que el valor calculado para tes 3.338, que a su vez es mayor que
·1.s-12. Se acepta iL/ 1. Existe correiación positiva entre los rangos otorgados por los ejecutivos y !os asignados durante la capacitación.
608 Autoexamen ili. 7
Una muestra de personas que solicitaron empleo en una ·fábrica reveió las siguientes puntuaciones obt€;)nidas en las pruebas de percepción ocular (X) y aptitud mecánica (Y):
·----·-·----·--·-¡ Percepdór:i • •...........
1.
S1Jjeto..
001 002 003 004 005
_, __Q_\!;glar
Aptltlld mecánica
--~-~~-.--~··~···~····~~~~··~ 820 682 777
. ..
Pen:epclón
ApUiwJ
·ocular
mecánica
Sujeto
.. .
60 40 10
~~~
·..- ·
008 009 o·r o
L---·--·-·
·~~~··
1
--.~~···
. ·..-
840 777 s20
42 55 51
1
J
·--·--··-----
a)
Calcule e\ coeficiente de correlación de rangos. b) Al nivel de signi'ficancia O.OS, ¿se puede concluir que !a cqrrelación en la población es diferente de O?
Ejercicios 25. El personal de investigacíón de !a cadena de televisión ABC quiere presentar un cuestionario que se enviará por correo a varios miles de telespectadores. Una ele las preguntas se relaciona con el rango que las personas n1ayores, de uno y otro sexo, asignan a la popularidad de ciertos prograrnas en el horario estelar. Las puntuaciones que se obtuvieron de un grupo pequeño de personas rnayores son:
Pl.lntuadón (!e ílrnnbres
Programa "Monday Nigllt Footba!!" "Hobin Cres··:" . "Simon and Sandor"
Puíltuacióru de mu]eres 5
4 3 2 5
~vening News Our Hero"
1 2 4 3
ap Elabore un diagrama de dispersión. Sea X la puntuación dada por los hon1bres. b} Calcule el coeficiente de c:)rrelación rango-orden de Spearman. Interprete el resultado. 26. La Far \11/est University ofrece cursos matutinos y vespertinos de administración empresarial. Una pregunta que se incluye en el Clj8Stionario de _a_drnisión es có1110 perciben los estudiantes e! prestigio asociado con ciertas profesiones. A cada estucJiante se \e pidió que ordenara las prufeslones por rangos ele i a 8, asignando el 1 a 18 profesión con.n1ayor prestigío, y asignando 8 a la profesión de 111enoí prestigio. Los resultados fuei-on:
f'HlfeSiÓi]
1
Contador Programador de computadoras Gerente de sucursal bancaria Administrador de hospitales Estaclístico lnvestigador de mercados Analista de casas de bolsa Gerente de producción
L
Rango asignado por los estudiantes de t.JJrrm matutino 6 7 2
5 4 3
8
l
Rango as[grw.do por los estVJciiaxites de taJíílO 1rnsperrtino 3
2 6 4
7
1
------~--J
Determ\ne el coeficiente de correlación de 1·a11gos. 27º [\Juevos representantes comerciales de la empresa ,John Ford lV1etal &, Wheel Co., asisten a un programa de capacitación antes de ser asignados a una oficina regional. Al término de uno de
609
fu1étodo:s no paramétricos. Anáiisis de datos ordenados por rango
estos programas, cada representante fue clasificado con respecto a su futura potencialidad en ventas. Al 'final del primer año en ventas, sus calificaciones se compararon con sus ventas anuales:
l -B-on-d--~~~·~~1-5-0~~~~-9~--~-C-r-an-e~~--~~-2-8-0~~~ ,~ Ventas
Representante
Calificación
anuales en e! programa {miles !JS$) de capacitación
Ventas anuales
Representante
Ca~ificación
en el programa (mi!es US$) de capacitación
~~~~~~~~~~~~-¡
L
Kitchen
319
3
Arden
300
Gross
i 75
6
Arthur
200
Arbuclrle Greene
460 348
4
Keene Knopf
190 300
i
3
a) Calcule e interprete el coeficiente de correlación de rangos de Spearman. b} Al nivel de significancia 0.05, ¿puede concluirse que hay una asociación positiva entre los rangos? 28. La Universidad de Winston tiene cinco becas disponibles para el equipo ·femenil de basquetbol. El entrenador entregó a dos "buscadores de talento" los non1bres de í Ojugadoras del grado de preparatoria, que tienen potencialidad en los deportes. Cada buscador asistió al menos a tres partidos, y después clas'1ficó a las basquetbolistas de acuerdo con su potencial. Para explicarlo, el primer buscador clasificó a Norma Tidwell como la n1ejor jugadora entre las iO, en tanto que a Jeannie B;ack la calificó como la peor. Clasificación del buscador Jugador
Jean Gann
John Gannem
7 2 10
5 4 10 3 6
Cora Jean Seip!e Bette Janes Jeannie Black Norma Tidwel!
Kathy Marcha!
6
1
Glasifir.ación del buscarnor Jugador Candy Jenkins Rita Rosinski Anita Lockes Brenda Towne Denise Ober
Jean Cama
John Gannern
3 5 4 8 9
7 2 9
"¡
1
8
a) Determine el coeficierte de correlación de rangos de Spearman. b} Al nivel de significancia 0.05, ¿se puede concluir que hay una asociación positiva entre los rangos?
l.
la:piuepa deFsigno, A. No__ e~_ -~E3c~sa~io ha(;(3,r_n_in_~!J~~ -~~P?:~lqiói1_- ·r~_~p-~C_t?:,:ª:',la. -f()~íllª.--9,~: ras dos p _oblacio_~_es. 13. St1.~e~f\..e~.r¡iuestr~s p0rpares? depencff~n'.es: ·.·•·••· •· •·· ..•.•
C.-' ~co_n_-:1'.1úeStr~_s_._.P.e,gy~_ryª_s-':·~e_:d_:t,er,rn.r.~~-;el ___~-P_rrI~ro--_d~ slgnqs _.+,-O
de:s_ígnos . ~_,·y
se u$a:féjl
dís~_ríbú~lótr._binoh1_i_áL:~-~~~-éD-°.-?:.ntr?~-:;e._l:_v~!or. __~~íti_cpt: -_-'·_. -. _ . · ·:' D. Con muestras grandes (más de 1O)se. emplea.la distribución normal esté¡ndary 1.a .fórmula
sígtií'SílfÉf,.,
... _.
---
-·--·-·--·--,
°'
(X± 0.50) 0,50n. 0,50yn . . .
[16,2][1.6.;l]
La#ruébác(eía'. rt1edfanil s'1[Jsa p~rapi9bfaiÜnahi¡JÓt
.· . .
.•
·.
>
. .
. . ...
·
A. Encontrar µ;y & par~ una distriqución binomiak !\, Se usala·distribución;¿ como •. e.1 estadísticocle.prueba., Elva.lor ;t se c~lcuJa a partir \l~.!.af(Jrf(1Ulf\ Qu.e sigue; dondeXes el número el.e observacioc nes maycire_s·o menore;s QUE!'l?-_me,diana:, 'Z
(X±0,50)-µ
= ------·
[11i 1]
610 ~n. La prueba dé ranQos con-signo;-de VVi!coxon. A~ Los datos deben se( cuando rnenos·de.nlve! ordinal yJás muestras deben ser dependíen-
tes. B, Los pasos para i-~·e:nzar !a pi"Lieba son: i. Se asignan rangqs_a _!as_ciiferencia_S absoiutas entre las obse1vaciones correspondien-
tes. 2. í:..-·1ó-~'-_ra·;1·¡j'os--se-·res. d'a--errnI~rn·o,,s1g·~-o-ae ·{a"ciHe~enE1a: 3. Se SLi:rn.an !os !"anQ_os n<0gativos, y los rangos posHívO~_. 4. La rnenor de las dos sumas es e! valor calculado para T. 5. Se cOnsulta el apéndice H para· ericontrar e! valor Crítíco,' se torna una decisión respec-
ni"..
to a ,Lf0,
La prueba de-suma de rangos de V\Jllcbxon se usa para determinar si dos muestras indepen-
dientes provienen de pDb!aciones iguales. A;. No se reqlJíere . liih9llna·sL!posiciórrreS¡Jecto a fa -forma-de !a población. B~ Para-a·plicar esta· prueba, !os:da~os-dében ser, al fti'encis·de nivel ordinal. C, Cada rnuestra debe contener a! rnenos ocho obServacíones. "D. Para-deteritli'nar· 81-Valür de! éstadístiGo de·pr'uebá 1;11, 88 ordenan todos los datos, de menor a mayor,- corhó-si -fueran ·de- una;sofa poblacióri:E. ·se determina !a-suma de rtingos p8ra ce.da·una de !as·-doS:' muestras. E VV Se llsa· para ca!cL!lar-z:, Conde- Vil Eis !a:-= suma de los rangos de la población i, usando la fórmi.J!a
[16.4]
(Í1;n2 (n-1 + n2 --~~-- -1)
V · \l,
12 - - -
Gt La dis_tr_ibución z se utiliza corno e! estadístico de prueba. La /J,N_.OV/l, por íangos en. un sentido, de Kruska!-Vlfqliis._ · ft.1, No se negesitan suposiciones respe;cto a la ·fonna de las poblaciones. B. La~ rn~1e~tras deben ser independíentes y por !_o 111_enos de níve! ordinal. (~, Se_ utiliza para probar sí V8Jias poblacione_s _son iguales. D" Las__ o_b:se_ryaci()nes mu.estr:i.!es s.e ord~_na_n por_ran_g_a,s,;de _menor a mayor, como si fueran
u0_ s_o_!o .grup~. , ._
f_-
_
-:
_. _
=--:
.
__ .. _ _ .
Se puede usar la dlstdbución _ji cuadrada como el estadístico de prueba, siempre y cuando existan por lo ¡-nenos 5 observaciones en cadá muestra.
F. El valor estadístico de prueba se calcula mediante ta siguiente íórmuta: 1.1
~~ .. ..... .=.'..·.F·.··?,)' + ¡¿Fl. iJ(G1.2 + -o [L."nt .n2 l 2
2 . . . .+
' .l'l .
(:i:R·. ... 3(n n1,._ --_ c-
+ 1.)
¡;e;s¡
llt El coeficiente de.correlación cernngos de Speannan es una ;nedida de la relación entre dos varia.bles.de nivel Ord.inaL , 'A. PL!8de-_tr-_de-sde:.-"'.Ci-:h'asta--i-.Un_\(a!or o_ in_d1ca que_:n,o, !1ay re!ac_i.ó!} ent_re l?s Va_ri_8.ble_s'. Uí!;ya!or-d_e:_:-.1.:_inpiccr.una-co~reJ::;tci.ó[l_._n,.egatfV0_.perfecta 1 y'un· valOr d'e + 1. indica una· cor_rE;l~9_ión _pos_itiva p_étf~cta,,,_,. ·: __ . ,, _-, _.--' !13, E!· va.!or. de rs s_e: caicuta-mBdiante la' siguiente fórrnula;:-
r2
~
2
1- - -6-Zd ··-·
n(n 2 -
·1¡
¡·rn.e¡
-~i_e_fi]_Pl"9:Y-qLl<:líl~lo_.:eLt~qiaJc;__d~ mu~strE:l_~~a._por_ tp.rrieno;:;. i O, -s'e pÜ8d13 réalízar u_na pru8''.
ba de hipótesis utiliz8.ndo !a siguiente fór_mula: ~z: f · i.'-- rf
r\1.--~. 1
1; E(esf8.díS-'tióo·:·dE~_. Pr,ú_eb.á_ es_:lf?. 'diStríb.L16ió-n 2, Se tienen n - 2 grados- ele- !ibertacl.
[i6.7J
6H
SÍMBOLO
SttG~~~fICtiDO
F0Rfü1A 'EX!PRES~VA
Cu.ad,rp.do-.de la suma total de tos rango.s (]e.!:i p'rlmera columna
Sfgma.R.sliblnclice· 1 al cuacfracfo r
rangos.
E¡'e1.·c.·ic.iós. . d.e.l.caof.t.-.i.·.,.lo '
29~ La·-directora de prograniacióá de 1a·taderi'a te!ev!siva:NBC está terminando el horario estelar para e! s_ígi,1¡f;nte otoño. -!Jecidi6 inc_!ulr.t1n-program~-d8l tlpo "aventuras del lejano oeste", pero no sabe.con seguridad cuál ele dos-_posibi!idacle~_ elegir. Cuenta con i..1n programa pHoto lla-
mado "Thf! -Loner", Y' otro:Hamado "Catt!en1an", -_Para ayudarla a tornar. una dec_isión final, se pi_dló a un_?-_!Jl_Uestra de 2Q_ espectadores seleccionados_ eJ ·_a_zar_ de toclO _E_stados Unídos, que -vieran ambos programas_e:l_ndicaran c.uá! de el!os preferían. Los resultados fueron que a i2 !es gustó "The Loner''.; a 7, "Cattleman"-, y, uno no most1:6 predilección alguna. ¿Existe preferencia por_i_¡no de !os_d_os programas.?- Uti!1ce e! nivel_de significancfa O.iO. 3ü •. Svpónga~e_c¡!Je. Merril!_Ly_n.Ch __desea.,.otorga,_r un contrato ir:npo_rtante para e! suminfStro de p!umas de punto fin.o_. ql{e:}G utiliz_arán _en _su_s nf_i_cin.0s :de,to_do·e.l__país_. Do_s .proveedores, _Ble y Pílo_t, h~n-,p_re§en_t9do)a~- ofe_rtqs más. b~jas. P.ara determ.inar _Ja predi!eccíón de !os empleados df oficin_á_, rnensajeros_y. o.tras_; s_e efe.ctuará u~a prue_ba ~,e preferencía persona!, utilizando un.a muestra' afeatoria.e!e 20.emp!eados .. Se aplicará _e! n_lv_el .d_~ sígni·ffcancía. 0.05. a) Si la hip.ótesís· alternativa establéGEJ. qqe se prefiere Bi_c en vez ele Pi!ot, la prueba de signo a. realiz0r_¿cleberá _ser una prL1eba_de una o de dos colas? Explique . .b} A medída_que.cacfa miembro de la muestra expresó' a !os ínvestigadores su preferenCia, se registra_ un.signo'.'.-~" si er$ Bíg, y u.n signo"-" si setrafaba de Pilot. Una cuenta de las marcas i·eVetó qU8 12- emp!éaddS pre-firie·ron Bic; 5, Pi!ot, y 3 estuvieron indecisos. ¿Cuál es el va!o'r cre·n'? C) E)(pr'e'sE1_ ~nip"J8br.aS. ·a r~gla d-~: decisión. d} ?i\qué...qonc_ru.~íó_n ..l!egó u.~te,d_.~o_n res_pecto _a _1~·-p_re~~.rehé.ía_ por !as· plumas? Explique. s~i .-una .gran cadeíl_a de tiendas de_p_éirtament:a_les; c:;_ornvvau &._:.i~.l~dson, desea vender sólo üna marca de reproductor ele discos· compactos de.alta calidad . La lista de equipos reproductores :de'C;.o~ Se. ha re.ducidó"a·a.o~ mafC8s:;Sony y Pioneer.· Para a'yudar en !a tó.ma de decisión, se reunió;a_ un grupo de: i 6 expertos 8n .audio. Se hizo !a reproduccíón ele un _pasaje musical usando:. componentes .Sony (tnarcados -A.). Después se reprodujo ef mtsnio pasaje utmzando componentes Pioneer (marcados 8);· Un signo·"+-'-'· en-la-tabla-siguiente_ lndica..!a. preferencia.de.una perso0.a}~o_r-Jo.s cor,nponen'te$ Sony, y_.un:signo ·"-'.' se_fía!_.a prec!l!ección por Ploner, y un Osign_ífi_caque no__hay 'pr.efere_ncia.
:o.
f38alice:unaprueba d_~:hip_ót~sís-a! _nivel .de-si-gni'ficanC:iE:l í O pára d8termii1ar si hay diferencia en la preferencia entre·. tas dos n1arcas, 32. La South .car9Hna Rea! Estate -Associat!on afirma que ei-va!or medl_ano del alquller de condon1iníos eón tres·dormitori'Js en: la zona metrop_o!ltana, es superior a $·1· 200 (dólares) al mes. Para verHicar eStO, se se!eccio1i6.a! az'ar una rrjuestra aleatoria de_·¡49 un.idades. D_e éstas, 5_se rentaban en·exacta1nente $·1 200 al mes; y 75, en rnás ·de $1_200. Al nivel 0.05, prueb.e· que_ !a renta mediana ·es n1ayor que $'! 200. @} Estap_!etca f-10 y r1~. l:l) Exwese,fa .r~gla .dece.cisión. e) Haga íos,._cálc._uio_s liec·esaríos_y_{oni_e un~ declSl.On.
612
!:apitu!!l i 6 33.
E! Cltrus CouncH (con$ejo·de cítriccis de EUA) cte.s:~.'a.~V(3ri.9.,ua.t~I._to~ consumi_d,ores Préfiereii-ju~ .99. ,,9€3. ri~:ir_~nJ~ ,~_r.rri_e_I~ 9J~-9_rl._,l1rr.-p9c;_q__9_~_ pu !P
de un tipo, y después probó umtazadel otro tipo. Doce consumidores dijeron que no tenían preferencia; 40 prefirieron ~I jugo simple, y al resto le gustó más el)ugo con pulpa. Pruebe al ní' vel• 9.05 queiasp">f~r~~cia~porel prod~cto.simpley p9r el produ~to. cor pulpa:. son iguales . ..... 31.[ Se va a reálizar un próyéclodé investígación acercadela responsabilidad por la corrtuÍ"licfad. El objet_ivo._es de_terrninar_ sf l,r;t~ muje_~es tie_n_en (flá:s:~9nc!encía _de_-_ra yfda_ en cornun1d~d a_ntf?s de! rratrimonio,-. o cjespu.és . de .ci.~co. afros cte· t11átritrtoni()_~_-.Se. ·,apile~: u.~_a ·prtlebct·p.ara.me,~ir;_la·.G_on~ ·cienc.ia comun_itarla a un.a muestra.-.de muferes antes _(je cas0rse;
Antes•de
Después. de.casarse
Nombre'
caror;
114
159
' 186 116
120 103 139
130
Después de.casarse
casarse
196
.1110
116 140
149
142
Prdebé .al ~ivel Ü'05 lo "i\)uiente! H0 es: f\loháy difére~d¡,_eh la bondreílCíiic comunitaria arltes-y
después de.I mátri1119nis .•H1 ."8' Sf h<:tY ~ffere~9i~: ... ·•·· ... · ··.·.•··.······ 36.,En .. distritos 1or~dornin.~~tern;.nte ·fut~les ¿hay diferencia;• en. la tasq anual .de divorcios énfre •tres regiore.s ge9gráficasdeE?t~dos Unid.?s, ~t sy??este, ~I s~<:feste y el. noroeste? Pruebe ~I oiyel 0..05, las tas~s an~ales dedívorcios, pprrnillar.de habitantes en d.istdtos Seí8ccionados aleatorlamentH'son: ·
36.. se .vana .co111pararlosJiertlp()s f!1(1~rtos(0eriodósd~ ihacfivi,dad) e,n _los. tlirnos rnatu.tino ,de o.cho. h?rª8' y nocturn9: _Un estudio de tiempos ('1ostró)a8'.~iguientes cantidades_ de tiempos .rnuert9s (en minutos) .en periodos.de ochQ hor,as,
tú;rio·_: dit.frno: JurriO.J10.CtiimO:
¿~xi:t~· difere~ci~
%JO.:l;11.6,.8), 8.9 •. 06, 1.14, 80, 82, 88, 9.1
ies~e¿t()~¡ lie~~ó~uerto?
·• ·.• énffelos dós tur9ós •pruebe aL nivel. o.Qs; 37.. $e investigará la inestebilidad delos ejecutivos en l~s casas de b?lsa, en empresas de servici9, en:,t_a. i.n.<:fu~_tr.i~: el~ _l~'.~O~s~~u~cí_ó~:_ p~s~cf.a·_:_y_~n !_~s-.:e_Tpr~.s-~~-:_é!_~·- t_\?~sport'.'1cíón-;a~reé1_:: S,Er:!3~1.~c_"' c.i~,nar?n mueS!f
·-rrartSpO_rte·aére.0.
62
11
4d
30 38
8
81
46
4
3
COTisttucción:_p'es_'ada·
20 '15
40
76
21
No se puecjesuponer.qye los fndicésestáh distiibµid 0s qór.ma1111ente .. Portante, ~e d9bera .utilizar una pr[ieba noparamétrica. Usando el nivel 0.05, determine. sí los íncjices de inestal:lilid¡td dá ras cliatro:Poblacíones Son·ídénticos,
613 38•. A.un grüpó ·de personas n1ayoi'es del Sexo .masculino-se!eCé!onadas aleatoriarnente Se.les apHcó u_na _serle de pregunta~ sobre deporte y sucesos muhd_ia!es_.- Los resu!tados se tradujeron en una·caHficación .de '-'conocimterrtos'-'. ·Las.ca!fftcaciones. fueron:
Giucla.dar.ai J. C. ~AcCarthy .
A.i'J. Baker EL B. Beebe L. D. Gauce:t
c.·A. 'JoneS J. N. Narko A E Nissen
Deportes SuéuSoS-nluntHaíes . . 47.. .49... ·12 'ID
Giudatlahd
Depórtes Sucesos mundiales
LM.Zaug9
.87.
75
J'B. $fITfó1i J. Gould.en A.A. Davis
59
86 61
62
76
81 90
92 86
~ NI C~[bo
35
42
61
61
A. O.Smilhy J),Pascal
40. 87 16 50 60
18 75 51 6'1
aj peterrri_lr,i$ et grad_o .sle. _aso_c,i_~c;i_c)n entre . li;\:califiqSJ.é_!óf!. gu.e-_obtuvíeron _dichas persünas con respecto a sus ·conocirílientos Sobre_ clep~rteS:.Y:l<:1_;.c;_alifiéación que óbtuvieron-E!n everitos rnuncli8Jes. b) Al nive.I de signíficandade. 0.05, ¿la ~orreladón de ranq9s en lapobladón esrnayor qu!'l 07. 39; Al principio de la temporada,le basqqetbol (enEUA), 12 equipos parecían sobresalir. Se pidió a-_ ur;r -_g~_up_~r:?;;_:-sronístas: d~pqrti,~os· _y _-a· y.n?_ _fte:_·,·e~trell~~ or~;:;-~ q_~ -s¡;üoncesto uníversitario _que catmc_aran- a !os--_,~ 2_- _eq~tlpos~ 'S~s_ califiCa~_iQr:t8~- c_ómP,tl.e_s_t_as-ScJn las. s_fguientes._
E'quijJ°Q Duka UNLV lndiaria North CaroH.Qa LouisvH!e OhioStata
Enfre-nadores
CroriiSt@s ·1
2 3
5
5 6
3
4 6
Equipo · Syracusa Georg_etrnivn_ Vii!anova LSU St.Johns Michigan
Entrenadores
7 8 9 10 l1 ·12
ci-oni~tés
f
10 11 7 ·12 8
9
De.termine· la correfa_ción entre las calif/caclones._ que;_.otorgaron !os-e11tr8nadores y 18.S que ásig~ naron _.!o_s cronistas, --Al-nivel ·.cle,_sig_nificancia.0.05, c¿se__ pued_e_ conc!uir-·q~e: esta c_orrelación e_s _difere,nte de_cero?· :--._:-.. _: -40.-:un profesor.considera qu9 !os estudiantes que._acaba_n'_Sus-_e_xámen-Ss en 111enós ti8mpó obtienen l_as·caHf!ca_cí_ones máS a_lt~s;-_y lo_s_ que:dem·oran_[Jlás_ en coilc!uir!_Os obtienen fa~ n"otas Íllás b_aja?:--Para:veri:ficar su· suposic_fón,::-asigna ~_tn ,rango _af- orden en.- c¡u_e terminan. y después ca!ifica--los-.~xámenes:.. _Los .re_suttado_s--son- como· sigue:
Orden de . terniinaGi_ón-,
Ga!_ificaclórn {50 P?Sible)
Gat_i1i.~;:i:tiú_r¡
Estudiilíl_te.- _ terminacíón Smytn~
''$\'oiilrl~y
7
ArquétteGovífo
GfihkhWSi
White
H.arriS' (;ribb
47
10
Bb~ligilb
l1
Hinen:ran'
'12
(50 posil¡le)
39 30 37 35 3.6 33
C_o_~_y_lel}:~-.!a_s _ c_á!íJi?aciqr¡eS_J3_f} ..t_µn_~os;y-·9e_terri_ k1E;_-:er·:Coé"f!f_í_~,ri-~~-:q_~ corrEil~cióíl. de_·rarigc)_S;. Al nivel de. signif_iCa,ncia O'. 05 1__-¿_pu~de___c_o_ric![Jir,_e!. prof_~9_0r _g_u_e_..e_~!?te_ una -9s_oci_ac_ión_ positiva entre ,e!. o~c!en_ ~_n __ef ·qwe ,_s_~:ten11_íné_i:e_I -~?
ejerclciós.com. 4·L--[,Exi~_te_· cé)f_r~laCi_?;n·_eritr~ _1~_:_P?sici9-n-_ de iíli~¡o_- .8n·.úna'.C:8ír~ra df-. aut_os--Y_é!'-_ordé~ cte J!éQád~? Para_ 1nvestígar!o_ánterior u~e-·!os:r~su!t~cfoS_:d_~_-1_a_rnás--rec¡,ente car_rera;lndia,nápolfs 500. Para obtener el res~1Jtado vaya ahttp://wwwJ~dy 500'.com/, PresíonE> en Stats, después elija Gríds and Race.Re;:;tdts 1 ·y-preSíone en 'el año más-reciente.>_Ne_cesitará bajar·!Os d_atos y0 sea a ExCel o MINITl\.B
614 a} Calcule el coeficiente· de· correlación .de rangos entre, la. posicló[l de inicio y el orden de l!e-
gada:a !a m_eta: b} Re_alice una- prueba de.hipótesis,para: c!eterminacsi-!a correlación de rangos calculada en et inciso anterior es mayor que cero. Interprete los resultado_s.
42. En la edi_cíón en líne:a.de lnfarmation Please_Afmanac se-pued8'·-encontra_r una gran·canticlad de infornieción .• V¡¡ya,por ejemplo'. a httpJ/ infopleas~.Cor(l presióne en Tabulafod Data . 9n St't · ··tEfGoV~rn_tné~tsi y pf"estóri8 e11·G0Véi'riói"1S.Saláh7. H~y,data-s·_soore rO~fSuefdoSde·iqs· g'ó68f-nadores y de lá corte ele justicia ele cada estado, en EUA, Necesitará bajar los datos.a Excel o MINITAB,. .
a) Catc;~re ei-coéfiCiente d_e corre!acióh·.:entre !as.dos _vari.ableS elÍlpleándo los métodos ele P~arson_y._:de Spearman: ¿Qué pued.~ decír acerca·_de l_adiferencia entre los dos valores? (Su_ger~ncia: par_a encon~_rar e! coeficiente de correlacióií_ de _rangos_ necesitará orden_ar_ pri_mero__las dos _vari~b_!_es _y-cle_spués usqr,· ef progr~ma _de_com_putación para _estadística para encon_trar_. ~l _coef_i~lente d_EJ co_r_r~laSíón_de Pe~rs_o_~ ~sardo los datos_ ordenados por rangos). b) R(3_~1íce· un_a_-prL!_e_ba de hipótesis_· para déterminar-si·ef· Coeficiente de correlación de rangoS es.-díferente de-cero;
Ejercicios con datos: para computadora 43,.Refiérasealconjun1o d.e datos.df!bienes r.aíces.(Rea!Slate) que reporta información acerca.ele !as.ca~as·ven~lid_a_s_en_e! éJea ele Venice,_ Florida.durante e! ú!timo año.
_a) Usápn_~ prueba no pararnéfrica apr~pia_da_p_ara deter_n:il_nt_lr s_i_ hay" diferencia en e! precio de vent~ representativo-de las 'casas.en v_arias ·roca!idades._Suponga_que_!os precios de venta_ no·están·dístribuiclos __normafrnente. Use e! nivel de sígn_lficancia 0.05. bj Forme en_. un grupo con· ras casas que-tienen 6 o más_ n:::cám_aras,- y determirie sf hay, d_iferencia-~n_e! precio de venta representativo. de !as cas_as; el_e acuerdo con la canl_idad _de _recámaras que tienen. Utí!ice e! nivel de sígnificancia 0.05-y suponga que !a distribución de !o_s· precids ele venla no es def _típo normal. e} Corisidere que !a dfstriblrción de la distancia al·centrCi'de·ia ciudad, tiene.sesgo positivo, Eis decir,-la suposición de-normalidad no es··razo·nab!e. Compare la dístribüción d_e las distancias· a! centro- de ta:cfL:dad de las·-.cas~i's-C¡ue·-trerlen-;pisCina, con la dfstribuctón ele tas ca_sas.que no· !a tfenen.>¿Se: plrede·.conclu\r que hay·una-diferencií:i en !as distribuciones?
Use el nivel ele significancia 0.05. 44,. Refiérase al conjunto de elatos ele béisbol (Baseba// 2000) que brinda información acerca de la temporada de2000 de la Liga Mayor de Béisbol, en EUA. a) Orde1.1e los equipos de acuerdo con el número dejuegos ganados y el sueldo. total del equipo. Calcule el coeficiente de correlaciónde·rangos entr(3 las dos variables. Al nivel d.e
signíficancia 0.0-1,· ¿se puede concluir que el coeficiente de_ correlacló_n ele rangos· es ma:yor que cero? b) Suponga c1ue las distribuciones de los sueldos de los equipos de la Liga Americana y ele
la Liga-_Naciona_f_ no siguen_·u11a·distrl_bución- normaL-_8ealice:una prueba de hipótesis para _dis_tribu_cionEfs.__ > ..._. .·, Refiérase al 99njunto de datos de la .OEC[J que propprd.omUr1formación. de censos y datos econór:i._i_c9s:y:comerciales.de 29_ paf_se_s. Dh1!da_los países,:~p--t_res grupo_s, Europa, Amér_i-ca. del v~r:. $_i:_D._?Y:-_clifer_enc_iEl__en't_r$_ las _.dos
Norte YJ:ianp Oriente. Divida e/Producto Interno Bruto ~ntre la población para determ.inar el PIBper.p?pita. Sin suponer9ormalidad,pruebe.al nivel de s¡gnificancia 0.05. sí hay diferencia enl.as distribuciones de las tresregiones. Compare los resultados con los del ejercicio 43p dél 46.
. . . .. .•..... ·. ·..•. capítulo.12. ·• .• ·....•. ·.··..• ·..· ¡:{e(iéra~e al conju~to de d(1tos de escuelas ($~h~ols/,ql1e ofrece información acerca de 94 dístrí_tos_ :?~--~_ofa_res _ _e! 1~_9_r-?_e~t~---d~.O-~[o_'. a) Agrupe los datos por tarnáño del distritO escolar: "granel e" con 3 000 o más estudiéntes; 1 'mec!iano'\ con_·1· 000 a 3 000 alumnos, y Hpequeño", con menos ele 10009!_umnos.-Aho"" ra compare la distribución de-,la canti~!~d g_a_st.(;¡da_-_E}t:l ed_~-~-aqiQ.n-.en los· tres grupos
en
qanti_d21d gastada.en la_ ed_uca~ión·_no-s_i_gue_la·dí_stribucíón _nor_nial. b} U_~~ el_ ílJ_ismo _é{grupam_ie11to __basado_en e_k_ta·maf¡o_y_conip_a·r~· 1<:tS distdblrb_iorí_SS!dé_-.$üei~_o::
~_s_e el niV_t;¡_! _de__._si_gr¡i_:fk~_anqia:o'.q5. _ _ , e} Calcwte el_ cÜeficient~ .d(3 c_orre!e;tc_ión_ de rangos:.entre el _nl1mero d_e estudíantes en et distrito; y el sueldo medio de !os maestros en ef_mls_nio.-,¿Pue.de concluirse que existe una relación positiva? Use e! nivel de signifícancia 0.0·1.
Mé!odos no para111é!ricos. Amílisis de dalos ordenados parrango
pqrria~dos paracó~dpra . ·-·-~·~~-.~~
615
n-
Lo~cornandosde MegaStatpara Excel en la pruetfade suma .de rangos de Wilcoxon. pre·s····e·'. tada en la página 598 son: . . · . , , ,.· a) -~-n:_1~sor_~~f1l_íl,ª, ~ _in_tro?u_zc_él_el __ nl1me~?.,de _pasaj~;os: _ no::reg,istrados en Atlantai:'l·~n::ia CO_lun:i_n_a B_; ·,.Q_Ln9Jrr.~r_Q_,·.9.E?---:p~_$_~j_e_ros: n_o:.re_g_ístratjo_s_,-_13,n·_·Gh_icago·: . "·"----"·-- · . _ · 6j E:íi¡ei MegaStat, Nonparame!ríc Tests y Wífcoxon-Mann/Whilney Test, a continuación.
<•
p~.lseEnter> . . , <· . . . C) Como grup~ luse fos qatqs \Je Josvu~losdeAtlanta (A2:A 10) y corno grupo 2 use los datos cjelps.vuelos dé Cllicago(B2:89). Pulse, en Correcttor líes y one-tailed, y presione OK
2. Los comandos de MIN.ITAB para la prueba de Kruskal Wallis presentada en la página 6G2 son: a} En: la columna 1 _íntroduz_ca_fas calificacio_nes, y.en !a_columna 2 _uncódígo correspondien'"' te a su grupo, A la variable en C1 llámela Seores y a la variable en C2 Groups. b) De la barra del. menú elija Sta.!, Nonparam¡¡tric y Kruskal-Wallís, y pres.ione Enter. e) Elija las variables Seores como variable (de respuesta) Response y Groups como el Factor.
616
l:ap!lu!oJ6 3; Los cotr\andos.deExqel para eJ AN()VA en un sentido dela página 603 son: a) E~la primer
3
.•·.. '.·.·. éf EnJªY,enl~na,cle.d.i~l9gp, e.1.[1ango d8;~ntr~daesA.1.:pq;. pulse. en.Ró!U!osen!aptim'3ra líl¡¡. e¡n¡rodu;'.éa~/ qorf\~l'!ií~góil<> .s.tili<íef, a é\'.qtinqáció.q pulse. en Aceptar,· · ·
Métodos no paramétricos. Análisis de datos ordenados por rango .
617
618
Capítulo 16
619
Repaso de los capítulos 15 y 16 La prueba de bondad de ajuste y el análisis de tablas de contingencia se aplican a datos de nive!
nominal.
Cinco pruebas para datos ele nivel ordinal.
Esta sección es un repaso de los principales conceptos y términos presentados en los capítulos 15 y 16. En el capítulo 15 se nició el estudio de las pruebas no paramétlicas, o libres de distribución, describiendo la prueba_ii cuadrada de bondad de ajuste. Esta prueba compara un conjunto de ·frecuencias observadas, (J, con el correspondiente conjunto de frecuencias esperadas, fe. La prueba estudia sólo una característica de una persona, como por ejemplo, la educación. Si se tiene interés en dos características -como la relación entre nivel educativo e ingreso- los datos se clasifican en forma cruzada en una tabla de contingencia y se emplea Ja prueba de ji cuadrada para independencia. En estas dos pruebas no se necesita ninguna suposición acerca ele la forma de la población; sólo se requiere que los datos sean de nivel non1inal. La prueba de bondad de ajuste de ji cuadrada también se emplea para detern1inar si un conjunto de frecuencias observadas está distribuido normalmente. En el capítulo í 6 se presentaron cinco pruebas de hipótesis no paramétricas y el coeficiente de correlación ele rangos, pruebas tocias que requieren datos de nivel de medición ordinal. Esto es, los datos deben ser ordenados por rangos de n1enor a mayor. Las pruebas presentadas fueron: la prueba ele signos, la pr:Jeba para la mediana, fa prueba de suma de rangos de Wílcoxon, la prueba de análisis de varianza de f(ruskal-Wa!lfs, y la prueba ele rangos con signo ele Wífcoxon.
Glosario Capítulo 15
Gapílulo 16
Distribución ]i cuadrada Es una distribución con las siguientes características: (1) Su valor sólo puede ser positivo. (2) Hay una familia de distribuciones ji cuadrada, una para cada grado de libertad. (3) Las distribuciones tienen sesgo positivo, pero conforme aumenta el número de grados de libertad, la distribución se aproxima a la distribución norn1al. Nivel nominai de medic~órii Es el nivel de medición "más bajo". Los datos sólo se pueden clasificar en categorías y no hay orden entre tales categorías. Por ejen1plo, no importa si las categorías "masculino" y "'femenino" se enlistan en ese orden, o femenino primero y masculino después. Las categorías son mutuamente excluyentes, lo que sigr.ifica, en este ejernplo, que una persona no puede ser masculina y femenina al mismo tiempo. Prueba de bondad de ajuste de ji cuadrada Es una prueba cuyo objetivo es determinar qué tan bien se ajusta un conjunto de frecuencias observadas, a un conjunto de frecuencias esperadas. Se usa cuando se tiene sólo una variable de nivel de medición nominal, como el color de un 2utomóvil. Pruebas no paramétricas o Hbres de distribución Pruebas de hipótesis para datos de niveles non1lnal y ordinal. No se necesita hacer suposiciones acerca de Ja ·forrna de la población; esto es, no tiene que suponerse que la población esté distribuida nor111a!mente. Tabla de cont!ngencias Si dos características, co1110 educación e ingreso, se registran en clasificación cruiada en una tabla, el resultado se denomina tabla de contingencias. Se emplea el estadístico de prueba ji cuadrada para determinar si las dos características están relacionadas.
Análisis de varianza por rangos en un sentldo, de Kn,iska!-Wa!lls Prueba que se emplea cuando no se satisfacen las suposicíones del análisis de varianza (ANOVA) paramétrico. Su objetivo es probar si varias poblaciones son iguales. De nuevo, los elatos deben ser por lo 1nenos de nivel de medición ordinal. Coeficiente de correlación de rangos de Spearman Es una rnedída de la relación existente entre los rangos de dos variables. Puede variar desde -1.00 hasta i .OO. El valor-1.00 indica una relación negativa perfecta entre los rangos, y el valor 1.00, una relación poshiva perfecta entre los rangos. El valor O señala que no hay relación entre los rangos. Prueba de rangos con signos para pares de datos, de Wi!coxon Es una prueba no paramétrica que requiere que los datos sean por lo menos de nivel ordinal. Su objetivo es encontrar si hay diferencia entre dos conjuntos de observaciones (relacionadas) puestas en pares Se emplea cuando no pueden satisfacerse las suposiciones para la prueba t de pares. Prueba de slgr.o Se uüliza para muestras dependientes. La prueba de signo sirve para determinar si hay preferencia hacia uno de dos productos, o si es n1ayor el rendimiento después de un experimento que antes d.e éste. También se usa la prueba del signo para probar una hipótesis acerca de la mediana. Prueba de surna de rangos de Wilcoxon Una prueba no paramétrica que requiere 111uestras independientes. Los datos deben ser cuando menos de nivel ordinal. Esto es, la in-forn1ación debe poder clasificarse por rangos. Tal' prueba se utiliza cuando no es posible satisfacer las suposiciones para la prueba paramétrica t de Stuclent Su objetivo es encontrar si se puede considerar que dos muestras independientes provienen de una misma población.
620
Ejen::icills -·-------------i. En una prueba de ji cuadrada, ¿qué significan f0 y fe? 2. ¿Qué ejemplifica lo siguiente? Contribución a la campaña (en dólares}
Afiliación
$1-$99
política Republicana Demócrata Socialista Otras
42 596 42 --·· 19
~·---
$100-$999
$1 000 y mas
87 302 49 17
342 ·116
C - - - · - - · - ~.
36 11
3. Refiérase a1 ejercicio 2. ¿Qué estadístico de prueba se usaría para determinar si existe alguna relación entre la afiliación política Y.el n1onto ele una contribución? 4. Véase e! ejercicio 2. ¿Cuántos grados de libertad hay? 5. Considere de nuevo el ejercicio 2. Suponga que el valor calculado para x 2 es i í .248, y que se usa e\ nivel de 0.05. ¿Debe rechazarse la hipótesis nu!a? 6. En una prueba de bondad de ajuste, el valor calculado para ji cuadrada es 8.403, y el valor crítico, 5.99í. Se usa e! nivel de 0.05. ¿Se rechaza la hipótesis nula? 7. Refiérase al "Jjercicio 6. ¿Cuá! es la hipótesis nula? 3. ¿Qué nivel de medición se necesita en las pruebas de hipótesis paramétricas descritas en !os
capítulos 11 y 12?
9. ¿Qué nivel de medición se necesita para la prueba de bondad de ajuste? íO. ¿Qué nivel de medición se necesita para la prueba de suma de rangos de Wilcoxon? 11. ¿Cuál es el objetivo de la prueba de suma de rangos de Wilcoxon?
i2. ¿Qué suposiciones se hacen ::.cerca de la forma de !as poblaciones al usar la prueba de Kruskal-Wallís? 13. ¿Cuál es la finalidad de la prueba ele Kruskal-Wallis?
i4. ¿Qué objeto tiene la prueba de rangos con signo de VVi!coxon? i5. De !as siguientes pruebas no paramétricas (de signo, de suma de rangos de Wilcoxon, de Kruskal-Wallis, y de rangos con signo de Wilcoxon), ¿cuál es la que trata con tres o más muestras?
16. Refiérase al ejercicio 15. ¿Qué prueba versa sobre datos en pares? 17. Véase el ejercicio i5. ¿Pueden aplicarse esas pruebas a datos de nivel de intervalo y de razón? i8. En una prueba ele suma de rangos de Wilcoxon, la hipótesis alternativa es: Las rnujeres tienen n1ejor percepción visual que los hombres. ¿Debe emplearse una prueba de una cola, o de dos colas? i 9. La distribución jl cuadrada para 5 grados de libertad tiene una distribución casí normal. ¿Es cierta esta afirmación? 20. ¿Cómo se deterrninan los grados de libertad en una prueba de bondad de ajuste? 21. Utilizando un ejemplo simple, describa los pasos seguidos para probar una hipótesis acerca de la mediana.
ft
NatiG!11][ .Baílk
¿Existe relación entre la ubicación de una filial bancaria y si un cliente tiene o no una tarjeta de débito? Con base en la información dís¡:)onible, desanulle una tabla que muestre la relación entre estas dos variables. Al nivel de significancia 0.05, ¿se puede concluir que hay relación entre la ubicación de !a sucursal y si el cliente utiliza o no una tarjeta de débito?
B. Ttmmas Tesliílg labs John Thomas, propietario de la empresa Thomas TEisting, ocasionalmente ha reaiizado trabajos para algunas compañías aseguradoras con respecto a conductores de auto bajo influencia de! alcohol. Para mejorar su capacidad de investigación, adquirió recientemente un simulador de rnanejo. Este aparato (Rupple) permitirá a una persona hacer un "examen de manejo", y proporciona una calificación, lndi-
621
Repaso de IOs capítulos 15 y 16 cando el nl1mero de errores coinetidos durante Ja prueba. Las notas más altas indican más equivocaciones. Los erro-
res de manejo comprenden: no detenerse por completo cuando hay una señal ele alto, no utilizar !as luces direccio-
nales antes de dar vuelta, no tener precaución cuando se conduce sobre pavimento mojado o con nieve, etc. Durante e! examen en cuestión, !os problemas aparecen aleatoria-
mente y no todos ellos se presentan en cada una de las pruebas. Estas son ías principales ventajas del simulador de manejo, porque Jos individuos no obtienen ventaja alguna al hacer Ja prueba en repetidas ocasíones.
Con el nuevo simulador, al señor Thomas le gustaría analizar en detalle el problema de conducir bajo los efectos de! alcohol. E111pieza su estudio seleccionando una muestra aleatoria de 25 conductores. Pide a cada uno que pase por el examen de manejo en el mencionado sirnu!ador. En la si~ guiente tabla se presenta el nl1mero de errores cometido por cada persona. Después pide .a las personas seleccionadas que beban tres latas de cerveza, de i 6 onzas cada una, en un lapso de 60 mín y vuelvan a efectuar la prueba de manejo en el simulador. En la tabla se muestra también el número de errores de manejo com8tidoS después de ingerir la cerveza~ La· cuestión a investigar es: ¿Entorpece el alcohol
la habilidad del conductor aumentando, por tanto, el númec ro de errores de manejo?
El señor Thomas cree que la distribución de las calificaciones del examen de manejo no es una distribución normal
y, por !o mismo, se debe utillzar una prueba no paramétrica. Puesto que las observaciones se encuentran por pares, decide utilizar tanto la prueba de signo como la de rangos con signo de Wilcoxon. Compare los resultados empleando estos dos procedimientos. ¿Qué prueba estadística sugeriría utilizar? ¿A qué conclusión llegaría con respecto a. ios efectos d8! alcohol sobre el conducír un automóvil? Escriba un breve informe resumiendo sus hallazgos.
1 Persona
Sin alcohol
8
75 78 89 100 85 70 64 79
9 10 11 12 13
82 83 84 80
1 2 3 4 5 6 7 .
Errores al conducir ·
Errores al conducir
83
Con alcohol
89 83 80 90 84 68 84 104 81 88 93 92 103
Persona 14
15 16
17 18 19 20 21 22 23 24 25
Sin alcohol
alcohol
Gon
l2 83 99 75 58 93 69 86 97 65 96 85
106 89 89 77 78 108 69 84 86 92 97 94
-~?.~(() _;-' ____ - : Analizar la funcíón
cfe(cbiifrol
de C.~Hdad en l~sqRerf)cibnes de producción y servicio.
DOS Definir y compréhder los términos siguientes: Célllsa aleato[ia, causa asigna.ble, bajo control, fuera de control, atributo, y varia.ble.
estadístico ···· · t·®d d aecai··•.··· . a<•· 1
TRES Elaborar e interpretar un diagrama Pare/o.
CUATRO Elaborar e interpretar un diagrama de causa y efecto (o diagrama de espinazo de pescado). i::i.~ii::o
Elaborar e interpretar un diagrama para la media y un diagrama de amplitud de variación. SE~§
Elaborar e interpretar un diagrama de porcentaje de unidades defectuosas y un dÍagrama de e con barra. §~!Gf~
Describir el muestreo de aceptación:
Ol\:.a-110 Elaborar un diagrame c;eracterístico de operación para diversos planes de mue.streo.
Un inspcclur de conh·ol de Céllidad inide cada hora el-diá1neh·o ~~t~úQfa~--~u·a~_. tropiezas. Bascindose en los resultados ele las n1ccfü:::iones,:¿ésta5 se encue1lfraijdcntro de los lúnites de conlYoÍ? (Ver autoexarnen 17.2 y Objctivó--5-.)
Control estadístico de calidad
623
Introducción A lo largo de este texto se han presentado muchos usos de las pruebas de hipótesis. En el capítulo 10 se describieron los métodos para probar una hipótesis acerca de un solo valor poblacional. En el capítulo 11 se describieron métodos para probar una hipótesis acerca de dos poblaciones. En este capítulo se presenta otra aplicación, algo diferente, de la prueba de hipótesis denominada: control estadístico de procesos, abreviado CEP o SPC (statistica/ process control). El control estadístico de procesos es un conjunto de estrategias, técnicas y acciones realizadas por una organización para verificar que se elabora un producto de calidad, o se proporciona un servicio de calidad. El control estadístico de procesos inicia en la etapa de planeación del producto, cuando se especifican los atributos del producto o del servicio. Continúa durante la etapa de producción. Cada atributo presente en el proceso de producción contribuye a la calidad global del producto. Para utilizar el control de calidad de manera eficaz, se deben desarrollar atributos y especificaciones mensurables, con los que se puedan comparar las caracteristicas reales del producto o servicio.
Breve historia del control de calidad Antes de 1900, la industria en Estados Unidos (EUA) se caracterizaba principalmente por talleres pequeños que fabricaban productos relativamente sencillos, como velas o muebles. En esos talleres, el trabajador era, por lo general, un artesano responsable por completo de la calidad del trabajo. El trabajador podía asegurar la calidad mediante la selección personal de los materiales, la habilidad en la manufactura, y la realización de ajustes y arreglos selectivos. A principios del siglo XX surgieron las fábricas, en las que se colocaba gente, con poca capacitación en largas líneas de ensamble. Los productos se volvieron mucho más complejos. El trabajador ya no tenía el control total sobre la calidad del producto. Un grupo de semiprofesionales, generalmente denominado Departamento de Inspección, se convirtió en el responsable de la calidad del producto. Esta responsabilidad se cumplía mediante la inspección al 100% de todas las características importantes. Si surgían algunas discrepancias, estos problemas se turnaban al supervisor del departamento de producción. En esencia, durante ese periodo la calidad se obtenía mediante la "inspección de la calidad del producto". Durante el decenio de 1920 el doctor Walter A Shewhart, de Bell Telephone Labora:ories, desarrolló los conceptos del control estadístico de calidad. El doctor Shewhart introdujo la idea de "controlar" la calidad de un producto durante su elaboración, en lugar de inspeccionar la calidad en los productos terminados. Con el propósito de controlar la calidad, Shewhart desarrolló técnicas de diagramación para controlar las operaciones de manufactura durante el proceso de producción. Además, introdujo el concepto de inspección por muestreo estadístico para estimar la calidad de un producto mientras era elaborado, reemplazando así el método antiguo de inspeccionar cada pieza, una vez que se ha terminado su manufactura. El control estadístico de calidad adquiere fuerza durante la Segunda Guerra Mundial. La necesidad de producción en masa de artículos relacionados con la guerra, como miras para bombardeos aéreos, sistemas de radar, y otros equipos electrónicos, al menor costo posible, aceleró el uso del muestreo estadístico y de los diagramas de control de calidad. Desde la Segunda Guerra Mundial estas técnicas se han refinado y perfeccionado. El empleo de las computadoras en la última década del siglo XX también ha difundido ampliamente el uso de estas técnicas. La Segunda Guerra Mundial destruyó casi por completo la capacidad de producción japonesa. En vez de instrumentar nuevamente sus antiguos métodos de producción, los japoneses aceptaron la ayuda del ya fallecido doctor W. Edwards Deming, del Departamento de Agricultura de Estados Unidos, para desarrollar un plan general. En una serie de seminarios con planificadores japoneses, el doctor hizo énfasis en una fi!osoffa conocida actualmente como los "14 puntos de Deming", los cuales se indican rnás adelante. Deming enfatizó que
624 \a calidad proviene de mejoras en e\ proceso, no así de la inspección indicó además que la calidad está deterrninada por los clientes. E! fabricante o productor, agregó, debe ser capaz de prever las necesidades de los consurnidores, rnediante investigaciones de mercado. La alta gerencia es responsable de \as rnejoras a largo p1azo. Otra de sus indicaciones -que !os japoneses apoyaron fuertemente- es que cada integrante de una empresa debe contribuir al mejorarniento a largo_ plazo._ Para l()grar este prog1·eso, es necesario contar con educación y capacitación en forma continua. Deming tenía algunas ideas que no concordaban con las 'filosofías gerenclales contemporáneas en Estados Unidos. Dos áreas en las que sus conceptos diferían de la mentalidad estadounidense de la época, eran las cuotas de producción y las cali"fics.ciones por mérito. Deming aseguraba que estas dos prácticas, que son comunes en ese país, no son productivas y deben elin1inarse. Asi111ismo, señaló que a los gerentes estadounidenses !es interesan mucho las "buenas noticias", las cuales, sin embargo, no proporcionan una oportunidad de mejora. Por otro lado, !as "malas noticias" abren !a puerta a nuevos productos y permiten el progreso de la compañía. A contínuación se indican, en forma condensada, los i 4 puntos de Deming. Éi estaba obstinado en que tales puntos debían adoptarse como un paquete para poder tener éxito. E! asunto principal es la cooperación, e! trabajo en equipo y \a convicción que \os trabajadores desean realizar su trabajo con calidad. -¡. Crear constancía del propósito de mejora continua de los productos y servicios a la sociedad. 2. Adoptar una filoso-fía que ne permita vivir con los niveles comúnmente aceptados de retraso, errores, materiales con defectos, y mano de obra deficiente. 3. Eliminar la necesidad de la inspección en rnasa como medio para lograr la calide.d. En lugar ele eso, alcanzar la calidad elaborando el producto de manera correcta desde el principio. 4. Terminar con la práctica de premiar a !as empresas basándose solamente en e\ precio. Más bien, se deben aplicar medidas signiíicativas de calidad junto con el precio. 5. Mejorar en forn1a constante y permanente cada proceso de p\aneación, producción y servicio. 6. Instituir rr1étodos modernos de capacitación en el trabajo para todos los ernpieados, incluyendo los gerentes. Esto \levará a un mejor aprovechamiento de cada uno de el!os en la empresa. 7. Adoptar e instituir liderazgos dirigidos a apoyar a las personas para que realicen mejor su trabajo. 8. Fomentar una con1unicaclón eficaz en uno y otro sentidos para eliminar temores en toda !a organización, de tal forma que todo mundo pueda trabajar de manera 111ás e-ficaz y más productiva para la empresa. 9. Eliminar las barreras entre departamentos y áreas de trabajo. i O. Eliminar el uso de frases publicitarias, carteles y exhortaciones que de111andan cero defectos y nuevos niveles de productividad, si antes no se proporcionan los medios y rnétodos para hacerlo, 1 i. Suprimir los estándares laborales que señalan cuotas. para !a fuerza de trabajo, así como objetivos numéricos para el personal administrativo. Implantar ayudas y liderazgo litil para lograr un mejorarr1iento continuo de la calidad y productividad. i 2. Quitar las barreras que despojan a !os trabajacioíes eventuales y ai personal adrnlnistrativo de su derecho a enorgullecerse de su trabajo. i 3. Instituir un programa vigoroso de educación, y alentar la superación personal de todos. Una organización necesita gente de bien y personas en proceso de mejora rnediante la capacitación y educación. El ascenso a un puesto co111petitivo tendrá su base en el conoci111iento. i 4. Definir claramente el compromiso permanente de la dirección con !a mejora continua de la calldad y productividaC:, para aplicar todos los principios antes 111encio11ados.
625 Los 14 puntos de Deming no ignoran el control estadístico de ca!iclad, con frecuencia abreviado CEC, o bien SQC (ele statistica/ quality control), TQC. El objetivo del control estadístico de calidad es realizar un seguin1iento de la producción a través de sus diferentes etapas. Las herramientas del control estadístico de calidad, corno son los diagramas x-con barra y !os diagrarnas R, se cti!izan para n1onitorear la calidad de muchos procesos y servicios. Los diagramas ele control permiten identificar cuando un proceso o servicio se encuentra "fuera de contra!", esto es, cuando se llega a un punto en el que se produce una cantidad excesiva de unidades defectuosas. El interés por !a calidad se ha acelerado notablemente en Estados Unidos desde íinales del decenio de 1980. Para comprobarlo, sólo se necesita encender un televisor y observar /os comerciales patrocinados por General Motors, Ford y Chrysler, y se verificará el énfasis en el control de ca!idac! en la línea de rnontaje. Esto es ahora uno de los temas "de moda" en todas las árBas de negocios. V Daniel Hunt, presidente de la empresa Technology Research Corporation, expresa en su libro Qua/ity in America, que en Estados Unidos, 20% a 25% de los costos de producción se destinan generalmente en la detección y corrección de errores. Y agrega que el costo adiciona! de reparar o reemplazar los productos defectuosos ya fueron vendidos, eleva el costo total de una calidad deficiente, casi a 30%. Indica que en Japón, tal costo es ele ¡aproximadamente 3%! En años recientes, el reconocimiento a sus logros ha motivado a las empresas a mejorar la calidad. El premio Nacional de Calidad Malcolm Balclrige, establecido en 1988, se otorga una vez al año a !as compañías estadounidenses que rnuestran excelencia en logros y manejo de la calidad. Entre las categorías del premio incluyen manufactura, servicio y pequeña empresa. Entre las empresas que han sido merecedoras de ese pren1io se encuentran Motorola, Xerox, IBM, Federal Express y Cadillac. Las empresas ganadores de este premio en el año 2000 fueron Dana Corporation-Spicer Dríveshaft División Toledo, en Ohio; Karalee Company of Garlancl, en Texas; Operations Management lnternatíonal en Greenwood Village, Colorado, y Los Angeles National Bank en Los Alamos, Nuevo México. Dana Corporation y Karalee fueron los galardonados de! sector fabricación; Operatíons IVlanagement, una empresa que se dedica al tratamiento ele aguas negms, del sector servicios, y Los Alamos Banl< del sector pequeña empresa. Los Alamas Bank tiene alrededor de 170 empleados; el premio no se otorga solamente a empresas grandes. Más información acerca de los galardonados 1an e! año 2000 y en años subsecuentes se puede encontrar en el sitio ele la Red http:// wvvvv.qua!lty.nistgov ¿Qué es calíclacl? No existe un acuerdo respecto a la definición de calidad. Para citar aigunas de las muchas definiciones. De V\Jestinghouse: "Calidad total es el liderazgo en el desempefío que se obtiene a! cun1p!ir los requerimientos del c!iente al realizar las acciones correctas desde el priílcipio". De AT8tT: "Calidad es cumplir con los requerimientos del cliente." En palabras de la historiaclo·a Bárbara V\/. Tuchman: "Calidad es lograr o alcanzar la norma más alta, en vez de conformarse con lo incorrecto o fraudulento".
No hay dos partes que sean exactamente iguales. Siempre existe cierta variación. Por eje1nplo, el peso de la hamburguesa de un cuarto de libra, de McDonald's no es exactamente 0.25 lb; algunas pesarán más, y otras menos. El tiempo normal de recorrido del autobús de una línea TARTA (Toledo Area Regional Transit Authority) que va del centro de Toledo, Ol1io, a Perrysburg, es 25 minutos. Sin embargo, no todos los recorridos se rea!lzan en exactamente
626
Ga¡ií!"lo 17 25 minutos, algunas veces tardan más. En otras ocasiones, el conductor debe esperar en Perrysburg antes de regresar a Toledo, En algunos existe alguna razón por la que el autobé1s se retrasa, por ejemplo un accidente en la carretera o una tormenta de nieve. En otras ocasiones es posible que al conductor no le toquen los semáforos en verde o que el tráfico esté muy pesado y lento, sin razón aparente. Existen dos causas generales de variación en un proceso: a!eatorlas y-asignables.
Variacióil aleatoria· Variación que por p~iLJralé;11 ~s aleatqri~.
E.stk11~() $~v~rl~cig~
no puede eHrpinarse por completo, a m?~Ps qus seJ?
La 'fricción interna en la maquinaria, \1geras variaciones en materiales o condiciones de\ proceso (como la temperatura del molde que se usa en la formación de las botellas de vidrio), factores atmosféricos (tales como temperatura, humedad y contenido de polvo en el aire), y las vibraciones transmitidas a una máquina por el paso de un montacargas, son algunos ejemplos de fuentes de variación aleatoria. Si la perforación que se realiza en una pieza de acero es demasiado grande debido a que la broca no tiene filo, !a herramienta puede reafi!arse, o bien se puede usar una nueva. Un operador que a menudo ajusta en forma incorrecta una máquina, puede ser sustituido o capacitado. Si el rollo de acero que se va a utilizar en un proceso no tiene \a resistencia correcta a !a tensión, se puede rechazar. Estos son ejemplos de variación asignable.
Existen varias razones por las que hay que preocuparse respecto a !a variación.
·1. La variación cambiará la forma, la dispersión y la tendencia central de la distribución de la característica del producto que se mide. 2. La variación asignable por lo general es corregible, en tanto que !a variación aleatoria generalmente no se puede corregir o estabilizar en forma económica.
Diagramas de diagnóstico Existen muchas técnicas de diagnóstico para investigar problemas ele calidad. Dos de las más importantes son los diagramas Pareto y los diagramas de causa y efecto.
Diagramas Pareto El análisis de Pareto, es una técnica utilizada para clasificar ia cantidad y tipo de defectos que se presentan en un produc;to o en un servicio. El diagrama. recibe este nombre en honor al científico italiano del siglo XIX, Vilfredo Pareto, quien observó que la mayor parte de la "actividad" en un proceso es causada por una cantidad relativarr1ente pequeña de "factores". Su concepto, a menudo denominado "regla 80-20", es que "80% de la actividad es provocada por 20% de !os factores". Si se concentran en este últin10 dato, 20%, los gerentes pueden resolver 80% del problema. Por ejemplo, cierto restaurante estadounidense (Emily's Family), está ínvestigando las "quejas ele !os clientes", cinco de !as n1ás comunes son: falta de cortesía: en el servicio, comidas trías, larga espera para obtener un asiento, pocas opciones en el menú, y niños inquietos. Supóngase que "falta de cortesía en el servicio" fue la queja más frecuente, y "comidas frías" 'a segunda. Ambos factores representan más de 85% ele las quejas, y por lo mismo deben resolverse primero, ya que esto producirá la mayor reducción en el número de quejas.
627 Para elaborar un diagrama Pareto, se comienza por clasificar el tipo de defectos. Después, los defectos se ordenan por rangos, en función de la frecuencia con la que ocurren, de mayor a menor. Finalmente, se elabora un diagrama de barras verticales, en el que la altura de las barras corresponde a la frecuencia de cada defecto. El siguiente ejemplo ilustra estas ideas.
EJEMPLO
La administración municipal de la ciudad de Grave, en Utah, está preocupada por el consumo del agua, sobre todo en las casas que albergan a una sola familia. Desea desarrollar un plan para reducir el consumo de agua en la ciudad. A fin hacer una investigación, selecciona una muestra de i 00 hogares, y determina el consumo diario de agua para diversos propósitos. Los resultados de las muestras son los siguientes:
Motivos del consumo de agua
Galones por día
Lavado de ropa Riego de jardín Baño personal Cocina
24.9 143.7 106.7 5. i
Motivos del consumo de agua Piscina
Galones por día 28.3 12.3 10.4 7.9
lavado de trastos Lavado de auto Agua para beber
¿Cuál es el área de mayor consumo? ¿Dónde deben concentrarse los esfuerzos para reducir el consumo de agua?
:SOLUCIÓN
El diagrama Pareto sirve para identificar las principales áreas de consumo de agua, para ocuparse de ellas a fin de obtener la mayor reducción en el consumo. El primer paso es convertir cada actividad en un porcentaje, y después ordenarlas de mayor a menor. El gasto total de agua por día es 339.3 galones, valor obtenido al sumar los consumos correspondientes a las ocho actividades. La actividad que consume más es el riego de césped, que requiere 143.7 galones de agua por día, o 42.4% de la cantidad total de agua utilizada. La siguiente categoría, es el baño personal, que representa 31.4% del agua empleada. Estas dos actividades representan 73.8% del consumo total de agua. Motivos del c:onsu1110 de agua lavado de ropa Riego de jardín Baño personal Cocina Uso de piscina Lavado de trastos Lavado de auto Agua para beber Totales
!Ga!ones por dia Porcentaje 24.9 143.7 106.7 5.1 28.3 12.3 10.4 7.9
1.3 42.4 3'1.4 1.5 8.3 3.6 3.1 2.3
339.3
'IOO.O
Para trazar el diagrama Pareto, se empieza por marcar una escala para el eje vertical (del lado izquierdo), la cual representa la cantidad galones utilizados, y se usa otra escala en el eje vertical derecho, para los porcentajes correspondientes. Después se traza una barra vertical cuya altura corresponde a la actividad con el rnayor número de ocurrencias. En el ejemplo de la ciudad de Grove, se traza una barra vertical con una altura de ·143.7 galones, que representa el riego del césped. \A esto se le denomina conteo.) Se continlla este misn10 procedimiento para las demás actividades, como se presenta en la pantalla de resultados de MINITAB del diagrama 17.1.
628
o O) ir Defecto Conteo 143.7 Porcentaje 42.4
o/o acum.
42.4
DUH]RAfü1A 17. í
'"
ñl
¡¡¡
'"> "'
co
"'
iil
Q
<(
_J
_J
o"'
"'o 6
106,l 31.4 73.8
28,3 8.3 82.1
24.9
12.3 3.6 93.1
10.4 3.·1 96.2
13.0 3.8 100.0
o
2Q)
"'
©
"'o
o
7.3 89.5
g
Diagr2n1a Pareto para el consnrno de agua en Grove City, Utah.
En la paiie inferior del diagrama se indican las actividades, su frecuencia de aparición y el porcentaje de veces que se reaiiza cada una. En el último renglón se indica el porcentaje acumulado. Esta in"formación permitirá determinar rápidamente cuá!es son !as actividades que generan la mayor parte del consumo de agua. Los porcentajes acumulados se grafican arriba de !as barras verticales. En el ejemplo de la ciudad de Grave, las actividades de riego del césped, el baño personal y la piscina representan 82.1 % del consumo de agua. La adn1inistración de la ciudad logrará el mayor beneficio tratando de reducir el consumo de agua an esas tres áreas.
Otro gráfico para diagnóstico es el diagrama de cause y efec·l:oi o diagrama de espinazo de pescado. Se le denon1ina c'iagrama de causa y e-fecto porque enfatiza \a relación entre un efecto y e! conjunto de causas posibles que !o producen. Este diagrama sirve para ayudar a organizar las ideas e identificar relaciones. Es un medio que ·fomenta ia lluvia de ldeas. Al identificar esas relaciones se pueden determinar los factores que causan \a variabilidad en el proceso. La designación de espinazo de pescado, con la que tan1bién se conoce, proviene de la forn1a en la que se organizan las diversas causas y sus efectos en el diagran1a. En general, el efecto es un problema específico, o quizá un objetivo, y se indica en la parte derecha del diagrama. Las causas principales se colocan en la parte izquierda del dlagran12.. El método que se usa genera!rnente en un diagran1a ele causa y efecto es cons¡"derar cuatro áreas de problemas: métocos, materiales, equipo y personal. El problema, o el efecto, corresponde a. la cabeza del pez. Véase el diagrama 17.2.
• Del inglés fishbone diagram.
629
DIAGRAMA 17.2 l)iagn.11112 de causa y efecto (fishbo11e).
Debajo de cada una de las causas posibies se encuentran las subcausas, estas últimas se identifican e investigan. Las subcausas son factores que pueden producir el efecto particular. Se reúne información acerca del problema y se utiliza para llenar el diagrama de cau-
sa y eJecto. Se investiga cada una de las subcausas y se eliminan las que no son importantes, hasta que se identifica la causa real de! problema. El diagrama i 7 .3 ilustra !os detalles de un diagrama de c'ausa y e'fecto. Supóngase que un restaurante ·familiar, como !os que se encuentran en una carretera, ha recibido quejas de sus clientes respecto a que la comida que sirven está fría. Obsérvese que se señala cada una de las subcausas corno suposiciones. Debe investíga1·se cada una de las subcausas para detern1inar el problema real respecto a la co111ida fría. En un diagran1a de causa y efecto no se ponderan las subcausas.
DIAGRAMA 17.3
Diagnnna de causa y efecto para la investigación de qnejc1s en un restaurante, ya qnc sirven 1;:1 con1ida fría.
FUENTE: Adaptado rJe M.A Vonderembse y G.P. White, Operations Management, 3". ec!. (South Western Co//ege Put;/ishing, ·1996), p. 489.
630
¡· . J.\u!oexamen 17.1
Capitulo 17
-¡ Los pacientes de un asilo se han quejado recientemente acer.ca de las condiciones del lugar. El adminístrador tiene inter_és en utilizar un diagrama Paretq _para realizar una investigación. Cuando un paciente· o el fami!tar Ce un paciente, tienen üná qüeja, se pide que llenen e! 'formularlo correspondiente. A continUación se presenta un resumen de los formatos para quejas recibidos en Jos 12 meses.
Número
Queja
Nada que hacer Atención deficiente del personal Errores en la medicación - -.-
45 71 2
Queja
Número
Aseo deficiente Mala calidad en !os alimentos Faltas de respeto del personal
63 84 35
.
-.
'_"_"
Elabore un diagrama Pareto. -¿Qué quejas le sugeriría al ·adinínistrador resolver primero para lograr el mejoramiento más significativo?
Ejercicios 1. A principios del año. Tom Sharkey, propietario de la agencia de autos Sharkey Chevy, instituyó un programa de opinión del cliente para determinar los medios para mejorar el servicio que ofrece. Una semana después de haber íniciado el programa, el asistente administrativo llama a los clientes y les pregunta si el servicio fue satisfactorio; o en caso contrario, cómo podrían mejorarlo. A continuación se presenta un resumen de las quejas en los primeros seis meses. Elabore un diagrama Pareto. ¿Cuáles quejas sugeriría resolver primero para rnejorar !a calidad del servicio? Queja Problema no corregido Error en !a facturación Ambiente poco amistoso
Frecuencia 38 8 12
Queja Precio demasiado alto Tiempo de espera excesivo
Frecuencia 23 10
2. De 11 O motores Diesel que se verificaron, el fabricante encontró 9 cuyos radiadores tenían fugas, 15 con cilindros defectuosos, 4 con problemas de encendido, 52 con fugas de aceite, y 30 con el monoblock agrietado. Elabore un diagrama Pareto para identificar el problema principal en el proceso de producción.
Objetivo y tipos de los diagramas de control de calidad Los diagramas de control identifican el momento en el que se han presentado causas o cambios de variación asignables en el proceso. Por ejemplo, la empresa Wheeling Company fabrica ventanas de aluminio con recubrimiento de vinilo para reemplazar las ventanas de casas antiguas. La capa vinílica debe tener un espesor determinado, si es demasiado gruesa, hará que las ventanas se traben. Por otro lado, si el recubrimiento es excesivamente delgado, la ventana no sellará en la forma adecuada. El mecanismo que determina la magnitud del recubrimiento que se debe aplicar en cada ventana se deteriora y provoca que la capa de recubrimiento sea demasiado gruesa. Por tanto, ha ocurrido un cambio en el proceso. Los diagramas de control son útiles para advertir el cambio en las condiciones del proceso. Es importante detectar el momento en que los cambios entran en el proceso, de manera que se pueda identificar y corregir la causa antes que se produzca un gran número de artículos defectuosos. Un diagrama de control puede compararse a un tablero de marcación para el juego ele béisbol. Al mirar el tablero, los aficionados, los entrenadores y los jugadores pueden decir cuál es el equipo que va ganando el juego. Sin embargo, el tablero no puede hacer que uno
631
Control estadístico de calidad
de los equipos gane o pierda un juego. La iunción de los diagramas de control es similar. Estos medios gráficos indican a operarios, jefes de grupo, ingenieros de control de calidad, supervisores y gerentes cuándo la producción de una pieza o servicio está "bajo control" o "fuera de control". Si la producción está "fuera de control", el diagrama respectivo no remediará la situación, pues sólo es un papel con cifras y puntos. En cambio, con base en la información del diagrama, la persona responsable ajustará la máquina que produce la pieza, o hará lo necesario para que la producción retorne al estado "bajo control". Existen dos tipos de diagramas de control. Un diagrama de control para variables presenta mediciones tales como la cantidad de refresco en una botella de dos litros, o el tiempo que toma a una enfermera responder al llamado de un paciente. Un diagrama de control de variables necesita un nivel de medición de intervalo o de razón. Un diagrama de control para atributos clasifica un producto o servicio como aceptable o inaceptable. Se basa en el nivel de medición nominal. Por ejemplo, se pide a los pacientes ele un hospital que califiquen las comidas como aceptables o inaceptables; los préstamos bancarios se pagan o no se pagan.
D1agrarnas (~e corrtrof ¡:;ara varia]Jles Los diagramas de control para variables se basan en la teoría de muestreo que se presentó en el teorema del límite central, en el capítulo 8. Supóngase que cada hora se selecciona una muestra de cinco piezas de un proceso de producción, y se calcula la media de cada muestra. Las medias muestrales son_X.,, X,, X,, y así suces·1vamente. El valor med·10 de esas medias muestrales se denota por X. Se usa k para simbolizar el número de medias muestrales. La media global (o gran media) se determina como sigue:
ME!ll/\ GLOBAL
X~ Suma de las medias de los subgrupos , N(lmero de las medias IT]Uestrales
El error estándar de la distribución de las medias muestrales se denota por s; y se evalúa mediante:
[17.2] Estas relac.iones permiten es.tablecer límites alrededor de las medias muestrales para mostrar qué tanta variación puede esperarse en el caso de muestras de un tamaño dado. Tales lím'1tes esperados, para una muestra en particular, se llaman límite superior de control (LSC) y límite inferior de control (LIC). Un ejemplo ilustrará el uso de los límites ele control y la forma en la que éstos.se determinan.
La empresa Statistical Software, lnc., ofrece un servicio telefónico gratuito para asesorar a sus clientes respecto a problemas con el uso de sus productos, desde las 7 de la mañana hasta las 11 de la noche, todos los días. Es imposible que un representante técnico conteste inmediatamente a cada llamada, pero es importante que los clientes no esperen demasiado tiempo para recibir una respuesta. Ellos se molestan cuando escuchan muchas veces sólo e: siguiente mensaje: "Su llamada es muy importante para nosotros. Un representante le atenderá en breve". Para entender ese proceso, la compañía decide elaborar un diagrama de control que describa el tiempo que transcurre desde que se recibe una llamada hasta que un representante responde a la pregunta del cliente. Cierto día, durante 16 horas ele operación, se tomó una muestra de cinco llamadas ca-
632
Gapílt1lo H da hora. La información se presenta enseguida; considera el tiempo transcurrido, en minutos, hasta que se contesta la llamada.
Número de muestra 2
3
4
5
7
8
9
7 11 12 11 7 10
10 12
4 6 9 9
11
8 9 10
15 7 ·10
Hora A.M.
·11 I P.M. 12
1 2 3
8 8
8
10 7 7 ·11
6 6 ·10
14 4
4 11
1'I 9
12 9
8
10
7 14 17 17
4
12
5 6
7 9
7 9
4
4
7
10 10
10
9
12 9 9 8
12
8 9
12 11 13 11
8
6 4 5
s 10 12 11 11 10 7 12 11 ·13 11 12 8 9
11
Con base en esta información, elabore un diagrama de control para la duración media de la llamada. ¿Parece haber una tendencia en les tiempos de las llamadas? ¿Existe algún periodo en el que parezca que algunos clientes esperan más tiempo que otros?
SOLUCIÓN
Un diagrama para la media tiene dos límites de control: uno superior (LSC) y uno inferior (LIC). Estos dos límites se calculan con la fórmula siguiente:
LIMITES DE CONTROL
PARALA MEDIA
LSC
=
s
= X + 3 vfl'. y
UC
:::
=X
- 3
s yfl'
[i7,3J
donde s es una estimación de la desviación estándar de la población, cr. Obsérvese que en las fórmulas para los límites de control superior e inferior, aparece el número 3, el cual representa los límites de confianza de 99.74%. Estos límites se denominan por lo general límites 3 sigma. Sin embargo, también se pueden usar otros niveles de confianza (90% o 95%). Este ejemplo se realizó cuando las computadoras no estaban al alcance de todo mundo, y en consecuencia, e! cálculo de la desviación estándar era complicado. En vez de calcular la desviación estándar para cada muestra corr10 una medida de variación, es más fácil utilizar la amplitud de variación. En muestras que tienen tamaño fijo existe una relación constante entre la an1plitud de variación y la desviación estándar; por tanto, se pueden utilizar las siguientes fórmulas paradeterrninar los límites de control de 99.74% para la mEl_dia. Puede demostrarse que el término 3(s /vft) de la fórmula 17.3 es equivalente a A,R en la siguiente fórmula. LÍMITES DE CONTROL
PARA LA.MEDIA donde:
A2
es una constante que se usa para calcu!arJ?s lí1nites superior e inferior, con base en la an1plitud de variación promedio, R. Los factores para los varios tarna-
Gon!rol estadístico de calida~
633
ñas de muestra pueden verse en el apéndice B. (Nota: la n en esta tabla se refiere al né1mero en la muestra.) A continuación se presenta una parte del apéndice B. Para loca,izar el factor A 2 en este problema, primero se localiza el tamaño de la muestran, en el margen izquierdo. Su valor es 5. Después se desplaza horizontalmente hasta la columnaA 2 y se lee el factor, que es 0.577.
n 2 3 4
X R
o,
A, 1:880
1.128 1.693 2.059 292~··· 2.534
1'.023 0 ..729
ó.577
Cl.4á:r
o,
o,
o o o o o
3.267 2.575 2.282 2'115 2.004
es la media de las medias muestra/es, calculada mediante 'i:Xlk, donde k es el nllmero de muestras seleccionadas. En este problema se toma una muestra de 5 observaciones, cada hora, durante 16 horas, así que k = 16. es la media de las amplitudes de variación de la muestra. Se calcula mediante LR!k. Recuérdese que la amplitud de variación es la diferencia entre los valores mayor y menor de cada muestra. R describe la variabilidad en esa muestra en particular (ver la tabla 17.1 ).
TABLA 17.i
Duración de 16 n1uestras de 5 sesiones de asistencia. Hora
1
2
3
4
5
Media
A.M. 7
8
8
7 11 12 11 7 10 8 8 12 7 9 10 8 10 9
9 10 12 8 10 7 7 11 11 9 7 9 12 11 13 11
15 7 10 6 6 10
4 6 9 9 14 4 10 7 14 17 17 4 12 6
11 8 10 12 11 11 10 7 12 11 13 11 12 8 9 11
9.4 7.6 10.4 9.4 10.4 7.8 8.2 8.8 10.6 12.2 10.6 7.4 11.6 8.4 9.0
9 10 11 P.M. 12 1
2 3 4 5 6 7
8 9 10
Total
4 ·11 8 ·12 9 4 12 9 9
8
4 5
-8.8150.60
Amplitud 11 4 3 6 8 7 6 4 6 8 10 7 2 5 9 6
-102
La línea central para el diagrama es X. Su valor es 9.4125 minutos (min), y se obtiene de 150.60/16. La media de las amplitudes de variación (R) es 6.375 min, obtenida de 102/16. Por tanto, el límite superior de control en el diagrama de X es:
LSC =X+ A}l = 9.4125 + 0.577(6.375)
= 13.0909
El límite inferior de control es:
LIC =X + A,R = 9.4125 - 0.577(6.375)
= 5. 7341
CapiMo 17
634
X, LSC, LIC y las n1edias muestrales se indican en el diagrama 17.4. La media, X es 9.4125 min; ei límite superior de control se encuentra en 13,0909 min, y el límite in'ferior de control se ubica en 5.734 i. Existe cierta variación en !a duración de las llamadas telefónicas, pero todas las medias muestra\es se encuentran dentro de \os !ímítes de controL Por tanto, con base en 16 muestras ele cinco llamadas cada una, se concluye que 99. 74% de !as veces, la duración n1edia de una muestra de 5 Uamadas está entre 5. 734 i y 13,0909 min,
~
13
------
-----------------~
LSC
!~H~~~ ·• /"'" A, ~1§ Y~,,.,,~ v-Jx " s 11
¿j
'C-~-~---~-_--1-r-c--1---r-·r::i~=r-r~1~-r-·r
7
9
'10 11
12 1
2
3
4
5
6
7
8
g
LIC
1Q
P.iv1.
A.tvl.
Tiempo [).lAGRA~.ílA 11.4-
Diagra1na ele control para la duración n1cdia ele 1lan1a
Como \a teoría estadística se fundamenta en la normalidad de muestras grandes, !os diagramas de control deben basarse en un proceso estable, es decir, en una muestra bastante grande tomada en un inte1·va\o considerable de tiempo. Un n1étodo práctico es elaborar el diagrama después de haber se'eccionado por lo menos 25 muestras,
' a111p[1~Jjdes h ' l ·va1na.c_11.011 ' ., L}1agra:r:n1a c1.e ae
·¡~·
Ade1nás de la tendencia central en una muestra, se debe monitorear también \a magnitud de \a variación de una muestra a otra. Un diagrama de arnpiitud de variación n1uestra la variación las amplitudes ele variacién en !a muestra. Si los puntos que representan dichas amplitudes se encuentran dentro de \os límites superior e inferior, se concluye que la operación está bajo controL De acuerdo con el azar, aproximadarnente 997 veces de i 000 ia amplitud de variación de !as muestras quedará dentro de ambos \ín1ltes. Si una amplitud cae por encirna de los límites, se concluye que alguna causa asignable afectó \a operación, y en consecuencia se requiere un ajuste en el proceso. ¿Por qué no interesa el ifmite inferior de \a an1plitud de variación? En muestras pequeílas, el límite infe1ior es con frecuencia cero. De hecho-; el límite in-ferlor de control en cualquier muestra con seis o menos observaciones es cero. Si !a amp!ítud de variación es cero, lógic8.rilente todas \as partes son iguales y no existe problema alguno con la variabilidad de la operación, Los límites superior e inferior del diagrama de amplitud de variación se pueden determinar a partir de las siguientes ecuaciones: ~e. dctnvo,
y los fi~caks.
pudieron vincubr cs;1s
ocasiones con el arresto del indiciado.
DIAORAi\¡lA DE. CONTROL·
AMPtrrumss
. L$C'.z D)'i
LIC ~ D3R
Los valores de 0 3 y D4 que reflejan los límites usuales tres rr (sigma) para diversos tamaños de rnuestra se encuentran en el apéndice B o en !a tabla de la página 633.
635
Los tiempos de espera de los clientes de Statistical Software, contados desde que les contestaron la llan1acla hasta que un representante técnico resolvió su problema, se presentan en la tabla "17.1. Elabore un diagrama de control para amplitudes de variación. ¿Parece que hay momentos en los que se presenta deinasiada variación en la operación?
SOUJC:IÓl\i
El primer paso es determinar Ja media de las amplitudes de variación de la muestra. La amplitud en la muestra de cinco llamadas realizadas a las 7 de la ma11ana, es 11 min. La JI amada con mayor duración seleccionada en ese horario fue i 5 n1in, y la más corta, 4 min; la diferencia en las duraciones es 11 min. A las 8 de la mañana, la amplitud de variación es 4 min. El total de las 16 amplitudes de variación es 102 min, por lo que la amplitud de variación promedio es 6.375 min, obtenida de R = ·102/i 6. Al consultar e! apéndice B, o la tabla parcial en la página 633, se tiene que 0 3 y 0 4 son O y 2.'I i 5, respectivamente. Los límites inferior y superior de control son O y 13.4831.
LSC = D,R = 2.115(6.375)
= 13.4831
L/C = D.f: = 0(6.375) =O En el diagrama 17.5 se muestra el diagrama de amplitud de variación con las 16 arnpfrtudes de variación i11uestrales. Este gráfico indica que todas las a111p!itudes se encuentran dentro de los límites de control. En consecuencia, se concluye que la variación en el tiempo de atención a las llamadas de los clientes está dentro de los limites normales, es decir, está "bajo control". Por supuesto, se deben determinar los limites con base en un conjunto de datos, y después se deben apllcar para evaluar infonnación futura, no datos que ya se conocen.
f~\~j~~~,,= ~
_L._~~~~~~~-~~~~~~~~-~~~~~ 7
8
9
1J 11
12
1
2
3
4
5
6
7
8
9
10
P.M.
A.M.
Tiernpo mt,G~A.M!l17.5
J)iagra1na de control pafa las an1plitndes de variación en la duración de 1la1nadas de lo:> clientes, la c111prcs
MINITAB traza e! diagrama de control para la media y la amplitud de variación. A continuación se presentan los resultados correspondientes al ejemplo del prog1·ama de cómputo para estadística. Los datos se encuentran en la tabla 17. i. Las ligeras diferencias en los limites de control se deben al redondeo.
636
Capítulo 17 Diagramas de la media y amplitud de variación para los tiempos de llamada en el software estadístico
-~~----~------~-~-----~--~--
5
Subgrupoü
10
uc~s.735
15
Eje1nplos de situaciones bajo conh·ol y fuera de control A continuación se presentan ilustraciones de procesos bajo control y fuera de control.
Todo está bien.
1. El diagrama de media y el de amplitud de variación indican que el proceso está bajo control. Obsérvese que las medias muestrales y las amplitudes de variación de la muestra se agrupan cerca de las líneas centrales. Algunas están arriba y otras abajo de estas líneas centrales, esto indica que el proceso es bastante estable. En otras palabras, no hay una tendencia visible en las medias ni en las amplitudes que indique que éstas se desplazan hacia las áreas "fuera de control". Diagra111a de media
LIC Diagrama de an1plitud de variacíón
LIC
637 Variación considerable
en las amplitudes de variación.
2. Las medias muestrales están bajo control, pero las amplitudes de las dos últimas muestras están fuera de control. Esto indica que hay variación considerable entre las piezas producidas. Algunas son grandes y otras son pequeñas. Probablemente es necesario realizar un ajuste en el proceso. Diagrama de media
L/C
LSC
OC---------------------------j 3. La media estaba bajo control en las primeras muestras, pero existe una tendencia hacia el LSC. Las medias de las últimas dos muestras están fuera de control. En consecuencia hay que realizar un ajuste del proceso. Diagran1a de media
Media fuera de control.
LSC
LIC Diagrama de amplitud de variación
ucL __________________________ J El diagrama anterior para la media es un ejemplo donde el diagrama de control ofrece alguna información adicional. O.Qsérvese la dirección de las cinco últimas observaciones ele la media. Todas están arriba de)( y aumentan; en realidad las últimas dos observaciones están fuera de control. El hecho que las medias muestrales aumentaron en siete observaciones consecutivas, es muy poco probable e indica que el proceso está fuera de control.
638
Capítulo 17
r-~---,,-~,~-~,·~·~,,,_,
f.~U~I»examen ~~ 7 ,2
__
--·~~-~,---~-·----,,~-~-~---~-,-,.~----~~··-----~--~---------,---~---------·,,,-¡
Cada hora un inspector de control de calidad mide e! diámetro exterior de cuatro P.iezas. Los resultados de las mediciones se muestran en la tab!a siguiente.
9 A.M. 10 A.M. 11 A,", J 1
Í
2
1.
2
3
4
4 3 7
5 2
2
3
5
'
I•
1¡ [
1
1 1
a) Calcule la media del diámetro ex1erior, la media de la ampli1ud de variación y de1ermine los límites de control para la media y la amplitud de variación. b) ¿Se encuentran las mediciones dentro de los límites de contra!? Interprete e\ diagrama.
L--------~-~--~--~----,·---~·~-----~---~--~------·-
11
11
Pieza de muestra Hora
!
1
¡ 1
-~~------------~-~~-~~------,----------·--·-----~·d
Ejercicios Expllque la diferencia entre variación asignable y variación aleatoria. Explique la diferencia entre un dagrama de control para atributos y un diagrama de control para variables. 5. En una línea de producción se seleccionan muestras de tamaño n = 4. a) ¿Cuál es e\ valor de! factor A2 que se utiliza para determinar \os límites superior e inferior de control para !a media? b} ¿Cuáles son los valores de \os factores 0 3 y 0 4 que se utilizan para establecer \os límites superior e inferior de control para \a amplitud de variación? 6. En un proceso de fabricación se seleccionan muestras de tamaño 5. La media de \as amplitudes muestrales es 0.50. ¿Cuál es la desviación estándar estimada de \a población? 7. Se acaba- de instalar un nuevo horno industrial en cierta panadería. Para adquirir experiencia respecto a las temperatüras de\ horno, un encargado toma lecturas de la temperatura en cuatro sitios diferentes, en e\ interior de! horno, cada media hora. La primera lectura tomada a \as 8 de la mañana, fue de 340 grados Fahrenheit (ºF). (En la siguien1e tabla se dan sólo los dos L1\tímos dígitos de las lectur_as para facilitar los cálculos.) 3. 4.
Lecturas (ºF) Hora
1
2
3
4
800 A.M. 8 30 A.M. 9:00 A.M. 9:30 A.M. 10:00 A.M. 10:30 A.M.
40 44 41 39 37 39
50 42 45 39 42
55 38 47 41 46 39
39 38 43 41 41
40
40
.
a) Con base en esta experiencia inicial, determine \os límites superior e interior de contra\ para !9 temperatura media. Determine la Qran· media. Luego grafique la experiencia en un diagrama. b) Interprete el diagrama. ¿Parece haber algún 111omento en el que la temperatura está fuera de control? 8. Refiérase al ejercicio 7. a} Con base en esta experiencia inicial, establezca los límites de control para la amplitud de variación. Trace la experiencia en un diagrama. b) ¿Parece haber algún momento en e! que existe demasiada variación en la temperatura?
.
r··'llM""" n lo , ---,, ·e ] 01~-""l~·h111·rrlf...,,~ D ~:~!~~~~l, ~=~:~--~~~-- ~:~~,::_?~:::'·--~-~ -~-- =•~----~~---~~:~::~~=~-~r::: y,."
'ti
11 1
Muchas veces los datos que se reúnen son resultado de un conteo y no de una medición. Es decir, se observa la presencia o ausencia de algún atributo. Por ejemplo, la tapa de un Iras,
Control esladis!icc de calidad
639
co de champú ajusta bien en la botella y no se derrama el contenido (condición "aceptable"), o la tapa no ajusta bien y deja salir el líquido (condición "inaceptable"). Otro caso: un banco otorga un préstamo a un cliente, y tal préstamo es pagado o no. En otras ocasiones interesa conocer la cantidad de defectos en una muestra. Por ejemplo, la empresa British Ai0Nays cuenta el número de vuelos (por dia) que llegan con retraso al aeropuerto de Gatwick, en Londres. En esta sección se analizarán dos tipos de diagramas de atributos: el diagrama p (de porcentaje de defectos) y el diagrama c (nümero de defectos).
Este diagrama de control es el adecuado si el elemento que se registra es la fracción de partes inaceptables producidas en un lote grande de partes. Este diagrama se basa en la distribución binomial, analizada en el capitulo 6, y en las proporciones, analizadas en el capitulo 9. La línea cen\¡:al se encuentra en p, la proporción media de elementos defectuosos. La p reemplaza a la X del diagrama de control para variables. La proporción media de defectos se determina mediante:
.____P_R_º_"~º-'·•_'J_c_i.o_'·_~'_" __ t_o_._s_·_-d_._e_f~e-c_·_t_u~o~s~o~s~--·-[i7.SJ 1 _ Klto IDEFEGTOS ::::~~-'-·~_P_._=_·-·_~_"~º_-t_a~l~d~e~e~l-e-_m:""e_n Total de elementos muestreados La variación en la proporción muestral se describe mediante el error estándar de una proporción. Este último se obtiene mediante:
s p
~ -·v.:~ . ·.(ji(' p("I -p) n
-~17.7j
1
Por tanto, los límites de control, superior (LSC) e inferior (L/C), se calculan como el porcentaje mEidlo de defectuosos, más, o menos tres veces ef error estándar de Jos porcentajes (proporciones). La fórmula para los límites de control es:
LÍNill!~S: DE· ,COil.JtROl
P.e11Rl_ti: PROflltJJHC~ONES
Ls. .·.c,L.tc. =p.±3J.P(t-pJ ·, ._-n
Un ejemplo mostrará los detalles de los cálculos y de las conclusiones.
El Departamento de Crédito del Global National Bank se encarga ele ingresar cada transacción al estado de cuenta mensual del cliente. Por supuesto que la exactitud es decisiva y los errores causarían el descontento de los clientes. Para evitar las equivocacione_s,-cada empleado que ingresa los datos teclea una muestra de 1 500 de su lote de trabajo una, segunda vez, y un programa de computación verifica que los números concuerden. El. progran1a irr1prime además un informe acerca del número y tamaño de cualquier discrepancia. Siete personas trabajaron durante la última hora y los siguientes son los resultados:
inspector
Número inspeccionado
Número que no GOílctJercia
Mullins Rider Gankowski Smith Reed White Reading
1 500 1 500 1 500 1 500 1 500 1 500 1 500
4 6 6 2 15 4 4
l
640
Capítufo 17 Elabore un diagrama de porcentaje de defectuosos para este proceso. ¿Cuáles son los
límites superior e inferior de control? lnterprete !os resultados. ¿Parecería que algunos de los encargados de ingresar los datos están "fuera de control"?
SOLUCIÓN
El primer paso es determinar la proporción media de defectos, p, aplicando la fórmula 17.6. Resulta ser igual a 0.0039, obtenido de41/10 500.
Inspector
Núrflero inspecclonado
iVlullins Ricler Gankowski Smith Reed White Readfng Total
Núrnero que no concuerda
·1 501) 1 50J 1 500 1 500 1 500 1 500 1 500
4 6 6 2 15
10 500
41
Proporción de clefectos
0.00267 0.00400 0.00400 0.00133 0.01000 0.00267 0.00267
4 4
Los límites de control superior e inferior se calculan usando la fórmula 17.8:
UC, LSC = p ± 3 }p(i -p)
.y
41
=
·1
11
+ 3 -
o 500
¡
0.0039(1 - 0.0039) 1 500 = 0.0039 ± 0.0048
De los cálculos anteriores se tiene que el límite superior de control es 0.0087, obtenido de 0.0039 + 0.0048. El límite inferior de control es O. ¿Por qué? El límite inferior de acuerdo con la fórmula, está determinado por 0.0039 - 0.0048, que es igual a -0.0009. Una proporción negativa de defectos es imposible, en consecuencia el valor más pequeño es O. Se establece O como límite de control. De este modo cualquier empleado que captura los datos, cuya proporción de defectos se encuentre entre O y 0.0087, estará "bajo control". El encargado número 5, cuyo nombre es Reed, está fuera de control. Su proporción de defectos es 0.01, o i .0%, cifra que se encuentra tuera del límite superior de control. Quizá sea necesario que reciba más capacitación adiciona! o debe ser transferido a otro departamento. Esta información se resume en el diagrama 17.6 que presenta los resultados que da el sistema MINITAB. O.D10
LSC
e
~
0.008736
·O
·e
o 0.005
~
p ~ 0.003905 L!C
2
3
4
5
6
~O
7
Nümero de muestra
DIAGRAMA 17.6
Diagran1a de control para las proporciones de los ingresos defct:i:uosos de datos, en el (~lobal Nationa1 Bank.
Diagrama de e con bmn El diagrama denominado c con barra representa gráficamente el n(1mero de defectos o fallas por unidad. Se basa en la distribución de Poisson analizada en el capítulo 6. Por ejemplo, el número de maletas extraviadas en un vuelo de una empresa aérea se puede monitorear con
641
Co"lml estadist;co de calidad
un diagrama de e con barra. La "unidad·' bajo consideración es el vuelo. En la mayor parte de los vuelos no se extravía ninguna maleta. En otros puede haber una, en otros, dos, y así sucesivamente. El servicio de impuestos internos (interna! Revenue Service) de Estados Unidos puede contar y elaborar un diagrama de control para el número de errores aritméticos cometidos en cada declaración de pago de impuestos. La mayor parte delasdeclarac.iones no presentará errores, algunas tendrán un ·solo error, otras dos, y así sucesivarríente. Sea e el nümero medio de defectos por unidad. Por tanto, e es el número medio de maletas extraviadas en cada vuelo de la aerolínea, o el nlimero medio de errores aritméticos por declaración de impuestos. Recuérdese del capítulo 6 que la desviación estándar de la distribución ele Poisson es la raíz cuadrada de ia media. De manera que se pueden determinar los limites 3 sigma, o de 99.7 4 % , en un diagrama de e con barra, mediante:
•·ÚMliES o\::60NrfioCPARAE!.·. ··.NÚl\ll!'!'l().pEPE,FECICIS POR!Jílllf:lJ\[)
[17.91
!EJEMPLO
El editor del periódico Oak Harbar Daily Teiegraph está interesado en determinar el número de palabras mal escritas que se publican en ese diario. El periódico no se edita en sábado o domingo. Para controlar el problema y promover la necesidad de una escritura correcta, se utilizará un diagrama de control. El número de palabras con errores en la edición final del periódico durante los últimos 1O días es: 5, 6, 3, O, 4, 5, 1, 2, 7 y 4. Determine los límites de control adecuados e interprete el diagrama. ¿Hubo algunos días en ese periodo en los que el número de palabras mal escritas haya estado fuera de control?
SOLUCIÓN
El total de palabras mal escritas en un lapso de 1O días es 37. Por tanto, el número medio de errores o defectos, e es 3. 7. La raíz cuadrada de este número es 1.924. De modo que el límite superior de control es:
LSC =e+ 3Vc = 3.7 + 3\/3.7 = 3.7
+ 5.77 =
9.47
El límite inferior de control calculado sería 3. 7 - 3(1.924) = -2 .07. Sin embargo, el número de palabras rnal escritas no puede ser menor que O, por lo que se usa el cero como el límite inferior de control. De modo que el límite inferior de control es O y el límite superior de control es 9.47. Cuando se compara cada punto de los datos con el valor 9.47, se observa que todos ellos son menores que el límite superior de control, de modo que el número de palabras mal escritas se encuentra "bajo control". Claro está que el periódico procurará eliminar todas las palabras qüe presentan incorrecciones, pero las técnicas para realizar diagramas de control ofrecen un medio para seguir los resultados diarios y determinar si se ha presentado algún cambio. Por ejemplo, si se contratara a una nueva correctora de pruebas, podría compararse su trabajo con el de otras personas. Los resultados se resumen en el diagrama 17.7, que muestra los resultados del .sistema MINITAB.
2
3
4
5
6
7
8
9
10
Número de la muest1·a DIAGRAR~A
17.7
Diagrama de e con barra para el núinero de palabras rnal escritas en cada edición del periódico Oah I-Iarbor Daily Telegra/Jh.
642 La empresa_ Auto-Lite Company fabric;;a acumuladores para automóviles. Al 'final de cada turno laboral, e! departamento ele aseguramiento de calidad selecciona una muestra de acumuladores, y los prueba. E! número_ de acumuladores defectuosos encontrado en los últimos i2 turnos es: 2, 1, O, 2, 1, 1, 7, 1, 1, 2, 6 y 1. Elabore un diagrama de control para el proceso y
cleterm_ine si está,.o no, bajo c_ontroL. _
9. Un fabrícante de bicicletas selecciona diariamente al azar i O arn1azones y determina la cantidad de defectos. E! número ele armazones defectuosos encontrado en \os l1ltimos -14 días es: 3, 2, 1, 3, 2, 2, 8, 2, O, 3, 5, 2, O, 4. Elabore un diagrama de control para este proceso, y determine si está "bajo contra\". iO. La empresa Scott Paper prueba su papel higiénico sometiendo i5 ro\\os a una prueba de esfuerzo en hun1edad, y verificando si e! papel se rompe durante la prueba y con qué frecuencia. A continuación se presenta el número de rollos defectuosos encontrado en los últimos 15 días: 2, 3, 1, 2, 2, 1, 3, 2, 2, "I, 2, 2, 1, O y O. Elabore un diagrama de control para el proceso y determine si está, o no, "bajo control". 1i. Cierta cadena de supermercados examina el trabajo de sus cajeros examinando al azar !os recibos impresos para verificar si hay errores. Las siguientes cifras rep1·esentan e! número de errores en cada recibo, e! 27 de octubre: O, i, ·¡, O, O, i, 1, O, i, 1, O. Elabore un diagrama de control para el proceso y determine si el proceso está "bajo control". 12. David Christi dirige una cadena de establecimíentos de lavado de autos, en Chicago. Está preocupado porque algunos gerentes locales brindan servicio gratuito a sus amigos. Decide reunir información acerca del número de recibos de ventas "anulados". Claro está que algunas son anulaciones válidas. ¿Los siguiéntes datos indicarían un número razonable de "anulaciones" en los sitios de lavado: 3, 8, 3, 4, 6, 5, O, i, 2, 4? Elabore un diagrama de control para el proceso y determine si se encuentra "bajo control".
En \a sección anterior se estudió el mantenimiento de la calidad de un producto cuando se producía. En muchas ocasiones lo que interesa es la calidad del producto terminado. ¿Qué tienen en co111L1n los siguientes casos?
La empresa Sims Softvvare, inc. adquiere discos en la compañía Diskettes lnternational. La orden norma\ de· compra es de 100 000 discos, empacados en lotes de 1 000 unidades. Todd Sims, presidente de la empresa, no espera que todos los discos sean perfectos. De hecho, ha convenido en aceptar. lotes de 1 000 con hasta 10% de unidades defectuosas. Le agradaría tener un plan para inspeccionar los lotes que recibe, a fin de asegurar que se cumplen los requerimientos de la norma de calidad. El propósito del procedimiento de inspección es separar los lotes de partes aceptables de los lotes de partes no aceptables. La empresa Zenith Electric co1Tipra magnetrones a la empresa Bono Electronics, para Usarlos en su nuevo hürno de microondas. Los magnetrones se envían a Zenith en lotes de 1O 000. La compañía acepta los lotes que contengan hasta 5% de unidades de!ectuo0
cntbarc¡üe'·'. ''"" ,, ,,,,
ejemplo de los días en qtie d lefrcro "I-kc\-io_cp Japón"-qu.e~ ría decir ba;~_ilo.
0
643
0
sas. Desean iclear un plan de muestreo para detern1inar cuáles !otes satisfacen el criterio establecido, y cuáles no. General Motors compra parabrisas a muchos proveedores. GM insiste en que los parabrisas lleguen en lotes 1 000. El personal de GM acepta 50 defectos o menos en cada lote, es decir 5% de defectos. Desarrolle un procedimiento de muestreo para verificar que
los eciví_os que se recíb_en cumplen con el criterio establecido.
Muestreo de aceptación. Número de aceptación.
Lo que estos casos tienen en común es Ja necesidad de verificar que los productos que se reciben, cumplan con los requisitos estipulados. La situación se aserneja a una puerta con mosquitero, que permite que el aire fresco del verano entre a la habitación, pero no deja entrar los insectos. El muestreo de aceptación permite que los lotes de calidad aceptable se envíen al área de manufactura, pero evita que los no aceptables sean procesados. Desde luego, la situación en los negocios modernos es más compleja. El comprador necesita protección contra la aceptación de lotes que no curnplen con la norma de caliclacl. La mejor protección contra la calidad deficiente es la inspección al 100%. Por desgracia, el costo de una inspección al 1Ü'J% la hace prohibitiva. Otro problema que surge en la verificación de cada elemento es que !a prueba a realizar puede ser destructiva. Si este fuera el caso, se tendrían que probar todos los ·focos hasta que se fundieran, antes de e111barcarlos, en consecuencia no habría nada que vender. Puede ser que la inspección al i 00% no permita la identificación de los defectos, debido a la "fatiga y la consecuente pérdida de percepción de !os inspectores. Por tanto, la inspección completa rara vez se emplea en los casos prácticos. El procedimiento usual es examinar la calidad de las piezas que se reciben, mediante un plan estadístico de muestreo. De acuerdo con este plan, se toma una muestra aleatoria den unidades de un lote de N partes (la población). Esto se llama muestreo de aceptación. La inspección determinará el nl1mero de defectos en la muestra. Este número se compara con un nl1mero predetertT1inado que se denomina núrnero crftico, o número de aceptación, que se designa generalmente por c. Si el nC1mero de unidades con defectos en la muestra de tamaño n es menor o igual c, se acepta el lote. Si el nlimero de unidades defectuosas es superior a c, se rechaza el lote y se devuelve al proveedor, o tal vez se somete a una inspección de 100%. El rnuestreo de aceptación es un proceso de toma de decisión. Hay dos decisiones posibles: aceptar o rechazar el lote. Además, existen dos situaciones en las que se toma una decisión: el lote está bien o ei Jote está mal. Esta es !a situación. Si el Jote está bien y !a inspección de la muestra revela que el lote está bien, o si el lote está mal y la inspección de Ja muestra revela que el lote está mal, entonces se ha tomado una decisión correcta. Sin e111bargo, hay otras dos posibilidades. El lote puede tener en realidad más defectos de los debidos, pero se le acepta. Esto se llama riesgo del consumidor. En forma similar, el lote puede estar dentro dé los límites convenidos,. pero se le rechaza durante la inspección de la muestra. A esto se l,e !lama el riesgo dei productor. La siguiente tabla resume las decisiones de aceptación mostrando esas posibilidades:
a
Riesgo del consumidor. Riesgo del productor.
Estados da !a naturaleza Decisión
Se ace.pta e! lote
Lote bueno
Correcto
lote malo Riesgo del consumidor
~s_e_r_ec_h_az_a_e_1~1o_te~~R-ie_sg_o_d_e_10_ro_d_u_ct_or~_c__º_~_e_ct_o~~_____J
Curva CO.
Para evaluar un plan de muestreo y determinar que es justo tanto para e! productor como para el consumidor, el procedimiento usual es utilizar un· diagrama llamado curva carac~ !erística de operación, o curva CO, co11io se le llama usualmente. Una curva CO (o en inglés, OC, de operating characteristic) presenta el porcentaje de defectuosos a lo largo del eje horizontal, y la probabilide.d de aceptar es el porcentaje de defectos, a lo largo del eje vertical. Generalmente se dibuja una curva que une todos los niveles posibles de calidad. Se usa la distribución binomial para obtener las probabilidades para una curva CO.
644
Gapfürlo i 1
EJEMPLO
Como se indicó antes, la empresa Sims Software, compra discos a la negociación Diskettes lnternationaL Los elementos se empacan en lotes de 1 000 piezas. Todd Sims, director de la empresa, ha convenido en aceptar lotes que tienen 10% o menos de unidades con defectos, y ha indicado a su departamento de inspección que seleccione una muestra aleatoria de 20 discosylos examine con cuidado. Aceptará el lote si tiene dos o menos discos defectuosos en la muestra. Elabore una gráfica CO para el plan de inspección. ¿Cuál es la probabilidad de aceptar un lote que tiene 10% de discos defectuosos?
SOUJCIÓN
Este tipo de muestreo se llama muestreo por atributos porque el elemento muestreado, en este caso un disco, se clasifica como aceptable o inaceptable. No se obtiene ninguna "lectura" o "medición" del disco. Ahora se estructurará el problema, en términos de la situación presente. Sea p el porcentaje real de defectos en la población.
Muestreo por atributos.
Regla de decisión.
El lote es bueno si"' ,o; 0.10. El lote es malo si 7f > 0.1 O. Sea X el número de defectos en la muestra. La regla de decisión es: Rechazar el lote si X ;;, 3. Aceptar el lote si X ,o; 2. Aquí el lote aceptable es el que tiene 10% o menos discos defectuosos. Si el lote es aceptable cuando tiene exactamente 10% de elementos con defectos, sería aún más aceptable si i11cluyera menos de 10% de estos elementos. En consecuencia, la práctica usual es trabajar con el limite superior del porcentaje de elementos defectuosos. La distribución binomial se utiliza para calcular los diferentes valores de la curva CO. Recuérdese que para usar la distribución binomial hay cuatro requisitos: 1. Sólo hay dos resultados posibles. El disco es aceptable o inaceptable. 2. Existe un número fijo de ensayos. En este caso el número de ensayos es el tamaño de la muestra, 20. 3. Existe una probabilidad constante de éxito. Un éxito es la probabilidad de encontrar un disco defectuoso. Se supone que es 0.10. ~ Los ensayos son independientes. La probabilidad de encontrar un disco defectuoso en la tercera selección, no tiene ninguna relación con la posibilidad de hallar un disco con defectos en la cuarta selección. El apéndice A indica diferentes probabilidades binomiales. Se necesita convertir la nomenc.latura del muestreo de aceptación, a la que se usó en el capítulo 6 para las distribuciones discretas de probabilidad. Sea 11 = 0.1 O, la probabilidad de un éxito, y n = 20, el número de ensayos. Entonces c es el número de defectos tolerados: clos en este caso. Ahora se determinará la probabilidad de aceptar un lote que tiene 10% de defectos usando una muestra de tamaño de 20 y tolerando cero, uno o dos elementos con defectos. Primero se localiza en el apéndice A, el caso de n = 20 y TI = 0.1 O. Se encuentra el renglón donde X, el número de defectos, es O. La probabilidad correspondiente es 0.122. A continuación se localiza la probabilidad de un defecto, esto es, donde X= 1. Resulta 0.270. En forma similar, la probabilidad de X= 2 es 0.285. Para encontrar la probabilidad de dos o menos defectos, se deben sumar esas tres probabilidades. La suma es 0.677. En consecuencia, la probabilidad de aceptar un lote que tiene 10% de defectos es 0.677. La probabilidad de rechazar dicho lote es 0.323, calculada por 1 - 0.677. Este resultado se expresa en la notación abreviada de probabilidad como sigue (se recuerda que la barra vertical, \, significa "dado que"):
P(X ,o; 2
I "'= 0.10 y n = 20) = 0.677
La curva CO del diagrama 17.8 muestra diversos valores de"' y las probabilidades correspondientes de aceptar un lote con esa calidad. El director de la empresa Sims Software podrá evaluar con rapidez las probabilidades de diversos niveles de calidad.
645
Gon!rnl esladistico de calidad
i .00
R7'7'cc'7'""R77777G'I
Porcentaje de Probabilidad clefectuosos
de aceptar
en el lote
5 10 20
el lote 1.000 0.924 0.677 0.207
30
0.036
o
0.20 _l___L._l _
o
5
Porcenta~e
DIAGRAMA 17.8
Au!oexamen 17.4
1o
15
__L___I
20
25
30
de defectos en el lote 1·ecibido
Cun'a CO para plan de n111estreo (n = 20, e= 2).
Calcule la probabilidad de aceptar un lote de discos que tiene realmente 30% de unidades defectuosas, usando el plan de muestreo para Sims Software.
Ejercicios i3. Determine Ja probabilidad de aceptar lotes que tienen 10%, 20%, 30% y 40% de piezas defectuosas, utilizando una rnuestra de tamaño i 2 y un nllmero de aceptación 2. 14. Determine la probabilidad de aceptar lotes que tengan 10%, 20%, 30% y 40% de defectos usando una muestra de tamaño í 4 y un número de aceptación 3. 15. La empresa Warren Electric fabrica fusibles para muchos clientes. A fin de asegurar !a cal'ldad del producto para el envío, se prueban í O fusibles cada hora. Si no hay más de un fusible defectuoso, estos dispositivos se empacan y se preparan para su embarque. Trace una curva CO para este plan de muestreo. Calcule las probabilidades de aceptación de lotes que tienen 10%, 20%, 30% y 40% de partes defectuosas. Trace la curva CO para este plan de muestreo usando los cuatro niveles de calidad. i6. La empresa Grills Radio Proclucts compra transistores al consocio Mira Electronics. De acuerdo con su plan de muestreo, el propietario de Gri!ls Radio, aceptará un embarque de transistores si tres o menos, en una muestra de 25, están defectuosos. Trace una curva CO para estos porcentajes de defectos: i 0%, 20%, 30% y 40%.
,.. , ___ __
"_
, .. - --
:_-
l{es1_1wendelGapl'túlo·. l.
El objetivo del contról estadístic.o de calidad es c:Ontroli_¡r la calidad de.1 producto o ser\lició mientrasse·e$_tápr~_duci~~~clo ..
___
.______ ,
_.
____
::,_:-_·
_. ;·
___ .-:---
··.
11. El difjgrama Pareto .es una técnicaqüe se aplica para clasiticar el número y ti pode defectos que. s~ .pre~_~nta~: e:n: un product_o: _o_ servl~io.•. A. Este diagrama recibe tal. nombre, por el. del ci~ntífico rtaliano/Vllfredo Pareto.. B. El.c9Qcepto de!diegra(ll'1 es que SO'JP dE! la activid.a.d .es causac{a por él .20% de los fác• tbres.
___ _
Capítulo 11 111 •• Un diagramad~ causa y ete¡;to (o de espinazo de pescado) enfatiza la relación entre una causa posible de un problema; que producirá-el efecto en particular. Ac También se. le. denomina diagrama de causa y efecto. B. El método usual es consi(je~aycuatro áreas de problema: métodos, materiales, equipo y personal; . 0 . . •· 1\1. Elobjetiv". de los diagramas de control es monitorear en forma gráfica la calidad de un pro-
- '.dliCtO o servíCici.-"· A. Existen dos tipos de diagramas de control. 1. El diagrama de control para variabies es ei resuitado de una medición: 2. El cliagrar:na-de atributos-muestra si el· producto o servicio-es aceptable, o si. no lo es. B. Exísten;_doS f~1entes de variac_ic)n_ en _la_ calidad de un producto o_$erv!Cio. 1. La vadaci_ón atea_toria es dt: :natu_ra!eza a!_eator1a, y no puede ser contrb!ada o éliíninada: 2. La var_i_aqión as_ignaQle::ho_ se _ debe:a.cauS_as aleatorias y puede ser effminada. C. En este capítulo se consideraron cuatro diagramas de Control. 1. Un diagrama para h¡media muestra iamedia deunayariable, y un diagrama para la amplitud de variación muestra la amplitud de variación de. la variable. a} Los-!ímites.·de .cotltror.-SüperiorEr-iflferlor·sé.eStáb!Sé:én'-_eil más . o menos 3 e·rrüres estándar de la media. b) Las fórmulas para. los límites de control superior.e inferior.de la. media son:
LSC "CX +A;.i'f
UC
'?X '"'A,{i
["17.4]
e) Lasfónnulas para las limites" de "cdhtr61 slÍ~erior ·•& inferibrda lit ampli\ud•oe y~riaC ción son:
LS_C=D/f
LIC =D/f
2. Un diagrama de porcentaje de defectos es una gráfica de. atributd~~{¡.¡;rr;;;~~\f~'l!t)lro-' porción del producto. o servicio que.no cumple con el estándar. a) El porcentaje medio de los productos defectuosos se determina mediante:
Número total de elementos defectuosos p = .N(1mero total de eiementos etlfa muestra
[17.6]
b) Los límites de cortrol para lápmpoición de elementos defectuosos se determinan mE;;dí,ante la.sigy.iente.e~~afló~:·. · . .'·· _,_ ·
LiC, LsC
=
Pf3f!n-p) .·
[17.8]
3; Un diagfarriade c col"\barra sá r:fiere ál numero de delectos por unidad. a) Sre~á~ae,nladistribución de P?ísson: b) faílÚ[[]ero medjo q~_defeqtos__ por upi?~d~~c: e) Los-límites· de· control. se:Cf~_t~r,~:i?'1~)11~d1_~".t~;!;3':S_i9Cii8nte-·ecüación:·
.LIC;LSC=c:t3\/G'
[17.9]
V.• El muestr<Ío de áCeptacoi9n és ún métódifqt.ié pérmííé détérrnirfar si el lote de un producto que se reci.be :.cumple-e_?º l,?s·6st_án_dare~:-~sp_~c.ífíc:as. P. Se basa en tééni.cas de muestreo aleatorio: B. Se selecciona una rnuestra aleatoria den unidades de u~a población de N unidades. C. _q es. et n.úrr:i.ero: '.fl._áxi':1º_. d~:.u.n!dad_es...dl3:f~9ti1o~_as_: q~e::-.Pu.e_den:·en_contrarse:e,rc fa.._mui3stra de n; para que eljote pueda coneiderarse como aceptable.
D. Se elabora. un~ qurva CO (car~~t~rí~tiQ
Simbología
-·-··-·-"·.·----~
~----~~----,.;,.~--
SÍMBOLO
·X sx
S!.GN!F!CADO Val0rrt1ediode las medias muestrales Error 8státidar . de !a me.dia
FClf!MA EXPRESIVA X.coridobifi barra
s.sub/fidiCe.-X Cori bat'(á
647
Control estadístico de calidad
A,
Constante utilizada para determinar l.os lí111ites.c!e contr9I superior e infeÍior dé la rTiedi,a:
A su(?índice 2
R
Media de las amplitudes de variación muestr~les
R con barra
c:;.onst.ante.qu.e seut.ilizapara determinar e.1 lfmit.esupe¡io(de control de la amplitud de variación Media del nC1mero de .defectos por unidad
Dsubíndíce4····
~jercicios delcapítulo 17 •. EI supervisor c:fe producctón de la empresa Westburg Electric, Inc. observó un aumento en el número de motores eléctricos rechazados durante la inspección final. En los últimos 200 motore.s rechazados, 80 de.Jos defectos .se debieron al alambrado. deficiente; 60 teníanun cortocircuito..en eJembobinad?1.50contaban con un conector defectuoso •. y.10 otro tipo de falla. Desarrolle .un diagrama Pareto para mostrar las áreas principales de problemas. 18., [JnJabricaotede calz~do cieportivo r~~lizó u0 estuc;lío ace>rca d~ ~us nuevos zapatos para tro, tar. A co.ntinwci.ón se pres.~nta u.na lista del tipp Xla frecuencia de los defectos y fallas encontrados; Elabo.re. un diagrama Pareto para mostrar.las áreas. principales de problema. Tipp de· deflc:iénciaS-
Frecuencia'
s~:Pm·aCró.n _ de ta~~_ú_81a Separ~ción deltacón Hundimiento de la suela
3498 62
Tipo;de:~eficiencfas
Frecuencia
Rofürá dá'c·ordori'és Rotura de los ojílfos
10
otras
16
14
\ 'i~/_{Jr{__ré-S_t8.yta·nt~ lle,na_~_uS:·\,a~_º§. ?8 fefre,St.:O: 9?n· Lirta:_;~,áQ~lna _f,lutomátiCa _que trab_aja-·_con bilse en e/peso 9~1ffquld() sHrvido, Cuando 91 proceso está balo control, la máquina llena cada vaso de. mo.cto que la gran media .es .1.0:0 onzas (oz) y la amplitµd de variación media es 025, _en muéstra_s de-tamaño-_5. aJ DetermííleJos· lírtlites:Sup8ri0r_. e ínferior·Cfe.contro/. del pícic~so, (¡Lie:coi'responderl 8! proceso, tanto para la meciei como para la amplitud de varia.cíón. b) El.gerentf'de un eslablecímient') comercial probó la capti.oadc!e refresco en cincci de los re" frescos ~ye se siryieron dura0te yna hora, y h~lló que la media era 1O.16 oz, y la. amplitud de. variación, ó.;35 oz. ¿Está el proceso bajo c.ontrol? ¿Se debetomar alguna medi.da adicional? 20,SE).h" instalado• una máquina.nueva que c?rta.ydesba~t~pi9zas m€ltáliqas grancjes: Las paro tes se pasan después a una es111eriladorade p(écisi6n: medida d~cisiva es el diámetro e.xter19r;. ·E1_.~.irsp~~tor: d_~rcor¡tr?f-de_:cc:i.Hd~d se/eccíorió. af ·azar-~inc_o_ p_iez_as. cada hora:r midió- ~u diámetro'exterlor y registró los resultaqo5. Las. mepi<:las (~nmilfrr¡etros) en .el i?f'rlod.o gue va oesde¡as8:00Afl/I. hastalas 10:30 A:M: son las sigui~ntes: ·
º"El
DíáiJ:íétf~ éJct_e_ril)Í- (~Jl 'niilíine.~t.0.S}
Hora
.1
2•
8:00
87:1 86.9 37,5 . 86:0 87.1 88.0
.87,3
8:30 9:00 9:30. 10:00
10:30
88:5 88A ·8sD 87J 86:2
3. 87.[i 87.6 869
4
5
87:0 87.5 87.6
87.0
87.4 88.2
872 87:1
8~.6
87.1
87.1
87A
87.3
87.1 87.8
Determiire loslimite,¡cje cohtrolpara l~medíay la amplitud de variación. fl/larque los límites de controJ.paraJameofda del
648 21!, La empresa 'Long LéiSt Tire Com¡Jany, Como pcuie de: su proceso de inspección, prueba la resistencía al desgaste de !S:s HantB_s· C¡ue 'fabric·a bcij(fcondiciones sin1u!adas de recorrido. Se selecicionaron veinte muestras, cad8. Llntt. cón'tres 118ntas, provenientes de dHerentes turnos laborales-durante un rnes de op8ración. ELclesgaste de !_as llantas se indica a continuación, en centésimos de pulgada. fgesga~rfe
4 5 6
7
20
33
34 28
33
36
-23
39
15
34
40 36_
8 9
34
rn
tle
~as
33
"l"I
5-1
34
"13 i4
30
16
22
2"1
15 16 17 18 19 20
n
28,
49 20 26 26 34
25 3"1 "18
33 36 26 32
47 29
a} De:termiile: !os:_iírilites de_ Con:rolJJar_;:;¡ !á ·mediá _Y para_fa· . arn_Plitud de variación. b} Trace los- límites de control. ¡:ara. !a' ÍTiedida del diámetro exterior y para !a arnp!itud-'de va-
riaCiórc
cJ ¿_Hay algunos puntos-en el-dlagrama de la medía o de !a amplitud de Var1ación,._qúe estéri fuera.de -cbntrol? Comente:-res·p·ecto .a! .cliagrama, 22.. EI Chart_er l\!~tiona\ Bari\(ti?né úh étjLliP()_.d_6_fuqi:::i9na_r_iciS para_ atender los préStariios en !as oticínas_de_sus filiales en el,surJeste de_EUA. EL vicepresidente del banco.desea_ conac_er el 111011to repr~sentatlvo. de !oS pré_stamos __y_ !_a a,rnplittid de__ v~riación en la suma de los mís111os. Un analista de! equipo de! ·v!cepresfdente seleccionQ una rnuestra de 1Ofuncionarios en CU$St_íón,, y_ de Cftda__un_o_ eligi9_._u11a mu_estr_a de cin,C_() préstam?.$-()torgados en _cie~to mes. Lo? datoss_e indíc_0b.. _~.cont_i_riu¡:ició,n'. .E'.a_bor;e u~_tjlagra_m,_a d~:con,tr9l P<::lra !_a medi_a y para !a.amplitud _dft. Vf~iEté/ó_rí. _¿Part:ce _ qL1e alguno .~re !_os-funcíonaric)S__ está fue_ra de contra!? Con1ente acerca de sus resultados. · N1orntu de~ préstamo {mHe:s.$US)
fuílCíoílarío \fi/eiriraub Vísser_. MóoreBi·unner Woll
1
2
59 42
74
3 53 70
51 42
52 36 34
62 39
70
59
4 48
44 78
5
65 67 85 79 61
IV!unto die! ¡:DréStanio (miles $!JS}
Fu¡u::ionario Bowyer
1
2
3
4
5
66
8Q
54
68
43 .75
45 68 70
65 50
42'
53 65
52 49 31
4.1
52
43
38
10
19
47
Kuhlman
, .Lud1¡iJíg_Longne_cl\er S'íri1oi:¡ettí·
·-'-----'"
_.
23. Et fab,ric·a~t8-_d~ Lit1<]·_~ar_ra d_e c~~~-rn_~-lo,·_-índica'~n-_el:-p~tj~1~t~::q~e el c¿·íltenidO-C!,8--C'aí·Q'ífas ·e_s· _4~9-~_n,_c_ ~1d~_ b~\rrél ·_de_ :-~:_ (JQ~;:i.s. Una muestr_a de-. 5_b<:u:ras ele cada uno_ de_ los últirnos-_·19 d_ías,
Se en_~ía a:~n ~n_áHsis_quí_mí_c9 d_e! conte_ni_do d_e ca_!orias. Los resultados se rouestran más lld_e-:_ !ant_e~ 'l_P,qrece_- _hc¡_Qer 21!_9._unos días i:;n_l9?·qu_e:!a cantidad d_e calorías está fuera _d$ _Qo_ntro\? De_..: , sarrol.l('?·:un diagrams de contra!- ap_ropi,ado y ana!lce sus resultados.
üanthiact·de calOrias
iGaviííci..ad cte
2
3
4
;¡
Muéstra
406
418 415
431 ¿i·r2
432 411
6
427
7
422
4:10
406
402 423
4.09 400. 4"10
a.
419
417 421
422
408
9 10
2
3
419
417 417 417
408 426 412
417
432
41.7
420
422
421
418 435 415 4·¡5 415
422 426
417 422 422
649 24,. Un. se.rvl.cio d.e repart_o- garantiza !a :entr_ega de· paq'uetes pequeños _antes de las -10:30 A.M. Of3sde.k1ego, no todos fos._envfos son entregados a_ntes de e_sa hora: En una muestra de 200 paquetes. repartidos en los. _últimos: i 5 _días laborales, _se en_tregaron las.siguientes cantidades después dela hora límite: 9, 14, 2, 13, 9, 5, 9, 3, 4, 3, 4, 3, 3, 8 y,¡_ a) Dftermine.la P[Oporción mediad~ paquetes entreg.ados después de las 10:30 A.IV!. b J. Ob\enga .1.os H.mttes de c9ntr9J.p?\aJa.Pt9Pm9ión de paqu9tes . entregados después de las···· · ·· i.oo30:A;l\íC ZAfguno·ctelosdías muestread.os.estuvo. fuera d.e control? e) Si 10 de. 20.0 e~vío:¡se .entregaron después de las.10:30 !\¡M., ¿esta muestra se encuen··•···· ....· ,... ·... · tra dentro ~e l9s límites de control? 25•. Una máquina. ?utomática prodyce, ~ gran velocidad; tornillos de 5.0 mm .. Se ha iniciado un .P,.r?gram_a_de ca_Hdad:_Par_q_ controfar e!-n_úm~ro.de_ piezas_.defec_tuosas. El inspector selecciona aleatodame_nte _50 tornillos y _determina cuántos defe_ctos hay..,_La cantidad de defectos en las primeras ·1 O muestras son: 3, 5, 4, 1, 2, 6,. 5, 7 y 7. a) Diseñe un-giagrama de. porce_ntajy de tornH!os defeqtuosqs'. lndi_que en el _diagrama !a_me'.' día del porcentaje de defectos, el LSG y el uc. b) Grafique en el diagrama el porcentaje. de defectuos en las primeras 1O muestras. e) Interprete la gráfica, 26. yn pro_ductor.de paquetE¡S_dé ce_rea!es indlcEi en:_fa étiqü8tá que e! paquete contiene 25 oz de cereaL Para as~gurar fa_ calidad del producto;- e!_ dep_artam_ento de inspeccfón_ verifica el funclonamiento;del:proces_(} efe producción_c_ada.hora .._Cdnio_ parte.=de. esta verificaéión, se to_ma cada :hora_ una--m_uestra- de cuatro: bolsas ·_y_,se_ pesa,_ su con_tentdo·: Los resultados se íncUcan a ·coritínuaclórí.
·º'
Paso
8
26.1 25.2 25.6 25.5. 25.2 26.6 27.6 24.5
9
24.1
l1
2s,3 22.5 24:5
4
5 6
rn
12 13
14 15
16 17
:24.4 25.1 24.5 ~5.3
Efa_bdíe: l_rr¡_;_ C:Hiigra111a-_d_e
24A 25.9 24.5. 26,8 25.2 24:1 26.0 23.1 25,0 25.7 23.0 24.8 24,5 Z3:S. 25.l 24.4
25.6 25.1 25.7 25.1 26.3 25.5
24.S 23.9 23.5 24.3 23.7 21:2 25'9
25.2 24:8 25:.1 25.0 25.7 24.0 2S.3
24.7
24:9 27.3
24.0 24.2 25.5
24:4"
24.7
24.0 22.8
25.3 23.4
24J
23;9
26:2
24;5 27:5
26:0 24.3' 25.5 21;.4 26.8
26.2 2s:5 24.3
. 20. 21 ..,22 23
24.il 24.9 25] 24.8
2.4.4 24.6 24 ..3
24.
25:4
25.9
25() 26.6.
25
26.2
23.5
23.7
25.3
1
24.8 26.9 27;2 2481 25.0
~o~:fiol_. ap~Ó-picldo ..LCúá're-~_,Són:_-lbs _rí_rnites?- ¿Está_ el :p-róceSa·fUera_· de
_c,.ó~itr?J_en--afgL1n·--mornen_t'o_?;_::_.:
_.::-:_'.---:_ ::·-:.·- -,-_·-·_- ·. ?,7 ~--:Un i~V.0T8:_i()n_is_tfl _pi¡;:ns~_ qL1~: .IE!:S.- posl_b_i_li.dade_s_:d_ ~;_ qt_r;e-,_l!íla.-:a_cq_lón- -~uba o .baje .en un -día· deterrnrnado_ so_n 50-:50:. Para Investigar esto, e!-l_nversion_ista_t_Or\lfl _ una n1ue~tra aleatoria de·.5_0 acciones d_u_ran_te_ 30 díf:l~,fab_o_r~tés co_nsecutívos_ y _cuenta _e_l _núme_ro_ de_ac_cionés que suben~ Los resultados se_ dan a continuación.
650
Capítulo 11
14 13
15
12 10 13
H
12
17 11
10
10 9 10
·¡3 13 11
10
·13 11 ·15
13 12 13
14 11 10
_E,lá?bie: un _d_ragr_~ni-a_'_d6_ fJorc9:~t8Je:de'_d6f8ctoS_y,esqdbá~-~--inf()_rrne _breve c¡i..t'e re_suma su~_ha~ ···••··11a~gos; Basándose en·· est?sresultadosrnuestrale~,-í,_~s razonable creer qw_lasPositJi_lidade~
d~- que -~-n_a-~9?i~r:r_ s_~_ba_ eStá11_: sp,.a· ~ü_? '¿Qy~-porcentaje ele !as _acciones deberá subir:en- ~n _ _,_ , día para que el proceso esté !~era de ~~nt;ol? . .·..·'.•-• ... _·. 2s~:_.Un~_ ~O:presa_ y~_nd_eO?,r_a·:d~: ~uh~_rrlóVB~s~G8~~jder.:r~.,co_ rriprild_orJ?.S que Üenen:·un h(stod_(ll de c~éd,ito-defi_~ien~¡;}_: A:~~-º-~ín_~fl_cíó'_n __ s_é i_ndi_cf:i: el_ ílúm_ ér()_-~e_·_autornóviles devue\tos·a· la empresa, · durante losültimos.36 meses, debido ,a que el comprad orno pudo cumplir las condiciones de pqgo.
6 15 9 13
12 7 5
4 13 5
20 . 11 7
11 11 10
10 9 8 11
g
ti
3 18 13
9 6 6
9 8 14
Elabore un diagrama' de e con barra para él número de automóviles devueltos. ¿Hubo algún mE!S:en e1·que-e!:númer0---estuvo-_fuera _d_e control? Escri_ba-un·\nforme breve que resuma sushallazgos, ?9~ _ Un: ing·eniero·-de_ pra~~!3_os eStá .qonsider_?hdo dos_ plan_es :dé muestreo .. En e! primero_ :se toma una muestra _de 1o, y el l~te se acepta si hay 3 defectos o menos. foel segundo el tamaño de la muestra es 20 y _el número deaceptacijSn es 5. Elabore una curva CO paracadauno. Compare la probabilidad de ac~ptación d.e lotes.con 5%, 10%, 20% y 30% de partes defectuosas. _¿Quál_·cte-k~_s p!ane~_ recom,~ndarfa ~i._ usted.- fuera el_ proveed_or? -ao.:u,ria_ comp~ñíft de·muda~z_a_s_e!_abora. un·tlfagrama de control para_monítorear !a_propOrciOn--cte c\lmbios de dol))icilio en lo~ que surgen 9uejas debido a la entrega tardía, artículos perdidos o:dañado.s_.- S_e s_eléccíona _una mue~tra_de 50 mud_anzas_ en cada uno d_e. los . últimos l2 me_ses~ El núm~ro de quejas en cada muestra es 8, 7, 4,. 8, 2, 7, 11, 6, 7, 6, 8 y 12. a) Diseñe un diagrama de porcentaje de elementos defectuosos. Introduzca el. porcentaje medio de defectos, el LSCyel· LIC ~n el diagrama, b) Trace la proporción. de quejas en los últimos 12 meses. ·e) Interprete .el diagrama. ¿Parece que el n_úmero de quejas está fuera de control en alguno de.-ros'. m_eses? , 31. Eric's Coqkie Hous'irvende galletas con chispas de chocolate en algunos centros comercialeSc Étic, el propietario y presidente de la empresa, desea elaborar un diagrama de control para el •número de Chispas de chocolate por galleta. SeJecciona una l))U~stra de 1_5 9?11et~s ~e la pr?d_~cclón a,p~üal_-Y:~u~_nt~ ~!-,. ílúm_er_o-__de chispas: de_. ?hoso!ate en-cada u11¡:¡.- Los·.rf1s_u!tadoS son: 6, 8, 20, 12, 20, 19, 11, 23; 12, 14, 15, 16, 12, .13 y 12. a) º"termine la línea centra_l_ylos líl))ites pe _control. b) Elabore undiagramade control y trace el núme~o de chispas d_e chr5colate porgalleta. p} lntew.rete eLd¡agrama. ¿Parece que el n(imero de chispas estáfuera de control en alguna de_las •.galletasmue5treadas?_ 32.Las "pérdidas dE) vuelo'' registrada$ en·,los é1ltil))os•?O•meses en ·el Afropuert() lntf)rQacional d$ _Li111a son (3, 2, 3,_2, 2, 3, 5, t, 2, 2, A.· 4, 2, 6, 3, 5, 2, 5, 1 y 3. Elabore un diagrama de cmtrol apropia9'!· Determine la mectia del número d~ pérdidas por l))esy los límites de la ca9tid~d cie pérdidas por me~. ¿H~y algún mes en el que el número de pérdidas esté fu.era d~ co 0_tr?I? 33. U~ departa_m~~t~de policía en Estados _U~idos recibió el siguiente nú'."ero de denuncia~ por robo enlosúltííllos1 O dí.as'. to, 8, 8, 7, 8, 5;B, 5, 4 y 7, Elapo.re u~ diagram¡¡ de ?ontrol apropiado. Determin~la media_del~úm;ro de delitos de.~L1nciadosp9r_día y los_líl))ites de oontrol. ¿Hay algunos días .en _los·que'el_núnfe_r? derobo~reportadss está fuera·de.control? 34. La empresa ,Seiko a~c¡uiete ex,tensíb_lespara_sus~eloj~s_enlo\es·de 10_000. El· plan de mues" t~~·o:_ q~---~~íko_ ;_r~9_ui_erE{_la: lnspeq9ión- d_e- 20 .:artícu_!O_s., Y- ·si 3 ?:- meri_o_s. y~_tán- d_efec~uosos; _se acepta el lo\é; •···. · ·····._ .. _···.·. .. ···-··.,. '-'· . ·• .. ···' ·-···.-•• ·· . _..,··.. ,, .... ·,. . . ' a~ Con bas$ en .su plan de müestreo; ¿ouál es la probabilidad de. admitir un lote con 40% _de el.amentos defectuosos? ·
Gonlml esladfsiir.o de cali!led
651
b) Obtenga una curva.CO para lotes que seJeciben con cero, 10%, 20%, 30% y 40% de extensib.les. defectuosos..
..
•·
>< ···•.
.
35. Una. cornpa.ñ.ía c.ornp(a.c_erraduras _para_ puerta~·.a varios proveedores. El d_epartamento de C()mpras, e_s respo_nsable de la inspecc,lón de tos artículos que se reciben_. Se_ adquieren i O 000 cerraduras_._al.. _me:sJr:se-inspeccionan, 20 piezas set_ec<;:ionadas_ a!~atoriamente. Obtenga una -~ _u_ryª:p~_ra :_ ~!: pt~_n _ _c_!e rr¡_L_1e~tr,§!_()___ ?L-~_El ___~Q.m i_f S! _ _ q~r.E'..)re_s___c_erraduras_ estén" defect_uosas-y., se---- _ ....,
P?:.
_
aée¡5tael lote recibido.· ··· · 36; Al inído de cada temporada de futbol americano ell EUA, una tienda de artículos deportivos 9qrppra S, 990 ~.~19nes. S,e sel~9pipna una muestra .de 25 balo.nes, los que se inflan, prueban y desi¡iflan después. Sí se e0cu,entra que más de dos están. defectuosos, él lote de 5 .000 balone<:; se devuelve .al fabricante. H¡bore una curva CO para este plan d.e muestreo. a) ¿Cuáles son las probabilidades de aceptar lotes que tengan 10%, 20% y 30% d.e elemen-
tos. dBfectUó'sos? b} Estime la probabilidad de aceptar un lote gue tenga -15% dé artículos defectuosos. e} Al propietario de la tienda de deportes le agradaría que la. probabilidad de aceptar un lote c.011 5:%·:.rj.e,,artfcu(os .de.feqtu.09os fuera superior Et:90%.. ¿Será este el. caso_ con.el- pfan-de muestreo?
Comandos para compütadora 1. Los comandos de MINITAB para eldiagiarrra Pereta de la página 628 son: a) En lacalumna C1 tedee las razones del conspmode agua; y en.la col.umnaC2 l~s gafo~ nes consumid?s.Dé a las columnas nombres apropiados. . . . .. ·.· ..• b) Pulse•en Sta.t(Quality Tools, ParetoChart y luego presione Enter. . . .· .... / •1• e) Seleccio.ne Chart defects tafüe, indique la ubicación· de los rótulos y de las-frecuencias, dé untiiul.o para el'diagramay pulse en OK,
2: Los comandos de MINITAB para los diagramas de Xbarra y R de la página 6~6 son: a} Introduzca la información presentada.en la tabla 17,1 uobténgala del.disco compact1:)EI nombre def.archívo es tb/17+ · b) Pulse en Stat, ControlChartsy Xbar-R;fdespué~ pulse en Enter. . < > e) Pulse en la opción Single Columne introduzca lffvarlable de acuerdo al nombr~ c(e la columna. El Subgroup size es 5. Pulse en Options, introduzca el nombre del diagrama y pulse dos veces en OK.
652
Gap!lulo 17
.
___ .,,:-...
-
---.:.-_ . .,,,
-
Los comandos de MINITAB para el diagrama de porcentaíe de defectuosos ele la página 64.0 son~--:_:_,_-~-: - - .-aj lntroctuzcalosclatosde los números de di¡;crepanc.;iasdados en la página 63S. b) Presion_e en. Stat, Contra_! charts;P,ypulse en Enter. •.•·..•· . .• · .. • F e) SeleccioneJaVariable ind_icando elnúrne.ro de discrepancias, pulse en Subg~(.l(IPsíi.e e introduzc;a·-1500. _En_!a-esqutna-inf.8-rior derec_ha pulse.en Annotation~ :Title1 introduzca ett[tu!o·_en el_ espacfq BS() __Se-p~oporciona; y pulse-dos veces.en OK.
.
-':
.
4. Los cornanc!os.de MINITAB para.el diagrama de porcentaje de defectuosos ele la página 641 _son: _ .<.·::-._:.,~,_:·:·.' . ·> ____ ·-._-- .::·-<:.-::->: __ ·--:->:-'" ___ . . : _ -.. ·._ _:,·_.,____ .-... a) lntrocluzca los datos de los números de palabras mal escritas ciados en la página b) Presione en St_at¡Contro! pharts, C Cllarty pulse en Enter. .·. . . ··. J ; e) Seleccione.la Variable indicando .el número de palabras mal escritas. fo la ~;;q~ira ipf~Úor derecha: pulse:en _A~nótati,any"-Title~ introduzca~¡ título.en el espacio que para:eSo se proporciona,_ y pulse dos veces en OK.
?11·.
653
654
Capítulo 17
CUATRO
Elaborar e interpretar un índice . de precios de Paasche. C!l\ICO
656
Capítulo 18
Introducción En este capitulo se examinará un medio descriptivo muy útil, denominado índice. Sin duda se está familiarizado con números índice, como el Índice de Precios al Consumidor {IPC), que se emite mensualmente. Existen muchos otros índices, como el Promedio Industrial Dow Janes y el Promedio Accionario 500 de Standard & Poor. El gobierno federal de EUA y publicaciones de negocios, como Business Week y Forbes, y la mayor parte de los diarios publican índices regularmente, ¿Cuál es la importancia de un índice? ¿Por qué es tan importante y tan empleado el Ín· dice de Precios al Consumidor? Como su nombre lo indica, este índice mide la variación en el precio de un gran grupo de artículos que adquiere el consumidor. El Consejo de la Reser· va Monetaria Federal de EUA (Feo'era/ Reserve Board), grupos de consumidores, sindicatos, gerencias, organizaciones de ciudadanos mayores y otros integrantes del comercio y la eco· nomía, están muy interesados. en las variaciones en los preCios. El IPC y el Índice de Precios al. Productor (IPP), que mide las fluctuaciones de los precios en todas las etapas de producción, son observados muy de cerca por esos grupos: Par.a co111batir aumentos agu· dos de los precios, la Reserva Federal (en EUA) eleva con frecu.,ncia las tasasde interés pa· ra "enfriar" la economía. De igual manera, el Prornedio lndustri.al Dow Janes (PIDJ), que se publica diariamente, describe la variación total durante .el día de los pr~cios de acciones co· munes de 30 grandes ~ompañías estadounidenses.. . . · Algunos índices del. mercado de valores aparecen diariamente en la sección financiera de la mayor parte de los p~r.iódicos,. Estos índicesse actualizan al meno~.cada .15 minutos en muchos sitios de la Red ?orno en la sección financiera o de negocios del USAToday http://www.usatoday.com/money/mfront.htm. Abajo se dan el. Promedio Industrial Dow Jo· nes, el Índice de la Bolsa de Acciones de Nueva York,. el Nasdaq y eLS&P 500, tomados del sitio en la Red del diario USA Today,
Nú1neros in.dice simples ¿Qué es un número índice?
Número ·índice .Un··núr11ero que ·expre~ala variación• relativa. c!el •¡Jrech,• lácantidad o el valor, en comparación con un periodo·base. · · Si e! número índice se usa para medir la variación relativa de una sola variable -como e! salario por hora en un proceso de fabricación- se le denomina indice simple. Es la razón
657
Números indice
entre dos variables expresada como porcentaje. Los siguientes cuatro ejemplos servirán para ilustrar el uso de los números índice. Como se observa en la 'definición, el principal uso de un nl1mero índice en la economía y el comercio es mostrar el porcentaje de variación de uno o más elementos, de un periodo a otro.
De acuerdo con datos de la Dirección ele Estadística Laboral (BLS, ele Bureau of Labor Statistics), de EUA, en enero de 1987, el promedio del salario por hora de los trabajadores de fabricación era $8.90 (dólares). En diciembre de 2000, fUe $14.02. ¿Cuál es el índice correspondiente a los salarios por hora para !os trabajadores de Ja industria de fabricación en diciembre de 2000, con base en enero de 1987? El índice es i57.5, valor que se obtiene de:
p =. Salario promedio por hora de los trabajadores de fabricación en diciembre de 2000 ( 00) 1 Salario promedio por hora de los trabajadores de fabricación en enero de ·1987 =
14 $$8.90 ~(100) = 157 .5
Entonces, el salario por hora de los trabajadores de fabricación en diciembre de
2000, comparándolo con el de enero de 1987, fue 157.5%. Esto significa que, durante este periodo aumentó 57.5%, que resulta de 157.5 - 100 = 57.5.
La información más reciente sobre los salarios por hora, en índice de precios al consumidor y otros valores relacionados (de Estados Unidos) se puede encontrar en el sitio en la Red de la Dirección de Estadística Laboral (BLS), http://www.bls.gov/datahome.l1tm. A continuación se muestran algunos valores estadísticos de la BLS.
CPl'Y,''.';'i•. ;;,·.··.··············
· +Ó2%ínDécemtier2ornJi •·
u~~füP16vrfi~ot R~1&·. 4.0% in Decenioer 2oóiJ
.P~vroi1.t:mgroyniehl: .•. · ·••
+1o5,000in·Decembe(2ooo .. AVéfág&Hourfy•Earníngs:
f $Q.05.in. December 2006
'PPI·: .ünch~nged ín
December 2000
ECf'.
+0.8% ín 4111 Quarter of 2000 Productivilv: +3.3% in 3rd Quarter of 2000 U.S. lmport Price lndex: -0.5% in December 2000
658
Gapílulo 18
EJEMPLO
La Oficina de los Censos, de Estados Unidos, informa que el número de granjas en ese país disminuyó de 3 157 857, en 1964, a aproximadamente 1 200 000, en el año 2000. ¿Cuál es el índice correspondiente a la cantidad de granjas en el año 2000, con base en el número en 1964?
SOLUC!Ó~I
El índice es 38.0, que se obtiene de
P=
Cantidad de granjas en el año 2000 ( OO) = 1 200 000 ( OO) = 1 1 38 0 Cantidad de granjas en 1964 3 157 857 ·
Esto indica que la cantidad de granjas en 2000 era 38% de la cantidad de granjas en 1964. En otras palabras, la cantidad de granjas en Estados Unidos disminuyó 62.0% (lo cual proviene de 100 - 38) en ese periodo.
EJEMPLO
Un índice también sirve para comparar un artículo con otro. En 1999 !a población en la provincia canadiense Columbia Británica era 4 023 100 y en Ontario era ·11 513 800. ¿Cuál es la proporción de la población en Columbia Británica comparada con la población en Onta1io?
SOLUCIÓN
El índice de población de Columbia Británica es 34.9 que se obtiene mediante la fórmula:
p""
Población en Columbia Británica Población en Ontario
4 023 100 (100) = ----(100) = 34 9 11 513 800 ·
Esto indica que la población en Columbia Británica es 34.9% (un tercio, aproximadamente) de la población en Ontario, o que la población en Columbia Británica es 65.1 % menor que la población en Ontario (de 100- 34.9 = 65.1)
EJEMPLO
La gráfica siguiente muestra el número de millas del programa viajero frecuente, en millones, de l¡¡s cuatro principales transportadoras aéreas de Estados Unidos en 1999. ¿Cuál es el índice de millas del programa viajero frecuente que corresponde a United, American y Delta comparado con Northwest?
o
SOUJC:IÓN
50 000 100 000 Millones ele millas
150
ººº
Para encontrar los tres indices se divide la cantidad correspondiente de millas del progran1a viajero frecuente de United, American y Delta entre las generadas por Northwest.
659 Se concluye que Unitecl generó 69.1 % más millas de viajero frecuente que Northwest, American 50.9% y Delta 41.2%. Transpmtadora aérea United American Delta Northwest
Millas
indice
Calculado por
125 372 11·1 877 104 699 74144
169.1 150.9 '141.2 100.0
(125 372/74144) X 100 (1'11877/74144)X100 (104 699/74144) X 100 (74 '144/74144) X 100
Obsérvese bien de lo anterior que: 1. El índice de los salarios promedio por hora ele los trabajadores de fabricación (157.5), y el índice de la cantidad de granjas (38.0), son en realidad porcentajes, ya que están basados en el nlimero 1 OO. Sin embargo, el signo de porcentaje(%) usualmente se omite. 2. Cada índice tiene un periodo base. En el ejemplo de los salarios por hora de Jos trabajadores de fabricación se utilizó enero de 1987 como el periodo base. El periodo base del Índice de Precios al Consumidor (IPC) fue el de 1993-1995. La razón de paridad, que es el cociente de los precios recibidos por los agricultores, y los precios pagados por los mismos, todavía tiene 19-rD-1914 como periodo base. 3. La mayor parte de los índices comerciales y económicos se calculan redondeando al entero más cercano, como 214 o 96, o al décimo más cercano de un valor porcentual, como 83.4 o 118.7.
¿Por qué conve1tir datos en índices? Los índices permiten
expresar una variación en precio, cantidad o valor, como un porcentaje.
La utilización de números índice no es una Innovación reciente. Al italiano G.R. Carli se !e reconoce como el creador de los primeros números índice en el af'io 1764. Los incorporó en un informe que elaboró respecto a las fluctuaciones de precios en Europa, de 1500 a 1750. En Estados Unidos no se utilizó ninglln método sistemático para recopilar e inforn1ar datos, en forma de nlimeros índice, sino hasta alrededor del ai'io 1900. El índice del costo de la vida (llamado ahora Índice de Precios al Consumidor) se introdujo en 1913 y desde entonces se ha empleado una gran lista de índices. ¿Por qué convertir los datos en índices? Un índice es una forma adecuada de expresar una variación en un grupo heterogéneo de elementos. Por ejemplo, el Índice de Precios a! Consumidor (IPC)(o CPI, de Consumer Price !ndex) abarca -en EUA- cerca de 400 artículos, incluyendo pelotas de golf, podadoras de césped, hamburguesas, servicios funerarios y honorarios de dentistas. Los precios se expresan en dólares por libra, caja, yarda, y otras muchas unidades. La única forma para que el gobierno federal y derr1ás organisrnos preocupados por la inflación se mantengan informados acerca del movimiento general de los precios al consun1idor, es convirtiendo los precios de bienes y servicios tan diversos, en un número índice. Convertir datos en índices también facilita la evaluación de la tendencia en una serie coinpuesta por números excepcionalmente grandes. Por ejen1plo, supóngase que en !os seis primeros meses de 2001 las ventas al menudeo fueron por $185 679 432 62·1.87 (dólares), y que en 2000, en los primeros seis meses, fueron por $185 500 000 000.00. El aumento de $·179 432 621.87 parece significativo. No obstante, si las ventas de 2001 se expresan como un índice, basado en las ventas de 2000, el aumento sería ¡menos de un déci1T10 de i % ! De Jo anterior: Ventas al menudeo en 2001 Ventas al menudeo en 2000
$185 679 432 62'1.87 $185 500 000.00
ººº
X
1
OO = . 00. 1 9
660
Obtención de los n(nneros índice Ya se analizó ia creación de un índice de precios simple. El precio en un año determinado (como 2001) se divide entre el precio en el año base. El precio del período base se denota por p 0 , y un precio distinto al del periodo base se denomina comC1nmente e/ periodo dado o periodo· seleccionado; y se-denota por Pr Para calcular el índice de precios simple P usando 100 como el valor base para cualquier periodo se usa la formula:
P =p' -X 100 Po
ÍNDICE SIMPLE
[18. i]
Supóngase que el precio de un lote estándar en un cementerio fue $450 (dólares) en 1995. El costo aumentó a $795 en 2001. ¿Cuál es el índice de precios para 2001 usando 1995 como el periodo base y 100 como el valor base? El precio índice es 176. 7, lo que resulta de:
p
=
795 E_t__ (1 00) = _$ . (100) = 176. 7 p0 $450
Interpretando este resultado, el precio de un lote en el cementerio aumentó 76.7%, de
1995 a 2001. El periodo base no requiere ser un solo año. Obsérvese en la tabla 18.1 que si se utiliza 1990-1991 = 100, el precio base para la engrapadora sería $21 (dólares) [que se obtiene al encontrar el precio medio de 1990 y 1991: ($20 + $22)/2 = $21 ]. Si se hubieran elegido 19901992 como base se promediarían los precios $20, $22 y $23. El precio medía tendría por valor $21.67. Los índices obtenidos usando los tres periodos base se presentan en la tabla 18.1. (Obsérvese que cuando 1990-'1992=100, los números índice para 1990, 1991y1992 promedian 100.0, como sería de esperar). Lógicamente los números índice de 2001, utilizando las tres bases, no son los mismos. TABlA 13.i
Precios (en dólares) ele una engrapadora auton1ática Henson, n1odclo 3, convertidos en índices usando tres periodos base distintos. Precio de ia engrapa dora
Precio índice
11985
$18
90.0
11990
20
100.0
11991
22
11 o.o
~~
X 100 = 104.8
2 ~-~ 7
X 100
"1992
23
'115.0
~~
X
"IOO = 109.5
23 _ 21 67
X
2001
38
190.0
~~
X 100 = 181.0
1
-
Año
Precio indice (1990-91 = 100)
(1990 = 100)
18 X 100 = 21
-
20
21
x
100~
Precio índice {1990-92 ~ 100)
85.7
18 . 21.67 X ·100 ~ 83.1
95.2
~-x100~ 21.67
100
92.3
~ 101.5 ~
106."I
3 8__ X '100 = "175.4 21 .67
661
Númerns ir.dice r-·-··--~--~-~~--~~--
1 P1u!oexamei11 ll. í
1.
--- - ---- --- -
----~---~~--~-------~-~--~~--
.-· -.. --- -
1 1
Empresa
. l
2 '11 O 2 309
-.¡
Exxon-Mobil
7 91 o
1 1
Johnson & Jol1nson PepsiCo, lnc.
4 ·157 2 050
l!,
. 1
1 ~
Aiío
-~ Salario promedio por hora
1
1991 1992 1993 1995. 1997 1999 2000
$10.32 10.57 10.83 11.43 12.28 13.24 13.74'
¡
*estimacióíl preliminar
1
i
1 1
, 1
' I 1 1
1
1
!
1 l.
_
1 1 1
1 ~
Exprese como índice los ingresos anuales de Schering-Plough, Boering Exxon-Mobil y Johnson. & Johnson como un índice, usando las ventas de PepsiCo, lnc. como base (denominador) y 100 como valor base. Interprete el resultado. 2. Los salarios por hora de los trabajadores dff fabricación en deten11inados periodos se dan a continuación.
¡
1
1
Ventas (millones de dólares)
Schering-Plough Boeing
1~
---~-----·----------~-~-----¡
Los ingresos anuales, en el año 2000, ele algunas empresas fueron:
.¡·
·1
,
! ¡
¡ 1 1 1 1
.
l
1 1
a) Tomando 1991 como periodo base y 100 como valor base, determine los índices correspondientes a 1999 y a los datos preliminares de 2000. Interprete el índice. b) Use como base el promedio de 1991, 1992 y 1993, y determine los. índices correspondientes a 1999, y los datos preliminares de 2000 usando 100 como valor.base. Interprete el índice. o) ¿Cuál es el índice correspondiente a los datos pre!imina1·es de 2000 usando ·1995 como ba-
1
1 'I
Í
!
1
il
se?
I,~-~~~---- ·--- --~~------~-~-_:,____~--~-~-~~ --~--~---~~---~~--~--.~-~----~--~~~--~~!
~j e!-~_i5::i ?~. 1. Un banco otorgó $17 446 (millones ele dólares) de préstamos comerciales en 1995, $19 989 en 1997 y $2'1 468 en 1999. Tomando 1995 como base, determine un índice simple de la variación en el monto de los préstamos coíllerci'ales .en 1997 y 1999. 2" En la tabla siguiente se muestran !os precios ajustados de determinadas acciones en los últimos años. Determ!ne un índíce to1nando como base 1995, para la variación en el precio de las acciones durante e! periodo.
Afio
Precio al final del año
-¡995 1996 rn91 1998 1999
$10.03
n.oo 20:17 40.33 55.63
3. En Ja tabla que se da a continuación se encuentran las ventas de í 995 a 1999 de una empre-
sa de venta por catálogo. Su sitio en la red es VtJV11vv.biair.com. Use el pron1edio de ventas de
662
Capítulo 18 los primeros tres años para determinar una base y clespués encuentre \os índices correspondientes a 1998 y 1999. ¿En qué cantidad han aumentado las ventas desde el periodo base?
Año
Ventas (millones de dólares)
1995 ·1995 1997 1998 1999 2000
$560.9 544.1 486.6 506.8 522.2 574.6
4. En enero de 1994 el precio de un pollo fresco entero era $0.899 (dólares). En septiembre de 2000 el precio del mismo pollo era $1.032. Tome enero de 1994 como periodo base y 100 como valor base para determinar un índice simple. ¿En qué porcentaje se ha incrementado e\ costo del pollo?
Índices no ponderados En muchos casos se desea combinar varios elementos y elaborar un índice para comparar el costo de un grupo de artículos en dos diferentes periodos. Por ejemplo, si se desea un índice para elementos relacionados con los gastos de uso y mantenimiento de un automóvil, los elementos en el índice podrían incluir llantas, cambios de aceite y precio de la gasolina. O tal vez interese un índice de gastos de estudiantes universitarios. Este índice podría comprender el costo de libros, colegiatura, vivienda, alimentación y entretenimiento. Existen muchas maneras de combinar los elementos para determinar el índice.
Promedio simple de índices de precios La tabla 18.2 muestra los precios (en dólares) de diversos productos alimenticios en los años 1995 y 2001 (en EUA). Se desea desarrollar un índice para 2001 de este grupo de alimentos, tomando 1995 como base. Esto es: 1995 = "IOO. TABLA 18.2 Cálculo del índice para precios de aliinentos en 2001, con 1995::::: 100. Artículo
Precio en 1995 Precio en 2001
Pan blanco, costo por libra Huevos, docena Leche, galón Manzanas, una libra Jugo de naranja concentrado, i 2 onzas Calé, 100% tostado, 1 libra
Total
$ 0.77 1.85 0.88 1.46 1.58 4.40
$ 0.89 1.84 1.01 "l.56 1.70 4.62
$10.94
$11.62
Índice simple
115.6 99.5 ·114.8 106.8 107.6 105.0
Se puede comenzar calculando un promedio simple de Jos índices de precios para cada artículo, tomando 1995 como año base, y 2001 como el año dado. El índice simple del pan es 115.6, obtenido con la fórmula (18.1).
p
~ fJ_t_ (100) = ~ 0 · 89 Po
$0.77
(100)
= 115.6
El índice simple para los demás artículos de la tabla 18.2 se calcula de forma similar. El pan tuvo el mayor aumento de precio que fue 15.6%, y en segundo lugar estuvo el incremento en el precio de la leche con 14.8%. El precio de los huevos disminuyó 0.05% en el perlo-
663
Números indice
do, obtenido de 100.0 - 99.5 = 0.5. Después simplemente se promedian los índices simples. La fórmula es:
PROMEDIO.Sll\llPLE DE /··· \ >< ···· · .. ·LÓS.ÍNDléESDEPREélOSRELATIVOS··c• > donde P, se refiere al índice simple para cada uno de los artículos, y En este ejemplo el índice es 108.2, que se obtiene de:
p
= LP, = n
115.6 + ·
· . + 105.0 =
649.3
6
6
n al
número de éstos.
= 108 2 ·
Esto indica que la media del grupo de índices aumentó 8.2% de 1995 a 2001. Una característica positiva del promedio simple de los índices de precios es que el índice tiene el mismo valor sin importar las unidades de medición. En el índice anterior, si las manzanas se cobraran por tonelada, y no por libra, el impacto de las manzanas en el índice combinado no variaría. Esto es, el artículo "manzanas" representa uno de seis artículos en el índice, así que el impacto del artículo no está relacionado con las unidades de medida. Una característica negativa de este índice es que no considera la importancia relativa de los artículos incluidos en el índice. Por ejemplo, la leche y los huevos reciben la misma ponderación, aunque una familia normal gasta más -en un año- en leche que en huevos.
Índice agregado simple Una segunda posibilidad es sumar los precios para los dos periodos (en lugar de los índices)
y después determinar el índice con base en la suma. La fórmula es: [18.3] Esto se llama un índice agregado simple. El índice para los alimentos anteriores se encuentra sumando los precios en 1995 y 2001. La suma de los precios en el periodo base es $10.94 (dólares) y para el periodo dado es $11.62. El índice agregado simple es 106.2. Esto significa que el grupo agregado de precios ha aumentado 6.2% en el periodo de seis años.
p
=
Lp, (100)
LfJ,
=
11 62 $ · (100) $10.94
= 106.2
El valor de un índice agregado simple no se usa frecuentemente debido a que las unidades de medida pueden afectarlo. En el ejemplo, el valor del índice variaría significativamente si el precio de las manzanas se diera por tonelada, y no por libra. Además, nótese el efecto del café en el índice total. Tanto en el año actual, como para el año base, el valor del café está cerca de 40% del indice, así que una variación en el precio del café modificaría al índice mucho más que el de cualquier otro artículo. De modo que se necesita un medio dirigido a «ponderar» adecuadamente los artículos de acuerdo con su importancia relativa.
Índices ponderados Existen dos métodos para calcular un índice de precios ponderado: el método de Laspeyres y el de Paasche, los cuales difieren sólo en el periodo utilizado para la ponderación. El método de Laspeyres emplea las ponderaciones del periodo base; es decir, los precios y las cantidades originales de los artículos comprados se utilizan para hallar el cambio porcentual respecto a un periodo o intervalo de tiempo, tanto en precio como en cantidad consumida,
664
Gapí!LIIO 18 clepenclienclo del problema. El método ele Paasche utiliza las ponderaciones del a11o actual para el denominador del índice ponderado.
Índice de precios de Laspeyres A fines clel siglo XVIII, Etienne Laspeyres ideó. un método para determinar un índice ponderativo usando ponderaciones de periodo base. Al aplicar su método, un índice de precios ponderado se calcula mediante:
ÍNDICE DEP!'!EC!OS DE LASPEYRES donde: P es p, es p0 es q 0 es
el el el la
[i8.4]
J
índice de precios. precio actual. precio en el periodo base. cantidad consumida en el periodo base.
Los precios de los seis artículos alimenticios de la tabla 18.2 se indican abajo en la tabla 18.3. Además se incluye el número de unidades consumidas de cada uno por una familia normal en 1995 y 2001.
TABLA'i8,3 Cálculo ele los índices. de Laspeyres y de Paasche de precios de aliinentos (en dólares); 1995 = l 00.
Precio Articulo
en 1995 .
Pan b!anco, !ibra Huevos, docena Leche, galón Manzanas, libra Jugo de naranja concentrado, 12 onzas Café tostado, 100°/o puro tostado, una !ibra
.
.
.
$0.77 1.85 0.88 1.46 1.58
4AO ...
-
.
Cantidad en 1995
Preclo en 2001
Cantidad
50 26 102 30 40 12
$0.89 1.84 1.01 1.56 1.70 4.62
55 20 130 4G
.
.
.
..
en 2001
4·1 12
·-
Determine el índice ponderado de precios usando el. método de Laspeyres. Interprete el resultado.
SOLUCIÓN
Se determina primero el gasto total. en los. seis alimentos en el periodo base 1995. Para encontrar este valor se multiplica el precio del pan en ese periodo ($0.77) por el consumo en dicho periodo (50). El resultado es $38.50 (dólares). Esto indica que se gastó un total de $38.50 en pan en el periodo base .. Se continúa así para todos los artículos, y se suman los resultados. La suma del periodo base es $336.16. La suma del periodo actual se calcula de forma similar. Para el primer artículo, pan, se multiplica la cantidad en 1995 por el precio del pan en 2001, esto es $0.89(50)« El resultado es $44.50. Se hace el mismo cálculo con cada articulo y se suman los resultados. El resultado es $365.60. Debido a la naturaleza repetitiva de estos cálculos, una hoja de cálculo es muy útil para llevar a cabo las operaciones. A contlnuación se presenta una ventaná de resultados de Excel.
665
c'antufr:l-0!. PreciüOf'Cont1daU95 114 5 55 21]1
i30 4 62
47.fM
iD3 02
'm
,¡r:;g
.11
68
12
55_,¡4 :;G5G
El índice de precios ponderado para 2001 es 108.8, que resulta de
!
365 6
p = Zp,q, (100) = · 2. (100) = 108.8 Ip 0q, t¡;336.16 Con base en este análisis, se concluye que el precio de este grupo d.e alimentos aumentó 8.8% en este periodo de seis años. La ventaja de este método sobre el del índice agre-
gado simple es que se considera la ponderación de cada uno de ios artículos. En el índice agregado simple el café tenía cerca de 40% del valor ponderal al determinar el índice. En el índice de Laspeyres el artículo con mayor peso es la leche, porque el producto del precio por la cantidad vendida es el mayor.
Índice de precios de Paasche La principal desventaja del índice de Laspeyres es que supone que las cantidades del periodo base siguen siendo realistas en el período dacio. Es decir, que las cantidades empleadas para Jos seis artículos son casi las rr1ismas en -¡ 995 que en 200í. En este caso nótese que la cantidad comprada de huevos disminuyó 23%, la cantidad de leche aumentó casi 28%, y el número de 1nanzanas subió 33%. El índice de Paasche es una alternativa. El procedin1iento es similar, pero en vez de usar los pesos periodo base, se emplean los pesos del año actual. Se usa la suma de los productos de los precios en 1995 y las cantidades en 2001. Esto tiene la ventaja de usar las cantidades más recientes. Si hay una variación en las cantidades consun1ídas desde el periodo base, ésta se refleja en el índice de Paasche.
ÍN!JnCE OE PREC!OS OE PAASCl-!E
666
EJEMPLO
Emplee la información de la tabla 18.3 para determinar el índice de Paasche. Argumente cuál de los índices se debe usar.
SOLUCIÓN
De nuevo, debido a la naturaleza repetitiva de los cálculos, se emplea el prograrna Excel para hacer !os cálculos. La pantalla de resultados c\e.Excel se muestra a continuación.
El índice de Paasche es 109.4.. que se obtiene de
p = Ip,q, (100) = ~ 404 · 59 (100) = 109.4 I,p 0q, $369.73 Este resultado indica que, entre 1995 y 2001 ha habido un incremento de 9.4% en el precio de esta canasta de productos. Esto es, en 200i cuesta 9.4o/ó más comprar estos artículos, que lo que costaba en 1995. Considerando todo lo an'terior, debido a la variación en las cantidades compradas entre 1995 y 2001, el índice de Paasche refleja mejor la situación actual. Conviene indicar que el índice de Laspeyres se usa más frecuentemente. El Índice de Precios al Consumidor, es un ejemplo de un índice de Laspeyres.
¿Cómo se decide qué índice usar? ¿Cuándo es más apropiado ei ele Laspeyres, y cuándo el de Paasche? laspeyres Ventajas
Desventa.¡ as Paasche Ventajas
Requiere datos de cantidad sólo de! periodo base. Esto permite una mejor cornparación corrforme pasa et tie111po. Los cambios en el fndice pueden atribuirse a cambios en el precio. No refleja cambios en los patrones de compra conforme pasa el tien1po. Además, podría ponderar en más los artículos cuyos precios aumentan. Debido a que se utilizan cantidades del periodo actual, refleja los hábitos actuales de co111pra.
667 Desventajas
Requiere datos de cantidad de cada año, !o cual puede ser difícil de ob-
tener. Debido a que se emplean diferentes cantidades cada año, es imposible atribuir can1bios en el índice únicamente a cambios en el precio. Tiende a ponderar en n1ás los artículos cuyos precios han bajado. Requiere que los precios se recalculen cada año.
Índice ideal de Fisher Como se obseivó antes, el índice de Laspeyres tiende a ponderar en exceso los artículos cuyos precios han aumentado. E! índice de Paasche, por otro lado, tiende a ponderar en exceso los productos cuyos precios se han reducido. Para tratar de compensar estas fallas, frving Fisher, en su libro T/Je Malüng of lndex Numbers, publicado en 1922, propuso un indice lla· mado Índice ideal de Fisher. Éste es la media geométrica de los índices ele Laspeyres y de Paasche. La media geométrica se describió en el capítulo 3, la cua! se deter111ina sacando la k ésima raíz del producto de k números positivos.
J
Índice ideal ele Fisher =Y(lhdice dé t.aspeyres)(ln_d_ic_e_de_P_a_as_c_h_e_J__!_iB.6]
El índice de Fisher teóricamente parece ser ideal porque combina !as mejores caracterís-
ticas del de Laspeyres y ele/ de Paasche. Esto es, equilibra los efectos de los dos indices. Sin embargo, casi no se usa en la práctica porque tiene los mismos problemas básicos que el índice de Paasche. Requiere que se determine un nuevo grupo de cantidades cada año.
EJEMPLO
Determinar el índice ideal de Fisher para los datos en la tabla 18.3.
SOUJCIÓN
El índice ideal de Fisher es 109.1. Índice ideal de Fisher= \!(Indice de Laspeyres)(lndice de Paasche) = v(1 os.s)("i09.4J = 109.1
r--
1 Autoexamen 11l.2
1
rapa
1995
Artículo
L
1 1
Se va a ob_tener un índiCe ele precios de para 2002 con base en í 995. Las prendas consi9._ eradas: Son zapato~ y vestidos. Los pre,cioS _(en dólares) y las cantidades consumidas en ambos años se muestran a continuación. Use ·¡995 como periodo base.
2002
Pl'ecio
Cantidad
Precio
$75 40
500 ·1 200
$85 45
-,1
Cantidad 520
1
~-~.!
a) Oetermine.:el promedio.simple de Jds í1idicés de Précios. b) Determin~.los índices agregados de preci,os ·para !Os dos años.
e) Determine el índice de precios de Laspeyres. d) Determine· el índice de precios dÉ! PaasChe. e) Détermine el índice ideal de Fisher.
J
-----~.---·_,_.-----~·______
668
Ejercicios En los ejercicios 5 a 8: a) Determine los índices simples de precio. b) Calcule los ínclices agregados simples de !os precios para los dos af1os. e) Determine el índice de prec:os ele Laspeyres. d} Determine el índice de prec;·os de Paasche. e) Determine el índice Ideal de Fisher. 5. A continuación se encuentran los precios (en dólares) de dentífrico (9 oz), cha111pú (7 oz), tabletas antigripales (paquete de 100) y antitranspirante (2 oz) para agosto de 1998 y agosto de 200i. Además se incluyen las cantidades compradas. Use agosto de 1998 como base.
Agosto 1998
Precio
Gmculo
Agosto 2001
cantidad
Precio
Cantidad
6 4 2
$2.69 3.59 1.79 2.29
6 5
' Dentífrico $2.49 Champú 3.29 Tabletas antigripales 1.59 Desodorante 1.79
3
3 4
6. Los precios de fruta (en dólares) y cantidades consu1riidas en 1995 y en 200·1, se presentan en seguida. Use 1995 como base.
1995
J
2001
Fruta
Prer.lo
Cantidad
Precio
Cantidad
Plátanos (libra) Toronja (pieza) Manzanas (libra) Fresas (canasta) Naranjas (bolsa)
$0.23 0.29 0.35 1.02 0.89
100 50
$0.35 0.27 0.35 1.40 0.99
120 55 85 10 8
85 8 6
7, A continuación se indican los precios (en dólares) y las cantidades de diferentes artículos producidos en una pequeña fábrica de artículos industriales. Use 1995 como base.
~r!iculo Roldana Chaveta Perno Tuerca hex
1995
Precio $0.07 0.04 0.15 0.08
2001
Cantidad
Precio
Ganfülad
ººº ººº
$0.10 0.03 0.15 0:10
20 130 42 65 000
17 125 000 40 62 000
ººº ººº ººº
8, A continuación se encuentrar. las cantidacles y precios (en dólares) para !os años i 995 y 2001 para una err1presa de artículos médicos. Use 1995 como el periodo base.
1
Artículo
Jeringas (docena) Termómetros (pieza) Advil (botella) Formas de registro (caja) ( Papel para comput. (caja)
1995
2001
Precio
Cantidad
Precio
Cantidad
$ 6.10 8.10 4.00 6.00 12.00
í 500 10 250 1 000 30
$ 6.50 8.90 4.40 6.50 13.00
2 000 12 250 900 40
669
Números í"dice
Índice de valor El índice de valor mide el cambio porcentual en valor.
Un índice de valor mide cambios tanto en los precios. como en las cantidades que intervienen. Un índice de valor, como el índice de ventas de una tienda departamental, necesita los precios originales del año base, las cantidades originales del año base, los.preci 0 $ del año presente y las cantidades del año presente. Su formula es:
ÍNDICE DE·'IAlOR
[18;7J
Los precios (en dólares) y las cantidades vendidas en una tienda departamental, en mayo de 1995 y mayo de 2001, fueron:
Usando mayo de 1995 como el periodo base, ¿cuál es el índice de valor para mayo de 2001?
SOUJCIÓN
Las ventas totales en mayo de 2001 fueron $10 600 000 (dólares) y la cifra equivalente en 1995 fue $9 000 000 (véase la tabla 18.4). En consecuencia, el indice de valor para mayo de 2001, con.siclerando 1995 = 100, resulta ser 117.8. El valor de las ventas de ropa en 2001fue117.8% de las ventas en 1995. En otras palabras, el valor de las ventas de ropa subió 17.8% de mayo de '1995 a mayo de 2001.
V= 'Zp,~ (100) 'Zp,q,
=
$'!0 5 00 OOO ('!00) $9
ººº ººº
= 117.8
TABL/\, 18.4 Cálculo de un índice de valOrpara 2001(1995==100).
r-Precio en 1995, .Artículo Corbatas (una) Trajes (uno) Zapatos (par)
Cantidad
Cantidad vendida en 1995 (miles de dóiares),
Paffo (miles
Po $1
%
de dólares)
1 000
$1 000
30 10
100 500
ººº $9 ººº
3 5 000
Precio en 2001,
P, $ 2 40 8
vendida en 2001 (miles
de dólares), q, 900 120 500
P1qt (miles
de dólares)
$ '1800 4 800
4
ººº
$10 600
670
Autoexamen 18.3
Capítulo 18
El número de artículos producidos en una empresa industrial en 1996 y 2002, y los precios (en dólares) _de ventas al r:nayoreo para los dos periodos son:
Precio
Cantidad
Artículo producido
1996
•200Z
1996
Pasadores (caja) Compuesto especial (libra) Acopladores (pieza)
$ 3
$4
10 000
1 10
5 8
600 3000
2002 9
ººº
200 5000
a) Calcule el índice del valor de producción en 2002 usando 1996 como el periodo base. b) Interprete el índice.
Ejercicios 9. Los precios (en dólares) y los rnveles de producción de cereales en agosto de 1995 y agosto de 2001 son:
en 2001
Cantidad producida en 2001 (millones de bushels)
$1.87 2.05 1.48 3.29
214 489 203 106
Cantidad
producida
Cereal
en 1995
en 1995 (millones de bushels)
Avena Trigo Maíz Cebada
$1.52 2.10 1.48 3.05
200 565 291 87
Precio
Precio
Usando 1995 como el periodo base, determine el índice de valor de los cereales producidos para agosto de 2001. 10. La empresa Johnson Wholesale Company fabrica varios productos. Los precios (en dólares) y las cantidades producidas en abril de 1994 y abril de 2001 son:
Producto Motor pequeño (unidad) Compuesto limpiador (galón) Clavos (libra)
Precio
Precio
Cantidad producida
Cantidad producida
1994
2001
199~
2001
$23.60 2.96 0.40
$28.80 3.08 0.48
1 760 86 450 9 460
4 259 62 949 22 370
Considerando abril de 1994 como.el periodo base, evalúe el índice del valor de los artículos producidos en abril de 2001.
Índices para propósitos especiales Muchas organizaciones privadas elaboran y publican índices importantes. La J.D. Power & Associates (en EUA) hace encuestas a los compradores de automóviles para determinar qué tan satisfechos están los clientes con su vehículo después de un año de haberlo adquirido. Este índice especial se llama Índice de Satisfacción del Consumidor. Las instituciones financieras, compañías de servicios públicos, y organismos universitarios de investigación elaboran con frecuencia índices acerca de empleo, tiempos laborales, sueldos y salarios, y ventas al menudeo, en las regiones a las que prestan sus servicios. Muchas asociaciones comercia-
671
Números índice
les determinan índices de precios y cantidad que son muy importantes para su área particular de interés. ¿Cómo se calculan estos índices especiales? Un ejemplo simplificado ayudará a explicar algunos de los detalles.
EJIEMPUJ
La Cámara.de ..Comercio de Seattle quiere desarrollar una medida de la aciividad empresarial general de la región noroeste de Estados Unidos. Al director de Desarrollo Económico se le encarga calcular el índice. Se denominará Índice de Actividad Empresarial General del Noroeste.
SOLUCIÓN
Después de pensar e investigar mucho. el director ha concluido que deben considerarse cuatro factores: las ventas regionales de tiendas departamentales (en millones de dólares), el índice de empleo regional (que tiene como base 1990 y lo informa la Commonwealth de Washington), los fletes o envíos en camiones (en millones) y exportaciones en el puerto de Seattle (en miles de toneladas). En la tabla 18.5 se presenta información reciente sobre estas variables.
TABLA 18.5
Datos para calcular el índice de actividad e1npresaria] general del noroeste de EUA. Ventas en tiendas departamentales
indice de
Año 1990 1995 2001
20 41 44
100 110 125
empleo
fletes eíl camiones Exportaciones 50 30 18
500 900 700
Después de efectuar revisiones y consultas, el director asignó ponderaciones de 40% a las ventas de tiendas departamentales, 30% a empleo, 10% a fletes en camiones y 20% a exportaciones. Para desarrollar el Índice de Actividad Empresarial General del Noroeste para el año 2001, con 1990 = 100, cada valor de 2001 se expresa primero como un porcentaje con el valor de periodo base como denominador. Por ejemplo, las ventas en tiendas departamentales en 2001 se convierten en porcentajes mediante ($44/$20)('100) = 220. Esto significa que las ventas en dichas tiendas han aumentado 120% en el periodo. Tal porcentaje se ajusta después mediante la ponderación adecuada. Para las ventas en los establecimientos departamentales resulta (220)(0.40) = 88.0. Los detalles de los cálculos para los años 1995 y 2001 se muestran a continuación:
2001
1995
Ventas departamentales Empleo Fletes en camiones Exportaciones Total
($41/$20)(100)(0.40) = 82.0 (110/100)(100)(0.30) = 33.0 (30/50)(100)(0.1 O) = 6.0 (900/500)(100)(0.20) = 36.0 157.0
($44/$20)(100)(0.40) (125/100)(100)(0.30) (18/50)(100)(0.10) (700/500)(100)(0.20)
= 88.0 = 37.5 = 3.6 = 28.0 157.1
El Índice de Actividad Empresarial General del Noroeste en 1995 es 157.0, y para 2001, 157.1. Interpretándolos se tiene que la actividad empresarial aumentó 57.0% de 1990 a 1995, y 57.1 % desde el periodo base de 1990 hasta 2001.
Como se mencionó al inicio de esta sección, hay muchos índices de propósito especial. Los siguientes son algunos ejemplos.
El Índice de Precios al Consumidor La Dirección de Estadística Laboral de Estados Unidos publica mensualmente este índice. Describe la variación en el precio, de un periodo
672
Capíiulo 18 a otro, de una "canasta" de bienes y servicios. En !a sección siguiente se verá su historia en
detalle y se presentarán algunos de sus usos. Esta información se puede obtener en W\1VW,b!s.gov/data.hon1e.htrn, presione Price y seleccione Consumar Prlce lndex~An Ur-
ban Consumers. Se pueden elegir distintos periodos. A continuación se presenta un resumen reciente.
,,. s~,¡"
'.•·. .•··.¡.
ID: ('.ITTJ'R0000SA0
.
Hot!'!e"'"'1"Uy Adj"'t~d
./\roa:ü.5
tity«~er.ge
ltem:JlJlitems Ba,. Pe
Data:
¡;;;;;;;.: .fax, -- --·y-;i,-
·
j
1
·:-~i~~- ;-,:._-¡.-r--iM~Y-iJ~;;·r Jcl-;A~g·::·ie·p·· :'"O~;-·:N~·~-;-5;~-~ _;:,·,¡;-
ií998-[i-.S-1~G --¡i-6i~9
- ;162.-2-- ;i62:5 [i62.3[1-6üiTt.63~2,ii6i4-!1-6~6!Ti4-iJ fl64~0-ii' ó3~9-¡f63~0 ·;i99·~-¡¡ r,~·:i- -·-¡i·¿,¡_;,-- - iló5_ 0_ . ___ !¡,;;;·2·-:1~6-_2j iti:'.i !'16T1' !1Ci?: f ;-ú;-i. 9116ii-2 h. 5ii: 3)i 6"i 3;·1-66 ·¿ -~000 r¡;s&¡¡ ·- ·rf;9·g-- :11r2·-·,:¡7-¡-:3 fi7t5 rD2 4i172~8)"i72~8_!'i7i7. ~74.-o;n;;:J-\174~0;J72~2 iióOi í1'1~-d~;;-~¡;;J~b1~·¡:~;-;¡~;-y-;;~~i
El Índice de Precios al Productor. Formalmente llamado Índice de Precios de Venta Total, data de 1890 y es también publicado por la Dirección de Estadística Laboral de EUA. Este índice refleja los precios de más de 3 400 artículos. Los precios se obtienen de los vendedores de los artículos y generalmente se refieren a la primera transacción de gran volumen del artículo. Este es un índice de Laspeyres. Esta información se puede obtener en www.b!s.gov/datahome.htm, presiónese Price y elijase Producer Price lndex-Commodities, y después elfjase Finished Goods. Se pueden elegir varios periodos. A continuación se presenta una consulta reciente.
1 ~fot s"ª'~nrJly .1'1!ju1to-1
Gi·oup.
$¡~"
9fpror-.o,iJio;
ltem: flinL
.
l
Promedio Industrial Dow Jones (DJIA) Este es un índice de precios de acciones, pero quizás sería mejor decir que es un "indicador" y no un índice. Se supone que es el precio
673 medio de 30 acciones industriales específicas. Sin embargo, sumando las 30 acciones y dividiendo entre 30 no se obtiene su valor. Esto se debe a que se dividen o combinan acciones y a que se agregan unas acciones y otras se quitan. Cuando se presentan variaciones se hacen ajustes en el denominador que se usa para el pron1edio. Actualmente el DJIA es más un indicador psicológico que una representación del rnovimiento general de los precios en la Bolsa. de Valonis de Nueva York. Este índice se desarrolló como un promedio de todas las acciones en la citada bolsa de valores neoyorkina. Más información acerca del DJIA se puede encontrar en wvvvv.dovvjones.con1; se puede obtener su valor actual así como las 30 acciones que se usan para calcularlo. La historia del DJIA se encuentra en www.dowjones.com/ corp/index_average.htrn/. J..\bajo se muestra una consulta reciente.
~!!!!!!!!!!~ (·¡,!}·un~iJ,~1rnt1
¡,!S.WORTM', MICHAJ::L PJ!.lt; ¡_____
Índice S&P 500 Su nombre completo es Standard and Poor's Composite index of Stock Prices. Es un índice agregado de precio de 500 acciones comunes. Es quízá un mejor reflejo del meecado que el DJIA. En la página en la Red de Dow Janes se obtiene también información acerca del S&P 500. A continuación se presenta una consulta reciente.
674 Hay muchos otros índices que registran el cornportamlento de la industria y de \a economía, como por ejemplo el Nasdaq, el Russeil 2000 y el Wilshire 5000.
Autoexame.nJ !!A .
?_LJp_()_n,_Q<:(_c1,L1~----~-º.n:_o._b~_c_~~i?
. en.. _1a _D1recclón de, DeSairOllo Ecónómico del condado de Fulton, 58 !e pidió que déS8fíÜ!lé üri índlC8"'Ó'8"'USO-·-especía!.,para--esta-Tegión.-.,Parece que.. t_res__ se,r_ies económiciás parecen prorhetedóráS como base de un fíldlcé. Estos datos son el preclo del algodón (en dólares por libra), el nümero ele automóviles nuevos vendidos en el condado, y la tasa de círcUlación monetaria (publicada por el banco local). Después de discutir el proyecto con su sup8rviso(y:el director, usted decide _dar a !a tasa de circulación monetaria una ponderación d_t:\_.?·60,.__ _ a,I~ canti_\!11,~--9-~. q~1totTlóvi!_6s nuevo_s_yendlc:J_os,__una de 0.30, y al precio ele\ a!godón, una de 0.10, El periodo base es 1992.
l\iio. 1992 1998 2000
a)
----
Precio del algodón Autos vendidos $0,20 0.25 ü.50
1 1
Circulació11 monetaria
ººº
80 90 75
1 1200 900
Elabore el índice para 1998 y 2000.
b) Interprete estos índices.
Ejercicios 1i. El índice de los principales indicadores económicos principales, con1p\\ado y pubiicado por la Di1·ección Nacional de Investigación Económica de Estados Unidos (U .S. Natlona\ Bureau of Economic Research), se compone de i 2 serles de tiempo, como por ejemplo promedio de horas de trabajo en la producción industria!, de nuevas órdenes de fabricación y suministro monetario. Tal índice e índices similares están diseñados para moverse hacia arriba o hacia abajo antes de que la economía comience a desplazarse en !a m\sma fon11a. Por tanto, un economista tiene evidencia estadística para pronosticar tendencias futuras. Supóngase que se desea elaborar un indicador principal para el condado de Erie, Nueva York. El índice se basará en da:os de i 995. Debido al tiempo y a\ trabajo requeridos, se ha decidido utilizar sólo cuatro series de tiempo. Para experimentar, se se!eccionan las cuatro series siguientes del condado: desempleo, un índice compuesto de precios de acciones, el índice de precios d8! condado, y ventas al m·enucléo. Las siguientes son las cifras para 1995 y 200i.
1995 Tasa de clesempleo (%) Acciones combinadas inclice de precios locales (1982~100)
5.3 265.88 109.6
2()01
6.81 362.26 1 125.0
. Ventas al menudeo {m_u1_on_e_s_d_e_s_u_si_. __s_2_9_s_1_1_.o___ G22 864.0 1
1
j
Las ponderaciones asignadas son: tasa de desempleo, 20%; precio de acciones, 40%; Índice de Precios del Condado, 25o/o, y ventas a\ menudeo, ·15%. a} Uti!lzando 1995 como periodo base, elabore un Indicador económico principal para 2001. b) Interprete el índice principal obtenido. i2, Suponga que está empleado en la dirección de desarrollo económico del estado. Se necesita un índice económico principal destinado a revisar la actividad económica pasacla, y pronosticar tendencias econón1icas futuras en el estado. Decide que varios ·factores clave deben ser incluidos en e! índice: cantidad de nuevos negocios iniciados durante el afio, cantidad de negocios que fracasaron, recepción de pago de impuesto ·fiscal, inscripción en universidades, y recepción de pagos de impuestos sobre ventas en el estado. Los datos de í 99·1 y 2001 son:
675 2001
·¡ 088
Nuevos negocios Megoc\os fracasados fiecepción de impuestos fiscales (millones de dólaJes) Inscripción a universidacies 242 Recepción de impuestos sobre ventas (mi!lones rJe dólares}
1162
627
520
'191.7
162.6
119 ;fl.6
290 841 39.9
a) Decida qué ponderaciones api\car a cada artículo que entra en e! índice principal. b) Calcule e! indicador econón1ico principal de 2001 . e) Interprete los índices.
Índice de precios al cons1unidor Existen dos índices de precios al consumidor.
En las páginas anteriores se ha rnencíonado con "frecuencia el Índice de Precios al Consumidor (iPC), el cual n1ide !os carnbios en los precios de una canasta básica fija de artículos y servicios en el mercado, de un pedodo a otro. En enero de i 978 la Dirección de Estadísticas Laborales de EUA, inició la publicación de dos índices IPC (o CPI) para dos grupos de población. Un índice para los consumidores urbanos, !!amado IPC - Todos los Consun1idores Urbanos, que cubre 80% de la pob!ación total. El otro índice es para los empleados de servicios urbanos y de oficina, que cubre aproximadamente 32% de la población total. En resumen, el lPC cumple con varias ·funciones importantes. Permite a los consumidores determinar ei grado de deterloro de su poder adquisitívo por el aumento en los precios. A este respecto, es un criterio para la revisión de sueldos y salarios, pensiones y otros tipos de ingresos, a fin d.e mantener el paso con los cambios en los precios. lgualn1ente importante, es un indicador econó111ico de la tasa de inflación en Estados Unidos. El índice incluye cerca de 400 elementos, y unos 250 inspectores recopilan mensualmente los datos de precios. Los precios se obtienen de más de 2í 000 establecin1ientos de comercio al menudeo, y de 60 000 unidades habite.cionales en 9i áreas urbanas del país. Los precios de cunas para bebés, pan, cerveza, cigarros, gasolina, cortes de cabei!o, tasas de interés hipotecario, honorarios médicos, impuestos y cargos por uso de salas para cirugía, son sólo algunos de los eien1entos que se incluyen en lo que se ha denominado con frecuencia "canasta básica" de bienes y servicios que se consumen. El IPC se originó en 1913 y se ha publicado en forma regular desde 1921 (en EUA). El periodo estándar de referencia (el período base) se l1a actualizado periódican1ente. A paiiir de la emísión del IPC de enero de 1999, el periodo base cambió a 1993-95 ~ 100. Los anteriores periodos base fueron i 982-84, -¡ 967, 1957-59, i947-49, i 935-39 y 1925-29. ¿Por qué es necesario cambiar la base? Los patrones de consumo cambian notablemente, y estos cambios deben reflejarse en el índíce. En la más reciente revisión incíuyen artículos ele co11sun10, como videograbadoras, computadoras personales y teléfonos celulares. Versiones anteriores del !PC no incluían estos a1iículos. A! caJ11biar !a base, el IPC capta los patrones de consumo más recientes. En realidad el !PC no es el único índice (en EUP,). Hay índices de precios al consumidor para las ciudades de Nueva York, Chicago, Seatt!e y At!anta (en Estados Unidos), así como para otras grandes urbes. Ta111bién hay índices de precios al consumidor para alimentos, ropa, atención rnédlca y otros conceptos. /-\ contínua.ción se rnuestran algunos de estos índices: "1982-84"" í 00, para ei año 2000.
676 A¡iiculo
!PC-ü.J
Todos los rniículos Alimentos y bebidas
172.2
Ropa y manutención Transporte Atención médica
168.4 -129.6 153.3 260.8
Vivienda
i69.6
Un examen detenido de esta lista muestra que un índice ponderado de todos !os elemen-
tos aumentó 72.2o/o desde 1982-84; la atención médica fue \a que más se incrernentó, 260.8%; y ei vestido y \a manutención subieron al n1enos 29.6%. La información más reciente acerca del IPC se puede encontrar visitando el sitio en la red de la BLS (Bureau of Labor Statistics) en http://stats.bls.gov/cpihome.htm
TJsos es1Jecia1es (1el Í1r~clice c~e Precios a~ Co11si11R1itelor Además de medir el cambio en los precios de artículos y servicios, ambos índices de precios a! consumidor tienen otras aplicaciones. El lPC sirve para determinar el ingreso personal rea! disponible, para deflacionar las ventas u otras series, para determinar el poder de compra de la unidad monetaria, y para evaluar el aumento en el costo de la vida. Se analizará primero el uso clel lPC para evaluar el ingreso real. Ingreso real.
Ingreso monetario.
Ingreso real Como ejemplo del significado y ei cálculo del ingreso real, supóngase para simplificar, que al presente el Índice de Precios al Consumidor es 200 con respecto a 1982-84 = 1OO. Por ejemplo, considere que la empleada María León ganó $20 000 (dólares) en el periodo base 1982, 1983 y 1984, y que tiene un ingreso actual de $40 000. Obsérvese que aunque su ingreso monetario se duplicó con respecto a! periodo base 1982-84, los precios que pagó por alimentos, gasolina, ropa y otros productos, también se
duplicaron. En consecuencia, e\ estándar o nivel de vida de ta! persona permaneció igual desde el periodo base hasta el momento actual. Los aumentos de precios han compensado exactamente el incremento en e! ingreso, de modo que su poder adquisitivo presente (ingreso real) permanece en $20 000. :Véanse los cálculos de la tabla 18.6.) En general:
[18.81
TABLA "H3.6
(~álculo
~o "1982-84 Año actual
del ingreso Ieal para
1982~84
y para el año actual.
IPC
ingreso 1nonetario
(1982-84 = 100)
ººº
100
40 000
200
$20
Ingreso real
$20
ººº
20 000
"'"''"~~
ingreso real
B~ 000 100
11001
40 000 $ (100) 200
1 1
Nlimems índice El ingreso deflacionario
y el ingreso real son iguales.
677
El concepto de ingreso real algunas veces se denomina ingreso def/acionado (o deflacionario) y el IPC es entonces el índice de deflación o def/acionador. También se le liama a veces ingreso en unidades monetarias constantes. En consecuencia. con objeto de determinar si el nivel de vida de la señorita León ha variado, se ha convertido su ingreso monetario a dólares constantes. Se encontró que su poder adquisitivo, expresado en dólares de 1982-84 (dólares constantes], permaneció en $20 000.
r~.ílioexam!m 1!l.5 ;~~~greso (en dólares) de Juan García después de deduccione:~~~:·;;C ~~1995 y de ;OQ -¡
l .l
1, Í
1 .
Año
1995 2000
Sueldo después de deducciones
ººº
$25 41 200
l
IPG (1982-84.~__1!l0l_j 152.4 172.2
1
.
!.'r,:.!¡
l 11
a) ¿Cuál fue el ingreso real de Juan García en 1995? b) ¿Y su ingreso real en 2000? e) Interprete los resultados.
1
l
1
J
L-~---~~---=-~-=-~=--~--=~~-,-~~-===-~~-----=,==--=~,,~-=·~~~~~~=~~~~~~~~-=J
La deflación en las ventas es importante para mostrar la tendencia en ventas "reales".
EJEMPIJ:J
Ventas deflacionadas También puede usarse un índice de precios para "deflacionar" las ventas o series similares de dinero. Las ventas deflaclonadas se determinan como sigue:
Las ventas de una pequeña empresa aumentaron de $875 000 (dólares) en 1982 a $1 482 000 en 1995, $1 491 000 en 1998, y a $1 502 000 en 2000. El dueño de la empresa se ha dado cuenta de que también los precios de la materia prima empleada han aumentado en este periodo, por lo que quiere deflacionar las ventas para determinar el aumento en los precios de la materia prima. ¿Cuáles son las ventas deflacionadas de 1995, 1998 y 2000 basándose en los dólares de 1982? Es decir, ¿cuáles son las ventas de 1995, 1998 y de 2000 expresadas en dólares constantes de 1982?
SOUJC:!Ólll
El Índice de Precios del Productor (IPP) es un índice publicado mensualmente en el Monthly Labor Review y que también se puede obtener de la página en la Red de la Dirección de Estadística Laboral (de Estados Unidos). Los precios que se incluyen en el IPP reflejan los precios que los fabricantes tienen que pagar por metales, caucho y otros elementos. De manera que el !PP parece ser un índice adecuado para deffacionar las ventas de los fabricantes. En la segunda columna de la tabla 18. 7 se dan las ventas de los fabricantes y en la tercera columna, el IPP. La columna siguiente muestra las ventas divididas entre el IPP. En la columna de la derecha se detallan los cálculos. Los resultados se muestran en la siguiente pantalla de resultados de Excel.
678
\18 .-:·:Oó.la;·rno5l;~te.. !;~-l~L;i~~"d~ 875Jl."D _wo: a75J1>Ji:i_.(ti75.ri&J11oonoo
'lentas
1w2
1ws_ 1A~2J1JJ9. 121.9 1993- 1.4S1!)90: 130.7. __2ü[)Q __ 1_,si:gooo, ... l3~-
_1,1_st1.?1~ct1_.1_a;10001127_.9r100
1.!40.780'{l.A91pr'.i0113'17)"!QO' 1.fJ@,406_.(1,$)2.(l()!l/138f_l!Xl
Las ventas reales han aumentado de 1995 a 2000, pero si comparamos las ventas en dólares constantes, éstas disminuyeron en dicho periodo. Es decir, las ventas deflacionadas en 1995 fueron $1158 718, y disminuyeron a $1088406 en el año 2000. Esto se debió a que los precios que paga la empresa por la materia prima aumentaron más rápidamente que las ventas.
¿Qué ha sucedido con el poder adquisitivo de su dinero?
Poder adquisitivo del dinero El Índice de Precios al Consumidor también se emplea para determinar el poder adquisitivo del dinero.
USO DE UN ÍNDICE · .• ·• P~f!A DE"(§Rl\lljNA.fl \>! E.L.PO[)ER APQ!JlSITllfO
P9qe,r.;agqui.s.itiv9,d~ldi~~rq,'1;¡~~ .· x . 1()0
EJEMPLO
Supóngase que el IPC de este mes es 200.0 (con 1982-84 = 100). ¿Cuál es el poder adquisitivo del dólar en el año 2000?
SOlUC!Ólll
Empleando la fórmula 18.10, el poder adquisitivo del dólar es 50 centavos de dólar, qµe se obtiene: Poder adquisitivo del dinero=
2 ~~.0 (100) = $0.50
El IPC de 200.0 señala que los precios se duplicaron de los años 1982-84 a 2000. En consecuencia, el poder adquisitivo del dinero se redujo a la mitad. Esto es, un dólar de 1982-84 vale sólo 50 centavos de dólar en el año 2000. En otras palabras, si alguien perdió $1 000 dólares en el periodo 1982-84, y los acaba de encontrar, sólo podría comprar la mitad de lo que pudo haber comprado en los años 1982, 1983 y 1984.
679
Números indice
El IPC se utiliza para ajustar salarios, pensiones, etc.
l\11!oexame11 '18.6
Ajustes al costo de la vida El Índ'1ce de Precios al Consumidor (IPC) también es la base de los llamados ajustes al costo de la vida en muchos contratos entre empresa y sindicato. La cláusula específica en el contrato, con frecuencia se conoce como "cláusula de escalización". En Estados Unidos, los ingresos de cerca de 31 millones de beneíiciarios de la seguridad social, de 2.5 millones de retirados militares y civiles, y 600 000 empleados del correo, son fijados de acuerdo con el IPC. El IPC también se emplea para ajustar los pagos de manutención y pensiones de niños, honorarios de abogados; pagos de compensaciones a trabajadores; rentas de aparta111entos, casas y edificios de oficinas; pagos de ayuda social, etc. Resumiendo, supongamos que una persona retirada recibe una pensión de $500 (dólares) al mes y el IPC aumenta 5 puntos, ele 165 a 170. Supóngase que por cada punto (porcentual) que aumenta el IPC, el beneficio de la pensión se incrementa i .0%, así que el au1nento mensual en beneficios será $25, lo que se obtiene por: $500(5 puntos)(0.01). Ahora el retirado recibiría $525 al mes.
Considérese que el Índice de Precios al Consumidor para el último mes es 174.0 (con 1982-84 ~ 100). ¿Cuál es el poder adquisitivo del dinero? Interprete el resultado.
1 1
Desplazamiento de la base Si dos o más series de tiempo tienen el mismo periodo base, pueden compararse directamente. Por ejemplo, supóngase que se tiene interés en la tendencia de los precios de alimentos y bebidas, viviendas, atención médica y dernás, a partir del período base de 1982-84. Obsérvese en la tabla 18.8 que todos los índices de precios al consumidor usan la misma base. Por tanto, puede decirse que los precios de todos los elementos combinados aumentaron 72.2%, desde el periodo base (1982-84) hasta el año 2000. En forma similar, los precios de vivienda aumentaron 69.4%; Ja atención médica, i 60.8%; etcétera.
TABLA 18.8 Tendencia en los precios al consnn1idor pan1 2000 (con 1982-84 = -100). Vivienda
Año
Todos los artículos
Alimentos y bebidas
Vestido
y n1anutención
Atención rnédica
1982-84 '1990 1995 2000
100.0 130.7 152.4 172.2
100.0 132.'I 148.9 168.4
100.0 128.5 148.5 169.6
100.0 124.1 132.0 129.6
162.8 220.5 260.8
imie
J
Sin embargo, surge un problema cuando dos o más series que se comparan no tienen el mismo periodo base. En el siguiente ejemplo se comparan los dos índices comerciales más empleados, el DJIA y el Nasdaq.
68()
Se quiere comparar las variaciones en e\ Promedio Industria! Dow Janes con los del Nasdaq. Los dos índices en los periodos seleccionados _se presentan a continuación.
----
-~---
Año
ir.dice Dow Janes Nasdaq
SOLUCIÓ~J
1995
"1998
5117.10 1 059.79
9181.40 2192.69
.. 1999 1"I 497.10 4 069.69
2000 10 797.99 2 470.51
De la información dada no se puede saber si los periodos base son los mismos, por lo que una comparación directa no resulta adecuada. Como se quiere comparar \as variaciones en los dos índices, lo lógico es tomar alguno de los años, por ejemplo ·1995 como base de ambos periodos. Para el Dow Janes, 5 1i7 .1 O será la base y para el Nasdaq la base es 1 059.79. Los cálculos para el Nasdaq 2000 usando i 995 = 100 son:
,
.
Indice=
2 470.51
.7 ( 1 059 9 1
oo) = 233. i
La siguiente pantalla de resultados de Excel da todo el conjunto de índices.
i-995!_
1SL
22-~,GIJ:
100.00 1,05Sl_79
100.00
1s-~9;
1·1 ,497.10'
5,117.10
4,CIG9.59
206.90
384.0i
2QOO: llJ,797 89
211.02
2,éCl.':á 2331 jC
Se concluye que en este periodo ambos índices han aumentado. El Nasdaq es el que ha aumentado más, 133.1% contra 11·1.0%. Ambos índices bajaron de 1999 a 2000, siendo mucho más notable la baja del Nasdaq. El diagrama siguiente obtenido de la sección financiera de Yahoo!, muestra una cornparación visual del Dow Jones y el Nasdaq. En el eje vertical se muestra la variación ele los dos a partir del año base, '1995. De esta gráfica se puede concluir que ambas medidas han aumentado en este periodo de cinco años, pero el Nasdaq ha crecido más. Obsérvese también la disminución de 1999 a 2000.
681
1
_J
J'"'"" ""O'·'''"""""·Y>hoo,ooo,
¡~~-~-~-- ~~~~~-~~---~--
!\~loexamen Hi]
~~~~--~~-~-~~~-----~·~¡
1. En el ejemplo anterior verifique que el índice de precios Dow Jones de 1998 es 179.43, empleando 1995 como periodo base. 2. Se van a comparar !as variaciones en la producción industrial y en los precios que han pagado !os productores por las materias primas desde í 982. Desgraciad.amente, el índice de producción industrial que mide las variaciones en la producción y ei Indice de Precios al Productor que mlde la variación en los precios de las materias prirnas, tienen distintos periodos base. El índice de producción industrial tiene a ·¡977 como periodo base, y el Índice de Precios al Productor tiene a 1982 co1110 periodo base. Desplace la base a 1982 y haga las dos series comparables. Interprete los resultados.
Índice de producción
industrial Año
1982 . 1987 1994 l997 2000
L
(1977 = 100)
115.3 129.8 142.8 172.3 185.6
Índice
de precios al productor (1982 = 100)
100.0 105.4 131.2 138.0
1 1
j /¡
~ 1
~
j J'
¡ 1 1 1 1 1 1 1 1 1
-~~-..~.·-~·~~·----~-J
Ejercidos í3. En diciembre de 2000 el sueldo pron1edio (en EUA) de las enfermeras tituladas con experiencia era $42 000 (dólares). El Índice de Precios al Consumidor para diciembre de 2000 fue 174.0 (con 1982-84 ~ 100). El sueldo anual promedio de una enfermera en el periodo base 1982-84 fue $19 800. ¿Cuál era el ingreso real de una enfermera de tal especialidad en 2000? ¿Cuánto ha aumentado el sueldo medio? i4. La Trade Union Association, de Orlando, Florida, determina continuarnente índices sobre los salarios por hora de diversas activídades técnicas. Por desgracia, no todos los índices tienen los
682 mismos periodos base. A continuación se presenta la infon11ación relativa a plorneros y electricistas. Desplace \os periodos base ·1995 y compare los aumentos ele los salarios por hora.
Pnoíl.í&HIS (i 991(] = 100)
aect!ílcistas {i 992 = 1üO)
~~~~~~~~~~~~~~.~
133.8
125.0 i 53,7
!59,4
i 5. En i 990 e! sueldo medio de n-1aestros en el Distrito Escolar de Ti nora (EUA) era $23 650 (dólares). Para i995 el salario medio :::i.umentó a $28 972 y en 2000 aumentó a $32 382. La Federación Estsdounidense de fVlaestros proporciona constantemente in'formación acerca de las tendencias en los sueldos de maestros en todo Estados Unidos. Su índice, que tiene base de i 990, 'fue i22.5 en i 995, y 136.9 sn 2000. Con1pare \o referente a \os maestros de Tino1·a, con las tendencias nacionales en esa área. i 6. A continuación se dan los ingresos rnensuales de un progran1ador de cornputadoras independiente, de i 995 a 2000. También 3e presenta un índice industrial para programadores de computadoras que señala la. tasa de inflación del salario en la industria. Dicho índice tiene como base 1990.
l:fio 1
1
Pago mensual {miles 1fie 1ílófia11es)
;~;~
125.0 134.8
1997
145.2
·¡993
156.6 168.8 179.6
1999 2000
imlicef (1990 = 100)
1
148.3 160.5 173.6 187.9 203.3 210.4
Calcule el ingreso real del prograrnador en este periodo. ¿Sus ingresos fueron a !a par con la inflación, o perdieron terreno?
llesun1en del capíb:ilo t
Un.olírO.éro índ\.ce n1_íde 1a V9-dacíón re!at¡va de un período a otro. A. Lasc1~rirlcipale's car,ac;terfst\cás· de uh índice sün: 1.- Es.:uo porcentaje; ·pero gen,e:ralmente se omite el sig_no pOrcentua!. 2. Tiene un perioclo base,
3. La mayor ¡)ár,té1.·.de !os indic~s- se aprüxíman a\ déclnio m·ás ·proXJmo· dé un-porcentaje.ta\ como í 53._í. 4. ·. ~a base de !a mayor.parte:·.4E},.lqs_índlces es-¡oo. B. L8?Tazanes para_c9lcula_r·,un írytJi_Qe. son: ·t Facílitq la compáración de series no semefant8s. 2~ ·s¡_·1os._ríúmeroS-~6íl-fnuY:·gr~ild8s1 _co~ ·f_re_cue.n,cia es más fác\\ comprender la Variación_ de- un fndice que !a de los números originales it Hay dos tipos de índices de precios: no ponderados y ponderados; A,, En un ínclice no ponderado no se conslc\eran las cantidades. "L En un índice simple se cornpara el pedodo):Jase· c;oo ·,el. periodo dado: P
=
p, X iOO
[18.i}
Po
donc_!e p1,_es e! p·r?C.lo. ele un:art{clilq_--en.el periocto actual, y p 0 es el.precio en el periodo.base. 2. En e! pron1edio simple dé \ndi.ces de prEJc\qs:.s$ . sµrflan: !os índiCés simples de cada artícü!o, ,Y: se diyide_ lLJegq: entre--E;! número .dt::_ art_ícu!os:; p
= l:P, n
[i8.2J
683 3. En. un índice.d.e·precíos agregado sín1ple, se suman !os precfos de los artículos y se comparan Jos resultados:·
P"" Zp, Po El. En
X
100
fl8.3]
U0 í.~?i.?e_.P.(}.~_c_!~~8:c_f _E_>e_Jo.m00;.GDJ~uenta_ las·._cantldacles,.,
· ··r. ·E1f_e1 metoélo
:ae 'LáSjJ8yÍés se usan tas cantí.dades del perlado· base, tanto en el perio-
do bElse, como en e! ·periodo 'dado. '}'
2~
P
= .Lf1t%
p
=
X 100 LPot--10 En el n1étodo de Paasche se usan..!aS cantidades del periodo actual.
Ep,q'C X 100 LPaC!t
[·18.5)
3. El índice idear de Flsher es la medi_a geométrica del índice·cte Laspeyres y el índice de Paasche. Índice. ideal de Fisher = 1/(lndiée de" Laspeyres)(lndice de Páasche)
¡·18.0]
c. Un índl~e de valor usa precios ycimtidades del período 6asEi y del periodo actual.
V= J-P,Cft.c
m.
Zpoqo •Elíndí.ce rnás ernpleado es e!Índice de Precios al c¡oh~umídcír (lflC). A~ B. C. D.
[i8.7]
Se:.u.s.a·.óon_fr~_cuencla par.a mo_st,rar·fa,tasa..d~: infla.ció.n en'Est.fldos Unidos. L.º- rep?rt_a n1ensua!merTte !a Dirección, i;te ,i:::st~dísti_sas L8:bofales de. Estados Unidos. Alo.lárgo ele i998 el periodo bas.e es 1982-84, pero desde ·1999, la base ca.mbió a 1993-95.
ES!á .ligadg con el sist~ma de Seguridad Social, así que cuando el IPG cambia, los beneficios ·ae "retiro· también c.:tmbfan.
de· rn·;m'!Oso >ecr""''"·º
Ejercicios del capítulo
_hi.storin$ dé qüii a los trahajúdoiTS se les pJgaÓ
i99G 1991 1.992 1993 1994 1 "1995 1996 '1997 1998 ·1999
542( 6.248 6903. 7203 7812 9•190 10899 11 89.5 12848 'i5 385
5 805 6199 . 6 85Q. 6.935 7'922 9 652 10 721 1íl 935 "1.1147 ·12 086
82-.2 . 82]
84.9 8L6 81.5 82.3 89.3 91.1 94.3 97.8
17. Refiérase a los dal~s de Johns6n &. Johnson. Use 1990 como el periodo base, y calcule un ín,
díce símp!e para ventas nacionales de- cada; año de i 996 a i 999. Interprete la tendencia ele !as Vehta·s nacion·ales: 18. Refiérase al grupo de datos de Johnson 8, Johnson. Use el periodo "1990-92 como base, y calcule un fndice simple de r.as ventas nacionales para cada año de "1996 a 1999.
684
Capítulo 1& i9. Consi_dere los datós de_Johnson & Johnson. Utilice 1990 co.rno periodo hasii, /c2.lqúl~L(n in: d_ice simple de ventas internacio_nales de cada año de 1996 a i 999 .. lnterpreJeJatenti~ncia de las ventas lnternactonal_es. _ . _ ._ . . __ _ . . _ ,·. ,_ :211_considere los _datos de Jo_hnson&John_sonc Utilice e\ periodo 1990-92 comq,b~~~·Ycalcu_ le un índic~ simp!_e d~- ventas_inte_rnacioriales _para_cad_a _año de_,.l996_·a i9_99-.{~r_Li'':_-_;: ··2·1·.Reliérase a-losdatos.. de Johnsoll .&. Jpbnoop....APlique_l990• qoll'loperiodo_•··~-~~"·Y,cal_cyleun indicesill'lplé del número de empleados para cada.año.dé'1996a.'1999:1[1terpr~te l~tenden· cia del número de empleados; ·. . . .< . . ·. . . · •·'·. · . 22. Refiérase al grupo de datos de Johnson & Johnson. Use el periodo 1990:92 coll'19 ba?ey calcule un indice simplepara el número de empleados para cada año d_e 1996.,¡t 199g. • . ··• La siguiente información es del informe anual de General _Electric Corporation (GE) en-1999: Año
Ingresos (mm. deiJS$)
Ganancias (por acción)
1995 1996 1997 1998 1999
70 028 79)79 90 840 100 469 111630
1.95 2.20 2.50
2.84 3:22
23. C::~loule unínci(ce si_mple,p¡,ra \os irygresos de GE. Use 199t)como_periodobase. ¿opép,uede ' conct_uir a,~erca ,~le _la :varlq._ción ~n tos-:ing:resos en el Periodo?_ · .. ...- _;_ .- ·_: _ "__ ·.:·:-- -;< _:·_:_: _ : --.-.· 24. C~lcule un índice simple para los ingresos de GE usandoelperiodoJ995;~7 coll'lo período base.. ¿Qué puede-:concluír' a_cerca de !as_v~riac_i_ones. de tos. ingres.o:s ·_en e!·_pf:!riado_? ,.---- _ .__ ,,25_; C~lc_ule un índisesill'lple par¡t la¡; gananci1995com?perio?obase. ¿Q~_é: p_u_é_tje ._C_()_~c_IL_lir .(l9~rc,~.-_P-~ JEt_.variaci<}p-_e.n. las__ Q~n~_r1cfas- por_ a_cción-,·_e~_, e\-_ peri_o_d_?? _ . . · 26 .. Calouleun í~di<:;e simple par'! las ganancias de GE usando el periodo 1995-97 oomcrperi.odo · __ b_~~?-_ ·_¿C)~_é :pued~._c,q_nc_!_uir,:.~c8rcfl._,d_E;tl_q var_iác_icJr,,,_~_n_ la·$ _$. ananyias por acc_i~n-_'en_:el_ period~? L~ Sf3cretar.la del'frabajci, del. gobierno d_e. Estado~ Vnidos, "'porte)· la siguiente información sobre productos alimenticios en los años 1995.y 200\ (prec\p.s en dqlares), 2001
1995
Arllculo Margarina(libra) Manteca (libra) lecili' (medio galón) Papas
Precio $0.81
Cantidad '18
0.84
5 70 27
l.44 2.91
Precio $0.89 0.94 1:43 3.07
Cantidad 27 9 65 33
27 .2a16u1e unh1di~~d~ pr~ci~~ sirlip1é paracadaiíri() .de los oüatro:~rticulos. l.Jse·1995cb_rno•el p~ri_gdo base. \ , ·.• · { , 2s,91cule.µr;iín9fse.de.P[ec¡o~.~g\~.$Ei?() simPIE.)-_Use·1995 como el. periodo oase. 29:.Determine el índice de predos cl~Las\Jeyresp~ra 2001 _empleando ··l 995•como el.periodo base. 3RcDetern1ine el índice de Paasr;hepar\'2001 c0 n 1.995 como el periodo base. ···.··•···· ''>''.··· 31. Df3termi~e elfndice ideal de Flsher utilizand8 l?svalores para los índices de Laspeyres y d¡;¡ ·. Paaschecal¡:;ulados .en los. dos problell'l~s '7Qteriores. 32; ·?btengauníndice devalor_pará 2qo·1 aplicando 1995._como él .p<'\rio.do·bas_e. Lá empr~sa Betts Electronics c9mpra tres refacci9nes para máquinas robots Litilizadas en. ~I pmceso de fab¡ioación.En seguida se presentaipformación sobre el precio (en dólares) de las relaccio nes y la cantidad· comprada.
PieGio
Canfü:lad
~arte
1995
2ó!Ít
RC-33 SM,14
$0.50. .ic20
WC50
0.85
$0,60 0.90 1.00
1995 320 110 239
2001 340 130 250
Números índice
685
'33, CalculeunJndice clepreeíos simple para éada. u.nodE¡ los tres artículos. Use 1995 como periodo· base; 24,.calcúle un índice de précibs agregado simple P?ra 2001', Use 1995 como periodo base. 35. Obteng.a el índice de precios de taspeyres para20Q1 empleando 1995 como periodo base. 36.. 0btenga effndice de Paasche para 2001 con.1995 como el periodo base. 37. Determine el···índic,e·. icleal de. Fisher aplic!lndoJos valores delos .índicesdetaspeyres y dé ·· Paa$chtft:a1Cúfadbs"9ril0s' dOS-'. PrOb!e.mas·;anteriores.' 38, Determine un í,ndíce de valor pa.ra 2001 con c!995 como el periodo base. los, ptecios de·algunos alimen.tos (en dólares) en 1.995 y 2001. se present¡¡n en.la siguiente tabla:
Pí6cio 1995
$0.Qp. Col Qibra) Zanahorias,(manojo) 0.10 . Chícharós(cuartHlo) Íl.20 Escarola (n;anojo) 0'.15
Cantidad
2001
1995
2001
$0.05 0.12 0.18 0.15.
:!0.00 200 400 .100
1 500 200 500 200
ª. .
0 3.·.···9. •• . Cal.c.yle·.u···º·Jn··· d. ice.d.ep.recios si1n,pl.e pa. ra. a·d····ª uno··.d.eI·o·s···.·c.··'.'. '.·.·.·r.º.·. artículos. Us.e ...1995 como pé-
fodq q~e;e.,,
>· . · .·. . • •, ., ••i
.
• ......
< ...•..
.4o1 Cal9L1le uQ)ndite d!'P[eplme ¡¡gregaclº.?imPle•• qseJ~95 comQ periodo base:
41. Obtenga el.indice de precios ge 1:a;;peyresp¡¡ra 2001.utjliz.~ndo 1995 como periodo base. 42', C)b\en9ael.ínclice . d.~ Paasclíep~ra,:2001.con19~5 comq el periodo base. <4,3.peterniine el ínqicejde· ·: ·. ·•. .. ·• 44, 06cte.tmi~eyn ín?i~e ~e. válor PEira ?P01 usando 199() .º?íllº ~I periodo base. A continuación se présentan los precios (en .dólares) <:Je algun~s)Jrtfculos; en 1980 y 2001. También se incluye·~ las cantidad~s de pr9ducción enambos periódos.
..
Precl{l
cantidad 200·1
2001
1980
$ 0.287 0.17 3.18
.133.oo·
1980
·. $. 0.76 250
1Doo
26.00 490.00
60000 500
5000
1200 4 000 60
ººº
600
1
. 45 >. • • 0 do base. 46: Calcule un índice de····•·.· precios 47; Halle í~dice de pr';'cíos de laspeyres pára 2001 utilizando 1980 como el periodo base. 48.0b.tenga el índice de preci9s.dePaas(Oh~para2oq1 con 1980 qomo periodo base. . <)ll•.D;termine ef índice ideal c{~fisher e/l'lPleahdo ./os valores para los índices de Laspeyres y de •Paascbec.alc.ulados e.nlos dos problemas anteriores. ·.• . .. .. . . 5.óc petermin.e Vn Jndic~ de.•valorpara 2001.u,¡andoJ980.como. el· peripdo bil~e.• 51.. ··Sevaa diseñaruníndi~~ de propósifo~specialpara rr¡onitorearla economi~totalde una.región.
;1
-/:--:
Venta_s·_ me,n-ud?lf (millones.dedólates)·
2001
'l '159.0 1971:0
pepós,itOS· hancarioS: (miles de' millones dé dófares)
Prodücción
industrial. (1990,,. .100)
Emplen
87
110.6
1 214000
91
114.7
·1 501
ººº
Elab~ré U~ índice ele propÓsito especial para 2001 usá11cJo 19.96 como el periodo base, e interprete.
·
686
i ' Capítulo 18 52. Se está haciendo un estudio histórico de ciertas facetas de la economía estadounidense, de 1950 a 1980. Se recopilaron datos sobre precios, fuerza laboral, productividad y PNB. Obsérvese en la siguiente tabla que el IPE;; toma como base 1967, el empleo se indica en millones
de personas, etcétera. Por tanto ·no es factible un8. comp0ración directa . . a) Realice los cálculos que sean necesarios para comparar ta tendencia de tas cuatro series · cIH950.a.1980. · b)
1 1 i
i 1
! 1
i ;I !
!
"¡
:¡ 1
Números índice
687
688
Capítulo 18
tendencia lineal. l~~~
Calcular un promedio móvil. 1
1
1.
~liJA'F'JRlt&
Calcular !a ecuación de tendencia para una tendencia no lineal.
1 j cur~e.;()
Usar las eéua·ciones de tendencia para pronosticar futu-
.ros periodo.s., ·.Y para desárrollar pronósticos ajusta-
dos estaclotia!rnente.
Establecer e interpretar un
CdrijúritO de ín<::!ices estacionales.
L. "\;éapLp.tccíó:devc.nta.de .u.na acción.de Pcp_si. Q.o: fnc~; c1f. cierre del afio. Ü!}1C _s.l. p~e~io de_ venta:.e11: 2003, . ¿Par_ecc ser ¡_¡na.._csth-nilción: raloi;titblc.. dc ;Jcui:,rcl.(\CQti.: \os· ¡:_látos ck:: Jos_afiqs. anter.lorcs?: (Ver ob jeli'vo ._5. v. ejc1:cicio _18 .)
Pesestacíonalizar datos emf)!eando índices estaciona~ les.
690
Capílulo 19
Introducción ¿Qué es una serie de tiempo?
En este capítulo se enfatiza el análisis de series de tiempo y pronóstico. Una serie de tiempo es un conjunto de datos registrados durante un periodo, semana!, mensual, trimestral o anual. Dos ejemplos de tales series son las ventas trimestrales de Microsoft Corporation, desde 1985 y la producción anual de ácido sulfúrico (en EUA) desde 1970. La imagen de computadora en la fotografía muestra el volumen de datos que llegan por la red de la Fundación Nacíonal de Ciencias, de EUA, en un rnes. Los colores representan el volumen de tráfico, desde cero bytes (morado) hasta 100 mil millones de bytes (blanco). Un análisis del historial de una empresa -una serie de tiempo- puede ser utilizado por los ditBctivos para ton1ar decisiones en e! presente y realizar pronósticos y planeación a largo plazo. Comúnmente se supone que los esquemas del pasado continuarán en el futuro. Los pronós-
ticos a largo plazo se extienden a futuro un año o más; son comunes los que se formulan a 5, 1O, 15 y 20 años. Los pronósticos de gran alcance son esenciales para que \os departamentos de compras, manufactura, ventas, finanzas, etc., de una empresa, tengan tiempo suficiente para el desarrollo de planes para plantas nuevas, de financiamientos y elaboración de nuevos productos y de nuevos métodos de ensamble. Los pronósticos del nivel de ventas, a corto y a largo plazo, los clicta en !a práctica la propia naturaleza de las organizaciones comerciales en Estados Unidos. La competición por captar los recursos monetarios del consumidor, la presión para ganar utilidades para los accionistas, el deseo de obtener una mayor participación en el mercado y las ambiciones de !os ejecutivos, son algunas de !as principales fuerzas de motivación en los negocios. Por tanto, se considera necesario un pronóstico (el enunciado de los objetivos de los directivos) para obtener las materias primas, las instalaciones para la producción y el personal requerido, para satisfacer la demanda proyectada. Este capítulo trata del uso de datos para pronosticar eventos futuros. Primero se examinan las componen tes de una serie de tiempo, después algunas de las técnicas empleadas en el aná\isís de datos, y finalmente se proyectan eventos futuros.
Co1nponentes de una serie de tiempo Existen cuatro componentes de una serie de tiempo: la tendencia, la variación cíclica, la variación estacional, y \a variación irregular.
Tendencia secular Las tendencias a largo plazo de las ventas, el empleo, los precios de las acciones, y otras series económicas y comerciales, se ajustan a diversos esquemas. A!gunas se mueven conti-
nuamente hacia arriba, otras declinan, y otras más p'ermanecerl s.in cambios en cierto periodo.
Tendencia secular
Es la tendencia
a l?rgo piazÜ sin
alteiadonés de L1!1a serie de.
tiempo.
j
~~~~~~~~'
Los siguientes son algunos ejemplos de una tendencia secular. e
E\ siguiente diagrama muestra e! nún1ero de suscriptores que tuvo An1erican Online desde el segundo trimestre de 1995 hasta el tercer trimestre de 2000. El n(1mero de suscriptores aumentó de 3.0 millones a 24.6 millones. El aumento fue de 21.6 millones o 720%. La dirección a largo plazo de la serie de tiempo es creciente.
691
0
EJ diagrama siguiente rnuestra el precio medio de venta de las casas unifamiiiares en Horry County, Carolina del Sur, desde 1993 hasta el año 2000, En 1993 el precio medio de venta era $96 577, En 1997 aumentó a $'141 232, y en 2000, a $169 527, Una vez más la dirección, a largo plazo, de la serie de tiempo es creciente,
0
E! diagrama siguiente es un ejen1plo de una tendencia decrec'1ente a !argo plazo. En '1988 se abrieron 36 nuevos centros comerciales en Estados Unidos. En 1989 el n(1n1ero aumentó a 43, pero desde i 990 ha habido una continua disn1inución. En i 999, que es !a l1ltima in-formación de que se dispone, sólo se abrieron cinco centros con1erciales.
692
\/dri3lCiÓ]ll. UUHCd La segunda componente de une, serie de tiempo es la variación cíclica. El ciclo empresaria\ norma! consiste en un periodo ce prosperidad seguido de periodos de recesión, depresión, y luego, recuperación. Se observan ·fiuctuaciones considerables que se desarrollan a lo \argo de más de un a1lo, an-iba y abajo de ia tendencia secular. En una recesión, por ejempio el empleo, !a producción, el Promedio lndustrial Dovv Jones, y muchas otras series de \a economía y el comercio están por abajo de sus líneas de tendencia a largo p:1azo. Recíproca.mente, en periodos de prosperidad están por encima de sus líneas de tendencia a IE!ígo plazo.
r--·--. 1"""
·-·
-.=--~-.--.-.-.-.---~-.---.---.-----.~-~=~"-~=-·~·
~y;;;ird~r,:;.·.lióR1. ~iícH.ca
res de un año. '
-~-<-~~¡
E_! _a;:;_csnso y deseen.·so de ur.ia seríB Cie tien:po en periodos rnayo-
!
¡
__~~=,=~~---·~·-=~
~-~·-·-·-·~~=-=-~--~~~~-=-..-.w,
El diagrama 19.1 rnuestra el número de baterías \Jendidas por Nationa\ Battery Sa!es, \ne. de i 984 a 2001. Se resalta la raturaleza cíclica del negocio. Existen periodos de recuperación, seguidos por los de prosperidad, recesión, y finalmente el ciclo acaba con la depresión. 75 6 o
s ~ 65
u
ue
m
>
.~ 55
ro
·¡u OJ
45 -¡93¿¡
-¡939
1994 Año
1999
2001
693 ,,~1riació11
estaciorial
La tercera corr1ponente de una sefie de tiempo es la variación estaciona!. Muchas series como ventas, producción y otras, fluctt'.lan segl¡n !as estaciones der año. La unidad ele tien1po es trin1estral o mensual.
Lia estadfistica. en ~ccióu1
¡)_arec_e--·s'é_i.M p_1{¡~_e¡dto~_ · s'(es<" el;:¡jr\cÍa·. d~---- l_os d~sechos de-metal ¿~Ór q9é~ ::'faJ_es t]e'se_-_ ch~)s_ ;·o·t~ d: ¡iriú,C{p!o'. Je una cadena de fahri~
f!~~~;!~ie~;:~¡~;~P:,~!~º~:~::ñ~~W;;~ ~h~;j~~¿r'i~deti~rnpos~~ u~ año.· Tales .. , -·_ _ __¡
!....__.__ _ _ _ _ _ _- - - - - -
Casi todas !as empresas o negocios tíenden a tener patrones de acción estacionales recurrentes. La ropa para caballeros y jóvenes, por ejemplo, tiene ventas extremadamente altas antes de Navidad, y relativamente bajas después de ésta y durante el verano. Las ventas de juguetes son otro ejemplo de patrón extremadamente estacional. ~Aás de !a mitad de las actíviclacies ele negocios del año se hacen normalmente en noviembre y diciembre. El negocio del cuidado del césped es estacional en los estados del noreste y del norte-centro de EUA. Muchas ocupaciones tratan de compensar los efectos ten1porales al intervenir en actividades que no son de temporada. En el noreste se verá al técnico especializado en el cuidado de! pasto ornamenta!. con un limpianieve al frente de su camión, en un esfuerzo por obtener ganancias fuera. de su estación activa. En el norte de Míchígan y otras áreas de esquí, con frecuencia se encontrarán campos de golf cercanos. Los dueños de !as casas de campo tratan de alquilar éstas a los esquiadores en el invierno, y a los golfistas, en el verano. Este es un método efectivo de repartir !os costos frjos a todo el año, en vez de sólo a pocos 111eses. El diagran1a 19.2 muestra las ventas trimestrales, en millones de dólares, de la negociación Hercher Sprniing Goods. lnc., una compañía de Chicago que vende artículos deportivos y que se especializa en la venta de equipos de béisbol y softbol a escuelas de bachillerato, uníversidades y ligas menores. También tiene varias tiendas de venta al menudeo en algunos grandes centros comerciales. En este negocio existe un patrón estacional distinto. La mayor parte de sus ventas se hacen en el primero y segundo tdmestres del ailo, cuando las escuelas y organizaciones con1pran equipo para la estación que se avecina. Durante el inicio del verano, dicha compañía se n1antiene activa vendiendo equipo de reemplazo. Durante las vacaciones hace algunos negocios (cua1io trimestre). EJ final de! verano (tercer trirnestre) es su estación de menor actividad.
w
c-i1d61L (;ü;1{1Ub" SÜ I:i-é-
20.0
~ :o u
-~1ancb ai.urie,11Üt, este·
'és'úá- iÍ1dicfo ·cle cjue fa fabricación t
GJ
u
w ©
g 10.0 ~ w w
·em
>
o T1 T2 T3 T4 1999
Ü[AGRA!~1i~ 11~.2
T1 T2. T3 T4 2000
Tl T2 -r3 T4 2001
\lentas de equipos para béisbol y' so.ftball, i-Iercher Spoi:ting (;oods, 1999-2001 por trin1estre.
\Z'1riació11 irregaJlar Muchos analistas prefieren subdividir la varfa:;ición lrregu.lar en variaciones episódicas y residuales. Las fluctuaciones episódicas no son predecibles, pero pueden !dentifícarse. El im-
694
Capítulo 19 pacto inicial en la economía de una huelga importante o de una guerra, puede identificarse, pero no es posible predecir un paro laboral o un conflicto bélico. Después de que las fluctuaciones episódicas se han eliminado, a la variación restante se le llama variación residual. Las fluctuaciones residuales, comúnmente conocidas como fluctuaciones aleatorias, son impredecibles y no pueden identificarse. Por supuesto, ninguna variación, sea episódica o residual, puede proyectarse al futuro.
Tendencia lineal La tendencia a largo plazo de muchas series de negocios (industriales y comerciales), como ventas, exportaciones y producción, con frecuencia se aproxima a una línea recta. Si es asi,
!a ecuación que describe su crecimiento es:
donde:
Y' (que se lee "Y prima") es el valor proyectado de la variable Y para un valor determinado de t. a es el punto donde se interseca al eje Y. Es el valor estimado de Y cuando t = O. Otra forma de expresar esto es: a es el valor de Y en el punto donde la línea recta corta al eje Y cuando t es cero.
La pendiente de la recta de tendencia es b.
b es la pendiente de la recta, es decir, el cambio promedio de Y' por cada cambio de una unidad en t. es cualquier valor de tiempo seleccionado. Para ilustrar el significado de Y', a, by ten un problema de serie de tiempo, se presenta una gráfica de línea recta en el diagrama 19.3, de la tendencia característica de las ventas. Se supone que esa empresa inició negocios en 1993. Tal año de inicio (1993) se ha designado arbitrariamente como año 1. Obsérvese que las ventas aumentaron en promedio 2 millones (de dólares) cada año; esto es, con base en la recta trazada según los datos de ventas, éstas subieron de 3 millones en 1993 a 5 millones en 1994, a 7 millones en 1995, a 9 millones en 1996, y así sucesivamente. Por tanto, la pendiente bes igual a 2. Obsérvese también que la gráfica rectilínea corta al eje Y (cuando t =O) en el valor 1 millón. Este punto es a. Otra forma de determinar b consiste en localizar el punto de partida de la recta en el año (1 ). Corresponde a 3 para 1993 en este problema. Después se localiza el valor en la recta para el último año, el cual es 19 para 2001. Las ventas subieron a 19 millones menos 3 millones, o 16 millones, en ocho años (de 1993 a 2001). Por tanto, 16 -e 8 = 2, que es la pendiente de la línea recta, es decir, b.
1993 1 DIAGRAMA 19.3
1994 2
1995 3
1996 4
1997 5
Línea ajustada a los elatos de ventas.
1998 6
1999 7
2000
2001
8
9
Código deaño
695
Series de tiempo y pronós!icos La ecuación de la recta del diagrama -19_3 es:
Y' = 1 + 2t (en millones)
l,a est.'1!dístiea en aedón
donde: Las ventas se expresan en millones de dólares_ El origen, o año O, es 1992. t aumenta una unidad por cada año. En el capítulo 13 se trazó una recta por los puntos en un diagrama de dispersión para aproximar la línea de regresión. Sin embargo, se recalcó que este método para determinar la ecuación de regresión tiene una gran desventaja: la posición de la linea depende de la opinión de quien la traza_ Tres personas probablemente trazarían tres líneas diferentes en las gráficas de dispersión. En forma similar, la recta que se trazó por los puntos de los datos de ventas en el diagrama 19.3, tal vez no sea la línea de «mejor ajuste,,_ Debido a la apreciación subjetiva utilizada, tal método debe usarse sólo cuando se necesite una aproximación rápida a la ecuación de la recta, o para verificar lo razonable de la línea de mínimos cuadrados, que se expone a continuación.
~o/Iétodo de n1ínimos cuadrados El método de mínimos cuadrados para el cálculo de la ecuación de una recta a través de los datos de interés, dio la línea de "mejor ajuste". Para llegar a la ecuación de tendencia por mínimos cuadrados se resuelven dos ecuaciones simultáneamente. Éstas son:
L.Y = na + bLt L.tY = aL.t + bJ;t2
ECUACIONES PARA · lA LÍNEA DE TENDENCIA
carnb!ós do. Si b está entre' Oy 1, se deduce (iuc b c1cción no es Sensible a cambios en el 1nercado. Este es el 1nismo concepto que los economistas conocen como e!dstícídad.
[19.2]
Se pueden reconocer éstas como las ecuaciones normales descritas en el capítulo 13, con t sustituyendo a X en las ecuaciones. Como se describió en dicho capítulo, aplicar las ecuaciones normales para determinar a y b puede ser tedioso. Un mejor método es usar las siguientes ecuaciones.
LA PENDIENTE
b=
nl;tY -c(L.Y)(L.tJ--. ní:.tz __ (L.t)2
PUNTO-DONDE SE llllTERCEPTAAL EJ!; Y
[19.3]
L _ nX_-· _ b_(· Lt) n
a =_
[19.4]
Si el número de años es grande -por ejemplo, 15 o más- y la magnitud de los números es también grande, se recomienda utilizar un paquete de cómputo.
696 Las ventas de una pequeña cadena ele tiendas de comestibles, c!esde ·¡ 997 son:
1 ~ f.tfm
Ve!íltas (rnimones rle {!ólaresj
i i997 1
1 1
L
1
7
i998 !999
·10
1
9
1
2000 2001
11 13
1
_J
Determinar la ecuación de ia !ínea de tendencia ele mínimos cuad1·ados. Para simplificar los cálculos se reempiazan \os alias por valores coclíficados. Esto es,
í 997 se representa por i; i 998 por 2, y así sucesivarnente. Esto reduce el tamaño de los valores de LJ, Z.t 2 y ZtY. (Véase la tabla 19,1). Lo anterior con frecuencia se denomina ~nétodo codificado.
ay b
Determinación cie
b =
aplioanclo las formulas ("19.3) y (19A):
nI:tY - (LY)CZt) 5(163) - 50('i 5) _, 1 3 n"2:t 2 - ("Z!) 2 = º5(55) ~5) 2 = ·
_ 2:Y _ b (Zt\ _ 50 _
a- n TABLA 19.1
\ n) - 5
_ 1 .3(15\ 5 ) - o. 1 0
Cálculos necesarios para dcternlinaT la ecuación de tendencia.
f.\.ílo 1
1 1
Ventas {rnmones de dólares), Y
1997 1998 1999 2000 2001
L __
7
10 9 i1 -¡3
50
1
tY 1 2
f2
1
7
20 27
3 4
41\
5 15
65 163
1
4 9
1
16 1 25 55
1 1
La ecuación de tendencia es, por tanto, Y' ;:::: 6. ·¡ + í .3t, donde:
Las ventas se expresan 2n n1illones de dólares. El origen, o año O, es ·1996, y t aurnenta una unídad por cada año. ¿Cómo se interpreta la ecuación? E\ valor í ,3 indica que \as ventas aumentan arazón de i .3 millones (de dólares) por año. El va\or 6,i es e! de ventas estin1aclas cuando t;:::: O. Esto es, el n1onto de las ventas estirnaclas para i 996 (e\ año base) es igual a 6. ·¡
n1i!lones.
1fazo de la recta La ecuación de 111í11imos cuadrados puede usarse para hallar \os puntos de la iínea que pasa por \os datos. Los datos ele ventas de la tabla ·19.i se repiten en la tabla 19.2 paramostrar el p1·ocedin1iento. La ecuc.ción detern:inada anteriorrnente es Y' ;: : 6. ·¡ + í .3t. A fln de obtener las coordena.das de\ punto en la línea para 2000, por ejen1p\o, se inti·oduce en la ecuación el valor de t ~ 4, Asi, Y'~ 6.1 + 1.3(4)~11 .3,
697 TABLA 19.2
Cálculos ncct'.s8rios p;;na detenIJinar los puntos en Ja línea recta usélndo ef n1étodo codificado.
~o
{rnilkines rle dólares}, Y
' i997
$ 7
1998
ID
1999
9
2000 2001
1·1
1
1
----¡
Ventas
13
t
Y' 7.4
2 3
4 5
8.7 10.0 11.3 12.6
übterulcio rile
,___
6.1 + 1.3(1) 6.i e 1.3(2) 6.i + 1.3(3) 6.1 + -¡ .3(4) 6.1 + 1.3(5)
,__
<--·
<-·<~--
1
1 1
1
Las ventas reales y la tendencia en las ventas como están representadas por la recta se n1uestran en !a pantalla de resultados del diagrama 19.4. El primer punto de !a !írie.a tiene las coordenadas t = 1, Y' = 7.4. Otro punto es t = 3, Y' = 1O.
Ch~rl 1~·4
sales and Tr~nd Una
J~ns~n
Foods. !S97 !o 2co·1
l~stin.llació'J11 Si las ventas, la producción u otros datos se aproxi111an a una tendencia !)nea!, puede usarse la ecuación desarrol!ada por el n1étodo de n1ínin1os cuadrados para estin1ar ias ventas de algún periodo futuro.
Véase Ja información de ventas de la tabla ·¡ 9. i. EJ año "1997 se codifica como 1, y 1998 como 2. ¿Cuá! es e! pronóstico estin1ado de ventas para ei año 2004? Ei aílo i 999 se codifica come 3; 2000 queda con10 4; 200"1 corno 5; 2002 como 6; 2003 co1110 7, y 2004 corno 8. Así en 2004, t :::o 8. Se introduce el periodo 8 en la ecuación de la recta. ('fón11ula 19:1):
Y' =a+ 1Jt ~ 6.-1 + ! .3(8) = 16.5 Por tanto, con base en las ventas anteriores, la estirnación de ventas para 2004 es "16.5 111!!iones de dólares.
698
Capitulo 19 En este ejemplo de serie de tiempo hay datos de ventas de cinco años. Con base en esas cinco proyecciones de ventas, se estimaron las del año 2004. Muchos investigadores proponen que no se proyecten \as ventas, \a producción u otras series económicas y comerciales, a más de n/2 periodos futuros donde n es el número de datos. Si, por ejemplo, hay 10 años de elatos, se realizarían estimaciones sólo hasta 5 años hacia el iuturo (n/2 ~ 10/2 ~ 5). Otros sugieren que el pronóstico puecle ser para no más de 2 años, especialmente en tiempos de rápido cambio económico.
u
Producción
1 1 ~
i 1 1 1 1 1 l
l
ProduCción
Año
(miles)
Año
(miles)
1994
4
1998
11
1995 1996
8 5
1999 2000
~1-_99_7_ _ _ _8_ _ _ _ _20_0_1_ _ _ 4
.
1 1 1
a) Grafique \os datos de producción. b) Determine la ecuación de mínimos cuadrados. e) Establezca los puntos de la recta correspondientes a 1994 y 2000. Una los dos puntos pa-
1 1 ra obtener la línea. 1 d) Con base en la ecuación de la recta, ¿cuál será la producción estimada para el año 2004? 1 ~~l
Ejercicios =~~-==-'"=~~~
1. E\ número total de quiebras bancarias para \os años 1997 a 2001 se da a continuación. Determine la ecuación de mínimos cuadrados y estime el número de quiebras en 2003.
Año
Código
Número de fallas
1997 1998 1999 2¡00 2001
1 2 3 4 5
79 120 138 184 200
2. Los gastos personales por uso de teléfono y telégrafo, en miles de 111\\lones de dólares, en Estados Unidos, en los años 1996 a 2001 se dan a continuación. Determine la ecuación de mínimos cuadrados y estime los gastos para el año 2004. Gastos {miles
Año
Código
de mili. de dólares)
1996 1997 1998 1999 2000 2001
·¡
37.9 39.8 40.4 42.7 44.1 47.1
2 3 4 5 6
699
Series de tiempo y promis!icos
3. La siguiente tabla da la cantídad anual de chatarra (o desechos metálicos) producidos por la empresa Machine Products, lnc.:
Año
Código
C/1atarra (tons)
1997 ·¡993 1999 2000 2001
1 2 3 4 5
2.0 4.0 3.0 5.0 6.0
Determ'1ne la ecuación de tendencia de mínimos cuadrados. Estime la cantidad de desechos para el año 2003. 4. Las cantidades de dinero gastadas a! usar n1áquinas vendedoras en Estados Unidos, en miles de millones de dólares, para los años de 1997 a 2001, se dan a continuación. Detern1ine !a ecuación de mínimos cuadrados y estime las ventas para el año 2003.
Año
Código
1997 1998 1999 2000 2001
1 2
Venta de máquinas vendedoras (miles de millones de dólares)
3
4 5
17.5 19.0 21.0 22.7 24.5
~étodo~] pro~~ IE:óvi¿ El método del promedio móvil suaviza las fluctuaciones.
Calcular la media de los primeros siete años.
El método del promedio móvil no sólo es útil para alisar una serie de tiempo, sino que es el método básico utilizado para medir la fluctuación estacional que se describe más adelante en este capítulo. A diferencia del método de mínimos cuadrados, que expresa la tendencia en términos de una ecuación (Y' ~a+ bt), el método del promedio móvil simplemente suaviza las fluctuaciones de la información. Esto se realiza ccmoviendo" los valores de la medía aritmética a través de la serie de tiempo. Para aplicar el método del promedio móvil a una serie de tiempo, los datos deben tener una tendencia bastante lineal y un esquema de fluctuaciones rítmico definido (que se repite, por ejemplo, cada tres años). Los datos en el ejemplo siguiente tienen tres componentes: tendencia, ciclo e irregularidad, simbolizadas como T, C e l. No existe variación estacional debido a que los datos se registran anualmente. Lo que se hace en el método del promedio móvil es, en realidad, promediar Ce l. El residuo es la tendencia. Si la duración de los ciclos es constante y si las amplitudes de tales ciclos son iguales, las fluctuaciones cíclica e irregular pueden eliminarse por completo usando el método del promedio móvil. El resultado es una línea recta. Por ejemplo, en la siguiente serie de tiempo el ciclo se repite cada siete años, y la amplitud de cada ciclo es 4; es decir, hay exactamente cuatro unidades desde la depresión (el periodo más bajo) al pico. Por tanto, el valor medio móvil de siete años promedia perfectamente las fluctuaciones cíclicas e irregulares y lo que resta es una tendencia lineal. El primer paso para calcular el promedio móvil de siete ailos es determinar el total de movimientos en siete años. El total de ventas en los primeros siete a11os (1976-82, inclusive) es de 22 millones de dólares, obtenido de 1 + 2 + 3 + 4 + 5 + 4 + 3. (Véase la tabla 19.3). El total de 22 millones de dólares se divide entre 7 para determinar la media aritmética de las ventas por año. La suma de siete años (22) y la media de este periodo (3.143) se colocan frente al año central para ese grupo de siete -es decir, 1979- como se muestra en la tabla 19.3. Después se determinan las ventas totales para los siete años siguientes (1977-83, inclusive).
70D [Una ·forma conveniente de hacet esto es restar las ventas de ·¡ 976 (i mi\ión) de! total de los priir1eros siete años {22 millones) y suma1· las ventas de 1983 (2 rnmones), para !legar a! nuevo total de 23 millones]. La n1edia de este total, 3 286 millones, se coloca frente a! allo cen-
tral 1980. Los datos de las vente.s !os promedios móviles de siete años se rnuestran gráficamente en ei diagrama í 9.5. If0.BlA 19.3
(~álculos
para el prorncdio 1nóvil de siete años.
r
~o 1 1976
1977 1978 1 1979 1980 1 1981 1 1982 1983 1 1984 1985 1 1985 1987 1988 1 1989 1
1
1 1
"1990
1991 1992 1993 1994 1995
1996 1997 1998 ·¡ggg 2000 2001
\ffü]ÍHS (mi~~úlílBS
de dólares)
s·1 2 3 4 5 4 3 2 3
lutal inóvi! íle siete aílos
22
5 5
23 24 25 26 27 28 29 30 31
4
32
3 4 5 6 7
33 34 35 36 37 38 39 40 41
4 5
5
5 4 5 6 7 8
3.143 3.286 3.429 3.571 3.714 3.·357 4.000 4.143 4.286 4.429 4.571 4.714
4.857 5.000 5.143
5.286 5.429 5.57"1
5.714 5.857 1
_J
701 En Ja tabla i 9.4 se muestran ios promedios n1óviles de tres años y de cínco años, y se grafican en el diagran1a -1 S.6.
Il\BLI\ ·19,4 Pron1cdios n16Yilcs de tres afios r de cinco años. To'ta[
Prorlw::ción, y
f.lJ10
móvi~
de 1rHs años
5 6
1983 ·¡934 '1985 1986 1987 1938 1989
19 24 23 18 15 20 29 33
8
10 5 3 7 10 ·12 11
1990
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001
Prornedio nióvil de tres años
6.3 3.0 7.7 6.0
5.0 6.7 9.7 11.0
32
10.7 11.0 12.3 15.3
33 37 46 48 44 40
9 ·¡3
15 18 15 11 1
16.0
'14.7 13.3 14.0 17.7
42 53
lota~
móvH de cinco afios
34 32 33 35 37 43 49 55
60 66 70 72 73 75 79
Prnme;,~lio ííl(n1B da c!u1co aflos
6.8 6.4
1
6.6
7.0 7.-6.. 8.6
9.8 11.0 '12.0 13.2 14.0 1LL4
14.6 '15.0 15.8
22 .
25
····~-·~-~"'~··-'
,~_,=e
.":'
Producción
"'fº-: Promec io tnóvil _de tres. años
~;·=.
1
Pron1eoio-r,nóvlf ele cinco ailos
... .
º'-~~--~~~-.~~~-~-~-~~~-.-~~~-~~
-¡933
1992 A1lo
---~20.----101
¡·
1- · - - - - - - · - - · - - - - - - - - · - - · - - · - · - · - - - · -
D!AGRAfü'lA ~ 9J)
Un pron1cdio n1óYil de i:J'cs a;'i.os y un pn)nK;dio :n1óYil de cinco a:fíos.
Las series de ventas, produccíón y otras series de negocios y econón1ícas, genera\rne11te carecen de: ('1) periodos de oscilacíón de igual extensión, o (2) oscilaciones que tengan amp\itudes idénticas. Por tanto, en la práctica real, la aplicación del método del promedio n1óvil a datos no genera precisamente en una línea recta. Por ejen1pio, ia serie de producción de la tabia 19.4 se repite aproxi:Tla.darnente cada cinco años, pero la amplitud de los datos varía de una oscilación a otra. La tendencia parece ser ascendente y algo lineal (rectilínea}. ,l\n1bos prornedios móviles, el de tres y el de cinco a.1los, parecen adecuados para describir \a tendencia de la producción c!esde í 983.
702
Capítulo 19
Determinar un promedio móvil para un periodo de números pares, como de cuatro años.
Los promedios móviles de cuatro, seis y otro número par de años, presentan un problema menor con respecto al centrado de los totales móviles y los promedios móviles. Obsérvese en la tabla 19.5 que no hay periodo central, asi que los totales móviles están entre dos periodos. El total para los primeros cuatro años -$42 (dólares)- se coloca entre 1994 y 1995. El total para los siguientes cuatro años es $43. Los promedios de los primeros cuatro años y los segundos cuatro ($10.50 y $10.75, respectivamente) están promediados, y la cifra resultante se centra en 1995. Este procedimiento se repite hasta que se hayan calculado todos los posibles promedios de cuatro años.
TABLf., í9.5 Pro1ncdio n1óvil de cuatro años.
Suma
Promedio
Ventas,
móvil de
móvil de
Promedio móvil de cuatro años
Año
y
cuatro años
cuatro años
centrado
1993 1994
$ 8 11 $42 (8 + 11 + 9 + 14)
$10.50 ($42 + 4)
1995
9 43(11 +9+14+9)
10.75 ($43 + 4)
42
10.50
43
10.75
37
9.25
40
10.00
1996
10.625
14
1997
10.625 10.625
9
1998
10.000
10
9.625
10
1999
8 12
2000 2001
Para resumir la técnica del uso de promedios móviles, su propósito es auxiliar en la identificación de la tendencia a largo plazo en una serie de tiempo (ya que amortigua las fluctuaciones a corto plazo). Sirve para revelar cualesquiera de las fluctuaciones cíclicas y estacionales.
r
Autoeirnmen Hl.2
Calcule un promedio móvil de tres años para la siguiente serie de los datos originales, como el promedio móvil.
Año 1996 1997 '1998
Cantidad producida (miles)
2 6
4
Año 1999 2000 2001
producc~ón. G·;a;::t~n~o-- ·1
1 1
Cantidad producida (miles)
5 3 10
i
1
¡
703
Series de tiempo y pronósticos
Tendencias no lineales En la exposición anterior se destacó una serie de tiempo cuyo crecimiento o decrecimiento se aproximaba a una línea recta. Se usa una ecuación de tendencia lineal o rectilínea, para representar una serie de tiempo cuando se cree que los datos aumentan (o disminuyen) en cantidades iguales, en promedio, de un periodo a otro. Datos que aumentan (o disminuyen) en cantidades crecientes en un periodo, aparecen en forma curvilinea cuando se grafica en papel con escala aritmética. Dicho de otro modo, cuando los valores de los datos aumentan (o disminuyen) en porcentajes (o relaciones proporciona/es) iguales en un periodo, aparecen en forma curvilínea en el papel cuadriculado común. (Véase el diagrama 19. 7). La ecuación de tendenc:a de una serie de tiempo que se aproxima a una tendencia curvilínea, como la mostrada en el diagrama 19.7, puede calcularse usando los logaritmos de los datos y el método de mínimos cuadrados. La ecuación general de tendencia logarítmica es:
lóg Y' = lag a
+ log b(t)
[i9.5]
La ecuación logarítmica puede determinarse para los datos de importación del diagrama 19.7, empleando Excel. El primer paso consiste en introducir los datos; después se establece el logaritmo de base 1O para cada valor de importación. Por último, se aplica el procedimiento de regresión para determinar la ecuación de mínimos cuadrados. Para decirlo de otra forma, se calcula el logaritmo de cada dato, de cada año, y luego se usan tales logaritmos como la variable dependiente, y Jos años codificados como Ja variable independiente.
1989
3
1990 199'1
5.7
1992 1993 1994
1995 199G
4_'.l 8.3 11-5
'5
16
G 7 B
22-4
1998 1999
31 ,¡,¡ G GO 1 811_3
11
2000 2001
118.G 163 9
12 13
1997
g
10
l 1,,.- · -
•"'
·§
'
l'
704
L-.i
La ecuación de regresión es Y':::: 0.332549 + 0.145069X, que es \a forma 1'ogarftn1ica. Se ti8ne ahora· !a ecuación de tenclenci2, en términos de cambio porcentual. Esto es, e\ valor 0""\45069 representa el'c8Jllbio porcentual en Y' para cada variación de uno en t. Este vaior es sin:!iar a !a rnedía. geométrica, presentada en e\ capítU!o 3. E\ logaritmo de b es o.-i 45069 y sl1 antí\og8Jitmo (o inverso) es ·t.3966. Si se resta -¡ de este valor, corno se hlzo en el capítulo 3, el valor 0.3966 indica la tasa media geométrica de aurnento' de 1989 a 200·¡_ Se concluye que laS importaciones aumentaron a una tasa de 39.66% anuai durante el periodo. Tarnbién puede us·arse !a ecuación logarítn1ica para hacer estii11aciones de valores futuros. Supóngase que se desea estimar las importaciones para 2006. El primer paso es determi\lar el código de tal año. 2006, el cual es ·j 8, ¿ Cón10 se obtuvo e! valor de 18? El año 2001 tiene e! 11C1rnero de código 13, y 2006 es cinco años posterior, así que -¡ 3 + 5:::: 1'8, El logaritmo de ias importaciones para 2006 es
('
~
0.332549 + 0.145069(t)
~
0.332549 + 0.145069(18) ~ 2.943791
Para detern1ina1· las importeciones estimadas para el ailo 2006, se necesita tomar e\ antiiogadtn10 de 2.943791, el cua) es H78.6. Esta es la esti111ación del númei-o de írnportaciones en 2006. Recuérdese que los datos estaban en rniles de dólares, de 111odo qüe'-el-\lalor real es 878 600 dólares. r-~~~~-----------·
1 l\ut11exame1119.3
Las ventas (en millones de dólares) de ia ernptesa Tornlin \\~anufacturing, Co., desde i 997, son:
705
Ejercicios 5. La empresa Sally's Soft~vare, !ne. es un proveedor de programas de con1putación que crece rápidamente. Las ventas (en millones de dólares, 111dd) en Jos últirnos cinco años se indican a continuación:
r
f1ílo
'v'en[as {n1Jl.Hones
1996 1997 1 1998
~e dólar~zjl
u 1.5 2.0
1 1999
2.4
1 2000
3.1
------
a} Deterrr1ine la ecuación de tendencia logarítmica. bj ¿En qué porcentaje 2un1entaron ias ventas, en pron1edio, durante el periodo? cfl Estime las ventas para el año 2003. 6º Se observa que las irnpor':aciones del carbón de humo han aumenta.do anualmente casi 10%.
¡-Año
impmtacii:Hi.es de carbóíl de humn {miies ,je taneiacias)
hr~porlraci{mes
Afñü
1993
92.0
1997
199t!
101.0
1995 1996
112.0 124.0
1993 1999 2000
de carbón DIB hurmo (miles de tou-ieh:idas}
135.0 149.0 i63.0
180.0
a~ Determine la ecuación logarftn1ica. b} ¿En qué porcentaje aumentaron las importaciones, en pron1edio, durante e\ periodo? cJ Es'::in1e !as iínpo1iaciones para 2003.
~,7
ar1acion estacionai
1
o
.,
o
'
Como ya se indicó, \a variación estacional es otra de Jas con1ponentes de una serie de tien1po. Las series de negocios, co1110 ventas de auton1óviles, embarques de refrescos en1bote!lados y construcciones residencia!es, cada'añO tienen periodos de actividad por arriba y por abajo del promedio. En el área de producción ildustrial, una de las razones para anaiizar i2s fluctuaciones estaciona!es, es tener suficientes sun1inistroS de mate1·ias prin1as para cubrir la demanda estaciona! variable, Por ejemplo, la división de recípientes de vidrio de una gran fábrica vidriera, n1anufactura botellas no retornabies para cerveza, y-frascos para yodo, para aspirinas, para cemento de gon1a, etc. E! clepari:amento de planeación· de la producción debe saber cuántos envases de cada c\ase hay que producir, y cuándo hay que hacerlo. Una producción de den1asiados envases de una clase puede causar un problen1a grave de ain1acenarniento. La producción no puede basarse cornp!etan1ente en los pedidos actuales, porque muchos se reciben por teléfono para su embarque Jnn1ediato. Con10 la derr1anda de varías de los tipos de envases varía de acuerdo con ia estación del afio, un pronóstico con uno o dos años de anticipación, para cada 111es, es indispensable para una buena planeación de !a producción, Un análisis de las fluctuaciones estacionales en el lapso de varios años también puede ayudar a evaluar las ventas actuales. Las ventas de !as tíendas departamentales en Estados Unidos, sin \nc!ulr las ventas de pedídos por correo, se expresan corno indices en !a tabla -19.6. Cada índice representa el pro111edio de ventas en un periodo de varios afias. Las ven-
706
Capílulo 19 tas reales en algunos meses fueror superiores al promedio (que se representa por un índice mayor que i 00.0). y las ventas en otros meses estuvieron por abajo del promedio. El índice de 126.8 para diciembre indica que, en forma característica, las ventas para diciembre son 26.8% superiores a las de un mes promedio; el índice de 86.0 para julio, indica que las ventas de las tiendas departamentales para ese mes estuvieron, de manera especial, 14% por abajo de un mes promedio. TP,BiLA "Ht6 Índices estacionales típicos para ventas en tiendas de departa1nentos en Estados lJnidos, excluyendo ventas por correo. . Enero Febrero Marzo
Abril Mayo Junio
87.0 83.2 100.5 106.5 ·101.6 89.6
Julio Agosto Septiembre Octubre Noviembre Diciembre
86.0 99.7 101.4 105.8 111.9 126.8
Supóngase que un gerente de tienda emprendedor, para tratar de estimular las ventas durante diciembre, introdujo cierta cantidad de promociones linicas, que incluían grupos de corales que recorrían toda la tienda, interpretando villancicos, grandes exhibiciones mecánicas, y empleados vestidos de Santa Claus. Cuando se calculó el índice de ventas para ese diciembre, el resultado fue 150. O. Al hacer la comparación con el índice característico de ventas de 126.8, se concluyó que el programa promocional había sido todo un éxito.
Detenninación de un índice estacional Objetivo: Determinar un conjunto de índices esta-
cionales ((característicos>i.
Un conjunto típico de índices mensuales consiste en ·12 índices que son representativos de los datos para un periodo de 12 meses. Lógicamente hay cuatro índices estacionales característicos para los datos de informes trimestrales. Cada índice es un porcentaje, con el promedio del año igual a 100.0; esto es, cada índice mensual indica el nivel de ventas, de producción, o de otra variable, en relación con el promedio anual de 100.0. Un índice representativo de 96.0 para enero, indica que las ventas (o cualquier otra variable) están por lo general 4% abajo del promedio del año. Un índice de 107.2 para octubre significa que la variable en forma característica está 7.2% por arriba del promedio anual. Varios métodos se han desarrollado para medir la fluctuación estacional típica en una serie de tiempo. El método más com(1nmente utilizado para calcular el esquema típico de la temporada es el llamado método de razón a promedio móvil, que elimina las componentes de tendencia, cíclica e irregular de los datos originales (Y). En la exposición siguiente, T se refiere a la variación de tendencia, Ca la cíclica, Sala estacional, e I a la irregular. Los nlimeros que resultan se denominan índice estaciona/ tipico. Se verán detalladamente los pasos a seguir para obtener un índice estacional típico usando el método de razón a promedio móvil. Los datos pueden ser mensuales o trimestrales. Para dar un ejemplo se han escogido las ventas trimestrales de la empresa Toys lnternational. Primero se mostrarán los pasos necesarios para obtener un conjunto de índices trimestrales característicos. Después se emplearán los paquetes de cómputo MegaStat de Excel y MINlTAB para calcular los índices estacionales.
La tabla 19.7 muestra las ventas trimestrales de Toys lnternational de 1996 a 2001. Las ventas se presentan en millones de dólares. Determine un índice estacional trimestral usando el método de razón a promedio móvil.
Series de tiempo y pronósticos -~f>.BtA
707
-¡g, 7 Ventas triincstralcs de 'Toys International (n1illoncs de dólares).
Invierno Primavera
Afio
1996 ·¡997 1998 1999 2000 2001
SOlUC:IÓN
6.7 6.5 6.9 7.0 7.1 8.0
4.6 4.6 5.0 5.5 5.7 6.2
Verano
Otoño
10.0 9.8
12.7 13.6 14.1 15.0 14.5 14.9
10.4 10.8
11.1 11.4
El diagrama 19.8 muestra las ventas trimestrales de Toys lnternational en un periodo de seis años. Obsérvese la naturaleza estacional de las ventas. En cada año, las ventas del cuarto trimestre son las mayores y las del segundo trimestre, las más peque11as. También hay un incremento moderado en las ventas de un año al siguiente. Para advertir esta característica, considere sólo los seis valores de las ventas del cuarto trimestre. En el periodo de seis años las ventas en tal trimestre aumentaron. Si se unen estos puntos mentalmente, puede visualizarse que las ventas del cuarto trimestre aumentaron para 2002.
8
1998
4 1
7 8 8
"
11 12 1989
n
2000
14 15 18 17 18
18 20 21
2Ci01
Dianrnma
"
5 10.4 14. 1
7 5.5 10.8
5
"
8.7 11-1 145 8
2
22
3 4
23
11
24
1'1.9
62 ~
~4"
.
'-"*
'-g'"'"'
_,, 2'
e:=¡
Hay seis pasos para determinar los índices estacionales por trimestre: Paso 1 Para el análisis siguiente consulte la tabla 19.8. El primer paso es establecer el total móvil de cuatro trimestres para 1996. Comenzando con el de invierno de 1996, se suman $6.7, $4.6, $10.0 y $12.7. El total es 34.0 (millones de dólares). El total de cuatro trimestres se «va moviendo)) surnando las ventas de primavera, verano y otoño de 1996, a las ventas de invierno de 1997. Ese total es 33.8 millones de dólares, determinado como sigue: 4.6 + 1O.O+ 12.7 + 6.5. Este procedimiento se continúa para las ventas trimestrales de cada uno de los seis a11os. La columna 2 de la tabla 19.8 muestra todos los totales móviles. Obsérvese que el total móvil 34.0 está entre las ventas de primavera y verano de 1996. El total móvil siguiente, 33.8, se ubica entre el verano y el otoño de 1996, y así sucesivamente. Deben hacerse verificaciones frecuentes de los totales para evitar errores aritméticos.
708
'H~
!fo.BU\ 19,8
Cálculos necesarios para 1os índices estacionales específicos. {1) llB[?t.as
1
~10
-¡995
Tr~n¡estre
Invierno P1·imavera
(rnHh:.me·s 1[8 dólaff;S}
Verano
1
Invierno Primavera
Verano Otoño
1998
Invierno
Primavera Ver2no Otoño
1999
lnvierno Primavera Verano Otoño
2000
!nvie1110 Primavera
Verano Otoño
2001
Invierno Primavera Verano Otoño
Paso 2
tdmBsires
írimeshes
34.0
8.500
33.8
8.450
33.8
S.450
33.6
8.400
34.5
8.625
34.9
8.7"25
35.3
8.825
35.9
8.975
36.4
9.iOO
36.5
9.125
37.0
9.250
37.4
9.350
38.3
9.575
38.4
9.600
38.6
9.650
38.9
9.725
38.4
9.600
39.3
9,825
39.8
9.950
40.1
10.025
40.5
10.125
mo i 2.7
1
1997
tle
G1.l8~J'D
-------.
(5)
\Ja~13r
1
es'mciona~
C8!ílÜ@tlü
específica
8.475
1.180
8.450
·1.503
8.425
0.772
8.513
0.540
8.675
1. i 30
8.775
1.550
8.900
0.775
9.038
0.553
9.i 13
1.í 41
9.188
1.535
9.300
0.753
9.463
o.ss-1
9.588
1.126
9.625
i.558
9.688
0.733
9.663
0.590
9.713
i.143
9.888
·t.466
9.888
0.801
10.075
0.615
6J
1
Otoño
Tola.~
{4) (3) PrrY»rl!1eoll0 rrfh".!V~l Prcrnerliu 1['!1Ó"J[~ de Ci.!8!11.HY
4.6
1 1
(2)
6.5 4.6
f!.8
13.6 6.9 5.0 10.4
'14.1 7.0
5.5
·10.8
15.0 7_-¡
5.7 "lli
i4.5 8.0 6.2
11.4 14.9
Cada totai 111óvH trimestral de la columna 2 se divide entre 4 para obtener el prornedio móvil ele cuatro trimestres. (Véase ia co\un111a. 3.) Todos \os promedios mó'Jiles están todavía entre los trimestres. Por ejemplo, el pri-
709_ rner pron1edio n1óvil (8.500) se ubica entre la prin1avera y el verano de
i996. Paso 3
Paso 4
Paso 5
Ahora se centran los pron1edios móviles. Se detern1ina e! pri111er pron1edio rnóvii centrado: (8.500 + 8.450)/2 ~ 8/1.75 y se cenb·a frente al verano de 1996. El segundo resulta: (8.450 + 8.450)/2 = 8.45. Los otros se obtienen de 'forma similar,. Obsérvese en-la co!u111n2 4 que un pron1edio n1óvíl centrado se encuentra ··frente a un trírnestre particular. El valor est:i:c1ona~ de cada trimestre se calcu!a dividiendo el valor de las ventas de la colu111na ·j entre el prornedio n1óvil centra.do de la columna 4. Dicho valor estacional especrfico expresa Ja razón del valor original de la serie ele tie1npo, al pro!11edio n1óviL Es decir, si ese valo1- origina! de la serie de tie1T1po se representa corno TSCJ, y e! pron1eciio 1nóviJ centrado con10 TCJ, entonces, aigebraican1ente, si se calcula TSCJ!TCI se obtiene el vaior de ia con1pone11te estaciona.L El va!or estacional especifico para el tri111estre del verano de -¡ 996 es i. ·1 so, obtenido de -¡ 0.0/8.475. Los datos de los valores estacionales especfficos se organizan en ·forn1a tabular. (Véase la tabla 19.9.) Esta tabla ayudará a iocaiizar ta\es valores para los trln1estres correspondientes. Las cifras -1.1 so, i. i 30, 1:i4-1, ·1. -¡26 y 1.143 son estirnaclones de! índice estacional característico para e! trin1estre ele verano. Un iTl.étodo razonable para obtener dicho índice es promediar esas cantidades. P.,sí que el índice para e! trin1estre ele verano es (-1.i 80 + -¡ .-130+1.14-¡ + ·1. 126 + i .-i43)/5 ~ -¡ .i44. Se usa !a media esitn1ética, pero tan1bién puede utilizarse )a n1ediana o una 111edia modificada.
TABLA 19.9 C;oiJculus necesarios pan1 los índices trin1estrales típicos. 1 1
1
1 1
1 1
i1,ño
ílnt1lenno
1997
0.772 0.775
1998 ·¡999 2000 2001 Total Media
0.753 0.733 0.801 3.834 0.707
~\justado
O. 765
~-=--Paso 6
Prlrnavera
Veüano ·
Qt-ofío 1.503
0.540
·¡ .180 i :130
í996
·1:141
0.553 0.58'!
!.126
0.590
1.143
1
1.550 1.535 1.558 "1.466
1 1 1
0.615
2.879 0.570 0.575
5.720 ·1:144 1:141 i '14:!
57.5
7.612 1.522 "í.5i9 151 .9
:~_
76.5 ..
En teorfa las cuatro rnedias trimestraies (0.767, 0.576, -¡.·¡44 y ·1.522) deben sun1ar 4.00, porque el pron1edio se ·fija en -¡.O. El total de las cuatro medias en cuestión puede no ser igual a 4~00 debido al redondeo. En es-te problema e! total de las inedias es 4.009. En consecuencia, se apiica un factor cie corrección a cada valor n1edío para obtener un total ele 4.00. ..
~~·~~~,~~~~~=,~~~~~·~=~"'.'.'=~~-"~--,·~·,.~~·==-.-~=·=~·~~:,~~~·-·~·~~~~-~~-·:~-,~.~-·~, ,~,,-~-,~~-~,-.~.-~"~'''f
j
FACTOR DE CORRECCIÓN
~ PARA AJUSTAR
.
~ 00
•
Factor de corrección=- -
---···-·-, -
!
.
i
i_:..~EDIAS T~~ESTRALES ______,_,_,,=otal de la: :ª~~:,=~~::~------ -,~ En este ejernplo: Factor de corrección=
4~~ 0°9 ;;;: 0.997755
0
710
Gapitulo 19 Por tanto, el índice del trimestre de invierno es 0.767(0.997755) ~ 0.765. Cada una de las medias se ajusta hacia abajo, de modo que el total de las cuatro medias trimestrales es igual a 4.00. Normalmente los índices se expresan como porcentajes, asi que cada valor en el último renglón de la tabla 19.9 se ha multiplicado por 100. De manera que el índice para el trimestre de invierno es 76.5, y para el de otoño, 151.9. ¿Cómo se interpretan estos valores? Las ventas para el trimestre otoñal están 51.9% arriba del trimestre típico, y para el invernal, 23.5% abajo del tlpico (100.0 - 76.5). Estos resultados no deben sorprender. El periodo anterior a Navidad (trimestre de otoño) es cuando hay más actividad en las ventas, y después de la Navidad (en el trimestre de invierno), tales ventas se reducen drásticamente.
Como ya se indicó, existe un programa que realiza los cálculos y presenta los resultados. A continuación se muestra la salida de MegaStat Excel. El uso de este programa reduce en gran forma el tiempo de cálculo y la probabilidad de cometer errores en los cálculos aritméticos, pero usted deberá comprender los pasos del proceso, como ya se indicó. Pueden existir ligeras diferencias en las respuestas debido a la cantidad de dlgitos que se utiliza en los cálculos. Centered Moving Average and Deseasonalization
Centered t
1 2 3
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ye ar Quarter Sales 1 1 1 1 2 2 2
1 2 3 4
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3
2
3 3 3 3 4 4 4
4 5 5
5 5 6 6 6 6
4
6.7 4.6
10.0 12.7 6.5 4.6 9. 8
13. 6 6.9 5.0 10.4 14. 1 7. o 5.5 10. 8 15.0 7 .1 5.7 11.1 14. 5
8.0 6.2 11.4 14. 9
Moving Ratio to Seasonal Sales Average CMA Indexes Deseasonalized 8.76 0.765 0.575 8.00 8.76 8.475 1.180 1.141 8.450 1.503 8. 36 1.519 8.50 8.425 0.772 0.765 8.00 0.540 8.513 0.575 8.675 1.130 1.141 8.59 1.550 8.95 8.775 1. 519 8.900 0.775 0.765 9.02 8.70 9.038 0.553 0.575 1.141 1. 141 9.11 9.113 9.28 9.188 1.535 1. 519 0.753 0.765 9.15 9.300 9.57 0.575 9.463 0.581 9.46 1.126 9.588 1.141 1.558 1. 519 9.88 9.625 0.733 9.28 9.688 0.765 9.663 0.590 0.575 9.92 1.143 9.72 9. 713 1.141 1.466 9.55 9.888 1. 519 10. 46 9.988 0.801 o. 7 65 0.615 10. 79 10.075 0.575 1.141 9.99 9.81 1. 519
Calculation of Seasonal Indexes 1
2
o. 772
0.540 0.553 (i. 581 o. 590 o. 615
1 2
3
o. 775
4
0.753 o. 733 o. 801
5 6
mean: adjusted:
o. 7 67
o. 765
3 1.180 1.130 1.141 1. 126 1. 143
o. 576 0.575
4 1.503 1.550 1. 535 1. 558 1.466
1. 144 1.141
1.522 1.519
4.009 4.000
Series de tiempo y pronósticos
711
Ahora se expondrán co.1 brevedad los razonamientos para Jos cálculos anteriores. Los datos originales en la columna 1 de la tabla 19.8 contienen las componentes: de tendencia (T), cíclica (C), estacional (S), e irregular(/). El objetivo principal es eliminar los datos de la estacionalidad (S), de la valuación original de las ventas. Las columnas 2 y 3 en la tabla ·19.8 intervienen en la obtención del promedio móvil centrado, que figura en la co!umna 4. Básicamente se han ((elin1inado por promedio)) las fluctuaciones estacional e irregular de los datos originales ubicados en la columna 1. En consecuencia, en la columna 4 sólo se tienen los datos de tendencia y ciclo (TC). A continuación se dividen los datos de las ventas de la columna 1 (TCS/) entre el promedio móvil centrado del cuarto trimestre, situado en la columna 4 (TC) para determinar los valores de estacionalidad específicos de la columna 5 (SI). Con símbolos, TCSl/TC ~ SI. Se multiplica SI por 100.0 con objeto de expresar la estacionalidad típica en forma de indice. Por último se tomó la media de todos los indices caracteristicos de invierno, de todos los de primavera, y así sucesivamente. Esta forma de promed"1ar elimina la mayor parte de las fluctuaciones irregulares de estacionales, y los cuatro indices que resultan indican el patrón de las ventas estacionales típico.
Autoexamen 19.4
El poblado Tetan Village, en Wyoming, cerca del parque Grand Tetan y Yellowstone (en EUA), tiene tiSndáS, réstEturántes· 'y moteles.· Hay dos·teniporadas de' auge: la de invierno, para el esqúí'eh las pendientes de mdntaña de 1O000 pies de alto; y 18. :dé verano, cuando los turistas
1
visitan fas parques. Los valores estacionales específicos con respecto al volumen total de ventas para los últimos áños 'son: --------,
Trimestre Año
1997 1998 1999 2000 2001
Invierno Primavera
117.0 118.6 114.0 120.7 125.2
80.7 82.5 84.3 79.6 80.2
Verano
Otoño
129.6 121.4 119.9 130.7 127.6
76.1 77.0 75.0 69.6 72.0
a) Determine el patrón estacional típico para el poblado usando el 111étodo ele razón a promedio móvil.
b) Explique el índice típico de la estación invernal.
Ejercicios 7. El propietario de la empresa Anderson Belts, lnc., analiza el ausentismo entre sus empleados. Su personal de trabajo es reducido, y consta sólo de cinco personas. En los últiinos tres años registró los siguientes números de inasistencí'as de sus empleados, en días, para cada trimestre:
Trimestre 1
Año
1999 2000 2001
4 5 6
11
111
10 12 16
7 9 12
1v] 3 4 4
1
1
Determine el índice estacional típico para cada uno de !os cuatro trimestres.
712
Capitule rn B.
La empresa AppHance Center vende una variedad de equipos electrónicos y artículos para el hogar. En \os últin1os cuatro años se informaron \as siguientes ventas trimestrales (en millones
de dólares).
1
Trimestre
Año 1998 1999 1 2000 2001
5.3 4.3 4.3 5.6
11
Hl
IV
4:1 3.8 3.8 4.6
6.8 5.6 5.7 6.4
6.7 6.8 6.0 5.9
Determine un índice estacional típico para cada trimestre.
Desestacionalización de datos Un conjunto de índic'es estaciona:es típicos es muy útil para ajustar las series de ventas, por ejemplo, respecto a fluctuaciones estacionales. La serie resultante se Hama ventas desestaciona!izadas, o ventas ajustadas estacionalmente. La razón para desestaciona\izar !as series de ventas es eliminar \as fluctuaciones estacionales a fin de estudiar \a tendencia y el ciclo. Para ilustrar el procedimiento, los totales trimestrales de ventas de la empresa Toys lnternational, de la tabla 19.7, se repiten en la columna 1 de la tabla 19.10. TABLA 19JID
Ventas reales y desestacionalizadas de r[oys lnternational.
(1) Año
Trimestre
Ventas
1996
Invierno Primave:a Verano Otoño Invierno Primavera Verano Otoño !nviernc Primavera Verán o Otoño invierno Primav9ra Verano Otof\o !nviern0 Primavern Verane Otoño Invierno Primavera Verano Otoño
6.7 4.6 10.0 12.7 6.5 4.6 9.8 13.6 6.9 5.0 10.4 14.1 7.0 5.5 10.8 15.0 l.1 5.7 11.1 14.5 8.0 6.2 ·¡ 1.4 14.9
1997
1998
1999
2000
200·1
(2) (3) Ventas Índice estacional desestacionaiizadas
0.765 0.575 '1.141 1.519 0.765 0.575 1.141 1.519 0.765 0.575 1.'141 1.519 0.765 0.575 '1.141 1.519 0.765 0.575 1.141 i .5í9 0.765 0.575 1.141 1.519
8.76 8.00 8.76 8.36 8.50 8.00 8.59 8.95 9.02 8.70 9.11 9.28 9.15 9.57 9.46 9.88 9.28 9.92 9.72 9.55 10.46 10.79 9.99 9.81
A fin de eliminar e\ efecto de la variación estaciona!, !a cantidad de ventas para cada trimestre (que contiene efectos de tendencia, cíclicos, irregulares y estacionales) se divide en-
713 tre e! índice estacional de ese trimestre; esto es, TSCJ!S. Por ejemplo, las ventas reales para el primer tri111estre de -'1996 fueron 6.7 millones de dólares. El índice estacional para el trimestre de invierno es 76.5, que se obtuvo empleando los resultados de MegaStat mostrados en la página ?i O. EJ índice 76.5 indica que las ventas en el primer trimestre normalmente se encuentran 23.5% abajo del promedio de un trimestre normal. Dividiendo las ventas reales $6.7 millones entre 76.5 y multiplicando el resultado por i 00 se encuentra el valüf"-de ras Ventas desesiaciona!izadas del primer trimestre de·¡ 996. Este valor es $8 758 ·170 que se obtuvo de ($6 700 000/76.5)1 OO. Este proceso se repite con los demás trimestres en la columna 3 ele la tabla 19. rn y los resultados se dan en millones de dólares. Puesto que la componente estacional sido eliminada (por división) de las ventas trimestrales, e! importe de las ventas desestacionalizadas contiene sólo las componentes de tendencia (T), ciclo (C) e irregularidad(/). Al revisar las ventas desestacionalizadas en la columna 3 de la tabla ·J9.i0, se ve que las ven-
tas de juguetes n-1ostraron un moderado aumento en el periodo de seis años. El diagrama 19.9 n1uestra las ventas reales y las ventas desestacionalizadas. Es claro que la eliminación del factor estacíonal permite considerar !a tendencia general a largo plazo de las ventas. También se podrá determinar la ecuación de regresión de ios datos de tendencia, y usarla para pronosticar ventas futuras.
IDO 12.7
;5
e
],ll ' 519
B 76
'
0155 0575
"ª ' º" 070 º" Q_575 ' 5¡9 ,,, ' [l?E:S 70' iJl
¡¡¡
,,
¡¡
11 1.1
¡5
1,5
1.519
]:J4
:.1¡
55
0:.:75 ¡,¡¡
iiJB
'
'"
cr,
Utilizaciór1 ([e cftatos d.esestaciornaJizaclos El procedimiento para identificar !a tendencia y los ajustes estacionales se puede combinar para producir pronósticos ajustados estacionalmente. fJ, fin de identificar la tendencia se determina !a ecuación de tendencia de 111íni111os cuadrados, según !os datos históricos desestacional\zados. Después se proyecta esta tendencia hacia periodos futuros, y ·finalmente se ajustan estos valores tendenciales para considerar los factores estacionales. El siguiente ejernp!o ayudará a aclarar esto.
La empresa Toys lnternational desea pronosticar sus ventas ele cada trimestre de 2002. Apiique la in'fon11acíón de la tabla i 9:1 O para determinar e! pronóstico.
S:OllJIGIÓN
El primer paso es utilizar los datos desestacionalizados de la columna 3 de la tabla 19.1 O, para obtener la ecuación de tendencia de n1ínimos cuadrados. La ecuación de tendencia desestacionalizada es:
714 Y'"" a+ bt
donde:
Y' a b
.
La estadística , en acc10n
es la tendencia estimada para las ventas en el periodo t. es la Intercepción en e\ eje vertical, por la recta de tendencia, en el tiempo O. es !a pendiente de-la recta de .tendencia.
El trimestre de invierno de i 996 es el periodo t ~ i, t ~ 24 corresponde al trimestre de otoño de 200i. (Véase la columna 1 de la tabla ·19.11.) Las sumas necesarias para evaluar a y b también se muestran en la tabla 19.11. ·
24(2 873.4 - (22'1.60)(300) 24(4 900) - (300) 2
b = n'LtY - (ZY)(Zt) =
nZt2 -
a= ¿y n TABLA 19.11
(Lt) 2
-b(Lt) n
_3 2 -1·60 - 0.0899( 300 ) 24
24
=
27 600.0
8.1096
\lentas desestacionalízadas de 'foys Ini:crnationa1: datos necesarios para detcnninar la línea de tendencia.
Año
Trimestre
1996
lnvie1no Primavera Verano
Otoño
hicciones; (5) exceso de optimismo; (6) con~
=
= 2-431 -6 = 0.0899
11997
fiaiiza en la extrapolación nutorn
Invierno Primavera Verano
Otoño
conclusión prc111atlua,
y (8) sobre especifica-
1998
lnvíerno Primavera Verano
1999
Invierno Primavera Verano
ción.
otoño
l 2000 2001
Otoño Invierno Prímavera Verane Otoño lpvierro Primavera Verano Otoño
1
~al
(1)
(2)
{3)
(4)
t
y
tY
t'
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
24
8.76 8.00 8.76 8.36 8.50 8.00 8.59 8.95 9.02 8.70 9.11 9.28 9.15 9.57 9.47 9.87 9.28 9.91 9.73 9.55 10.46 10.78 9.99 9.81
8.76 16.00 26.28 33.44 42.50 48.00 60.13 71.60 81.18 87.00 100.21 111.36 1 '18.95 133.98 142.05 157.92 157.76 178.38 184.87 191.00 2'19.66 237.16 229.77 235.44
196 225 256 289 324 361 400 441 484 529 576
300
221.60
2 873.40
4 900
4 9 16 25 36 49 64 81 100 121 144 ·¡59
La ecuación de tendencia es: Y' = 8.1096 + 0.0899t
La pendiente de la recta de la tendencia es 0.0899. Esto indica que en los 24 trimestres, !as ventas desestaciona!izadas aumentaron a razón de 0.0899 (rnlllones de dólares)
715 por trimestre, o 89 900 dólares por trimestre. El valor 8.1096 col'l'esponde a la intercepción en el eje Y de la línea de tendencia (es decir, la ordenada para t ~O). Por supuesto, se puede uti!ízar un paquete o programa para estadística a fin de determinar la ecuación de regresión. El siguiente resultado proviene del sistema MINITAB. Usar un paquete de software reducirá la posibilidad de errores aritméticos. Además, se puede emplear el valor de R 2 para dar una indicación de la adecuación de los datos: Debido a que ésta no es información muestra!, técnicamente, no se debe usar R 2 para juzgar una ecuación de regresión. Sin embargo, servirá para evaluar rápidamente el ajuste de los datos desestacionalizados. En este caso el valor de R 2 es 78.6%, lo que indica que el tiempo hace un buen trabajo a! explicar la variación en los datos desestacionalizados.
Si se supone que los 24 periodos anteriores son un buen indicador de las ventas futuras, se puede usar la ecuación de tendencia para estimar las ventas futuras. Por ejemplo, en el trimestre del invierno de 2002, el valor de tes 25. El total de ventas estimadas para ese lapso es $1O357100, que se obtiene de
Y'
~
8.1096
+ 0.0899(25)
~
10.3571
Aplicando la ecuacíón de tendencia se pueden pronosticar ventas en Toys lnternational para los otros cuatro trimestres de 2002. Esos estimados se muestran en la tabla 19.12.
TABLA 19.12 1
1
Pronósticos trüncstralcs de rfoys IntcrnationaI para 2002. -----·
Trim~stre Invierno Primavera Verano Otoño
25 26 27 28
Ventas estimadas
indice estaciona!
Pronóstico trimestral
'10.3571 10.4770 10.5369 10.6268
0.765 0.575 1.141 1.519
7.923 6.024 12.03 16.142
"--"--"
Ahora que se tienen los pronósticos para los cuatro trimestres de 2002, es posible ajustarlos estacionalmente. El índice estacional para el trimestre de invierno es 0.765 (véase la tabla 19.9), así que se pueden estimar las ventas en este trimestre como 10.357 (0.765) ~ 7.923. Las estimaciones para los cuatro trimestres de 2002 se muestran en la última columna de la tabla 19."12. Obsérvese cómo los ajustes estacionales aumentan drásticamente las estimaciones de ventas para los dos últimos trimestres del ai'lo.
716 ,,~,~-~~~--~~-~~~~~~=~-==·'"~-~~,~~-~-o.---------~·'"'F~~~,.-~-~--~--~=-~--~~~==~-~~~·~"-~~~·~~-~=~~~~~~~-~~~~=·-·-~~~---~-~~~~rr
j ·¡:
th.1t:o0xar!f]!f:íl i 9.5 -.,.,-.'f7~;i
~mpresa
La VVestberg Electric Company vende n1otores elécti-icos. La ecuación de tenclencía n1ensual, basada en cinco al'\os de datos mensuales es,
' 1
¡ '.
~ ~
Y' = 4.40 +O.SO!'
1 1
E!-'factor--estacionaJ-del-mes-cle- enero es i 20, .y vale 95 para febre1·0, Obtenga e! pro~-~-~-~,i,C?_?__
'¡
ajustado estacionalmente para enero y febrero del sexto año.
i_
L-··~·~--····~--·-·~-~~~----~-·~~---.
···~·.-~--~-~·~~J
Ejercicios 9.
El departamento de planeación de Padget & Kure Shoes, 'fabricante de ca.Izado para dama, desarrol!ó la siguiente ecuación de tendencici, en n1i\lones de pares, con base en cinco años cie datos trimestrales.
y• = 3.30 + 1.751 La siguiente tabla da los factores estacionales para cada trimestre.
Trimestre Índice
11 o.o
11
l!i
IV
120.0
80.0
90.0
Determine el pronóstico ajustado estacionalmente para cada uno de los cuatro trimestres del sexto año. i O. Team Sports, lnc. vende artículos deportivos a escuelas de bachillerato y un\versklacies por medio de un catálogo distribuido nacionalmente. La ad111inistració11 de \a corr1pañía calcula que el próximo año venderán 2 000 guantes de catcher 1-narca Wilson modelo A2000. Las ventas desestaciona!izadas se prevé que sean iguales para cada uno de los cuatro trimestres del próximo a1lo. El factor estaciona\ para e! segundo trimestre es í 45. Determine las ventas ajustadas por te111porada estacionalmente para el segundo trimestre del año próximo. i1. Refiérase al ejercicio 7, que considera las ausencias de personal en Ande1·son Belts, lnc. Use los índ\ces estacionales que se calcularon, a fin de calcular las ausencias desestaciona\izadas. Formule la ecuación de tendencía lineal con base en ios datos trimest1·a1es de !os tres años. Pronostíque lps ausencias ajustadas estacionalmente para 2002. 12. Refiérase al ejercicio 8, que considera \as ventas del Appliance Center. Use los índices estacionales que calculó entonces, para determinar ahora las ventas desestacionalizadas. Obtenga la ecuación de tendencia lineal con base en los datos trimestrales para los cuatro años, y pronostique las ventas ajustadas estacionallnente para 2002.
Res.umen delc~pítulo _. . ~~,.~~~-~-~---· t
Una serie d.e.'ti'empo es un CbniYnto de datbS de urf _p_~ríoclo. A. La tenden_cia es !a_dlrecc_ió~- a _.largo plazo de !a·s8de de tiempo. B. La <::.ºfll.Pºnente cíclíca.es la fluctuaclón, hacia_ arriba y hacia abajo de !a línea de tendencia a largo plazo. e~ La· varíacióri eSt3.Cioriéil -es el esquéi-na {o-pafróri)' en una-serie de tiempo en e! lapso de un a110. Estos pcitrOnEis·tiendárl a: repetirse ·de-año én 0ño= eri ta mayoría de tos negocios. D,, La variacióri irregular se.divide:en dos. componet1tes: "!-~ Las .var\acion.e$. epi_sódicas-, __ que. son imprt:~deCíb!es, pero generalmente pueden ser identific;ada_?_... U_na ihµndación e_s,.un ejemplo. 2·, Las var!ac_i_ones re_s_iduales •. que _son. de natur_a!¡;¡za ale?-toria.
717
Series de tiempo y pronóslicos
li, La ecuación de tendencia lineal es Y' :::o a + bt; doílde ·a- es ta intercep'cióii en el eje Y, b es lá pendiente de la recta, y tes el tiempo codificado. · --A; La 8c_uacfó1lde·_tendencia'se-determirla lltilizandCret-prfncipio de mínimos cu~drados. B. S_i la tendencia no·es·!ineaf;- sino ·que !os aumentos·tíenden_·:a ser un porcentaje constante, ros: valores Y se-convierte'n en logaritmos, y Liíla ecuación cte· mí_nimos cuadrados.se_ dEiterminaaplicando.d.ichos logaritrnos: ............·. . . ::.•..............•...•.........···················.···································:········ :-.iif. Un"prornec!io·n1óvi~·-se-usa··para·stJá\/iiá((6-aflsar) /a: tendencia en una serie de tiempo. IV. Un factor estacional puede eva!uars8_a¡}licando el método de "razón ·aJJro·medfo móvil". A-·~ Er procedfmiento-de.-seiS·produce un índice .estacionar par·a cada pe.riada. ·¡. L(JS factores e·st?Cio'nat8i:i.99heralmente se. carcu!an nlensua! o trimestréllme'n-te, 2. El factor estacionai·~irve pa~él a}ustar pronóstic.os, tomando eh cLierita !os efectos de la temporada o estac.ión .det a~o .
Pasos
.E;jercJcios delc:apflnlo 13. cons.idere el diagrama sigu(ente: . a} Estime la·ecuap/órf de:'tendenciq: liríeaf· de· ia-serie dé: prciducci'ón, trazando' una recta a-través .de los datos. b) ¿De búánlo es la disminución anual promedio en la producción? e} Co.n base.en/a ecuación de la tendencia,¿cuál es elprdnóstico para el año 2005? ;.,:~:.'t;'.x¿_;·-:~<;:,:~'Y:-'> ·. :-::'.: .:-:~:-:-:;_·:.:.- '·
o_
:~~~~
·.
i
··
o·~· 1980 1985
•·· ···-···.·.
1990
l
' 1995
••
·v J }
2000
~-----~·
el· .cJíagrama..siguientea) Es.time.la ecuación d.e tendencia lineal de la serie ele ingreso personal. -/.?). ¿De cuár¡t.q.,_es el a.u_m_?n~o an'ual promedlo-en._e! íngreso personaf?
i_4.·_.C~nsicJere
;.-',_.
•,."
;
i_5. L()s.. m_oVi[niS:ntO.$:.de._activos,_ exclL1y.eh.d6-el. e\ect.i.Vn y la·s.inversi.on8s a:·_corto pf8.za,· en la . empresªHNC Company, ele. 1990a 2000 son:
ru
1_9_9.2~_-1_sw~-~1_9_94_ _19_9_s___1_s_9B~~19_9_1
so. ·-.-1_99_1__ 1 1.28 u7
·¡ :1 o
'f.06
1.14
1.24
'/.33
1998 1.38
----·------·------------~·
1999.· 1.50
2000. 1.65
¡
718
Capítulo19 a) Grafique los datos. b) Determine la ecuación de tendencia por mínimos cuadrados, . . . .· e) Calcule. los puntos sobre I" linea d~tendencia para 1993.y 1998. y trace ,la recta en la gráfica. d) . Estirne el movimiento de activos en 2005. e) Enpromedio,¿cuántoa.umentó aLaño, elmbvimientcide ectivds.de199Qa2Q001 ..... 1P.• ~asYe,rtas, en miles de íllillones cte dólares, de la empresa Keller üverhead Door, lnc., p"ra el periodo .1995 a 2bób son: ' .' ' Año
Véritas
Año·_,
Ventas
1995 1996 1997
1.45
1996 1999 200b
7.94
7.Bil 8.07
7.76 7.90
a) Grafique los datos, ·...•·,·......· b) Determine la ecuación d~ tendepc¡apor'.milli(T'iHs .~uadr~9os, e) Us.e la ecuación de'tendenciaafín.decalcularlospuri!os c 0 rr~spoq?ie~tElsaJ997y:1,999. Grafiquelos y trae~ lalínea de regresión. o : · r > .·.····, /i · · d) Estime las venías netas.p.arael año 2003/ > < < .· ... ··.·: . ···. •.······•·· . . . , /. e) En prom.edi~, ¿cuánto han aumentado (o disminuido) poraño las ventas, durapte el per.io,dp? v 17. El número de emple~dqs; en míles; en la compañíaKellerüyerh~ad Door, !ne., para ]os año~ de 1995 a 2000, es:
Año
Empl~ados
Año
Empleados
1995. 1996. .1997
4~.6
1998
42.2 4U
1999 ' 2000
39.3 34.0 30.0
a) Grafiglle IÓs dato~. b), Determine !a· ecuación de ten_de_n·c_í_a d_e ril_ínitnos_ c_u~díad?s.- -
e) Use la ecuación de tende.~cia para calcular los puntos correspondientes a1997y 199.9. Grafiquelos y trace la línea de regresión. d) Estime la cantidad de empleados en el año 2003, ·. . . . .•. . . . ·... ··•·. e) En promedi.o, ¿cuánto aumentó (o disminuyó) el número. de empleados por añ() .durante el periodo? 1.8. A continuación. se da et precio de venta deúna acción de PepsiCo,lnc. al cierre del añ<,: Año
1990 1991 1992 1993
"'"PT~ciO
12.9135. 16.8250 20.6.125 20:3Q24
Año
1994 1995 1996 1997
18,3160 27:7538 29.0581 36.0.155
Año 1998
Precia.-·_
40.6.111
a) Gr~fique los datos. b} Determirte la _ecuaClóf\ dEí._t~~denCia- pbr]ní~in10~:,.,-c,ua_~ra~ós_ ; e) Calcule. los •puntos correspondientes a. los año~ 1993 y 1~9S. d) Estime el.precio de yentaen 2003. ¿Parece seruqaestirnaciór1r(lzahabl~sé!)úfllosctalos····· del pasado? ·.··... .. ·..·. . . > ·.·: •· · , ; ; .·o e) En promedio,. ¿cuánto aumentó (o disíllinuyó) a11ua}me,nte ~lpr~cio,c]e ,la~a,ccio°'es, duran"·· te el periodo? .. · ................ :···· . . ·... ·.. 19, Si. se graficaran en. papel cuadriculado·cornún,· la~. siguientes· seri~~ (Je ventas aparecerían. qon for111agurva, .Esto .indi.cacque las ven.tas au111enta~aún~ ta~~(p?r~entaíe). a.nual algo c;onsta.n" te. Por tanto, para ajustarlas se debe.usar una ecuación•logarítmica de.llnearect?. (Ventas.en .millones d.e dólares)
·>>
>( :
<
<" ; ·
Series .de tiempo y pronósticos
719
Ventas Año (millones de US$)
Ventas Año (millones de US$)
1991 1992 1993
10.4
1997 1998 1999
199.6
29.3
8.0 13.5
39.4 50.5 65.0 109.0
a) Determine laecuaclón logarítmica. b) En. la recta logarítmica halle las coordenadas de los puntos correspondientes a 1994y1999. c) En promedio, ¿en qué porcentaje aumentaron las ventas por año durante el periodo de 1991 a 2001? · el) Con base en la. ecuación, ¿cuáles son las Ventas estimadas para2002? 20.AcontinUación se indican cantidades de dinero gastadas en publicidad (en mi.les de millones de dólares) de 1990 a 200.0. Año
Monto
Año
Monto
1990 1991 1992 1993 1994 1995
88.J
1996 1997 1998 1999 2000
132.6 141.9 150.9 157.9 162.6
94J 102.1 109.8 118.1 125.6
a} Determine./a-ecuación-.de tendencia togarítmiCa. b) Estime.los gastos publiCitarfos para el año 2003. e) ¿En qué porcentaje aumentaron los gastos anuales de. publicidad durante este periodo? 21. A-continuaciófl' se muestra el precio de.venta.de !as acciones de Oracle !ne.,- tos preCios son al cierre-déf afio. Año
Precio
Año
Pre·cio
Año
Precio
1990 1991 1992 1993
0.1944 0.3580 0.7006 1.4197
1994 1995 1996 1997
2.1790 3.1389 4.6388 3.7188
1998 1999 2000
7.1875 28.0156 29.0625
a) Qrafrque fosdatos . ,.... . .. .•.... . . . .. . .• b) Determine fa ecuacióp detendencia por mi.nimos cuadrados. Use el precio .actual y el lógari_tr110 del,preF_io_~ ¿C_u_ái-._prod_u.c;e u_n_pr_OIJ_óstico más exacto? e) C~lcule los puntos para i?s años 1993y 1988 d) Estime el precio de venta en 2003 .. ¿Parece ser una estimación razonable basado. en los datos históricos? e} ¿Por ct.iántoha aumentado o disminuido el precio por acción (por año) en el promedio duran!<:¡ el periodo? Uses~ m"jor respuesta del inciso b). 22. La producción en la empresa Reliable. Manufacturing Ca., én 1997 y parte de 1998, es la si.guiente:
Producción
1998 PrciciUcción
(miles)
(miles)
1997
Mes E~ero
6
Febrero Marzo Abril Mayo Junio
7
7 g
12 8
14 9
4
5
3
4
Mes Julio Agosto Septiembre Octubre Novieinbre Diciembre
1997
1998
Pro"ducCión
Produccióil
(miles)
(miles)
3
4
5
14 6
7 6
720 /~\p!icanclo
el rnétoclo ele ,"razón a prorn8clio rnóvi!", determine ios valoíes estacione.les especíticos·para julio,- agosto. Y..septíembre ele "t997, __i?) Suponga, que son correctos· !os fndi.ces_ estacionales específicos de la tabla siguiente. Inserte e.h \á tabia los va\otes estaciüna!es específicos que calculó en Ja_ parte (a) pare. julio, agosto-·y,sepl:iernbre ele· 1997, y deteriT1_ine los i2 índices estacionales típicos:
·:1s.2
60:!
43.i
170.2 ·'125.9 t65.8 124.7
59,4 62:.i 57.6
48.6
? 44.0 44.2
4.1.7
48.2
')78.9
88.9 'I02.9 81.6' 103.7 7_9.8 ·¡os.589.0 ·112:1
182.9
'i.15.1
? 74.0 77.2 72:1
92.·1 ? 200.9 90.0 196.5 89.6 203.6 80.2
92.8
106.5 ·101.9 ·ti3.2 103.0
90.9 80.6
94.2
..5tL9:
e) Interprete el..indice _estaci,op_?l típiCo. 2.3,:LcJs-ventas:ell un.a.-bµutiqtJEJ .en-:"!0_96.Y parte·'.de,, !997 s_on {E;!n .mil8s:_de dólares):
¡\~es
1096 v<~;~tas ·(ríli1es
Enero Febrero
78 72
i\/larzo
so
Abril Mayo Junio
t9f17. Yeíltas tJS;~J
i:¡.jf:!35116ll'lt3S
i:le UIS$)
l\f!BS
l'fV:':J7 ventas {rniles de lJ5$}
65 60
Ju!io
81
55
r~gosto
85
72
Septiembre Octubre Noviembre Diciembre
90
6'! 75
97
·110 92
86
36
72
98 ·¡·¡5 -r30
a} Ernpieando,ef inéto'd6de '.'razón a pron1edio n1óv1l'-', determine los valores estacionales especí·fico$ pe.ra·juno 1 agostor . Septiembre_ y .octubre de·'!-996. ·Suponga que: son ·correctos. los Valores éstacionales. 8s!Jecíficos de !a tabla siguiente. lnserte--en. la rriisnia'.los:Valores estaciona!eS"·específ.lcos- que· caléu!ó en la parte (a) para julio, agosto, septiembre y octubre de ·¡ 996, y. determine ¡os l2 fncllces estac;ionales típicos.
-------------------·----------Abr. 0JlB.yG_ Jl11L Agu. Sept üi:;t ~lirn1. , [)ic. --~---~--?___;c?_ __:?___?_ _ _.1_2_3-.6--15-0-.9-I
~-;--~---.
~!)
!
.::ne. ·¡ 996
lr8B,
1 ·1997
83.9
77.6
86:1
li8.7
99.7
92.0
87.0
9'1.4
97.3
105.4
·124.9
140:1
1.998.
86'.7
i2i.3 125.6 ·:"f5'7
96.6 99:6 id0.3
92:0 94.4 89.7
93.5
93.2 103.2
·126.i
85'.6
StL2 89.2 85.8
85.5
·¡999 . 2000 1
72.9 65.8 8i.2
88.9
90.2
14t7 139.6
.
77.3
100.2
·102.7
·121.D
'c}__ ,.t0_te_r.P'.¿t~ .~'1,- íP:_tl.l~,E: ·e·st8clona!.::_tf¡j.fc·o~: L8. producción_ tri_mestra!.de· 111adel'.a_·d_e .p!nO. , desde·:t996;,
hliHOn.GS.'de pies tabla, por !a negociacíón
\\lor:\h'N~st L_urn~rE:J·,.
a} Determine_.8fpatrón estaciona! típico de l~-s datos de pí-odLicbión, empleando ef método cie "razón.,~- p.ron1edío rnóvil'r. bJ interprete· e! patrón, e) DesestaCiciri8.!ice !os datos· y determine la ecuación de 'tendencia lineal. fJj Proyecte la-"ptoducción ajlistada estacior\8¡ a los cuaíró trirnestres dé 200·¡.
Series de !iempo y pmmís!ioos
¡//
721
:?5 •.Ja empresa WorkGloves Corp.revísa l¡¡s.yentas trimestrales de su producto Toughie, el guante más durable que produce. Las cantidades de· pares producidos (en millares) por trimestre son:
Trimes1re
1995 ·¡995 ·1997 1998
Abr.-Jim.
Jul,-,Sept.
Oet-Die.
312 318 330 338 380 362
488 5"12 602 572 563 587
208 212 187 176 200 205
142 14& 160 158 162 162
rngg 2000
a} Usando·el·tTiétodoTí8 j(raZón ·a prohiedío móVH"'; d8termlne./os cuatro' índices trimestrales típicos. b) __ lnfarpreteel •patrón estacional típico. 26; tas· vénta·s de-alumínio,-por trim_estre;-deSde 1994· stf ihdican'a continüación (en· milfones de dólatM):
Trimestre 11 m
Afio 1994 1995 1996 ·1997 1998 1999 2000
210 214 246 258 279 302 321
180 216 228 250 267 290 291
60 82 91 113 '¡"[ 6 .114 120
IV 246 230 280 298 304 310 320
aj Determine los patrones estacionalés típicos de fas ventas empleando e! método de "razón a promedio móvll". bj Desestaciona!ice los datos y obtenga fa ecuación de tendeÍlcia. e) Proyecte las ventas a 200·1, y después ajuste• estacionalmente cada trimestre.. 27. Las. tasas.de ·movimiento de i.nventárlo de lct emp-resa Basset Whofesare Enterprises, f'.lcir tri-. mestre, soh:
Trimestre. Año
1996 1997 1998 1999 2000
4A 4.1 3.9 5.0 4.3
11 f).1 6.6 6.8 7.1 5.2
111
l\Í
11.7 11.1 12.0 ·12.7 10.8
7.2 8.6 9.7 9.0 7.6
aj Obterga fas. cuatró .taset_s _de m'ovifriientb trlmestra!eS típicas para la mencionada compa-
ñ.ía_'.-.qsando el .rriétodo de:"raZón a .Prornedi_o móvW'. b) Desestacionalic~ los datos y determine la ecuación de tendencia. e) Proyecte las tasas de cambio para 2001, y ajuste estacionalmente cada trimestre de ese
año.
.·
__
28. Acoritíriliación se déf·8r .íl'qIT18ro. d.6j_ÜbHacJ·o~{í:¡ue recíbe)Je.ne,fi_cicis def Sistema de Mae-stros Jubilados del Estado. deühio, desde .1991 h
722
---· 1995 1996
436 59 994 a-1 515 53182
1992 1993 1994
1997 ·¡993
SBrviclo
Año
Servlcl0
67 989 70 448 72 601 75 482
·¡999 2000
78 341 81 111
a) Gráflcjll8 los dátüs
b} DBtei'mine la ecu8.cíón de tendencia ele rhínimos cuadrados. Use una ecuación linea!. :e) Calcule los puntos·torrespondientes a !os.años ·¡993 y i998. a'] Estime el nl1mero- de jub\lados que estará recibiendo beneficios en el año 2003. ¿Parece ser.un estlrnado estacional, según los elatos anteriores? e} En promedio ¿cuánto ha aumentado o clisn1inuido (por año) e! nl1mero cie jubilados·durante este periodo?
29. Ray Anderson, propietario de !a Anderson Ski Lodge, localizada en Nueva York, desea p1·onostlcar el. nt'.1mero de visitantes de! año entrante, Se.cuenta con los datos trimestrales siguientes desde ·¡994. Obtenga e! índice estacional de cada trin1estre. ¿Cuántos visitantes se esperarían en cada trimestre _de 2001.-, _si_ el propietario considera que-habr~ un áurnento de i 0% en Eil núme_ro total de visitant_es en 200_0?. Determ_ine_ !a_ecu'ación-de tendencia, proyecte e! 11C1mero de v(sitantes para 200i, y ajuste estacionalmente e! p1·onóstico~ ¿Qué predicción escogería?
r
Trimestre
!liio , ·1994
11 111 IV rn9s
1
11 111 IV 1996
11
m IV 1997 11 111 IV
Vlsitantes
Afilo
Trimestre
\lisi!antes
86
62
1998 11
28 94 106 82 48 114 ·140 120 82 154 rn2 140 100 174
111 IV 1 11
·1s3 172 128
1999
rns 208 202 154 220 246 240 190
111
IV 1 11. 111 IV
2000
252
30, El regiSfro de fnsCripciürí8S trimestrales en la Escueia ele Aelrninistra_ción de la Mid1J118stern Univ·ep¡ity, eles.de '1996, es:
1.99..6 1997
2 033 2 174
1 8T! 2 069
TI 4 840
. ·¡993 1999 2000
2 370 2625 2 803
2 254 2478 2 668
927 1136
1
2 318 2 4·13 2 704 3 00·1
Usando el método dG razón a promedio_ .móvil: a} Determfre !os cuatr() índiCe~- tril-n~strales: bj !nterprete el patrón trimestral ele inscritos;·--¿Le sorpre·nde !a· variación estaciona!? e) Calcule la ecuación ele te1dencia y pronostique !a inscripción trimestral en 200i.
723 3·t La co_mpetición_ ~arriie_ F~rr Kroger Classíc es un torneo LPGA (Golf P_ro-fesionaf Femenil) que se jueg_El en _ Tolf;d_o, Ohfo,_-qada _a1lo. A 'contin_ua~_ic)n se· ind_i,can la _bolsa tata! y el prernío para !_a ganadora_en_ el_fapsáde. ·¡5 a~os, clesde.1987 hasta 2001. Obténga una ecuación efe tendencia para_ambas_variab!es. ¿Qué.variable está subiendo a !a tasa más rápida? Pronost!qqe el monto de 10 boJsa._y e! preroio para !a Qªn_ado_ra en el año 20D5. Calcule !a razón_del_ p_ren1io -~-itgc:Jo~-- §\/, _ 1]9Dt9.,-Sl~.J<;t.boJ_sa:total,--¿Qué.enco11,tr6?:::¿_Qué-variable·-sErpuede'·ccllc'U!á/-cbh-tfiáS -·"··preC{S-iÓn-~ e! monto.de Ja bolsa o el_ premio a la ganadora? Afio
8ofsa
Premio
Año
Bolsa
Premio
1987 1988
$225 000
$33 750 41250 4l250 48.750 52 500
1995 1996 1997 1998 1999 2000
$ 500 000
$ 75 000 86 250
1.989 ·1990 1991 1992 1993
jgg4
------
ººº 325 ººº 350 ººº 400 QOO 275 275000
.1+90.o_qq.
5.ooooo
ººº
60 67.500 75000
ººº
575 700 000 800 000
ººº ·1 000 ººº
800 1 000 000
--------··--~~~~--------
rns ooo 120 000
ººº 150 ººº 120 150 000
----
ejercfcios.córn. 32:Vaya al ~itioe11 laRedde.laDirección.de .Est<.ldí?fica.laboral, www.bls.gov, pul~E)sob¡~.lil'op c(SQ'J~-;{'.lnspmer·P~fc6: fr1dex1 .sele_ccion~ ._Most:_f?equ_~sted Series, Pr!ces a!Íd tiVing· CÜn-d1··
tk1n_s.!_·:--y_:____ f~r~_9,º: ,.Constun~r ·Price-_ tndex~;All tJ_rban. _ ccnsumer {Ctarrent. Series), Pida fas re$ultados·an_u~les de /o·sú!tln;os:_-_10 n . 2_0 _ aflo_?-_-_De_sar,rol!e fa ecuación de regresión de! Índice cf,e Ftr,ep_l,o,s_:at_ Cons_~_rmi_d?r_qt::f_-_P~_riod~_-:eregid_?:·:Use,.ta_nto el n1étodo lineaf como e! !ogarítmico. ¿CuáJ9pina u¡;tedque esrnej9r? .. ·.· •······· .. ·.• ·... ·... 33_,:q~r~r_1n_lfJ~}-líl.~_-!fn~_a,_de._te,_nd_en_cf~-,d~ _l,o_~_-ú_!_tírn_p;:>_tO ,PJ~os de una empresa grande o conocida como Gf\11, Generar Electrfc o ~/lícrosoft. Váy'a at sftio de !a empresa en !a red. La mayoría de la.s empresas tienen una sección \!amada "Información Financiera". Vea ahí fas ventas de los últimos iO años. Si no sabe cuál es el sitio de !a empresa eh la Red, vaya a la sección fínan~ clera de Yahoo o de USA- Today,. donde podrá encontrar el sítnbo!o de la empresa dando el nombre de !a rnisma. A través del sím'oo!o podrá llegar el sitio de !a empresa y obtener !a información. El símbolo de G~/l es precisan1e11t'e G/l;J, el de Genera! EJectric es GE. Comente sobre la línea de.tendencia de la empresa se!ecclonacla en lOs últimos i Oaños. ¿Es !a tendencia creciente o decreciente? ¿Corresponde fa tendencia a una ecuación linea! o a uria ecuación !ogarítnlk:a? 34•. Efíjá liiio dé fos pdnC!pa!es indicadores económicos, cómo por ejemplo el Promedio Dow Jo~ nes, e!' Na.sdaq1 O.el S&P 500. Obtenga !a !ínea ere· tendencia del índice de los úftimos _i O años usando el.valor_ de! índice .a! "fina! del afio_, íJ en l()S .l11tt_m_os·3,0.día$· ellgiendo .eLvatof de c18rre de! índice en los últi_mos 30 dfas. Esta información se puede obtener en rnuchos iugares. Por ej8mp\o v.:lya a htt¡:)://frnan'Ce.Yahoo.coin, pu!se en la esquina inferior clerec!la sobre Nasdaq, elija Historicaf quot.es.y algún periodo,_quizás los li!tírnos-30 días, y eilcontrará !a !nforn1acJórl. Tendrá que .bajarla directarnente a _Ex_c_el para obtener !a- ecuación de tendencia. Comente so"" bre ra lfnea de tendencia que obtuvo. ¿Es creciente o decreciente? ¿Sigue Ja línea ele tendencia, una ecuación lineal o _una ecuación logarftmíca?
Ejerdcios con datos para cornputadora 35. Vaya a !ós_ datos de béisbol (B'asebal/ 2000) que contienen info.rmación sobre la temporada_del año 2000 de .la Li'ga ~Jlayor de BéísboL. Los datos presentan ef salarió pron1edio de los jugado:. res de'sde 1976, y e! saíario m·ediano de· !os jugadores desde ·¡ 983. Gr8flque estas Ífffonnacfo .. nes y obtenga una ec;uación ele tendencia linea! para cada una. Compare la tasa de íncre111ento de la tnedlana con la tasa de increinento de- la media. Escriba un breve reporte sobre sus ho.llazgos,
724
Capílu!o 19
Coroandospara.coroputadora. 1. Los comandos deMINITABpara obtener la gráfica defdíagrama ·19.4 en la página 697 son: a) Introduzca el año o el p~rioclo y los elatos en 2 co.rurrinas: b) Elija ~tal, Regressíon y Fitte.d Une P.lots y presíon€) Enter. · ·e)· En. Respon~e (Y) elija la v~riable da la serie detiemp~y ~lija eLperiodo..deJiempo .c.omoe.1 Predícto.r (X):• Pulse sobre Linear. como Type of Regressípn, Si quiere darle un título al diagram_a o hacer una-transformación,. pulse sobre.Options y elija las-opciones adeé:uadas. PrEiSíoné: en OK. 2.. Los comandos de MegaStat para obte9er los íncjices estacionales de la página 710 son: a) Introduzca lostiempos codificados y los valores de !aserie de tiempos en dos columnas. Puede _introducir tam_bién. inform~pión_sobre_l_9s __ años y trimestres. b) Elija MegaStat, Time Seríes/Forec~sting,.y ['.leseasonaliza!ion y pulse en Enter. e) lntroduzqa el rango tje los datos, indique que los datos están en eí primer trimestre y pulse en OK. · ·
]l'
i2
:~
~
9~
q¡
u
Ti
"
D
§_
~
D
:Pfü
o -r 996 i 99l ·¡ 998 -1999 2000 200-r aj
t
tlog V
J~ftG
V
1-D:Q-V
·¡997 -¡993-
2.13 18.iO 39.80
0.3284 'f.2577 1.5999 1.9'108' 2.0492
·45
0.3284 2.5·¡54 4.7997 7.6424 '!0.2460
7.i458
15
25.5319
1999 2000
8'!.40 1·i2.oo
2001
2 3·
cr.
- .• 5(25.s3·J 9)_ ~- i 4ssJr1 QJ 20.412s _ D = - - - · - - - - - - = ............;::. _ _ = Ü L~0945 -_ . 5(55}--_(i5}2 - ' -_ 50 . >
._a=~ . 7:i458 '09 '5('.15\ . 02'003·1 --o.4 "L • . • s)=J.,
5
' 0:1 Aproxirnaclarnente ·¡ 56. 7%. El antilogadtmo ele D.40945 es 2.567, y restando·¡ resulta ·J.567. e) J\!r8dedQr ele 454.5, _·que se obtiene de Y' ""'0.2008·¡ + 0)~0945(6):::: 2:65751. Ei antHofJ<:lrltrno de 2.6475-J es 454,5. · ·10.4 a1i Los valores siguientes se- tomaron de un pa, quete para cornputación. Üebído a! redondeo; sus sl'iras ·pu8dén ser un poco diferentes de !a~
'mávil
10
tl~-;
que- aquí se presentan.
bj Las ventas típicas en Tetan Vilh:19e en la estación de lnvíerno son -¡ 9.35% por arribá del pro..:, n1eclío anuaL ·19,5 E! valor pronosticado para enero del sexto año es 34.9, que se obtiene de
Y' Ajustando
~
4.40 + o.5(6'!) ::::o- 34.9
ei pronóstico iastacionaf qu_eda; ::o: 4t.88. Para 'febrero, Y' = 4.40 +
-34,9{-l20j/i00
Oi'!;;!i:lT!ilOS .Al terminar este capítulo podrá:
Definir los términos estado de la naturaleza, evento, alternativa de decisión, y ganancia .. DOS
Organizar la información en una tabla de ganancias o en un árbol de decisión. 'W\M\~$
Determinar la ganancia esperada de una alternativa de decisión.
Calcular la pérdida de oportunidad y la pérdida esperada '.iCi.c •i >•··.de oportunidad.
Evaluar el valor esperado de ía información.
Introducción a Ja teoría de decisiones
727
Introducción Desde principios del decenio de 1950 se ha desarrollado con rapidez una nueva rama de la estadística llamada teoría estadística de la decisión. También se usa el término estadística Bayesiana para designar esta rama de la estadística. Como lo indica el nombre, el objetivo principal de la teoría estadística de la decisión es el proceso de la toma de decisiones e incluye, explícitamente, los beneficios o ganancias que pueden resultar. A diferencia de esta rama de la estadística, la estadística clásica se ocupa de estimar un parámetro, como la media poblacional, elaborando un intervalo de confianza, o realizar una prueba de hipótesis. La estadística clásica no se ocupa de las consecuencias financieras. La teoría estadística de la decisión se enfoca en determinar qué decisión se debe tomar, de un conjunto de alternativas posibles, es el óptirno para un conjunto determinado de condiciones. Considérense los siguientes ejemplos de problemas de teoría de decisión. •
La empresa Ford Motor Company tiene que decidir si adquiere cerraduras ensambladas para las puertas de su nuevo camión modelo F-150, o fabricar y ensamblar las partes en su planta de Sandusky, Ohio. Si las ventas del nuevo camión siguen aumentando, sería más redituable fabricarlas y ensamblarlas. Si las ventas se mantienen constantes, o disminuyen, sería más redituable comprar las cerraduras ya armadas. ¿Qué decisión debe tomarse? ' La empresa Banana Republic (en EUA), acaba de diseñar una nueva línea de chaquetas que tiene mucha aceptación en las regiones de clima frío. A tal empresa le interesa comprar tiempo de televisión comercial durante la próxima temporada de basquetbol de la NCM. Si los dos equipos que participan provienen de las regiones templadas del país, Banana Republic estima que sólo una proporción pequeña de los espectadores se interesaría en su ropa. Sin embargo, un encuentro entre dos equipos que vienen de climas fríos podría atraer a una gran proporción de espectadores que sí usan esa ropa. ¿Qué decisión debe tomar esa compañía? ' La empresa General Electric Co. está considerando tres opciones respecto a los precios de los receptores estereofónicos para el año próximo. Esta compañía podría: (1) subir los precios 5%, (2) subir los precios 2.5%, o (3) dejarlos tal como están. La decisión se basará en las ventas estimadas y en el conocimiento que GE tenga de lo que puedan hacer otros fabricantes de receptores estereofónicos.
Cada uno de estos casos de decisión está caracterizado por varias posibilidades de acción y diversos factores que no están bajo el control de quien toma la decisión. Por ejemplo, Banana Republic no tiene control sobre cuáles serán los equipos de basquetbol que llegarán a la final. Estos casos caracterizan la naturaleza de la toma de decisiones. Las alternativas posibles ele decisión se pueden enumerar, los posibles eventos futuros se pueden determinar, y más aun se pueden establecer las probabilidades, pero las decisiones se toman en condiciones de incertidu1nbre.
En cualquier caso de toma de decisión existen tres componentes: (1) las opciones o alternativas posibles; (2) los estados de la naturaleza, los cuales no están bajo el control de quien decide; y (3) los beneficios o ganancias. Estos conceptos se explicarán en los párrafos siguientes. Las opciones o alternativas son las opciones disponibles para quien ha de to1nar la decisión. Ford puede decidir fabricar y ensamblar las cerraduras de las puertas en Sandusl
728 rna ia decisión puede elegir entre un pequefio nl1mero de posib!es resultados. Sin ernbargo, con !s. ayuda de \as computadoras, las opciones pueden arnp!iarse a un gra.n núrnero de posibilidades. Los estados de lla nat.un:iiez.a son los eventos 'futuros que están ·fuera de control. E! estado de la naturaleza que ocurre en realidad, está fuera del control de quien ton12 la decisión. Ford no sabe si-la-demanda- por !os.carniones__ F-1_50 s~,.rnantendrá elevada. Bane.na Republic no puede determinar si jugarán en la finai de .basquetboi ele la NCi).J-\ los equipos provenientes de regiones con clima ten1plado o frío, en Estados Unidos. Una 9anancia (o beneficio) es necesa1·ia pan::i. cornparar ias di'ferentes combinaciones de ias a\ternativas de decisión y estados de \a naturaleza. LB. en1presa Forci puede estin1ar que si ensambla !as cerraduras de las puertas en su pianta de Sandusky, y la demanda. ele sus nuevos carniones i=- "! 50 es baja, la ganancia sería $40 000 (dólares). f:.\ la inversa, si con1pra !a.s cerraduras ensambladas y !a demanda es a!ta, la ganancia estimada será $22 000. Los elementos principales de la ton1a de decisión en condiciones de incertidumbre se lc\entiflcan en fonna esquemática, como se indica a continuación:
f
c~S'ílanCiá.
~ Igualación. l Pé1·dicla.
En n1uchos casos se pueden ton1ar decisiones más adecuadas si se asignan probabilidades a !os diversos estados de la :iatura!eza. Estas estimaciones pueden basarse en información histórica o en estlrnaciones subjetivas. La 8!Tlpresa Ford puede estimar que la probabilidad de que la de111anda continlle alta es 0.70. La compañia. G1E puede estimar que \a probabilidad de que Sears y otros 'fabricantes· eleven e! precio de sus aparatos estereofónicos es 0.25.
Un caso referente a torna de decisión en condiciones de ince1tidur11hre Desde el principio se aclara que en la descripción de este caso se incluyen sólo los conceptos fundarnentaies que se enccentr8.n en una torna de decisión, El propósito de exarr1ina1· este caso es explicar el procedin1iento lógico a seguir. En muchos casos habré. otras variables por considerar. El primer paso es establecer una tabla de ganancias.
labia de ganancias Un inversionista pequeño, Bob Hil!, tiene $1 i 00 (dólares) para inve1·sión. Bob ha estudiado varias_ acciones con1unes y escogió t:·es, que son Kayser Chemicals, Rirn Hon1es y Texas Electronics. Él estima que invierte sus $1 i 00 dólares en Kayser Chen1icals, y si hubiera una
729 fuerte alza en el mercado a 'fin de año (esto es, si !os precios de las acciones se incrementan drásticamente), el valor de sus acciones de Kayser se elevaría a más del doble, $2 400. No obstante, si hubiera una ceída del mercado (es decir, si Jos precios de las acciones disminuyen), el valor de sus acciones de Kayser caería, posiblemente hasta $1 000 al final del año. Sus predicciones respecto al valor de su inversión de $1 100 en cada uno de los tres grupos de acciones si surge una alza del mercado o en el caso de una baja en e! mercado, se i11uestran en la tabla 20. 1. Ésta es una tabla de ganancias,
TABLA 20.1 'fabla de ganancias para tres acciones con111nes bajo dos condiciones de 1nercado.
Cmnpra l
A las diversas opciones se les conoce
Mercado
Mercado
ala alza, sl
a la baja s2
$2 400 2 200 '[ 900
$1 000 1100 1150
co1110
alternativas u opciones de decisión. En
este problema hay tres. Sean A 1 la compra de acciones de Kayser Chemicals, A 2 la adquisición de acciones de Rim Homes, y A 3 la compra de acciones de Texas Electronics. Que el mercado vaya a la alza o a la baja, no está bajo el control de Bob HilL Estos eventos tuturos no controlables son los estados de la naturaleza. Sea 5 1 el mercado a la alza, y 5 2 el mercado a la baja.
Ganancias esperadas Si la tabla de ganancias fuera la (rnica información disponible, el inversionista podría actuar con prudencia y adquirir acciones de Texas Electronics para asegurar al menos $1 150 (dólares) al ílnal del año (una ligera ganancia). Sin embargo, una especulación aventurada sería comprar acciones de Kayser Chemicals, con posibilidad de obtener más del doble de la inversión inicial, $1 1OO. Cualquier decisión respecto a la compra de una de las tres clases de acciones, ton1ada sólo con base en la inforn1ación de Ja tabla de ganancias, no tomaría en cuenta /os valiosos registros históricos mantenidos por Moody's, Value Line y otros servicios de asesoría en inversiones, relativos al movimiento, a largo plazo, de los precios de acciones comunes. Por ejemplo, un estudio de esos registros reveló que durante los (rltimos 1O años, los precios en ef mercado de acciones comunes aumentaron seis veces, y disrnlnuyeron cuatro. De modo que puede decirse que la probabilidad de alza del mercado es 0.60, y la probabilidad de baja, es OAO, Si se supone que estas frecuencias históricas son representativas en alguna forn1a, puede verse que la tabla de ganancias y las estimaciones de las probabilidades (0.60 y OAO) pueden combinarse para obtener la ganancia esperada de la compra de una de las tres acciones comunes. A la ganancia esperada también se le conoce co1110 valor monetario esperado, abreviado como VME (o EMV en inglés). También puede describirse como ganancia media, Los cálculos necesarios para obtener la ganancia esperada, por el acto de la compra _de !as acciones de Kayser Che111icals, se 111uestran en la tabla 2.0 .2.
TABLA 20.2
Ganancia esperada del acto de adquirir acciones de l(ayser C:hen1icals, VT'vl.E, (A 1). Estado de la naturaleza
Ganancia
Probabilidad del estado de la naturaleza
Valor esperado
.~~~~~-~~~~~.
Mercado a la alza, S1 Mercado a la baja) S2
$2 400
1 000
0.60 0.40
$1 440 400 $1 840
730 Para expi!car un cálculo de valor monetario esperado, obsérvese que si el inversionista ha comprado acciones de Kayser Chen1icals, y los precios en el mercado disminuyen) el valor de la acción sería solamente $1 000 (dólares) al llnal del año (ele la tabla 20."I). Sin embargo, la experiencia .rnuestra que este evento (una baja del mercado) ocurre sólo 40% de las veces. En consecuencia, a largo plazo, una baja del n1ercado contribuiría con $400 a la ganancia total esperada de las- acciones con1unes 1 ..va!or obtenido de: $í 000 x 0.40. Al sumar $400 a ios $-1 440 esperados en condiciones de a\za de) n1ercado, se obtienen $i 840, !a ganancia esperada a largo plazo. Esos cálculos se resumen como sigue:
donde: VME(A,) se refiere al valor monetario esperado al cleclcllrse por la opción i. Puede haber muchas opciones ..Aquí i representará la decisión por !a primera opción, 2 por la segunda, y así sucesivan1ente. E\ subíndice i representa todo e! conjunto de decisiones. ,º(Sj) se refiere a Ja probabilidad de !os estados de la naturaleza. Puede haber un nún1ero i!in1itado, de modo que el subíndice j representa estos resultados posibles. V(A 1, S1) se re-fiere al valor de las ganancias. Obsérvese que cada ganancia es el resultado de una combinación de una alternativa ele decisión y un estado de \a naturaleza. VME(A 1), e) valor monetario esperado al decídirse por la opción de coi11prar acciones de Kayser Chen1icals, se caicu\a como sigue: VME(A 1 1= P(S 1)
x V(A,. S1) + P(S2) x V(A 1 ,
= 0.60($2 400
+ 0.40($1 000)
S2)
= $1 840
La compra de ias acciones de Kayser Chemica!s es sólo una de las posibles opciones. Las ganancias esperadas de los actos de compra de !as acciones de Kayser Chemicals, liim Homes y Texas Electronics, se muestran en la tabla 20.3.
TABLA 20.3
GananciHs
esperada~
p
Compra Kayser Cl1emicals Rim Homes LTexss Electronics
Ganancia esperada
s·; s4o i 760 1 500
Un análisis de las gananci.ss esperadas que se muestran en !a tabla 20.3, indica que la compra d8 acciones de Kayser Che111icals daría el mayor rendin1iento. Este resultado se basa en: (í) la estimación del inversionista sobre el valor futuro de las a.cciones, y (2) la experiencia histórica con respecto a la alza y baja de los precios de acciones. Debe hacerse hincapié que a pesar de que la co111pra de acciones de Kayser representa la mejor opción usando el criterio de! valor esperado, e! inverslonísta puede decidir la co111pra de acciones de Texas Electronics, con objeto de minirnizar e\ riesgo de perder parte de !a inversión de $1 100 dólares.
[Autoexamen 20.1
Verifl~¡ue !a.conclus. ión mos:.tra.d.a en !a. tab···•l·a·:·2.·-Ü· . 3, deque la ganan~la esperada del acto.de comprar acciones ele Rin1 Homes, es Sí 760 dó!a1-es.
1
731
Ejercicios -~--·---·-
~"
Se ha elaborado la siguiente tabla de ganancias {valores en dólares). Sean t9 (S 1) = 0.30, P(S 2 ) ::: 0.50 y P(S3) = 0.20. Calcule el va!or rnonetario esperado en cada una de las opciones. ¿Qué decisión se recornendaria?
Ail:ernaftivas
A,
A, ~J 2. La empresa Wi!helms Cela Cornpany planea lanzar al rnercado una nueva bebida con sabor de piña, el próximo verar:o. Hay que decidir si se va a presentar ei nuevo refresco en bot8!1as retorna.bles o no retornables. /\ctualn1ente la legis!atura estatal está conSiderand6 la eliminación de las botellas no retornables, Tybo Wilhe!ms, e! presidente de esa con1pañía, ha estudiado el problema con su representante ante ei gobierno del estado y ha éstlmado que la probabilidad de que se prohíban los envases no retornab!es es O.lo. La tabla siguiente 1nuestra las ganancias mensuales estimadas (en miles de dólares, rndd) si dicho refresco de piña se presenta en botellas retornabies en co111paración con las botellas no retornab!es. Por supuesto, si se aprueba !a !ey, y .a decisión es presentar Ja bebida en envases no retornabies, todas las ganancias serían producto de ventas fuera cieJ estado. Calcule la ganancia esperada para ambas decisiones de embotellado. ¿Cuál recomendaría? 1
1
j Alternativas
1
Botella retornable
j Botella no retornab!e
La ley se (miles de dólares), s1
apn.1eb::~
80 25
Pérdida de oportunidad Otro n1odo de analizar una decisión respecto a qué acciones se deben comprar, es detenr,inar la ganancia que pudiera perderse debido no conocer al estado de la naturaleza (co111portamiento del mercado) a! momento de adquirir Jas acciones. A esta pérdida potencial se llan1a péi"d¡da de oportuni_dad o dep!oraclón. Por ejemplo, supóngase que e! inversionista h2 ·comprado acciones de Rlm Hon1es y ocurre una alza en el 1nercado. Suponga, además que e\ valor de las acciones de Ri111 Homes subió de $1 iOO (dólares) a $2 200, como se había previsto. Pero sl e! inversionista hubiera cornprado acciones de Kayser Chemicals y el vaior hubiera aumentado en el n1ercado, el valor de sus acciones de Kayser sería $2 400 (ver la tab!a 20. i ). En consecuencia, el inversionista perdió la oportunidad de obtener una ga.nancia extra de $200 por haber com'.)rado las acciones de Rín1 Hornes en vez c!e Jas acciones de Kayser Chemica\s. Expresado en otra -forn1a, los 200 dólares representan la pérdída de oportunidad por no conocer el estado correcto de la naturaleza. Si los precios de! rnercado subieran, el inversionista cleplorar/a haber co111prado las acciones de Rim Hornes. Sin erri,bargo, si l1ubiera adquirido las acciones de Kayser Chen1icals y los precios de! n1ercado hubieran aumentado, no tendría qué la111entarJo, esto es, no habría pérdida de oportunidad. Las pérdíc!as de oportunidad correspondientes a este ejen1plo se rnuestran en !a tabla 20.4. Cada cantidad (pérdida de oportunidad) es el resultado de una combinación específica de aci:os y de un estado de !a natura!eza, esto es, con1pra de acciones y reacción del mercado. Es evídente que !as acciones de t\ayser Chemicals serían una buena opción de inversión en un mercado a la a!Za, las de Texas Electronics serían !a n1ejor opción en un mercado a la baja, y !as de Rin1 Homes son, en cierta fon11a, un punto intern1edío.
732
Capítulo 20 TABLA 20.4 Pérdidas de oportunidad correspondientes a diversas combinaciones de comprns ele acciones y 1novinúentos del increado. Pérdida de oportunida_d____l Mercadn a la alza
Compra
i\utoexame1120.2
o
.i
Kayser Chemica!s Rim Homes Texas Electronics
fü'le1·cado a la baja
$150 50
200 500
o
Véase la tabla 20.4. Compruebe que la pérdida de oportuniclacl por: a) la compra de RimHomes, dado un. mercado a la baja, es $50 (dólares). b) la compra de Texas Electronics dado un mercado a la alza es $500.
·---------·____J Ejercicios 3. Vea el ejercicio i, elabore una tabla de pérdida de oportunidad. Determine tal pérdida en cada decisión. 4. En relación con el ejercicio 2, referente a !a empresa \fl/ilhelms Cola Co., elabore una tab!a ele pérdida de oportunidad y calcule la pérdida de oportunidad en cada decisión.
Pérdida esperada de oportunidad Las pérdidas de oportunidad mostradas en la tabla 20.4 también omiten la e)rperiencia histórica de los movimientos del mercado. Recuérdese que la probabilidad de alza del mercado es 0.60, y la de baja, es 0.40. Las probabilidades y las pérdidas de oportunidad se combinan pa-· ra. determinar la pérdida esperada de oportun;ctad (PEO). (En inglés, EOL, de expected op-po1tunity loss). Los cálculos correspondientes a la decisión de comprar acciones de Rim Homes se muestran en la tabla 20.5. La pérdida esperada de oportunidad es $140 (dólares). Interpretando lo anterior, la pérdida esperada de oportunidad de $140 signiíica que, a largo plazo, el inversionista ha de perder la oportunidad de obtener una ganancia adicional de $140 (dólares) si decide comprar acciones de Rim Homes. Se incurriría en esta pérdida esperada porque el inversionista no pudo predecir la tendencia del mercado de valores. En un mercado a la alza hubiera ganado $200 más al adquirir acciones de Kayser Chemicals, pero en un rner· cado a la baja hubiera ganado $50 más si hubiera adquirido acciones de Texas Electronics. Cuando se pondera la probabilidad del evento, la pérdida esperada de oportunidad es $140. TABLA 20.5 Pérdida esperada de oportunidad para el acto de comprar acciones de Rini. I-io111cs.
Estado de
Pérdida de oportunidad
la naturaleza
s,
Mercado a la alza, Mercado a la baja, S2
$200 50
Probabilidad del estado de
la naturaleza 0.60 0.40
Pérdida esperad.a de oportunidad
$120 20 $140
Esos cálcu!os se resumen como sigue:
PEO(A.) 1
'°' Z[P(S.)x R(A,, 8 --;:zj~l '____j ..
J'
)] 1'
733 donde:
PEO(A¡)
designa la pérdida esperada de oportunídad que corresponde a una cleten1ii-· nada alternativa de decisión. expresa la probabilidad asociada a los diversos estados de la naturaleza. P(S) R(A¡, S) se re"fiere a ia deploracíón o pérdida de una determinada con1binación de estado-de la natL raieza y opción para ia decisión. 1
Se tiene que PEO(A 2), ia depíoración o pérdida de oportunidad por elegir las acciones de Rim Hornes, se calcula en la forma siguíente:
PEO(A 2)
~
P(S¡) x R(A 2 , S 1) + P(S2) >< Rl/A 2 , S2)
= 0.60($200) + 0.40($50) = $140 Las pérdidas esperadas de oportunidad de las tres opciones de decisión se n1uestran en ia tabla 20.6. La PEO n1ás baja es $60 (dólares), lo cual significa que e! inversionista experi-· 111entaría la 111enor deploración a largo plazo si compra acciones de Kayser Chemicals.
TABLA 2ü.B
Pérdicb.s esperadas de oportunidad ('en d6Ia1cs) para h1s Lres clases de i
",,.-¡
r 1
Gomorn
l
j Rim Homes 1
~icciones.
Texas Electroni~s
"º'"'ªª esperatia
1 .¡·
de oporti.midaci
$ i40 60
1
300
!ncid.enta\n1ente, obsérvese que la decisión de comprar acciones de Kayser Chemicals, ya que ésta ofrece la pérdida de oportunidad n1ás baja, refuerza Ja decisión tornada con anterioridad, de que !as acciores de Kayser finalmente producirían la ganancia esperada rnás elevada ($-1 840). Estos dos .enfoques (pérdida esperada de oportunidad más baja y ganancia esperad.a más alta) siempíe conducen a la rnisrna decisión respecto al curso de acción a seguir.
11'·
~
L¡erc1cJJ.qJs o
---~--="""-'=•
Véanse los ejercicios i y 3. Calcule las pérdidas esperadas de oportunidad. 6. Con referencia a Jos ejercicios 2 y 4. Calcule las pérdidas esperadas de oportunidad.
f).
~~!'.L=-~t~g]~~ ~~ -~~]!ll?=~~~~~t=~~J~i?JÍ~~' =~~~:!~~~-Y=~ni~~~
Estrategia maximin.
Varios consultores financieros consideran que la compra de acciones de Kayser Chen1icais presenta demasiado riesgo. Observan que !a ganancia esperada puede no ser ~$1 840 (dóiaíes), sino sólo $í 000 (de ia tE.bla 20.i). ,L\rgumentan que el mercado de valores es rnuy in1-· predecible, e indican al inversionista que adopte una posición rnás conservadora y cornpre las acciones de Texas Electronics. Esto se !lama una rrnaxirn¡n, ya que ¡71axi1níza la ganancia m/nin1a. Con base en la tabla de ganancias esperadas (tabla 20.1 ), el razonan1lento es que el inversionista debe asegurar cuando rnenos una recuperación de $1 150; esto es, una ganancia pequefia. ,ó, quienes se apegan a esta Gstrategia algo pesirnista se les denon1ína inaximjnh:ntas.
734
Capfürio 20
Estrategia rnaxirnax.
En el otro extremo están los optimistas, quienes seleccionarían las acciones que maximizan \a ganancia máxima. Si se sigue \a estrategia tnaxlmax, el inversionista debe adquirir acciones de Kayser Chemicals. Estas personas (los maximaxistas) insisten en que existe la posibilidad de vender las acciones en el Iuturo en $2 400 en vez de en sólo $1 150, como afirman \os maxiministas.
Estrategia rninirnax.
Otra consideración posible es la estrategia minimax. Los consultores financieros que aconsejan esta estrategia revisarán las pérdidas de oportunidad en la tabla 20.4, y seleccio-
narán las acciones que minimizan la máxin1a dep!oración. En este ejemplo pueden ser \as acciones de Kayser Chemicals, con una máxima pérdida de oportunidad de $150. Recuérdese que se desea evitar las pérdidas de oportunidad. Las deploraciones máximas fueron $200 para Rim Homes, y $500 para Texas Electronics. Desde luego, las partidarios de esta estra-
tegia se !larnan minimaxistas.
Valor de la infonnación perfecta ¿Cuánto vale la información "perfecta"?
Antes de decidirse por unas acciones, e\ inversionista querrá considerar \as ·formas de predecir los movimientos de\ mercado de valores. Si supiera con precisión qué ocurrirá en el mercado, podría 1naximizar !a ganancia adquiriendo siempre las acciones adecuadas. La pregunta es: ¿Cuál es el valor de esta información anticipada? El valor monetario de esta información se llama valor esperado de la inlormación perfecta (VEIP). En este ejemplo significaría que el inversionista conociera ele antemano si subirá o bajará e\ mercado de valores en el futuro próximo. Un amigo del inversionista, que es analista en una gran empresa de corretaje, dijo estar dispuesto a darle información que sería muy valiosa para e! inversionista al predecir las alzas y bajas del mercado. Por supuesto, tendría que percibir algunos honorarios, todavía indeterminados, por tal información, utilizada o no por e! inversionista. ¿Cuál es \a cantidad máxima que pagaría el señor Hill por este servicio especial? ¿$1 O, $100 o $500 dólares? El valor de la información del analista es, en esencia, el valor esperado de la información perfecta, debido a que entonces el inversionista estará seguro de realizar la inversión más rentable.
Val.or de fa información perfecta La diferenci
TABLA 2117 Cülcu!o de la ganancia cspen1cla bajo condiciones de certeza. Probabilidad del estado de
Estado de
la naturaleza Mercado a la alza, S1 Mercado a la baja, 52
Ganancia
la naturaleza
$2 400 1150
0.60 0.40
Ganan:l esperada $1 440 460 $1 900
735 Recuérdese que sí desconoce el co111portarniento real de! 111ercado de valores (condiciones de incertidumbre), las acciones a comprar serían las de Kayser Chemicals; su valor esperado al final del periodo se calculó en $1 840 (dólares) (de la tabla 20.3). El valor de la información perfecta, en consecuencia, es $60, obtenido de: $1 900 - 1 840
Valor _esperado en la compra de acciones bajo condiciones de certeza Valor esperado en la compra (Kayser) bajo condiciones de incertidumbre
---~
$ 60
Valor esperado de la información perfecta
En general, el valor esperado de la información perfecta se calcula como sigue:
\IAlORESf'ERADO. · ··.. '.· .• :: . · .. •., .. E LAINFO·.·RMAC!ÓM . ya:Iº.·./ p. era.·d····. ·.en·.·c.· 9nd..'. .c. . de certez.a [ 2 0.B] PERFECTA · - Decrsron optima en condrcrones de rncertrdumbre
º.
.VE····I···.~·.=
~.s.
º.
1on~.s.
l
La información que lograra ciar el analista del mercado de acciones tendría un valor de hasta $60 dólares. Básicamente, el analista "garantizaría" un precio de venta promedio de $1 900, y si pide $40 por la información, el inversionista debe tener la seguridad de una ganancia esperada de $1 860, calculada de $1 900 - $40. En consecuencia, sería atractivo para el inversionista convenir en este honorario ($40) porque el resultado esperado ($1 860) sería mayor que el valor esperado en condiciones de incertidumbre ($1 840). Sin embargo, si el analista pide $100 como honorarios, el inversionista obtendría sólo $1 800 en promedio a largo plazo, calculado de $1 900 - $1 OO. Por lógica, el servicio no valdría $100, porque el inversionista puede esperar $1 840 a largo plazo sin convenir en ese arreglo financiero. Debe observarse que el valor esperado de la información perfecta ($60) es el mismo que la mínima deploración esperada (tabla 20.6). Esto no es un accidente. A continuación se muestra la pantalla de resultados de Excel para el problema del inversionista. La ganancia esperada y la pérdida de oportunidad esperada son las rnismas que !as dadas en la tabla 20.3 y en la tabla 20.6. Los cálculos en este ejemplo del inversionista se mantuvieron al mínimo para hacer hincapié en los nuevos térn1inos y en el proceso de toma de decisión. Si es grande el número de opciones para la decisión y si la cantidad de estados de la naturaleza se vuelve grande, se recomienda el uso de un paquete de cómputo o de una hoja de cálculo.
¡¡yse1·
im e~as
Bul! Be;:ir Expecled 2,400 1.000 !,840 2,200 1.'IOO 1,760 1,900 1,150 1.600 Opportt.mily_L~ss
8tl~
Kayser
O
Bear Er;pecied 150 60
736
Las ganancias esperadas no son altamente sensibles.
Recuérdese que en la situación antedo1· de la seiección de accfones ·financieras, e! conjunto de probabillc!ades aplicadas a \os valores de ganancia esperado., se obtuvo de la experiencia histórica en condiciones sirnilares del mercado. Puede objetarse, sin e111bargo, que el con1-· ¡joítamiento·futuro del n1ercac!o puede diferir del comportamiento que sugiere ia experiencia. A pesar de estas di"ferencias, con frecuencia /as alternativas de decisión no son dernasiado sensibles a cambios dentro ele un 1!7tervalo aceptable. Con10 eje.mp!o, supóngase que un herrnano del inversionista cree que en vez de 60% de posibilidad ele alza en el mercado, y 40% de posibílidad de baja, lo cierto es lo contrario; esto es, hay una probabilidad de 0.40 de alza del mercado, y una probabilidad de 0.60 de baja. Adernás, una prirna del inversionista cree que la pmbabilidad de alza del mercado es 0.50, y la probabilidad de baja es 0.50. En la tabla 20.8 se muestra una cornparación de !as ganancias esperadas originales (columna iz·· quierda), las ganancias espere.das con e! conjunto de probabilidades sugeridas por el hermano del inversionista (colurnna centra!), y las propuestas por su prin1a (coiun1na derecha). La decisión es la misrna en ios tres casos: comprar acciones de Kayser Chen1icais.
TABLA, 2ü.8
GananciHs esperadas correspondientes a tres conjuntos de probabilidades. Ganancias esperadas
------
ExperiBílCia histórica Estimación de! hermano Es!imooiim
Compra
·-~----------~-
Kayser Cl1emicals Rirn Homes Texas Electronícs
$1 840 1 760 í 600
$1 560 1 540 i 450
1 1
$1 700
1650_J 1 525
~-~-----~------~--~--~---·--~---·
· -"·-,·--.
r~~~-"-"----"---.
. ¡;,¡1tomrnmm1 W.4 .
.
~~~-··· -~----~-,. ·.--~-·---~-·~--.~.--~------~···---~~~1
En la tabla 20.8, verifique que: a} La.gan.ancia esperada por co.1nprar acciones. de Texas E;!ectronics, según e! conjunto de pro.babilldades dado por.el herrnano de! inversionista, es $1 450 (dólares). b) La.gananc.1a espe\EJ.da por adquirir.acciones de Kayser. Chemicals, segl1n el conjunto de probabí!idades detern1inadas por la prima de! inversionista, es.$·¡ 700.
¡ ¡r
~
! ~
1 Una comparación de los tres CO\ljuntos de g·anancias esperadas en la tabla 20.8 revela que la 111ejor alternativa sigue igual: comprar acciones de Kayser Chen1icals. Con10 podría esperarse, hay algunas diferencias en !os valores esperados ·futuros, de acuerdo con cada compra de las tres acciones. En realidad, si hub\era cambios notables en !as probabilidades asignadas, ios valores esperados y la decisión óptima p:Jdrfan cambiar. Como .ejemplo, supóngase que el pronóstico de alza del mercado fue 0.20, y para ia baja, 0.80. Las ganancias esperadas serfan como se rnuestra en la tabla 20.9. P., largo plazo, la mejor aiternativa sería comprar acciones de Rirn Hornes. Por tanto, ei análisis de sensibilidad permite saber qué tan exactas deben ser las es-tirnaciones de probabilidad para poder sentirse a gusto con la elección.
TABLJ.\. Zíl.@
"\/al.ores esperados en l.a cornpra de las tres acciones.
-·--·-------·! Auioexamen 20.5
737 ···-~-~-------··--~----~'"~~~,--~-~-
¿Hay alguna elecc1on ele probab1l1clacl para la cual la me101 alte1 nativa sea comprar aCC1ones de Texas E!ectronics? (Sugerencia. Puede solucionarse el problema en forma algebr81ca o emp!eando un método de ensayo y en or Pruebe con una probab1l1dad a1go exage1 ada para u1; mercado a la alza )
1
1 !I
¡ 1
. ·-----~~-~J
L Ejercicios
7. Con referencia a los ejerdcios ·¡, 3 y 5, calcule el valor esperado ele ia inforn1ación perfecta. 8. Refiriéndose a los ejercicios 2, 4 y 6, obtenga el valor esperado de la inforrnación perfecta. 9. En relación con el ejercicio i, revise las probabílidades corr10 sigue: P(S1) = 0.50, P(S 2) = 0.20, y P(S3) ~ 0.30. ¿Cambia esto la decisión? 10. Con referencia al ejercicio 2, cambie las p1·obabilidades, esto es, sea P(S.) = 0.30 y P{S 2) = 0.70. ¿Lo anterior modifica la decisión?
Árboles de decisión Árbol de decisión: Una representación gráfica de iodos los resultados posibles. El árbol de decisión muestra que f(ayse1· Chemicals es la mejor opción de compra.
En el capítulo 5 se presentó un rnétodo analítico de mucha utilidad para el estudio de un caso de decisión, e\ árbol de decisión. Básican1ente, se trata de una representación gráfica de todos los posibles cursos de acción, y Jos resultados posibles con-espondientes. Se usa un cuadrado pequeño para indícar e! punto en el cual debe tomarse la decisión, y las ran1as que salen del cuadrado indican !as alternativas a considerar. En el diagrama 20.1, el punto está a la ízquíerda, y de él salen tres ramas que representan los actos de comprar acciones de Kayser Chemica!s, de Rim Hornes, o de Texas Electronics.
fJIAGRAMA 20.i
1\rbol de decisión para que decida c1 inversionista.
Los tres nodos, o círculos, numerados ·j, 2 y 3, representan !a ganancia esperada en cada una de las tres compras de acciones. Las ramas que salen de los nodos hacia la derecha
indican los eventos aleatorios (alza o baja del mel'cado) y sus pmbabi!idacles correspondientes se indican entre paréntes'1s. Los números en los extren1os de las ramas son los valores
738
¿ •
futuros estin1ados de detener el proceso de decisión en esos puntos. Algunas veces esto se denomina la ganancia condiciona/, para hacer notar que la ganancia depende de una cleterminada elección de acción y de un determinado resultado aleatorio. En consecuencia, si el ínversionísta compra acciones de Rim Hon1es y el n1ercado sube, el valor condicional de ias acciones comunes sería $2 200 {dólares). Una vez elaborado e! árbol de decisión, se puede encontrar \a mejocestrategía. de,.,decisión, por lo que se conoce como inducción regresiva. Por eíemplo, supóngase que el inversionista considera el acto de comprar acciones de Texas Electronics. Principiando en !a parte inferior derecha del diagrama 20. i, con la ganancia esperada prevista, dado un mercado a la alza ($1 900 dólares) contra un mercado a la baja ($1 150 dólares), y regresando (moviéndo· se hacia la izquierda), las probabilidades adecuadas se aplican para dar \a ganancia esperada, $1 600 (dólares) [valor obtenido de 0.60($1 900) + 0.40($1 150)]. El inversionista marcaría el valor esperado de $1 600 arriba del nodo 3, como se muestra en el diagrama 20. -1. En forma similar, el inversionista determinaría los valores esperados para Rim Ho111es y Kayser Chemica!s. Suponiendo que el inversionista desea maximizar el valor esperado de su compra, preferiría $1 840 en vez de $1 760 o $1 600. Continuando a la izquierda hacia el cuad1·ado, el inversionista marcaría con dos trazos las ramas que representan !as dos alternativas rechazadas (números 2 y 3, que corresponden a Rim Homes y Texas Electronics). La rama sin marcar que lleva al cuadrado es claramente la mejor acción a seguir, cornprar acciones comunes de Kayser Chemicals. El valor esperado en condiciones de certeza también puede representarse mediante un análisis de árbol de decisión (véase el diagrama 20.2). Hay que recordar que en condiciones de certeza, el inversionista debe saber antes de comprar las acciones, si e! mercado accionario subirá o bajará. Por tanto, compra1·ía acciones de Kayser Chemica\s en un mercado a la alza, y compraría acciones de Texas E!ectronics en un mercado a la baja, y la ganancia esperada sería de $i 900. Otra vez, se usaría la inducción regresiva para llegar a !a ganancia esperada de $1 900.
Si se tiene información pe1iecta: comprar acciones de Kayser en un mercado a la alza; comprar acciones de Texas en un mercado a la baja.
DIAGRAMA 20.2 1\rhol de decisión cuando se tiene infonnación perfecta.
La diferencia monetaria entre la decisión basada en información perfecta del díagrama 20.2, y la decisión con base en información imperfecta del diagrama 20.1, es $60 (dólares), valor obtenido de $1 900 - $1 840. Recuérdese que $60 es el valor de la información perfecta. El análisis de árbol de decisión proporciona otra ·forma de realizar los cálculos que se presentaron en este capítulo. Algunos ejecutivos encuentran que estos esque111as gráficos ayudan mucho para seguir la lógica de la toma de decisión.
lntmducción a la teoría de decisiones
739
Resumen del capíti,IlQ t .La'.teoría;estadfstic8 de-deClsiórftrata de fa toma de 'déCiSione~ a_partir de un conjunto de opciones. A: Las diversas líneas-de RCción denohlinan-·acto's o-áltern8.tivas. B; _-~:º.~ -_.~-~e~t?~- f y_~9[()_~_-:_ri_o'._~_o_ nJr9JEt_b,Ú::_s; _$_$_:-SoO:oc.e_ci_cümo:.-eSt8:dos: de- !a-naturaleza;-Ata!es-es--
se
· tadOS S'é_1es_~EtsfQ11an· P-robábilid8.Cre_S_ de:-?currencia.
H.
111. IV.
V.
C. La~ consecuencias,: de una·_alternativa_ Particular de d8_é'_isión·y- un estado de._naturaleza se denom_inan gananc_ias D. -ToSfqs !~s _córi1_binac_ion9s poSibles_ de ras o:p~iotfes de de_Clsipn y los estados de la naturaleza, dan como resultado una tabla de ganancias: EXiSten vii.rf()·s Cri_tSd_oá·p.aía·de.c!~irsé p6t'!ci m9já'r arternatiVa_d8 decisión. A. f;n el criterio del valor mon~tario esperado (VME), se calcula el valor esperado de la decisión por cada opción, yse elige la. óptima (la mayor si es g~nancia, la menor si son costos). B. También puede elaborarne un~ tabla de pérdida de oportunidad; i. Una tabla de pérdida de oportunidad ~e elabora calculando la diferencia entre la deci" _sfón óptima péira_ cada ~st?.do de _f~:·_naturafez_~, Y:1_as otras alternativas.d_E: decistó.n. 2. La .diferen_cia· entre'.'ª decísión ·ópttnia y_·cua.rgui~.r aira. d~cisíón'. es fa pérdida de oportunidad o deploración debido a.la toma de unadecisión que no es la óptima. 3. La pérdida esperada de opMunidad(PEO) es similar ~/valor monetario esperado. La pérdida ele opor.tunidad ~e combinac(jn las. probabilid~des de losdive.rsos estad.os de !a naturaleza para cada·atte.rnativa de decisión, a fin de.'determina_r la pérdida de oportunidad esperada. c.· La: :e-stratE3gta-Qu8 maxiíl1iz·ft la_ ga.nancia niíhitila s8 con_oce ·como maxirtlín .. D~ La .estrat~gfa que· '.'!aximiza la _ganancia. máxi_ma se ·den.º!11-f.na maximax. E~ La estrategía que minimiza la máxima d~.pfo_raci?n se.d_enornina minimax. El valor esperado de la información perfecta (VEIP) es la diferencia entre la ganancia óptima esperada, én condiciones de certtdumbr8-,:y la. ganancia óptím·a en condiCtones de incertidumb.re. El análisis de sensibiliciad ex.amina los efectos de diversas probabilidades de los estados de la natural_e:Z:a,_ sobre los-valores.espéradás. Los árbo/Ss de decisión sirven para estructurar las dí.versas alternativas. Presentah una íniagen·cte ros .diférentes·cursoS .cte acción y de tos poslbf~S- est8dos de fa naturaleza:
Ejercicios del capítulo 11, La empresa Twenge flll~nufa.ctyring. Co. plan:aintroducirdos productos nuevos. La empresa P.uede-agregar ambos píoductos a sú línea de productos,_ n.i. n~_uno . o _s~.lo L_I~~· ~t . é.xit?..de e::;.os pro.ductos..depende.d~·-!a-~coq_omía_general y de: las ré.accí.ones de lóS c'onsumidores respec~ to. a los p¡oductos. Estasreacciones pueden resumirse en "buena", P(S 1) = 0.30; ."regular", P(S2) =Q.50; o "mala", P(S3/ =.0.•20. Las ganancias de la empresa (en miles de dólares) s.e es_t!man en la si.guiente tab.!a de ganancias: Estadó de·11fnatura1eza
D::ecisión Ní11gu110 Sólo el•producto 1 125 Sqló el producto 2 105 220 Ambos
s,
_s_,__
Q
o.
65 60 110
. 30·• 30 40
a) Galcule el valor m?netario ésperado dé cada decisión,
b} ¿Qué-decisió.n·recomenda_ría?
e) Elabore una tabla dé pérdida de op?rtunidad. d) Calcule la pérdida esperada de oportunidad para.cada decisión. e) Calcule el. valor esperado de la información perfecta.
740 12. Una ejecutlv.a de finanzas. vive e~ B.?sto:n, per'o ·.~e.be vi~jaccon 'f~e.cuencia a.Nueva York. Pued~ Vi(lJar: en ~utomóvH, en tren a:_·eri__ avión_.- E_t -~ostb.__d_el boleto _de _é\.v_ión de Bastan a _Nu_eva York e~ $100 (dólares) y se estim~ que etvuel() dura 30 min~tos si .hay buen tiempo, y 45 minutos con mal tiempo. E! costo de_!_ boleto. de tren. es-$50, y se estimq que el viaje dure una hora con buen tiempo y dos horas con mal tiernpo. El costo de viajar en automóvil própio desde Bosc _ter-.- ~~~:,t~----~u-~v-~-.Ye_r,k _ e~_:-_$_2_0,,.Y_9¡ viai_e d_ura tres_ horás_ cpr\ buen tiempo,·y cuatro horas con ---- ·- -- ílíái.ti'emPQ~.-~f:t eí_~cutbla v·a1C1a":~Lr._tte_l)lPO':en.·.$·30--por:_h_ora;--g!-pronóst1co. meteoro!ógico, p_ara _ el día_de_rn3ña~a._da_·u_na pos_i_bi!idad de 6Q'% Etln:1a.l.ti.eff1.Pº· ¿Qué decisión 'recornendaií.a?. (Sugen:;n.cir:r: C.()nst,r~1ya.:.L1na tabla· de gcinaílciEis y ·recuerde que: se _desea,rni~i.m.izar._!os..,.co.f:Ji.O.s.). ¿_9.Lrá! ,E!_S ·~¡:_valor .e?perado,.de· la información perfecta? 13. La empres~Jhortia.s Manufactyring C~. ti~ne $100 000 {dólares) disponibles para invertir; El di-
r_ec.tor 9.~.n?ra! ,d_e. la c:°mp~ñ.ía.. clf¡sea.}nc;remen.tar. 1.Et:Prod,u,cclón., invetiir e.! dinero. en accio.nes o·atj.c¡lli~lr,. u.n."_c~rti'fí,cadq· de .cjepósí.~?.-de_t_.~an~o.. _D,Ej~._dE!_ luE;!go,. !a incó.gnita es. si !a e_conomía
si
contin.uará a un. al.to. nivel o habrá recesión. Es.tima e.n .0,20 la probabilidad de un efecto rec~s_iyo·; e_xist13..recesión º.=no, el.gert¡ff.c_'ado·GE?.c:lepósita. r_~su!tará en una ganancí.a de·6%. Si e){i.ste:tal E3f.ecto pron9spc~.un_a. p~rQlcla.-_de:·1.o.%._si. e;
.?i. .
_IJza. iriyersió~. . en: _a_c_ci9.nf1S_.. Si._.no,"existe. ~§Cesíón, el.: i.n_c_remelito- en producción ocasionará un i._5% _.d.e Qª.~·?.ncia,,. y_ !a,. i11vers_i_ó:~:.-e11.Pc_c[9r;es prqct~_1cirá..una:_ganancia de.12%·. a} ¿Q~1é deyl_;:¡lón. cfebe_ t_?m.~rsg~_.sl ;;e ?PliSél. la,.estr,~tegia rii_axi(Tlin? bj ¿Qu$. de.cisión-.dE;be. adoptar .et. cJ,trector _9.e.l~erí3.1. si qti!izara !a. estrategia m·ax.imax? e) ¿P~__r.p.uál decis.ión_.optaría.si.,a_pHc~w2t~lcri.tt3_riq.de-..valor mon.e~arlo ~sperado?
d) ¿9c1ál es elvalo.r esperad(}. qe 1.a informadón perfecta? 14. El departamento de aseguramiento de 1.a cali~ad en)a empresa Malcomb Products,debe inspe;c9i9nar ca.da .pieza. d_e. . un !ote o.._.r1q inspeoc:io_n,a_r ,n_in.9Ll.ílª· E_s.. decít~ existen dos. alternativas de decisión: examina(toqas las p~rt'3s o ninguna c!e ellas: La proporción de las piezas defectu.Clsas ,en 'et._19te,_ ?¡r._~e.. conoce_:.a P8:iiir ,cíe· 9atOS; hi.s_tórlcos para· suponer !a sigui_ente dístribu.~
.ción de probabilidades:
EstatlO·dfi 1a·. nátuf8lézá;- S¡ 0.02 0.04 0.06
....Pa~a_.:la_de:cisi:c~.n·de·
0.70 0.20 0.10
n.9. . ·_ins_p-ec~i~na·r_,.en.:.-~~·~o!u_to. . 1as·:pi?~~:~.'--e,1:-_co?_tO cte calidad es C "°' NS1K.
. c:uando se inspeccionanfoclas las piezas en "l lote es C =Nk, donde:
N ;,;20 (ta(liaño•del lote)
K= $18.00(dólares)(t;ostod~ hall~r un defecto). k = $0.50 (costo de.muestrear un artículo) &} _Desarr:oHe_ .u,na .ta~!a ~~ garianC!as. , b) ¿0.u.é. .d!3c;is,i,ón de;be' ·adoptars·e.srse. émp!ea.el criterio de· valor esperado? c)····¿Cuál.es el vá.lor.esperado.c!E)la.ínforrriación Perfecta? se fundó co:~ 1.a idea de que muchas familias en las regi~nes
1l'i. La empresa DL1de R.~nchesJnc.
e_ste\y $Ur:de t=_stados lJ,r:i.ídos;·no·.tie.n.e.n: sufl_ci~.nt_e.:tiempo. de vac.aciqnes_ par.a.viajar.en. _aut?mó!il hasta los ranchos paratu'.is\as en el sudo:estey las Montañas Rocosas, y disfruta( desu.
de.s.cans.o;:-_Sln ern_Parg.?,:variaS::enclJest0s i.ndicaro.n . ~ue .h~y·rr1ucho interés en este tipo de. va~ cacione.$.':fafl!i!lares;:-_q.u~..inq_tuy~n: cabplgata~, ar.r:.?: de gan~d(J, .natac_.ión,. ~~sea y_si111_Hares~ T~! nega_cfación:_adquirló una·:gr.an _extensión d.e ter.reno_. propio .para Tan~ho; ·cer~anEl .a.. varias clu:' dade~ dE:l,:?-s~~· y.c.~1"1$.truyó'.~-_11Jag9r:upa;p.i~cina:Y..?tr~s·,i,nst.~lacione~... Sin e_m_barg.o,: .ra cons~ tr_ucción- de_. cabañ.a~;. fami!lan~s.· $n::eJ .rancho. ne.ces.it~b~t.un_a. inv~rs_ló1l c9nsíde.rab,le; -Ad.emás, se-razonó, que l.a:rnayor_·p_art1;3_.. <)H:.tal j(lversión··-se-perd~.ría:·sí . er rancho_.y sus_ i~stal.acion.es·.re~ sultaban.. en.vd. fra9aso. finB,rtci$(O;: En.v.ez.de: 11,.1_ás _co.ristruc.c.i,on.EJs,. se .decidió· entrar en arreglos con. !.a EJ!Jlpr,esa. _Mo_b.ile. Hqm.es·.. Manuf0ctudng. -po._, ,que·.proporciona· casas. mó_víles de tipo campestre muy atractivas. Mobile Hom·es convino e.n_ suministrar un hogar _móvil· !os sáb.ados
741 por $300 (dólares)_ semanales. Esta compaííía debe·s'aber·por anticipado en fa mañana de! sábado cuántas casas inóvi1es necesíta Dude Ranches:para'.l.a Sernaíla próxima. Tienen otros clientes. que atender y sólo ef:sábado pueden práporcfotiar !as. casas ... Se presenta un prob/e:.. ma. Dude Ranches tendrá·a!gun.as resétVftciones-pa:ra·Bl sá~ado, p_ero el caso es que müchas 'farhHias.no hacen· reservaci_ón.- Primero prefieren-examina~ las-ir1Stalacíones 8-ntes ele tornar u_na decisión; Un-_an'állsis de lps có_stos irn_plí~ª-~-?~--i_~_?i_?_~_9u_~;~-~·-9_~-~--~-~---S-obxar,_$_;;}_QQ,_§f::rna_1Jgl,$_$__ por __ . --cada,.casa:campestre;~ inclqyencto·:tddffs ~ 1as·prés'triéicifie·s; -El P_rÜbl6rD8 'básico es cuántas. caSas ri1óvil.es:ctebeh sO!icítarse. a Mobile HOmes.cacla sernana'._¿Dud_e.Ranches debe ofdena'r'í O (considerado el mínimo),.11, 12, 13, o l¡ien 14 (considerado el máximo)? Sin embargo,- cualquier decisión adopt3da,-só!Q con-,la' informaeión de una tabla de Qanansias..- nó' tomaría.·e_n-.cl_1enta.la.valiosa expede_ncla-.que_ Dude Ranches ha tenído·en !as·cuatro años· pasados_ (aproxi.madame_nte 20.0 semanas) en-fa· operación real de un r~ncho para turistas· en,_ e! _su<:ta·est.e ... Sus . .·registras·_mostra_ron-~que: ·siempre_ tuvteron ,.nueve- (eservaciones po_r adelantado,. Ta_mblén, ·que nu_nca tuvieron una·. dema,nda ·de_'1.S-_o má.s cabañas. La_ ocupación de 10, '11, 12, 13 o .14. cabañas, e~ parte; correspóndifra familias que entraron e inspec:cionaron fas ihstalaciones- antes- de rentar....En Ja _tabla,-siguiente· pe m~·estra una di_stribucló.n de frecuencias del- nC1mero-·de-__ se_manas, en .las que_.se rentaron-: i.O; _í i, ·12, 13 y i4 cabañas·en el lapso de 200 semanas. 0
'cantidad de cabfiñaS
reíltarlaS 10
.11. ·12 13 .14
d;:~~~~~si~·
1
26 ....
.50
60 44 20 200
a) Elabore unatabla de ganancias: bj Determine- !'as ganancias .esperadas.y tofTie_ un.a ·deciSión. e) Establezca una tabla de pérdida de oportunidad. d) c.alculelas pérdidas esperadas de oportunidad y tome una decisión. e} Determine-e! valor de la infcirmación:perfecta~ i6. El propfetarib _ _de! rei.::i,én construfdo_hote! Skí and Syvim Lodge, plensa adquirir o _rentar varios tríne_osJnotori~ados p~ra. u~_q exc!usivo:.de_su.s huésped_es._E! propietario.Se da cuenta de que 9t_ré}s .oqngªc.io.nes -financi!3ras hftP~D í_OJP.os.i,blt? __la corDpra .de !os trineos. La en1pres_a Snowmobiles 1~s9rporatecl (SIJ.. rentaun trineo m:t0 riz~do por $20 dólare~sernanales, .l11cluye11do.cualquier--111.antenimiento n_eqesari_o;· De acu~rcfo con SI; ·el. cargo usual para-_los huéspedes en e! hote! e~_-_f2.5 s_eman_a!es:,-Sª g;;;isofina.y e!_ aceite son _aparte .. La Showrnobiles !ne.- sófo renta las máquinas para la temp~rsda completa.El propietario del hotel, sabiendo c¡L1e el alquilerde un llÚrrJero:-excesiVo d_e: t~i_neos_-·1¡;: G8,l!S8fÍa·_una pé~dida_neta; inVest_fg_Ó !os _reg_ístros tje fo.s pr_opietarios d8. otros centros._de. di_vers!ón:·. la experfencia combinada de otr_os sitios resultó.ser:
a) Olseñ.e lln.a tabla de ganancias, . . b) Calcule las util.idades esperadas porel alquiler del, G, 9.y 10 trineos cdn motor, con báse e.n
Capi!ulo 20
742
el costo de renlade $20 dólares; un cargo al huésped de $25, y la experiencia ele otros.sitios de descanso: c) ¿Cuál alternativa da más utilidades? d} Diseñe una labia. de pérdida de oportunidad. e) Obtenga la pérdida esperada de oportunidad en la renta de}, 8, 9 y 10 .trineos . .•. }) &.C.u~I accióndaría· lamenor pérdidaesperada•de op 0 rtunídad? g) .Detérrnine el váforde la iiífórhlaciónperfecta>·······.·············•······.······················ •................• ····•··.················································· ...........•......................... h) Sugiera urrcursodeacción al propietario de Ski ancLSwim Lodge; e incluya en su explicación _las diversas; cifras! por-ejemplo, _l_as _uti!idade_s ·o g_anancias·.esperadas. 17. Una mueblería tiene numerosas solicitudesde disponibilidad de mobiliario y equipo, que pue, de-rentarse- p_ara-realiza~·fiestas al-:aire libre en verano. Esto incluiría artículos como sillas y mesas plegadizas, parrillas de .lujo, gas propano y alumbrado. En la localidad no hay alguna 9mpresa que rente· equipo de esta paluraleza; y la gerencia de la mueble.ría considera la formación de una-subsldiada.que rnaneje- et negocío._ de,_renta. Una lnvestigaciélrr.reveló que la'mayorfa de la gente interesa.da en rentar deseaba un grupo completo de artículos básicas para festejos (unas.12 sillas, cuatro mesas, una parrilla,· un tanque de gas propano, tenazas, etc•) La gerencia decidió no comprar un gran número ct.e conjuntos completos debido al. riesgo financiero.implícito. Esto e~, si la demanda de alquiler de coníuntos no:_fuera_tél_n-_gra[lde.c_omo _lo esperado, sería posibl_e in~urrír en ur¡a graye:pérdida_ financi_e_ra. Además, !a-compra directa c:Jel equipo significa_ría el a!macen_amiento de éste fuera de temporada. Se supq después que yna empresa en Boston rentaba un equipo completo en $560 (dóc lares) durante lodo el verano. Esto. se aprqxima a $5 diarios. En la. propaganda de lanegociación de. Boswn se sugería un cobro diario por renta de $15. Por cada, conjunto rentado se ganq_rían $10. -Se decidió entonces contratar _con ta empresa de Boston,-cuando menos-para la primera temporada. La· c_ompañía de BostoQ sugidó,' coh-base en. !a experiencia comblnad8:.d6'-erilpres8s. simflares en otn;s ciudades, que se rentaran 41, 42, 43, 44, 45 o 46 grupos completos durante la temporada. ·con base en esta sugerencia, la administración debe_ decí~ir ahora_cuál es el número de conjuhtos.·completos con la mejor ganancia, que se debería rentar para la temporada. La e.m.presa de Bastan t.ani.b.ién·:puso:a dispqsfci.ón°otr~ info,rmat.ión obtenida d.e Otr.as empresas similares-a la nueva subsi.diaría·iorm_ada;-.Obsérvese en !a tabla. siguiente-(la cual se basó en la experiencia de 0tras alquiladoras) que .las empresas rentaron .41 conjuntos completos para festejos en 360 d.ías del total deexperiencia de6 000 .días; o sea, 6% <:le los díasc En 10% de los. días durante un .verano común, alqui!aron-42. conjuntos Gomp!.etos, y así sucesivamente; Cantidad de
Núlnero d.0.días 2 400
1 500 300
o
·~-- -":¡_
"r-.
a) Elabo.re una tabla degananciasc (Como una cifra . verificación, para el actóde tener41 conjuntos complet9s disponiblesy.elevento de.rentar 41,.la ganancia es $410 dólares.) b) L.a utilidad diadagsp~r~da pqr rentar 43 conjuntos completos de Ja empresa de Boslon, es ·• $42~]0 (dóhres);por45, conjuntos, $431.70; y por 4,6 conjuntos, $427:45. Organice estas g_~.n~f1.~i.~~:·tjiar.i.a_s, e~p.~radTs-_en.una tab!a,-.y comptétela_~ncootr;;\nclo ta ganancia diada es·peracla por rentar41, 42 y 44 conjuntos de la empresa de [)astan. e) _Con_.base en.Ja g.anancia-d.larJa . esperada,. ¿cuá.t es l_a.·acciórt. qu_e riridH_:r~ás prOVecho? d) La. pérdida esperada de oportunidad por rentar 43 conjuntos d~ festejo de la empresa de 8oston, es. $11.60; p9r 45 conjuntos, $6.60; y por 46. conjuntos, $1 Q.85, Organice estas pérdidas en una tabla.de pérdidas esperadas de oportunidad, y complétela calculando las pérdidas réspeqtiVas para 41, 42 y 44. e) Con base en la tabla de pérdidas esperadas de oportunidad, ¿cuál es el curso de acción más rentable?. ¿C.oincJde .esto- con !a.decisión·que:·se t9m6 en . el .]neis.o (e)? 1) Determin.e el valor de la información perfecta. Explique lo que ello indica en este problema.
ln!roduccióna la leoria de decisiones
743
rn. El señor Tomás Waltzer es propietario y operador de Waltzer Wrecks, Hna agencia que renta 1
).
au.tom.óviles con .descuento, cema del. aer0 puerto inte.rnacion~I Hopkins .de (;leyeland. Alquila
un. automóvil usado. en .20. dólares diarfos. Tiene un arregfo. con ra empresa- Lan.dr.um Lea.sing para comprar automóvil e~ usados. a $6.000 (dólares) cad.a uno. Susautgs sólo r<¡cib"n el. mantenimiento indispensable y corno result~do vale~ sól.o $2 000 al fin d~I prirnerañode op9ra~.1_?,~:_,_ ~I_· -~~- d_e?l_did9: _y~nq_~r_ t9Qot; _ _ $_lJ$;___~ütos_.J.Ísados-,,cada. año,-·-y,.comprar,.·un--·.éorljunto"·de ·autci_riló.Vi18s-·de-·medfó ·_L_iSO á;EaÍi.CiÍ:um -Leasln_g~ Su empleado de contabilidad le pr~porciona una. dh>tribuciónprobable con respecto al nú' mero -de automóviles·. reritadÜs por-día,._ l\fúmt;;_ro _de_ automó_t!Hes _rentado$, por: día Probabilidad
0.10
21
22
23
0.20
0.50
0.20
El se.ñor Waltzer .es unjugactor fanátiSo de golf y ¡en is, Pa~a los fines de s:m~na en el camp~ degolfo.juga~do tenis bajo techo.. En consec~enda'. su.agencia sóloabrei'ntres~m.ana,Tam 0 . ,,b_Lé9_ r_a _cien:_a-dos: sem~nas-_d_u_rante- et.-Vera_np,.:_-.y· s_e :va a: Uná-gir~::con-go!f_istc:lS~ El encargado delacontabili.dad estima.que la .limpieza y mantenimiento•minilTio cuestan
$1:50 (dólams) por vehjculo. .
.· .· •·. • . .·. .. . .· · .· ..·•· ¿Cuántos autds usados debe co.rnprar e.ada año para tener la máxiflla utilid.ad? b) ¿Cuál es el valor esperado de la información perfecta?
at
1
J
•
744
l Pata las probabilidades ele que elmeicado SU" ba. (o baje) hasta 0.333, las ~cciones de l.\ayser Chemi()als ·propordonarifj(! ··.la..utilidad esp.erada más al\aal.~¡go plazo: Para probaoilida(jes.d.e .. 0,333 a 0.143, Rim Homes sería lam~jor cornc pra.Ep,e.lc,aso dE) Q,143 y tr\ªn();i,Texas Elec" tr()nics ·_c:faría-·fa .uHlid_a~:,_-8-sP,_etftda_ más -a(ta._-.;Las _s9!Hoi9n_es--,alg~_Praica,s- _s9.l)_: · --KaYsér: 2. LIOOp + .(1 - ,o)i Oob Riril:
2.200p + (1 ~ p)i 100 j400,o+ '1,000.~ i ·1oop+11.00 p ~ 0.333
'1.·
¡
1 •
Apér1dices TABLAS Y---CONJUNTOS DE DATOS ~
A B C O
E F G H
Distribnción de probabiiída
Valores críticos de ji cuadrada
J K L M N
Conjunto de datos 1- Bienes raíces (Real State) Conjunto de datos 2- Liga Mayor de Béisbol (Baseball 2000). Conjunto de datos 3- OECD Conjunto de datos 4 - Distritos escolares del Noroeste de Ohio (Schools) Conjtlnto de datos bancarios - Caso
O
Guía de referencia rápida de IviegaStat
o) 7'-'''
Distrib!Lllción de pr1Jbabilidad binomial n=1 Probabilidad _,
X
o
l.-~~.-.-.J!::!Q_. __,_0.2Q___,__ J!:.~.---.~_Q__._. _ 1
,
0.950 0.050
0.900 O.iOO
0.800 0.200
0.700 0.300
0.600 0.400
_J!.50._. _ _ 0.6!_ ___ _J)~----~~-----~_Q_---~~5__ 0.500 0.400 0.300 0200 0.1 DO 0.050 0.500 0.600 0.700 0.800 0.900 0.950
n=2 Probabilidad X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o
0.903 0.095 0.003
O.Si O 0.180 0.010
0.640 0.320 0.040
0.490 0.420 0.090
0.360 0.480 O.i60
0.250 0.500 0.250
0.160 0.480 0.360
0.090 0.420 0.490
0.040 0.320 0.640
O.ü10 0.180 0.810
0.003 0.095 0.903
1
2
n= 3 Probabilidad X
íl.05
0.10
0.20
0,30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o
0.857 0.135 0.007 0.000
0.729 0.243 0.027 0.001
0.512 0.384 0.096 0.008
0.343 0.441 0.189 0.027
0.2·15 0.432 0.288 0.064
0.125 0.375 0.375 0.125
0.064 0.288 0.432 0.216
0.027 0.189
0.008 0.096 0.384 0.512
0.00i 0.027 0.243 0.729
0.000 0.007 0.135 0.857
1 2 3
0.441 0.343
n=4 Probabi!iclatl X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o
0.815 0.171 0.014 0.000 0.000
0.656 0.292 0.049 0.004 0.000
0.410 0.4í o 0.154 0.026 0.002
0.240 0.412 0.265 0.076 0.008
0.130 0.346 0.346 0.154 0.026
0.063 0250 0.375 0.250 0.063
0.026 1 0.154. 0.346 0.346 0.130
0.008 0.076 0.265 0.412 0.240
0.002 0.026 0.154 0.41 o 0.410
0.000 0.004 0.049 0.292 0.656
0.000 0.000 0.014 0.171 0.815
1 2 3 4
[¡::=·5
Pr.onabmctad ~ 0.774 0.204 0.021 0.00·1 o.ooo 0.000
746
º·'º
~
~
~
~
~
~
~-
~
ü.95
0.590 0.328 0.073 0.008 o.ooo 0.000
0.328 0.410 0.205 0.051 0.006 0.000
0.168 0.360 0.309 0.132 0.028 0.002
0.078 0.259 0.346 b.230 0.011 0.010
0.031 0.156 0.313' 0.313 o.·155 0.031
0.010 0.077 0.230 0.346 o.259 0.078
0.002 0.028 0.132 0.309 o.360 0.168
0.000 0.006 0.051 0.205 0.410 0.328
0.000 0.000 0.008 0.073 o.328 0.590
0.000 0.000 0.001 0.021 0.204 0.774
~~~~~~~~~~~~~~~~~~~~~~~~-~~~~~~~~~~~~~~~~
Apéndices
A~ndiceA~
~~~-----~~-
Distribución de probabilidad binomial {continuación) n=6 Probabilidad X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o 1 2 3 4
0.735 0.232 0.03"1 0.002 0.000
0.53"1 0.354 0.098 0.015 0.001
0.262 0.393 0.246 0.082 0.015
0.-118 0.303 0.324 0.185 0.060
0.047 0.187 0.3"1i 0.276 0.138
0.016 0.094 0.234 0.313 0.234
0.004 0.037 0.138 0.276 0.311
0.00·1 0.010 0.060 0.185 0324
0.000 0.002 0.015 0.082 0.246
0.000 0.000 0.00"1 0.015 0.098
0.000 0.000 0.000 0.002 0.031
5 6
0.000 0.000
0.000 0.000
0.002 0.000
0.010 0.00"1
0.037 0.004
0.094 0.016
0.187 0.047
0.303 0.118
o393
0.354 0.531
0.232 0.735
0.262
n=7 Probabilidad X
0.05
0.10
0.20
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o
0.698 0.257 0.041 0.004 0.000
0.478 0.372 0.124 0.023 0.003
0.210 0.367 0.275 0.115 0.029
0.082 0.247 0.318 0.227 0.097
0.028 0.131 0.261 0.290 0.194
0.008 0.055 0:164 0.273 0.273
0.002 0.017 0.077 0.194 0.290
0.000 0.004 0.025 0.097 0-227
0.000 0.000 0.004 0.029 0.115
0.000 0.000 0.000 0.003 0.023
0.000 0.000 0.000 0.000 0.004
0.000 0.000 0.000
0.000 0.000 0.000
0.004 0.000 0.000
0.025 0.004 0.000
0.077 0.017 0.002
0.164 0.055 0.008
0.261 0.131 0.028
0.318 0.247 0.082
0.275 0.367 0.210
0.124 0.372 0.478
0.041 0.257 0.698
1 2 3 4 5 6
7
º~º
n=B Probabilidad X
0,05
0.10
0.20
0.30
0-40
0.50
0,60
0.70
0.80
0.90
0.95
o 2 3 4
0.663 0.279 0.051 0.005 0.000
0.430 0.383 0.149 0.033 0.005
0.168 0.336 0.294 0.147 0.046
0.058 0.198 0.296 0.254 0.136
0.017 0.090 0.209 0.279 0.232
0.004 0.031 0.109 0.219 0.273
0.001 0.008 0.041 0."124 0.232
0.000 0.001 0.010 0.047 0.136
0.000 0.000 0.001 0.009 0.046
0.000 0.000 0.000 0.000 0.005
0.000 0.000 0.000 0.000
5 6 7 8
0.000 0.000 0.000 0.000
º·ººº
0.009 0.001 0.000 0.000
0.047 0.010 0.001 0.000
0.124 0.041 0.008 O.DO'!
0.2"19 0.109 0.031 0.004
0.279 0.209 0.090 0.017
0.254 0.296 0.198 0.058
0.147 0.294 0.336 0.168
0.033 0.149 0.383 0.430
0.005 0.05"i 0.279 0.663
0.000
º·ººº º·ººº
º·ººº
747
AJ¿éndiceA Distribm::ión de probabilidad binomial (continuación) n= 9 Pi"Ubsblli
0.05
0.10
0.20
0.30
0.41)
0.50
0.60
0.70
0.8D
{).90
0.95
o
0.630 0.299 0.063
0.-134 0.302 0.302 0.176 0.066
0.040 0.'156 0.267 0.267 0.172
0.010 0.060 0.10·1 0.25'! 0.25'1
0.002
1 2 3 4
0.387 0.387 0.172 0.045 0.007
º·ººº
0.000 0.000 0.004 0.021 0.074
0.000 0.000 0.000
0.000 0.000 0.000
0.003
0.000 0.001
0.000 0.000 0.000 0.000 0.000
5 6 7 8
0.000 0.000 0.000 0.000 0.000
0.001
O.Di 7 0.003 0.000 0.000
0.074 0.02·1 0.004 0.000 0.000
0.167 0.074 0.021
0.172
0.066 0.176 0.302 0.302 0.134
9
0.008 O.Oüi
º·ººº
0.000 0.000
º·ººº
0.000
0.018
0.070 o.-i64
0.246 0.246 0.164
0.004
0.070 0.018
0.000
0.002
0.004 0.02"1 0.074 0.167 0.251 0.251 0.16'1 0.060 0.010
0.267 0.267 0.156 0.040
0.017
0.387 0.387
0.001 0.008 0.063 0.299 0.630
0.007 0.045 0.172
n = 10 Probabilidad 0.05
G.10
0.20
0,30
0.40
o.so
0.60
0.70
0.80
0.90
0.95
0.599 0.315 0.075 0.010 O.OOi
0.349 0.387 0.194 0.057 0.011
0.107 0.268 0.302 0.201 0.088
0.028 0.121 0.233 0.267 0.200
0.006 0.040 0.12·1 0.215 0.25i
0.001 0.010 0.044 O.i17 0.205
0.000 0.002 0.01-1 0.042 0.11 i
0.000 0.000 0.001 0.009 0.037
0.000 0.000 0.000 0.001 0.006
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.001 0.000 0.000 0.000 0.000
0.026 0.006 0.001 0.000 0.000
0.103 0.037 0.009 0.001 0.000
0.201 0.111 0.042 0.011 0.002
0.246 0.205 0.117 0.044 0.010
0.201 0.251 0.215 0.-121 0.040
o.·io3 0.200 0.267 0.233 0.121
0.026 0.088 0.201
9
0.000 0.000 0.000 0.000 0.000
0.268
0.001 0.011 0.057 0.194 0.387
0.000 0.001 0.010 0.075 0.315
10
0.000
º·ººº
0.000
0.000
0.000
0.001
0.006
0.028
0.107
0.349
0.599
X
o 1 2 3 4 5 6 7 8
748
Apéru:Hces
0.302
º·ºªº
A éndiceA ---
---------- --
~~-,-~-~--,~~-~~-----------~~-=----~-------
--~~--------~
~~~~~~
IJ~str~ ' "b··UCMOn . ' de probabilidad binomial (contiru1aclón} ---------, ){
¡-¡ ;:;;';; 1i PrnhatmrJaci
f.Ul5
G.íO
U.2G
0.30
OAG
0.50
o.so
117ú
O.Bíl
{J.90
ü.95
0.569 0.329 0.087 o.0·14. 0.001
0.314 0.384 0.213 0.01·1 0.016
0.086 0.236 0.295
0.020 0.093 0.200 0.257 0.220
0.004 0.027 0.089
0.000 0.005 0.027
0.000 0.001
0.177
0.08"\
0.236
0.-161
0.023 0.070
0.000 0.000 0.001 0.004 0.017
0.000 0.000 0.000 0.000 0.002
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.002
0.039
º·ººº º·ººº º·ººº 0.000
0.010 0.002 0.000 0.000
0:132 0.057 0.017 0.004 0.001
0.221 0.-!47 0.070 0.023 0.005
0.226 0.226 0.161 0.081 0.027
o.-147 0.221 0.236 0.177 0.089
0.057 O.i32 0.220 0.257 0.200
0.0";0 0.039 0.111 0.221 0.295
0.000 0.002 0.016 0.01·1 0.213
0.000
9
0.000 0.000 0.000 0.000 0.000
0.001 0.014 0.087
'ID ·11
0.000 0.000
0.000 0.000
0.000 0.000
0.000
º·ººº
0.00·1 0.000
0.005 0.000
0.027 0.004
0.093 0.020
0.236 0.086
0.384 0.314
0.329 0.569
o 1 2 3 4 5 6 7 8
0.221
0.111
0,005
º·ººº
i1= 12 Prnllabiiidad
,.
OJ»5
o:~o
0.2{J
0.30
0.40
0.50
1J.6il
0.70
0,80
0.90
G.25
o
0.282 0.377 0.230 0.085 0.021
0.069 0.206 0.283 0.236 0.133
0.014 0.071 0.168 0.240 0.23"!
0.002 0.017 0.064 0.142 0.213
0.000 0.003 0.016 0.054 0."121
0.000 0.000 0.002 0.012 0.042
0.000 0.000 0.000 0.001 0.008
0.000 0.000 0.000 0.000 0.001
0.000 0.000 0.000 0.000 0.000
0.000 0.000
4
0.540 0.341 0.099 0.017 0.002
5 6 7 8 9
0.000 0.000 0.000 0.000 0.000
0.004 0.000 0.000 0.000 0.000
0.053 0.016 0.003 0.001 0.000
0.158 0.079 0.029 0.008 0.001
0.227 0."177 0.101 0.042 0.012
0.193 0.226 0.193 0.-12·1 0.054
0.-10·1 0.177 0.227 0.213 0.142
0.029 0.079 0.158 0.231 0.240
0.003 0.016 0.053 0.133 0.236
0.000 0.000 0.004 0.021 0.085
0.000 0.000 0.000 0.002 0.017
10 11 12
0.000 0.000 0.000
0.000 0.000 0.000
0.000
o.uoo
º·ººº 0.000
0.000
0.000
0.002 0.000 0.000
0.016 0.003 0.000
0.064 0.017 0.002
0.168 0.071 0.014
0.283 0.206 0.069
0.230 0.377 0.282
0.099 0.3tc1 0.540
1 2 3
º·ººº
0.000 0.000
749
A " ~. A _!l1Jend1ce 1
.
¡~
'
'fu_
!JlstrHJu1ción de pr11:1bal:lilidadl binomial (continm:ociórn} n= 13 Probabilidad 0.05
O.iO
0.20
0.30
0.40
0.50
0.60
0.70
o.so
D.90
0.95
0.254 0.367
0.055
0.000
0.218 0.234
o.rn
0.000 0.000
0.000 0.000 0.000
0.003
0.184
0.024
0.003
0.000 0.000 0.000 0.000 0.000
0.000
0.100 0.028
0.000 0.000 0.000 0.001
4
0.000 0.002 0.010 0.035 0.087
0.000
0.268 0.246
0.001 O.Di 1 0.045
0.000
0.245
0.010 0.054 0.139
3
0.513 0.351 0.111 0.021
0.000
0.000
5 6 7
0.000 0.000
0.006 0.001
0.069
0.066 0.131 0.197
0.006
o.·103
0.023
º·ººº º·ººº 0.001
0.000
0.044
8
0.000 0.000
0.000 0.000
0.006 0.001 0.000
0.157 0.209 0.209 0.157 0.087
0.001
0.000
0.221 0:197 0.131 0.066 0.02-1
0.014
0.000
0.180 0.103 0.044 0.014 0.003
0.-180 0.234
0.069 0.154
0.006 O.ü28
0.000
º·ººº º·ººº º·ººº º·ººº
0.000 0.000
0.001 0.000
0.006
0.000 0.000
0.000 0.000
0.111 0.045 0.011 om1
0.218
0.000
0.035 0.010 0.002 0.000
0.139 0.054
0.246 0.268 0.179
0.100 0.245 0.367
O.Q10
0.055
0.254
X
o 1 2
9 10 11 12 13
1
0.000
0.000 0.000
0.179
0.154 0.023
0.000
0.001
º·ººº
0.001 0.006
0.221 0.184
0.000
0.000 0.000 0.003
0.021 O.í 11 0.351 0.513
n == 14 Probabilidad 0.05
0.10
0.20
0.30
0.40
0.50
0.60
0,70
0.80
0.90
0.95
0.229 0.356 0.257 0.114
0.044 0.154
0.007
0.001
0.041
0.007 0.032 0.085 0.155
0.000 0.000 0.000
0.000
º·ººº
0.250
0.000 0.001 0.006 0.022 0.061
0.000
1 2 3 4
0.488 0.359 0.123 0.026 0.004
0.000 0.000 0.000 0.000 0.000
5 6 7 8 9
0.000 0.000 0.000 0.000 0.000
10 11
0.000 0.000 0.000 0.000 0.000
X
o
·12
13 14
750
0.035
0.172
0.113 0.194 0.229
0.008
0.086 0.032 0.009
0.196 0.126 0.062
0.207 0.207
0.002
0.023
0.092
0.000
0.007
0.041
0.122 0.183 0.209 0.183 O.'i22
0.000 0.000 0.000
0.001 0.000 0.000 0.000 0.000
0.001 0.000 0.000 0.000
º·ººº
0.000 0.000 0.000 0.000
0.250
0.000 0.000
Apéndices
0.157
0.014
0.061
0.003
0.022
0.001
0.006 O.OOi
º·ººº 0.000
0.000
0.000 0.001 0.003 0.014
0.000 0.001
0.000
0.000 0.000 0.000 0.000
0.000
0.000
0.002
0.000
0.009
0.000 0.001 O.DOS
0.000 0.000
0.157 0.207
0.007 0.023 0.062 0.126
0.032
0.207
0.196
0.086
0.155 0.085 0.032
0.229
0.172
0.194 0.113
0.250
0.007
0.041
0.250 0.154
0.001
0.007
0.044
0.041
0.092
º·ººº º·ººº º·ººº º·ººº
0.035 0.114 0.257 0.356 0.229
0.000 0.000
0.004 O.ü26 0.123 0.359
0.488
A ./
/!
1°
r\!QPf}QICe 1 \
..L
-''
~"=-"'
..L
.R. "·-
./
y_..
1L
Distrll:nmión de probabilidad biniílmial {continuación} n= 15 Probabilidad X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0,70
0.80
0.90
0.95
o
0.206 0.343 0.267 0.129 0.043
0.035 0.132 0.231 0.250 0.188
O.DOS
1 2 3 4
0.463 0.366 0.135 0.031 0.005
0.031 0.092 0.170 0.219
0.005 0.022 0.063 0.127
º·ººº
0.000 0.000 0.003 0.014 0.042
0.000 0.000 0.000 0.002 0.007
0.000 0.000 0.000 0.000 0.001
0.000 0.000 0.000 0.000 0.000
0.000 0.000
0.000 0.000 0.000 0.000 0.000
5 6 7 8 9
0.001 0.000 0.000 0.000 0.000
0.010 0.002 0.000 0.000
0.103 0.043 0.014 0.003 0.001
0.206 0.147 0.081 0.035 0.012
0.186 0.207 0.177 0.118 0.061
0.092 0.153 0.196 0.196 0.153
0.024 0.06'1 0.118 0.177 0207
0.003 0.012 0.035 0.081 0.147
0.000 0.001 0.003 0.0'14 0.043
0.000 0.000 0.000 0.000 0.002
0.000 0.000 0.000 0.000 0.000
10 11 12 13 14
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº º·ººº º·ººº 0.000
0.003 0.001 0.000 0.000 0.000
0.024 0.007 0.002 0.000 0.000
0.092 0.042 0.014 0.003 0.000
0.186 0.127 0.063 0.022 0.005
0.206 0.219 0.170 0.092 0.031
0.103 0.188 0.250 0.231 0.132
0.01 o 0.043 0.129 0.267 0.343
0.001 0.005 0.031 0.135 0.366
15
0.000
0.000
0.000
0.000
º·ººº
0.000
0.000
0.005
0.035
0.206
0.463
0.95
º·ººº
º·ººº º·ººº
0.000
n= 16 Probabilidad X
0.05
0.10
0.20
0.30
0.40
o.so
0.60
0.70
0.80
0.90
o 1 2 3 4
0.440 0.371 0.146 0.036 0.006
0.185 0.329 0.275 0.142 0.051
0.028 0.113 0.211 0.246 0.200
0.003 0.023 0.073 0.146 0.204
0.000 0.003 0.015 0.047 0.101
0.000 0.000 0.002 0.009 0.028
0.000 0.000 0.000 0.001 0.004
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
5 6 7 8 9
0.001 0.000 0.000 0.000 0.000
0.014 0.003 0.000 0.000 0.000
0.120 0.055 0.020 0.006 0.001
0.210 0.165 0.101 0.049 0.019
0.162 0.198 0.189 0.142 0.084
0.067 0.122 0.175 0.196 0.175
0.014 0.039 0.084 0.142 0.189
0.001 0.006 0.019 0.049 0.101
0.000 0.000 0.001 0.006 0.020
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
10 11 12 13 14
0.000 0.000 0.000 0.000 0.000
0.000 0.000
º·ººº º·ººº 0.000
0.000 0.000 0.000 0.000 0.000
0.006 0.001 0.000 0.000 0.000
0.039 0.014 0.004 0.001
0.122 0.067 0.028 0.009 0.002
0.198 0.162 0.101 o047 0.015
0.165 0.210 0.204 0.146 0.073
0.055 0.120 0.200 0.246 0.211
0.003 0.014 0.051 0.142 0.275
0.000 0.001 0.006 0.036 0.146
15 16
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.003 0.000
0.023 0.003
0.113 0.028
0.329 0.185
0.371 0.440
Apéndices
º·ººº
º·ººº º·ººº º·ººº 0.000 0.000
751
/'
.,,
/
/ ·e "'
~· ''~P·r'r'1r·p 0011 J'"~, l' \11-
J... .fl..1\. . ./ , ~ j,_ ----¡¡:
.
"%,..JL-"'" \o__,,, ..,,;
~
Y""
~
'! " ¡1 ni·~iai Dm a;:u1 binomial {continwru::ióffl!) ,,
"
"su
n= 17 Probabilidad X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
o
0.418 0.374 0.158 0.041 0.008
0.167 0.315 0.280 0.156 0.060
0.023
0.096 0.191 0.239 0.209
0.002 0.017 0.058 0.125 0.187
0.000 0.002 0.010 0.034
0.000 0.000 0.001 0.005 0.018
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº º·ººº º·ººº º·ººº
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.208 0.178 0.120 0.064 0.028
0.138 0.184 0.193 0.161
0.008 0.024 0.057 0.107 0.161
0.001
0.107
0.047 0.094 0.148 0.185 0.185
0.000 0.000 0.000 0.002 0.008
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.057 0.024 0.008 0.002 0.000
0.148 0.094 0.047 0.018 0.005
0.193 0.\84 0.138 0.034
0.125
0.027 0.068 0.136 0.209 0.239
0.001 0.004 0.017 0.060 0.156
0.000 0.000 0.001 0.008 0.041
0.000
0.00·1 0.000 0.000
0.010 0.002 0.000
0.058 0.017
0.191 0.096
0.002
0.023
0.280 0.315 0.167
0.158 0.374 0.418
o.so
0.90
0.95
º·ººº
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
1 2 3 4 5 6 7 B 9
0.001 0.000 0.000 0.000 0.000
0.017 0.001 0.000 0.000
0.136 0.068 0.027 0.008 0.002
10 11 12 13 14
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.009 0.003 0.001
15 16 17
o.ooo
0.000 0.000 0.000
0.000 0.000 0.000
0.000 0.000 0.000
0.000 0.000
0.004
º·ººº º·ººº
0.080
0.000 0.000
0.002
o.oso
0.003 0.009
0.028 0.064
0.120 0.178 0.208 0.187
n = i8 Probabfüdad X
o
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.000 0.001 0.007 0.025 0.061
0.000 0.000 0.001 0.003 0.012
0.000 0.000 0.000 0.000 0.001
0.000 0.000 0.000 0.000 0.000
0.033
0.004 0.015 0.037 0.077 0.128
0.000 0.001 0.005 0.015 0.039
0.000 0.000 0.000 0.001 0.003
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.081 0.138 0.187 0.202
0.012 0.035 0.082 0.151 0.215
0.000 0.001 0.005 0.022 0.070
0.000 0.000 0.000 0.001 0.009
0.105
0.230 0.172 0.081 0.018
0.168 0.284 0.300 0.150
0.047 0.168 0.376 0.397
0.397 0.376 0.168 0.047 0.009
0.150 0.300 0.284 0.168 0.070
0.018 0.081 0.172 0.230 0.215
0.002 0.013 0.046
0.001
0.202 0.187 0.138 0.081 0.039
0.173 0.128
0.167
9
0.151 0.082 0.035 0.012 0.003
0.115 0.166
0.000 0.000 0.000
0.022 0.005 0.00·1 0.000 0.000
10 11 12 13 14
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.001 0.000 0.000 0.000 0.000
0.015
0.077
0.005
0.037
0.001
0.015 0.004 0.001
0.167 0.121 0.071 0.012
0.173 0.189 0.166 O.i15 0.061
15 16
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.003 0.001 0.000 0.000
0.025 0.007 0.001 0.000
1 2 3 4 5 6 7 8
17
18
752
1
0.000
Apéndices
0.105
0.168
º·ººº º·ººº
0.189
0.071 0.121 0.185
0.033
0.168 0.046
0.013 0.002
0.000
º·ººº
º·ººº º·ººº
Al1Dcf1 / "'f
,et,_
Í\
'
1L
. .,~."~~-' ,..,~" lfl ,.[}} i:rn•h''j¡j· ,,¡ JüS[t~[\11\J(,~filOíl ff'I"' ll~ filJ~ l©J0Jdl~. :_ a\l;~ t.!"'~
bim:nnial íi 1'"ontfinuaci6rul§ ~
I!
-11
~"'
¡¡
,,
'
11=19
Probabilidad X
o 1 2 3 4 5 6 7 8
9
10
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.95
0.377 0.377 0.179 0.053 0.011
0.135 0.285 0.285 0.180 0.080
0.014 0.068 0.154 0.218 0.218
0.001 0.009 0.036 0.087 0.149
0.000 0.001 0.005 0.017 0.047
0.000 0.000 0.000 0.002 0.007
º·ººº º·ººº º·ººº º·ººº 0.001
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000. 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.002 0.000 0.000 0.000 0.000
0.027 0.007 0.001 0.000 0.000
0.164 0.095 0.044 0.017 0.005
0.192 0.192 0.153 0.098 0.051
0.093 0.145 0.180 0.180 0.146
0.022 0.052 0.096 0.144 0.176
0.002 0.008 0.024 0.053 0.098
0.000 0.001 0.002 0.008 0.022
0.000 0.000 0.000 0.000 0.001
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
o.ooo
0.001 0.000 0.000 0.000 0.000
0.022 0.008 0.002 0.001 0.000
0.098 0.053 0.024 0.008 0.002
0.176 0.144 0.096 0.052 0.022
0.146 0.180 0.180 0.145 0.093
0.051 0.098 0.153 0.192 0.192
0.005 0.017 0.044 0.095 0.164
0.000 0.000 0.001 0.007 0.027
0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.001 0.000 0.000
0.007 0.002 0.000 0.000
0.047 0.017 0.005 0.001
0.149 0.087 0.036 0.009 0.001
0.218 0.218 0.154 0.068 0.014
0.080 0.180 0.285 0.285 0.135
0.011 0.053 0.179 0.377 0.377
º·ººº
11 12 13 14
0.000 0.000 0.000
15
0.000 0.000 0.000 0.000 0.000
16
17 18 19
º·ººº
Apéndices
º·ººº
0.000
o.ooo
º·ººº
º·ººº
º·ººº
0.000 0.000 0.002
753
\ / ·¡, /\ Aº~P.~'fll ~ l:'i~, - ' ~ :'~.1"'P . . J;.l} '4.,J 11 ~d. \v \v r"i...; \!!.
Distribución de probal:lifü:lad binomial {contln1w:JJci6n) n =20 Probabilidad
754
X
0.05
0.10
0.20
0.30
0.40
0.50
0.60
o 1 2 3 4
0.35B 0.377 0.189 0.060 0.013
0.122 0.270 0.285 0.190 0.090
0.012 0.058 0.137 0.205 0.21B
0.001 0.007 O.OZB 0.072 0.130
0.000 0.000 0.003 0.012 0.035
0.000 0.000 0.000 0.001 0.005
0.000 0.000 0.000 0.000 0.000
5 6 7 B 9
0.002 0.000 0.000 0.000 0.000
0.032 0.009 0.002
0.175 0.109 0.055 0.022 0.007
0.179 0.192 0.164 0.114 0.065
0.075
0.124 0.166 0.180 0.160
0.015 0.037 0.074 0.120 0.160
0.001 0.005 0.015 0.035
10 11 12 13 14
0.000 0.000 0.000 0.000 0.000
0.002 0.000 0.000 0.000 0.000
0.031 0.012 0.004 0.001 0.000
0.117 0.071 0.035 0.015 0.005
0.176 0.160 0.120
15 16 17 18 19
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
20
0.000
0.000
0.000
º·ººº º·ººº 0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº º·ººº º·ººº º·ººº 0.000
Apéndices
0.70
0.80
0.90
0.95
º·ººº º·ººº
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.071
0.000 0.001 0.004 0.012
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº º·ººº º·ººº 0.000
0.031 0.065 0.114 0.164 0.192
0.002 0.007 0.022 0.055 0.109
0.000 0.000 0.000 0.002
0.037
0.117 0.160 0.1 BO 0.166 0.124
0.009
0.000 0.000 0.000 0.000 0.000
0.001 0.000 0.000 0.000 0.000
0.015 0.005 0.001 0.000 0.000
0.075 0.035 0.012 0.003 0.000
0.179 0.130 0.072 0.02B 0.007
0.175
0.21B 0.205 0.137 0.058
0.032 0.090 0.190 0.285 0.270
0.002 0.013 0.060 0.189 0.377
º·ººº
0.000
0.000
0.001
0.012
0.122
0.358
0.074
º·ººº º·ººº º·ººº 0.000
A
L
/'
~10
\ '1. t"' ""lrl·" .,,,JLJ 1L h,_ J C'e ··'-' ~J
¡,.!
~tj
.(j,'
JL
llistritmción de probabilidad! bi11rn'll1ial (coni1ntJ1ac:üin) n= 25 Probabi!ldad
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.9{)
0.95
1 2 3 4
0.277 0.365 0.231 0.093 0.027
0.072 0.199 0.266 0.226 0.138
0.004 0.024 0.071 0.136 0.187
0.001 0.007 0.024 0.057
º·ººº
0.000 0.000 0.000 0.002 0.007
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000
º·ººº º·ººº
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
5 6 7 8 9
0.006 0.001 0.000 0.000 0.000
0.065 0.024 0.007 0.002 0.000
0.196 0.163 0.111 0.062 0.029
0.103 0.147 0.171 0.165 0.134
0.020 0.044 0.080 0.120 0.151
0.002 0.005 0.014 0.032 0.061
0.000 0.000 0.001 0.003 0.009
0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº º·ººº º·ººº º·ººº 0.000
0.000 0.000 0.000 0.000 0.000
10 11 12 13 14
0.000 0.000
º·ººº 0.000 º·ººº 0.000 º·ººº 0.000
0.012 0.004 0.001 0.000 0.000
0.092 0.054 0.027 0.011 0.004
0.161 0.147 0.114 0.076 0.043
0.097 0.133 0.155 0.155 0.133
0.021 0.043 0.076 0.114 0.147
0.001 0.004 0.011 0.027 0.054
0.000 0.000 0.000 0.000
º·ººº
º·ººº º·ººº º·ººº º·ººº 0.000
0.001 0.000 0.000 0.000 0.000
0.021 0.009 0.003 0.001 0.000
0.097 0.061 0.032 0.014 0.005
0.161 0.151 0.120 0.080 0.044
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.002 0.000 0.000 0.000 0.000
0.000
0.000
0.000
X
o
15
16 17 18 19 20 21 22 23 24 25
º·ººº
0.000
º·ººº
0.000 0.000 0.000 0.000 0.000
º·ººº º·ººº
0.000 0.000 0.000
0.000
º·ººº º·ººº 0.000
º·ººº
º·ººº 0.000
0.000 0.000 0.000 0.000
º·ººº
Apéndices
º·ººº
0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.001 0.004
0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000
0.092 0.134 0.165 0.171 0.147
0.012 0.029 0.062 0.111 0.163
0.000 0.000 0.002 0.007 0.024
0.000
0.020 0.007 0.002 0.000 0.000
0.103 0.057 0.024 0.007 0.001
0.196 0.187 0.136 0.071 0.024
0.065 0.138 0.226 0.266 0.199
0.006 0.027 0.093 0.231 0.365
º·ººº
0.000
0.004
0.072
0.277
0.000 0.000 0.000 0.000
o.ooo
º·ººº
º·ººº º·ººº º·ººº 0.001
755
Número de
elementos enla
Cuadro para
Cuadro para
promedios
amplitudes de variación
Factores para límites de control
Factores para línea central
Factores para
limites de control
muestra, n
A,
d,
o,
o,
2 3 4 5
1.880 1.023 0.729 0.577
1.128 1.693 2.059 2.326
3.267 2.575 2.282 2.115
6 7 8 9 10
0.483 0.419 0.373 0.337 0.308
2.534 2.704 2.847 2.970 3.078
o o o o o 0.076 0.136 0.184 0.223
1.924
1.777
11 12 13 14 15
0.285 0.266 0.249 0.235 0.223
3.173 3.258 3.336 3.407 3.472
0.256 0.284 0.308 0.329 0.348
1.744 1.716 1.692 1.671 1.652
2.004 1.864 1.816
RJENTE: Adaptado de: American Society forTesting and Materials, ASTM, Manual on Qua/ity Control ot Materials, 1951, Tabla B2, pág. 115. Si se necesita una tabla o una explicación más detallada, véase Acheson J. Duncan, Control de Calidad y Estadfstica Industrial, 5a. ed., Alfaomega Grupo Editor, México, 1996, Tabla M, pág. 927.
756
Apéndices
,~
~;---¡
0.1
0.2
0.3
0.4
ü.5
0.6
0.7
0.8
0.9
0.9048 0.0905 0.0045 0.0002 0.0000
0.8"187 0:1637 0.0164 0.0011 0.0001
0.7408 0.2222 0.0333 0.0033
0.6065 0.3033 0.0758 0.0126 0.0016
0.5488
0.4966 0.3476 0.12"17 0.0284 0.0050
0.4493 0.3595, 0:1438 0.0383 0.0077
0.4066
0.0003
0.6703 0.2681 0.0536 0.0072 0.0007
5 6 7
0.0000 0.0000
0.0000 0.0000 0.0000
0.0000 0.0000 0.0000
0.0001 0.0000 0.0000
0.0002 0.0000 0.0000
0.0004
0.0007 0.0001 0.0000
0.0012 0.0002 0.0000
0.0020 0.0003 0.0000
X
1.0
2.0
3.0
4.0
5.0
6.0
7.0
B.O
9.0
0.3679 0.3679 0.1839 0.0613
0.0498 0.1494 0.2240 0.2240 0.1680
0.0183
0.0025 0.0·¡49 0.0446 0.0892 0.1339
0.0009 0.0064 0.0223 0.0521 0.0912
0.0003 0.0027 0.0107 0.0286 0.0573
0.0001 0.0011 0.0050 0.0150
0.0916 0.1221 0.1396 0.1396 0.1241
0.0607 0.0911 0.1171 0.1318 0.1318
o 1
2 3 4
º·ºººº
0.3293
0.0988 0.0198 0.0030
º·ºººº
0.0000
0.3659 0.1647
0.0494 0.0111
µ
o
0.0153
0.1353 0.2707 0.2707 0.1804 0.0902
0.0031 0.0005 0.0001 0.0000 0.0000
0.0361 0.0120 0.0034 0.0009 0.0002
12 13 14
0.0000 0.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000
15 16 17 18 19
0.0000 0.0000 0.0000 0.0000 0.0000
0.0000
20 21 22
0.0000 0.0000 0.0000
0.0000 0.0000 0.0000
1 2 3 4 5 6 7 8
9 10
11
º·ºººº 0.0000 0.0000 0.0000
Apéndices
0.-1954
0.0067 0.0337 0.0842 0.1404 0.1755
0.1008 0.0504 0.0216 0.0081 0.0027
0.1563 0.1042 0.0595 O.ü298 0.0132
0.1755 0.1462 0.1044 0.0653 0.0363
0.1606 0.1606 0.1377 0.1033 0.0688
0.1277 0.1490 0.1490 0.1304 0.1014
0.0008 0.0002 0.0001
0.0053 0.0019 0.0006 0.0002 0.0001
0.0181 0.0082 0.0034 0.0013 0.0005
0.0413 0.0225 0.0113 0.0052 0.0022
0.0710 0.0452 0.0263 0.0142 0.0071
0.0993 0.0722 0.0481 0.0296 0.0169
0.1186 0.0970 0.0728 0.0504 0.0324
0.0000 0.0000 0.0000 0.0000 0.0000
0.0002 0.0000 0.0000 0.0000 0.0000
0.0009 0.0003 0.0001 0.0000 0.0000
0.0033 0.0014 0.0006 0.0002 0.0001
0.0090 0.0045 0.0021 0.0009 0.0004
0.019;1-
0.0000 0.0000 0.0000 0.0000
0.0058 0.0029 0.0014
º·ºººº º·ºººº º·ºººº
º·ºººº º·ºººº º·ºººº
0.0000 0.0000 0.0000
0.0000 0.0000 0.0000
0.0000 0.0000 0.0000
0.0002 0.0001 0.0000
0.0006 0.0003 0.0001
º·ºººº º·ºººº 0.0000
0.0733
0.1465 0.1954
0.0337
o.orno
757
A ' ./ rl"}['P D ·~1Je!l1 iL \.._4
~í
_J
~
'=-'
Areas bajo ia1 cur ila m1rma! 1
Ejemplo: Si z = i .96, entonces P(O a z) ~ 0.4750
o
z-•
z
o.o
758
1.96
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
º·ºººº
0.0080 0.0478 0.0871 0.1255 0.1628
0.0120 0.0517 0.0910 0.1293
:o:i664
00160 0.0557 0.0948 0.1331 0.1700
0.0199 0.0596 0.0987 0.1368 0.1736
0.0239 0.0636 0.1026 0.1406 0.1772
0.0279 0.0675 0.1064 0.1443 0.1808
0.0319 0.0714 0.1103 0.1480 0.1844
0.0359 0.0753 0.1141 0.1517 0.1879
0.1 0.2 0.3 0.4
0.0398 0.0793 0.1179 0.1554
0.0040 0.0438 0.0832 0:1217 0.1591
0.5 0.6 0.7 0.8 0.9
0.1915 0.2257 0.2580 0.2881 0.3159
0.1950 0.2291 0.2611 0.2910 0.3186
0.1985 0.2324 0.2642 0.2939 0.3212
0.2019 0.2357 0.2673 0.2967 0.3238
0.2054 C.2389 0.2704 0.2995 0.3264
0.2088 0.2422 0.2734 0.3023 0.3289
0.2123 0.2454 0.2764 0.3051 0.3315
0.2157 0.2486 º·27:9~ 0.3078· 0.3340
0.2190 0.2517 0.2823 0.3106 0.3365
0.2224 0.2549 0.2852 0.3133 0.3389
1.0 1.1 1.2 1:3 1.4
0.3413 0.3643 0.3849 0.4032 0.4192
0.3438 0.3665 0.3869 0.4049 0.4207
0.3461 0.3686 0.3888 0.4066 0.4222
0.3485 0.3708 0.3907 0.4082 0.4236
0.3508 0.3729 0.3925 0.4099 0.4251
0.3531 0.3749 0.3944 0.4115 0.4265
Q,3554
0.3770; 0.3962 0.4131 0.4279
0.3577 0.3790 0.3980 0.4147 0.4292
0.3599 0.3810 0.39971 0.4162 0.4306
0.3621 0.3830 0.4015 0.4177 0.4319
1.5 1.6 1.7 1.8 1.9
0.4332 0.4452 0.4554 0.4641 0.4713
0.4345 0.4463 0.4564 0.4649 0.4719
0.4357 0.4474 0.4573 0.4656 0.4726
0.4370 0.4484 0.4582 0.4664 0.4732
0.4382
0.4495 0.4591 0.4671 0.4738
0.4394 0.4505 0.4599 0.4678 0.4744
0.4406 0.4515 0.4608 0.4686 0.4750
0.4418 0.4525 0.4616 0.4693 0.4756
0.4429 0.4535 0.4625 0.4699 0.4761
0.4441 0.4545 0.4633 0.4706 0.4767
2.0 2.1 2.2 2.3 2.4
0.4772 0.4821 0.4861 0.4893 0.4918
0.4778 0.4826 0.4864 0.4896 0.4920
0.4783 0.4830 0.4868 0.4898 0.4922
0.4788 0.4834 0.4871 0.4901 0.4925
0.4793 &4838 0.4875 0.4904 0.4927
0.4798 0.4842 0.4878 0.4906 0.4929
0.48Q3c
0.4846 0.4881 0.4909 0.4931
0.4808 0.4850 0.4884 0.4911 0.4932
0.4812 0.4854 0.4887 0.4913 0.4934
0.4817 0.4857 0.4890 0.4916 0.4936
2.5
2.6 2.7 2.8 2.9
0.4938 0.4953 0.4965 Q.4974 Ó.4981
0.4940 0.4955 0.4966 0.4975 0.4982
0.4941 0.4956 0.4967 0.4976 0.4982
0.4943 0.4957 0.4968 0.4977 0.4983
0.4945 0.4959 ' 0.4969 0.4977 0.4984
0.4946 0.4960 0.4978 0.4984
0.4948 0.4961 0.4971 0.4979 0.4985
0.4949 0.4962 0.4972 0.4979 0.4985
0.4951 0.4963 0.4973 0.4980 0.4986
0.4952 0.4964 0.4974 0.4981 0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990
Apéndices
0.4970
t.,
I'i~~P, ' c...J/
.~,,l
ri rl i(' P E
<\::,.J"
J. ,Ja._,_,_~¿'~
s alitlatoriros
{¡¡ !ft'il ~ ¡}"(JI~ " I"'M~, 'i" !!]~ -~UYAf'4.i'fi ~~~0~a ~~WI
02711 94873 54921 77640 61545
08182 90935 78680 97636 00835
75997 31684 06635 37397 93251
79866 63952 98689 93379 87203
58095 09865 17306 36759
83319 1449"1 25170 59818 49197
80295 995"18 65928 45827 85967
79741 93394 87709 74164 01704
74599 34691 30533 71666 19634
84379 14985 89736 46977 21898
17147 -. 13748 87455 08999 78804
19519 04742 14813 57409 81333
22497 92460 50373 91185 53809
16857 85801 28037 10200 32471
42426 53444 91182 61411 46034
84822 65626 32786 23392 36306
92598 58710 65261 47797 22498
49186 55406 11 ·173 56377 19239
88247 17173 34376 71635 85428
39967 69776 36408 08601 55721
82173 97594 73881 46071 44492
26921 25168 67176 22912 19686
28472 89178 93504 90326 12495
98958 68190 42636 42453 93135
07960 05043 38233 88108 95185
66124 17407 16154 72064 77799
89731 48201 96451 58601 52441
95069 83917 57925 32357 88272
18625 11413 29667 90610 22024
92405 72920 30859 32921 80631
31864 51574 35350 46943 22665
72170 90692 76132 36502 87226
37722 43339 92925 01172 33304
55794 65689 92124 46045 57975 -
14636 76539 92634 46991 03985
05148 27909 35681 33804 21566
54505 05467 43690 80006 65796
50113 21727 89136 35542 72915
21119 51141 35599 61056 81466
25228 72949 84138 75666 89205
39437 77082 24544 27503 24590
97957 47784 25649 15558 24545
11838 40098 43370 37738 06435
10433 97962 28007 24849 52758
21564 89845 06779 70722 45685
51570 28392 72402 71859 90151
73558 78187 62632 83736 46516
27495 061"12 53956 06016 49644
34533 08169 24709 94397 92686
57808 11261 06978 12529 84870
48155 20226 70178 10169 81084
86226 53752 73444 41465 03701
40359 90648 38790 51935 28598
28723 24362 53626 05711 70013
15364 83314 93780 09799 63794
69125 00014 18629 79077 53'169
12609 19207 68766 88159 97054
57171 69413 24371 33437 60303
86857 97016 74639 68519 23259
31702 86290 30782 03040 96196
69202 80561 08199 98883 84568
20777 95787 26703 28220 69286
21727 89426 95128 39358 76054
81511 93325 48599 53720 21615
51887 86412 09333 80161 80883
16175 57479 12584 83371 36797
53746 54194 24374 15181 82845
46516 52153 31232 11131 39139
70339 19197 61782 12219 90900
62727 81877 44032 55920 18172
04269 10538 77843 12034 10524
35173 13124 24955 94636 72829
95745 36099 25900 49455 47641
53893 13140 63843 76362 93315
86022 37706 95029 83532 80875
77722 44562 93859 31062 28090
52498 57179 93634 69903 97728
84193 44693 20205 91186 52560
22448 67877 66294 65768 34937
22571 01549 41218 55949 79548
68935 89450 90696 49006 74591
76632 65665 20451 32047 87025
46984 29190 24211 93086 52368
61772 43709 97310 00112 59416
92786 11172 60446 20470 34417
22651 34481 73530 17136 70557
07086 95977 62865 28255 86746
89754 47535 96574 86328 55809
44143 25658 13829 07293 53628
97687 73898 72226 38809 12000
06315 62386 86848 65643 11084
170.12 09184 82122 69480 46534
77103 62092 04028 46598 78957
00968 46617 36959 04501 77353
07235 99419 87827 40403 39578
10728 64230 12813 91408 77868
42189 95034 08627 32343 22970
33292 85481 80699 48130 84349
51487 07857 13345 49303 09184
64443 42510 51695 90689 70603
Apéndices
564~·4
759
Eien1plo: con gl = 9 y área= 0.10 en la cola superior,
t = 1.383
o
Intervalos de confianza
80%
90%
95%
98%
99%
99.9%
Nivel de significancia para pruebas de una cola
g/
0.100
0.050
0.025
0.010
0.005
0.0005
Nivel de significancia para pruebas de dos colas
0.20
0.10
0.05
0.()2.
0.01
0.001
·1 2 3 4 5
3.078 1.886 1.638 1.533 1.476
6.314 2.920 2.353 2.132 2.015
12.706 4.303 3.182 2.776 2.571
31.821 6.965 4.541 3.747 3.365
63.657 9.925 5.84\ 4.604 4.032
636.619 31.599 12.924 8.610 6.869
6 7 8 9 10
1.440 1.415 1.397 1.383 1.372
1.943 1.895 1 .860 i-:833-· i.812
11 12 13 14 15
1.363 1.356 1.350 1.345 1.341
16 H 18 19 20
-2:262 2.228
?o~ºY
3.143 2.998 2.8_96,p 2.821 2.764
3.707 3.499 3.35\jy 3.250 3.169
5.959 5.408 5.041 4.781 4.587
1.796 1.782 1.771 1.761 1.753
2.201 2.179 2.160 2.145 2.131
2.718 2.681 2.650 2.624 2.602
3.106 3.055 3.012 2.977 2.947
4.437 4.318 4.221 4.140 4.073
1.337 1.333 1.330 1.328 1.325
i.746 i.740 1.734 1.729 1.725
2.120 2.110 2.101 2093 2.086
2.583 2.567 2.552 2.539 2.528
2.921 2.898 2.878 2.861 2.845
4.015 3.965 3.922 3.883 3.850
21 22 23 24 25
1.323 1.321 Ul9 1.318 1.316
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
2.518 2.508 2.500 2.492 2.485
2.831 2.Brn 2.807 2.797 2.787
3.819 3.792 3.768 3.745 3.725
26 27 28 29 30
1.315 1.314 1.313 1.311 1.310
1.706 1.703 1.701 1.699 i.697 '
2.056 2.052 2.048 2.045 2.042
2.479 2.473 2.467 2.462 2.457
2.779 2.771 2.763 2.756 2.750
3.707 3.690 3.674 3.659 3.646
40 60 120
1.303 1.296 1.289 1.282
1.684 1.671 1.658 1.645
2.021 2.000 1.980 1.960
2:423 2.390 2.358 2.326
2.704 2.660 2.617 2.576 -
3.551 3.460 3.373 3.291
00
760
Apéndices
1
2/47 2)t!?.§_ .I
-
Grados de libertad para el numerador ·~--~~·~~~~~~~~~~~~~~
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
1 2 3 4 5
161 18.5 10.1 7.71 6.61
200 19.0 9.55 6.94 5.79
216 19.2 9.28 6.59 5.41
225 19.2 9.12 6.39 5.19
230 19.3 9.01 6.26 5.05
234 19.3 8.94 6.16 4.95
237 19.4 8.89 6.09 4.88
239 19.4 8.85 6.04 4.82
241 19.4 8.81 6.00 4.77
242 19.4 8.79 5.96
244 19.4 8.74 5.91 4~
248 19.4 8.66 5.80 4•
249 19.5 8.64 5.77
4~
246 19.4 8.70 5.86 4fil
4~
250 19.5 8.62 5.75 4.50
251 19.5 8.59 5.72 4.46
6 7 8 9 10
5.99 5.59 5.32 5.12 4.96
5.14 4.74 4.46 -A.26 4.10
4.76 4.35 4.07 3.86
171
4.53 4.12 3.84 3.63 3.48
4.39 3.97 3.69 3.48 3.33
4.28 3.87 3.58 3.37 3.22
4.21 3.79 3.50 3.29 3.14
4.15 3.73 3.44 3.23 3.07
4.10 3.68 3.39 3.fs 3.02
4.06 3.64 3.35 3.14 2.98
4.00 3.57 3.28 3.07 2.91
3.94 3.51 3.22 3.01 2.85
3.87 3.44 3.15 2.94 2.77
3.84 3.41 3.12 2.90 2.74
3.81 3.38 3.08 2.86 2.70
3.77 3.34 3.04 2.83 2.66
11 12 13 14 15
4.84 4.75 4.67 4.60 4.54
3.98 3.89i 3.81 3.74 3.68
3.59 3.49 3.41 3.34 3.29
3.36 3.26 3.18 3.11 3.06
3.20 3.11 3.03 2.96 2.90
3.09 3.00 2.92 2.85 2.79
3.01 2.9·1 2.83 2.76 2.71
2.95 2.85 2.77 2.70 2.64
2.90 2.80 2.71 2.65 2.59
2.85 2.75 2.67 2.60 2.54
2.79 2.69 2.60 2.53 2.48
2.72 2.62 2.53 2.46 2.40
2.65 2.54 2.46 2.39 2.33
2.61 2.51 2.42 2.35 2.29
2.57 2.47 2.38 2.31 2.25
2.53 2.43 2.34 2.27 2.20
16 17 18 19 20
4.49 4.45 4.41 4.38 4.35
3.63 3.59 3.55 3.52 3.49
3.24 ,,3.01 3.20 / 2.96 3.16 / 2.93 3.13 2.90 3.10 1' 2.87
2.85 2.81 2.77 2.74 2.71
2.74 2.70 2.66 2.63 2.60
2.66 2.61 2.58 2.54 2.51
2.59 2.55 2.51 2.48 2.45
2.54 2.49 2.46 2.42 2.39
'2.49 2.45 2.41 2.38 2.35
2.42 2.38 2.34 2.31 2.28
2.35 2.31 2.27 2.23 2.20
2.28 2.23 2.19 2.16 2.12
2.24 2.19 2.15 2.11 2.08
2.19 2.15 2.11 2.07 2.04
2.15 2.10 2.06 2.03 1.99
21 22 23 24 25
4.32 4.30 4.28 4.26 4.24
3.47 3.44 3.42 3.40 3.39
3.07 3.05 3.03 3.01 2.99
2.68 2.66 2.64 2.62 2.60
2.57 2.55 2.53 2.51 2.49
2.49 2.46 2.44 2.42 2.40
2.42 2.40 2.37 2.36 2.34
2.37 2.34 2.32 2.30 2.28
2.32 2.30 2.27 2.25 2.24
2.25 2.23 2.20 2.18 2."16
2.18 2.15 2."13 2.11 2.09
2.10 2.07 2.05 2.03 2.01
2.05 2.03 2.0·1 1.98 1.96
2.01 1.98 1.96 1.94 1.92
1.96 1.94 1.91 1.89 1.87
!~
¿¿;
~;;
;;¡
;~; ;~;, ;~¡
;;;,
2.84 2.82 2.80 2.78 2.76
;.;~
;;: ;;~ ;~~ ;~: ;:! ;~; ;~: ;;; ~~~1 -~~_:_3:_i~~~~:-~~~~::_i:_8 -"-_::_;:_5 -L_:_·~-~J__:_:!_:J__!_::_iJ__l_:~-~-,I ·ºi l,~1_:i_!~_i_:i_i~_i_:!_i_~_i_:i_~~-i_:i_r~~i:_!i~~i•_¡¡_~ 1
2
Apéndices
761
V
critii~os
de !a: dist1'ibimión F nhrn:I de signlfica1:u:ita 1
~1 O
F
Grados de libertad para el numerador
:;
t
•
.E
E o
. e
•
t
~
• t • "• ªt• o t" e
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
1 2 3 4 5
4052 98.5 34.1 21.2 16.3
5000 99.0 30.8 18.0 13.3
5403 99.2 29.5 16.7 12.1
5625 99.2 28.7 16.0 11.4
5764 99.3 28.2 15.5 11.0
5859 99.3 27.9 15.2 10.7
5928 99.4 27.7 15.0 10.5
5981 99.4 27.5
6022 99.4 27.3 14.7
6056 99.4 27.2 10.1
6157 99.4 26.9 14.2 9.72
6209 99.4 26.7
10.2
6106 99.4 27.1 14.4 9.89
6235 99.5 26.6 13.9 9.47
6261 99.5 26.5 13.8 9.38
6287 99.5 26.4 13.7 9.29
6 7 8 9 10
13.7
10.9 9.55 8.65 8.02 7.56
9.78 8.45
9.15 7.85 7.01
8.'10 6.84 6.03 5.47 5.06
7.98 6.72 5.91 5.35 4.94
7.87 6.62 5.81 5.26 4.85
7.72 6.47 5.67 5.11 4.71
7.56 6.31 5.52 4.96 4.56
7.40 6.16 5.36 4.81 4.41
7.31 6.07 5.28
6.42 5.99
6.37 5.80 5.39
8.26 6.99 6.18 5.61 5.20
4.73 4.33
7.23 5.99 5.20 4.65 4.25
7.14
7.59 6.99 6.55
8.75 7.46 6.63 6.06 5.64
8.47
12.2 11.3 10.6 10.0
6.22 5.95 5.74 5.56 5.42
5.67 5.41 5.21 5.04 4.89
5.32 5.06 4.86 4.69 4.56
5.07 4.82 4.62 4.46 4.32
4.89 4.64 4.44 4.28 4.14
4.74 4.50 4.30 4.14 4.00
4.63 4.39 4.19 4.03 3.89
4.54 4.30 4.10 3.94 3.80
4.40 4.16 3.96 3.80
4.10 3.86 3.66 3.51 3.37
4.02 3.78 3.59 3.43 3.29
3.94 3.70 3.51 3.35 3.21
3.86 3.62 3.43 3.27 3.13
7.19
14.8 10.3
14.5
14.0 9.55
5.91 5.12 4.57 4."17
11 12 13 14 15
9.65 9.33 9.07 868
7.21 6.93 6.70 6.51 6.36
3.ffZ
4.25 4.01 3.82 3.66 3.52
16 18 19 20
8.53 8.40 8.29 8.18 8.10
6.23 6.11 6.01 5.93 5.85
5.29 5.18 5.09 5.01 4.94
4.77 4.67 4.58 4.50 4.43
4.44 4.34 4.25 4.17 4.10
4.20 4.10 4.01 3.94 3.87
4.03 3.93 3.84 3.77 3.70
3.89 3.79 3.71 3.63 3.56
3.78 3.68 3.60 3.52 3.46
3.69 3.59 3.51 3.43 3.37
3.55 3.46 3.37 3.30 3.23
3.41 3.31 3.23 3.15 3.09
3.26 3.16 3.08 3.00 2.94
3.18 3.08 3.00 2.92 2.86
3.10 3.00 2.92 2.84 2.78
3.02 2.92 2.84 2.76 2.69
21 22 23 24 25
8.02 7.95 7.88 7.82 7.77
5.78
5.72 5.66 5.61 5.57
4.87 4.82 4.76 4.72 4.68
4.37 4.31 4.26 4.22 4.18
4.04 3.99 3.94 3.90 3.85
3.81 3.76' 3.71 3.67 3.63
3.64 3.59 3.54 3.50 3.46
3.51 3.45 3.41 3.36 3.32
3.40 3.35 3.30 3.26 3.22
3.31 3.26 3.21 3.17 3.13
3.17 3.12 3.07 3.03 2.99
3.03 2.98 2.93 2.89 2.85
2.88 2.83 2.78 2.74 2.70
2.80 2.75 2.70 2.66 2.62
2.72 2.67 2.62 2.58 2.54
2.64 2.58 2.54 2.49 2.45
30 40 60 120
7.56 7.31 7.08 6.85 6.63
5.39 5.18 4.98 4.79 4.61
4.51 4.31 4.13 3.95 3.78
4.02 3.83 3.65 3.48 3.32
3.70 3.5'1 3.34 3.17 3.02
3.47 3.29 3.12 2.96 2.80
3.30 3.12 2.95 2.79 2.6L
3.17 2.99 2.82 2.66 2.51
3.07 2.89 2.72 2.56 2.41
2.98 2.80 2.63 2.47 2.32
2.84 2.66 2.50 2.34 2.18
2.70 2.52 2.35 2.19 2.04
2.55 2.37 2.20 2.03 1.88
2.47 2.29 2.12 ·1.95 1.79
2.39 2.20 2.03 1.86 1.70
2.30 2.11 1.94 1.76 1.59
8.86
~
~
17
w
762
Apéndices
2~
0.15
1
0.10
1
0.05
1
0.04
1
0.03
e§
0.015
0.010
1
0.01
a
n
0.075
o
0.050
0.025
0.020
4 5 6 7 8
1 2 4 7
2 3 5
o
o
2 3
1 3
9 10 11 12 13
9 12 16 19 24
8 10 ·13 17 21
5 8 10 13 17
5 7 9 12 16
14 15 16 17 18
28 33 39 45 51
25 30 35 41 47
21 25 29 34 40
19 20 21 22 23
58 65 73 81 89
53 60 67 75 83
24 25 26 27 28
98 108 118 128 138
29 30 31 32 33
o
o
o
0.005
2
1
o
4
6 8 11 14
3 5 7 9 12
1 3 5 7 9
19 23 28 33 38
18 21 26 30 35
15 19 23 27 32
12 15 19 23 27
46 52 58 65 73
43 50 56 63 70
41 47 53 59 66
37 43 49 55 62
32 37 42 48 54
91 100 110 119 130
81 89 98 107 116
78 86 94 103 112
74 82 90 99 108
69 76 84 92 101
61 68 75 83 91
150 161 173 186 199
140 151 163 175 187
126 137 147 159 170
122 132 143 154 165
117 127 148 159
110 120 130 140 151
100 109 118 128 138
34 35 40 50 60
212 226 302 487 718
200 2"13 286 '66 690
182 195 264 434 648
177 189 257 425 636
171 182 249 413 620
162 173 238 397 600
148 159 220 373
70 80 90 100
995 1 318 1 688 2105
960 1 276 1 638 2 045
907 1 211 1 560 1 955
891
872 1168 ·1 509 1 894
846 1 136 1 471 1 850
805 1 086 1 410 1 779
1 192
1 537 1 928
137
567
FUErffE: Compilado de Roberi L. McCormack, "Extended Tables of !he Wilcoxon Matched-Pair Signed Rank Statistic," Jouma! of tt1e !merican Statistica/ Association, Septiembre de 1965, págs. 866-67.
Apéndices
763
Esta tabla contiene los valores de x' que corresponden a un área específica en la cola derecha y un nC11nero específico de grados de libertad.
Ejemplo con 17 grados de libertad y un área de 0.02 en la cola superior) x 2 = 30.996
o Grados de
Área en la cola derecha
libertad, gl
0.10
0.05
0.02
0.01
1 2 3 4 5
2.706 4.605 6.251 7.779 9.236
3.841 5.991 7.815 9.488 11.070
5.412 7.824 9.837 11.668 13.388
6.635 9.210 11.345 13.277 15.086
6 7
10.645 12.017 13.362 14.684 15.987
12.592 14.067 15.507 16.919
15.033 16.622 18.168
16.812 18.475
18.307
21.161
20.090 21.666 23.209
22.618 24.054 25.472 26.873 28.259
24.725 26.217 27.688 29.141 30.578
8
9 10
764
Apéndices
17.275
19.679
11 12 13 14 15
21.064 22.307
19.675 2°1.026 22.362 23.685 24.996
16 17 18 19 20
23.542 24.769 25.989 27.204 28.412
26.296 27.587 28.869 30.144 31.410
29.633 30.995 32.346 33.687 35.020
32.000 33.409
21 22 23 24 25
29.615 30.813 32.007 33.196 34.382
32.671 33.924 35.172 36.415 37.652
36.343 37.659 38.968 40.270 41.566
38.932 40.289 41.638 42.980 44.314
26 27 28 29 30
35.563 36.741 37.916 39.087 40.256
38.885 40.113 4°1.337
42.856 44.140 45.419
45.642
42.557
46.693 47.962
18.549 19.812
43.773
34.805
36.191 37.566
46.963
48.278 49.588 50.892
J• .
/',_Jo
-~
\,f);P~ }í IIr('P Ir ..:&.f;....,.P~..:....: ~J.JLV'J.s,,,..--/ Pi
y-
_!i,_
1i
.~·
Bienes
soiL,,_,fif'@)
; J':F~~!J,ifl w"""fCtP'~ H@fil .;i:t;~ \ lJl ¡¿nQJ !/ '- U,{(j
\;é' ·
x 1 =Precio de venta en miles de dólares x 2 = Nümero de dormitorios x 3 =Superficie de la casa en pies cuadrados x 4 =Piscina (1 =sí, O= no) x 5 = Distancia desde el centro de la ciudad x 6 =Municipio x 7 =Garaje (1 =sí, O= no) x 8 = Núrnero de baños
x,
x,
x,
x,
x,
x,
x,
x,
263.1 182.4 242.1 213.6
4 4 3 2 2 2 6 2 3 4 4 2 6 4 2 3 4 5 3 6 4
2 300 2100
o
17 19 12 16 28 12 15 9 18 13 14 8
5 4 3 2 1 1 3 2 1 4 3 4 4 3 3 2 3 4 4 4 4 2 5 4 5 5 4 4 3 5 3 5 2 2 5
1
2 2 2 2.5 1.5 2 2
139.9
245.4 327.2 271.8 221.1 266.6 292.4 209 270.8 246:1 194.4 281.3 172.7 207.5
198.9 209.3 252.3 192.9 209.3
Apéndices
4
5
345.3
8
326.3 173.1 187 257.2 233 180.4 234 207.1 247.7 166.2 177.1
6 2 2 2 3
2 300 2 200 2 100 2100 2 500 2100 2 300 2400 2100 1700 2 500 2 100 2 300 2100 2 200 2 300 2 200 1 900 2 600 1 900 2100 2 600 2100 2 200 1 900
2 ·100 2 200
ººº
3
21700 2 000 2 400 2 000
2
1 900
2 2 5
1 1 1 1
o
·¡ 1
o
1 1 1 1 1 1
o o o o 1
o 1
o 1
7
18 11 16 16 2·1 10
15 8 14 20 9 11 21 26 9
1 1 1 1 1
o
1
14 11 -19
11 16 16 10
o o o o 1 1
o
o 1
o o 1 1 1 1
o
1 1 1
o 1 1
o 1 1 1 1 1
2.5 1.5 2 2 1.5 2 2 2 2 2 2.5 2 2 2 2.5 1.5 2 3 1.5 2 2 1.5
2 2 2 2 2 2
765
A , _~1Jend1ce l 10
B
Conjunto
ci[ ¡::t(i (C e@m ~
11,,rn~Lffi~
Bienes n1ices {continuacián) x,
x,
182.7 216 312.1 199.8
4 4 6
273.2
206 232.2 198.3 205.1 175.6 307.8 269.2 224.8 171.6 216.S 192.6 236.4 172.4 251.4 246 147.4 176 228.4 166.5 189.4 312.1 289.8 269.9 154.3 222.1 209.7 190.9 254.3 207.5 209.7 294 176.3 294.3 224 125 236.8 164.1 217.8 192.2 125.9
220.9 294.5 244.6
766
Apéndices
3 3 4 3 4 3 5 3 3 3 6 5 3 3 6 6 4 3 3 4 7 6 5 2 2 5 3 4 3 4 2 2 7 3 2 4 4 3 2 2 2 6 2
x,
x,
X.
x,
x,
x,
ººº
o
14 19 7 19 16 9 16 19 20 24 21 8 17 16 15 14 20 23 12 7 12 15 17 19 24 13 21 11 13 9 13 18 15 10 19 13 17 8 6 18 17 19 12 16 28 12 15 9
4 2 5 3 2 3 1 1
o o
2.5 2 2.5 2 3 1.5 1.5 1.5 2 2 3 3 2.5 2 2 2 2 2 2 3 2 2 1.5 2.5 2 3 3 2.5 2 2 2 2 2 2 2 2.5 2 2 2 1.5 2 2 2 2.5 1.5 2 2 2.5
2 2 300 2 600 2 ·100 2 200 2100 1 900 2100
ººº
22 300 2 400 2 200 2 200 2000 2 200 2 200 2 200 2 200 1 900 2 300
1 1 1 1
o o o o o o
1 1
o 1
o 1 1 1 1
1 700
o
2 200 2 300 1 600 2 200 2 400
1 1
ººº 2 ººº 2100 2 2 200
2 200 2200 2 500 2 100 2 200 2 100
ººº 2 400
2
o
1 1 1
o 1 1
o o o o o 1
o 1
1 900
o
1 900 2 600 2 300 2 500 2400 2 400 2 300 2 700 2 300
1
o
o 1
1 1 1
o 1 1
4
o
4 2 5
1 1 1 1
4
o
1 1 3 3 2 3 1 1 5 3 1 3 3 4 2 5 2 3 3 2 2 2 3 4 1 4 5 4 3 2
1
3 2
o
1
o
1 1
o o
o 1 1 1
o 1 1
o 1 1
o 1
o o o o 1 1 ·1
Pioéndicel C:onjurrto de datos 1 ·- Bieíles raic:es (fin) x,
x,
x,
X.,
X,
x,
X,
x,
199 240 263.2 188.1 243.7 221.5 ·175 253.2 155.4 186.7 179 188.3 227.1 173.6 188.3 310.8 293.7 179
3 4 4 2 6 4 2 3 4 5 3 6 4 4 5
2 500 2600 2 300 1 900 2 700 2 300 2 500 2 300 2 400 2 500 2 400 2100 2 900 2100 2 300 2 900 2 400 2 400 2100 2 900 2100 2 300
o
18 13 14
1 4 3 4 4 3 3 2 3 4 4 4 4 2 5 4 5 4 2 5 4 5
o
1.5 2 2 1.5 2 2 2 2 2 2.5 2 2 2 2.5 1.5 2 3 2 2.5 1.5 2 3
188.3
227.1 173.6
188.3
Apéndices
8
6 3 6 4 4 5
1 1 1 1 1 1 1
o o o o 1
o 1 1 1 1
o
1 1 1
8
7 18 11 16 16 2·1 10 15 8 14 20 9 11 B 14 20 9
11
1 1 1 1 1
o 1
o o 1 1 1 1
o 1 1 1 1
o 1 1
767
x 1 =Equipo x2 = Liga (Americana = 1, Nacional = O) x 3 = Edificado (año en el que se construyó el estadio) x4 =Tamaño (capacidad del estadio) x5 =Sueldo (valor total del equipo en 2000, millones de dólares) x 6 =Asistencia (asistencia total del pé1blico para equipo en 2000) x7 =Ganados (número de juegos ganados en 2000) x8 =ERA (promedio de carreras ganadoras) x 9 =Bateo (promedio de bateo del equipo) x 10 = HR (número de home-runs del equipo) x 11 =Césped (natural= O, artificial= 1) x 12 =Robadas (bases robadas) x 13 =Errores (errores cometidos) x 14 :::::: Año x 15 =Promedio (sueldo promedio del jugador) x 16 =Mediana (sueldo mediano del jugador) x, Hilera
Equlpo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Boston New York Yankees Oakland Baltimore Anaheim Cleveland
19 20 21 22 23 24 25 26 27 28 29 30
768
Chlcago
liga
1 1
1 1
Toronto
1
Minnesota Tampa Bay Texas Detroit Seattle Kansas City Atlanta f.irizona Houston Cincinnati New York Mets Pittsburgh Los Angeles San Diego Montreal San Francisco St. LDuis Florida Plli\adelphia Milwaukee Chicago Cubs Coloraclo
1 1
1 1 1
1
o o o o o o o
o o o o o
o
o o o
x,
x,
X;
X;
x,
Edificado
Tamaño
Sue!do
Asistencia
Ganados
1912 1923 1966 1992 1966 1994 1991 1989 1982 1990 1994 2000 1999 1973 1993 1998 2000 1970 1964 1970 1962 1967 1976 1900 1966 '1987 1971 ·¡953 1914 1995
33 871 57 746 43 662 48262 45 050 43 368 44 321 50 516 48678 44 027
93.9 m.4 33.0 59.2 58.7 78.7 36.9 54.6 15.8 55.2 61.4 60.6 62.6 24.5 95.0 80.8 52 35:1 89.7 31 .9 94.2 54.7 28 54.2 72.4 25.9 36.7
2 585 895 3 227 657 i 728 885 3 297 031 2 066 982 3 456 278 1 947 799 1819919 10594'15 1 479 782 2 800 075 2 533 753 3 148 317 1677915 3 234 304 2 s·¡g 539 3056139 2 577 371 2 820 530 1 748 908 3 01·1 539 2 423149 926 272 3 318 800 3 336 493 12·1s326 i 612 769 1 573 621 2789511 3295129
85 87 91 74 82 90 95 83 69 69 71 79 91
ººº ººº
52 40 45 611 40 529 50 062 4.9 075
ººº
42 52 953 55 775 47 972 56 000 53 166 46 500 40 800 49 625 42 531 6241·1 43 000 38 957 50 381
33.8 51.1 56
77 95 85 72 85 94 69 86 76 67 97 95
79 65
73 65 82
Apér1dice K Conjunto de datos 2 ~ Liga Mayor de Béisbol (continuación) x, Hilera 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27 28 29 30
Equipo Boston New York Yankees Oaklancl Battimorn Anaheim Cleveland Chicago
Toronto Minnesola Tampa Bay Texas Detroit
SeattJe Kansas City Atlanta
Arizona Houston Cincinnati
New York Mets Pittsburgh
Los Angeles San Diego MontreclJ San Francisco St. Louis Florida
Philadelphia Milwaukee Chicago Cubs Colorado
Apéndices
x,
x,
Ganados
ERA
85 87 91 74 82 90 95 83 ey9 69 71 79 91 17 95 85 72 85 94 69 86 76 67 97 95 79 65 73 65 82
4.23 4.76 4.58
5.37 5.00 4.84 4.66 5.14 5.14 4.86 5.52 4.71 4.49 5.48 4.05 4.35 5.42 4.33 4.16 4.94 4.10 4.52 5.13 4.21 4.38 4.59 4.77 4.63 5.25 5.26
x, Baten 0.267 0.277 0.270 0,272 0.280 0.288 0.286 0.275 0.270 0.257 0.283 0.275 0.269 0.288 0.271 0.265 0.278 0.274 0.263 0.267 0.257 0.254 0.266 0.278 0.270 0.262 0.251 0.246 0.256 0.294
x,.
x,,
X12
x,,
Home Runs
Césped
Robadas
Errores
167 205 239 184 236 221 216 244 116 162 173
o o o o o o o
318 182 184 208 202 218 158 198 128 220 130 110 164 236 198 204 222 162 266 202 212 212 246 194 138 208 154 172 188 204
109 109 134 116 134 72 133 100 102 118 135
177 198 150 179 179 249 200 198 168 211 157 178 226 235 160 144
177 183 161
1 1 1
o o o o o o o 1
o 1
o o 1
o o o 1
o o o
105
99 102 129 107 133 111
118 132 135 141 132 93 111 125 100 118 100 94
769
Hilera
·1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
770
Apéndices
x,.
X¡5
x,.
Año
Promedio
Mediana
1976
1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
52 300 74
ººº
97 800 121 900 i46 500
196 500
ººº ººº
1993 1994 1995
245 289 325 900 368 998 410 517 402 579 430 688 489 539 589 483 845 383 1012424 1 062 780 1154 486 1 094 440
1996 1997 1998 1999 2000
1314420 1 384 530 1 567 873 1 983 049
1101 455
207 500 229 750 265 833 275 000 235 000 235 000 280 000 350 000 4i 2 000 392 500 371 500 450 000 275 000 300 000 400 000 427 500 495 000 700 000
}
lpépliice Ll ··1
l.
Con_jl!nto die dlatos
X~t.
-
~OECD
x 1 :;;;: País x 2 = Miembro del grupo G? ("I =Si O= No) x 3 = Area del país en miles de kilómetros cuadrados x 4 = Población en miles x 5 =Porcentaje de la población con edad mayor de 65 años x 6 =Tipo de cambio por dólar de EUA x 7 =Producto Interno Bruto, al tipo de cambio corriente, en miles de millones de dólares x 8 =Consumo de energía en millones de toneladas de petróleo equivalentes x 9 = Indice de fabricación total de productos (1900 = 100) Xrn = Fuerza laboral total x 11 =Región (1 =Lejano Oriente, 2 =Europa, 3 =América del Norte) X,
x,
x,
x,
X,
Australia Austria Bélgica Canadá Rep. Checa
o o o
7 687 84 31 9 976 79 43 338 549 357 132 93 103 70 301 378 98 3 1 973 41 269 324 313 92 505 450 41 781 245 9 373
18 289
12.1 15 16.1 12.2 13.4 15.1 14.4 15.3
Dinamarca Finlandia Francia
Alemania
1
o o o 1 1
Grecia Hungria Islandia Jrlanda Italia Japón
o o o o
Corea
Turquía
o o o o o o o o o o o o
Reino Unido EUA
1 1
Luxemburgo México Holanda Nueva Zelanda Noruega Polonia Portugal España Suecia Suiza
Apéndices
1
8 060
10157 29 964 10316 5 262 5 125 58 380 81 877 10 465 10 193 270
15.8
15.8 14.2 11.4
3 621
11.5
57 473
15.8
125 864 45 545 418 96 582 15 494 3 640 4 370 38 61.3 9 935 39 270 8 901 7 085 62 695 58 782 265 557
14.5
6.1 14.2 4.8 13.3 11.6
15.9 11.3 14.8
15.6 17.3 14.9
4.8 15.7 12.8
x, 1.509 12.51 36.61 1.426 34.73 6.771 5.369 5.955 1.777 279.6 201.3 71.71 0.687 1743 129.4 14Ti 8.123 2.004 1.689 7.25 3.532 181.5 150.3 7.785 1.44 199 026 0.603
1
x,
x,
X,
Xrn
100.61 27.19 56.4 236.17 40.4 22.87 31.48 254.2 349.55 24.39 25.47 2.27 ·11.96 161.14 510.36 162.87 3.45 141.38 75.8 16.3 23.15 108.41
109 111 108 112
9184 3 876 4 297 15 209 5175 2 822 2 531 25 613 39 294 4 249 4 048 148 1 494 23 385 67110
103.6
19.15
584.9
101.41 52.57 25.62 65.52
97 rn3 121 103
390.9 228.7 268.2 579.2 56.2 174.9 125.1 1 536.6 235.35 122.4 44 7.3 70.7 ·1 243.2 4 595.2 484.8 17 329.4 396 65.9 157.8 134.4
251.7
294.3 18"1.5
1153.4 7 388.1
234.72
2134.96
"117
121 98 97 98
175 104 98 163 100 118 109 119 115
m
102 118
2·1 188
218 34 325 7 516 1 797 2 246 17 283 4 885 16 159 4 310 3 967 22 736 28 552 135 231
x,, 1 2 2 3 2 2 2 2 2 2 2 2 2 2 1 1 2 3 2 1 2 2 2 2 2 2 2 2 3
771
L\pencl1ce / l\/I
1
1"
Goi1j1tmto de datos 4 ~ Distritos escolares del noroeste de Ohio {Schools) x 1 = Nombre del distrito x 2 =Número de estudiantes x 3 =Ingreso familiar medio en el distrito (en dólares) x 4 =Valor medio de propiedad en el distrito (en dólares) x 5 =Porcentaje de familias que reciben ayuda social x6 =Salario medio de maestros (en dólares) x 7 =Cantidad gastada por alumno (en dólares) x 8 =Asistencia media diaria x 9 = Porcentaje de alumnos que aprueban el examen final del 12 º grado. X,
Bluffton Shawnee Spencervi!le De!phos Elida
Lima Northeastem Ayersville Defiance Hicksville Central Ber!in~Milan
Perkins Hu ron Margaretta Sandusl
Arlington Vanlue Uberty-Benton Van Buren Cory-Rawson Arcaclia McComb Findlay
772
Apéndices
x, 1 i 32 2 472 1 026
1 104 3204 5 963 1194 921 3 046 990 1 216 1 593 2 038 1 494 1 560 4 426 20 503 1 864 1 238 1 401 1 559 487 1 725 685 346 954 840 794 597 805 5 758
X, 24 487
29 777 23 161 21 792 24 446 18 394 26 428 28228 23 812 22448 24189 25223 25 586 27135 23 849 19529 19 854 25 079 23408 23 826 26 706 23 396 2:Z 405
24 596 26175 24 709 28 718 28 964 23 904 24 305 23 754 24 269
x,
x,
x,
x,
x,
x,
62 678 130 910 51 645 88 453 65 550 44138 88 789 82 707 56 333 56 411 53 923 76878 117 545
1.8 2.6 5.4 6.2 8.9 33.8 1.7 3.9 11.2 7 4.6 4 3.3
31 221 34 860 30155 32 273 32 876 33142 30 919 32 850 34 750 34 224 34 430 32166 39 352 33 433 37 084 36 042
2130 2 570 2 262 2 506 2 250 2 657 2 431 2 693 2 438 2 351 2 496 2 564 2 861 2968 2 464 2 766 11 226 2834 2 252 2 250 2 837 2 309 2 492 2 615 2 205 2 420 2 063 2 584 2 416 2 752 2 321 2 860
95.7 94.7 95.5 96.5 94."I 92.3 96.1 95.6 94.2 95.7 94.8 96.1 95.8 95.4 95.5 93 95 96."I 95.3 95 96.2 94.8 94.6 94.9 96.5 96.2 96.7 96.4 96.4 95.9 95.9 94.9
85
105 588
l~.6
74 601 72 425 802 081 53948 60 896 69432 107 547 48 638 57 221 69 320 55 478 49 606 77 503 151 992 69 242 78 102 69 347 92 648
2.8 25.2 11.4
27144
3.9 4.9 5.2 4.1 6.1 6.9 6.3 2.7 4.1 1.5 1.8 2.4 2.5 5.7 7.6
31159 32 499 32 353 35 982 31 310 33166 33 690 31 821 28 411 30 330 33 447 31 241 30 738 28 986 35 879
73 68 65 62 40 72 68 63 59 56 77 74 74 66 37 100 78 75 72 69 66 51 50 84 83 78 75 73 64 61 60
/ 1º l'/1 _AJL1Je11a1ce 1
'·
.~
'_,,
~
.lL
Conjunto de datos 4 ~ Distritos esc;olares del r1oroeste de Otilo (conti11uuaclóri} x, Ada
Kenton
liberty Center Patrie!\ Henry Napoleon Area Holgate Monroeville Bellevue Willard Norwal)(
Ottawa Hil!s AnthonyWayne Sy!vania
Maumee Oregon Washington Springfield Toledo Benton Carral! Salem Danbury Genoa Port Clinton Put-in-Bay Paulding Ottovil!e Columbus Grave f
Bryan Nortl1 Central
x,
X:¡
855 2 228 1 009
23 029 20 418 24 723 23 061 25 304 23 962 22 942 24 025 23 304 21 551 45 723 29 215 32114 27 604 24 525 23 507 26 048 21 079 Z3 899 21 325 25 321 20 941 19 266 22 677 24128 23 562 24 456 23 625 25 363 23 806 20 941 23 312 22 678 22 327 26 460 23 854 22 103 22 656 23208 22103 23314 21 246 20 809 22 728 23035 21 302 22 307 21 371
1 176
2 331 605 686 2 276 2 300 2 650
933 3 178 7 822 3 009 3 594 7 -¡54 3 575 36 790 2 063 635 1 584 2 238 70 1 993 610 866 775 792 1 749 632 748 983 1 332 5 156 1 141 2 368 347 1183 540 870 459 3 632 2 742 2 504 744 788 2 266 757
x,
x,
52 655 61 155 57 685 63 134 84245 49 709
5.3
63103
66 912 58 832 72 266 122 356 88 004 101 503 117 92"1 123 599 102 485 98 346 62 668 237 206 182 360 53 120 129 961 426419 46163 46 582 55 5G8 44 267 37 277 64 288 55 446 62 648 46 098 55 933 74 874 90 484 55 724 37 269 50 895 50 712 72 20-¡ 41 376 65 291 62 268 67 932 38 462 40 239 81 152 59 396
"!3.8
4.í 5.2 6.6 6 4.3 6.9 14.3
12.2 0.2 3.1 3.8
3.9 8.7 11.8
12.2 42.S 4.7 3.2 4.8 -10.5 1.4 8.6 0.2 8.4
0.7 10 6.5 1.2 16.1 17.8 10.5 16.2 10.9 7 6.1 4,8 19.3 4.7 2.7 g 20.4 7.1 2-7 3.2 4.2 2.9
X;
x,
Xo
x,
28 479 30 907 30 904 31 895 32 773 31 324 30 838
2 380
32 '164 35 042
2 374
95.9 93.7 95.8 95.9 94.6 94.9 95.8 95:1 94.6 94 95.7 95.3
69 54 82 75 73 71 64 55 53 50 95 75 72 69 52 51 49 28 81 65 65 50 33 59 86 84 81 79 77 67 47 71 66 57 56 47 83 80 78 74 73 67 34 61 73 71 69 68
37 145 43 256 35 617 39 684 41 634 35 848 39 155 34 437 36190 42 734 34 971 34 661 39 542 30 242 32 928 26125 30 476 28 962 28 945 31185 27 693 30 282 31 244 30 765 37 759 32 296 33 998 27 466 29 940 28 195 30 644 29 099 35 513 34 241 33 885 30 833 3·1 582 32 643 31 978
2 5i2 2 43-1 2 552 2 422 2 454
2474 2 347 2 384 4 150 2 844 2 943 3 933 2 941 2 997 2 774 2 611 3 444 3158 2 845 2 926 7 824 2 560 2 588 2174 2 274 2 225 2154 2 078 2 811 2 242 2 306 2 6"16 2 227 2 333 2 394 2 435 2 743 2 564 2 501 2 506 2 455 2 51'1 ·1 916 2 382 2 706 2 349
95.5
95 94.7 93.7 93.8 90.7 95.6 95.3 95.9 94.5 94.5 94.5 99.8 96.2 96.8 95.5 96.5 96.5 93.9 94.4 95.2 94.7 96.5 94.6 95.8 95.9 96 94.6 97 94.7 92.7 95.3 95.1 95.9 95.2 95.6
773
Apell / dº,¡('P T\1 i
'1t:,,/ _
_,,_
""'"V%.,.!
i
..L
~
_!fil._
Conjml'ito de datos 4. ~Distritos escolares del m:inleste de Ohio (fin) x, Montpelier Edgerton Stryker Perrysburg Elrnwood Bowling Green Dtsego
Northwood Eastwood Lake Rossford North Baltimore Upper Sandusky Carey
774
Apéndices
,,
x,
1172 767 579 3 839 1 237 3 534 1 643 1 091
20 787 22 429 24 084 32 173 22179 21 307 24 614 25 905
1 739
25 043
1 665 2 087 839 1 801 915
23 359 25 360 22 075
21 063 21 658
x,
X,
44 383 54 040 65 532 97 888 47 644 84 682 57 601 77 077 67 929 95 859 123 725 58 383 68 348 51 497
8.2 4.1 3.4 2.6 7.5 7.5 5 7.9 4.7 6.2 7.2 10.6 3.9 6
x, 33 243 28 975 33 855 40 320 30 434 37 983 36 065 35 536 35 742 38 046 39 476 29 579 32 778 30 968
X,
2654 2 470 2 617 3 011 2 643 2 849 2 539 2 979 2499 2 820 3 258 2 331 2267 2 513
x,
x,
94.8 95.9 95.7 96.1 95.2 94.7 95.4 94.9 95.9 95.2 94.9 94.5 95.6 95.5
67 61 47 98 68 68 64 61 60 55 54 50 62 59
x 1 ~Saldo de cuenta (en dólares) X2= Núinero de transacciones en cajero auto111ático al mes x 3 :::: Nltn1ero de otros servicios bancarios utilizados x4 =Tiene tarjeta de débito ("I =sí, O= no) x 5 = Recibe intereses en su cuenta x 6 = Ciudad donde se maneja la cuenta
x,
x,
x,
x,
X5
1 756 748 1 501 1 831 1 622 1 886 740
13 9 10 10 14 17 6 10 6 18 12 12 6 10 12 20 7 5 7 20 15 11 17 10
4 2 1 4 6
o
1
1 593
1169 2125 ·¡ 554 1 474 1 913
1 218 1 006 2 215 137 167 343 2 557 2 276 1 494 2144
1 995 1 053 1 526 1120 1 838 1 746 1 616 1 958
634 580 1 320 1 675
Apéndices
8 8
8 7 11 10 6 2 4 4 6
3 3 8
4 6 6 7 5 3 4 3
2 4 2 7 4 2 3 7 4
o o o o o 1
o o 1 1
o 1
o 1
o o o 1 1
o o o
o o 1 1 1
3 1
1
1
1
4
o
6 5 2
1 1
8 1
4
1
1
2 7 1 5 7
1
1
o 1
1
2 1 1 3 4
o o o o o o o o o o o o o o o o o o
o
x,
o
o o o o o
4
2 3
1 1 1 1 4 3
4 1 4 3 3
2 3 2 3
3 2 2 2 4
2
775
i\péndiceN Go11j1.mto de datos baincarios ~Caso {fin) X,
x,
x,
x,
x,
789
4
o o o o
o
4
1 735 -¡ 784 1 326 2051
8 12 11 16 14
1
3
1 044 1 885 1 790
10 11
765
1 645 32
1 266 890
2 204 2 409 1 338
2 076 1 708
2138 ·2 375 1 455
1 487 1 ·12s i 989 2156
776
AIJéíldices
7
7 5 8 4 5 6
4
4 6 2
3 9
11 7 14 16 14 12 ·13 18 12 9 8 6 12 14
7 1 5 8 4 5 3 5
o
4 5
4 4 3 5
1 1 1
o o o o o o o o 1 1 1
o o 1 1 1
o 1
o o o o 1 1
o
1
o o
X;
3
4 1 2
3 4 4 3
4
o o o o o
1 2 2 2 2 1
1
4
o 1
o o 1
o
2 3 4 2 2 2
¿_Qué esl\1egaStat? MegaStat es un complemento de Excel que realiza el análisis estadístico en el libro de trabajo ele Excel. Una vez que se instala, aparece en el men(1 de Excel y Funciona con cualquiera de las opciones Edit, View de Exce!. MegaStat contiene opciones para realizar la mayor parte de los cálculos que se describen en un curso de introducción a la estadística para administración. Cuando se hace clic en el icono de MegaStat aparece el menú principal. Lama· yor parte de las opciones contienen submenús. Si el elemento del menú va seguido de signos, por ejemplo" ... ", al hacer clic en ese menú aparece un cuadro de diálogo. Si dicho elemento del men(1 contiene el símbolo"!>", entonces hay disponibles entradas adicionales en los submenús. A continuación se presenta la pantalla que aparece si selecciona MegaStat y luego Frequency Distributions.
14266 !5021 25683' 27872 16587 20169
323'31 16251 170~7
La mayor parte de la entrada ele MegaStat proviene de los cuadros de diálogo. Por ejemplo, si usted selecciona MegaStat, Frequency Distributions y Quantitative, verá el siguiente cuadro ele diálogo. Los cuadros de diálogo permiten especificar las celdas de datos para el procedimiento, y las opciones. Todos los cuadros de diálogo tienen un botón Heip que proporciona más información acerca del procedimiento.
Una vez que se ha indicado la información requerida se l1ace clic en OK para realizar el procedimiento.
Apéndices
777
2DJ72
17•154 2G591 23•351
-'
2~453
1t126G
15021 25683 27872
!6587 20169 32851 16251 17047:
21265 21324
La mayor parte de los cuadros de diálogo requieren que usted especifique los datos para el procedimiento. Esto se puede realizar en varias formas: 1. 2. 3. 4.
Seleccionando y arrastrando con el ratón. Este es el método más fácil y común. Tecleando el nombre del rango de datos. Tecleando la dirección del rango. Usando las combinaciones de las teclas Crll, Shíft y Arrow.
Para la mayor parte de !os procedimientos la primera celda en cada rango de entrada es el rótulo o etiqueta de los datos. Si la primera celda en un rango es texto, entonces se considera un rótulo; si es un valor numérico se considera un dato.
La salida de MegaStat se coloca en una hoja de trabajo cuyo título es salida "output". Si ya existe una hoja de salida, la nueva salida se coloca al final. La salida de MegaStat está en el formato estándar de Excel, por tanto usted podrá insertar, modificar o borrar cualquier celda. También puede copiar todo o una parte de la salida a otra hoja de trabajo, o a una aplicación de procesamiento de texto.
778
Apéndices
o 0.73
°''
21.S4% 1"1,120)[\
ro:etq
18¡.)3! JlO 22.787.Dü 5,659.0D
t[){Jd~
11,s,;2_ru
3r(lq'.Jru11lo
IDW
e'.ll'Oonos
lownulli~rs
lwcj1m.!i:em hr9he:
La mayor parte de los cuadros de diálogo son autoexplicativos, pero si usted necesita más información, haga click en Help (ayuda) y seleccione el contenido adecuado.
..
Apéndices
779
a los ejercicios de cada capítulo con números impares CAPiTULO 1 1.
a)
b) e)
d) e)
b) El grupo más numeroso de consumidores (21) compra en la tienda Food Oueen 3, 4 o 5 veces durante un periodo de dos semanas. Algunos clientes visitan el establecimiento comercia! tan sólo i vez durante el mencionado periodo, pero otros \o hacen hasta en ·15 ocasiones.
!ntervalo Razón Intervalo Nominal Ordinal
e)
Número de compradores Da 3 3a 6 6a 9 9a12 ·12a15 15a18
D Razón 3. 5.
7. 9. 11, 13.
15. 17.
19.
Las respuestas variarán-. Los datos cualitativos no son numéricos, en tanto que \os cuantitativos sí lo-son. Los ejemplos serán distintos para cada estudiante. Nominal, ordinal, de intervalo y ele razón (o relación proporcional). Los ejemplos variarán. Una clasificación es exhaustiva si cada objeto aparece en alguna categoría. Con base en los resultados de la muestra, se puede inferir que 270/300, es decir 90%, de los ejecutivos se cambiarían. Las variables discretas pueden tomar sólo ciertos valores, pero las variables continuas pueden adoptar cualquier valor dentro de algún intervalo. Los ejemplos serán diversos. Las respuestas variarán a) Campo con césped natural o artificial es una variable cualitativa, las otras son cuantitativas. b) Campo con césped natural o artificial es una variable de nivel de medición nominal. a) El nombre del distrito escolar es una variable cualitativa, las otras son cuantitativas. b) E\ nombre del distrito escolar es una variable de nivel nomina!, las otras son variables de nivel de razón.
2s ""32, 26 = 64. Por tanto, 6 Clases 27 "' 128, 28 = 256 Se sugieren 8 clases.
i
5.
567 - 235 2::
= 41 Use un intervalo de 45 de amplitud.
8 a) 2d "" í 6 Se sugieren 5 clases. b}
.
31 - 25
1 2'. - -- - =
5 e) 24 d) Pacientes
·1 Use un intervalo de 1.5 de amplitud. Frecuencia relativa
24.0 hasta 25.5 25.5 hasta 27.0 27.0 hasta 28.5 28.5 hasta 30.0 30.0 hasta 31.5
2 4 8
0.125
2
0.250 0.500 0.000 0.125
16
1.000
o
Total
e) La mayor concentración se encuentra en \a clase desde 27 a 28.5 (8) 7. a) Número de compradores f Oa 3 9 3a 6 21 6a 9 13 9a ·12 4 12 a 15 3 15 a 18 1 Total
780
Total
1oo.oo
9. a) 620 a 629 b) 5 e) 621, 623, 623, 627, 629 11. a) 25 b) uno
e) 38, 106 d) 60, 61' 63, 63. 65, 65, 69 e)
Sin valores
D 9 g) 9 h) 76
13.
1] 16 Tallo
o
Hojas 5
1
28
2
CAPÍTULO 2 1. 3.
Porcentaje del total 17.65 41.18 25.49 7.84 5.88 1.96
51
0024789 12366 2
3
4 5
Se estudiaron i 6 llamadas telefónicas. El ni.'.imero de telefonemas recibidos varió desde 5 hasta 52. Siete de \os 16 subscriptores recibieron entre 30 y 39 llamadas. 15. a) Histograma b) 100 e) 5
d) 28 e) 0.28 D 12.5 g) 13 17. a) 50 b) i .5 días e} Considerando los límites inferiores en el eje X: w
o u
¿:; 25
o. E
20
"' 15 Q) u 10 o
w E
5
•CO
z
o
3
6
9
12
NL1mero de inasistencias
15
Resrmes!as a los ejercicios de cada capi!"lo con números impares dJ
x~·1.5, Y~5
25.
e)
'"
o u 25 Q) Q 20 E ·15 CD Q) ·o !O
30
5
iD E
20
o
'J
-·1.5 1.5 4.5 7.5 10.5 13.5 16.5 NL1mero de inasistencias
z
Los homicidios alcanzaron su máximo en 1993. Desde-¡ 993 disminuyeron constantemente.
50
"'
p
10
o f}
19,
Aproxi1nadamente la mitad de Jos 50 empleados estuvieren ausentes entre 6 y 9 días. Cinco faltaron menos ele 3 días, y dos no estuvier·on 12 o más días. a) 40 b) 5 e) -1i o 12 d) casi $·1 s (dólares) por hora e) Alrededor de $9 (dólares) por hora f} aproximadamente 75%
Inasistencias
oa
3 3a 6 6a 9 9 a i2
·12 a 15 e)
f
a)
m
27.
5
5 17
23
40
8 2
48 50
"''"
¡¡¡
250
ge
150
oLl') m
40
80%
30
60% 50% 40% 29. 31.
~··
1
f •·. · .· • · .•· . . ,· .· . ·. . . ·.· . . . .
E~5
1o
m
O)
O)
(0 O) O)
¡.._
a)
O)
m m m O) O)
Q)
15
20
Ventas en miles de dólares
o m
(O
co
(O
m
o ,_ ,_
Ll')
m ,-
O)
o ro
m
CD
ro m
o
m m
co m
m
48 -16
i > - - - = 6.4 Se sugiere un intervalo de amplitud 7 5
1
30
Frecuencia
15 a 22 22 a 29 29 a 36 36 a 43 43 a 50
111
mr111
111111 fJ-rr
3 8 7 5 2
25
33.
.J
25
co Ll') m
La población en Estados Unidos ha aumentado de modo estable desde i 950. 2 6 = 64 y 2 7 = 128. Sugiere 7 clases. a) 5, debido a que 2'' = 16 < 25 y 2 5 "' 32 > 25.
e) 15 d) Clase
d) aproximadamente 8.7 días 23. La empresa Maxwell Heating & Air Conditioning supera por· mucho en ventas a las otras corporaciones. Mancel! Electric & Piumbing and Mizelle Roofing & Sheet Metal son las dos compañías con la menor cantidad de ventas en el cuarto trímestre
o
m
O)
Año
Inasistencias
Hoden
O)
m
L__J___L._~ co O)
50
o
b)
J&R
a;
m
.,,,.
g 200
o_
10
Long Bay
O)
M
~
LL
Mancell
m
ro
N
P--C-Z00'200D'Ti'.00CJ
w m
:g
J
Maxvvell
m '° '°
oO)
'º 100 ·0
o !'! 20
Mizelle
O)
Crecimiento de la población en Estados Unidos
50
'(j
a)
O)
300
GF
12
---l. ¡.._
C0
21. aj 5, 17 b)
781
e) Es casi simétrico; la mayoría de !os valores se encuentran entre 22 y 36. a) 70 .lJ) uno e) 0,145
d) e) f) g) fl) 35. a) b) e) d) 37. a)
30, 30, 32, 39 24 21
77.5 25 56 1O (obtenido de 60 - 50)
55 ·17 $36.60 (dólares). determinado de ($265 - $82)/5.
Respuestas a los ejercicios de cada capí!Ulo con números impares
782
45.
b) $40 (dólares) e) S 80a$120
Administración y General
8
120a 160 200 a 240 240 a 280
19 10 6 1
Total
44
·150 a 200
8.6o/o
Profesional
y educación 10.9%
d) Las compras variaron desde un valor bajo de
Aun1ento
·ap1uximadamente $80 {dólares) hasta un valor alto de alrededor de $280. La concentración está en la clase de
delas rese1íJas
$120 a $160.
12.1%
39. Depreciación m
m
Seguro
§
·g °' e
=
F
Reparaciones
w
a la comunidad
1
Interés
1
Gasolina
J o
200
400
600
800
Salud
i2.6%
1000
pliblica
23.5% Más de la mitad de \os gastos se concentran en las categorías Investigación, Salud pública y Educación.
47.
Cantidad
P1·opiedad
Co1·poración 0.49'ó
Defunción
8.3% 41.
Licencias
Unidad""0.10
2.99b 3 3 4
76
149
77
(2)
78 79
6 4 2
80 81 82
Ventas
1 77 14 04 77
44.5%
lngresos
43.3°/o
43.
El porcentaje más bajo de llegadas a tiempo es 76.1%, y el porcentaje más alto es 82.7%. La aerolínea típica es puntual un 79.7% de las veces. a) Como 26 = 64 < 70 < i 28 = 27 , se recomiendan 7 clases. El intervalo debe de ser al menos (í 002.2 - 3.3)/7 = 142.7. Use 150 como valor adecuado. b)
30
49.
Los impuestos de ventas e ingresos dominan en el estado de Georgia. Hay 50 observaciones, por lo que se re,comiendan 6 clases. Sin embargo, hay varios estados que tienen muchas más granjas que otros, por lo que sería útil tener una clase de extremo abie1io. Una distribución de frecuencia podría ser:
G1·anjas en Estados Unidos
~ e
20
"~
LL
ÍÜ
o
16
20a 40 40 a 60 60 a 80 so a 100 ·100 o más
·13
Total
50
ºª
ro
75
225
375 Valor
525
675
825
975
Frecuencia
20
8 6 4 3
Veintinueve ele \os 50 estados, o 58o/t> tienen menos de 40 000 gran/as. Hay tres estados que tienen más de 100 000 granjas. 51. En 1993 el precio de un Toyota Camry y el de un Ford Taurus era ap1·oximadamente igual, un poco más de$ 11 000 (dólares) cada uno. Desde entonces el precio de ambos ha aumentado, pero la tasa de aumento del Camry ha sido mayor que la del Taurus. La diferencia entre los precios de estos dos automóviles fue mayor en 1999, era aproximadarnerlte $6 500. De ·1999 a 2000 el precio clel Camry disminuyó aproximadamente $500, \a única disminución en el precio de an1bos automóviles en 9 años.
783
Respuestas a los ejercicios de cada capílulo con números impares 53. Las repuestas variarán según de dónde obtenga los datos. 55. a) Como 2 4 = ·16 < 30 < 32 = 25 . úsense 5 clases. El intervalo deberá ser por lo menos de (1i3.4-15.8)/5 = 19.52. Use 20. La distribución de frecuencia resultante es:
Clases
La distribución es bimodal o tiene dos picos. Los cuatro estadios "viejos" son aproximadamente 70 años más viejos que los otros. Los sala1·ios están en rni\es de dólares.
2.
57. a)
f
1
15 a 35 35 a 55 55 a 75
7 8 8
4
11 14
75 a 95
5 2
40
95 a 115
-
29
31 32 33 34 35
Cl2) 42
i. El salario típico de un equipo es 55. Los salarios van 2.
26 27 28 29 30
33
desde 15.8 hasta 113.4. La distr"ibución es positivamente sesgada. El sala1·io más alto de un equipo está 1nás alejado del centr"o que el salario rnás bajo de un equipo. EJ salario de los Yankees parece ser muy poco usual.
25 17 14 10 9 2 ·1
1449999
059 122344677889999 11222335889 i12234677889 '112446889 22446789 05567889
36
001
37
0179
38 39
4 3
146
o
40
13456 3
41 42
6 7
43
2
El salario más bajo es (en miles de dólares) $26. 1 y el más alto $43.2. b) Un salario típico es aproximadamente $32.6 e) Catorce distritos tienen salarios inferiores a $30, de manera que en 80 los salarios son de $30.0 o superiores. d) Los salarios de los maestros {en miles de dólares) van de un mínimo de $26.1 a un máximo de $43.2. el salario típico es aproximadan1ente $32 000. Hubo 14 distritos en los que el salario promedio fue menor que $30 000 y 4 en Jos que el salario fue más de $40 000. a)
20
40
80
60
100
Salario i. 40% de los equipos tienen salarios inferiores a 53 millones de dólares. i O equipos pagan menos de 50 millones de dólares. 3. Los equipos más pequeños pagan menos de 32 millones de dólar·es. e) Aquí use también 5 clases. El intervalo deberá de ser por lo menos de (62 41 i - 33 871)/5 "'5 708. Use 6 000 por conveniencia. La distribución de frecuencia 1·esultante es: 2.
Clases
33 000 a 39 000 39 000 a 45 000 45 000 a 51 000 51 000 a 57 000 57 000 a 63 000
f
CAPÍTULO 3 i. 3. 5. 7.
2
10 11
9.
5
2 i i.
1. Un estadio típico tiene 47 000 asientos. Los tamaños se aglomeran entre 39 000 y 51 000. 2. La distribución está bien balanceada. Ningún estadio está fuera de la línea de los otros. d) Aquí también use 5 clases. El intervalo deberá ser al menos (2 000 - 1 900)/5"" 20. Use 25 por conveníencia y para incluir valores extremos. La distribución de frecuencia resultante es:
¡.1.,"" 5.4, que se obtuvo de 27/5. a) Media"' 7.0, resultante de 28/4. ~ ~-n+~-n+M-n+cio-n=o 14.58, determinado por43.74/3. a) 15.4, calculado mediante 154/10. b) El parán1etro de población, ya que incluye a todos los vendedores en !a empresa. a) $54.55 {dólares), determinado por $1 091/20. b) Un estadístico de muestra, suponiendo que la compañía de energía eléctrica da servicio a más de 20 clientes.
. 300($20) + 400($25) + 400($23) $22.91, obtenido de · · . 1 3 0 0+40 0 +<00
13, ·1 i .50, obtenido de ($400 + $500 + $·1 400)/200"" $2 300/200. 15. a) No hay moda (o valor modal). b) El valor dado sería la moda. e) 3 y 4 bimodal. 17. Mediana= 5, Moda"" 5 19. "1) Mediana= 2.9
b) 2.9
-
1U8, obtenido de V(S)(i2)(14)(26)(5Í. 12.16, obtenido de {!{9.4)(13.8)(1 ..f?).(11.9)(14. 7).
~
114.o-
·1.
Hay dos acumulaciones: 4 estadios "viejos" fueron construidos alrededor de 1910 y 26 estadios "nuevos" fueron construidos alrededor de 1980.
25.
i0.33% obtenido de
27.
10.76% obtenido de
- - - 1. 3.9
70
1 -
42
-1.
29. Como no se conocen los valores exactos en una distribución de frecuencias, se usa el punto medio de la clase para todos los valores de !a clase.
784
Respuestas a los e]ercicios de cada capítulo con ru.í11"1eros irnpares Clases
3i,
f 7 12 21 18 12
20 a 30 30 a 40
40 a 50 50 a 60 60 a 70
IX
X 25
175
420 945
35 45 55 65
-
780
55, 57,
3 310
59,
990
70
lntensidad rnediana 7.05 Muertos en un terremoto: media= 5 607 .79; mediana= i i OO. La media de la intensidad y la mediana de los muertos, debido a todos los valores extremos presentados. 64 .68%
83.21 So/o
3 310
33.
X
IX
25 35 45 55 65
25
fa:lades
;
20 a 30 30 a 40 40 a 50 50 a 60 60 a 70
15 22 8 4 50
525 990 440 260
20 a 25
27 30
30
30 - 9
Moda
37,
+ ~ (5)
=
a)
12.5
S 6000a$ 8000 $ SOOOa$iOOOO $10 ooo a$12 ooo
GF 4 15
4
18 10
19 37 47
4
51
3
54
54 ·2-19 a) Mediana= $4 000 + - - - · ($2 000)
(50 _, 40) 13.95, obtenido mediante 10 + - (15) 3 41. a) Media= 5 encontrada rnediante {6 + 4 + 3 + 7 + 5)/5. La mediana es 5, y se encuentra reordenando los valores y tomando el valor central. b) Población porque todos \os socios fueron incluidos. e) ~(X - p.) " (6 - 5) + (4 - 5) + (3 - 5) + (7 - 5) +
9-
(5 - 5)" Ü,
545 43. )( = - · - = 34.06
16 Mediana"" 37 .50 370.08 encontrado mediante 18 504/50. -"
w
-
49. X = w
$5(270) + $6,50(300) + $8,00(100)
·
·
270+300+100 [15 300(4.5)
+ $1 o
44 55
2 300 2 700
9 200 2 700
59 60
86 000
ºª
17 13 7 3
Total
40 168
Xo--" 40
X
fX
CF
i .5 4.5 7.5 10.5
25.5
17 30 37 40
58,5 52.5
31.5 "168.0
4.2
i
X
1 9
150 250 350 450 550
$100 a $200 200 a 300 300 a 400 400a 500 500 a 600
20
Total
50
15
5
IX
GF
150
1 10 30 45 50
2 250 7
ººº
6 750 2 750
18 900
a)
b) Moda = $5 000
47. X=
34 500 20 900
$18 900 "$378 50 (25 - 100)(100) b) $300 + -~----" $375
18
"$4 889
39,
3 3a 6 6a 9 9 a 12
Costo
63,
'
45.
11 23 11 4 1
(20-17) b) Mediana= 3.0 +--- (3)"" 3.69 13
= 12.5
Cantidad $ Da$ 2000 s 2000a$ 4000 $ 4000a$ 6000
9
61, Días ausentes
2 9 21
Mediana= iO
1 500 1 900
1
60
GF 2 7 12 6 3
1 10 21
s
'"
$86- - = $1 433.33 a) -)( = 60 30 - 21 ' b) Mediana = $1 300 + ~~ ($400) "$1 456.52 23
50
C!ases Da 5 5 a 10 10 a 15 15 a 20
300 6 300 12 100
X
ººº
2,240 2 240
X=--=: 44.8 35.
CF
300 700 1100
f
iOOa$ 500 500 a 900 900 a 1 300 1 300 a 1 700 l 700 a 2 100 2 100 a 2 500 2 500 a 2 900
Xo~-o 47.2857 70
w
Hipotecn mensual
'
-;=$6.12
400(3.0) + $150 600(10.2)] · · - - - =9 28 176300 .
51. 3.38% encontrado mediante (3.25 + 3.51)/2. 53. Intensidad media de terremotos= 7.0 encontrado mediante 168.2124
20
Las respuestas variarán. los párrafos deben incluir te1nas como: el promedio es mayor para las enfermeras ele tiempo parcia\ en comparación con las de tiempo completo. Esto puede deberse a que no hay tantas enfermeras de tiempo parcial. Por tanto, cuando se calcula la media, ésta será mayor. Asimismo, conforme aumenta el rn'.1mero de camas, crece el salario medio por hora. Una vez más, esto puede deberse a que no hay rnuchos hospitales con 500 camas o más. Por otro lado, el promedio más bajo se da en el hospital ubicado en zona rural. Este tipo de establecimíento también impone un promedio. En el hospital privado, no lucrativo, hay un sueldo por hora rnayor que en un hospital público. 67. Las respuestas variarán. 69. a) X= $221 .1 y la mediana es $2'\ 3.57 {las respuestas están en n1iles de dólares.) Ambas n1ediciones son aceptables. b) X= 3.8, rnecliana = 4. e} X= 2.08, mediana= 2. d} X= 14.6 rnillas, y la mediana es ·1 s.o millas. 74. a) La media para la variable de empleo es í 7 544 y la mediana es 5 175. Como cada valor es muy diferente, no hay moda. La distribución es ligeramente sesgada, en consecuencia la mediana es más representativa. 65.
785 ,-.-(380)'
b} La media para la variable superior a 65 es 13.3, la mediana es i 4.4, y la moda es i 5.8. De nuevo se tiene que hay sesgo suficiente y la mediana es la más representativa.
Is 637.so -· - · 11 30 i 30 .:-.1- - ·
GAPÍWLO 4 1.
a) b} e) el)
7, determinado por i O - 3. 6, calculado mediante 30/5. 2.4, determinado por.12/5. La diferencia entre el mayor númer·o vendido ("!O) y el menor número también vendido (3) es 7. En promedio, el número de representantes de servicio activos se des11ía 2.4 respecto de la media de 6. 30, determinado por 54 - 24. 38, calculado mediante 380/i O. 7 .2, resultante de 72/i O. La diferencia entre 54 y 24 es 30. En promedio, el número de rninutos {min) requeridos para instalar una puerta se desvía 7.2 min desde la media de 38 min. 15, calcu!adode4í -26. 33.9, determinado de 339/1 O. 4. i 2, obtenido rriediante 41.2/i o. En promedio, los índices se desvían 4.12 respecto de la. media de 33.9, en promedio.
o.
a) b) e) el)
5.
a) b) e) d)
7.
a) 5 b) 4.4, determinado a partir de
2-1.
c} 28.42, obtenido de 5.33i 2 a) 12 minutos, resultante de i 4 - 2. b) 2.5959 minutos, calculado de: 1----(312)2
i2 594 \
42··-
42 - 1
e) 6.7387, determinado de (2.5959)2. 23. Aproximadamente 69%, valor que se determina de i - ·í/(i .8)2. 25. a} Alrededor de 95%. b} 47.5%, 2.5%. 27. 8.06%, calculado mediante (0.25/3.10)(100). 29. aj Debido a que las dos series se presentan en diferentes unidades de medida. b) P.E. razón 16.5"1%. ROi 20.8%. Menos dispersión en las proporciones P.E. 3i. a) La media es 30.8, obtenida de i 54/5. La mediana es 3'í.O y la desviación estándar es 3.96, que se obtiene de
,--· 1 1
15"'
4806 - __ ·
1--4-...5._
(8 - 5)' + (3 - 5)' + (7 - 5)' + (3 - 5)' + (4 - 5)'
3(30.8 -31.0) b) -O.i5, que se obtiene d e - -_ 3
00-.
5 9. a) $2. 77 dólares
e)
b) i .26, calculado mediante {2.68 - 2.77) 2 + {i .03 - 2. 77) 2 + (2.26 - 2.77)2
Salario
+ (4.30 - 277)' + (3.58 - 2.77)' 5 1-L a} Amplitud de variación: 7.3, calculada mediante i i .6 - 4.3. Media aritmética: 6.94, determinada por 34.7/5. Varianza: 6.5944, obtenida de 32.972/5. Desviación gstándar. 2.568, resultante de ·\/6.5944. b) Dennis tiene un ingreso medio mayor (i 1.76 > 6.94). S'1n embargo, también tiene mayo1· dispersión en los rendirnientos sobre sus acciones (i 6.89 > 6.58). i3. a) X= 4
s2 =
·1s.
(7- 4)2 + ... +(3 ·-4)2
5-1
120)' ·102 .. b) s2 = ___s_. 5-1 e} s = 2.3452 al X= 38 5·' = {28 -
33¡2
+ :.~ (42 - 38)~
º·-
=
52""
= 82.6667
=
82.6667
(i 24 - ·124)2 +~~: 24)2 "" 4.6667 í0-1
(1 240)'
1 s3 802 -
0.050505
x¡y
2.264250504 - i .780894343 O.i 71467764 -0.353499282 0.000128826
0.301453469 0.125, que se obtiene de [5/(tl x 3)] x 0.301.
33. a) La media es 21.93, obtenida de 328.9/15. La mediana es 15.8 y la desviación estándar es 2i .18, que se obtiene de
;~~ 494 .676 - ~.2í85· 92
=s.so
--··-·-i iO- i e) 5"" 9.092i a} X"" i24 5
33 28 31
ex~
,:
(380)' 15184--.6}
s 1.3"i3i31 -i.21212 0.555556 -0.70707
=5.5
10- 1
2
36 26
(X-X)
-··w-·-
\ 14 b) 0.868, que se obtiene de [3(21.93- í5.8)]/2i .i8 e) 2.444, que resulta de [15/(14 x 13)] x 29.658 35. f\fiediana = 53, determinada de (i 1 + 1){i/2) ... vaior 6 a partir del mínimo. Q 1 = 49, calculado rnediante (í 1 + 1 )(í/4) ... valor 3 a pa1iir del inás bajo. 0 3 = 55, determinado de (1i + 1){3/4) ... valor 9 desde el minimo. 37. a} Q 1 = 33.25, Q 3 = 50.25 bj 0 2 = 27.8, 0 8 = 52.6 e) P67 =47 39. a) 350 bj Ql = 175, 03 = 930 e} 930-175=::755 d} Menor que O, o bien mayor que aproxin1adamente 2060. e} No hay elatos aislados. f} La distribución tiene sesgo positivo.
4i. =
e) 5= \/.f.666f.:=2.1602. ·19. a) 25, determinado ele 25- O. b) 5.331, calculado rnediante
4.6667
14.
21. o
28. o
35,0
42. o
49.
786
Respuestas a los ejercicios de cada capítulo con números impares La distribución tiene algo de asimetría positiva. Obsérvese que ta línea punteada arriba ele 35 es mayor que la línea inferior respecto de í 8. Línea 2.
43. 45. 239.2 y 240.8 47. 239.9, 240.i 49.
1.6Qo/c¡, p1uveniente de
3.9
242~ (í DO)
9, proveniente de 32 . Con sesgo negativo. La media es menor que la mediana. El extremo más largo se encuentra a la izquierda. 55. a) 55, determin8do de 72-17. b) i 4.4, calculado mediante í 44/iü, donde X= 4.'3.2. e) i 7.6245. 57. a) Población. b) 183.47. 5"l. 53.
69.
e) 94.92%. 59. La amplitud de variación es 25 - O= 25. ,----
1
2259 2
.
í526391
(91 Q\ 2
-13
12
-~7-=-
105.61
b) CV = 60.78%, que se obtiene d e - - (100) 173.77 El coeficiente de asimetría es -0.697 e) L,15 = í 4 x 0.45 = 6.3. Por tanto el centil 45 es i 92 + 0.3 1·195 - 192) o 192.9. L 82 = ·14 x 0.82 = ·1 i .48. Por tanto el centil 82 es 260 + 0.48 (295 - 260) o 276.8. d)
r
m.
j
s = i 05.61 horas, que se obtiene de
!13,637.50 ·- - - ' 7 s=\iº=5118 69 .
Q 1 :o:: 44.25, Q3 :::: 68.5, y la mediana es 55.50. La dislribución es aproximadamente sin1étrica. La gráfica de caja es la siguiente.
---------------------1 ---+---------+---------+---------+---------+----------+----24 36 4!1 60 72 84 millas 1
h) La distribución es casi simétrica. La media es i 7. i 58, la mediana vale í 6.35, y la desviación estándar, iü.58. Casi 75o/o de las compañías tiene un valor menor que 27.4, y 25% de ellas tiene un valor menor que 7 .825. a) La media es i 73.77 horas, obtenida de 2 259/'13. La mediana es ·195 horas.
-----------------
-------1
1---------
+
------+------+------+------+------+------+---·Los resultados anteriores se determinan aplicando el sisten1a MINITAB. 63. La distribución tiene sesgo positivo. El primer cuartil es aproximadamente $20 (dólares) y e! tercero es alrededor de $90. Existe un dato aislado ubicado en $255. La mediana es aproximadamente $50. 65. a) - i 8.6434, 78. 76104, determinados de 30.05882 ±
2(24.35111). 24.35'1i1 b) Si%, calculado mediante·--·- (100). La desviación 30.05882 estándar es Sí% respecto a la media. e) Tiene sesgo positivo debido a que la media es mayor que la mediana. 857.90 67. a) X"".-SQ = 17.158, mediana= 16.35
b)
e) d)
e/
o 71.
,1
Pop
g) L,,
10.58
25
0
d~oooooo [
(SO+ 1) Wo
75
L 75 = (50 + ·¡) - -
100
~
0
'12.75
01
=
7.825
co.~
38.25
03
=
27.400
Minimum 479602
Maximum 33145121
Ql
Q3
1562781
7067381
cola larga en !a dirección positiva.
O
0.23
375
0.65(990 819 - 882 779) = 953 005. Lg 0 = 5'1 x 0.90 = 45.9 Por tanto el centil 90 es i 2 í 28 370 + 0.9(15 111 244- 12 128370)o14 812 957. e) El coeficiente de asimetría es 2.32984, lo que indica una
D:iSS
= ·~-~--~
300
b) L 15 =5i x0.15=7.65Portantoelcentilí5es882779+
\í"
sk
225
Se observa que hay un ligero sesgo negativo, pero no un punto aislado. a) Un programa de cómputo para estadística produce los siguientes resultados.
var:iable
, - - (857.90) 2 ¡20 206.73 - - - - 50 s = =. í 0.58 50 - 1 ·17. 158 ± (1.5)('10.58) = i .288 hasta 33.028 17.158 ± (2)(10.58) o 17.158 ± 21.16 o -4.002, 38.318 10.58 cv = (1001 = 61 .66% 3(17.158- ·16.35)
150
Variable N Mean Median TrMean StDev SE Mean Pop 50 5913436 4008479 4891780 6624974 936913
(l o,
75
20000000
, 33145121-··-1
1
' 2555 "1373
.1
'
1
~
moo~:1
20044141 '18196601
!--3
1 ·.1
1
La gráfica indica que hay cuatro estados (California, Arkansas, Texas y Nueva York) que tienen poblaciones mucho 1nás grandes que los demás. Quizás los datos de Arkansas no son correctos.
787
ílespues!as a los ejercicios de cada capitulo con "úmerns impares 73. a)
~':l
4.
77. a)
·i
40,
L. ___
La distribución tiene sesgo positivo. El primer cuartil está cerca de 37; el tercer cuartil es aproximadamente 79, y la media está cerca de 57. No parece que haya puntos aislados. b) La desviación estándar es 29.52, que es 47% de la media. De manera que hay una cantidad de variación considerable. e) Las respuestas variarán. 75. a)
Descriptive Statistics: Salary Variable N Salary
Variable Salary 2.
Mean
30 56.67
StDe>J
55.82
24.54
SE Mean 4.48
Maximurn
QJ.
Q3
15.80
113.40
34.78
73. 98
120
ro U)
20
l
1
Maximurn 101.00
Minimum 26125
Salary
2.
SE Mean 1
35~9 366
Ql
QJ
30816
j3519
3.
2
·-,-~ -?§-~
F
45000
---1
'"J ro
r
U)
1
4.
b} 1.
1 1 1
~---------- ________ J
Hay dos saJarios inusualmente altos. El primer cuartil se encuentra alrededor de 30 000, el tercero, alrededor de 35 000. La distribución es simétrica respecto a $33 000 y la mayor parte de los valores no se alejan más de $2 500 del centro. Un programa de cómputo para estadística produjo Jos resultados siguientes.
Descriptive Statistics: Students Variable N Students 94
v2,riable Students
Mean 2134 Minimum 20
Median 1227
TrMean 1618
Maximum 36790
StDev 3895
SE Mean¡ 4 02
Ql
Q3
794
22 82
SE Mean
2.
5.01
Ql
Q3
7.75
35.50
El coeficiente de sesgo es 7.802, lo que indica una cola posit'1va muy larga.
3.
4ºººº 2.
Maximum 43256
~ StDev
El coeficiente de sesgo es 0.670, lo que indica una ligera cola positiva.
25000
No hay valores aislados. El primer cuartil se encuentra alrededor de 35 y el tercero alrededor de 75. La distribución está centrada en 55 y la nrayor pa1te de los valores no se alejan más de 20 unidades de la media. Sin embargo, unos cuantos valores positivos que se alejan mucho de la media. Un programa de cómputo para estadística produjo los resultados siguientes.
Mininmm 1.00
Variable
E?_
Descriptivec Statistics: age (2001-built) Variable N Mean Median TrMean StDev Age 30 29.10 26.50 26.19 27. '14 Variable hge
Descriptive Statistics: Salary Variable N Mean JVIedian •r1 JVIean Sa1ary 94 33181 32708 33033
l
El coeficiente de sesgo es 0.470, lo que indica una cola positiva.
·ºm70
b) ·1.
T:cMean
54.95
Minimum
3.
4.
Median
Hay cuatro valores aislados entre 78 y 1 DI años. El primer cuartil se encuentra alrededor de 35. La distribución está centrada alrededor de 20 años y la mayor parte de las edades no se alejan más de 15 unidades de ese valor. Sin embe.rgo, hay algunos est2dios muy viejos. Un programa de cómputo para estadística produjo los resultados siguientes.
El coeficiente ele sesgo es í .342, lo que indica una cola positiva muy larga. m
36790
1
30000 -
2l e
"' "
r------·--_
'i5 2ºººº 1ñ
r
1
LLl
1ºººº1-
D
m w
D
1
b
!~~§i
1
1
1
o ~·--·---__J 1
-----·-------------1
Hay varios valores aislados en el lado positivo o de los valores altos, incluyendo uno en 36 790. El primer cuartil se en·cuentr·a aproximadamente en 1 000; el tercero, aproximadamente en 2 000.
788
llespues!as a los ejercicios !le cada capitulo con 4.
n~mems
La distribución tiene un sesgo positivo ya que seis escuelas tienen más de 5 000 estudiantes. Sin embargo, la n1ayor parte de las escuelas tienen entre 1 000 y 2 000 estudiantes.
impares
PROBABILIDADES
e e
2 3
4 3.
,;p,.Q 0c\l~0C
2
1
0d
Oª' iP
e F
F
e
I'
F
<;f"'O
~ EY.celentc
. ~Deficiente
l"'O/"OO
~
15/¡
º..;'.?'"'
b) Empírico.
º--oí7'Vo,.,.;. º·
0
0
19. 21. 23.
25.
27.
29.
31. 33.
a) P(A,) '' 3/10 e 0.30 b) P(B;IA,)o1/3.o0.33 e) P(B 2 yA 3}=1/10=0."10
35. a)
Una tabla de contingencias
b) 0.27, dete1rninado de 300/500 x 135/300. e)
El diagrama de árbol sería:
0.090
Probabilidad ele que la tercera presentación gane;;:; (2/5)(1/4)(3/3) o 0.10.
39.
P(A;
1B;) ~ P(A,)
P(A,) X P(B; A;) j
X P(B' ! A;) X
+ PI¡\,)
X
P(B; !A,)
0.05 :=
(0.60
41,
P(noche 11 aanar)"" ,
'"'
X
0.05)
+ (0.40 X 0.10)
0.4286
P(noche) P(ganar 1 noche) -----,~~=-~~~P(noche) P(ganar 1 noche)+ P(día) P(ganar
\día)
º -
(O. 70)(0.50) - 0.5645 [(0.70)(0.50)j + [(0.30(0.90)]
, ) I $ ) _P.c(~el_e_ct_iv_o~)P_(~>_$_5_0~l_ef_e_ct_iv_o~) 43. Pe·ect1vo > 5 O=-~ 1j P(8'fectivo) P(> $50 1 efectivo) + P(cheque) P(> 850 1 cheque) + P(crédito) P(> $50 1 crédito)
i7. a} 102/200=0.51 b) 0.49, determinado por 61/200-;. 37/200"' 0.305 + O.i 85. Regla especial de adición. a) 80o/o. calculado mediante 50% + 30%. b} 80%, determinado por 100% -· 20%. Los eventos A y C; By C son rnutuamente excluyentes. Los eventos By C son complementos. PI¡\ o B) º P(A) + P(B) - P(A y B) º 0.20 + 0.30 - 0.15 ,, 0.35 Cuando dos eventos son mutuan1ente excluyentes, significa que si uno ocurre, el otro evento no puede suceder. Por tanto, la probabilidad de su ocurrencia conjunta es cero. a) 0.65, calcuiado mediante 0.35 + 0.40-· O.JO. b) Una probabilidad conjunta. e} No, un ejecutivo puede leer más de una revista. P(A y B) º P(A) x P(B] A)º 0.40 x 0.30 º 0.12 _ 0.90, determinado de (O.SO+ 0.60) - 0.5. 0.10, resultante de ("I - 0.90).
='
0.30.
10/40 o 0.25.
P(A o B) P(f\) + P(B) 0.30 + 0.20 º 0.50 P(ninguno) = 1 - 0.50 = 0.50.
Exce,m1te
;~~:~:::;;;.:~~~:; :::~~: (150/500) ('15/150)
Probabilidad de que la primera presentación gane"" 3/5 ""'0.60. Probabilidad de que la segunda presentación gane= 2/5{3/4) =
0.60
d) Empírica. e) Los eventos no son iguales, pero son mutuamente excluyentes. 13. a) Las respuestas variarán. A continuación se presentan algunas posibilidades: ·123, ·124, 125, 999. b) (1/10~' e) Clásica.
L
"'O.Ot.14
(50/500) (22/50)
l'Otal 1.000
9. a) 13/52 = 0.25. b) 1/52 = O.Oi9. e) Clásica. 11. a) La encuesta de 40 personas acerca de aspectos ambientales. b) Por ejemplo, 26 o más respondieron que sí.
Bc;eno
0.032
(J00/500) (93/300) = 0.186 72/300 ---sueno {300/500) (72/300) = 0.144 IJs1:-:100 _Excelente (300/500) (135/300) ~.270
Avenida Indiana.
b) Los resultados posibles comprenden 321 a favor de la ampliación, 387 favorecen tal acción, 444 opinan a favor de la misma, y así sucesivamente. e) Las respuestas variarán, pero dos posibilide.des son: una mayoría es ·favorable a la ampliación, que sería 251 o más, y más de 300 están a favor de la ampliación, a) Empírica. b) Clásica. e) Clásica. d) Empírica, basado en elatos sismológicos.
50
=
= 0.024
~;i'J/'3ÚG Deficiente
'o
están a favor o en contra de ampliar a ti·es carriles la
,15.
/r
~So
9\o\
r::t)
34
e)
¡
o-. Pr~m~dio c~~'0/.~50
6 a) 0.176, determinado ele --
5. a) El experimento consiste en preguntar a 500 ciudadanos si
7.
PROBABILIDADES CONJUf\JTAS
,. 1 ~o Deficiente ~ (50/500) (16/50) 121'.?..Q..___ sueno (5015ooi t121soi
Persona
Resu\iado
L 1
1
CAPÍTULO 5 1.
l
COl\JDICl~NALE~
(0.30)(0.20) (0.30)(0.20) + (0.30)(0.90) + (0.40)(0.60)
=
0.1053
45. a) 78 960 960 b) 840, que se calcula mediante {7)(6)(5)(4). Esto es, 7!/3! e} i O, determinado por 5!/3!2!. 47.
210. que se obtiene por: (10)(9)(8)(7]/(4)(3)(2).
49. i 20. determinado de 5! 51. i O 897 286 400, determinado ele ,,Pw º (15)(14)(13)("12)(11)(10)(9)(8)(7)(6).
53. a}
Preguntando a los adolescentes acerca de sus reacciones ante una nueva bebida ligera. b) Las respuestas variarán. Una posibilidad es que !e guste a más de la mitad de los que responden. 55. Subjetiva. 57. 3/6 o 1/2, determinado por 1/6 + í/6 + í/6. Clásica. 59. a) La posibilidad de que un evento ocurra, suponiendo que otro ya ha ocurrido. b) El conjunto de uno o más resultados de un experimento. e) Una medida de la probabilidad de que dos o más eventos ocurrirán de modo concurrente. 6i. a) O.Sí 45, encontrado por (0.95}"".
789
Respuestas a los ejercicios de cada capitulo con números impares b) Regla especial de multiplicación. e) P(A y 8 y C y D) ~ P(A) x P(B) x P(C) 63. a) O.OS, determinado por 0.80 x 0.10. b)
Sexo
99.
x P(D).
Universidad ~Cu1so
í/3 628 880
·101. Ver el diagrama que se presenta a continuación. a) P(Compra) = P{S) P(CompraiSJ + P(NS) P(ComprajNS) =· (0.05)(0.01) + (0.95)(0.005) = 0.00525 Conjunta
(0.05)(0.01) (0.05)(0.01) + (0.95)(0.05)
b) P(S 1Compra)·=
0.80 x 0.90 = 0.720
Fe111en1no J.~ OiO
o 78
e) P(SjNoCompra)=
cur~~
0.80x0.10=0.080
Curso
0.20 x O. 78 = O. i 56
= 0.952
(0.50)(0.99)
--~
~-e-~ =0.0498
(0.05)(0.99) + (0.95)(0.995)
/
Masculino@
022~
No cursó
0.20 x 0.22 = 0.044 Total
i .000
Sí, porque todos los resultados posibles se muestran en el diagrama de árbol. a) 0.57, que se obtiene de 57/"1 OO. b) 0.97, que resulta de (57/100) + (40/iOO). e) Sí, ya que un empleado no puede ser ambas cosas. d) 0.03, que resulta de i - 0.97. a) 0.4096, que resulta de {0.8)'1. b) 0.0016, que se obf1ene de (0.2)'1• e) 0.9984, que es i - 0.0016. a) 0.9039, que se obtiene de {0.98) 5 . b) 0.0961, que es 1 - 0.9039. a) 0.0333, que resulta de (4/i 0)(3/9)(2/8). b) 0:1667, que se obtiene de(6/i0)(5/9)(4/8). e) 0.8333, que es i - 0:1667. d} Dependiente a) 0.3818, que se obtiene de {9/12)(8/11)(7/10). b) 0.6182, que es i - 0.3818. a) 0.5446, que resulta de 82/150. b) 0.76, que se obtiene de(39/í50) + (75/"150). e) 0.6267, que es 82/i 50 + 39/150 - 27/i50. Regla general de la adición d) 0.3293, que resulta de 27/82 e) 0.5446, que resulta de (82/'150)(81/149). . (0.10)(0.20) P(pobrelganancia) ~ (0.10)(0.20) + (0.60)(0.80) + (0.30)(0.60) e)
65.
67.
69. ?i.
73. 75.
77
·
103. La respuesta variará seglin el sitio de la Red que elija. 105. aj Asistencia Temporada Asistencia Asistencia de éxiíos
aj bj e) d) 81. 24,
. (0.50)(0.625) 0.4545, que se obtiene de (0. 50)(0.G 25) + (o.SÜ)(0. 75)
85.
Sí. 256, que se obtiene de 2 8
87.
p = 7 5
To ta!
o
5 12
14 16
4
9
17
30
0.533, que se obtiene de ·16/30. 0.7, que se obtiene de 16/30 +17/30- 12/30 = 21/30. 0.706, que resulta de í 2/17. 0.133, que 1·esufta de 4/30.
b} Campo Natural Artificial
Total i,
Perdidos 9
Ganafios 14
Total 23
5
2
7
·¡4
16
30
0.767, que se obtiene de 23/30.
2. Césped natural; 0.609 que se obtiene de 14/23. Artificial: 0.286, obtenido de 2/7. Por lo tanto el césped natural parece mejor. 0.7, que resulta de i6/30 + 7130- 2130 = 21/30.
3, 0.3125 0.6875
CAPiTULO 6 i.
--2!___ = 2 520
(7 - 5)\
0.9744, que se obtiene de 1 -{0.40)'1 a) 0.185, que se obtiene de (0.15)(0.95) + (0.05)(0.85). b) 0.0075, que se obtiene de (O.i 5) {0.05). 93. aj P(F y> 60) == 0.25, que se obtiene empleando la regla general de Ja multiplicación y despejando: P(F) · P(> 60 1 F) = (0.5) (0.5) bj o e) 0.3333, que resulta de 1/3. 95. 26 4 = 456 976. 97. Par·a que el sistema funcione, deben funcionar los dos componentes en serie. La probabilidad de que los dos funcionen es 0.81, que se obtiene de P(A) x P(B) = (0.90)(0.90). 89. Si.
alta
5 4
Total
i. 2. 3. 4.
P(PoD)=(1/50)(9/10)+(49/50)(1/10)=0.116 P(No) ~ (49/50)(9/1 O)= 0.882 P(No en 3) = (0.882) 3 = 0.686 P(por lo menos un premio)= í - 0.686 == D.314 que resulta de 4!
83.
moderada
4
Sí
= 0.0294
79.
baja
No
3,
Media'°" i .3, varianza= 0.8"1, determinado esto por: µ º 0(0.20) + 1(0.40) + 2(0.30) + 3(0.1 O)= 1.3 a'" (O - 1.3)'(0.2) + (1 - 1.3)'(0.4) + (2 - 1.3)'(0.3) +(3-1.3)'(0.1) "0.81 a} El segundo, o intermedio, uno. b) 0.2, 0.4, 0.9 e) 1;, ~'"' 14.5, varianza= 27.25, determinado esto poi·: µ '' 5(0.1) + 10(0.3) + 15(0.2) + 20(0.4)" 14.5 cr 2 = (5 ·- 14.5)2(0.1) + (10-14.5).2(0.3) + (15-14.5)'(0.2) + (20-14.5)'(0.4) ~27.25
5.22, que resulta de \127.25 + 1(0.4) + 2(0.2) + 3(0.1) ~ 1.1 0' ~(O - 1.1)'(0.3) + (1 -1 :1 )'(0.4) + (2 - 'l.1)'(0.2) + (3' 1.1)'(0.1) = 0.89 CT = 0.943. CT"'
5.
µ = 0(0.3)
790
Respuestas a los ejercicios de cada capítulo con números impares
7. a) b) e) d)
0.20 0.55 0.95 ,, ~ 0(0.45) + 10(0.30) + 100(0.20) + 500(0.05) ~ 48.0 cr' ~(O - 48)'(0.45) + (1 O - 48)'(0.3) + (100 - 48)'(0.2) + (500 - 48)'(0.05) ~ 12 226 O"=
9. a) P(2)
~ __4:!__ (O 25)'(0 75)' - ' ~ 2.1(4 - 2)! . . 4
X
P(X)
o
0.064 0.288 0.432 0.216
1 2 3
~ 3)! (ü.25) 3(0.75) 4 -
3
"''
0.2109
37.
41.
43.
91 oo-..e (
9
_ ~)! -i (D.3) 2 (0.7) 7,
2
o
2.00
+ (3-2) 2 (0.4) ;= ·1.0
+ 2(0.2) + 3(0.1) + 4(0.11" 1.3. ={O- í .30) 2(0.4) + ... + (4- i .30)"(0.-1) = 1.81 \Y= 1 .3454
(l ~ 0(0.4) + 1 (0.2)
b} 0.001
b) 0.0245, que resulta de i ~~~! (0.4) 1º(0.6) 5
91
b) 0.3765, que se obtiene de P{i) =
2
2
~ ~)lü! (O. i 0)º(0.9) 12 .
cJ0.2301, que se obtiene de P(2) = (i
-
1
~ ~) 121 (0.10)2(0.9) 1 º. 2 2
5~~~ 1- (0.23) (0.77)'º·
= ~~ =
0.50
120
\/20(0.075)(0.925) ~ 1.1779 2
e)
0.7897, que resulta de 1 - 0.2103.
-+6_
! (O. í 5)°'(0.85) 12 • 4 .12.1 b) 2.4, obtenido de (O.i5)(i6) e) 0.2i 00, que resulta de í - 0.07 43 - 0.2097 - 0.2775 - 0.2285. 53. P(2) ~ bC,][,C,] ~ l15ll5) ~ 0.4286 51. a) 0.1311, que resulta de
I, 0 C 4]
55. a)
5
cj 3.45, que se obtiene de (0.23){15). 19. a) 0.296, encontrado en el apéndice A con n = 8, T.= 0.30 y X=2. b} P(x ~ 2)-= 0.058 +O. í 98 + 0.296 = 0.552 e) 0.448, que resulta de P(;< 3-- 3) = i - P(x ~ 2) = 1 - 0.552. 21. a) 0.387, encontrado en el apéndice A con n :;c: 9, T.= 0.90 y X= 9. b} P(x < 5)" 0.001 e) 0.992, que resulta de 1 - 0.008. d) 0.947, que resulta de 1 - 0.053. 23. a) ¡_1,"" í 0.5, obtenido de 15(0. 7) y rr = \ffS(O. 7)(0.3) = í .7748. 151 b) 0.2061, que resulta de O\~Í (O. 7) 1º(0.3) 5 . 1 e) 0.4247, que resulta de 0.2061 + 0.2186 d) 0.5154, que se obtiene de 0.2186 + 0.1700 + 0.0916
+ 0.0305 + 0.0047.
rr ~
20' b) 0.2103. que resulta de 0! ÓJ (0.075)º(0.925)2°.
d) ¡;,=i.2, queresultade12(0.10). a-= i .0392, que se obtiene de -VT""68. 5 17. a) 0.1858, que se obtiene de ; ! (0.23) 2(0.77) 13. 2. 1 3 1. b) 0.1416, que se obtiene de
+ 0.0000. d) 0.0093, que se obtiene de 0.0338 - 0.0245. 49. a) µ, = 20(0.75) = í .5
_____g__ 12 1 111 1
(0.10)'(0.9)".
e) 0.0338, que resulta de 0.0245 + 0.0074 +· 0.0016 + 0.0003
9
(9 __ ~)!';! {0.3)º(0.7Y~-
15. a) 0.2824, que se obtiene de P(O) = (i
O 1
2 3 4 5 6 7 8 9 10 11 12 b) I"
21 O
0.0001 0.0019
0.0116 0.0418
0.1020 0.1768 0.2234 0.2075 0.1405
0.0676 0.0220
0.0043 0.0004 ~12(0.52) ~
6.24 " ~ \/12(0.52)(0.48) ~ 1 .7307
e) 0.1768 d) 0.3343, que se obtiene de 0.0002 + O.Oüi 9 + O.Di í 6 + 0.0418 + 0.1020 + 0.1768. 57. a) P(I) ~ [,C,]GC,] ~ 121 )(3) ~ 0.5250 I10 C3 ] i 20
27. P(O) ~ ¡.,C,JbCo] ~ 2111 ) ~ 0.4667 [, 0C2] 45
b) P(O)
~ [,C,JbC,] ~ .l35l(1) ~ 0.2917 [1 0Cs]
120
P(X" 1)
~ [oCoJloG,] ~ 84(15) ~ 0.4196
31. a) 0.6703 b) 0.3297 33. a) 0.0613 b) 0.0803
(l ~ 0(0.1) + 1(0.2) + 2(0.3) + 3(0.4)
47. a) 6, obtenido de 0.4 x 15.
9 - 4 !41
cJ0.0404, que se obtíene de P(O) =
[1sC 5]
Una variable aleatoría es un resultado cualitativo o cuantitativo que se obtiene en un experimento aleatorio. Una distiibución de probabilidad incluye también la probabilidad de cada uno de los resultados posibles. La distribución binornial es una distribución c\e probabílidad discreta en la que sólo puede haber dos resultados. Un segundo aspecto importante es que los datos que se obtienen son el resultado de un conteo. Además, cada ensayo es independiente del siguiente y la probabilidad de éxito es la misma de un ensayo a otro.
45. a) 0.001
~( )
(0.3)'(0.7)º.
29. P(2)
1 - (0.0025 + 0.0149 + 0.0446 +
rr2
b) O. i 7i 5, que se obtiene de P(4) =
10 C3
~
o- 2 =(0- 2)2(0.í) + ... U'= i
lT = Vü."72 = 0.8485 13, a) 0.2668, que se obtiene de P(2)
= [6 C2][ 4 C2}
39.
0.0469
b) ¡_1.,=i.8 u· 2 = 0.72
25. P(2)
l.l = 6,
P(X 2 5) ~ 0.7149 0.0892 -1- 0.1339)
·110.57, que se determina mediante ·V12 226
b) P(3) = 3!(
11. a)
3'5.
0.2917 = 0.7083
3003
59.
P(X =O)= !_sC,i][4 Col = 2.Q_ = 0.141
I12 C 4]
495
61. a) 0.0498 b) 0.7746, que se obtiene de (1 - 0.0498) 5 .
~·
1 - P(O)
~1
791
Respuestas a los ejercicios de cada capítulo con números impares 63.
i 1. a) 0.8276: Primero se encuentra z = - 1.5, que resu!'ta de {44 - 50)/4 y z = 1.25 = (55 - 50)/4. El área entre -1.5 y O es
µ.."" 4.0 del apéndice C. 0.183 0.1954 0.6289 0.5665
a) b) e) d}
(3.i)4 65.
b) e)
e-3.1
a) 0.1733, que resulta de - -- - - . 41 (3.1)º e- 3 ·1 b) 0.0450, que resulta de ~m--
67.
c) 0.9550, que se obtiene de i - 0.0450. Según la NASA, µ = n'IT "~ 25(1/60 000) ""0.0004
P(O)
=
P(X ~
13.
_Q.0004ºe-o.ooo,: = 0.9996 O! 1) ~ 1 - 0.9996 ~ 0.0004
a)
b) e)
Según la Fuerza Aérea, µ = 25(1/35) =O. 7143
P(O) = 0.7143º e·-ü.7143 = 0.4895 O! P(X 2 1) ~ 1 - 0.4895 ~ 0.5105
69.
15. a)
b)
Resumiendo, el valor estimado por Ja Fuerza Aérea es 0.5105 Y el valor estimado por la NASA es 0.0004. Sea ¡¡., = nTr = 155(1/3709)"" 0.042.
0.0425 8 -0.042 51
Pl5)
~
0.000000001
¡Muy poco probable!
71. Pl2)
~ l,C,)l,,C~ (30 C5 )
121 ll1 71'1) 142 506
~ 0.261 O
CAPÍTULO 7 i.
3.
La forma real de una distribución normal depende de su valor medio y su desviación estándar. Por tanto, existe una distribución normal con la curva correspondiente, para una media de 7 y una desviación estándar de 2. Hay otra curva normal para una media de $25 000 (dólares) y una desviación estándar de $1 742, etcétera. a) 490y510, obtenidoestode500±i(IO). b) 480 y 520, calculado de lo anterior 500 ± 2("1 O). e) 470 y 530, que se determina por 500 ± 3(1 O).
$50 000 - $60 000 5.
ZRob
z
=
Rac/1e/
$5 000
= $50
= -2
ººº - $35 ººº $8 000
= 1.875
Ajustando a sus ámbitos, Roberto está bastante abajo del promedio y Raquel bastante arriba.
7.
e)
X~ IX - 7)/0.1 ~ 7.233. 2i. $i 630. que resulta de $2 100 - 1 .88($250). 23. a) µ = nTi"" 500(0.25)"" 12.5.
cr2 = n'IT{1 - 'IT) = i 2.5{1 - 0.25) = 9.375 cr 2 = ·v'9.375 = 3.0619.
b) 0.2578 que se obtiene de {14.5 - 12.5)/3.0619 = 0.65. El área es 0.2422. Entonces, 0.5000 - 0.2422 = 0.2578. e) 0.2578 que se obtiene de (10.5 - 12.5)/3.0619 = -0.65. El área es 0.2422. Entonces 0.5000 - 0.2422 = 0.2578. 25. a) o.0·192, que se obtiene de 0.5000- 0.4808. b} 0.0694, que se obtiene de 0.5000- 0.4306. e) 0.0502, que se obtiene de 0.5000 - O.Di 92. 27. a) Sí. 1) Hay dos resultados mutuamente excluyentes: sobrepeso y no sobrepeso. 2) Es el resultado de contar el número de éxitos (miembros con sobrepeso.) 3) Cada ensayo es independiente. 4) Ja probabilidad es la misma en todos los ensayos, 0.3. b) 0.0084, que se obtíene de
,,
25 - 20
cr =
i8- 20
z
2T = -0.5 e}
$20-$16.50
0.3413,queseobtienedez=~.SO-=i.OO.
Después, en el apéndice D, para
z=
1 se encuentra 0.34"13.
b) o. 1587, que se obtiene de 0.5000 - 0.3414 = O.i 587. e) 0.3336 que se obtiene de z =
$15.00 - $16.50
--$3.50·- '°' -0.43.
Después, en el apéndice D, para z = 0.43 se encuentra 0.1664, después O.5000 - O.1664 = O.3336.
50010.30)
~
150.
\¡:¡os =
i 0.24695
X·-~~
·1?4.5-150 - - - - - = 2.39 10.24695
= -(T
En el apéndice O, para z = -0.5, se encuentra O.i 9·15. Entonces= 0.5000 - 0.1915 = 0.3085.
a)
~
"' ~ 50010.30)10.70) ~ 105
b) 0.3944, encontrado en el apéndice D.
9.
Z=i.43. o. i 185, que se obtiene de z = (12 - 15)/3.5 "'-0.86. El área bajo la curva es 0.3051, ya que z = (i O - 15)/3.5 = -1.43. El
área es 0.4236. Por L1ltimo 0.4236 - 0.3051 "'"'0.1185. 17. X= 56.60, que se obtiene sumando 0.5000 (el área a la izqulerda de la media) y encontrando después un valor· de z que haga que 45% de los datos caigan dentro de la curva. Despejando X: i .65 =(X - 50)/4, X= 56.60. i9. 7 .233: Se encuentra un valor de z tal que 0.4900 del área bajo la curva esté entre O y z. Ese valor es z = 2.33, así
a) 1.25, que se obtiene de z = ~-"" i .25
e) 0.3085, que se obtiene de z =
0.4332 y el área entre O y 1.25 es 0.3944, ambas se obtienen del apéndice D. Luego se suman las dos áreas Y se encuentra que 0.4332 + 0.3944 = 0.8276. o. i 656, que resulta de 0.5000 - 0.3944, donde z = i .25. 0.2029: Recuerde que el á1·ea _que corresponde az =J.25 es 0.3944 y el área que corresponde a z = 0.5, que es lo que resulta de (52 - 50)/4, es 0.1915. Después se resta 0.3944 - O.i 915 y se obtiene 0.2029. 0:1525, que se obtiene restando 0.4938 - 0.3413, que son las áreas que le corresponden a Jos valores z = 2.5 y i, respectivamente. 0.0062 que resulta de 0.500 - 0.4938. 0.97i O, que se encuentra recordando que corresponde a z = 2.5 es 0.4938. Después de (6.8- 7.0)/0.i se obtiene z=-2.00. De esta manera 4938 + 0.4772 = 0.9710. 0.0764, que se obtiene de z = (20 - 15)/3.5 = 1.43, después 0.5000 - 0.4236 = 0.0764. 0.9236, que se obtiene de 0.5000 + 0.4236, donde
29.
aj
~
El área bajo la curva para 2.39 es 0.49.16, entonces 0.5000 - 0.4916 ·"" 0.0084. i 39.5 - 150 0.8461, que se obtiene de Z
10.2695
El área entre 139.5 y i 50 es 0.3461. Sumando 0.3461 + 0.5000"" 0.8461. El de ventas netas es -0.4, que se obtiene de (170 - 180)/25. El de empleados es 2.92, que se obtiene de
(1 850 - 1 500)/120. b) Las ventas netas se encuentran a 0.4 desviaciones estándar debajo de la media. El número de empleados se encuentra 2.92 desviaciones estándar arriba de la media.
792 e) 65.54% de los fabricantes de aluminio tienen ventas netas mayores que las de Clarion, lo que se obtiene de D.1554 + 0.5000. Sólo 0.18% tiene más empleaclos que Clarion, lo que resulta de 0.5000 - 0.4982.
30 ... 490 90
3'L a) O 5000 ya que z = - - · - · · - = s.·1 í
.
b) 0.2514, que se obtiene de 0.5000- 0.2486. e) 0.6374, que se obtiene de 0.2486 + 0.3888. d) 0.3450, que se obtiene de 0.3888 - 0.0438. 33. a) 0.3015, que se obtiene de 0.5000 - O.i 985. b) 0.2579, que se obtiene de 0.4564- O.i985. e) O.OOí 1, que se obtiene de 0.5000 - 0.4989. d) "I 818, que se obtiene de i 280 + i .28(420). 35. .aj O.i 587, que se obtiene de 0.5000 - 0.3413. b) 0.548, que se obtíene de 0.5000 -·· 0.4452. e) 0.7865, que se obtiene de 0.3413 - 0.4453. d) 0.0047, que se obtiene de 0.5000 - 0.4953. 37. a) 0.0026, que se obtiene de 0.5000 "- 0,4974. b) O.íi29, que se obtiene de 0.4772- 0.3643. e) 0.8617, que se obtiene de 0.4974 ·r 0.3643. 39. Aproximadamente 4 099 unidades, lo que se encuentra despejando X.
51.
a) í.65=(45-¡i)/5 p..:=36.75 b) 1.65 = (45 - p.)tl o ¡._¡, := 28.5 e} z = (30 - 28.5)/i O= 0.15, then 0.5000 + 0.0596 = 0.5596. 2-3.i 3-3.í .. 53. a) - - - :=-3.6? - - - =-0.330.3707, que se 0.3 0.3 obtiene de 0.5000 - O. 1293. fJ) Ninguno e) 0.0228, que se encuentra de 0.5000 - 0.4772; de donde resulta 228 estudiantes, que es 10000(0.0228). d) 3.484 resulta de 3.1 + i .28(0.3) 55. a) 2·1.49% que surge de z = (9.00 - 9.20)/0.25 = -0.80, por tanto 0.500- 0.3413"" 0.1587 b) Aumenta la media. z = (9.00 - 9.25)/0.25 = - i .00; p = 0.500 - 0.3413 = 0:1587. Se reduce la desviación estándar. cr = (9.00 ·- 9.20)/0.i 5 = ·- i .33; p = 0.500 - 0.4082 := 0.094 8. Se prefiere reducir la desviación estándar porque un porcentaje rnenor de latas estará debajo de ese límite. 57, a) z °"' (52 - 60)/5 = i .60, por tanto, 0.500 - 0.4452"" 0.0548. b) Se hace z = 0.67, por tanto 0.67 (X - 52)/5 y X= 55.35 Ver las millas recorridas en 55 350. e) z = (45 - 52)/5 = i .40, por tanto, 0.500 - 0.44 92 = 0.0808.
1.65" IX - 400¡;50 Z =
4i. a)
50 400 - 48
O~"~ 2 E. I gana más de lo que ganan 98%
1 200
de los otros supervisores.
5
Sólo 2% ha estado ahí menos tiempo que él. 46 308 que resulta de 48 000 - i .4i (i 200). i 5.39%, que resulta de (8 - i0.3)/2.25 = -i .02, luego 0.5000- 0.3461 =o. i539. !7.31% que resulta de z = (i 2 - i 0.3)/2.25 = 0.76. El área es 0.2764. z "' (14 - í o. 3)/2.25 = 1. 64. El área es 0.4495. El área entre 12 y í 4 es o. i 731, que se obtiene de 0.4495 - 0.2764. Sí, pero es bastante remota. El razonamiento es: en 99.73% de los días, hay entre 3.55 y ·17 .03 devoluciones, lo que resulta de i 0.3 ±3(2.25). De manera que !a posibilidad de que haya menos de 3.55 devoluciones es bastante remota. 0.9678, que se obtiene de: p, := 690(0.64) := 38.4.
b)
e)
45. a)
a'" 690(0.64)(0.36) IT"
0
13.824
\(13.S24 " 3. 72
Después (3i .5 - 38.4)/3. 72 = - i .85, para el que el área es 0.4678. Después 0.5000 + 0.4678 = 0.9678. b) 0,0853, que se obtiene de (43.5 - 38.4)/3.72 = 1.37, donde el área es 0.4147. Después 0.5000...:. 0.4147 = 0.0853. e) 0.8084, que se obtiene de 0.444 i + 0.3643. dj 0.0348, que se obtiene de"~0.4495-.0.4147. 4" a} ;e" 50(0.2)" 1 O y a 0 Vs0(0.2)(0.S) "2.83 b) Un estudiante deserta o no. Cada uno tiene 20% de posibilidad de deserta1·, independientemente de los otros. Se está contando el rn'.1mero que deserta. e) 0.8106, que se obtiene de 0.5000 + 0.3106. d) 0.2981, que se obtiene de 0.5000 -- 0.2019. e} o.·1087, que se obtiene de 0.3106 -~ 0.2019. 49. 0.968, que se obtiene de:
"" 50(0.40)" 20. a2 = 50(0.40)(0.60) (I"
=
:=
470-~t
--·-=0.25 "
(f
0
= 29.426 yµ.= 462.719
61. ¡F 150(0.15) º 22.5
rrV150(0.15)(0.85) "4.3732
63. a) 0,0823, que resulta de 0.5000 - 0.4177·; esto da como resultado 2.5 equipos, lo que se obtiene de 30(0.0823). En 1·ealidad ningún equipo tuvo una asistencia mayo1· que 3.5 millones, pero tres equipos tuvieron más de 3.3 millones. b} 0.6064 que se obtiene de 0.5000 +O. i 064; esto da como r8sultado ·¡ 8.2 equipos, lo que se obtiene de 30(0.6064). En realidad 20 equipos tuvieron salarios superiores a $50 millones (dólares), por lo que la estimación e~ bastante exacta.
CAPÍ!l!LG 8 i. a) 303 Louisiana, 5155 S. Maín, 3501 Monroe, 2652 W. Central b) Las respuestas variarán. e) 630 Dixie Hwy, 835 S. McCord Rd, 4624 Woodville Rd. d) Las respuestas variarán. 3. a) Bob Schrnidt Chevrolet Great Lakes Ford Nissan Grogan Towne Chrysler Southside Uncoln Mercury Rouen Chrysler Plymouth Jeep Eagle b) Las respuestas variarán. e) York Auton1otive Thayer Chevrolet Geo Toyota Franklin Par\' Lincoln Mercury Mathews Ford Oregon lnc Valiton Chrysler Plymouth 5. aj Muestra Valores Suma Media
1 2 3
4 5 6
í 2·.
\/-12 := 3.4641
z = (24.5 -
500-µ ---=i.28
z = (30.5 - 22.5)/4.3732 = i .83 P(z > í .83) = 0.5000 - 0.4664 = 0.0336
b) Z"" 10-20 =-2 e) 43. a)
59,
20)/3.464"1 "" i .30. El área es 0.4032. Entonces, para 25 o más, 0.5000 - 0.4032 := 0.0968.
12, 12 12, 14 12, 16 12, 14 12. 16 14, ·15
24 26 28 26 28 30
12 13 14 13 14 15
1ix=(i2+i3+i4+·13+í4+15)/6=·l3.5 µ. = (i2 + 12 + 14 + 16)/4"" i3.5 e) Mayor dispersión con datos poblacionales comparados con las medias muestra\es; éstas varían de i2 a ·15, 1nientras que en la población hay variación de í 2 a 16.
b)
793 7,
a)
!Vlllesírn
\.laJores
Suma
Media
1 2
8
·12. 12, 14 12, 12, 15 ·12, 12, 20 14, 15, 20 12, "i4, 15 ·12, "14, 15 12, 15, 20 12, 15, 20
9 10
12,'14,20
38 39 44 40 4·1 41 47 47 46 46
12.66 13.00 14.66 16.33 13.66 13.66 15.66 15.66 15.33 15.33
3
4 5 6 7
b)
i2, i4, 20
(12.66
+. ··+15.33+
µ;;¡=~
15.33)
10
0.10
1
= 14.6
1
2.0
3.0 4.0
µ=("12+·12+14+ 15 +20)/5 = i4.6 e)
Medías ríluestrales
La dispersión de la poblacíón es mayor que la de las medias muestrales; éstas varían de 12.6 a i 6.3, mientras
por nl1me1·0 de casos
que la población Jo hace de i2 a 20. 9. a} 20, determinado por 6C 3 . b)
Muestra
Casos
St.ema
MediCJ
Ruud, Austin, Sass
3, 6, 3 3, 3, 3
12 9
4.00 3.00
Ruud, Sass, Palmer
Sass, Pa!mer, Scllue!Jer
3, 3, 1 7 52.63 e) µx = 2.63, determinado por 20· µ = 2.66, determinado por (3 + 6
Media muestrnJ
Número de medias
Prnhabi!idad
1.33 2.00 2.33 3.00 3.33 4.00
3
0.1500 0.1500 0.2500 0:1500
3
5 3
2.33
+ 3 + 3 +O+ í)/6.
Son iguales.
3 3
o.·1soo
20
1.0000
0.1500
La población tiene mayor dispersión que las medias muestrafes; éstas cambian de i .33 a 4.0. La población varía de O a 6. ii. aj
0.1 d}
0.05
o
o
2
'" 2
,ll
4
6
f\IL1mero de casos
3
4
o+
1
1 2 3 4 5 6 7 8
g
rn
+ 10
b) Mm~stra
5
Suma
Ji
11 31 21 24 21 20 23 29 35 27
2.2 6.2 4.2 4.8 4.2 4.0 4.6 5.8 7.0 5.4
6 +-9
7
== 4.5
8
9
Respuestas a los ejercicios de cada capítulo con números impares
794
b)
Muestra
Valor
Suma
1 2
79, 64 79, 84
143 163
15
92, 77
169
-----
Media 71.5
8t5
84.5
·¡ '195.0 e}
Valores
La media de 10 medias muestra!es es 4.84, lo cual está cerca ele la media poblacional de 4.5. Las n1edias rnuestrales varían de 2.2 a 7.0, mientras que los valores poblacionales lo hacen de O a 9. Del diagrama anterior se tiene que las medias muestrales tienden a agruparse entre 4 y 5. 63 -- 60 13. a) z""' ------:::- = 0.75
27.
1.ix=79.67,queresultade1195/15.
µ = 79.67, que resulta de 478/6. Las dos medias son iguales. d) No. Al estudiante no se le da una calificación basándose en toda la información disponible. Es igualmente probable que obtenga una nota más alta que una más baja si el profesor se basa sólo en la información muestra!. a) 1 O, que se obtiene de 5C 2 .
b)
Número
·12/y9 P = 0.2266, que se obtiene de 0.5000 - 0.2734.
b}
Media
de paros
Media
4,3
3.5 4.5 3.5 3.0 4.0
3, 3 3, 2 5, 3 5, 2 3, 2
3.0 2.5 4.0 3.5 2.5
4, 4, 4. 3,
z = 56 - 60 = -·1.00 i2/·v1B P"""" O. 1587, que se obtiene de 0.5000 - 0.3413.
e) P = 0.6147, que se obtiene de 0.3413- 0.2734.
15.
z=
950-1 200 250/\150
= - 7.07 P = 1
Frecuencia
Probabilidad
2 2 3 2 1
0.20 0.20 0.30 0.20 0.10
10
1.00
Capita!
Número
$500 millones y más $100-$499 millones Menos de $100 millones
20 324 656 1
ººº
2.0
µx: = (3.5
e}
29.
b) ax=_2:§__=1.i
V25
e) z
=
35
-
3
~=
0.91
5.51\/25
65.6
En una muestra estratificada proporcional, si el tamaño de la muestra fuera 100, se tomarían 2 bancos de los que tienen $500 millones y más. 32 bancos medianos y 66 bancos pequeños. En una muestra no proporcional se podrían tomar 10 o aun los 20 bancos grandes y un menor número de los bancos medianos y pequeños y los resultados muestrales se ponderarían con el correspondiente porcentaje del total. 23. a) se toman 60, "104, 75, 72 y 48. Las respuestas variarán. b} Se toma la tercera observación. Así ta muestra consiste en 75. 72, 68, 82, 48. Las respuestas variarán. c) Los primeros 20 moteles se numeran desde 00 hasta i 9. Se seleccionan tres núme1·os aleatoriamente. Después se numeran los últimos cinco desde el 20 al 24. De ese grupo se toman aleatoriamente dos números. 25. a) i 5, que se obtiene de 0 C 2 .
+ 4.5 + · · · + 2.5)/í O = 3.4 3 + 5 + 3 + 2)/5 = 3.4
¡;, = (4 -1Las dos medias son iguales. d) Las valores poblacionales son relativamente uniformes, la forma de la distribución es relativamente uniforme. La distribución de las medias muestrales tiende a 1a: normalidad. a) La distribución será norma\.
32.4 100.0
2
5
2.5 3.0 3.5 4.0 4.5
17. a) Formal Man, Summit Stationers, Bootleggers, Leather Ltd,
Porcentaje de! total
5 3
Media muestra!
o virtualmente seguro.
Patries. b) Las respuestas variarán. e) Elder Beerman, Frederick's of Hollywood, Summit Stationers,Lion Store, Leather Ltd, Things Remembered, County SEAT, Coach House Gitts, Begis Hairstyllists. 19. La diferencia entre el estadístico muestral y el parámetro poblacional. Sí, la diferencia puede ser cero. La media muestra! y el parámetro poblacional son iguales. 21. El uso de una muestra aleatoria estratificada proporcional o no proporcional sería adecuado. Por ejemplo supóngase que el rn'.1mero de bancos en la región !ll sea:
Número
de paros
d)
p
=o. 1814 que resulta de 0.5000- 0.3186.
z
= 34.~3~= -0.45
5.S/V25 P = 0.6736, que resulta de 0.5000 - O. 1736. e} 0.4922, que resulta de 0.3186 + 0."1736. 31. z
= $335 -$350 = -2.ii
$45h/40 P = 0.9826 que resulta de 0.5000 - 0.4826. 33. z
= 25.i - 24.8 = 0.93
2.5/ V61i
P = 0.8238 que resulta de 0.5000 - 0.3238. 35. Entre 5 954 y 6 046, que se obtiene de 6 000 ± 1.96(150/\/40). 37. z
=
§!00 "- 947_ = -""1.78
2051\/65 P = 0.0375 que resulta ele 0.5000 - 0.4625.
39. a) Alaska, Ohio, Nueva Jersey, Texas, Utah, 1-lorida, Ve1mont y b)
Connecticut. Maine, Ma1yland, Michigan, Missouri, Florida, Carolina del Sur, Oklahoma, Wyoming y Washington.
Respuestas a los ejercicios de cada capitulo con n(!meros impares e) Las respuestas varíarán dependiendo ele los números aleatorios seleccionados. 31.
CAPÍTULO 9
7.
9.
11.
13.
b) La población está distribuida normalmente y se conoce la varianza poblacional e) 16.90'1 y 23.099, que resulta de 20 ± 3.099. a) $20. Esta es nuestra mejor estimación ele la media poblacional. b) $18.60 y $2i .40, obtenidos de $20 ± 1.96($5/\/49). Aproximadamente en 95% de !os intervalos construidos similarmente se encontrará la media poblacionaJ. a) 8.60 galones. b) 7.83 y 9.37, obtenidos de 8.60 ± 2.58(2.30/\/60). e) Si se calcularan i 00 de estos intervalos, en aproximadamente 99 de ellos estaría la media poblacional. a) 2.201. b) 1.729. e) 3.499. a) No se conoce la media poblacional, pero la mejor estimación de ésta es 20, que es la media muestra!. b) Use Ja distribución t, ya que la desviación estándar no se conoce, y el tamaño de la muestra es pequei'io. Suponga que la población está distribuida normalmente. e) 2.093 d) Entre 19.06 y 20.94, que se obtiene de 20 ± 2.093(2/\l2o). e) Ningún valor es razonable porque no se encuentran en el intervalo. Entre 95.39 y i 01.Bi, que se obtiene de
b) 0.04 que se obtiene de 0.04, found by
ro:s¡c¡-::-6:8) V
100
(\1ro:a¡1--=o-:s¡) 100 .
21.
{if625{1=0625)) 400
.
d) Se está razonablemen'te seguro de tjue !a proporción poblaciona! está entre 56% y 69%. 33.465 Y 36.563, que se obtiene de :::1::
í
.96(--5.-J' ,13ºº ~. V36l300-1
68.6 ± 2.58(8.2/v'50).
39. 41.
43.
45.
\!50 l
i:+ 00 ~ 50 . 400 - 1
23. 97, que se obtiene den
b) El valor sugerido por la asociación deportiva se encuentra en el intervalo. Por tanto es razonable. e) Si se cambia a un intervalo ele 95, se reduce la amplitud del intervalo. El valor 2.58 cambiaría a ·1.96. 61 que se obtiene de i .96 (16/VÍl}""' 4. Entre $13 734 y $15 028, que se obtiene de i 4 381 ± i .711 (1 0892/\/25). 15 000 es razonable porque se encuentra dentro del intervalo de confianza. a) $62.583, que resulta de $75i/i2. b) Entre $60.54 y $64.63, que se obtiene de 62.583 ± 1.796(3.94/\!12). e) $60 no es razonable porque se encuentra fuera del intervalo de confianza. a) 89.4667, que resulta de i 342/iS. b) Entre $84.99 y $93.94, que se obtiene de
89.4667 ± 2.145(8.08/\/15¡. Sí, porque al1n el límite inferior del intervalo de confianza es mayor que 80. Entre 0.648 y 0.752, Jo que resulta de 0.7 ± 2.58
'j'
~ _2.:.95 xJ_Q -
r
2
25. 196, que se obtiene den = 0.15(0.85) 27. 554, que se obtiene den
=
(~ ·~~2 ; 3)
29. a) 577, que se obtiene den
=
(J():.711_: o ?¡')( /2.º ººº -
=
96.04.
(~) o.os
2
=
195.9216.
2
=
553.19.
1 96 2 0.60(0.40)( · ) = 576.24. 0.04
500 -) 20000-1
, \
Sí, porque aún el límite inferior del intervalo de confianza es mayor que 0.5000. 49. $52.56 y $55.44, que resultan ele $54.00 ± 1.96
$4.50 ¡¡500 - :iSj
\/35 Ysoo -1-· 5i. 369 que resulta den""' 0.60(1 - 0.60)(1 .96/0.05) 2 • 53. 97, que se obtiene de [(1 .96 x 500)/102]2. 55. a) 708.13, que redondeado hacia arriba es 709, esto se obtiene de 0.21 (i -- 0.21 )[í .96/0.03]2. b) 1 068, que resulta de 0.50(0.50)('1.96/0.03) 2 • 57. Entre 0.573 y 0.653, que resulta de 0.613 ± 2.58
.613(1 ~o:Gi3))
(F
- - - · - - - . Sí, ya que aún el límite inferior del
1
ººº
intervalo de confianza es mayor que 0.500. 59. Entre 12.69 y i 4.11, lo que resutta de 13.4 ± i .96(6.8/vi352). 61. las respuestas variarán. 63. a) Para el precio de venta: de 2i 2.09 a 230. i 1, lo que resulta ele 221.1 ± (1.96)(47:11/\fi05) ~ 221.1 ± 9.01. b) Para la distancia: de 13.697 a 15.561, lo que resulta de 1 14.629 ± (1.96)(4.874/V 105)"" 14.629 ± 0.932. e) Para garaje: de 0.5867 a 0.7657, lo que resulta de 0.6762 ±
1.689 A 2.031, que se obtiene de 0 50 1.86 :±: 2.5s( · -)
2.ss(-~)·
500
d) Se está razonablemente seguro de que Ja proporción poblacional está entre 72% y 88%. 17. a) 0.625, que resulta de 250/400. ,i~0-.6~2~5(-.,-_~0..625) b) 0.242, que se obtiene de \" ·-. 400 e) Entre 0.563 y 0.687, que se obtiene de
35
600.25.
b) $1 .20 no es razonable, porque está fuera del intervalo de confianza. Si z es 2.58 se llega al mismo resultado. 35. a) Entre 7.22 y 8.78, que se obtiene de 8 ± ·l .68(3/\l40). b) 9 no es razonable porque se encuentra fuera del intervalo de confianza. Si z es i .65 se llega al mismo resultado. 37. a) 65.61 a 7i .59 horas, que se obtiene de
47. ·
e) Entre 0.72 y 0.88, que se obtiene de
'19.
=
e)
15. a) 0.8, que resulta de 80/íOO.
0.625 ± 2.58 ( '
2
6.i4 años a 6.86 ailos, que se obtiene de
1.179 ±
98.6 ± 1.833(5.54/vTcl).
0.8-::'.::_ 1.96
0.50(0.50)(~:~~)
6.5 ± 1.96('1.7/VSSJ. 33. a) Entre$i.í68y1.'190,queseobtienede
1. Sí .314 y 58.686, que resulta de 55 ± 2.58(1O/V49). 3. a) i .582, que se obtiene de ux = 5/\/W.
5.
b} 601, que se obtiene den =
795
¡1.961
\/rf6762(1 .
=º· 67621 ~ o.6762 ~ o.0895.
105
65. a) Entre i 2.279 y 14.321, lo que resulta de 13.3 ± 1.701 (3.233/\/29). b) Entre 48.24 y2 97.96, lo que resulta de ·173.í ± 1.701 (395.3/V29).
796 CAPÍlülíl 10 a) De dos colas. .b'' Se rechaza H 0 y se acepta H1 si z no cae en la región de - í .96 a 1.96. e) - i .2 determinado por z = (49 - 50)/(5/V'36) = -·1.2 d) Se falla al rechazar Ha. e) p = 0.2302, calculado por 2(0.5000 - 0.3849). Una posibilidad de 23.02 de encontrar un ·valor z así de grande cuando H 0 es verdadera. o. a) De una cola. b) Rechazar Ha y aceptar H, donde z > í .65. e) í .2, que resulta de z = (2·1 - 20)/(5/\/36) = i .2 d) Se falla al rechazar H 0 al nivel de signiticación de 0.05. e) p ""0.1i51, determinado por 0.5000 - 0.3849. Una posibilidad de i i .51 % de encontrar un valor z de esta magnitud o mayor. 5. a) H 0 : p.. = 60 000 H1 : 1..c -t= 60 000 b) Se rechaza Hasiz < -i.96 oz > i.96. e} -0.69, calculado por: 59 500 ·- 60
1.
ººº ~-0.69
z ~ ~(5 000/\/48)
7.
d) No se descarta Ha. e) p = 0.4902, determinado por 2(0.5000 - 0.2549). La experiencia de Crosset no dífiere de la expresada por el productor. Si Ha es verdadera, !a probabilidad de encontrar un valor más extremo es 0.4902. aj H 0 : m ~ 6.8, H 1 : m < 6.8 b) Se rechaza Ha si z < - i .65 e) z = 6.2 - 6.8 = - 7.2
0.5/\136 d) Se rechaza Ha. e) p =O. El número medio de vicleos observados es menor
9. a)
que 6.8 por mes. Si HO es verdadera, no hay probabilidad alguna de obtener un valor estadístico tan pequeño. Se rechaza H 0 si t > i .833.
bJ 1~
12
""
10
(3/VTó¡
~\. ~ 4.0 H 1: ¡..c > 4.0 Se rechaza H0 si t >i .796.
19. 1-/0 :
t
0.10. U0 se rechaza si z > ·1.65. · - - - - 1 .09, obtenido de z == Vfüo x 0.30)/"I 00.
a) b) e) 23. a) b)
No se rechaza H 0 •
f-1 0 : r.
$
0.52 H 1:
Se rechaza H0 si
23 400 - 22 100
(1 500f\/"18)
15.
~
3.680
Se rechaza Ha y se concluye que la vida media de las buíías es de más de 22 i 00 millas. a) Se rechaza 1-10 si t < ·-3.7 47. ! i 49:s=-(85)275 _ b) X= i 7 y s == \1 ""3.536
1
5
t
=
7
-~
- 20_ = -·l.90
(3.536/\15) e}
i7.
No se rechaza H 0 . No se puede concluir que la media poblacional sea menor que 20. d} entre 0.05 y O. i O, cerca de 0.065. H0 : ¡;, $ 4.35 H1 : p.. > 4.35 Se rechaza Ha si t > 2.821. 4.368- 4.35
t" (0.0339/Viü) " 1 ·68 No se rechaza H 0 • Et aditivo no aumenta el peso medio de los pollos. El valor p está entre O. i Oy 0.05.
2.33. _QfilillL=J]Jó2_
(0.52(D.48) ~ - 300 í .62, que se obtiene de z = -v'(0.52 x 0.48)/300. d) No se rechaza Ha. No se puede concluir que la proporción
e)
de hombres que circulaba por la autopista sea mayor que
0.52. 25. a) H0 : 1T ~ 0.90 H1 : -r. < 0.90 b) Se rechaza H0 si z < - i .28 0.82 - 0.80 {fül0(0.10) 100
z~-~~~~~-
,¡-
-2.67, que se obtiene dez== v-(0-.9~0~x~o-.1-o-¡1-1·oa. d) Se rechaza H 0 • Menos de 90% de los clientes recibieron sus órdenes en menos de i O minutos. 27. i.05, que se obtiene de z = (9 922 ~ 9 880)(400/v1100). Entonces 0.5000- 0.353"1==0."1469, que es la probabilidad de un error de tipo 11. 29. Ha:µ.~ 10 H1 : µ.
31.
9.0-10.0 2
.si\/50 º
-2.53
Se rechaza U0 • La pérdida media de peso es menor que i libras. El valor p == 0.5000 - 0.4943 = 0.0057. Ha: ¡..c $ $15 000 H 1 : 1..c > $15 000 Se rechaza Ha si z > i .65.
(2.1/V28)
13.
> 0.52
1T
z>
z~
Se rechaza Ha y se concluye que el número medio de llamadas es de más de 40 por semana. H 0 ; µ.;:;::;; 22 iOO H1 : ¡.t > 22 iOO Se rechaza Ha si t > 1.740.
0.65
=
No se rechaza H 0 • No se ha demostrado que el número medio de peces capturados sea mayor que 4. E\ valor p es mayor que
~2.1os
e) Se rechaza ,Lf0 • La media es mayor que 10. 11. H 0 :¡..c.o;;;4Q H.1:µ.>40 Se rechaza H0 si t > i .703. t "" 42 - 40 5.040
4.5q - 4.0 (2.68/VT2)
=
z~
O
$17 000-$15 000 $3 OOO/v75 ~ 5 .77
Se rechaza H 0 . Al nivel de significancia 0.05 no se puede concluir que el ingreso medio por hogar sea superior a
$15 000. 33. H 0 :¡.~=$30000 H 1:µ°F$30000 Se rechaza U 0 si z < - i .65 o z > _1 :65.
z
ººº
$30 500 - $30 .t3 OOO/V120
~ 1.83
Se rechaza H0 . Se puede concluir que el salario medio no sea $30 000. El valor p = 0.0672, obtenido de 2(0.5000- 0.4664).
35. H0:µ.o:S.'.$í.50 H;:µ.>$1.50 Se rechaza Ha si z > i .65. $1.52 - $1.50 z ~ $0.os1V35 ~ 2.37 Se rechaza H 0 . El precio medio de la gasci\ina es superior a
$1.50. El valor p = 0.5000 - 0.491 í 37. Ha: ¡..L=,'1>3.65 H 1 : µ. i= $3.65 Se rechaza H 0 si
=
0.0089.
z no cae en el intervalo de·· i .96 a í .96 z=
$3.69 - $3.65 $0.24/\145
=i.12
No se puede rechazar H 0 . No hay diferencia entre la cantidad
797 media asignada a los nii'ios ele 9 años en esta región y la cantidad a nivel nacional. 39. f-/ 0: µ ~ 42 H.1: ¡.~ > 42 Se rechaza Ha s·r t > í .796.
i'
41.
=
?i -
42 81\f12
=
=
v'ri
~
25 H.1: ¡_1., > 25
59.
61. 63.
5.1667 - 6.E!_ = ·-i.463
3.1575/ \!12 No se rechaza H 0• El valor pes mayor que 0.05.
(5.71)2 = 32.6
-077
.
= _
1 _14
No se rechaza la hipótesis nula. La nación debe de estar· dividida en partes iguales . Las respuestas varia1·án. a) H 0 :¡_1.,=50 H1 :µ,oF50 Se r·echaza f-/ 0 si t no está entre .."2.045 y 2.045 56.67 - 5~. 24.54/\/30
=
2.702
=
1 .49
No se rechaza la hipótesis nula. b) Ha: JL ~ 2 000 000 1-!1: µ > 2 000 000 Se rechaza Ha si t > 1.699.
1.5337/Vi5
=
_=---ª-=
~.:.482=-0.500. \/(0.5)(0.5)/1,002
z=
Se rechaza H 0 • E! número medio de pacientes por día es superior a 25. El valor p es menor que 0.01. 43. H 0 : p.,;;, 6.5 H 1: µ < 6.5 Se rechaza H0 si t < -2.7i 8. X"' -5.1667 s = 3.-1575.
t
=
No se r·echaza la hipótesis nula. El tiempo no es n1enor. f-JO: 'iT"" 50 f-/ 1: TI e/= 50 Se rechaza Ha si z no está entre-·J .96 y·¡ .96.
t =
n
75 3.2/\124
_§e rechaza H 0 si t > 2.624. X= 26.07 s = i .5337.
t = 26.07 - 25.0ü_
10 _
\In
t= . ·
0.40481\(f2
42. H 0 : µ
55 - 0.525
Por lo que n ,~ 33. p.~ 8 f-1 1 : µ, < 8 Se rechaza/-/0 si t < -1.714.
2.087 - 2.25 = -1.395
No se rechaza H0 • No hay diferencia entre el consumo medio general y el consumo medio de los estudiantes de esta universídad.
=
57. f-/ 0 :
3.90
Se rechaza f-1 0 • El.tiempo medio c!e espera es superior a 42 días. El valor p es menor que 0.005. /-/º: µ = 2.25 /-11: µ "+. 2.25 Se rechaza H 0 si t < -2.201 o t > 2.201. X= 2.087 s 5 = 0.4048.
t
55, 50 + 2.33--2.9._
2 419 737-2 000
t
= -··
ººº
776 558/\130 -
=
2 ' 96
Se rechaza la hipótesis nu!a.
GJ\PÍfülO 11 i. a) Prueba de dos colas. bj Se rechaza H 0 si
45. H0 : µ=O H1 : µ" ::f:- O Se rechaza f-f 0 si t < -2.i 10 o t > 2.110. X=-0.2322 s = o.3120.
z
< -2.05 o z > 2.05.
z = 102 - 9~ = 2.59 ,152 52 40+50 d} Se rechaza H 0 y se acepta f-1 1 • e) p = 0.0096, que resulta de 2(0.5000 - 0.4952). Paso ·j Ha: p. 1 "'-' µ. 2 f-/1: P.. 1 < IL 2 Paso 2 Se eligió el nivel de significancia 0.05. Paso 3 Se mchazaHa y se acepta H 1 si z < -1.65. Paso 4 -0.94, que se obtiene de : e)
1
\
t
47.
=
-0.2322 -_Q = -3. i 58 0.3120/"\(18
Se rechaza i-!0 . El atraso o adelanto medio no es igual a O. el valor pes menor que O.Di, pero rnayor que 0.001. H0 : "~ 0.60 H1 : TI> 0.60 H0 se rechaza si z > 2.33.
z
=
_--º.:.?-º----=-~
=
3.
2.89
\/(0.60 )( 0.40)/200 H0 se descarta. La Srita. Dennis está en fo correcto. Más del 60% de las cuentas tienen más de 3 meses de antigüedad. 49. H0 : TI~ 0.44 H 1: " > 0.44 Ha se rechaza si z > 1.65.
z
=
0:480 -" 0.~4--= = 2.55
No se puede rechazar· H 0 • El aun-rento de peso no es n1enor en los bebés que usa·n su marca. p = 0.1736 que se obtiene de 0.5000 - 0.3264. Una prueba de dos colas, porque estainos tratando de mostrar que !1ay diferencia entre las dos medías. Se rechaza H 0 si z < -2.58 o z > 2.58. Paso 5
5.
\!(0.44 X 0.56)/1 000
H0 es rechazada. Se concluye que h8. habido un aumento en la
z=
proporción de personas que desean viajar a Europa. 5i. Ha: TI o:s 0.20, H1 : TI> 0.20. Se rechaza H0 si z > 2.33.
z
=
j32+
.. - = 2.83
\/(0.20 X 0.80)/200 Se r·echaza Ha. Más de 20% de los propietarios se mudan en un año específico. Valor p "'0.5000 - 0.4977""' 0.0023. 53. a) 9.00 ± i .65(1/V36) = 9.00 ± 0.27!5 Por lo que los limites son 8.725 y 9.275. b} Zo(8.725-8.900)(1/v36)o-f.05 P(z > - í .05) ~ 0.5000 + 0.3531 ""0.853i e) z = (-9.275 - 9.300}(i /\136) "'-0. i 5 P(z > -0.15)"" 0.5000 - 0.0596""' 0.4404
so+ 2.33(101ví11º5s - o.5251101-VnJ.
- 34.~ = -2.66
i(G~ (6.7)~
(56/200) - 0.20 ..
_ .. 31.4
7.
49
Se rechaza H 0 al nivei de significancia 0.01. Si hay diferencia en !a tasa media del monto de transacciones. El valor p ""2(0.5000- 0.4961) = 0.0078. a) SerechazaHasit>2.120ot<-2.-120 g/=·Jo+8-2=16.
b) S~"=' e)
t=
(1 o - 1)(4)' + (8 - 1)(5)' í0+
e-
8
__.
23-26.
2
1+· 81) \!':"19.9375 (w
=·J9.9375
=-1.4i6
798
9.
Respues!as a los ejercicios de cada capitulo con números impares d) No se rechaza 1-10 . e) El valor p es mayor que O. i O y menor que 0.20. !-lo:µ,111::.:;µh H!:¡_1.,m>µ11 g/=9+7-2=14 Se rechaza H0 si t < 2.624.
s2= t=
t
(17+91)
H 0 se rechaza si t > 2.821 d=ü.10 Sr1"'4.28.
t = .. 0 -10
No se puede rechazar H0 . No ha habido reducción. H,: f.11 =F µ2 H 0 se rechaza si z < -2.58 o z > 2.58.
25. f-/o: IJ. 1"" 1.1,2
36.2 - 37.0 ({i.i4) 2
g/o 6+7-2o11 Se rechaza H0 si t > i .363.
13.
1 \
(6 - 1)(12.2)' + (7 - 1)(15.8)' · + _ 6 7 2
t~
142.5 - 130.3
=
=
203.82
i 536
\i;;:a2(i + ~)
.
70+ 90 100+150
e)
d)
\1-4o+5D 29. Ha: µ.1 ""!-l2
H1: ¡;,1 > µ.2
H 0 se rechaza si
No se rechaza H 0 •
y[(0.08
X
0.92)/400] + [(0.08
X
31.
H1 'iTd >TI,.
168+200
Pe = 800 + í 000 z~
19.
0.2044
0.21 - 0.20 :10.2044)(0.7956) (0.2044)(0.7956) 1 \ 800 + IODO
=
0.52
e)
a
=
~ 4 =
3·
ºº
Sa =
\ir38="1·2214 - º·s16 · 3
t=~-=7.35 0.8161\!4
d) Se rechaza H 0 • Hay 111ás unidades defectuosas en el turno matutino. e) El valor p es menor que 0.005, pero mayor que 0.0005 21. H 0 : µ,d,;::; O f-! 1 : ¡..i.. d >O. fj 0 se rechaza si t > 2.764. d = 7.3636 sd = 8.3699
i .Di 9
'0.882(0.118) . 0.882(0.118) 1
\i
200
+
300
No se rechaza H 0 • No hay diferencia entre la proporción de personas que encuentra alivio con el nuevo medicamento y con el antiguo. 33. H0:"'m""'l'íw H1:11m=f.'ITw H 0 se rechazasiz <·-i.96oz > i.96. 70 + 72 Pe= 500 + 400. 0.'1578
z=
No se rechaza H 0 • No hay diferencia entre las proporciones de demócratas y republicanos que están a favor de bajar los estándar. a) H0 se rechaza si t > 2.353. b)
= 3.35
0.90 - 0.87
z
0.92)/400f
H0 se rechaza siz > 2.05.
11.00 - 7.67
Se rechaza H 0 • Los propietarios de botes pequeños los usan con más frecuencia. El valor p es menor que O.OOOi. Ho: '!T1 -:s; 1í2 H1: 'IT1 > 'IT2 H 0 se rechaza si z > 1.65. '180-1-261 Pe= 200 + 300 0.882
e) Se rechaza H 0 . La proporción de ínfectadas no es la misma en los dos campos. HD: 'iTd"" 'IT,
2.05.
/(3.88)' (4.42)' \1---:3() ·'· --¡()
d) -2.09, que se obtiene de 0.06 - 0.10
17.
z> z
15. a) H 0 1T 1 = TI 2 H., TI 1 =!=- TI 2 • b) H 0 se rechaza si z < - i .96 o z > 1.96. 24 + 40 e) Pe= 400 + 40Ü = 0.08
-i.04
No se rechaza H 0 • No hay diferencia en el número medio de llamadas. El valor p;;; 2(0.5000 - 0.3508) = 0.2984.
y(0.64 X 0.36)/100] + [(0.64 X 0.36)/150T
z
4.77 - 5.02
=
rr1~(1.23) 2
i.61, que se obtiene de 0.70 - 0.60
z
"35"'40
2(0.5000 - 0.4977). 27. Ho: ¡.1,1 "'f.12 H,: µ1 =F µ2 f-1 0 se rechaza si z < - i .96 o z > i .96.
z
b) 0.64, que se obtiene de p = - - - - .
-2.84
(i.30) 2
'
Se rechaza H0 . Sí hay diferencia en la vida útil de !as dos marcas de pintura. El valor p es 0.0046, obtenido de
Se rechaza H0 . Los gastos medíos diarios del equipo de ventas son mayores. El valor p está entre 0.05 y 0.1 O a) /-/ 0 serechazasiz>i.65. e
0.07
4.28/\/iü
No se rechaza H 0 • No hay cli'ferencia en la media de las calificaciones. íi. Ha: P·s,;:;;: JJ·a H,: µs >!La
s~ =
2.92
Se rechaza H0 • Ha habido aumento de peso. 23. f-lo: ¡.1,d "'" O Hci: µd > O.
- · - - - - · · = 0.234
1
=
8.36991\!TI
(7 - 1)(6.88)' + (9 - 1)(9.49)' + _: =7i.749 7 9 2 79 - 78 \,171.749
7.3636
=
0.14 - 0.18 /0.1578(0.84221 0.1578(0.8422)
\I·
35.
500
-1-
-i.636
400
No se rechaza H 0 • No hay diferencia en la proporción de fumadores. Ho: "' 1 -:s; 1í2 H1: 'lT1 > 1í2 Si z > 2.33 se rechaza H0 •
990 + 970 Pe "" ~OO + i 600 ""' 0.63 0.6600 - 0.60625 (Ofil(0.371 + (J.63(°.:37) Z- \/i 500 i 600 -
No se rechaza la hipótesis nula. Se puede concluir que es
799
Respuestas a los ejercicios de cada capitulo con números impares mayor la proporción de hombres que piensa que la división del frabajo es justa.
37. f-lo: 01 = i.l.z H1: J.-~1 "*- µ2 1-10 se rechaza si t < -2.060 o t > 2.060. (15 - 1)(2.6)' + (12 - 1)(3.3)' s~= -15+12-2 ·=8.5772 "17.6 -· 16.2
' [ - - 1
.-
·-
i 8.5772c~ + 112J
39.
51. Ho:µ,=µ2
No se l'echaza /-f0 . No hay diferencia en el porcentaje medio de los salar·ios que se gasta en los paquetes de atención a la salud. f-lo: f-''n = µ3 /-11: µn -1- µs f-/0 se rechaza si t < -2.086 o t > 2.086.
(10 - 1)(10.5)' + (12 - 1)(14.25)' s~=10+-12-2
t
~-~-55 - 7~.8 -
= 1
(
1
t
161.2969
= 0.874
1)
No se rechaza H 0 . No l1ay diferencia en el número medio de hamburguesas vendido en los dos lugares.
41. Ha:µ,= J.-L2 H1: µ1 ~ P-2 H 0 se rechaza si t > 2.819 o t <-2.819.
t=
(10 - 1)(2.33)' + (14 -- 1)(2.55)' 10+'14-2 -=6.06 15.87 - 18.~9
=
-2.374
~i6.06(ii0 + ~) 43.
i,0.375 - 5.6.~6
=
4.28
1) i15.672 ( -1 -r-. -\. 8 11 Se rechaza H 0 • El número medio de transacciones realizadas por los adultos jóvenes es mayor que el de !as realizadas por los adultos mayores. 45. Ha:µ,~ µ2 H1: µ1 > µ2 'i.a se rechaza si t > 2.650. = 125.125 s, = 15.094 s 2 = 19.914 2 = 117.714
x,
x
s2
=
(8 - 1)(15.094)' + (7 - 1)(19.914)' · 8+1-2
t
=
l_~S.1~5-: . ~17_._7,~
p
1+ ::¡1) V305.708\ S
47.
=
=
305.708
0.819
r
1
No se rechaza H 0 . No hay diferencia entre el número medio vendido a precio normal y el vendido a p1·ecio reducido. Ho: P"ci ~O Hl: µd >O Jj_ 0 se rechaza si t > ·1.895.
d=1.75
sd=2.9155
t
=
0.321
=
i ·75 . = 1 698 2.9155/\/8 .
No se rechaza Ha. No hay diferencia en el número medio de ausencias. El valor p es mayor que 0.05.
=
_:!2Q_~Q_
:1461'1 (30)'
=
-5.59
175 120 Se rechaza la hipótesis nula. Las medias poblacionales difieren. 53. H 0 : µd ~O H 1: µc1 >O 'i.a se r·echaza si t > 1.895. d '°" 3.li sd = 2.91
t=~~=3.02 2.91/ \18 Se rechaza H 0 . La medía es menor.
55. Las respuestas variarán 57. a) µ 1 =sin piscina ¡.1..:< "'°'con piscina Ho: µ, ""µ2 H1; µ, µ<. Se rechaza H 0 si t > 2.000 o t < -2.000 E'. 1 = 202.8 s 1 = 33.7 n 1 = 38 X 2 = 231.5 s 2 = 50.6 n2 = 67
*
(38 - 1)(33.7)' + (67 - 1)(50.6)' 38 + 67 - 2
s¿ =
(8 - 1)(2.2638)' + (11 ·- 1)(2.4606)' s~= 8+·11 -2 --5.672 =
-·---º=·º
H,:µ,-=F-µ2
z
No se rechaza H 0 . No hay diferencía en las cantidades medias gastadas. H 0 :·p, 1 ~ ¡.1.. 2 f-f,: µ 1 > µ 2 H 0 se rechaza si t > 2.567.
t
27 -·" 0.2661/ \/10
Si z no está entre -1.96 y i .96 se rechaza f-10 •
v' 1 s1.2969 110 + 12
S~=
=
No se rechaza H 0 • No se ha demostrado una disminución en Jas calificaciones.
1.23
--
49. HD: µ,d ,¿:_:o 1-11: f~d >o lj 0 se rechaza si t > 1.833. d = 0.027 sd = 0.266"1
202.8 - 23i .5
t~
=
2,048.6
·-3.12
+ _1_)
! 204s.s( 1\' 38
67
Se rechaza H 0 . Sí hay diferencia en los precios medios de ventas de casa con o sin piscina. b) J.-l 1 =sin garaje µ 2 =:con garaje Ha: µ1 = J.-l2 H,: µ1 rr µ2 Se rechaza H 0 si t > 2.000 o t < -2.000.
X,=
5( 2
=
i85.44 238.18
s¿ = t
S1 = =
s2
28.01 44.88
(34 - 1)(28.01)' + (71 - 1)(44.88)' =
103
=-}85.44-238.18
e------
i
' 1,620.25 ( 34 1
·-
=-
"1,620.25
628 .
1) + if
Se rechaza H0 . Sí hay diferencia en los precios medios de ventas de casa con o sin garaje. e) H 0: ¡.1..1 "" 1.1.. 2 H,: µ 1 =F V 2 §_e rechaza /-/0 si t > 2.036 o t < -2.036. ~ 1 = 196.91 S 1 =. 35.78 n 1 = i5
X 2 =227.45 '
s?.=44.i9
(15 - 1)(35.78)' + (20 - 1)(44.19)'
Sp = - · · - - - + 15
t=
n 2 =20
2o=-2- - - - · -
"196.92 ~ 227.45' i .. + 1--) ' , . . 15 20
.i~67 Ll3(-
\
=
=
1,66¡.43
-219 0
Se rechaza Ha. Si hay diferencia en los precios medios de ventas de casas en el municipio i o en el municipio 2.
800
~espuestas
d)
Ho:TI1""'1T2
a los ejercicios de cada capíl"lo con números impares e)
H1:'iT1 -=!=-TI2
Si z no está entre - 1.96 y i .96, se rechaza H 0 .
Pe
=
24 + 43 = 52 ·i- 53
z
= -·
fi (X 1 - X2)
o 6tt
0.462 ..- 0.8: i . \/0.64 X 0.36/52 + 0.64 X 0.36/53
=
-3.73
=
Se rechaza la hipótesis nula. Hay diferencia. P- 2 Hl: P·1 =F µ2 Si t no está entre - 2.052 y 2.052, se rechaza H 0 .
59. 1-1 0 :
p,1 =
s~= I'
i3.
(22 - 1)(3.54)' + (7 - 1 )(1.50)' 22+7-2 =iü.25
~2:.89 ~. "14.5~--=
=
= -
-¡ .22
Error Total
No se rechaza H 0 •
·1s.
9.0i, del apéndice G. Rechazar H0 si F > i 0.5, donde los gracias de libertad en el
numerador son 7, y son 5 en el denominador. F calculada= 2.04, resultante de: s~ (10) 2 F=-""'-=2.04 s~ (7) 2
5.
d)
Total
SS
g/
MS
F
2 9
31.08
21.94
74.92
11
2
MS
F
138.25 9.75
14.18
No se acepta H0 . No todas las medias de tratan1iento son las n1ismas. 11. a) H[): µ 1 :." p. 2 = µ 3 ; H 1 : No todas !as medias son iguales. b) Se rechaza H 0 si F > 4.26. e) SST = í 07.20, SSE = 9.47, SS total= i 16.67.
Tratamiento Error Total
(92)'
(219)'
-
6
(79)'
(219)' -·· '°' 76 6
+ -·2 - -
SS
gl
MS
F
107.20 9.47
2
53.600
50.96
9
1.052
116.67
11
gl
MS
F
204.167 76.000
43.75
2
9.333
2
204.167 38.000 4.667
SS
Total
289.5000
Ho: IJ.1 = l-~2""' IJ.3 H 1 : No todas las medias son iguales Se rechaza si F > 4.46
8.14
5
Hº: l-"1 ""µ2"" µ3 = ¡;,4 = !l.5 H 1 : No todas las medias son iguales Se rechaza si F > 3.84
Fuente
SS
gl
MS
F
Tratamiento Bloques Effor
62.53 33.73 43.47
2 4
31.2650 8.4325 5.4338
5.?5 1.55
Total
8
138.73
Hay diferencia en turnos, pero no por trabajador. a?.s crff; H1 : r;:¡2> r:r[. df1 = 2i -· 1 = 20; g/2 == 18 - í = 17. Se rechaza /-1 0 si F > 3.16.
19. H0 :
d) Fuente
3
43.75 > i 8.5, así que se rechaza H 0 . Hay una diferencia en los tratamientos. 8.i4 < i9.0, de modo que se falla al rechazar H0 por bloques. No hay diferencia entre los bloques. Para tratamiento Para bloques
¡---
276.50 87.75
13
f)
Se rechaza H 0 . No todas las medias de tratamiento son las mismas. H0 : µ 1 = µ 2 = p, 3 ; H 1 : No todas las n1edias de tratamiento son iguales. Descartai· H 0 si F > 4.26.
Tratamiento Erro1·
(127)'
Fuente
17.
gl
45.67 78.00
SST~--+3---~204.161
Tratamiento Bloques Error
1.42
SS
2.36
e)
62.17 12.75
¡:uente
F
10.77 4.567
SS total = 8 283 -.,. (219) 2/6 = 289.5 SSE = 289.5 . _ 204.167 - 76 = 9.333
e)
9.
MS
3 10
(77}' (63}' - +- 2 2
No se descarta H0 . No hay diferencia en las variaciones de las dos poblaciones. a) H 0 : µ, 1 "" µ 2 = p.. 3 ; H 1 : No todas las medias de tratamiento son las mismas. b) No aceptar 1-1 0 si F > 4.26. cyd)
¡:Llente
gi
SSB = -
(1 O)'
Tratamiento Error
SS 32.33
Debido a que 2.36 es menor de 3.71, se acepta H0 • No hay di'ferencia en el número medio de semanas. a) H0 : p..1 == ¡_1, 2 ; H1 : No todas las medias de tratamiento son iguales. b} Se rechaza H 0 si F > i 8.5 e) H0 : ¡..l 1 == ¡_1.. 2 == ¡_1.. 3 ; H1 : No todas las medias de bloque son iguales. Se rechaza H0 si F > i 9. O.
No se rechaza H 0 . No hay diferencia en las variaciones de las dos poblaciones. H0 : o}= crf H1 : o}'#- rr:f. Se rechaza H0 donde F > 3. iü. (3.1 O está casi a la mitad entre 3. í 4 y 3.07.) F calculada= 1.44, valor obtenido por:
(i 2) 2 F=--=i.44
7.
+ 1/5)
[5.777, 9:157]
Fuente
l)
3.
----
Sí, se puede concluir que los tratamientos i y 2 tienen medias diferentes. H 0 : IJ.1 == jJ.2 = ¡J.3 = tJ..4 ; H 1: No todas las n1edias son iguales. Se 1·echaza H0 si F > 3.71.
+ \!10 .2s( 122 7
i.
t viVISE.(i/n 1 + i/n 2)
::!:.
Tratamiento
CAPÍTULO 12
4.26, se rechaza H 0 . Al menos difiel"e
~(9.667-2.20)~2.262 \(fó52(1/3 = ? .467 =!:: i .69
..
.
>
Debido a que 50.96 una de las medias.
(45 600) 2 F=·---=4.57 (21 330}'
2·1.
Se rechaza¡..¡¡¡· Hay más variación en el prncio de venta de casas con vista al mar. Sl1arkey: n = 7 ss = 14.79 White: n=8 sw = 22.95
Respuestas a los ejercicios de cada capítulo con números impares H 0 : rr~, :s:: ff;; /-f1 : a~> d~,, =
a;. df5
33.
7 - 1 = 6;
=
8 - i "'7.RechazarH0 siF>8.26. (22.95)'
F~---=2.4-1
Cl4.79)'
35.
No se puede rechazar H 0 . No hay diferencia en la variación de las ventas semanales. 23. a) 1-!0 : ~l 1 ""¡.L2 "" µ,3 = µ 4 H 1: No todas las medias de tratamiento son iguales. b) a=:0.05 RechazarH 0 siF>3.iO. e) Fuente gl MS SS F
Tratamiento Error Total
50 200
4- 1 24 - 4
250
24 - 1 ~ 23
~
~
3 20
50/3
10
50/3 10
=
El valor crítico de Fes 3.49. La F calculada es 0.668. No se rechaza 1-1 0 . b) El valor crítico de Fes 3.26. El valor de la F calculada es ·100.204. Se rechaza H0 para medias de bloque. Para gasolina: H0 : µ 1 "'µ 2 ""' ¡.1.3 ; H 1: El n1illaje medio no es el mismo. Rechazar 1-1 0 si F > 3.89. Para automóvil: H0 : ~l 1 ""¡_;,2 ... ¡.1.7 ; 1-1 1 : El millaje medio no es el misn10. Se rechaza H[) si F > 3.00. a)
Tabla de ANOVA
1 67 .
d) No se rechaza f-1 0 • µ, "" p.. ; H ..,: No todas las medias de tratamiento son 2 3 iguales. Se rechaza H 0 si F > 3.89.
25. H 0 : µ 1 =
gJ
SS
MS
F
Tratamiento
2 12
63.33 28.40
31.667 2.367
13.38
14
91.73
Error Total
27.
Factor
Error Total
g/
SS
MS
F
29.26 3.21
9.12
3
87.79
20
64.17
23
151.96
g!
SS
NIS
F
2 6 12
44.095 77.238
22.048 12.873
26.71
9.905
0.825
Total
20
a)
en
15.60
autos, como en gasolina.
H 0 :~t 1 =µ 2 =~t 3 =µ 4 =µ 5 =~L6 ;H 1 :Lasmediasde
tratamiento no son iguales. No se acepta H0 si F > 2.37.
Se rechaza l-f0 . Hay una diferencia en las medias de tratamiento. /-ID: µ 1 = µ = µ """ µ ; H : No todas las medias son iguales. 2 3 4 1 Se rechaza H 0 si F > 3. í O.
Fuente
Fuente Gasolina Autos Error
Hay una diferencia tanto 37.
fuente
801
Fuente
gl
SS
MS
F
Tratamiento Error
5 58
0.03478
0.00696 0.0018
3.86
63
0.13917
Total
39. 41.
0.10439
Se rechaza H0 . Hay una diferencia en el "peso" medio de Jos colores. Las respuestas variarán. a) 1-1 0: al; = a~P; H 1: a$ st a/¡P. Se rechaza H 0 si F > 1.88 (estimado). gf1= 67- i = 66; gf2 :::038-1 ""37
(50.58)'
F~--~2.25
(33.71)'
Debido a que la F calculada de 9.12 es mayor que 3.10, la hipótesis nula de que no hay diferencia se rechaza al nivel de 0.05. 29. a} H 0: µ 1 "' µ 2 ; H 1: µ 1 +. µ, 2 . Valor crítico de F = 4.75.
Fuente Tratamiento Error Total b) /
~ r19 - 27
SS
gl
MS
F
219.43
219.43 9.5
23.10
114.00
1 12
333.43
13
Se rechaza H0 , hay una diferencia en la varianza de los dos precios de venta. b) H0 : aff = a,;g; H1 : a¿-=t- a}g. Se rechaza H[) si F > 1.93 (estimado).
(44.88)'
F~--~2.57
(28.00)'
Se rechaza H0 . Hay una diferencia en la varianza de los dos precios de venta. e) H 0 : ~~, = ¡.1.2 = µ 3 = ¡.1. 4 = µ 5 H,: No todas las medias de tratamiento son iguales. Se rechaza H0 si F > 2.50.
-4.81.
y95(~ + ~)
Fuente
Entonces t2 =-F. Esto es (-4.81'f = 23.1 O (en realidad 23.14; Ja diferencia se debe al redondeo) e) Se rechaza !-f0 • Hay una diferencia en las calificaciones medias. 3i. Para el color, el valor crítico de Fes 4.76; en el caso del tamaño, es 5.14.
Fuente
SS
g/
Tratamiento Bloques
25.0
3 2 6
Error
21.5 8.5 ~
Total
55.0
-
MS
F
8.3333 5.88 10.75 7.59 1.4167
11
Se rechaza H0 para ambos tratamientos y bloques (color y tamaño.) Al menos una media difiere para el color, y al menos una difiere en el caso del tamaño.
Municipio
Error Total
43,
SS
g/
MS
F
13 263
3 316 2175
1.52
217 505
4 100
230 768
104
No se rechaza H0 , no hay diferencia entre los precios medios de venta en los 5 municipios. a) 1-10 : p, 1 = p., 2, H 1: no tocias las medias de tratarniento son iguales. Se rechaza H 0 si F > 3.39.
Fuente
SS
gJ
MS
F
Tratamiento
70.21
35.11
4.10
Error
222.39
2 26
LTotal
292.60
28
8.55
No se rechaza H 0 . Los porcentajes medios son diferentes en las 1·egiones.
802
Respuestas a los ejercicios de cada capitulo con números impares b) H0 : µ,1 = ¡~; H1 : No todas las medias de tratamiento son iguales. Se rechaza H 0 si F > 3.39.
SS
g/
NIS
F
0.000046 0.003803
2 26
0.000023
0.16
0.003849
28
Fuente Tratamiento
Erro1· Total
7.
d) 0.76, encontrado por (-0.874) 2 e) Fuerte relación inversa. A medida que aumenta el rn'.1mero de agentes de policía, disminuyen los delitos. Se rechaza H 0 si t > 1.812. t
0.000i46
No se rechaza H0 . El PNB per cápita es igual en las regiones.
9.
=
29, iX 2
186, :ZXY
=
173, :SY 2
=
5(173) - (28)(29)
r=
=
175
=0.75
V[5(186) - (28)'][5(175) - (29)']
3.
Se rechaza H0 . Existe una correlación positiva entre los galones vendidos y el precio de la bomba. 1·1. a} Y'= 3.7671 + 0.3630X
b ~ 5(173) - (28)(29) ~ 0.3630 5(186) - (28)'
El coeficiente O. 75 indica una correlación positiva más bien fuerte entre X y Y. El coeficiente de determinación es 0.5625, obtenido por (0.75) 2. Más de 56% de la variación en Y se explica por medio de X. a} Ventas. b) y
w
D
Iw e"'
30
'
10
b) Y' "1.333 + 0.667(6) 15. a)
2 3 4 5 6 NL1me1u de anuncios
5(376) - (20)(85)
r ~ -V=;[5=;(9=;0=;)=_=;(2=;0=;)'1=;15=;(1=;5;::95;;)=-=;(8;::5~)'1
ro
·¡:¡ e
ro e ro
0.93
5
3.7671
~
5.333
•
o
' • ••
o 1o
20 30 40 50 60 70 80 90 Ventas
12(3 306.35) - (501.10)(64.1)
~
V[i2(28 459) - (501.10)'][12(458.41) - (64.1)'] e} r2 = (0.673) 2 = 0.4529 d) Una fuerte asociación positiva entre las variables. Cerca de 45% de la variación en ganancias se explica por medio de las ventas.
w
~
ü
e) b
~
a
=
6.0 12.0
16.0
20.0
24.0
28.0
f)
Policía
LX= 146, l:X 2
=
2 906, :BY= 95, 2:Y 2 = 1 419,
yLXY= 1 502 r
~
•
(')
18.0
e) n = 8,
28 S
10
b) r
'~
(0.363)
w
d} El coeficiente de determinación es 0.8649, obtenido por (0.93)'. e) Existe una fuerte asociación positiva entre las variables. Cerca de 86% de \a variación en las ventas se explica por el número de paseos. a) La acción policíaca es la variable independiente, y la delictiva es la variable dependiente.
ro e ro 12.0
-
b~ 10(718)-(91)(74) ~0.667 10(895) - (91)'
e) n = 5, :?:X = 20, 2:X 2 = 90, LY = 85, ¿:y2 = i 595, y :SXY = 376, entonces:
5.
5
a~~~ - 0.667(~~) = i .333
• •
'
o
>
-
b) 6.3081, encontrado por Y' =3.7671+0.3630(7)
13. a)
w .92 20
29
a~
.~~e~~~~~~~~'
2'
m -O
> 2.552. Se tiene que
o.78V20=2 1 - (0.78)' ~ 5.288
t~
2'.X = 28, :ZY
~32)'
No se rechaza H 0 • H 0 : p ~O; H 1 : p >O. Se rechaza H 0 si t gl ~ 18.
CAPÍTULO 13 1.
0.32\112 - 2
- - - · - = · = i .07
~
~
8(1.502) - 146(95) -----·--------\i[8(2,906) - (146Í'J[8(1.419) - (95)'1
;=
-0.874
17.
12(3 306.35) - (501.1)(64.1) 12(28 459) - (501.1 f 12· ~. - O.0836(
64
5
Y' = 1.8507 dólares)
+ 0.0836(50.0)
a) b =
º.:L:!..QJ' 12
8(1502) - CI 46)(95) ·
8(2906) - (146)'
- =
~
0.0836
= i . 8507 =
6.0307 (en millones de
-0.9596
95 1 6 - (-0.9596)( ~ ) = 29.3877 a= 8 b) i O. i 957, encontrado por 29.3877 - 0.9596(20) e)
Para cada agente de policía que se agregó, la actividad criminal baja en casi uno.
803
Resp"es!as a los ejercicios de cada capitulo con números impares
19.
Existe una relación inversa entre las variables. A medida que aumentan los meses de posesión, disn1inuye el nllmero de horas de ejercicio.
(175 - 3.767(29)="""6:363(l73) - - - - - 5::_ 2 = 0.993
.,¡
b} Y' ± 0.993
21. aj
10
10(313) - (65)(58)
bJ r ~
(584-=-G33[14f~IDIBt(RS) \/ _ - 0.898
·-~--
\1[10(523) - (65)'][10(396) - (58)'] = -0.827. e) H : p ;;-~ O; H1: p < O. Se rechaza H0 si t < -2.896. 0
2
23.
t
Entonces, (0.8944) 2 = 0.80, el coeficiente de determinación.
3i. a) r2 =i000/1500=0.667 b) 0.82, encontrado por -\!0.667 e) 33.
6.20, encontrado por s
H 0: p 'iS O; H 1: p >O. Se =
=
re~aza
0.94
t
Y ·x
\
6
/
15
25-2 2
39.
=
50 450
1
23
50 19.5652
2.5556
Error
500
24
Total
b) n = 25 e) sy.x = \!f9.5652 = 4.4233 d} r2=2º_=010 500 . 45. a) n=15,2X=107,2:X 2 =837,:.ZY=118.6, LY 2 = 969.92, LXY= 811.60, sy·x = ·1.114
a=
= i3.2i3
11.2358 - 0.4667(7.0)
7.9689 ce (2.160) (1.114)
~
1¡
11 .2358
7.9689 · - - - - - -2
¡-------1
\1
=
(7 - 7 .1333)
+--+~----
15
(107) 2 837-15
7.9689 je 2.4854 [5.4835, 10.4543] d) r 2 = 0.499. Cerca de 50% de 18 variación en ef monto de la ofelia se explica por el número de postores.
47. a}
i5
9
0.589\!10=2 =
~
118 6 107 · - (-0.4667)( ) 15 15
~
-0.45 ,13()::2 \11 - 0.2025 = - 2 ·67
= ~0.589)2
e)
y•
15(811.60) - ('107)(1.13.6) ~ -0.4667 15(837.0) - (101)'
~
i\Jo se acepta H 0 . Existe una correlación negativa entre el precio de venta y el número de millas recorridas. a) r= 0.589 b) r 2 = (0.589) 2 = 0.3469 e) HCJ: r ~O; H1 : p >O. Se rechaza HCJ si t'> í .860.
t
F
b
No se rechaza H0 . No hay una correlación positiva entre el tamaño del motor y su funcionamiento. El valor p es mayor que 0.05, pero menor que 0.1 O. H0 : p ~O; H1 : p
t
MS
-
0.47\/12 - 2 v1 -(0.47f ~ 1.634
37.
gl
Regresión
b)
35.
-4.16
(-0.827)'
Fuente SS -----·
2
Se rechaza HI}. Existe una correlación positiva entre pasajeros y peso del equipaje. H 0 : p '-%O; H1 : r >O. Se rechaza H 0 si t > 2.764.
y¡-c::
43. a)
H0 _si t > i.714.
\/i -(o. 94l
-0.827 V10="2
Se rechaza H 0 . Existe una asociación negativa entr'e los meses de posesión y las horas de ejercicio.
,--(i-5.6f
~
(3.182)(.993) /0.2 + - · - - V 186 ·- (784/5) = 6.308 :!:: i .633 ~ [4.675, 7.941] b) 6.308 ~ (3.182)(.993) vT+ 1/5 + 0.0671 ~ [2.751, 9.865] 27. a) [4.2939, 6.3721] b) [2.9854, 7.6806] 0.8944 (5)(340) - (50)(30) 29. r = = .8944 Vl(5)(600) - (50)9[(5)(200) - (30)'] 25. a) 6.308
=
4
• 600
2.062
700
800
900
Distancía
41.
Se rechaza H0 . Existe una asociación positiva entre el tamaño de la familia y la cantidad gastada en comida. a)
12 10
"'o
"'
I
Parece 11aber una relación entre las dos variables. A medida que aumenta la distancia, también lo hace el tiempo de embarque. b) r = 0.692 H0 : fl ~O; H1 : p >O. Se rechaza H0 si t > 1.734.
8
0.6921/20 - 2
6
vT~ (0.692)'
4
Se rechaza H 0 . Existe una asociación positiva entre la distancia de embar·que y el tiempo del mismo. e) r2 =O. 0.479. Casi la mitad de la variación en el tiempo de envio se explica por la distancia de embarque.
2 2
4
6
8
Meses
10
12
4.067
804
Respuestas a los ejercicios de cada capítulo con números impares
el) s'""'
49. a) b=
8
=
~
·1 550 - (=7.126)(168) - 0.0214(125 o5Tf \ / -··· 20=2---··--
~
1.987
30(18.924) - (320.33)(1575.6)
e)
t
=241 .
30(4292.5) - (320.33}'
Se rechaza
i 575.6 _ 2 4 .1(320.33) ~ 26 8 30 .f 30 .
5 057.6
76s2. 7
en el precio es explicada por el dividendo. e} r=-V(ü.658)=0.811 J-./ 0 :p~O H 1 :p>O Al nivel 5% serechazaH 0 sit > 1.701
t
51.
V3o--"2 - = Vi- (0.811)'
0.811 =
7.34
Por tanto se rechaza H 0 . La correlación poblacional es positiva. a) La respuesta variará de acuerdo con el número de casas disponibles y sus precios. En este momento hay 14 casas disponibles que satísfacen Jos requerimientos. La correlación entre el número de baños y el precio de la renta es 0.668. Ha:p~O
H. 1:p>O
> 1 .782
Se rechaza Ha si t
t
~
0.668 \!14-=-2 v1
3.11
(0.6681'
Se rechaza H0 . Hay una correlación positiva entre los baños y el preclo de la cabaña. b) La ecuación de regresión es Y'= 758 + 347X. El precio por semana aumenta casi $350 por cada baño. e} Ha: p ~O H 1 : p >O Se rechaza H0 si t > i. 782
t =
53.
0.085 \/14 - 2 ~085)'
H 1 : p >O
Al nivel 5%, se rechaza Ha si t
t=
'
> 1.701. . = 3.04
(0.498)'
Se rechaza H 0 • La correlación poblacional es positiva. La ecuación de regresión es Juegos ganados= 69.4 + 0.203 x Salarlo. Un aumento de $5 millones aumentaría el número de juegos ganados en 1.0i 5, obtenido de 0.203(5). b) La correlación entre juegos ganados y ERA es -0.66, y entre juegos ganados y promedio de bateo es 0.357. El ERA tiene una correlación más fuerte. Los valores críticos de t son - i .701 para ERA y 1.701 para el promedio de bateo.
t
=
ERA
t
t
=
0.668 \/94 - 2 .
\li - (O. 668)'
= 8.61
Se rechaza H0 . Hay una significante correlación positiva entre asistencia y aprobados.
-·0.66 v:ío -· 2 \/i - (-0.66)2
\("1 -- (-0.357}2
1. a) Ecuación de regresión múltiple. b) La interpretación Y. e) Y' ~ 64 100 + 0.394(796 000) + 9.6(6 940) -11600(6.0)4374 748. 3. a) 497. 736, encontrado por Y'~ 16.24 + 0.017(18) + 0.0028(26 500) + 42(3) + 0.0012(156 000) + 0.19(141) + 26.8(2.5)
b) 5.
Dos actividades sociales más. El ingreso añadió sólo 28 al índice; las actividades sociales ag1·egaron 53.6.
a) 19 b) 3 e) 0.318, encontrado por 2"1/66
el) i .732 resultado de
'
7.
-4.65
Fuente
Error Total
•
C4s-·
~
----
[19-(3+1)]
a)
Regresíón
0.357¡/30=2 . =------=202 ball
Hw La correlación poblacional es positiva.
CAPITULO 14
0.498 ¡/30.:c;>
Vi -
·- = 3.21
..
¡/1 - (0.519)'
= 0.296
~-
No se rechaza H0 • Se puede concluir que hay relación entre el número de personas y el precio. a} La correlación de Pearson entre el número de juegos ganados y el salario"" 0.498
H0 : p ~O
o.519 y30 - 2
estudiantes en el sistema es explicado por la variación en el porcentaje de familias que recibe asistencia social. Por cada aumento de i % en el porcentaje de familias que recibe asistencia social. puede esperarse un aumento ele aproximadamente 392 estudiantes en el sistema. Los sistemas escolares mayores tienen porcentajes más altos de estudiantes con asistencia social. En un sistema con i 0% de estudiantes con asistencia social puede esperarse que haya 3 218 estudiantes. El intervalo de confianza de 95% va de 2 559 a 3 876. E! intervalo de predicción del 95% va de ~2 691 a 9 i 27 estudiantes. Es claro que los puntos extremos del intervalo de predicción no pueden se1' menores que cero b) La variable independiente que se refiere a la tasa de asistencia explica 44.6% de la variación en el porcentaje de estudiantes que aprueban el examen global de conocimientos. La ecuación de regresión es Y' = - 718.7 + 8.235X. Un aumento de 1 % en el porcentaje de asistencia dará como resultado un incremento de 8.235 en el porcentaje de alumnos que aprueban el examen. En un sistema escolar con una tasa de asistencia de 90% puede esperarse una tasa de aprobados de 22.45%. En intervalo de confianza d8 95% va de 12.22 a 32.68% y el intervalo de predicción de 95% va de-0.22 a 45.12%. e) H0 : p ,,,; O H1 : p > O Se rechaza H 0 si t > 2.326.
0.658 Por !o que 65.8% de la variación
=
=
55. a) La ecuación de regresión es Y' = -699.2 + 391 .7iX. Cuarenta y tres por ciento de la variación en el número de
La ecuación de regresión es: Precio= 26.8 + 2.41 x dividendo. Por cada dólar más de dívidendo el precio aumenta $2.41.
b) r 2 =
Por tanto se respaldan an1bas conclusiones. La correlación entre juegos ganados y asistencia es 0.519. H 0 : p ~ O f-/ 1 : p > O Al nivel 5% se rechaza Ha si t > 1.701.
SS
gl
MS
F
7 500.0
2 500 138.89
18
2 500.0
3 18
10 000.0
21
b) Ho: 131 = !32"" ¡33 =0; H1: No todas las ¡3 son O. Se rechaza H0 siF>3.16.
Respuestas a los ejercicios de cada capítulo con números impares
e)
Se rechaza H0 . No todos los coeficientes de regresión neta son iguales a cero. ParaX1 : ParaX9 : ParaX3 :
H0 : P1
=
H1:f~1*-0
t
=
H0 : fl:i = o H.1:f33i=O t = --3.00
H0 : /3 2 ;; O H1:/32=FO t = 1.50
O
-4.00
Se descarta H0 si t ~> 2.101 o t < -'2.iOí. Se suprime la variable 2, y se guardan 1 y 3.
9. a) n=40 b) 4 750
e) R 2 = - - = 0.60
·1 250 d) sy. 1234 = -vsoo;35 e) 1-1º: P1 = /32 = /33 =
=
134
3.7796 = ü
H.,: No todas las p son iguales a cero. S8 rechaza H0 si F > 2.65.
F~
75
ventas ciudad
0.808. 0.872 0.639
0.537 0.713
0.389
La magnitud de la fuerza de ventas (0.872) tiene correlación máxima con los autos vendidos. Existe una relación bastante fuerte entre la ubicación de la distl'ibuidora y la publicidad {0.7"13), lo cual podría ser un problema. b) La ecuación de regresión es: Y'= 31. ·1323 + 2.i 516pub/ + 5.0l 40ventas + 5.6651 ciudad Y' ~ 31.1328 + 2.1516(15) + 5.0140(20) + 5.6651 (1) = 169.352. 1-1 0: [3 1 ""í\ = )3 3 =O; H1: No todas las j3 son O. Rechazar H0 si F calculado> 4.07.
0/'1_~13.125
1
Análisis de varianza
500/35
de regresión no es nulo. Se rechaza H0 en cada caso si t < -2.086, o bien t > 2.086. Deben suprimirse X1 y X5 .
13. aj $28 000 SSR
autos publicidad 11e11taj publicidad
cj
Se rechaza 1-10 • Al menos una 13; no es igual a cero. ii. a) n=26 b) R2 = "100/140 = 0.7143 e) i.4142, obtenido por \12 dJ H,: ~' ~ P, ~ P, ~P.,~ P, ~·o 1-1 1 : No todas las b son cero. Se rechaza 1-1 0 si F > 2.71. F calculada= 1 O.O. Se rechaza 1-1 0 . Al menos un coeficiente e)
805
SS
gl
MS
5504.4 420.2
3 8
1834.8 52.5
5924.7
11
Fuente Regresión
Error Total
F = 1 834.8/52.5 = 34.95. Rechazar H0 . AJ n1enos un coeficiente de regresión no es O. d) Se descarta H0 en todos los casos si t < -2.306, o si t > 2.306. Publicidad y fuerza de ventas deben ser· retenidas, y la ciudad, descartada. (Nótese que al eliminar lo de la ciudad se suprime el pr·oblema de multicolinealidad.)
3 050
b) R2 = - · - - ~ - - - = 0.5809 SStotal 5 250 e) 9.199, encontrado por \/84.62. d) 1-1 0 no se acepta si F > 2.97 {aproximadamente)
1
i 016.67
F calculado=-..- - - = 12.0i
Predictor
Coeficiente
Desv est
relación-t
p
Constante Publicidad Ventas Ciudad
31.13 2.1516 5.0140 5.665
13.40 0.8049 0.9105 6.332
2.32 2.67 s.5-1 0.89
0.049 0.028 0.000 0.397
84.62
·1s.
Se rechaza 1-1 0 . Al menos un coeficiente de regresión no es cero. e) Si el valor t calculado está a la izquierda de -2.056, o a la derecha de 2.056, se rechaza la hipótesis nula en cada uno de estos casos. El t calculado para X 2 y X3 excede al valor crítico. Por tanto, Jos conceptos "población" y "gastos de publicidad"_. deben retene1·se y descartar el de "número de competidores", X 1 . a) La co1Telación más fuerte está entre GPA y legal. No hay problema Con la multicolinealidad. 4 3595 b) R2 = · = 0.861 O
e)
Y' = 25.2952 + 2.6187pub + 5.0233ventas
F~ .4
532
0:1407
~ 10328 .
Parece que sólo el prorriedio de calificaciones (GPA) es importante._Se.pueclen eliminar expresión oral y matemáticas.
42061 e) R2 = 5.0631 = . O. 8307 . .
R2 Se ha reducido Sólo en 0.0303. t)
Los residuos parecen ligeramente sesgados (positivo)_. pero son aceptables. g) Parece no haber problema con la gráfica. 17. a} La matriz de correlación es:
Coeficiente
DesvEst
relación-t
Constante Publicidad Ventas
25.30 2.6187 5.0233
11.57 0.6057 0.9003
2.19 4.32 5.58
Ariá!isls de varianza
~
.
Al rnenos un coB"liciente nó es cero. d) Se rechaza cualquier 1-10 s! t < -2.571, o bien t > 2.571.
Preclictor
)
5.0631 e) Se rechaza H0 si F > 5.41. 1
La nueva salida es:
t)
SS
.~-gl_ _ _M_S--1
Regresión 1·
5462.4 462.3
2 9
otal
5924.7
11
Tallo y hoja Hoja unidad= 1.0
1 1 2 5 (5) 2
-1 -1
6
-o 5 -o 110 o om4 o 58
La hipótesis de normalidad es razonable.
273·1.2 51.4
806
Respuestas a los ejercicios cie cada capítulo con nl!merns impares g)
en 1200 -
•
©
8.0
>-- o.o >- -8.0
ro=o
•
•
o ••
D
"ifj
•
a: '" -·1200
1
'
' •'
•
.
• '
•
•
-16.0 2000 3000 4000 5000 6000 7000 105 120 135 150 165 180 Y'
Y' 21.
a) La matriz cie correlación es:
Para esta muestra pequeña el 1·esu!tado es aceptable.
Salario
i9. a) La ecuación de regresión es Y'= 965.3 + 2.865X1 + 6.75X2 -:-- 0.2873X3 Y' ~ $2 458 780
GPA
0.902
Administración
0.911
GPA 0.851
b) Las dos variables independientes están relacionadas. Puede haber multicolinealidad. b) La ecuación de regresión es: Salario= 23.447 + 2. 775 GPA + 1.307 Administración. Por cada aumento de un punto en el GPA, el salario aumenta $2 775. Un egresado promedio de una escuela de administración gana $1 307 n1ás que una persona coi-respondiente no egresada de una escuela de administración. El salario estimado es $33 079, lo que se obtiene de $23 447 + 2 775(3.00) + i 307(1 ).
Análisis de varianza
SS
g!
IVJS
45510096 12215892
3 12
15170032 1017991
57725984
15
Fuente Regresión
Error Total
F- 15170032 -· 14 .902 1Di7991 Se rechaza H0 porque el valor F calculado de 14.9, es mayor· que el valor crítico de 3.49. Al menos uno de los coeficientes de regresión no es cero. e} H0 : ¡3 1 = O H0 : ¡3?. = O H0 : j3 3 = O H 1:¡3 1 +0 H1 :¡3 2 +0 H 1 :¡3 3 7"-0 Se rechazan las H0 si t < -2. i 79, o bien t > 2. i 79. Los trabajadores y los dividendos no son variables significativas, y el inventario sí lo es. Suprímanse los dividendos y vuélvase a correr el análisis. d) La ecuación de regresión (si se usaX 1 y X 3)
Y' Predictor
=
1134.8 + 3.258X1 + 0.3099X3 Coeficiente
DesvEst
Constante 1134.8 Trabajadores 3.258 lnv 0.3099
2.71
1.434 0.1033
2.27 3.00
e)
SS
gl
MS
F
Regresión Error
45 070 624
22 535 312
23.15
12 655 356
2 13
Total
57 725 968
15
Hisbogram of Cl2 fli:idpo.int -1500 -1000 -500
21.187
= ---" =
23.857
0.888
Para realizar la prueba global: Ha: ]3 1 = ]3 2 "" O f-! 1 : No todas las ]31 son iguales a O.
Al nivel de significancia O.OS, H0 se rechaza si F > 3.89.
Fuente
g!
se
CM
F
p
Regresión Error
2 12
21.182 2.676
I0.591 0.223
47.50
0.000
Total
"!4
23.857
Predíctor
Análisis de varianza
Fuente
R2
El valor ele F calculado es 47.50, por lo que H 0 se rechaza. Algunos de los coeficientes de regresión y R2 no son cero. d) Como el valor p es menor que O.QS no hay necesidad ele eliminar variables.
Relación-t
418.6
e)
Coef
Constante 23.447 GPA 2.775 Administración 1.3071
CoeÍ SE
T
p
3.490 1.107 0.4660
6.72 2.51 2.80
0.000 0.028 0.016
ej Los residuales parecen estar nonnalrriente dlst1·ibuidos.
973 489
-·
Histograma de los residuales (la respuesta es salario)
.
j\T =
Counl· J. 3
16
***
l
o
6
*****"~
500 1000 1500 2000
2 2
** H
o 1
La suposición de normalidad es razonable.
-1.0 -0.8 -0.6 -0.4 -0.2 Residuales
o.o
0.2 0.4 0.6
807
Respuestas a Jos ejercicios de cada capítulo corn núrneros impares f)
La varianza es la misma conforn1e se va ele valores pequeños a valor·es grandes. Por tanto no hay p1·oblena de homoscedastícidad.
,O.o
Pr.edictor Constant Beclrooms
Coe.f
SJ? Coef
Size
38. '71 7.118 0.03800
3 9. 02 2.551 0.01468
Pool
J.8.321 -0.9295
6.999 0.7279
35.810 23.315
7.638 9.025
Distance
o.o
r
Garage Baths
'-
¡¡j UJ
o:
-.Q.5
e
s
=
33.21
R-Sq =
53 .2%
p
T 0.99
0.324
0.006
2.79 2.59 -1.28
O. OJ.1 0.010 0.205
'l. 69
0.000
2.62
o. 011
2.58
R-Sq
(adj)
= 50.3%
Analysis of Variance
·-1.0 ~--L.__~---~
32
33
34
Source Reg"!;·ession
35
R.es.i.dua.l El:"ror
FITS2
Total
23, La salida de cOJnputadora es Coel:
Stdev
t-ratio
651.9 13. '122 -6.71.0 205.65 -33.45
345.3 5 .125 6.349 90.27 89.55
1.89 2. 62 -1.06 2.28 -0.37
Predictor
Constant Service Age Gender Job
p 0.071 . 015 0.301 0.032 0.712
J\.nalysis of Variance SOURCE
DP
SS
NS
Regression Error
4 25
1066830 1398651
266708 55946
Total.
29
2465481
"~
F 77 . -
p O 005 .. - - [
______J
a) Y' ""651.9 + i 3.422X1 - 6. 7iOX2 + 205.65X3 - 33.45X4 b) R 2 = 0.433, que es un poco bajo para este tipo de estudio. e} H0 : ]3 1 = ]3 2 = 1)3 = ]3 4 =O; H 1 : No tocias las b son iguales a cero. Rechazar H0 si F > 2.76.
1 066 830/4 4 7 F = --:¡ 398 651/25 = .7 Se rechaza H0 . No todas las J3; son iguales a o. d) Usando el nivel de significación de 0.05, se rechaza la hipótesis de que el coeficiente de regresión es O si t < -2.060, o bien t > 2.060. Servicio y género sexuai deben permanecer en el análisis; edad y t1·abajo deben eliminarse. e) A continuación se presenta la salida de computadora, utilizando las variables independientes servicio y género sexual. P_redictor Constant Servi.ce
Gender
Coef 184..2 9.021 224.'ll
St:dev
t-rat.io
316.8 3.106 87.35
p 0.020 0.007 .016
2.48 2.90 2.57
DF SS 6 122676 98 108092 104 230768
JiIS
F
204'16
18. 511
pi 0.000
1
1103
_J
a) Por cada recámara más el precio ele venta aumenta $7 000 aproximadamenie, por una piscina, $18 300, por un garaje $35 800 y por cada n1illa que la casa se aleje del centro de la ciudad el precio baja $929. b) El valor de R cuadrada es 0.532. e) La matriz de correlación es la siguiente.
Prncio Recámaras Tamaiio Piscina Distancia Garaje Recámaras
0.467
Tamailo Piscina Distancia Garaje Baños
0.371 0.294
-0.347 0.526 0.382
0.383 0.005 -0.153 0.234 0.329
0.201 -0.117 -0.139 0.083 0.114 0.024 0.055
-0.359 -0.195
[
0.221
La variable independiente, garaje. es la que tiene la correlación más fuerte con e\ precio. La distancia está relacionada inversamente, como se esperaba, y no pa1·ece haber ningún problema de correlación entre las variables independientes. d) E! resultado de la ptueba global sugie1·e que algunas de las variables inclependíentes tienen coeficientes ele regresión neta diferente de cero. e) Se puede eliminar distancía. f) Los nuevos resultados son: Frediccor Constant Bedroorns
Síze Po o J.
Coef
17.0l 7.109 0.03919 19.110
SE Coef
3 5. 2Ll 2-. 559 0.01470
T . 48 2.80
2.67
Garage
38.847
7.281
2.73 5.34
Baths
24.624
8.995
2. 7'1
6. 994
n
3 º0.006 6
.
0.009 0.007
o. o o o 0.007
Analysis of Var i.ance SOURCE
Regress.i.on EJ:TDl:
Total
DF 2
SS
1•iS
P
998779 499389 9 .19
27 l!J.66703 29 24651±81
54322
p O. 001
__J
-
Un hombre gana $224 (dólares) niás por mes que una mujer. La diferencia entre trabajos de oficina y técnicos no es significativa. 25. Las respuestas variarán conforme varíe el precio de la 1·enta. 27. Un programa de cómputo da los siguientes resultados.
Aí revisar los valores p de los diversos coeficientes de Reg1·esión, se encuentra que todos son menores que 0.05. Se dejan todas las variables independientes. g) y !1) El análisis de residuales, que no se muestra, indica que la suposición de norn1alidad es razonable. Además no hay un patrón para los puntos de los residuales y los valores ajustados ele Y 29. a) La ecuación de regresión es: Empleo= 248 - O:l4tl
808 Área+ 0.356 Población+ 2.63 Producción interna+ i 555 G7 + i0.2 Energía. E! empleo aumenta conforme aumentan, tanto la producción interna como el consumo de energía. Además el empleo es mayor en el G7 que en otros países. El en1pleo disminuye confo1me el área del pais aumenta. b) R 2 = 0.996 Estas cinco variables independientes explican casi toda la variación en el empleo. e) La matriz de correlación es la siguiente.
[
Arna Are a !)oblación Pob!. int.
G7
0.506 0.992 0.938 0.639
Energía
0.949
Población
Pobl. iíl!.
0.902 0.625
0.614
0.923
0.925
67
{47 - 40) 2
x2=-----+. . + 40
9.
0.49"1
0.482 0.382 0.599
Hay problemas con la muiticolinealidad. Energía, población y producción interna están fuertemente correlacionadas. d) Para realizar la p1·ueba global: f-1 0 : 1) 1 = ¡12 "" ¡13 == ¡34 = ~ 5 =O; 1-1 1: l\\o todas ias f:I¡ son cero. Ai nivel de significancia 0.05 se rechaza H 0 si F > 2.64.
Fuente
gl
SS
r>JJS
Regresión Erro1·
5 23
20 605 387 329 73 320 535
4121 077 466 3 "187 849
Total
28
20 678 707 864
F -¡
292.75
(30 - 24)'
i3.
(20 - 24)'
(1 o - 12)'
x'~-~+- 24 -+·--12-~2.50
e) No se rechaza H 0 .
H0 : Las relaciones proporcionales son como se establecieron; H,: Las relaciones p1·oporcionales no son como se cÓnsideraron. Rechazar H 0 si x2 > í í .345.
x2 0.554
3.400
No se rechaza H 0 • No hay diferencia en las relaciones proporcionales. a) Rechazar H0 sí x 2 > 9.21 O.
bí ii.
(34 - 40) 2 40
=
(SO - 25)' 25
(160 - 275)'
+ - - - - = 1·1s.22
+
275
Rechazar H 0 . Las relaciones proporcionales no son como se estabiecie1·on. H0 : La distribución es de tipo normal. H 1 : No hay distribución normal. Rechazar H0 si x2 > 1i .070.
p 0.000 1
_J
El valor calculado de Fes í 292. 75, por lo que se rechaza
1--fo· Algunos de los coeficientes de regresíón no son cero. e) Area y G7 se podrían eliminar debido a que su vaior p es muy alto.
Predictor
Coef
Coef SE
Constante Área
247.7 -0:1438 0.35594 2.63"i6 1555 10:178
460.3 0.1630 0.01808 0.6436
Población Interno
G7 Energía
T 0.54 -0.88
p
1047
4.09 i .49
0.596 0.387 0.000 0.000 0:151
3.110
3.27
0.003
19.69
15,
.
x' 2 = 17.
f)
La ecuación de regresión es: Empleo= 207 + 0.365 Población+ 2.96 Interno+ 8.14 Energía. g) Los residuales no pa1·ecen estar distribuidos norn1almente. h) La varianza es mayor confo1·me se va de los valores pequefios a los grandes. De manera que hay un p1nblema de homoscedasticidad.
a) 3 h) 7.815 a) Se rnchaza H0 si x 2 > 5.991.
(1 o
.
b)
x2
"°'
- 20)'
20
(20 - 20)'
+
20
+
(30 - 20)' 20
- 1 o.o
No se acepta H 0 . Las relacíones proporcionales no son iguales. H,· Los resultados son los mismos; H,r Los r·esultados no so• los mismos. Se mchaza H0 si x 2 > 9.236
x2 =
7.
(3 -
5) 2
- --
5
+·
= 7.340
No se rechaza H 0 . No hay relación entre el tamaño y la sección leída. H0 : No hay relación entre las tasas de error y el tipo de artículo. H 1 : Hay una relación entre \as tasas de error y el tipo de artículo. Se rechaza H0 si x 2 > 9.21.
x2
(20 -· 14.1)'
= -~
(225 - 225.25)'
+ ... + --225.25--
= 8.033
No se rechaza H0 . No hay relación entre las tasas de error y el tipo de artículo.
i9.
H0 :TI 0 =0.50,r.,=Tie=0.25.
Vuelta
e}
5.
(170 - 157.50)' (88 - 83.62)' + ···+ 157.50 83.62
------
H 1 : La distribución no es como se indica antes. gl ""· 2. Se rechaza H 0 si x2 > 4.605.
GAPÍTUW15 3.
x2 calculacla = 0.469. No se rechaza la H 0 de que la distribución es normal. H0 : No hay relación entre el tamaño y la sección leída; H 1: Hay una relación. Se rechaza H0 si x 2 > 9.488.
(7 - 5)2
+ -·-- · 5
=
7.60
No se rechaza H 0 . No se puede rechazar la H0 de que los resultados son iguales. 1-1 0 : No hay diferencia en las relaciones proporcionales; H.: Hay una diferencia en las 1·elaciones proprn·cionales. R~chazar H 0 si x 2 > 15.086.
f,
f8
Recto Derecha Izquierda
112 48 40
·100 50 50
Total
200
200
fo -
fe
{fo -
fe}2Jfe
·12
1.44
-2 -10
0.08 2.00 3.52
No se rechaza H 0 . Las relaciones proporcioÍlales son como se indican en la hipótesis nula. 21. H[}: No hay preferencia con respecto a los canales de T\/. H 1 : Hay p1·eíerencia con relación a los canales ele TV. gl = 3 -· i = 2. Se rechaza H0 si x 2 > 5.991.
809
Respuestas a los ejercicios de cada capítulo con números impares
Estación de Ti!
'"
WNAE
23.
fa -
(!G - f~)2
fe
53 64 33
50 50 50
3 M -17
150
150
o
WRRN WSPD
f,
(f,, - f8 )2}f8
0.18 3.92
9 196 289
·-- ·-- - -
-9.88
Noreste 68 Oeste medio 104 Sur 155
Oeste
-400
-
1.6071
---
o
5.9339
No se rechaza Ho- La distribución de destinos de pedido (u orden) refleja la población. 25. H 0 : TI 0 =: 0.40, Ti1 = 0.30 'IT2 = 0.20 'IT 3 = 0.1 O H 1: Las proporciones no son como se dan. Rechazar H 0 si x2 > 7.815.
Accidentes
t,
t,
1 2 3
46 40 22 12
48 36 24 12
-· o
-120
Total
27.
(f0
-
f8 f/f8
0.167
300 - 1
-0.694 -
x2
(fa - ¡8¡2
r,
t,
$5.50 a$ 6.50 6.50 a 7.50 7.50 a 8.50 8.50 a 9.50 9.50 a 10.50
20 54 130 68 28
0.0582 0.2194 0.3741 0.2630
17.46 65.82 112.23 78.90
0.370 2.123
0.0853
25.59
0.227
Total
300
---
---
2.814
1.506
l.040
Se rechaza H 0 • No se puede concfuir que la distribución es normal. H0 : Los niveles de ge1·encia y Ja preocupación con respecto al ambiente no están relacionados. H.,: Los niveles de gerencia y la preocupación por el medio ariiblenta! están relacionados. Rechazar H0 si x2 > 16.812.
·
2.178 3.803 0.450 0.200
7.2
-6
-7.236
72
4
5
Total
9 6
8 12
7
11
18
18
3 13
67
15
20
25
29
16
105
(13 - 10.21)' 10.21
6.680
3
(9 - 5.43)'
=
--s.:¡-3- +
+
38
No se rechaza H0 • No hay relación entre piscina y municipio. H 0 : No hay relación entre cochera anexa y municipio. H.: Hay una relación entre cochera anexa y municipio. S~ rechaza H[) si->(> 9.488.
2
3
4
5
Total
9
5 15
10 15
9 20
4 12
34 71
15
20
25
29
16
105
Cochera
~ 1.02
Área
(15 - 14)'
0.136
0.469
Municipio
il9,994-~
x. 2 =-~+
{fa - fu)2/fe
2
Total
0.000
f,
Sueldo
53.639
Municipio
Si
(2430) 2
l
=
No se rechaza H0 • La distribución de Jos colores corresponde a la información dada por el fabricante. a) H 0 : No hay relación entre piscina y municipio. H 1 : Hay una relación entre tal estanque y municipio. Se rechaza H[) si x2 > 9.488.
No
43 X=?300 o = s.10
s ~
. 35 67
14.4 "14.4 7.2
9
Piscina
0.083 0.444
No se rechaza H 0 , la evidencia no muestra una variación en la distribución de los accidentes. H0 : La distribución es norrnal; H1 : La distribución no es normal. Se rechaza H0 si x2 > 4.605.
1
(24 - 35.67)'
14.4 14,4
13 17 20 7
Total
0.6125
--
400
f,
Azul Café Amarillo flojo Ver ele Naranja
3.0476 0.6667
8 15 -7
+- · · +
lcolor t0
(f" _, fo)2!fe
'-16 '
84 96 140 80
73
Total
f - f
t,
f,
(170 - 203.33)'
Se rechaza H0 : La edad está relacionada con la presencia de un reclamo. 33, /-fo: TIA= Tic= '!TAm = '!TR = 0.20, 1Tv = TIN = 0.10 H 1: Las proporciones no son como se clan. RecJ1azar H 0 si x2 > 11 .070.
5.78
Se rechaza H0 . Hay una preferencia por canales de TV. H0 : 'ITn =: 0.21, "/Tm = 0.24, 'ITs"' 0.35, 'ITw""0.20. H1 : La distribución no es como se Indicó. Rechazar H0 si x2 > ·1-1.345.
Región
'
X = -----W~
(31 - 28)'
·+-·~=i.550
No se rec/1aza H0 . Los niveles de gerencia y la preocupación poi· el ambiente no están relacionados. 3i. H0 : El presentar una queja y la edad no están relacionados. H 1: El presentar una queja y la edad están relacionados. Se r-echaza H0 si x 2 > 7.815.
No
6
Si Total
x2 =
(6 - 4.86)'
4.86
(12 - 10.82)' 10.82
+···+---·--=1980 .
No se rechaza H0 . No hay relación entre cochera anexa y municipio. 37. a) H0 : Las relaciones proporcionales son las misn1as. H 1: Las relaciones proporcionales no son iguales. Rechazar H0 si X:> 5.991.
(43 - 31.33)'
x2 "° -31.33
-
(31 - 31.33)'
+ ~3-- +
(20 - 31.33)'
31.33
3 .4 43
Se rechaza H 0 . Las relaciones proporcionales respecto de ayuda social no son iguales. b) H[): La ayuda social y eJ tan1año no están relacionados. H 1 : La ayuda social y el tamaño están relacionados. No se acepta H0 si x2 > 5.991.
810 i5.
Tamaño
Asisienciíl sDcia1
Pequefio
MmHm10
Grande
Tola!
22
17
8
18
31 20 94
B&jo Medio 1
Alto
~
6
7
4 5 7
36
42
16
H 0 : Las distribuciones son las mismas. H 1: Las distribuciones no son iguales. No se acepta H0 si z < - i .96, o z > i. 96.
Callficación Rango
38 45 56 57 61 69 70 79
Se rechaza H0 . Se concluye que la ayuda social y el tamaño están relacionados.
GA. ilUl0 i 6 0
1.
3.
5.
a) Si el número de signos "m:':1s" {éxitos) en la muestra es 9 o mayor, no se acepta H 0 . b) Se 1-echaza H 0 porque la probabilidad acumulativa asociada a nueve o más éxitos {0.073) no excede el nivel de significancia (0.1 O). a) H0 : TI s 0.50; H 1: Tr > 0.50; n"" iO. b) Se rechaza H 0 si hay nueve o más signos "más". Un signo "+" representa una pérdida. e) Se rechaza H 0 • Es un programa e'fectivo, porque hubo 9 pe1·sonas que perdieron peso. a) H 0 : r. ~ O.SO {No hay cambio en peso) ¡..\: '1T > O.SO (Hay una pél"dida de peso) bf Se rechaza H 0 si z > -1.65.
e) z
7.
d) a)
i7,
-
26 42 65 38 29 32
.
Debido a que 0.44 < 2.05, no se rechaza H 0 . No hay preferencia. H0 : Mediana,,:; $80 000; H 1: Mediana> $80 000. Se rechaza H0 síz> i.65.
9. a) b)
·170 - 0.5- iOO
e} z = ·-
7.07
··- =
Pareja
59
42 27 41 46
9.83
18
Diferencia
1 2
550 190
3
2.50
4 5
-120 -70 130 90
6
7
i3.
7 5 6 3 1 4 2
3
i0.5 12 14 15 16
42 51 52 57 62
5 7 8
10.5 13
49.5
Rock Rango
Rango
Edad
6
28 16
1
22
42
16.5
13 9.5 12 21 16.5 7 14 19 2
29
9.5 11 3 20
8
31 22 50 42 23 25
16.5
4 94.5
158.5
158.5 ·-
12(12
+ 10 + 1) 2
=
,12(1,0)(12
1 1
~ i9.
Ho
Viejo
Nuevo
d
Rango
R"
¡\ B
60 40
64
59
58
12.5 2
6 12.5
e
4 12 ·-1
6
52
L
35
Rango
Surnas: -4, +24. Entonces T = 4 (la menor suma de las dos). Del Apéndice J, para nivel 0.05, prueba ele una cola, n = 7, se tiene que el valor crítico es 3. Debido a Que la Tes de 4 > 3, no se rechaza H 0 (prueba ele. una cola). No hay diferencia en la cantidad de pies cuadrados. La "gente uníversitaria ]oven" (Yuppies) no vive en casas rnás grandes. a) H0 : La producción es la rr1isma para los dos sisternas. H1 : La producción que usa el método nuevo es mayor. b) Se rechaza si Ts 21, con n"" 13. e) Los cálculos para los primeros tres empleados son:
~mp!emlo
2
9
16.5
Se rechaza H 0 • El ingreso medio es rnayor que $80 000.
11.
26 31
Cotmtry
Edad
o 4Li
4.5
4 6
Se admite H 0 . No hay di'ferencia en las dos poblacíones. H0 : Las distribuciones son las misrnas. H1 : La distribución de Count1y está a la derecha. Se descarta H0 si z > í .65.
Rechazar H 0 . El programa de pérdida de peso es efectivo. H 0 : TI ~ 0.50, Hí: "' > 0.50. Se 1-echaza H 0 si z > 2.05. = 42.5 -- 40.5 =
Ga!Hlcación Rmigo
86.5
{32 - O.SO) - 0.50(45) _ \/45 - = 2.68 0 50
7
B
A
~3
R-
La suma de los rangos negativos es 6.5. Como 6.5 es menor que 21, se mchaza H0 • La producción con el método nuevo es mayor.
2
2i.
1.35
+ 10 + 1)
12
No se rechaza H 0 . No hay diferencia en \as distribuciones. El ANOVA requiere que se tengan dos o más poblaciones, los datos son de nivel de intervalo o de razón, las poblaciones están normalmente distribuidas y \as desviaciones estándar pob\acionales son iguales. Kruska\~VVallis necesita sólo datos de nivel ordinal, y no se hacen suposiciones con respecto a la forma de las poblaciones. a) H0 : las tres distribuciones poblacioriales son iguales. H1 : No todas las distribuciones son las mismas. b) Se rechaza H 0 si H > 5.99í. e) Rango Rango Rango
8
11 ·14.5
5 6.5 6.5
14.5
10
16
12 13
64
53
2 3
'9 19
811
Respl.Jlr.stas a !os ejercicios de cada capítulo con núrneros hnpares H ~ __ 12_ [(64)'
16(16+1).5 "" 59.98 -· 51
=
+ (53)' + \J9J'1 6
5J··
b) H : No hay correlación entre los rangos. 0 H : Una correlación positiva entre los rangos. 1 Se rechaza H 0 si t > 1.860.
3 15 1 l + J
8.98
d) Se rechaza H0 porque 8.98 > 5.99·J. Las tres distribuciones no son iguales. 23. H 0: Las distribuciones de las duraciones ele la pintura son las iguales. H 1: Tales distr'lbuciones no son las n1ismas. Se descarta H0 si H > 9.21 o.
----·g
Agua salada
Agua du!r:e
29.
Otras
Moras
Rango
Horas
Rangn
Horas
Rango
167.3 189.6 i77.2 169.4 180.3
3 15 10 6 12
160.6 177.6 '185.3 168.6 '176.6
1 11 14
182.7 '165.4 172.9 169.2 174.7
13 2 7
9
46
t
39
31.
1
5 8
33.
=
0.494
~
12 [(46)' (39)' -- + ·15(16) 5 5
5
~
- =
O 62 .
No se rechaza H0 • No hay diferencia en las tres distribuciones.
35.
25. a)
37.
4
3
"
• 4
3 Hon1bres
159.5 - J_QQ 7.01-1
6(78) = '1 -- - - - =
12(12' - 1)
Rango mujeres
d
1 4 3 2
5 1 2 4 3
-4
5
5
16 9
3 1
-2
4
2
4 34
r
"
=
6(34) í - ---
5(5'-1)
=
-·0.7
Correlación negativa ·fue1ie entre los rangos.
27.
Rango cie
Rango capacitación
Representaníe
Ventas
1
3 10
4
319 150 175 460
5
348
6
300 280
2 3
7 8 9 10
d
d'
o
o
1
3 9 6 1
o
2
4
-2
4.5
10 5
-5.5 1
30.25 1
2 7 8
5
25
9
200
6 7
190 300
8 4.5
1
i
3
9
1 --3.5
o 4
1
1?...25
83.50 a)
6(83.5)
r ""í----=0494
" 10(10' - 1) . Una correlación positiva moderada.
8 415
.
0.727
t = 0.727 b) Rango hombres
=
H0 : No hay correlación entre fas calificaciones de los entrenadores y los cronistas deportivos . H 1: Hay una correlación positiva entre Jas calificaciones de los entrenadores y los cronistas deportivos. Se 1·echaza H 0 si t > i.812.
• 2
i.607
Se rechaza H 0. Hay una disimilitud en \a p1-eierenc'1a por los dos tipos de jugo de naranja. H(): Las tasas son las mismas; H 1: Las tasas no son las mismas. Se rechaza HCI si H > 5.991. H = 0.082. No se descarta H 0 . H0 : Las poblaciones son ias mismas. H.1: Las poblaciones difieren. No se acepta H0 si H > 7 .Si 5 1-1 = '14.30. Se rechaza H0 , y se acepta H1 .
39. r
2
=
z<-i.96.
35
(35)'] +- - 3(16)
i - (0.49LJ)
No se 1·echaza H , La correlación poblacional entre !os 0 rangos podría ser O. H0 : TI= 0.50; H 1 : 'Tr of 0.50; n = 19. Se rechaza H0 si hay 5 o menos signos"+", o 14 o más. El total de í2 signos"+" cae en Ja re~¡ión de aceptación. No se rechaza H0 • No hay preferencia ent1-e los dos programas. H0 : .. =:0.50 H 1;¡.-=f-Q.50 Se rechaza H 0 si hay i 2 o más, es decir 3 o rnenos, signos de "más". Debido a que sólo hay 8 signos"+", no se rechaza H 0 . No hay preferencia con respecto a las dos marcas.de componentes. H0 : "'= 0.50; H1 : TI -:fa 0.50. Se rechaza H0 si z > i .96, o bien
z H
1!'-·-10--=-~-2
j
i2-'_2__
-·--··-¡ - (0.727) 2
= 3.348
Se rechaza H0 . Hay una corre!aci6n positiva entre los cronistas deportivos y los entrenadores. 41. Las 1·espuestas varían. 43. a) f-1 : /\lo hay diferencia en las distribuciones de los precios 0 de venta en los cinco municipios. H": Existe una diferencia en las distribuciones en cuestión en'1os cinco municipios. Se rechaza H 0 si H es mayor que 9.448. El valor ca!cuJado de f-1 es 4. 70, así que se admite la hipótesis nula, Los datos ele Ja muestra no sugieren una diferencia en las distribuciones de precios de venta. b) H0 : No hay diferencia en dichas dist,füuciones dependiendo del núrr1ero de dormitorios. H 1 : Hay una diferencia en las distribuciones de Jos precios de venta, dependiendo esto de la cantidad ele recámaras. Se rechaza H() si H es n1ayo1· que 9.448. El valor calcuiado de Hes ·1 G.3t>, así que se rechaza .la hipótesis nula. Los datos de la muestra indican que !1ay una diferencia en las distribuciones de precios de venta con base en el nl1n1ero ele dormitorios. e} H0 : /\lo hay diferencia en las distribuciones de la distancia desde el centro de Ja ciudad, dependiendo si Ja casa tenía piscina o no. H 1 : Hay diferencia en tales distribuciones considerando si la casa tiene piscina o no. Se rechaza H0 si Hes mayor que 3.84. El valor calculado ele Hes 3.37, así que se acepta la hipótesis nula, Los datos muestrales no indican una diferencia en las distribuciones de las distancias.
Resp"estas a los ejercicios de cada capítulo con números impares
812
45. Observe que el tamaño de la muestra es 5, pero de todas maneras se muestran tos cálculos. /-1 0 : Las distribuciones son iguales. H0 : Las distribuciones no son iguales. Rechazar H 0 si H > 5.991.
H
~
12 [(337)' ---··- --· 29(29 + 1) 22
(37)' +-· 3
(61)']. , + - - -3(29 + 1) 4
9.
0.26 ±. 3 =
0.5
30
0.4 0.3
20
13.
o Problema
Poco
Error en la factura
no corregido
amistoso TJernpo elevado de espera 38 42
42
23 25 67
12 13 80
10 11 91
8 9
LSC
o.545
3\iü.545
o
0.545 ± 2.215
Porcentaje de defectuosos
Probabilidad de aceptar el Jote 0.889 0.558
0.253 0.083
e 1.00 •O
13
100
·5- 0.80
¡¡ 0.60 fe:• .. ·~·
Cerca de 67% de las quejas tiene que ver con que no se ha corregido el problema y que el precio es muy alto. 3. La variación casual es aleatoria por naturaleza; debido a que se debe a una diversidad de factores, no se puede eliminar por completo. La variación asignable no es aleatoria; normalmente proviene de una causa específica y puede eliminarse. 5. a) El factor A 2 vale 0.729. b) El valor para 0 3 es O, y para D4 es 2.282.
7. a)
11 0.545 ±
15. P(X=:s;iln""iü,TI=ü.iü)=0.736 P(X,,; 1Jn~10, TIº 0.20) ~ 0.375 P(X =:s; i In :oo i O, TI"" 0.30) =O. i 49 P(X =:s; i In"' i O, 1T = 0.40) = 0.046
Precio
Cuenta Porcentaje Porcentaje acum.
e = i! . =
10 20 30 40
0.1
o
0.26 ::!:: 0.42
Los límites de control son de O a 2.760, así que no hay recibos fuera de control.
0.2
10
=
Los lí1nites de control van de O a 0.68. El proceso está fuera de control en el séptimo día.
11.
GAPiTULO 17 40
(02610.74)
0.328
No se rechaza H 0 . Las distribuciones son iguales.
1·
-v--·w--
u
~ 0.40
32
'.O
_¡g 0.20 2 [L
o
46.78
5 10 15 20 25 30 35 40 Porcentaje de defectos
17. X
41.92
LIC 8 8:30
9 9:30 10 10:30
37.06
X, Medias aritméticas
Intervalo,
Hora 8:00 A.M. 8:30 A.M. 9:00 A.M. 9:30 A.M. i0:00 A.M. i0:3Q A.M.
46 40.5 44 40 41.5 39.5
16 6 6 2 9 1
251.5
40
X= 2s1.5 = 6
R
41 92 .
LSC
~
41.92 + 0.729(6.67)
~
46.78
LIC
~
41.92 - 0.729(6.67)
~
37.06
b) Interpretando, la lectura media fue 341 .92 ºF. Si el horno continúa operando como lo evidencian las primeras seis lecturas horarias, casi 99.7% de las lecturas medias estarán entre 337.06 y 346.78 grados.
100
0.5
80
0.4
60
0.3
40
0.2
20
0.1
o
o Conector alambrado defectuoso Otros Bobina en corto Cuenta 80 Porcentaje 40 % acumulativo 40
60 30 70
50 25
10 5
95
·100
19. a) LSC" 10.0 + 0.577(0.25) ~ !O.O+ 0.14425 ~ 10.14425 LIC ~ 1 O.O- 0.577(0.25) ~ 1 O.O - O. '14425 = 9.85575 LSC" 2:115(0.25) ~ 0.52875
LlC == 0(0.25) ""O b} La media es 1O.í6, que está por arriba del iímite superior de control, y está 'fuera de control. Hay mucho extracto de cola en los refrescos. El proceso está controlado para la variación; se necesita un ajuste.
813 21. a)
X=
611 23 · "" 30 seas 20 "
R=
312 · =is.e
27.
20
0.4
LSC"" 30.5665 + (1.023)(15.6) = 46.53 LIC = 30.5665 - (i .023){"15.6) = 14.6'1
e
LSC "2.575(15.6) = 40. 17 b)
50
30
2
20
i5 m
LSC = 46.53
:~ 0.3 o 0.2 CL
0.1
X=
30.57
o
10 Subgrupo
o
___[_
l
LSC = 40. 16
w
o 30 ro 2'. 20 2
R = 15.60
10
o
29.
1
X =4ía3=4183 10 "
0.9
R=·162 10 =1e2 " 427.65
LIC = 418.3 - {0.577)(16.2) = 408.95
EL
LSC
=
418.3 + (0.577)(16.2)
2.115(16.2)
0
=
34.26
Todos los puntos están bajo control para Ja media y el intervalo.
25. a) p
=
3
30
·º R.;;~-;;~J0T;T720'720,__.l
0.8 <(
=
o
1 20 Nún1ero de n1uestra
P(Xc'31noo10. TI"Ü.05)"0.999 P(X < 3ln =: i O, 1T =:O. i O)= 0.987 P(X e: 3jn" 10. w =0.20) = 0.878 P(X e: 3jn" 10, TI= 0.30) = 0.649 P(X e: Sjn = 20, TI~ 0.05) = 0.999 P(X "'° 5jn "'20, •T"" O. i O)= 0.989 P(X e: Sjn º 20, TI,, 0.20) = 0.805 P(X,.; Sjn º 20, TI'" 0.30) = 0.417
e) Todos los puntos parecen estar dentro de los límites de control. No se requieren ajustes.
LSC
---~-___________j.J
Estos resultados muestrales indican que las probabilidades de un aumento son mucho menores que 50-50. El porcentaje de acciones que aumenta está "bajo control" alrededor de 0.25 o 25%. Los límites ele control son 0.06629 y 0.4337.
20
10
~~~~~~~~~-"
40
23.
LIC = 0.06629
o.o~--
LIC = 14.61
_e;
p = 0.25
e
40
"'emm
Diagrama P para CI
~ 0.7
0.6
0.5
40 ) = 0.08 10150
0.1
{0.08(0.92)
v~-=o.11s
LSC = 0.08 + 0.115
uc =
0.08 - 0.115
0.2
0.3
C1
=
0:195
=
o
La línea gruesa es la curva característica de operación del primer plan, y la línea punteada la del segundo. Los proveedores preferirán la p1·imera porque la probabilidad de aceptación es mayor· (superior). Sin embargo, si el proveedor está realmente seguro de su calidad, el segundo plan parece más alto en los valo1·es inferiores ele porcentaje de defectuosos y puede que lo prefiera.
213 3i. a) e=~= i4.2: 3\114.2 = ii.30 LSC = 14.2 -1- ii.3 = 25.5
LIC = 14.2 - 1 ·¡ .3 = 2.9
814 b)
26 m 'iij
oo
a) P1
5.
24 22 20
p
18
o .e 16 o ·14 m
D
12
"'o.
10
CTj
"'
6
8 6 4 2
3
2
5
4
g
7
i-i
i3 15
6 8 10 12 14 tvluestra
7.
=o
$2.69(6) + 3.59(5)
(100)
$2.49(6) + 3.29(5)
1'11.7
+ 1.79(3) + 2.29(4) + 1.59(3) + 1. 79(4)
vTi22(11TI¡
a) p
~ CC1Q (100) ~ 142.9 0.07 .
~
d)
10
P~
8
(100)
6
w
~ 111.95
p ~o.os. (100) ~ ·5 1 o e 0.04 ·
P
u
0 10 ~ .0.08 · 11001~1r.o o
~ ()}_8(100) ~ ·111.s 0.34
~
0.10('17 000) + 0.03(125 000) + 0.'15(40 000) + 0.10(62 000) . 0.07(17 000) + 0.04(125 000) + 0.15(40 000) + 0.08(62 000) 102.92 0.10(20 000)
+ 0.03(130 000) + 0.15(42 000) + 0.10(65 000)
0.07(20 000) + 0.04(130 000) + 0.15(42 000) + 0.08(65 000) 103.32
e) P = \/í02.92(í03.32) = 103.i2 9
G
+
·
o
v~
1.87(214) + 2.05(489) + 1.48(203) + 3.29(106) 11001 1.52¡2001+2.10(5651+1.48(2911+3.05(87) 93.8
~
Día
11 · a) I ~
6.8
362.26
5:3 (0. 2 0) + -26-5-.8-8 (0.40) +
(0.15)
P(X o;; 3]n = 20, 7t = 0.1 O)= G.867 P(X o;; 3[n ~ 20, n: = 0.20) = O.il12 P{X o;; 3]n "'' 20, 7t = 0.30) =O. í 08
~
i 25.0 109.6 (0. 25)
_L
622 864 529 917
1.263.
Así que el índice es ·126.3 b) La actividad de negocios aumentó 26.3% de ·1995 a 2001.
13.
~ 1.0
x~($42000)/1.74o$$24138
El salario aumentó "24 138 - $í 9 800 ""$4 338
Qj
15.
¡¡; 0.8 D. m u 0.6
'"
i7.
lS 0.2 m
Afio
Tinora
Tinorn
Índice nacional
1990 1995 2000
S23 650 S28 972 $32 382
iOO.O 122.5 136.9
100 122.5 136.9
Los maestros de Tinora recibieron el mismo aumento que el promedio nacional. El índice para los ai'ios seleccionados es:
!;;no
.o
o
~dice
5
10
40
Porcentaje de cl8'fectuosos en el lote
1-14.6, que se obtiene de {$i 9 989/$1 7 446)("100). 123.i, que se obtiene de ($21 468/$17 446)(100). 1998: 95.5, que resulta de(506.8/530.53)(i 00). 1999: 98.4, que i-esulta de(522.2/530.53)CiOO).
1996 200.8
1997 219.2
-.-
1998 ];]999 236.7 283.5
--
..
Las ventas internas casi se triplicaron de í 990 a ·1999. 19. El índice para !os años seleccionados es:
Afio
GJ\PÍTULO 18
3.
~
P~----------(100)~112.2
4
i.
113.1
e) I ~
12
o e:: o.o
.~
$2.69(6) + 3.59(4) + 1.79(2) + 2.29(3) -----· · · (100) $2.49(6) + 3.29(4) + 1.59(2) + 1.79(3)
P~
14
35.
1.79
e)
16
a:
'
~
b) P
10 LSC ~ 7.0 + 3VI ~ 14.9
o"' .o o
p 1 ~ 22g (100) ~ 127 q3
e) P
9.16
~
3 59 ~ 3.29 · (100)~10912 .
s
~
70
7.0-3\lf
79 · (100) ~ 112 58 ~ 1Í .59 ·
e
p ~ (11_5 (1 00) ~ 1 00 s O.IS
e=-= 1.0
uc =
p
b) p
e) Todos los puntos están bajo control. 33.
~:~~ (i 00) = 108.03
10 36 · (100)
d}
o
"'"
Índice
2·¡.
i 996 184. 7
1997
1998
10991
188.4
192.0
208.2
Las ventas internacionales se duplicaron entre i 990 a i 999. El índice para los años seleccionados es:
ílesptoes!as a los ejercicios de cada capítulo con números impares Año Indice
1996 108.6
1997 110.8
1998
1999
114.7
"i19.0
55. 57.
El nl1mero de empleados aumentó casi 20% entre 1990 a
25.
El índice para los años seleccionados es:
Año
1995
1996
1997
Índice
100.00
1·13.1
129.7
1.
1998 143.5
1999 159.4
"1995
1996
Índice
100.00
112.8
1997 128.2
1998 145.6
~
27. P M
1.43
29
~
Pº ~
109.88
'"'
$0 94 -·-(100) $0.84
1999
Y'
3.
165."I
~
5(55) - 15 2
111.90
b
=
5.
~
~
a
=
~
26 00 · (100) 3.18
~
Y'~
9.
t
•e.
p
~
490 (100) í 33
~
P ~ \/0'03.ss116ss.ss1 ~ 69s.02 i 971.0 91
ii4.7 .0 (0.20) + 87 (0.1 O) + :¡·1 0. 6 (0.40) 1 159 ·¡ 501 + - - (0.30) ~ 123.05 1 214
51. 1 ~ 1 00
La economía está 23.05% arriba de i 996 a 2001. 53.
Febrero:
f = i 00 ~
Marzo:
23
303
8.6 (0.40) + 20 (0.35) -1- 3oo (0.25)
99.50
1 ~ 100
O. i i
04057(~5 )
= -0.0531997
-0.0531997 + 0.1104057(8) Average SI Component 0.6859 1.6557 1.1616 0.4732
21 22 23 24
~
0.8300459
Seasonal Index 0.6911 1.6682 1.1704 0.4768 Pronóstico trimestral (mfllones}
Índice estacional
110.0 120.0
40.05 41.80
43.55
so.o
45.30
90.0
44.055 50.160 34.840 40.770
11. Y'= 5.1658 + 0.37805t. Los siguientes son los estimados de
Estimado
10.080 10.458
358 42 .
703.56
6.8
= 7.6(tons)
las ventas.
+ 2.50(5,000) + 26(60,000) + 490(500) 47. p ~ - - - - - - - - · - - - - - - · - - 0.287(1,000) + 0."17(5,000) + 3.18(60,000) + 133(500) ~
1_.l.9~0B 7 -
Pares estimados (millones)
O. 76(1,000)
(100)
+ 0.90(7)
5(55) - i5 2
2 3 4
106 87 .
2 50 p = · (100) = 1 470 5ª N Ü. i 7 . ::i
817.61 p
1.30
El antilogaritmo de 0.8300459 es 6.76
43. P ~ V(89:79)(91.25i ~ 90.s2
p
0.90
b) 28.95%, proveniente de 1 .28945 - i .O. e} Y' = ·-0.0531997 + 0.1i04057t
37, p ~ v[i06.87)(106.04) - 106.45
0 76 45. p = · (100) = 264 8 A Ü.287 ,
=
266.6
5(5.274318) -1.390087(15)
Quarter
39· Pc=o.0 0.05 (iOO1 =83.33 0.12 1 =i20 Pc=Q.i0(100 6 o 18 0.015 P, ~ : (100) ~ 90 PE~ O.i ·(100) ~ 100 0 20 5 0.05(2,000) + 0.12(200) + i.18(400) + 0.15(100) 41 ' p ~ 0.06(2,000) + 0.10(200) + 0.20(400) + 0.15(100) ("IDO) =89.79
~
=
= O.i 104057
117.65 ~
para 2003, t = 7
52.4
5(69) - 20(15) -· 5(55) - 15'
a) b
~ 75 • o
0.60(320) + 0.90(11 O) + 1.00(230) (100) 0.50(320) + 1 .20(11 O) + 0.85(230)
=
52.4 + 30.Gt = 52.4 -1- 30.6(7}
7.
"1.00
Pw= Ü.SS (100)
p
30.6(~5 )
=
)
31. p ~ \/(102.81)(103.51) ~ 103.16 0 90 33. p ~.o.o~ (100) ~ 120 p ~ · 1·001 R 0.50 S i .20 1
-
Y' = i .30 + 0.90t = i .30
º
~
~
a=~ - 0.90(~5 )
307 P,w = "T.4'4 (i 00 = 99.31 PP = : {100) = 105.50 2 91 0.89(18) + 0.94(5) + 1.43(70) + 3.07(27) 1 1 2 81 · p ~ 0.8"1 (18) + 0.84(5) + 1.44(70) + 2.91 (27) 1 OO) ~
35. p
7 1
a=
Las ganancias por acción aumentaron casi 65o/o entre i 990 a ·¡ggQ.
$0.89 --(100) $0.81
b~ 5(2469)-721(15). ~30.6
1
Los réditos aumentaron aproximadamente 60% en el periodo. El índice para los años seleccionados es:
Año
En 1991: $i 972 062, que se obtiene de $2 400 000/-1.2i7. En 2000: $2 536 232, que se obtiene de $3 500 000/-1.38. Las respuestas variarán.
CAPÍTULO 19
1999. 23.
815
297 4 ~ (O 40) + ?.1 (O 35) + (0.25) 20 . 300 8.0 .
Índice
'
Estimado estacionalmente
0.6911
6.966
10.837
1.6682 1.1704
17.446 12.684
11.215
0.4768
5.343
a) Y' = i 8 000 - 400t, suponiendO que la recta empieza en 18 000, en 1975, Ybaja a ·1 O 000 en i 995. bj 400 e) 8 000. obtenido de i 8 000 - 400(25) 15. a) "13.
1.60
.8e
_Q;I
E >o
í .40
•
2 1.20
•
= 93.5
90 92 94
96
Año
98
00
816
Respuestas a los ejercicios de cada capitulo con números Impares b) Mes
b) Y' = 1.0045 + 0.04409t, usando 't = i para '1987. e} Para i 990, Y' = í. i 8091, y para í 995 Y' = i .40136 d} Para 2002, Y'= 1 .70999 e) Cada activo cambió 0.044 veces
Julio Agos. Sept.
Oct.
i9. a)
Nov.
45
Dic.
Ene. o u
Feb. Ma1·zo
40
rn
Ab1il
m [i
E w
Mayo Junio
35
Total
Media
Corregirla
348.9 368.1 395.0 420.4 496.2 572.3 333.5 297.5 347.3 481.3 396.2 368.1
87.225 92.025 98.750 105.100 124.050 143.075 83.375 74.375 86.825 120.325 99.050 92.025
86.777 91.552 98.242 104.560 123.4'12 142.340 82.946 73.993 86.379 119.707 98.541 91.552
1 206.200
30
Corrección= i 200/i 206.2 = 0.99486 e) Abril, noviembre y diciembre son periodos con venta alta, mientras que febrero es el mes de menores ventas.
95 96 97
98
99
fm:lií:e estaciona! por trimestre
25. a)
DO
Ano
Promedio
Trimestre componente Sl
b) Y' = 49.140 - 2.9829t e) Para 1997, Y' = 40.1913, y para í 999, Y'""" 34.2255 d) Para 2003, Y' = 22.2939 e) El número de empleados disminuye a una tasa de 2 983 por año. 19. a) log Y'= 0.790231 + O.i í3669t b) log Y' = i .244907, cuyo antilogaritmo es i 7 .575 lag Y' = 1.813252, cuyo antilogaritmo es 65.05 e) 29.92, que es el anti logaritmo de O. i 13669 menos 1. d) lag Y == 2.i 54258, cuyo antilogaritmo es i 42.65 21. a)
0.5027 1.0936 1.7753 0.6370
b) La producción es máxima en e! tercer trimestre. Está 77.5% por arriba del promedio de trimestre. El segundo trimestre también está sobre el promedio. El primero y el cuarto trimestres están muy por debajo de dicho promedio, con el primer trin1estre en casi 50% del valor para un trimest1·e típico.
1
30
0.50í4 1.0909 1.7709 0.6354
1 2 3 4
27.
Índice estaciona! por trimestre
a)
Promedio o o t) •O e
e
Íílciice
Trlmusíre componente Sl
20
1 2 3
10
[L
• •
o 1990
1995
0.5549 0.6254 1.5102 'l.0973
4
• o
21 22 23 24
2000
Año 29.
estacional 0.5577 0.8296 1.5178 1.1029
b) Y' = 7.667 + 0.0023t e) Periodo Producción
.b} Las ecuaciones son Y• = -8.03 + 2.56t y Log Y' =-O.Sí O + 0.206t. La ecuación en la que se usa el logaritmo del precio pa.rece ser más exacta porque el té1mino R 2 es mayor. e) lag Y'= -810 + 0.206(4) = 0.014, antilog es ·1.0328 lag Y' = -Bi O+ 0.206(9) = i .044, antilog es 1 i .0662 J··} log Y' "'-81o_+0.206{14) = 2.074, antilog es i i 8.5769. ' Esto es razonable sí e! precio aumenta en la tasa acostumbrada. La tasa de aumento anual es 60.7%, que es e! antilog de O. 206 menos i. 23. a} Julio, 87.5; agosto, 92.9; septiembre, 99.3; octubre, 109.i.
Índice estacional
7.7153 7.7176 7.7'199 7.7222
indice
Pronóstico
0.5577 0.8296 1.5178 1.1029
4.3028 6.4025 11.7173 8.5168
Índice estacional por trimestre
Trimestre
1 2 3 4
Promedio componente Sj
Índice
estacio11al '1.2053 1.0212 0.6301 1.1457
1.1962 1.0·135 0.6253
um
La ecuación ele regresión es: Y'= 43.611
-----·---· Periodo Visitantes Índice 29 30 31 32
252.86 260.07 267.29 274.50
1.2053 1.0212 0.6301 1.1457
+ 7.2153t Pronóstico 304.77 265.58 168.42 314.50
817 La mediana aumenta $·1 s i 50 por año, mientras que el promedio aumenta mucho más rápido. ($"10 000 por afio).
En el año 2000 hubo 928 visitantes. Diez por ciento de incremento en 2001 significa que habrá 1 02i visitantes. l..os cálculos trimestraies son 1 02i/4"" 255.25 visitantes por trimestre.
Periodo
Visitantes
Invierno Primavera Verano Otoíio
255.25 255.25 255.25 255.2.5
CAPÍTULO 20 1.
Prnnós~
indice
"1.?.053
+ 0.50($70) +
EMV(A,) ~ 0.30($70)
0.20($·¡ 00) = $70
+
0.20($80) ~ $63
+ 0.50($60) +
0.20($90) ~ $69
EMV(A,) = 0.30($90) + 0.50($40)
307.65 260.66 160.83 292.44
1.0212 0.6301 1.1457
EMV(A,) ~ 0.30($50)
Decisión: Se elige la alternativa 1.
Pérdida cte oporhmirlad
O·
El enfoque de regresión es probablerriente superior porque se considera la tendencia. Bolsa: Log Y' = 2.32 + 0.0466t Premio: lag Lag Y' "" 1.49 + 0.0466t Las pendientes son idénticas po1·c¡ue el premio es s"1empre i 5% de la bolsa. La bolsa proyectada para el 2005 es $1.3 millones, !os que se obtiene del antilog de 2.32 + 0.0466("19) =: 3.2054. 33. Las respuestas variarán. 35.
A, A, A,
31.
5.
s,
s
$40
$
s, o
'o
$
o
30
20
20
10
·¡o
(Respuestas en miles ele dólares)
+ 50($0) + 0.20($0)
EOL(A,) = 0.30($40) EOL(A,) ~ 0.30($0)
Tendencia en el análisis del pron1ed'10 fVloclelo de tendencia lineal Yt ~ ·-240330 + 70063.3'1
+ 0.50($30) + 0.20($20)
EOL(A,) ~ 0.30($20) ·I· 0.50($10)
1.
~ $12 ~ $·19
+ 0.20($10)
~ $13
El valor esperado (en dólares) bajo condiciones de certeza es $82, obtenido por 0.30($90) + 0.50($"10} + 0.20($100)"" $82. EVPi = $82 - $70 = $'12
9.
o '6
Sí, cambia la decisión. Elegir la alternativa 2. (Respuestas en miles de dólares).
E1 ooo ooo
e Q
o
+ 0.20($70) + 0.30($100) = $69
EMV(A,) ~ 0.50($90)
+
0.20($40)
+
EMV(A,) ~ 0.50($70)
+
0.20($60)
+ 0.30($90)
0.30($80) ~ $77 ~ $74
i ·L a) (Respuestas en miles de dólares)
o
+
EMV(neither) ~ 0.30($0)
5
10
15
20
MAPE MAD MSD
5D í i 6233 2.45E+ iO
~ :~~ ~~~ f :i:~ ~~i~: <<
>">
0.20($0) ~ $0
+
+
0.20($30) = $76.00
EMV(2) ~ 0.30($105)
+ 0.50($60) +
0.20($30) ~ $67.50
0.50($11 O)
+ 0.20($40)
~ $129.00
Pén:l¡da de oport!.midad
e}
s1
s2
s3
~---------
Ninguna
$220
$!10
95
45 50 o
1 '· .. '.. '
+
0.50($65)
b) Elegir ambas.
<<·~·¡ >
+
EfViV(1) ~ 0.30($·;25)
EMV(both) ~ 0.30($220)
Tendencia en el análisis ele !a mediana ~Jlodelo de tendencia lineal Yt= 50603.2 + 18150.6'1
700000 ··~~~
0.50($0)
25
Tiempo
~
EMV(A) = 0.50($50)
2 Ambas
1
115 o
$40 ·10 ·10 o
d) EOL(ninguna) ""$129.00
400 000
1
EOL("I)"" $53.00
ººº
"'"'
2 300 000 200 100 000
.•
O r~~~~~~~~~-~~~~
o
5
10 15 Tiernpo M!IPE MAD MSD
20
25
EOL(2)
~
$61.50
1·
EOL(both) ~ $0
i3.
e} EVPI ""$0, resultante de $129 - $129. Certeza::::: 0.30($220) + 0.50($·11 O)+ 0.20($40)"" $129 La tabla de pagos es la siguiente (en rniles de dólares).
Recesión,
15 52929 5.30E+09
s,
---·· Producción $-10.0 Inventario
CD
No hay recesión,
s,
$15.0
-5.0
12.0
6.0
6.0
818
Respuestas a ifls ejercicios de cada capitulo con números impares a} Comprar un CD b) Aumentar la producción. e) (Respuestas en miles de dólares) EMV(Prod.)
~
0.2(-10)
EMV(Stock)
~
0.2( ··5)
EMV(CD)
~
0.2(6)
e) $91 (dólares), que resulta de:
+ 0.8(15.0)
+ 0.8(12.0)
+ 0.8(6)
~
~
~
15.
~
[0.2(6)
+ 0.8(15)] ··· [10.0]
~
i7.
8.6
Ley 10 11 12 13 14
b}
10
11
6.0
3.2
$500 200 -100 -400 -700
·13
12
14
S500 550
$500
$500
550
250 -50 -350
600 300
550 600 650 350
o
esperada
10 11 12 13 14
$500.00
$500 550 600 650 700
e}
d)
233.50 -31.50
Se piden 1 í casas transportables porque la ganancia esperada de $504.50 (dólares) es !a máxima.
Pérdida de oportunidad
Envio 10 11 12 13 14
10
s
11
13
14 $200 150 100 50
o
$ 50
o
$100 50
300 600 900
o
3150 100 50
300 600
300
o
o
Ley
EOL
4·1
42
43
44
45
46
41 42 43 44 45 46
$410
$410 420
400
415
395
410
430 425
$410 420 430 440
390
405
420
$410 420 430 440 435
$410
405
$410 420
400
415
430
450 445
450
385
420 430 440 460
Ganancia esperada $410.00
419:10 426-70 432.20
431.70 427.45
Se piden 44 porque $432.20 (dólares} es la mayor ganancia esperada. Pérdlda de oportunidad esperada:
41
42
43
44
45
46
$28.30
519.20
$11.60
36.10
$6.60
$10.85
e) Se piden 44 porque la pérdida de oportunidad de $6. iO
12
300 600 900 1 200
d)
ley
41 42 43 44 45 46
421.50
ganancia bajo incertiduinbre
Evento
Ley
504.50
e)
valor de la información petiecta
b)
Ganancia Ley
$ 91 .00 a)
Evento
a)
ganancia bajo certidumbre
10.0
Expandir la producción.
d) EVPI
$595.50 -504.50
10
11
12
13
14
$95.50
591
$174
$362
$627
Decisión: Pedir i í casas porque la pérdida de oportunidad de $91 (dólares) es la mínima.
(dólares) es la mínima. Sí, está de acuerdo.
fJ $6. 1 O (dólares), que resulta de: $438.30 -432.20
ganancia bajo certeza ganancia bajo incertidumbre
$ 6. 1O valor de la información petiecta Lo máximo que se debería pagar por información petiecta es $6.íü.
REPASO DE LOS CAPÍIUlüS 1 A 4 a} b) e) d)
7.
Muestra Razón
$·1 J .60, que se obtiene de $58/5. i i .70. La mitad de los empieados gana menos de $1 i .70 {dólares) por hor·a,
y la otra 1nitad, más de $11 .70 por hora.
(58)' 696.18 - -52 e) s = _ i 5.845 5 3(11.60 - 11.70) t) sk = - - - - - · - - = -0.124 2.42
3.
a)
2
Frecuem:ia
Rollos
3a 6 Ga 9
11 J-H-1" 1 J.!·Vi 111
9 a 12 12 a 15
111
15 a 18
1
2 6
o 1995
8 3 1 9. i i.
8
i3. i.5. i7.
99
2000
Ordinal. Polígono de f1·ecuencias menores que la acumulativa. Cerca de 45; alrededor de 35; i O; 35, obtenido por 55 -20.
9.375%.
4
Histogram of Cl N = 50 Count Midpoint 1 o 7 ******* 40 3 * •,'d, 80 120 B *****''** 15 *************** J.60 200 10 ***'"****** 3 *-idc 240
2
4.5
7.5
10.5
13.5
Rollos
h) s ~ v9:27:36 ~ 3.045 i) 9.30 ± 2(3.045). Los límites son de 3.2·1 a i 5.39. a) 8.82%, obtenido por 44.-115.
b} 7.479%. e) Media geométrica, porque no está altamente influida por el 19.SU).
3
280
186 =9.3 20
d) mediana "" 9 e} 9 y i O; cada uno ocurre 4 veces f) 15, usando la distribución de frecuencias; 13, usando !os datos reales. (186)' 1906 -20g) 32 = -·~·- = 9.2736
5.
98
Coeficiente de variación. 92 y 108, resultantes de iOO ± 2(4). 19. a} El siguiente histograma es de MINITAB:
6 -
c)X=
97
Años
b)
o
96
***
b) ye)
~ 1
50 MIPl
14.00
11fEAJ.V
14.7.90 }liJ..JC
299.00
flfEDIAiV
7'Niflo'"'A..i\l
STDEV
148.50
146.11
69.24
Ql
QJ
106.00
186.25
SE1ifEAPl
9.79
La distribución es simétrica porque la n1edia ($147.90) y la mediana ($148.50) están muy cerca. l_a media± 2s, indica que la rrlitad de 95o/<:1 de los depósitos están entre $147.90 ± 2($69.24) "'" $9.42 y $286.38. Amplitud de variación= ± $299.00 - $~14.00 = $285.00. Hay un ligero sesgo negativo (porque la media es menor que la mediana). 21. a) Se tiene la salida de M!NITAB:
820 Va::iable
N Mean Median Tr mean 85 15.06 15. l'l . 79
years
ºº
Variable
I'iin Max 0.00 36.00
year.s
6.
Ql
Q3
ºº
22. 50
me1
Stdev Se 9.63 1.04
___J
REP.4SO DE LOS CA.P[lULOS B Y 9 ·J. B 3. o 5.
o
7,
A
9.
B
z = 8 · 8 -· 8· 5 = 0.59, 0.5000 - 0.2224
El tiempo típico cie servicio es casi de ·1 s años (media o mediana).
b) La amplitud de variación es 36 ailos, resultante de 36 (MAX) - O (MIN). e) Sólo un ligero sesgo positivo, porque la media de i 5.06 es escasamente mayor que la mediana (i5.00). d. Stem-and-leaf of years N -· 85 Leaf Unit 1.0
=
0.2776
2.0l\/3s "!3.
i60
::±::
1.75
985.5
::±::
240
2. 13i
2
°,
154.47 hasta 165.53
\ 140
2.57i
·1·15_5
\16., 864.27 hasta 1·106.73
~
o o
12 30 42
1 1 2 2 3 3
(16)
27 16 9
1
011222333~~44
17,
555555566677788999 00013333,14114
n=
' l
21.
n =
0.08(0.92)(~:~~)
23.
n
=
Mean Median Tr i''lean StDev SE rv>ean 43 5'1 . 6'7'1 55. 000 54 .590 6.383 0.973
Stem-and leaf of years Leaf Unit l. 2 2
6
L
19.
N
9
15 17
IBI
4 4 4 4 5 5 5
N
23
6677 099 001111 22 44445555
~
.ooo
2 33 0.4(0.6)( · ) 0.03
i50 2
=
999
2
=
i 448
5. B 7. 5 6667777
9.
A
o
i1. f-/ 0 : µ" Ol~Ll
~
36;H 0 : µ < 36. SerechazaH0 siz<-i.65.
z
5 2 455
2 5 89
=
35.5 - ~6.0 0.9/V42
·¡_
Subjetivo. Un resultado. Regla del complemento. i - P{X)""' 0.999. Discreta. Discreta. Forma de campana, simétrica, asintótica. 13. aj O.iO, ca1'culado por 20/200. b) 0.725, obtenido por 145/200. e} 0.925, resultado por i - i 5/200. 15. a) 0.1353, tomado del Apéndice C, donde m"" 2.0. b) 398, que se obtuvo por 400 - 2. e} 0.3233, encontrado mediante i ··-(0.-1353 + 0.2707 + 0.2707). --~' i7. a) 0.510, calculado por 273/535. b) 0.5í3, resultante de 223/435. 0.907, hallado
260 + 435 - 210 535
oor------·~·.
,
i9. a) $i .84 millonE;s de clólai·es, vaio1· que se obtuvo por 0+0.64+i.2. b) 0.98.
0.20, resultante de 0.004/0.02. d¡ Sí. La prima de 2 millones de dólares (mcld) es mayor que la pérdida esperada de $i .84 mdd. Y por lo tanto, la e)
ganancia esperada vale $0.15 mdd.
-3.60
Se rechaza H 0 . La altura media es menor que 36 pulgadas. µ.d,:.:; O; H1 : ~Ld >O. Se repite H0 sit > i.883.
2
3. 5. 7. 9. 11.
=
i3. H0 =
º
t = -11_6.185/yg
REPASO DE LOS CAPÍTULOS 5 A 7
e)
=
i. E 3. B
43
18 11 10 6
1.96(25)]' 4
· - --
ílEPllSD DE LOS CAPÍTULOS 10 A 12
Q3 58
~_, 221 .35 hasta 258.65.
Como 250 está en el intervalo, la evidencia no indica un aumento en ia producción.
5555566666788899 00001233333 6667889 00123344 6
11Jin Variable Max Ql years 42. 000 69 .000 50 .ODO
3
\/16
23. La edad típica es 55 años. La amplitud de variación es 27 años.
~iable re
::±::
=
0.485
15. H0 : µ,d,;::; O; H 1 : µd >O. Se repite H0 si t > i .833.
d=
0.4
sd = 6.i 1
t
=
--º~·~4-
0.21
6.111 '/10
No se t"echaza H0 . No hay diferencia en la duración de las pinturas.
REPASO DE WS CAPÍTULOS 13 Y 14 i. v.
5. 7. 9.
El coeficiente de crnrelación, o el coeficiente de determinación. H0 : r ~ O; H1 : r > O. El valor crítico de tes i .67"1; t calculado "'3.324. Se rechaza Ho. Hay col"l"elación positiva, El cuadrado del coeficiente de correlación es el coeficiente de determinación. Y' =a + b, X 1 + b 2 X 2 + b 3 X 3 + b 4 X,1 Cerca del 86% de la variación en la ganancia neta es explicada por las cuatro variables.
821 11. a)
50
[~
w
e) Y'= -1.2i61 + 7.4324(4.5) = $32.23 (en miles). f) Existe una ·fuertB asociación positiva entre el gasto en publicidad y las ventas rnensuales. Por cada $1 000 (dólares) adicionales invertidos en publicidad, ias ventas aumentan $7 432.40 .
•
¡¡; 40
Q D <])
D
30
o
w
~
Iw
1
20
o
~
m > 10
o
'
u
1
2
3 4 5 6 7 8 Publicidad (m'1les de dólares)
PlEPASG DE lüS CAPÍTULOS 15 V ·¡ 5 -i. Frecuencia observada y frecuencia esperada. 3. 5. 7.
Distribución ji cuadrada. No se rechaza, porque '11.248 es menor que 12.592. No hay diferencia entre el conjunto observado de frecuencias y el grupo esperado de frecuencias. 9. Nivel nominal. ili. Para determinar si las dos poblaciones independientes son iguales. 13. A fin de ver si tres o rnás poblaciones son las mismas. '"15. Kruskal-VVallis
17. 19.
b)
5(740) - 21(150)
r~
~
,.,
"
.
y[5(103) - (21)'][5(5500) - (150)') e) r'
d) b
~ ~
(0.9042)'
~
0.8176
5(740) - 21(150) ---"-5(103) - (2"1)'
5 -
a"" 150
~
550 74
~
7.4324
(7.432lt) (2"1) = -1.2i61
5
Y'= -1.2161 + 7.4324X
=
0.9042
2'1.
Sí. No. Tienen sesgo positivo. H0 : Mediana= $27 000; H,: Mediana of. $27 000. Use el nivel ele significación de 0.05 y la prueba de signo. Los valores críticos son - í .96 y í .96. Cuente el númeru de valores que están abajo de ia mediana, calcule z suponiendo una muestra grande, y tome una decisión.
Capítulo 1
Capítulo 8
p. i : © David Burnett / Contact Press lmages / PictureQuest; p. 2: © PhotoDisc; p. 4: © elektra Vision AG / Picture Quest; p. í O: © elektra Vision AG / Picture Quest.
p. 263: © Digital Vision / Picture Ouest; p. 264: © Corbis lmages I Picture Quest; p. 265: © PhotoDisc; p. 270: Ooug Plummer / Photo Resear·chers, lnc.
Capítulo 2
Capítulo 9
p. 21: Coiiesía ele l\ilerrill Lynch; p. 22: © PhotoDisc; p. 41; © PhotoDisc; p. 50: Proporcionada por el autor.
p. 297: © Corbis Jmages; p. 299: © PhotoDisc; p. 310: © PhotoDisc; p. 313: © Corbis lmages.
Capítulo 3
Capítulo 10
p. 64: © Corbis; p. 72: © NeiJ Seer/ PhotoDisc / Picture Quest: p. 73: © PhotoDisc.
p. 334: © PhotoDisc; p. 335: © Russell lllig J PhotoDisc / Picture Quest; p. 338: © PhotoDisc; p. 349: © PhotoDisc.
Pictu1·e Quest; p. 566: © Photolink / PhotoDisc / Picture Quest; p. 571: © lrnage Ideas, lnc. / Picture Ouest.
Capílulo 16 p. 580: © PhotoDisc; p. 581: Cortesía de Nestlé USA~Beverage Division; p. 585: © RubberBalJ Productions / Picture Quest J p. 591: © PhotoDisc.
Capítulo 17
Capítulo 4
Capitulo 11
p. 99: © PhotoDisc; p. 102: Co1iesía de Hewlett-Packard Company; p. 1í5: Science Photo Ubrary / Photo Researchers, !ne.
p. 377: © PhotoDisc; p. 378: © Corbis lmages; p. 391: © Corbis lmages J Picture Ouest.
p. 622: Cortesía de GE Lighting: p. 625: Cortesía del Instituto Nacional de Estándares y Tecnología (NIST), Oficina de Programas de Calidad, Gaithersburg, Maryland 20899. Fotografía de Steuben, p. 642: Cortesía de ALCOA.
Capitulo 18 p. 655: © lmage Ideas, lnc. PictureQuest.
Capítulo 12 Capítulo 5 p. í 49: © PhotoDisc; p. 150: Mitch Kezar / Tony Stone lrnages; p. i58: Cortesía de Dean Foods; p. i 61: © 200i Buscl1 Entertainment Corporation. Derechos reservados; p. 172: Cortesía de Hewlett-Packard Company.
Capítulo 6 p. 191: © elektra Vision AG / Picture Quest; p. 196: © Cor·bis; p. 200: Jeff Zaruba I Tony Stone lmages.
p. 413: © Corbis lmages I Picture Quest; p. 4 "15: © PhotoDisc; p. 420: © Corbis !mages I Picture Quest; p. 433: © PhotoDisc.
Capítulo 19 p. 689: Cortesía de Pepsi Company; p. 690: NCSA, University of llliniois / Science Photo Library / Photo Researchers, lnc.
Capítulo 13 p. 456: © PhotoD"isc; p. 457: Co1iesía de VF Playwear. Healthtex Brand; p. 470: © PhotoDisc.
Capitulo 20 p. 726: © Corbis lmages ! Picture Ouest; p. 727: Cortesía de Banana Republic.
Capítulo 14 p. 502: © PhotoDisc; p. 505: © PhotoDisc; p. 51 ·1: © PhotoDlsc.
Gapítuio 7 p. 226: © Digital Vision I Plcture Quest; p. 227: Cortesía de AL COA; p. 24 í: Chip Henderson / Tony Stone lmages.
Capitulo 15 p. 548; Solum I Photolink I PhotoDisc / Picture Quest; p. 549: Jose Azel J Aurora J
823
A Acampanada, distribución de probabilidad, 227-228 Aceptación, número de, 643 muestreo de, 642-645 Alternativas u opciones, 727-728, 729 Adición, reglas de. Ver Reglas de probabilidad Ajuste estacional específico, 709 Ajustes a! costo ele la vida y IPC, 679 Alfa (a), 338, 364 Alternativa, hipótesis, (H 1), 337-338, 35i, 381 Amplitud intercuartílica, 126 Amplitud, clases, 23-24 Amplitud de variación, i 01-102 datos agrupados, 108-i 09 diagrama, 634-636 Análisis de datos ordenados por rango,
sso-e-1 s coeficiente de correlación de rangos de Spearman, 605-607 correlación rango-orden, 605-607 prueba de Kruskal-Wallis: varianza por rangos, 600-603 prueba de rangos con signo de Wilcoxon, 590-594 tabla de valores T, 763 prueba de signo. véase Prueba de signo prueba de suma de rangos de Wi!coxon, 596-599 significancia de rs, prueba de la, 607 Análisis de regresión. véase Regresión lineal Análisis ele sensibilidad, 736-737 Análisis de varianza de dos factores,
tabla ANOl/A, 5¡ ·1-513 tratamientos, cuadrado medio de,
425-426 variable de bloqueo, 435 variación aleatoria, 422-423 var·iación de tratarniento, 422 variación total, 422 Aproximación normal a la binomial, 243-247 muestra grande, 586-587 prueba del signo y, 586-588 Árboles de decisión, 737-738 Área bajo ta cwva normal, 232-243, 758 Asimetría, 87-88, 117-121 negativa, 87-88, í 17 positiva, 87-88, 117 Asintótica, pro:iiedad, distribución normal,
227-228 Asociación, í 5 Atributo, 8-9 Aumento porcentual promedio en un periodo, 78-79 Autocorrelación, 511
8 Gayes, teorema de, 170-175 Beta (~), 339 Bienes terminados, 672 Bimodal, distribución, 85 Binomial, aproximación normal a la,
243-247, 586-588 acumulada, 208-209 cálculo de la, 201-202 forma de la. 206 media, 206-207 simétrica, 2J6 tablas, 202-203, 746-755 tablas de probabilidad binomial, 202-203 varianza de una, 207
433-437 Análisis de varianza por rangos, 600-603 ANOVA 443-449. véase también Distribución F análisis de varianza en dos direcciones,
433-437 cuadrado medio, 425-426 cuadrado medio de tratamientos,
425-426 cuadrado medio del error (MSE),
425-426, 429 experimento de dos factores, 436 medias de tratamiento, inte1valo de confianza y, 42.9-431 pares de, inferencia acerca de,
429-43·1 prueba ANOVA, la 421-427 suma de cuadrados de bloques, 435 suma de cuadrados del error, 425-426, 435 suma de cuadrados, total, 425-426 suma de cuadrados debidos al tratamiento, 425-426 suposiciones para la, 419, 421
e Celdas, 550 Gentil, ubicación del, 121-122 Gentiles, 12-1-125 Central, tendencia. ver Medidas de tendencia central Chebyshev, teorema de, i i 2 Clase de extremos abiertos, 69 Clases, 23-27 Coeficiente de asimetría (de Pearson),
li7-118 Coeficiente de correlación. ver R·3gresión lineal de asimetría, 118-120 ele determinación, 465-466, 485-490,
512-513 de determinación múltiple, 512-513
de regresión parcial, 503 de variación, i ·15- i 16 Coeficiente de correlación producto momento de Pearson, 460 Coeficiente de correlación de rangos de Spearman, 605-607 Coeficientes de regresión, 472, 503 Coeficiente de regresión neta, 503 Coeficiente de asimetría (so~ware), 118 Coeficientes de regresión, evaluación ele cada uno de los, 517-520 Commodities (materia prima), 672 Computadora. aplicación de la, 15-16 pruebas para una muestra, 356-358 Concepto de probabilidad subjetiva, 155- i 56 Condiciones de certeza, 738 Conjunto de datos bancarios, 775-776 de bienes raíces, 765-767 de los distritos escolares del noroeste de Ohio, 772-774 de la Liga Mayor de Béisbol, 768-77i OECD. 771 Conjunto simétrico de observaciones, 117 Contingencia, tabla de, 167, 566-570 para proporciones, 639-640 Cont1·01 estadístico de procesos (CEP), 623 Control estadístico de calidad, 622-654 diagrama de causa y efecto, 628-630 diagramas de control. véase Diagramas de control diagramas de diagnóstico, 626-630 diagramas de espinazo de pescado, 628-630 diagramas de Pareto, 626-628 historia del control de calidad, 623-625 muestreo de aceptación, 642-645 situación bajo control, 636-638 situación fuera ele control, 636-638 variación asignable, 626 variación aleatoria, 626 variación, causas de, 625-626 Coordenadas. 37 Correiación. véase Regresión lineal: OOORegresión múltiple Correlación rango-orden, 605-607 Correlaciones falsas (o espurias), 465 Cuadrado med·ro del error (MSE), 425-426. 429 Cuartiles, 121-127 Curva característica de operación (CO),
643-645 frecuencia de clase, 25, 28 intervalo de clase, 23-24, 26-27 límites de clase, 24-25 marcas de clase, 26-27 númer·o de, determinar el, 23 puntos medios de clase, 26-27
825
826
Ííldice
D Datos convertidos en índices, 659-660 Datos, distribución de frecuencia. ver Distribución de frecuencia Datos de nivel ele intervalo, 1i Datos de nivel ordinal, i 0-1 ·1 Datos de nivel de razón, 12 Datos no agrupados, 23 Datos sesgados, 87-88 Datos sin procesar, 23 Deciles, 121-125 Decisión sobre la hipótesis nula, pruebas para una muestra, 341 De'fectos por unidad, 54·1 Deflacionador, uso de un índice como, 677 Deploración, 731-734 Desestacionalización de datos, en series de tiempo, 712-716 Desviación media absoluta (DMA), i 02 Desviación estándar (desv. est.), datos agrupados, i 09- i i O definición de, i 04 de una distribución normal, 228-229 de una distribución de probabilidad,
i 96-197 estimaciones puntuales e intervalos de confianza, 298-303 fórmula para el cálculo de, 107-108 interpretación y usos, 1i2-1i4 muestra!, 107- i 08 poblacional, 105-106, 3·1s-3i9 regla empírica, i i 3-1i4 regla normal, í i 3- i i 4 teorema de Chebyshev, i i 2 Desviación media, 102-i03 Desviación normal, 230 Desviación normal estándar, 230 Diagrama de amplitud de variación,
634-636 Diagrama de caja 125-127 Diagrama de causa y efecto, 626, 628-630 Diagrama c con barras, 640-642 Diagrama de espinazo de pescado,
628-630 Diagrama de porcentaje (p) de defectuosos,
639-640 Diagramas de árbol, i 68-170 Diagramas de barras verticales, -46.-47 Diagramas de control, 630-636 de atributos. véase Diagramas de control de atributos factores para, 756 para amplitud de variación, 634-636 para variables, 631-634 diagrama de amplitud de variación,
634-636 error estándar de la media, 63i gran media, 631 limite Inferior de control (LCL, por sus siglas en inglés), 631-634,
639-640,641 límite superior de control (UCL por sus siglas en inglés), 631-634,
539-640, 641 Diagramas de control de atributos, 631 ,
638-642 Diagramas de diagnóstico, 626-630 diagramas de causa y efecto, 628-630 diagramas de esqueleto de pescado (fishbone), 628-630 Diagramas de dispersión, 358, 457, 514
Diagramas p. véase Die.gramas (p) de porcentaje de defectuosos, Diagramas (p) de porcentaje de defectuosos, 639-640 Diagramas de Pareto, 626-628 Diagramas de Venn, 159 Dispersión, 100-148 amplitud de variación, ·101- í 02, ·108- -¡ 09 asimetría, 1i7-121 coeficiente de varia::ión, 1'15-1 ·15 cuartiles, 121- i 25 para datos agrupados en una distribución de frecuencia,
Distribuciones de frecuencias acu1nuladas,
40-44 Distribuciones de probabilidad acumuladas,
208-209 Distribuciones de probabiliclad disc1·eta hipergeométrica, 210-213 normal, véase Distribución de probabilidad normal Poisson, 214-217 Distribuciones ele probabilidad simétrica binomial, 206 Distribución de probabilidad binomial,
200-2i o
i08-1ii deciles, i 21-125 desv. est. ver Desviación estándar (desv. est.) desviación media, 102- i 03 diagramas de caja, 125-127 fórmula de la desviación, 106-107 fórmula directa, 107 porcentiles, 121- i 25 razones para su estudio, i 00- i 01 relativa, 115- i 16 varianza, 104-1 05 varianza muestra!, i 06-i 07 varianza poblacional, 104- i 05 Dispersión relativa, i i 5-1 16 Distribución F, 4 i 4-427 ANOVA véase ANOVA, comparación de dos varianzas, 415-419 estadísticos de prueba para dos varianzas, 416 tabla de valores críticos, 76i 762 Distribución de frecuencias, 6-7, 21-63 clases y, ver Clases datos agrupados el, dispersión y,
108-111 ejemplo con un programa de computación, 27 elaboración de una, 22-27 relativas, 28 representación gráfica de, 34-48 representaciones de tallo y hoja, 29-33 Distribución de muestreo de medias muestrales, 273-277, 285-288 Distribución normal estándar, 227, 229-243 área bajo la curva normal, 232-243, 758 valor normal estándar, 229-231 valor z, 230, 286-288 Distribución de Poisson, 214-217 media de una, 2i 4 tablas, 757 Distribución de probabilidad hipergeométrica, 210-213 Distribución de probabilidad normal,
226-262 aproximación normal a la binomial,
243-247 desviaciones estándar de, 228-229 estándar. ver Distribución normal estándar factor de corrección por continuidad,
245-248 familia de, 227-229 medias de, 228-229 propiedad acampanada, 227-228 propiedad asintótica, 227-228 propiedad simétrica, 227-228 Distribución z como u11 estadístico de prueba, 340
E Ecuación de regresión, 470, 472-473. ver también Regresión múltiple Ecuación de tendencia lineal, 694-695 Ecuación de tendencia logarítmica, 703-705 Ejemplo con un programa de computación, distribución de frecuencias, 27 Ensayos independientes, 200 Error aleatorio, 488 definición de, Si 2 de estimación, estándar múltiple, 509-51 O permitido, 318, 320 variación de, 512 Error estándar, 300-302 de estimación fórmula para el cálculo ele, 479 intervalos de confianza y, 481-484 múltiple, 509-510 de la media, 283-284, 63i usando un factor de correccíón, 316 de la proporción, 315-316, 639-640 Error estándar múltiple de estimación, 509-510 Error de muestreo, 273, 280 Error de tipo I, 338 Error de tipo 11, 339, 364-367 Estadística definición, 2-4 por qué estudia1; 4-6 representación engañosa y, i 4-15 representaciones de tallo y hoja, 29-33 tipos de. ver Tipos de estadística Estadística Bayesiana, 727 Estadística descriptiva, 6-7 Estadística inductiva. 7. ver también Estadística inferencial Estadística inferencia!, 7-8, 150-151 Estadístico, dato, 67 Estadístico de prueba entre dos medias muestrales, 380 para la comparación de dos varianzas, 416 pruebas para una muestra. 339-340, 352, 381 Estadístico z, se desconoce cr, 348-349 Estados naturales, 728 Estandarización, 118 Estimación de coeficientes de regresión, 472 estimaciones puntuales. Véase Estimaciones puntuales e intervalos de confianza, 297-333 corrección para una población finita. Véase Factor de corrección para una población finita
827
Índice proporciones. véase Proporciones, intervalos de confianza para método de mínimos cuadrados, 697-698 tamafio apropiado de muestra, 318-320 para estimar la media, 319 para la proporción poblacional, 320 Estimación combinada de la varianza de la población, 385 Estimación de intervalo, 303-304, 330 Estimación puntual, 298-313 definición de, 299 distribución t, 306-3i o, 760 intervalo de confianza, definición de, 299 intervalo de confianza par·a la media poblacional,
(n"' 30), 302 cuando no se conoces, 307-31 O intervalo de confianza de 95%. 300 intervalo de confianza de 99%, 300 en-ar estándar, 300-302 s desconocida y muestra pequeña.
306 u conocida o muestra grande, 298-303 una simulación por computadora,
Ganancias, 728- 729 C:1rados de libertad, 352 Gráfica de barras, 45-47 Gráfica de barras verticales, 46-4 7 Gráfica circular, 47-48 Gráfica de líneas, 44-45 Gráfica, representación, de barras horizontales, Gi6 de barra, 45-47 gráfica de barras verticales, 46-47 gráficas er,gañosas, 48-50 otras formas, 44-48 figura engañosa y, 14 de una distribución de frecuencias,
733-734 Estr·ategias de deploración minimax,
733-734 Estudio piloto, 318-319 Evento, 151-153, 194-195 Eventos colectivamente exhaustivos, 154 dependientes, 1 65-166 igualmente posibles, 154 independientes, 164 mutuamente excluyentes. 154, 159 Experimento, 151-153 Experimento de dos factores, 436
671-672, 675-679 ajustes al costo de la vida, 679 co1no cleflacionador, 677 determinación del poder adquisitivo,
34-48 frecuencias acumuladas, 40-44 histograma, 35-36 polígono de frecuencias, 36-39 Gráficas, 6-7 de barras rorizonta!es, 46 de datos curvilíneos, 703 engañosas. 48-50 Media global, 631
304-305 Estimación puntual e intervalos de confianza, 304-305 Estrategias de deploración maximax,
propósitos especiales, 670-67 4 para periodos base, 679-682 sinrples, 656-660 índice agregado, 663 promedio de Jos índices de precios, 662 Índices ponderados, 663-667 índice ideal de Fishe1·; 667 índice de precios de laspeyres, 664-667 indice de precios de Paasche, 663-667 Índice de precios al consun1idor (IPC), 656,
H Hipótesis definición de, 335-336 nula (HJ, 337-338, 352, 381 ejemplo, 348 prueba de definiclén de, 336 correlac!ón rango-orden, 608 pruebas para dos muestras. Véase Prueoa de hipótesis para dos muestras pruebas para una muestra. véase Pruebas de hipótesis para una muestra, Histograma, 35-36 Hoja de trabajo MegaStat para Excel,
678-679 determinación del ingreso 1·eal, 676-677 usos especiales, 676-679 Índice de Precios al Productor, 656-672 Índice de satisfacción del consumidor, 670 Índice de valor, 669-670 Inducción regresiva, 738 Inferencia estadística, 7, i50-151. Información perfecta, 734-735 Ingreso deflacionario, 677 Ingreso real, 676-677 Ingreso en unidades monetarias constantes, 677 Intersección y análisis de regresión, 472 Intersección, método de mínimos cuadrados, 695 Intervalos de confianza. ver también Estimación de intervalos y de predicción, 481-484 para valores medios de tratamiento,
429-431 Intervalo de confianza de 95%, 300 Intervalo de confianza de 99%, 300 Intervalos de clase, 23-24, 26-27 Intervalos de predicción, 481-484
777-778 Hojas, 30 Homoscedasticidad, 511, 525-526 Factor de corrección por continuidad, 245-247, 587 para medias trimestrales, 709-71 O para población finita, 316-320 error estándar de la media muestral,
316 error estándar de la proporción muestral, 316 Factores, para diagramas de control, 756 Fórmula de la combinación. 178-179 de la multiplicación, 175-177 de la permutación, i 77-178 para el cálculo del error estándar de estimación, 479 Frecuencia esperada, tabla de contingencias, 568-569 Frecuencias de clase relativas, 28 Frecuencias porcentuales, 84 Fmcuencias relativas, 28, i i 5
566-570 Inclusivo, 162 Índice agregado simple, 663 Índice de la bolsa de acciones de Nueva York. 673 Índice estacional, 706-7.11 Índice ideal de Fisher, 667 Índice, números, 655-688 obtención de, 660-661 datos convertidos en índices, razones para, 359-660 definición de, 656 Índice de Precios al Consumidor. véase Índice ele Precios al Consumidor (IPC) Índice de Precios al P1·oductor,
distribución ji cuad1·ada, 552-554 estadístico de prueba ji cuadrada, 551 frecuencia esperada, 568-569 limitaciones de, 559-561 prueba de bondad de ajuste 549-550 frecuencias esperadas diferentes,
556-559 frecuencias esperadas iguales,
549-554 para p1·obar normalidad. 562-565 valores críticos de ji cuadrada, 564
K Kruskal-Wallis, análisis de varianza por rangos en un sentido de, 600-603
656-672 Índice Standard & Poor's 500, 656,
673 G Ganancia condicional, 738 esperada, 729-730 media, 729-730
J Ji cuadrada, usos de, 548-579 análisis de tablas de contingencias,
índice de valor, 669-670 no ponde:ados, 662-663 ponderado, ver Índices ponderados Promedio Industrial Dow Janes (PIDJ), 656, 672-673
L Lín1ite central, teorema de, 277-285 error estándar de la media, 283-284 Límites de cada clase, 24-25 Límites ele confianza, 303 Línrites de control, 631-634 de defectos por unidad, 641
828 Límite infei-ior de control {UC), 631-634,
639-640, 641 Límite superior ele control (LSC), 631-634,
539-640, 641 M Marcas de clase, 26-27 Matriz de correlación, 5i4-5i5 Maxiministas, 733 Maximin, estrategias de deploración,
733-734 Maximaxistas, 734 Media aritmética, 68-70, 87-88 de datos agrupados, 79-82 Media. véase Medidas de tendencia central Media geométrica, 77-79 Media muestra!, 67-68 distribución de muestreo de la, 273-277,
285-288 error estándar de la, 316 Mediana, ?i-72, 82-84, 87-88 de datos agrupados, 82-84 prueba de hipótesis de signo, 589-590 Media poblacional, 65-66 prueba con una muestra para clesv. est. conocida, 343-346 muestra grande, desv. est. desconocida, 348-349 muestra pequeña, desv. est. desconocida, 351-354 tamaño de la muestra y estimación, 319 Media ele cuadrados, ANOVA y, 425-426 Medición, 9-i3 datos de nivel de intervalo, i 1 datos de nivel nominal, 9-1O datos de nivel ordinal, 10-11 datos de nivel de razón, i 2 Medidas de tendencia central, 64-89 media aritmética, 68- 70, 79-82, 87-88 ele una distribución binomial, 206-207 de una distribución normal, 228-229 de una distribución de Poisson,
214-215 cie una distribución de probabilidad, í 95-196, 228-229 geométrica, 77-79 muestra!. véase Media muestra! poblaciona!, 65-66 ponderada, 70- 71 prueba para dos muestras, 385-387 mediana. véase Mediana moda, 74-76, 84-85, 87-88 Método codificado, mínimos cuadrados,
696 Método de mínimos cuadrados, 695-699 Método del promeclio móvil, 699-702 Método de razón a promedio móvil, 706 Método basados en el intervalo, 318-319 Métodos de muestreo, 263-296 costo de estudiar a todos los integrantes, 265 error de muestreo, 273, 280 imposibilidad de revisar a todos los integrantes, 264 lo adecuado de los resultados de muestras. 265 media muestral, distribución de,
273-277, 285-288
muestras probabilís:icas. ver Muestras probabilísticE:s naturaleza destructiva de las pruebas,
264 pruebas para una muestra. véase Pruebas de hipótesis para una muestra razones para su- uso, 264-265 sesgo en, 267 teorema del límite central. véase Teorema del límite central valor z de la media muestra!, 285-288 Métodos no paramétricos datos ordenados por rangos, análisis de. Ver Análisis de datos ordenados por rango usos de ji cuadrada. véase Usos de ji cuadracla Moda, 74-76, 85-86, 87-88 ecuaciones para la linea de tendencia,
695 estimación 597-698 intersección, 695 método codificado. 696 pendiente 695 trazo de la recta, 696-697 Muestra, 7-8, 383 Muestra no proporcional, 269 Muestra por pares, 394 Muestra proporcional, 269 Muestras dependientes muestras independientes vs., 397-399 pruebas para muestras por pares y,
394-399 Muestras grandes, prueba de signo y,
586-587 Muestras independientes, 397 Muestras probabilísticas, 265-273 muestreo aleatorio estratificado, 269 muestreo aleatorio simple, 266-267 n1uestreo aleatorio siste1nático, 268 Muestreo por conglomeración, 270 Multicolinealidad, 515 Multiplicación, reglas de. ver Reglas de probabilidad
desv. est., 105-i06, 318-319, 343-346 dos muestras peque1las. Véase Prueba de hipótesis para dos 1nuestras proporción poblacional {TI), 314-315, 320 varianza, 104-·105 Población finita, 21 O, 316-320 Poder adquisitivo, 678-679 Polígono de frecuencias, 36-39 acurnuladas, 40-44 Porcentiles, 121-125 Precios, 671. ver también Índice de precios al consumidor (!PC) Principio de mínimos cuadrados, 471 Principios de conteo, 175- i 80 fórn1ula de la combinación, 178-179 fórmula ele la multiplicación, 175-177 fórmula de la permutación, 177- í 78 Probabilidad, 149- í 90. véase también Distribuciones probabilísticas y Muestras probabilísticas clásica, i 53- i 55 concepto empírico, ·155 concepto subjetivo de, 155-156 condicional, i 66 conjunta, í 6i definición de, 151- i 53 diagramas de árbol, i 68-170 distribuciones discretas. ver Distribuciones probabilísticas discretas enfoques de la, i 53-158 evento, i 51-153 experimento, 151-153 frecuencias relativas y, 1 55 muestras. ver Muestras probabilísticas obíetiva, í53-i56 a posteriori, 171, 172 principios de conteo. ver Principios de conteo a priori, i 7i reglas de. ver Reglas de probabilidad resultado, 151-153 teorema de Bayes, i 70- í 75 Promedio, 14 Promedio industrial Dow Janes (P!DJ), 656,
672-673 Promedio simple de índices de precios,
N Naturaleza simétrica de la distribución normal, 227-228 Nivel de confianza, 318 Nivel nominal ele la 1nedición, 9-·10, 581 Nivel ele significancia. ver Signiflcancia Normalidad, prueba de bondad de ajuste para, 562-565 Número de clases, distribución de frecuencia y, 23 Número crítico, 643 Números índice simples, 656-659, 660 p Pará1netro, 66 Pendiente, 472, 695 Pérdida de oportunid::id, 731-733 Pérdida esperada de oprniunidad, 732- 733 Periodo base, 659 desplazamiento, 679-682 Población, 7-8. véase también Media poblacional; Métodos de muestreo
662-663 Promedio simple de los precios relativos, 663 Pronóstico con datos desestacionalizados, 713-716 series de tiempo y. véase Series de tiempo y pronóstico Propagación {spread). Ver también Dispersión Proporción media de defectos, 639-640 Proporciones error est8.ndar y, 315 intervalos de confianza para, 313-316 proporción combinada, 390-392 proporción, definición de, 314 proporción muestral, 314 de pruebas para dos muestras, 389-392 de pruebas para una muestra, 360-363 Prueba de bondad de ajuste: frecuencias esperadas diferentes, 556-559 Prueba de bondad de ajuste: frecuencias esperadas iguales, 549-554 Pruebas libres de distribución, 549 datos ordenados por rango. Ver Análisis de. datos ordenados por rango
829
indice usos de ji cuadrada. véase Usos de ji cuadrada Prueba global, regresión múltiple y, 5i S~Si 7 Prueba de los rangos con signo de Wilcoxon, 590-594 tabla de valores T, 763 Prueba de los rangos con signo de Wilcoxon por pares, 590-594 tablas de valores 1; 563 Prueba de signo, 581-589 aproximación normal a la binomial,
586-588 prueba de hipótesis acerca de Ja mediana, 589-590 Prueba de sun1a de rangos de Wilcoxon,
definición de regresión 512 ecuación de regresión, 503-504, 514-523 coeficientes de regresión individuales, 517-520 con dos variables independientes,
formular la regla de decisión,
340-341, 352-353 decisión respecto a Ja hipótesis nula,
341 proporciones y, 360-363 pruebas de dos colas, 341-346 pruebas de una cola, 34 i-342,346 solución por computadora, 356-358 valor· crítico, 341 valor p en, 347-348 Pruebas para una muestra. ver Pruebas de hipótesis para una muestra de significancia de r, 464 Punto cero, 12 Puntos med'1os :le clase, 26-27
503 con tres variables independientes,
504 diagramas de dispersión, 514 matriz de correlación, 514-515 multicolinealidad, 515 prueba global, 515-517 con k variables independientes,
504 variables cualitativas independientes,
596-599 Pruebas de dos colas. 341-346 Pruebas para dos muestras. ver Pruebas de hipótesis para dos muestras Pruebas de hipótesis par·a dos muestras,
377-407 muestras dependientes, 394-399 procedimiento de cinco pasos, 381-382 establecer las hipótesis nula y alternativa. 381 elección del nivel de significancia,
381 elección del estadístico de prueba,
381 ·formulación de la regla de decisión,
381-382 muestras independientes, 397-399 medias poblacionales, 378-384 cinco pasos para la prueba de hipótesis, 381-383 estadístico de prueba para la diferencia entre dos medias rnuestrales, 380 prueba de, para dos muestras,
385-387 varianza de la distribución de las diferencias en medias muestr·ales,
380 poblaciones con muestras pequeñas,
384-387 varianza conjunta, 385 prueba de medias par·a dos muestras, 385-387 proporciones y, 389-392 Pruebas de hipótesis para una muestra,
334-376 definición de hipótesis, 335-336 definición de prueba de hipótesis. 336 distribución z y, 340 BITO!" de tipo 1, 339 error de tipo 11, 339, 364-367 para la media pob!acional desv. est conocida, 343-346 muestra grande, desv. est. desconocida, 348-349 muestra pequeña, desv. est. desconocida, 351 -354 pr·ocedimiento de cinco pasos, 335_34·1,
352-354 plantear las hipótesis nula y alternativa, 337-338, 352 seleccionar el nivel de significancia,
338-339, 352 se selecciona el estadístico de prueba, 339-340, 352
520-522 R "r" de Pearson, 460 rs, significancia de, prueba de la, 607 Regla del complemento, 159-160 Regla de decisión, pruebas para una muest1·a 340-341, 352-353, Regla empírica, 113-114 Regla normal, 113-114 Reglas de probabilidad, i 58-168 de adición, "158-164 regla del complemento, 159-160 regla especial, 158-159 regla general, 160-163 probabilicad conjunta, 161 mulflplicación, 164- i 68 regla especial, 164- i 66 regla general, 166-167 Regresión, definición de, 512 Regresión lineal, 456-501 análisis de correlación, definición de,
457-459 análisis de regresión, 470-474 coeficiente de correlación, 460-465,
488-4SO ecuaciones para, 470, 472-473 error estándar de estimación,
476-479, 481-484, 488-490 forma conceptual, 463 forma general de ia ecuación, 472 intersección con el eje Y, 472 intervalos de confianza, 481-484 pendiente de la línea de regresión,
472 principio d~ mínimos cuadrados, 471 prueba t para, 468 significanc.a del, prueba, 468-470 trazo de la línea, 473-474 coeficiente de determinación, 465-466.
485-490 consideraciones básicas, 479-481 diagrama de dispersión, 457, 458 ecuación de regresión lineal, 472-473 hoja de cálculo de MegaStat Excel,
777-778 intervalos de predicción, 481-484 variable dependiente, 459 var·iable independiente, 459 Regresión lineal, forma general de la, 472 Regresión múltiple, 502-547 autocorrelación, Si 1 coeficiente de determ'inación múltipie,
512-513 hipótesis, 510-51 i definición de, 503-507
variables ficticias, 520-522 hoja de cálculo MegaStat Excel, 777-778 validez del modelo, 515-517 homoscedasticidad, 511, 525-526 residuales, 523-526 tablaANOVA, 511-513 Reposición, muestreo y, 21 O regresión ml1ltiple y, 523-526 Representación engañosa, 13-15 Residual(es), 509 Resultados, 151-153, 194-195 Resultados mutuamente excluyentes, 200 Riesgo del consumidor, 643 Riesgo del productor, 643
s s desconocida, 306-312 Series de tiempo y pronósticos, 689-725 componentes ele una serie de tiempo,
690-694 ecuación de tendencia logarítmica,
703-705 método de mínimos cuadrados. ver Método de mínimos cuadrados método del promedio móvil, 699-702 tendencia lineal, 694-695 tendencias no lineales, 703-705 tendencia secular, 690-692 variación cíclica, 692 variación episódica, 693-694 var·iación estacional. ver Variación estacional variación irregular 693-694 variaciones residuales, 693-694 Sesgo al muestrear, 267 Signi'ficancia coeficiente de correlación, 468~470 nivel de, 338-339, 352, 381 pruebas de dos colas, 341-346 p1·uebas para dos muestras, 381 pruebas de una cola, 341-342, 346 pruebas para una muestra, 339, 352, 381 de r, 464 Situaciones bajo control, 636-638 Situaciones ·fuera de control. 636-638 Suma de cuadrados de bloques, 435 Suma de cuadrados del error, 435-436 Suma de cuadrados, total, 425-426 Suma de cuadrados, tratamiento, 425-426
T T (valor) dist1·ibución 306-31 O, 760
830
Índice
prueba para el coeficiente de correlación, 468 tabla de valore8, 763 Tabla de números aleatorios, 266, 759 · Tallo, 29, 30 Tamailo de la muestra, 318-320 para la media, 3i 9 para la proporción poblaciorlal, 320 Tendencia secular, 690-692 Tendencias no lineales, 703-705 Teoría de la decisión, 726-744 análisis de sensibilidad, 736-737 árboles de decisión, 737- 738 elementos de una decisión. 727-728 alternativas o actos, 727-728, 729 estados de la naturaleza, 728 ganancias, 728 estudia de un caso, decisión en condiciones de incertidumbre,
728-733 deplorar, 73 i - 734 ganancia esperada, 729-730 ganancia media, 729-730 maxlmin, maximax y minimax,
733-734 pérdida de oportunidad, 731-733 pérdida de oportunidad esperada, 732-733 tabla de ganancia, 728-729 valor monetario esperado, 729-730 información perfecta, valo1· de, 734-735 Teoría estadística de la decisión, 727. véase también Teoría de la decisión. Tipos de estadística, 6-8 descriptiva, 6- 7 inferencia!, 7-8 Tomar la decisión, pruebas para una muestra, 353-354, 382
Tratamientos, 488 cuadrado medio de, 425-426 suma de cuadrados de, 425-426 valores medios de tratamiento, pares de,
429-431 variación de, 422 Trazo de la recta, 696-697 Trazo de la línea de regresión, 473-474
u Unid8.des n1onetarias constantes, ingreso en,677
v. Valor critico, pruebas para una muestra, 340-341 Valor estacional específrco, 709 Valor esperpdo de una información perfecta,
734-735
Valor estadístico mu~s.tr-al, 289 Valür de informació1 pe,rfecta, 734-735 Valor monetario esperado, 729-730 Valo1· normal estándar; . 229-231 Valor P, 34 7-348 Valor z, 230 de una media muestra!, 285-288 Variabilidad, 380 Variable dependiente, 4!59 de bloqueo, 435 'independiente, 459 · Variables, 8- i o VariabJ8s aleatqrias, 194-i 95 continuas,9, 195 discretas, 9, 195, véase también 'Distribuciones de probabilidad discreta
exhaustivas, 9- i O ficticias, 520-522 mutuamente excluyentes, 9-1 O Variables cualitativas, 8-9, 520-522 Variables cualitativas independientes, 520-522 Variables cuantitativas, 9 Variación aleatoria, 626 aleatoria, ANOVA y, 422-423 asignable, 626 cíclica, 692 control de calidad y, 625-626 irregular, series de tiempo, 693-39-4 de la regresión, 5i2 total, 422, 512 Variación estacional, 693, 705-716 desestacionalización de datos, 712-716 índice estacional, determinación, 706-711 medias trimestrales, factor de corrección para, 709-710 método de razón a promedio móvil, pronóstico y, 713-716 valor estacional específico, 709 Variación residual, 693~694 Variaciones episódicas, 693-694 Varianza, i 04-105 análisis de (ANOVA). véase ANOVA análisis por rangos, prueba de Kruskal-Wallis, 600-603 de una distribución binomial, 207 de distribuciones de diferencias, 380 de una distribución de probabilidad, 196 Varianza muestra!, i 06-107 Ventas ajustadas estacionalmente, 712 Ventas desestacionalizadas, 712
El4/E11/04 Esta edición se tenninó de ü11pritnir en febrero de 2004. Publicada poi· ALFAOMEGA GRUPO EDlTOR, S.A. ele C.V. Apartado Postal 73-267, 033 l l, lVIéXico, D.F. La irnprcsión y encuadernación se realizaron en PRINTER COLOMBli-\N.A S.A., Calle 64 .No. SSA/30, Sanlafé de Bogotá, D.C, ~ Colon1bia,