estadisticaII
PDF generado usando el kit de herramientas de fuente abierta mwlib. Ver http://code.pediapress.com/ para mayor información. PDF generated at: Fri, 16 Mar 2012 14:17:20 UTC
Contenidos Artículos Prueba F de Fisher
1
Distribución F
1
Análisis de la varianza
3
Distribución χ²
6
Contraste de hipótesis
9
Hipótesis nula
14
Distribución normal
15
Distribución de probabilidad
33
Variable aleatoria
35
Varianza
40
Función de densidad de probabilidad
43
Probabilidad
45
Teoría de la probabilidad
50
Distribución binomial
52
R (lenguaje de programación)
55
Esperanza matemática
59
Teoría de la medida
61
Distribución de probabilidad continua
64
Distribución exponencial
66
Distribución gamma
68
Distribución t de Student
69
Distribución de Poisson
72
Desviación estándar
76
Intervalo de confianza
80
Población estadística
83
Muestra estadística
84
Estadístico muestral
86
Tamaño de la muestra
88
Teorema del límite central
91
Ronald Fisher
93
Referencias Fuentes y contribuyentes del artículo
97
Fuentes de imagen, Licencias y contribuyentes
99
Licencias de artículos Licencia
100
Prueba F de Fisher
1
Prueba F de Fisher En estadística se denomina prueba F (de Fisher) a cualquier prueba en la que el estadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas: • La hipótesis de que las medias de múltiples poblaciones normalmente distribuidas y con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las hipótesis verificada mediante el test F y el problema más simple del análisis de varianza. • La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales. En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos modelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresión conforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la suma de cuadrados de residuos de los dos modelos como sigue: Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo 0 restringe m coeficientes, el test F puede calcularse como
El valor resultante debe entonces compararse con la entrada correspondiente de la tabla de valores críticos.
Distribución F Fisher-Snedecor
Función de densidad de probabilidad
Función de distribución de probabilidad Parámetros Dominio
grados de libertad
Distribución F
2 Función de densidad (pdf)
Función de distribución (cdf) Media
para
Moda
para
Varianza para Coeficiente de simetría
para
Usada en teoría de probabilidad y estadística, la distribución F es una distribución de probabilidad continua. También se le conoce como distribución F de Snedecor (por George Snedecor) o como distribución F de Fisher-Snedecor. Una variable aleatoria de distribución F se construye como el siguiente cociente:
donde • U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad respectivamente, y • U1 y U2 son estadísticamente independientes. La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F. La función de densidad de una F(d1, d2) viene dada por
para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la función beta. La función de distribución es
donde I es la función beta incompleta regularizada.
Distribuciones relacionadas •
es una distribución ji-cuadrada cuando
para
.
Enlaces externos • Tabla de valores críticos de una distribución F [1] • Prueba de significación mediante la distribución F [2] • Distribution Calculator [3] Calcula las probabilidades y valores críticos para las distribuciones normal, t, ji-cuadrada y F • [4] Calcular la probabilidad de una distribución F-Snedecor con R (lenguaje de programación)
Distribución F
3
Referencias [1] [2] [3] [4]
http:/ / www. itl. nist. gov/ div898/ handbook/ eda/ section3/ eda3673. htm http:/ / home. clara. net/ sisa/ signhlp. htm http:/ / www. vias. org/ simulations/ simusoft_distcalc. html http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node17. php
Análisis de la varianza En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.
Introducción El análisis de la varianza parte de los conceptos de regresión lineal. El primer concepto fundamental es que todo valor observado puede expresarse mediante la siguiente función:
Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable independiente. sería una constante que en la recta de regresión equivale a la ordenada en el origen,
es otra constante que
equivale a la pendiente de la recta, y es una variable aleatoria que añade a la función cierto error que desvía la puntuación observada de la puntuación pronosticada. Por tanto, a la función de pronóstico la podemos llamar "Y prima":
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, más el error aleatorio: (1.1) Sabiendo este concepto, podemos operar con esta ecuación de la siguiente forma: 1) Restamos a ambos lados de la ecuación (para mantener la igualdad) la media de la variable dependiente:
2) Substituimos el error por la ecuación resultante de despejar la ecuación 1.1:
Por tanto...
Y reorganizando la ecuación:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente igual que la media de las puntuaciones pronosticadas:
Por tanto:
Análisis de la varianza Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por el número de casos (n), las llamamos Sumas de Cuadrados., excepto en el último término, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en este caso es cero (por las propiedades de la regresión lineal, la covarianza entre el error y la variable independiente es cero). Por tanto:
O lo mismo que:
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es comparar la variación total de un conjunto de muestras y descomponerla como:
Donde: es un número real relacionado con la varianza, que mide la variación debida al "factor", "tratamiento" o tipo de situación estudiado. es un número real relacionado con la varianza, que mide la variación dentro de cada "factor", "tratamiento" o tipo de situación. En el caso de que la diferencia debida al factor o tratamiento no sean estadísticamente significativa puede probarse que las varianzas muestrales son iguales:
Donde: es el número de situaciones diferentes o valores del factor se están comparando. es el número de mediciones en cada situación se hacen o número de valores disponibles para cada valor del factor. Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o tratamiento es estadísticamente significativo.
Visión general Existen tres clases conceptuales de estos modelos: 1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían diferir únicamente en sus medias. (Modelo 1) 2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento. (Modelo 2) 3. El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
4
Análisis de la varianza
Supuestos previos El ANOVA parte de algunos supuestos que han de cumplirse: • • • •
La variable dependiente debe medirse al menos a nivel de intervalo. Independencia de las observaciones. La distribución de los residuales debe ser normal. Homocedasticidad: homogeneidad de las varianzas.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)
El número de grados de libertad (gl) puede separarse de forma similar y corresponde con la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de cuadrados asociada.
Tipos de modelo Modelo I: Efectos fijos El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal. Este modelo se supone cuando el investigador se interesa únicamente por los niveles del factor presentes en el experimento, por lo que cualquier variación observada en las puntuaciones se deberá al error experimental.
Modelo II: Efectos aleatorios (componentes de varianza) Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición. Este modelo se supone cuando el investigador está interesado en una población de niveles, teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (t niveles) están presentes en el experimento.
Pruebas de significación El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor.
Tablas ANOVA Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reuna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:
5
Análisis de la varianza
6
Fuente de variación Suma de cuadrados Grados de libertad Intergrupo
t-1
Intragrupo o Error
N-t
Total
N-1
Cuadrado medio
F
Referencias Bibliografía • M.R. Spiegel; J. Schiller; R. A. Srinivasan (2007). «9. Análisis de la varianza». Probabilidad y Estadística [Schaum's Outline of Theory and Problems of Probability and Statistics]. Schaum (2ª edición). México D.F.: McGraw-Hill. pp. 335-371. ISBN 978-970-10-4231-1. • F. J. Tejedor Tejedor (1999). Análisis de varianza. Schaum. Madrid: La Muralla S.A.. ISBN 84-7635-388-X.
Distribución χ² Distribución χ² (ji-cuadrado)
Función de densidad de probabilidad
Función de distribución de probabilidad
Distribución χ²
7 Parámetros
grados de libertad
Dominio Función de densidad (pdf)
Función de distribución (cdf)
Media Mediana Moda
aproximadamente if
Varianza Coeficiente de simetría Curtosis Entropía Función generadora de momentos (mgf)
for
Función característica
En estadística, la distribución χ² (de Pearson), llamada Chi cuadrado o Ji cuadrado, es una distribución de probabilidad continua con un parámetro que representa los grados de libertad de la variable aleatoria
donde aleatoria
son variables aleatorias normales independientes de media cero y varianza uno. El que la variable tenga esta distribución se representa habitualmente así:
.
Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi[1] y se pronuncia en castellano como ji.[2][3]
Propiedades Función de densidad Su función de densidad es:
donde
es la función gamma. Demostración
Distribución χ²
8
La función densidad de
si Z es tipo N(0,1) viene dada por
Despejando y teniendo en cuenta contribuciones positivas y negativas de z:
La función distribución de
viene dada por su convolución
Aplicando transformada de Laplace
Aplicando antitransformada se obtiene f(x;k)
Función de distribución acumulada Su función de distribución es
donde
es la función gamma incompleta.
El valor esperado y la varianza de una variable aleatoria X con distribución χ² son, respectivamente, k y 2k.
Relación con otras distribuciones La distribución χ² es un caso especial de la distribución gamma. De hecho,
Como
consecuencia, cuando , la distribución χ² es una distribución exponencial de media . Cuando k es suficientemente grande, como consecuencia del teorema central del límite, puede aproximarse por una distribución normal:
Aplicaciones La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más conocida es la de la denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. Pero también está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student. Aparece también en todos los problemas de análisis de varianza por su relación con la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución χ².
Distribución χ²
9
Referencias [1] Lectiones: Textos clasicos para aprender Latin I (http:/ / books. google. com/ books?id=ZQxvTp0CInUC& printsec=frontcover& hl=es#v=onepage& q=ch ph tomadas del griego& f=false) [2] Omniglot, greek alphabet (http:/ / www. omniglot. com/ writing/ greek. htm) [3] Omniglot, spanish alphabet (http:/ / www. omniglot. com/ writing/ spanish. htm)
Enlaces externos • (http://cajael.com/mestadisticos/T7DContinuas/node7.php)Calcular la probabilidad de una distribución de Pearson con R (lenguaje de programación)
Contraste de hipótesis Dentro de la inferencia estadística, un contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que se supone cumple una población estadística es compatible con lo observado en una muestra de dicha población. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy Neyman y Karl Pearson. Mediante esta teoría, se aborda el problema estadístico considerando una hipótesis determinada alternativa
y una hipótesis
, y se intenta dirimir cuál de las dos es la hipótesis verdadera, tras aplicar el problema estadístico a un
cierto número de experimentos. Está fuertemente asociada a los considerados errores de tipo I y II en estadística, que definen respectivamente, la posibilidad de tomar un suceso falso como verdadero, o uno verdadero como falso. Existen diversos métodos para desarrollar dicho test, minimizando los errores de tipo I y II, y hallando por tanto con una determinada potencia, la hipótesis con mayor probabilidad de ser correcta. Los tipos más importantes son los test centrados, de hipótesis y alternativa simple, aleatorizados, etc. Dentro de los tests no paramétricos, el más extendido es probablemente el test de la U de Mann-Whitney.
Introducción Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis. La aplicación de cálculos probabilísticos permite determinar a partir de qué valor debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según: 1. Especifiquen un valor concreto o un intervalo para los parámetros del modelo. 2. Determinen el tipo de distribución de probabilidad que ha generado los datos. Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del segundo que la distribución de probabilidad es la distribución normal. Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos casos, distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de contraste de hipótesis respecto a un parámetro son, en realidad, problemas de estimación, que tienen una respuesta complementaria dando un intervalo de confianza (o conjunto de intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis respecto a la forma de la distribución se suelen utilizar para validar un modelo estadístico para un fenómeno aleatorio que se está estudiando.
Contraste de hipótesis
10
Planteamiento clásico del contraste de hipótesis Se denomina hipótesis nula
a la hipótesis que se desea contrastar. El nombre de "nula" significa “sin valor,
efecto o consecuencia”, lo cual sugiere que
debe identificarse con la hipótesis de no cambio (a partir de la
opinión actual); no diferencia, no mejora, etc.
representa la hipótesis que mantendremos a no ser que los datos
indiquen su falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La hipótesis
nunca se considera
probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad de que las medias difieran en una cantidad lo suficientemente pequeña para que no pueda ser detectada, aunque la muestra sea muy grande. A partir de una muestra de la población en estudio, se extrae un estadístico (esto es, una valor que es función de la muestra) cuya distribución de probabilidad esté relacionada con la hipótesis en estudio y sea conocida. Se toma entonces el conjunto de valores que es más improbable bajo la hipótesis como región de rechazo, esto es, el conjunto de valores para el que consideraremos que, si el valor del estadístico obtenido entra dentro de él, rechazaremos la hipótesis. La probabilidad de que se obtenga un valor del estadístico que entre en la región de rechazo aún siendo cierta la hipótesis puede calcularse. De esta manera, se puede escoger dicha región de tal forma que la probabilidad de cometer este error sea suficientemente pequeña. Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la población es el conjunto de los treinta lanzamientos a realizar, el estadístico escogido es el número total de caras obtenidas, y la región de rechazo está constituida por los números totales de caras iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda está trucada a pesar de que no lo está es igual a la probabilidad binomial de tener 25 "éxitos" o más en una serie de 30 ensayos de Bernoulli con probabilidad de "éxito" 0,5 en cada uno, entonces: 0,0002, pues existe la posibilidad, aunque poco probable, que la muestra nos dé más de 25 caras sin haber sido la moneda trucada.
Procedimientos de prueba Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si se rechaza
.
Ejemplo Una prueba de
: p = .10 contra
: p < .10, podría estar basada en el examen de una muestra aleatoria de
n = 200 objetos. Representamos con X el número de objetos defectuosos de la muestra, una variable aleatoria binomial; x representa el valor observado de X. si podemos esperar menos de 20 objetos defectuosos si 20 no contradice de manera contundente a
es verdadera, E(X) = np = 200(.10) = 20, mientras, es verdadera. Un valor de x ligeramente debajo de así que es razonable rechazar
considerablemente menor que 20. Un procedimiento de prueba es rechazar
solo si x es
si x≤15 y no rechazar
otra forma. En este caso, la región de rechazo esta formada por x = 0, 1, 2, …, y 15.
de
no será rechazada si
x= 16, 17,…, 199 o 200. Un procedimiento de prueba se especifica por lo siguiente: 1. Un estadístico de prueba: una función de los datos muestrales en los cuales se basa la decisión de rechazar o no rechazar . 2. Una región de rechazo, el conjunto de todos los valores del estadístico de prueba para los cuales
será
rechazada. Entonces, la hipótesis nula será rechazada si y solo si el valor observado o calculado del estadístico de prueba se ubica en la región de rechazo
Contraste de hipótesis
11
En el mejor de los casos podrían desarrollarse procedimientos de prueba para los cuales ningún tipo de error es posible. Pero esto puede alcanzarse solo si una decisión se basa en un examen de toda la población, lo que casi nunca es práctico. La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo puede resultar una muestra no representativa. Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de error es pequeña. La elección de un valor particular de corte de la región de rechazo fija las probabilidades de errores tipo I y II. Estas probabilidades de error son representadas por α y β, respectivamente.
Enfoque actual de los contrastes de hipótesis El enfoque actual considera siempre una hipótesis alternativa a la hipótesis nula. De manera explícita o implícita, la hipótesis nula, a la que se denota habitualmente por , se enfrenta a otra hipótesis que denominaremos hipótesis alternativa y que se denota
. En los casos en los que no se especifica
considerar que ha quedado definida implícitamente como “
de manera explícita, podemos
es falsa”.
Si por ejemplo deseamos comprobar la hipótesis de que dos distribuciones tienen la misma media, estamos implícitamente considerando como hipótesis alternativa “ambas poblaciones tienen distinta media”. Podemos, sin embargo considerar casos en los que no es la simple negación de . Supongamos por ejemplo que sospechamos que en un juego de azar con un dado, este está trucado para obtener 6. Nuestra hipótesis nula podría ser “el dado no está trucado” que intentaremos contrastar, a partir de una muestra de lanzamientos realizados, contra la hipótesis alternativa “el dado ha sido trucado a favor del 6”. Cabría realizar otras hipótesis, pero, a los efectos del estudio que se pretende realizar, no se consideran relevantes. Un test de hipótesis se entiende, en el enfoque moderno, como una función de la muestra, corrientemente basada en un estadístico. Supongamos que se tiene una muestra de una población en estudio y que se han formulado hipótesis sobre un parámetro Supongamos que se dispone de un estadístico
relacionado con la distribución estadística de la población. cuya distribución con respecto a
,
se conoce.
Supongamos, también, que las hipótesis nula y alternativa tienen la formulación siguiente:
Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la siguiente forma:
Donde
significa que debemos rechazar la hipótesis nula,
debemos aceptar
(o que no hay evidencia estadística contra
). A
(aceptar
, que
se la denomina región de rechazo. En
esencia, para construir el test deseado, basta con escoger el estadístico del contraste . Se escoge
) y
y la región de rechazo
de tal manera que la probabilidad de que T(X) caiga en su interior sea baja cuando se da
.
Contraste de hipótesis
12
Errores en el contraste Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis,
o
, y la decisión
escogida coincidirá o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el siguiente cuadro: es cierta
es cierta
Se escogió
No hay error
Error de tipo II
Se escogió
Error de tipo I
No hay error
Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo II, esto es:
En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de escoger
cuando ésta
es cierta . Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo I, α, conduce a incrementar la probabilidad del error de tipo II, β. Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β, probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica conlleva un incremento de los costes del estudio que se quiere realizar.
Contraste más potente El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de tipo I, α, es preferible. Si se trata de contrastar dos hipótesis sencillas sobre un parámetro desconocido, θ, del tipo:
Se trata de escoger entre todos los contrastes posibles con α prefijado aquel que tiene mayor potencia, esto es, menor probabilidad β de incurrir en el error de tipo II. En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de máxima potencia y determina cómo construirlo.
Contraste uniformemente más potente En el caso de que las hipótesis sean compuestas, esto es, que no se limiten a especificar un único posible valor del parámetro, sino que sean del tipo:
donde
y
son conjuntos de varios posibles valores, las probabilidades α y β ya no están unívocamente
determinadas, sino que tomarán diferentes valores según los distintos valores posibles de θ. En este caso se dice que un contraste tiene tamaño α si
Contraste de hipótesis
13
esto es, si la máxima probabilidad de cometer un error de tipo I cuando la hipótesis nula es cierta es α. En estas circunstancias, se puede considerar β como una función de θ, puesto que para cada posible valor de θ en la hipótesis alternativa se tendría una probabilidad distinta de cometer un error de tipo II. Se define entonces
y, la función de potencia del contraste es entonces
esto es, la probabilidad de discriminar que la hipótesis alternativa es cierta para cada valor posible de θ dentro de los valores posibles de esta misma hipótesis. Se dice que un contraste es uniformemente más potente de tamaño α cuando, para todo valor
es
mayor o igual que el de cualquier otro contraste del mismo tamaño. En resumen, se trata de un contraste que garantiza la máxima potencia para todos los valores de θ en la hipótesis alternativa. Es claro que el caso del contraste uniformemente más potente para hipótesis compuestas exige el cumplimiento de condiciones más exigentes que en el caso del contraste más potente para hipótesis simples. Por ello, no existe un equivalente al Lema de Neyman-Pearson para el caso general. Sin embargo, sí existen muchas condiciones en las que, cumpliéndose determinadas propiedades de las distribuciones de probabilidad implicadas y para ciertos tipos de hipótesis, se puede extender el Lema para obtener el contraste uniformemente más potente del tamaño que se desee.
Aplicaciones de los contrastes de hipótesis Los contrastes de hipótesis, como la inferencia estadística en general, son herramientas de amplio uso en la ciencia en general. En particular, la moderna Filosofía de la ciencia desarrolla el concepto de falsabilidad de las teorías científicas basándose en los conceptos de la inferencia estadística en general y de los contrastes de hipótesis. En este contexto, cuando se desea optar entre dos posibles teorías científicas para un mismo fenómeno (dos hipótesis) se debe realizar un contraste estadístico a partir de los datos disponibles sobre el fenómeno que permitan optar por una u otra. Las técnicas de contraste de hipótesis son también de amplia aplicación en muchos otros casos, como ensayos clínicos de nuevos medicamentos, control de calidad, encuestas, etcétera .
Enlaces externos • Inferencia estadística, apuntes del Departamento de Matemáticas de la Universidad de La Coruña [1] • HESTADIS - Cálculo del contraste de hipótesis para la media con varianza poblacional conocida (gratuito) [2] • Carlos Reynoso - Atolladeros del pensamiento aleatorio: Batallas en torno de la prueba estadística. [3]
Referencias [1] http:/ / www. udc. es/ dep/ mate/ estadistica2/ sec1_3. html [2] http:/ / www. vaxasoftware. com/ soft_edu/ hestadis. html [3] http:/ / carlosreynoso. com. ar/ atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica
Hipótesis nula
Hipótesis nula En estadística, una hipótesis nula es una hipótesis construida para anular o refutar, con el objetivo de apoyar una hipótesis alternativa. Cuando se la utiliza, la hipótesis nula se presume verdadera hasta que una prueba estadística en la forma de una prueba empírica de la hipótesis indique lo contrario.
Ejemplos • Hipótesis nula para la distribución ji-cuadrado: «Si este material genético segrega en proporciones mendelianas, no habrá diferencias entre las frecuencias observadas (Oi) y las frecuencias esperadas (Ei).» • Hipótesis nula para la distribución t de Student: «Si la humedad no influye sobre el número de huevos por desove, no habrá diferencias entre las medias de esta variable para cada región.» Plantea la nula diferencia entre el valor observado y el especificado. O entre el muestral respecto al poblacional.
Enlaces externos • Carlos Reynoso: Atolladeros del pensamiento aleatorio - Batallas en torno de la prueba estadística de la hipótesis nula en ciencias sociales [1]
Referencias [1] http:/ / carlosreynoso. com. ar/ atolladeros-del-pensamiento-aleatorio-batallas-en-torno-de-la-prueba-estadistica/
14
Distribución normal
15
Distribución normal Distribución normal
La línea verde corresponde a la distribución normal estándar Función de densidad de probabilidad
Función de distribución de probabilidad Parámetros Dominio Función de densidad (pdf)
Función de distribución (cdf)
Media Mediana Moda Varianza Coeficiente de simetría
0
Curtosis
0
Entropía Función generadora de momentos (mgf)
Distribución normal
16 Función característica
En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes. De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido como método correlacional. La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos. Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la normal son: • • • • • • •
caracteres morfológicos de individuos como la estatura; caracteres fisiológicos como el efecto de un fármaco; caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos; caracteres psicológicos como el cociente intelectual; nivel de ruido en telecomunicaciones; errores cometidos al medir ciertas magnitudes; etc.
La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo, la distribución muestral de las medias muestrales es aproximadamente normal, cuando la distribución de la población de la cual se extrae la muestra no es normal.[1] Además, la distribución normal maximiza la entropía entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de datos resumidos en términos de media muestral y varianza. La distribución normal es la más extendida en estadística y muchos tests estadísticos están basados en una supuesta "normalidad". En probabilidad, la distribución normal aparece como el límite de varias distribuciones de probabilidad continuas y discretas.
Distribución normal
17
Historia La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733,[2] que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre-Laplace.
Abraham de Moivre, descubridor de la distribución normal
Laplace usó la distribución normal en el análisis de errores de experimentos. El importante método de mínimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución porque la usó con profusión cuando analizaba datos astronómicos[3] y algunos autores le atribuyen un descubrimiento independiente del de De Moivre.[4]Esta atribución del nombre de la distribución a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stigler.
El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie campana) por primera vez en 1872 para una distribución normal bivariante de componentes independientes. El nombre de "distribución normal" fue otorgado independientemente por Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita requerida] A pesar de esta terminología, otras distribuciones de probabilidad podrían ser más apropiadas en determinados contextos; véase la discusión sobre ocurrencia, más abajo.
Definición formal Hay varios modos de definir formalmente una distribución de probabilidad. La forma más visual es mediante su función de densidad. De forma equivalente, también pueden darse para su definición la función de distribución, los momentos, la función característica y la función generatriz de momentos, entre otros.
Función de densidad Se dice que una variable aleatoria continua X sigue una distribución normal de parámetros μ y σ y se denota X~N(μ, σ) si su función de densidad está dada por:
donde μ (mu) es la media y σ (sigma) es la desviación estándar (σ2 es la varianza).[5] Se llama distribución normal "estándar" a aquélla en la que sus parámetros toman los valores μ = 0 y σ = 1. En este caso la función de densidad tiene la siguiente expresión:
Distribución normal
18
Su gráfica se muestra a la derecha y con frecuencia se usan ...tablas para el cálculo de los valores de su distribución.
Función de distribución La función de distribución de la distribución normal está definida como sigue:
Por tanto, la función de distribución de la normal estándar es:
Esta función de distribución puede expresarse en términos de una función especial llamada función error de la siguiente forma:
y la propia función de distribución puede, por consiguiente, expresarse así:
El complemento de la función de distribución de la normal estándar,
, se denota con frecuencia
,
[6][7]
y es referida, a veces, como simplemente función Q, especialmente en textos de ingeniería. Esto representa la cola de probabilidad de la distribución gaussiana. También se usan ocasionalmente otras definiciones de la función Q, las cuales son todas ellas transformaciones simples de .[8] La inversa de la función de distribución de la normal estándar (función cuantil) puede expresarse en términos de la inversa de la función de error:
y la inversa de la función de distribución puede, por consiguiente, expresarse como:
Esta función cuantil se llama a veces la función probit. No hay una primitiva elemental para la función probit. Esto no quiere decir meramente que no se conoce, sino que se ha probado la inexistencia de tal función. Existen varios métodos exactos para aproximar la función cuantil mediante la distribución normal (véase función cuantil).
Distribución normal
19
Los valores Φ(x) pueden aproximarse con mucha precisión por distintos métodos, tales como integración numérica, series de Taylor, series asintóticas y fracciones continuas. Límite inferior y superior estrictos para la función de distribución Para grandes valores de x la función de distribución de la normal estándar
es muy próxima a 1 y
está muy cerca de 0. Los límites elementales
en términos de la densidad
son útiles.
Usando el cambio de variable v = u²/2, el límite superior se obtiene como sigue:
De forma similar, usando
Resolviendo para
y la regla del cociente,
proporciona el límite inferior.
Funciones generadoras Función generadora de momentos La función generadora de momentos se define como la esperanza de e(tX). Para una distribución normal, la función generadora de momentos es:
como puede comprobarse completando el cuadrado en el exponente. Función característica La función característica se define como la esperanza de eitX, donde i es la unidad imaginaria. De este modo, la función característica se obtiene reemplazando t por it en la función generadora de momentos. Para una distribución normal, la función característica es[9]
Distribución normal
20
Propiedades Algunas propiedades de la distribución normal son: 1. Es simétrica respecto de su media, μ; 2. La moda y la mediana son ambas iguales a la media, μ; 3. Los puntos de inflexión de la curva se dan para x = μ − σ y x = μ + σ. 4. Distribución de probabilidad en un entorno de la media: 1. en el intervalo [μ - σ, μ + σ] se encuentra comprendida, aproximadamente, el 68,26% de la distribución; 2. en el intervalo [μ - 2σ, μ + 2σ] se encuentra, aproximadamente, el 95,44% de la distribución;
Distribución de probabilidad alrededor de la media en una distribución N(μ, σ).
3. por su parte, en el intervalo [μ -3σ, μ + 3σ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prácticamente la totalidad de la distribución se encuentre a tres desviaciones típicas de la media justifica los límites de las tablas empleadas habitualmente en la normal estándar. 5. Si X ~ N(μ, σ2) y a y b son números reales, entonces (aX + b) ~ N(aμ+b, a2σ2). 6. Si X ~ N(μx, σx2) e Y ~ N(μy, σy2) son variables aleatorias normales independientes, entonces: • Su suma está normalmente distribuida con U = X + Y ~ N(μx + μy, σx2 + σy2) (demostración). Recíprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crámer). • Su diferencia está normalmente distribuida con • Si las varianzas de X e Y son iguales, entonces U y V son independientes entre sí.
.
• La divergencia de Kullback-Leibler, 7. Si
e
entonces: • Su producto
son variables aleatorias independientes normalmente distribuidas,
sigue una distribución con densidad donde
dada por
es una función de Bessel modificada de segundo tipo.
• Su cociente sigue una distribución de Cauchy con 8. Si
. De este modo la
distribución de Cauchy es un tipo especial de distribución cociente. son variables normales estándar independientes, entonces
sigue una
distribución χ² con n grados de libertad. 9. Si son variables normales estándar independientes, entonces la media muestral y la varianza muestral son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qué el test-F no es robusto respecto a la no-normalidad).
Distribución normal
21
Estandarización de variables aleatorias normales Como consecuencia de la Propiedad 1; es posible relacionar todas las variables aleatorias normales con la distribución normal estándar. Si
~
, entonces
es una variable aleatoria normal estándar:
~
.
La transformación de una distribución X ~ N(μ, σ) en una N(0, 1) se llama normalización, estandarización o tipificación de la variable X. Una consecuencia importante de esto es que la función de distribución de una distribución normal es, por consiguiente,
A la inversa, si
es una distribución normal estándar,
es una variable aleatoria normal tipificada de media
~ y varianza
, entonces .
La distribución normal estándar está tabulada (habitualmente en la forma de el valor de la función de distribución Φ) y las otras distribuciones normales pueden obtenerse como transformaciones simples, como se describe más arriba, de la distribución estándar. De este modo se pueden usar los valores tabulados de la función de distribución normal estándar para encontrar valores de la función de distribución de cualquier otra distribución normal.
Momentos Los primeros momentos de la distribución normal son: Número 0 1
Momento 1
Momento central Cumulante 1 0
2 3
0
4 5
0 0
6 7
0
0 0
0
8
Todos los cumulantes de la distribución normal, más allá del segundo, son cero. Los momentos centrales de orden superior (2k con μ = 0) vienen dados por la fórmula
0 0
Distribución normal
El Teorema del Límite Central El Teorema del límite central establece que bajo ciertas condiciones (como pueden ser independientes e idénticamente distribuidas con varianza finita), la suma de un gran número de variables aleatorias se distribuye aproximadamente como una normal. La importancia práctica del Teorema del límite central es que la función de distribución de la normal puede usarse como aproximación de algunas otras funciones de distribución. Por ejemplo: • Una distribución binomial de parámetros n y p es aproximadamente normal para Gráfica de la función de distribución de una normal con μ = 12 y σ = 3, aproximando la grandes valores de n, y p no función de distribución de una binomial con n = 48 y p = 1/4 demasiado cercano a 1 ó 0 (algunos libros recomiendan usar esta aproximación sólo si np y n(1 − p) son ambos, al menos, 5; en este caso se debería aplicar una corrección de continuidad). La normal aproximada tiene parámetros μ = np, σ2 = np(1 − p). • Una distribución de Poisson con parámetro λ es aproximadamente normal para grandes valores de λ. La distribución normal aproximada tiene parámetros μ = σ2 = λ. La exactitud de estas aproximaciones depende del propósito para el que se necesiten y de la tasa de convergencia a la distribución normal. Se da el caso típico de que tales aproximaciones son menos precisas en las colas de la distribución. El Teorema de Berry-Esséen proporciona un límite superior general del error de aproximación de la función de distribución.
Divisibilidad infinita Las normales tienen una distribución de probabilidad infinitamente divisible: Para una distribución normal X de media μ y varianza σ2 ≥ 0, es posible encontrar n variables aleatorias independientes {X1,...,Xn} cada una con distribución normal de media μ/n y varianza σ2/n dado que la suma X1 + . . . + Xn de estas n variables aleatorias tenga esta específica distribución normal (para verificarlo, úsese la función característica de convolución y la inducción matemática).
22
Distribución normal
23
Estabilidad Las distribuciones normales son estrictamente estables.
Desviación típica e intervalos de confianza Alrededor del 68% de los valores de una distribución normal están a una distancia σ < 1 (desviación típica) de la media, μ; alrededor del 95% de los valores están a dos desviaciones típicas de la media y alrededor del 99,7% están a tres desviaciones típicas de la media. Esto se conoce como la "regla 68-95-99,7" o la "regla empírica". Para ser más precisos, el área bajo la curva campana entre μ − nσ y μ + nσ en términos de la función de distribución normal viene dada por
donde erf es la función error. Con 12 decimales, los valores para los puntos 1-, 2-, hasta 6-σ son:
1 0,682689492137 2 0,954499736104 3 0,997300203937 4 0,999936657516 5 0,999999426697 6 0,999999998027
La siguiente tabla proporciona la relación inversa de múltiples σ correspondientes a unos pocos valores usados con frecuencia para el área bajo la campana de Gauss. Estos valores son útiles para determinar intervalos de confianza para los niveles especificados basados en una curva normalmente distribuida (o estimadores asintóticamente normales):
0,80
1,28155
0,90
1,64485
0,95
1,95996
0,98
2,32635
0,99
2,57583
0,995
2,80703
0,998
3,09023
0,999
3,29052
0,9999
3,8906
0,99999
4,4172
donde el valor a la izquierda de la tabla es la proporción de valores que caerán en el intervalo dado y n es un múltiplo de la desviación típica que determina la anchura de el intervalo.
Distribución normal
24
Forma familia exponencial La distribución normal tiene forma de familia exponencial biparamétrica con dos parámetros naturales, μ y 1/σ2, y estadísticos naturales X y X2. La forma canónica tiene como parámetros
y
y estadísticos suficientes
y
Distribución normal compleja Considérese la variable aleatoria compleja gaussiana
donde X e Y son variables gaussianas reales e independientes con igual varianza
. La función de distribución de
la variable conjunta es entonces
Como
, la función de distribución resultante para la variable gaussiana compleja Z es
Distribuciones relacionadas •
es una distribución de Rayleigh si
donde
y
son dos distribuciones normales independientes. •
es una distribución χ² con
grados de libertad si
donde
y son independientes. es una distribución de Cauchy si
•
para
para
y
son dos distribuciones normales independientes. •
es una distribución log-normal si
• Relación con una distribución estable: si • Distribución normal truncada. si
y
. entonces
.
entonces truncando X por debajo de
dará lugar a una variable aleatoria de media
donde y
densidad de una variable normal estándar. • Si es una variable aleatoria normalmente distribuida e
y por encima de
, entonces
es la función de
tiene una distribución normal
doblada.
Estadística descriptiva e inferencial Resultados De la distribución normal se derivan muchos resultados, incluyendo rangos de percentiles ("percentiles" o "cuantiles"), curvas normales equivalentes, stanines, z-scores, y T-scores. Además, un número de procedimientos de estadísticos de comportamiento están basados en la asunción de que esos resultados están normalmente distribuidos. Por ejemplo, el test de Student y el análisis de varianza (ANOVA) (véase más abajo). La gradación de la curva
Distribución normal campana asigna grados relativos basados en una distribución normal de resultados.
Tests de normalidad Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con una distribución normal. La hipótesis nula es, en estos casos, si el conjunto de datos es similar a una distribución normal, por lo que un P-valor suficientemente pequeño indica datos no normales. • • • • • • • •
Prueba de Kolmogórov-Smirnov Test de Lilliefors Test de Anderson–Darling Test de Ryan–Joiner Test de Shapiro–Wilk Normal probability plot (rankit plot) Test de Jarque–Bera Test omnibús de Spiegelhalter
Estimación de parámetros Estimación de parámetros de máxima verosimilitud Véase también: Máxima verosimilitud
Supóngase que son independientes y cada una está normalmente distribuida con media μ y varianza σ 2 > 0. En términos estadísticos los valores observados de estas n variables aleatorias constituyen una "muestra de tamaño n de una población normalmente distribuida. Se desea estimar la media poblacional μ y la desviación típica poblacional σ, basándose en las valores observados de esta muestra. La función de densidad conjunta de estas n variables aleatorias independientes es
Como función de μ y σ, la función de verosimilitud basada en las observaciones X1, ..., Xn es
con alguna constante C > 0 (de la cual, en general, se permitiría incluso que dependiera de X1, ..., Xn, aunque desapareciera con las derivadas parciales de la función de log-verosimilitud respecto a los parámetros tenidos en cuenta, véase más abajo). En el método de máxima verosimilitud, los valores de μ y σ que maximizan la función de verosimilitud se toman como estimadores de los parámetros poblacionales μ y σ. Habitualmente en la maximización de una función de dos variables, se podrían considerar derivadas parciales. Pero aquí se explota el hecho de que el valor de μ que maximiza la función de verosimilitud con σ fijo no depende de σ. No obstante, encontramos que ese valor de μ, entonces se sustituye por μ en la función de verosimilitud y finalmente encontramos el valor de σ que maximiza la expresión resultante. Es evidente que la función de verosimilitud es una función decreciente de la suma
25
Distribución normal
Así que se desea el valor de μ que minimiza esta suma. Sea
la media muestral basada en las n observaciones. Nótese que
Sólo el último término depende de μ y se minimiza por
Esta es la estimación de máxima verosimilitud de μ basada en las n observaciones X1, ..., Xn. Cuando sustituimos esta estimación por μ en la función de verosimilitud, obtenemos
Se conviene en denotar la "log-función de verosimilitud", esto es, el logaritmo de la función de verosimilitud, con una minúscula ℓ, y tenemos
entonces
Esta derivada es positiva, cero o negativa según σ2 esté entre 0 y
o sea igual a esa cantidad, o mayor que esa cantidad. (Si hay solamente una observación, lo que significa que n = 1, o si X1 = ... = Xn, lo cual sólo ocurre con probabilidad cero, entonces por esta fórmula, refleja el hecho de que en estos casos la función de verosimilitud es ilimitada cuando σ decrece hasta cero.) Consecuentemente esta media de cuadrados de residuos es el estimador de máxima verosimilitud de σ2, y su raíz cuadrada es el estimador de máxima verosimilitud de σ basado en las n observaciones. Este estimador es sesgado, pero tiene un menor error medio al cuadrado que el habitual estimador insesgado, que es n/(n − 1) veces este estimador.
26
Distribución normal
27
Sorprendente generalización La derivada del estimador de máxima verosimilitud de la matriz de covarianza de una distribución normal multivariante es despreciable. Involucra el teorema espectral y la razón por la que puede ser mejor para ver un escalar como la traza de una matriz 1×1 que como un mero escalar. Véase estimación de la covarianza de matrices. Estimación insesgada de parámetros El estimador
de máxima verosimilitud de la media poblacional μ, es un estimador insesgado de la media
poblacional. El estimador de máxima verosimilitud de la varianza es insesgado si asumimos que la media de la población es conocida a priori, pero en la práctica esto no ocurre. Cuando disponemos de una muestra y no sabemos nada de la media o la varianza de la población de la que se ha extraído, como se asumía en la derivada de máxima verosimilitud de arriba, entonces el estimador de máxima verosimilitud de la varianza es sesgado. Un estimador insesgado de la varianza σ2 es la cuasi varianza muestral:
que sigue una distribución Gamma cuando las Xi son normales independientes e idénticamente distribuidas:
con media
y varianza
La estimación de máxima verosimilitud de la desviación típica es la raíz cuadrada de la estimación de máxima verosimilitud de la varianza. No obstante, ni ésta, ni la raíz cuadrada de la cuasivarianza muestral proporcionan un estimador insesgado para la desviación típica (véase estimación insesgada de la desviación típica para una fórmula particular para la distribución normal.
Incidencia Las distribuciones aproximadamente normales aparecen por doquier, como queda explicado por el teorema central del límite. Cuando en un fenómeno se sospecha la presencia de un gran número de pequeñas causas actuando de forma aditiva e independiente es razonable pensar que las observaciones serán "normales". Hay métodos estadísticos para probar empíricamente esta asunción, por ejemplo, el test de Kolmogorov-Smirnov. Hay causas que pueden actuar de forma multiplicativa (más que aditiva). En este caso, la asunción de normalidad no está justificada y es el logaritmo de la variable en cuestión el que estaría normalmente distribuido. La distribución de las variables directamente observadas en este caso se denomina log-normal. Finalmente, si hay una simple influencia externa que tiene un gran efecto en la variable en consideración, la asunción de normalidad no está tampoco justificada. Esto es cierto incluso si, cuando la variable externa se mantiene constante, las distribuciones marginales resultantes son, en efecto, normales. La distribución completa será una superposición de variables normales, que no es en general normal. Ello está relacionado con la teoría de errores (véase más abajo). A continuación se muestran una lista de situaciones que estarían, aproximadamente, normalmente distribuidas. Más abajo puede encontrarse una discusión detallada de cada una de ellas: • En problemas de recuento, donde el teorema central del límite incluye una aproximación de discreta a continua y donde las distribuciones infinitamente divisibles y descomponibles están involucradas, tales como: • variables aleatorias binomiales, asociadas con preguntas sí/no; • variables aleatorias de Poisson, asociadas con eventos raros; • En medidas fisiológicas de especímenes biológicos:
Distribución normal • El logaritmo de las medidas del tamaño de tejidos vivos (longitud, altura, superficie de piel, peso); • La longitud de apéndices inertes (pelo, garras, rabos, dientes) de especímenes biológicos en la dirección del crecimento; • Otras medidas fisiológicas podrían estar normalmente distribuidas, aunque no hay razón para esperarlo a priori; • Se asume con frecuencia que los errores de medida están normalmente distribuidos y cualquier desviación de la normalidad se considera una cuestión que debería explicarse; • Variables financieras, en el modelo Black-Scholes: • Cambios en el logaritmo de Cambios en el logaritmo de tasas de cambio, índices de precios, índices de existencias de mercado; estas variables se comportan como el interés compuesto, no como el interés simple, por tanto, son multiplicativas; • Mientras que el modelo Black-Scholes presupone normalidad, en realidad estas variables exhiben colas pesadas, como puede verse en crash de las existencias de mercado; • Otras variables financieras podrían estar normalmente distribuidas, pero no hay razón para esperarlo a priori; • Intensidad de la luz: • La intensidad de la luz láser está normalmente distribuida; • La luz térmica tiene una distribución de Bose-Einstein en escalas de tiempo muy breves y una distribución normal en grandes escalas de tiempo debido al teorema central del límite. Es relevante para la biolgía y la economía el hecho de que los sistemas complejos tienden a mostrar la ley de potencias más que normal.
Recuento de fotones La intensidad de la luz de una sola fuente varía con el tiempo, así como las fluctuaciones térmicas que pueden observarse si la luz se analiza a una resolución suficientemente alta. La mecánica cuántica interpreta las medidas de la intensidad de la luz como un recuento de fotones, donde la asunción natural es usar la distribución de Poisson. Cuando la intensidad de la luz se integra a lo largo de grandes periodos de tiempo mayores que el tiempo de coherencia, la aproximación Poisson - Normal es apropiada.
Medida de errores La normalidad es la asunción central de la teoría matemática de errores. De forma similar en el ajuste de modelos estadístico, un indicador de la bondad del ajuste es que el error residual (así es como se llaman los errores en esta circunstancia) sea independiente y normalmente distribuido. La asunción es que cualquier desviación de la normalidad necesita ser explicada. En ese sentido, en ambos, ajuste de modelos y teoría de errores, la normalidad es la única observación que no necesita ser explicada, sino que es esperada. No obstante, si los datos originales no están normalmente distribuidos (por ejemplo, si siguen una distribución de Cauchy, entonces los residuos tampoco estarán normalmente distribuidos. Este hecho es ignorado habitualmente en la práctica. Las medidas repetidas de la misma cantidad se espera que cedan el paso a resultados que están agrupados entorno a un valor particular. Si todas las fuentes principales de errores se han tomado en cuenta, se asume que el error que queda debe ser el resultado de un gran número de muy pequeños y aditivos efectos y, por consiguiente, normal. Las desviaciones de la normalidad se interpretan como indicaciones de errores sistemáticos que no han sido tomados en cuenta. Puede debatirse si esta asunción es válida. Una famosa observación atribuida a Gabriel Lippmann dice:[cita requerida] Todo el mundo cree en la ley normal de los errores: los matemáticos, porque piensan que es un hecho experimental; y los experimentadores, porque suponen que es un teorema matemático Otra fuente podría ser Henri Poincaré [10].
28
Distribución normal
29
Características físicas de especímenes biológicos Los tamaños de los animales adultos siguen aproximadamente una distribución log-normal. La evidencia y explicación basada en modelos de crecimiento fue publicada por primera vez en el libro Problemas de crecimiento relativo, de 1932, por Julian Huxley. Las diferencias de tamaño debido a dimorfismos sexuales u otros polimorfismos de insectos, como la división social de las abejas en obreras, zánganos y reinas, por ejemplo, hace que la distribución de tamaños se desvíe hacia la lognormalidad. La asunción de que el tamaño lineal de los especímenes biológicos es normal (más que lognormal) nos lleva a una distribución no normal del peso (puesto que el peso o el volumen es proporcional al cuadrado o el cubo de la longitud y las distribuciones gaussianas sólo mantienen las transformaciones lineales). A la inversa, asumir que el peso sigue una distribución normal implica longitudes no normales. Esto es un problema porque, a priori, no hay razón por la que cualquiera de ellas (longitud, masa corporal u otras) debería estar normalmente distribuida. Las distribuciones lognormales, por otro lado, se mantienen entre potencias, así que el "problema" se desvanece si se asume la lognormalidad. Por otra parte, hay algunas medidas biológicas donde se asume normalidad, tales como la presión sanguínea en humanos adultos. Esta asunción sólo es posible tras separar a hombres y mujeres en distintas poblaciones, cada una de las cuales está normalmente distribuida.
Variables financieras Ya en 1900 Louis Bachelier propuso representar los precios de cambio usando la distribución normal. Esta aproximación se ha modificado desde entonces ligeramente. A causa de la naturaleza multiplicativa del interés compuesto, los indicadores financieros como valores de mercado y precios de las materias primas exhiben un "comportamiento multiplicativo". Como tales, sus cambios periódicos (por ejemplo, cambios anuales) no son normales, sino lognormales. Esta es todavía la hipótesis más comúnmente aceptada en economía. No obstante, en realidad las variables financieras exhiben colas pesadas y así, la asunción de normalidad infravalora la probabilidad de eventos extremos como quiebras financieras. Se han sugerido correcciones a este modelo por parte de matemáticos como Benoît Mandelbrot, quien observó que los cambios en el logaritmo durante breves periodos de tiempo (como un día) se aproximan bien por distribuciones que no tienen una varianza finita y, por consiguiente, el teorema central del límite no puede aplicarse. Más aún, la suma de muchos de tales cambios sigue una distribución de log-Levy.
El modelo normal de movimiento de activos no incluye movimientos extremos tales como quiebras financieras.
Distribuciones en tests de inteligencia A veces, la dificultad y número de preguntas en un test de inteligencia se selecciona de modo que proporcionen resultados normalmente distribuidos. Más aún, las puntuaciones "en crudo" se convierten a valores que marcan el cociente intelectual ajustándolas a la distribución normal. En cualquier caso se trata de un resultado causado deliberadamente por la construcción del test o de una interpretación de las puntuaciones que sugiere normalidad para la mayoría de la población. Sin embargo, la cuestión acerca de si la inteligencia en sí está normalmente distribuida es más complicada porque se trata de una variable latente y, por consiguiente, no puede observarse directamente.
Distribución normal
Ecuación de difusión La función de densidad de la distribución normal está estrechamente relacionada con la ecuación de difusión (homogénea e isótropa) y, por tanto, también con la ecuación de calor. Esta ecuación diferencial parcial describe el tiempo de evolución de una función de densidad bajo difusión. En particular, la función de densidad de masa
para la distribución normal con esperanza 0 y varianza t satisface la ecuación de difusión:
Si la densidad de masa para un tiempo t = 0 viene dada por la delta de Dirac, lo cual significa, esencialemente que toda la masa está inicialmente concentrada en un punto, entonces la función de densidad de masa en el tiempo t tendrá la forma de la función de densidad de la normal, con varianza creciendo linealmente con t. Esta conexión no es coincidencia: la difusión se debe a un movimiento Browniano que queda descrito matemáticamente por un proceso de Wiener, y tal proceso en un tiempo t también resultará normal con varianza creciendo linealmente con t'. Más generalmente, si la densidad de masa inicial viene dada por una función φ(x), entonces la densidad de masa en un tiempo t vendrá dada por la convolución de φ y una función de densidad normal.
Uso en estadística computacional Generación de valores para una variable aleatoria normal Para simulaciones por ordenador es útil, en ocasiones, generar valores que podrían seguir una distribución normal. Hay varios métodos y el más básico de ellos es invertir la función de distribución de la normal estándar. Se conocen otros métodos más eficientes, uno de los cuales es la transformación de Box-Muller. Un algoritmo incluso más rápido es el algoritmo zigurat. Ambos se discuten más abajo. Una aproximación simple a estos métodos es programarlos como sigue: simplemente súmense 12 desviaciones uniformes (0,1) y réstense 6 (la mitad de 12). Esto es bastante útil en muchas aplicaciones. La suma de esos 12 valores sigue la distribución de Irwin-Hall; son elegidos 12 para dar a la suma una varianza de uno, exactamente. Las desviaciones aleatorias resultantes están limitadas al rango (−6, 6) y tienen una densidad que es una doceava sección de una aproximación polinomial de undécimo orden a la distribución normal .[11] El método de Box-Muller dice que, si tienes dos números aleatorios U y V uniformemente distribuidos en (0, 1], (por ejemplo, la salida de un generador de números aleatorios), entonces X e Y son dos variables aleatorias estándar normalmente distribuidas, donde:
Esta formulación aparece porque la distribución χ² con dos grados de libertad (véase la propiedad 4, más arriba) es una variable aleatoria exponencial fácilmente generada (la cual corresponde a la cantidad lnU en estas ecuaciones). Así, un ángulo elegido uniformemente alrededor de un círculo vía la variable aleatoria V y un radio elegido para ser exponencial se transforman entonces en coordenadas x e y normalmente distribuidas. Un método mucho más rápido que la transformación de Box-Muller, pero que sigue siendo exacto es el llamado algoritmo Zigurat, desarrollado por George Marsaglia. En alrededor del 97% de los casos usa sólo dos números aleatorios, un entero aleatorio y un uniforme aleatorio, una multiplicación y un test-si . Sólo un 3% de los casos donde la combinación de estos dos cae fuera del "corazón del zigurat", un tipo de rechazo muestral usando logaritmos, exponenciales y números aleatorios más uniformes deberían ser empleados. Hay también alguna investigación sobre la conexión entre la rápida transformación de Hadamard y la distribución normal, en virtud de que la transformación emplea sólo adición y sustracción y por el teorema central del límite los
30
Distribución normal números aleatorios de casi cualquier distribución serán transformados en la distribución normal. En esta visión se pueden combinar una serie de transformaciones de Hadamard con permutaciones aleatorias para devolver conjuntos de datos aleatorios normalmente distribuidos.
Aproximaciones numéricas de la distribución normal y su función de distribución La función de distribución normal se usa extensamente en computación científica y estadística. Por consiguiente, ha sido implementada de varias formas. Abramowitz y Stegun (1964) dan la conocida como "mejor aproximación de Hastings" para Φ(x) con x > 0 con un error absoluto |ε(x)| < 7.5·10−8 (algoritmo 26.2.17 [12]):
donde ϕ(x) es la función de densidad de la distribución normal estándar,
y las constantes son b0 = 0.2316419, b1 = 0.319381530, b2 = −0.356563782, b3 = 1.781477937, b4 = −1.821255978, b5 = 1.330274429. La Biblioteca Científica GNU calcula valores de la función de distribución normal estándar usando aproximaciones por funciones racionales a trozos. Otro método de aproximación usa polinomios de tercer grado en intervalos.[13] El artículo sobre el lenguaje de programación bc proporciona un ejemplo de cómo computar la función de distribución en GNU bc. Para una discusión más detallada sobre cómo calcular la distribución normal, véase la sección 3.4.1C. de The Art of Computer Programming (El arte de la programación por ordenador), de Knuth.
Referencias [1] Es una consecuencia del Teorema Central del Límite [2] Abraham de Moivre, "Approximatio ad Summam Terminorum Binomii (a + b)n in Seriem expansi" (impreso el 12 de noviembre de 1733 en Londres para una edición privada). Este panfleto se reimprimió en: (1) Richard C. Archibald (1926) “A rare pamphlet of Moivre and some of his discoveries,” Isis, vol. 8, páginas 671-683; (2) Helen M. Walker, “De Moivre on the law of normal probability” en David Eugene Smith, A Source Book in Mathematics [Nueva York, Nueva York: McGraw-Hill, 1929; reimpresión: Nueva York, Nueva York: Dover, 1959], vol. 2, páginas 566-575.; (3) Abraham De Moivre, The Doctrine of Chances (2ª ed.) [Londres: H. Woodfall, 1738; reimpresión: Londres: Cass, 1967], páginas 235-243; (3ª ed.) [Londres: A Millar, 1756; reimpresión: Nueva York, Nueva York: Chelsea, 1967], páginas 243-254; (4) Florence N. David, Games, Gods and Gambling: A History of Probability and Statistical Ideas [Londres: Griffin, 1962], Apéndice 5, páginas 254-267. [3] Havil, 2003 [4] Wussing, Hans (marzo de 1998). « Lección 10 (http:/ / books. google. es/ books?id=IG3_b5Xm8PMC)». Lecciones de Historia de las Matemáticas (1ª (castellano) edición). Siglo XXI de España Editores, S.A.. pp. 190. ISBN 84-323-0966-4. . «"La distribución normal y sus aplicaciones a la teoría de errores se asocia a menudo con el nombre de Gauss, quien la descubrió -igual que Laplace- independientemente; no obstante ya había sido estudiada por de Moivre» [5] Weisstein, Eric W. « Normal Distribution (http:/ / mathworld. wolfram. com/ NormalDistribution. html)» (en inglés). MathWorld. Wolfram Research. Consultado el 18 de marzo de 2009. [6] La función Q (http:/ / cnx. org/ content/ m11537/ latest/ ) [7] http:/ / www. eng. tau. ac. il/ ~jo/ academic/ Q. pdf [8] Weisstein, Eric W. « Normal Distribution Function (http:/ / mathworld. wolfram. com/ NormalDistributionFunction. html)» (en inglés). MathWorld. Wolfram Research. [9] M.A. Sanders. « Characteristic function of the univariate normal distribution (http:/ / www. planetmathematics. com/ CharNormal. pdf)». Consultado el 06-03-2009. [10] http:/ / en. wikiquote. org/ wiki/ Henri_Poincaré#Misattributed [11] Johnson NL, Kotz S, Balakrishnan N. (1995) Continuous Univariate Distributions Volume 2, Wiley. Equation(26.48) [12] http:/ / www. math. sfu. ca/ ~cbm/ aands/ page_932. htm [13] Andy Salter. « B-Spline curves (http:/ / www. doc. ic. ac. uk/ ~dfg/ AndysSplineTutorial/ BSplines. html)». Consultado el 05-12-2008.
31
Distribución normal
Enlaces externos • Áreas bajo la curva normal (http://www.digitalreview.com.ar/distribucionnormal/) Tabla conteniendo los valores de la función normal • Calculadora de probabilidades en una distribución Normal (http://www.ugr.es/~jsalinas/normal.htm). Permite hacer cálculos directos e inversos. • (http://www.foro.resuelveproblemas.com/Matematicas-La-distribución-normal) Demostración de la distribución normal • Tabla de la distribución normal (http://www.vaxasoftware.com/doc_edu/mat/dnormal.pdf) Tabla de la distribución normal en formato PDF Se puede usar software y un programa de computadora para el ajuste de una distribución de probabilidad, incluyendo la normal, a una serie de datos: • Easy fit (http://www.mathwave.com/articles/distribution_fitting.html), "data analysis & simulation" • MathWorks Benelux (http://www.mathworks.nl/products/statistics/demos.html?file=/products/demos/ shipping/stats/cfitdfitdemo.html) • ModelRisk (http://www.vosesoftware.com/), "risk modelling software" • Ricci distributions, fitting distrubutions with R (http://cran.r-project.org/doc/contrib/Ricci-distributions-en. pdf) , Vito Ricci, 2005 • Risksolver, automatically fit distributions and parameters to samples (http://www.solver.com/risksolver8.htm) • StatSoft distribution fitting (http://www.statsoft.com/textbook/distribution-fitting/) • CumFreq (http://www.waterlog.info/cumfreq.htm) , libre sin costo, incluye la distribución normal, la lognormal, raíz-normal, cuadrado-normal, e intervalos de confianza a base de la distribución binomial • Calculadora Distribución normal (http://www.stud.feec.vutbr.cz/~xvapen02/vypocty/no. php?language=espanol) • (http://cajael.com/mestadisticos/T7DContinuas/node3.php) Calcular la probabilidad de una distribucion normal con R (lenguaje de programación)
32
Distribución de probabilidad
33
Distribución de probabilidad En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los sucesos es el rango de valores de la variable aleatoria.
La distribución Normal suele conocerse como la "campana de Gauss".
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.
Definición de función de distribución Dada una variable aleatoria todos son puntos
, su función de distribución,
Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice
, es
y se escribe, simplemente,
.
Propiedades Como consecuencia casi inmediata de la definición, la función de distribución: • Es una función continua por la derecha. • Es una función monótona no decreciente. Además, cumple
y
Para dos números reales cualesquiera
y
tal que
mutuamente excluyentes y su unión es el suceso
, los sucesos
y
son
, por lo que tenemos entonces que:
y finalmente
Por lo tanto una vez conocida la función de distribución
para todos los valores de la variable aleatoria
conoceremos completamente la distribución de probabilidad de la variable. Para realizar cálculos es más cómodo conocer la distribución de probabilidad, y sin embargo para ver una representación gráfica de la probabilidad es más práctico el uso de la función de densidad.
Distribución de probabilidad
34
Distribuciones de variable discreta Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es la suma de la función de masa, por lo que tenemos entonces que:
Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión representa la suma de todas las probabilidades desde hasta el valor . Distribución binomial.
Distribuciones de variable discreta más importantes Las distribuciones de variable discreta más importantes son las siguientes: • • • • • • • •
Distribución binomial Distribución binomial negativa Distribución Poisson Distribución geométrica Distribución hipergeométrica Distribución de Bernoulli Distribución Rademacher, que toma el valor 1 con probabilidad 1 / 2 y el valor -1 con probabilidad 1 / 2. Distribución uniforme discreta, donde todos los elementos de un conjunto finito son equiprobables.
Distribuciones de variable continua Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:
Distribuciones de variable continua más importantes Las distribuciones de variable continua más importantes son las siguientes: • • • • • • •
Distribución ji cuadrado Distribución exponencial Distribución t de Student Distribución normal Distribución Gamma Distribución Beta Distribución F
Distribución normal.
Distribución de probabilidad
35
• Distribución uniforme (continua)
Enlaces externos • Wikimedia Commons alberga contenido multimedia sobre Distribuciones de probabilidad. Commons • Wikilibros: Estadística
Variable aleatoria Una variable es aleatoria si su valor está determinado por el azar. En gran número de experimentos aleatorios es necesario, para su tratamiento matemático, cuantificar los resultados de modo que se asigne un número real a cada uno de los resultados posibles del experimento. De este modo se establece una relación funcional entre elementos del espacio muestral asociado al experimento y números reales. En probabilidad y estadística, una variable aleatoria o variable estocástica es una variable cuyos valores se obtienen de mediciones en algún tipo de experimento aleatorio. Formalmente, una variable aleatoria es una función, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc.) a números reales (p.e., su suma). Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento aún no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medición incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribución de probabilidad se usa para describir la probabilidad de que se den los diferentes valores. Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lógicos, funciones... El término elemento aleatorio se utiliza para englobar todo ese tipo de conceptos relacionados. Un concepto relacionado es el de proceso estocástico, un conjunto de variables aleatorias ordenadas (habitualmente por orden o tiempo). Una variable aleatoria (v.a.) X es una función real definida en el espacio muestral, Ω, asociado a un experimento aleatorio.[1][2]
Se llama rango de una v.a. X y lo denotaremos RX, a la imagen o rango de la función
, es decir, al conjunto de
los valores reales que ésta puede tomar, según la aplicación X. Dicho de otro modo, el rango de una v.a. es el recorrido de la función por la que ésta queda definida:
Variable aleatoria
36
Definición de variable aleatoria Concepto intuitivo Una variable es aleatoria si su valor está determinado por el azar. En otras palabras se sabe qué valores puede tomar la variable pero no se tiene certeza de su ocurrencia, solo se sabe que puede ocurrir con cierta probabilidad. Por ejemplo, en una epidemia de cólera, se sabe que una persona cualquiera puede enfermar o no (suceso), pero no se sabe cual de los dos sucesos va a ocurrir. Solamente se puede decir que existe una probabilidad de que la persona enferme.
Definición formal La definición formal de variable aleatoria requiere ciertos conocimientos profundos de matemática (en concreto de teoría de la medida). Es la siguiente:[3][4] Dado un espacio de probabilidad
y un espacio medible
, una aplicación
es una
variable aleatoria si es una aplicación -medible. En la mayoría de los casos se toma como espacio medible de llegada el formado por los números reales junto con la σ-álgebra de Borel (el generado por la topología usual de ), quedando pues la definición de esta manera: Dado un espacio de probabilidad donde
una variable aleatoria real es cualquier función
-medible
es la σ-álgebra boreliana.
Ejemplo Supongamos que se lanzan dos monedas al aire. El espacio muestral, esto es, el conjunto de resultados elementales posibles asociado al experimento, es , donde (c representa "sale cara" y x, "sale cruz"). Podemos asignar entonces a cada suceso elemental del experimento el número de caras obtenidas. De este modo se definiría la variable aleatoria X como la función
dada por
El recorrido o rango de esta función, RX, es el conjunto
Variable aleatoria
37
Tipos de variables aleatorias Para comprender de una manera más amplia y rigurosa los tipos de variables, es necesario conocer la definición de conjunto discreto. Un conjunto es discreto si está formado por un número finito de elementos, o si sus elementos se pueden enumerar en secuencia de modo que haya un primer elemento, un segundo elemento, un tercer elemento, y así sucesivamente.[5] • Variable aleatoria discreta: una v.a. es discreta si su recorrido es un conjunto discreto. La variable del ejemplo anterior es discreta. Sus probabilidades se recogen en la función de cuantía (véanse las distribuciones de variable discreta). • Variable aleatoria continua: una v.a. es continua si su recorrido no es un conjunto numerable. Intuitivamente esto significa que el conjunto de posibles valores de la variable abarca todo un intervalo de números reales. Por ejemplo, la variable que asigna la estatura a una persona extraída de una determinada población es una variable continua ya que, teóricamente, todo valor entre, pongamos por caso, 0 y 2,50 m, es posible.[6] (véanse las distribuciones de variable continua) • Variable aleatoria independiente: Supongamos que "X" e "Y" son variables aleatorias discretas. Si los eventos X = x / Y = y son variables aleatorias independientes. En tal caso: P(X = x, Y = y) = P( X = x) P ( Y = y). De manera equivalente: f(x,y) = f1(x).f2(y). Inversamente, si para todo "x" e "y" la función de probabilidad conjunta f(x,y) no puede expresarse sólo como el producto de una función de "x" por una función de "y" (denominadas funciones de probabilidad marginal de "X" e "Y" ), entonces "X" e "Y" son dependientes. Si "X" e "Y" son variables aleatorias continuas, decimos que son variables aleatorias independientes si los eventos "X ≤ x", e "Y ≤ y" y son eventos independientes para todo "x" e "y" . De manera equivalente: F(x,y) = F1(x).F2(y), donde F1(x) y F2(y) son las funciones de distribución (marginal) de "X" e "Y" respectivamente. Inversamente, "X" e "Y" son variables aleatorias dependientes si para todo "x" e "y" su función de distribución conjunta F(x,y) no puede expresarse como el producto de las funciones de distribución marginales de "X" e "Y". Para variables aleatorias independientes continuas, también es cierto que la función de densidad conjunta f(x,y)es el producto de las funciones densidad de probabilidad marginales de "X", f1(x), y de "Y", f2(y).
Distribución de probabilidad de una v.a. La distribución de probabilidad de una v.a. X, también llamada función de distribución de X es la función , que asigna a cada evento definido sobre una probabilidad dada por la siguiente expresión:
y de manera que se cumplan las siguientes tres condiciones: 1.
y
2. Es continua por la derecha. 3. Es monótona no decreciente. La distribución de probabilidad de una v.a. describe teóricamente la forma en que varían los resultados de un experimento aleatorio. Intuitivamente se trataría de una lista de los resultados posibles de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado.
Variable aleatoria
38
Función de densidad de una v.a. continua La función de densidad de probabilidad (FDP) o, simplemente, función de densidad, representada comúnmente como f(x), se utiliza con el propósito de conocer cómo se distribuyen las probabilidades de un suceso o evento, en relación al resultado del suceso. La FDP es la derivada (ordinaria o en el sentido de las distribuciones) de la función de distribución de probabilidad F(x), o de manera inversa, la función de distribución es la integral de la función de densidad:
La función de densidad de una v.a. determina la concentración de probabilidad alrededor de los valores de una variable aleatoria continua.
Funciones de variables aleatorias Sea una variable aleatoria
sobre
y una función medible de Borel
también una variable aleatoria sobre ser que
, entonces
será
, dado que la composición de funciones medibles también es medible a no
sea una función medible de Lebesgue. El mismo procedimiento que permite ir de un espacio de
probabilidad
a
probabilidad acumulada de
puede ser utilizado para obtener la distribución de
. La función de
es
Si la función g es invertible, es decir g-1 existe, y es monótona creciente, entonces la anterior relación puede ser extendida para obtener
y, trabajando de nuevo bajo las mismas hipótesis de invertibilidad de g y asumiendo además diferenciabilidad, podemos hallar la relación entre las funciones de densidad de probabilidad al diferenciar ambos términos respecto de y, obteniendo . Si g no es invertible pero cada y tiene un número finito de raíces, entonces la relación previa con la función de densidad de probabilidad puede generalizarse como
donde xi = gi-1(y). Las fórmulas de densidad no requieren que g sea creciente.
Ejemplo Sea X una variable aleatoria real continua y sea Y = X2. Si y < 0, entonces P(X2 = y) = 0, por lo tanto
Si y = 0, entonces
por lo tanto
Variable aleatoria
39
Parámetros de una v.a. La función de densidad o la distribución de probabilidad de una v.a. contiene exhaustivamente toda la información sobre la variable. Sin embargo resulta conveniente resumir sus características principales con unos cuantos valores numéricos. Estos son, fundamentalmente la esperanza y la varianza.
Esperanza La esperanza matemática (o simplemente esperanza) o valor esperado de una v.a. es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética. Para una variable aleatoria discreta con valores posibles función de probabilidad
y sus probabilidades representadas por la
la esperanza se calcula como:
Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos los valores y la función de densidad :
o La esperanza también se suele simbolizar con El concepto de esperanza se asocia comúnmente en los juegos de azar al de beneficio medio o beneficio esperado a largo plazo.
Varianza La varianza es una medida de dispersión de una variable aleatoria como la esperanza de la transformación
respecto a su esperanza
. Se define
:
o bien
Referencias [1] http:/ / www. hrc. es/ bioest/ estadis_21. html Definición de variable aleatoria. Esta definición no es en absoluto rigurosa, ya que no define una variable aleatoria, sino cualquier función real. Es de remarcar que en la referencia no se dice en ningún momento que eso sea una definición. Sin embargo, en la mayoría de las aplicaciones prácticas, es suficiente. [2] La definición rigurosa de variable aleatoria exige dotar a [3] [4] [5] [6]
de estructura de espacio medible e imponer a X la condición de ser función
medible (véase la definición formal de variable aleatoria, en este mismo artículo). http:/ / planetmath. org/ encyclopedia/ DiscreteRandomVariable. html http:/ / mathworld. wolfram. com/ RandomVariable. html Véase conjunto finito para una definición más rigurosa En experimentos reales la continuidad de una variable es rarísima, ya que la escasa precisión de los instrumentos de medida obliga a un conjunto discreto de valores posibles.
Variable aleatoria
40
Bibliografía • Peña Sánchez de Rivera, Daniel (2008). Fundamentos de Estadística (1ª edición). Alianza Editorial. pp. 688. ISBN 9788420683805. • Ropero Moriones, Eva (2009). Manual de estadística empresarial (1ª edición). Delta Publicaciones. pp. 200. ISBN 9788492453214.
Enlaces externos •
Wikimedia Commons alberga contenido multimedia sobre Variable aleatoriaCommons.
Varianza En teoría de probabilidad, la varianza (que suele representarse como
) de una variable aleatoria es una medida
de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar, es la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas. El término varianza fue acuñado por Ronald Fisher en un artículo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.
Definición Dada una variable aleatoria X con media μ = E(X), se define su varianza, Var(X) (también representada como
o,
2
simplemente σ ), como
Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):
Si una distribución no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su índice k satisface 1 < k ≤ 2.
Varianza
41
Caso continuo Si la variable aleatoria X es continua con función de densidad f(x), entonces
donde
y las integrales están definidas sobre el rango de X.
Caso discreto Si la variable aleatoria X es discreta con pesos x1 ↦ p1, ..., xn ↦ pn, entonces
donde .
Ejemplos Distribución exponencial La distribución exponencial de parámetro λ es una distribución continua con soporte en el intervalo [0,∞) y función de densidad Tiene media μ = λ−1. Por lo tanto, su varianza es:
Es decir, σ2 = μ2.
Dado perfecto Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:
Propiedades de la varianza Algunas propiedades de la varianza son: • •
siendo a y b números reales cualesquiera. De esta propiedad se deduce que la varianza de una constante es cero, es decir,
• •
, donde Cov(X,Y) es la covarianza de X e Y. , donde Cov(X,Y) es la covarianza de X e Y.
Varianza
42
Varianza muestral En muchas situaciones es preciso estimar la varianza de una población a partir de una muestra. Si se toma una muestra con reemplazamiento de n valores de ella, de entre todos los estimadores posibles de la varianza de la población de partida, existen dos de uso corriente:
y
Cuando los datos están agrupados:
A los dos (cuando está dividido por n y cuando lo está por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la población y el segundo es un estimador insesgado de la varianza de la población. De hecho,
mientras que
Propiedades de la varianza muestral Como consecuencia de la igualdad
, s2 es un estadístico insesgado de 2
. Además, si se cumplen las
condiciones necesarias para la ley de los grandes números, s es un estimador consistente de Más aún, cuando las muestras siguen una distribución normal, por el teorema de Cochran, chi-cuadrado:
. tiene la distribución
Varianza
Enlaces externos • [1]Simulación de la varianza de una variable discreta con R (lenguaje de programación)
Referencias [1] http:/ / cajael. com/ mestadisticos/ T1EDescriptiva/ node6. php
Función de densidad de probabilidad En teoría de la probabilidad, la función de densidad de probabilidad, función de densidad, o, simplemente, densidad de una variable aleatoria continua es una función, usualmente denominada f(x) que describe la densidad de la probabilidad en cada punto del espacio de tal manera que la probabilidad de que la variable aleatoria tome un valor dentro de un determinado conjunto sea la integral de la función de densidad sobre dicho conjunto.
Definición Función de densidad de probabilidad para la distribución normal. Una función de densidad de probabilidad (FDP) es una función matemática que caracteriza el comportamiento probable de una población. Es una función f(x) que especifica la posibilidad relativa de que una variable aleatoria continua X tome un valor cercano a x, y se define como la probabilidad de que X tome un valor entre x y x+dx, dividido por dx, donde dx es un número infinitesimalmente pequeño. La mayoría de las funciones de densidad de probabilidad requieren uno o más parámetros para especificarlas totalmente.
La probabilidad de que una variable aleatoria continua X esté ubicada entre los valores a y b está dada por el intervalo de la FDP, f(x), comprendido en el rango entre a y b. ≤ < = ∫ a b Pr(a x b) f (x)dx La FDP es la derivada (cuando existe) de la función de distribución: f x dF x dx ( ) = ( ) En situaciones prácticas, la FDP utilizada se elige entre un número relativamente pequeño de FDP comunes, y la labor estadística principal consiste en estimar sus parámetros. Por lo tanto, a los efectos de los inventarios, es necesario saber qué FDP se ha utilizado e indicarlo en la documentación de evaluación de la incertidumbre. La definición formal de la función de densidad requiere de conceptos de la teoría de la medida. Si una variable aleatoria X sigue una función de probabilidad X*P su densidad con respecto a una medida de referencia μ es la derivada de Radon–Nikodym
Es decir, ƒ es una función con la propiedad de que
para cada conjunto medible A. Hay que advertir que la función de densidad no es propiamente única: dos funciones distintas pueden representar la misma distribución de probabilidad si son distintas únicamente en un conjunto de medida nula. Además, que puede haber distribuciones de probabilidad que carezcan de función de densidad: sucede cuando, sin ser discretas,
43
Función de densidad de probabilidad
44
concentran su probabilidad en conjuntos de medida nula; así sucede con la distribución de Cantor cuando se toma la de Lebesgue como medida de referencia. Cuando, como ocurre normalmente en las aplicaciones, X es una variable aleatoria real y μ es la medida de Lebesgue, la función de densidad es una función tal que
De modo que si F es la función de distribución de X, entonces
y
Intuitivamente, se puede pensar que ƒ(x) dx es la probabilidad de que X asuma valores en el intervalo infinitesimal [x, x + dx].
Propiedades De las propiedades de la función de distribución se siguen las siguientes propiedades de la fdp (a veces visto como pdf [1] del inglés): • para toda . • El área total encerrada bajo la curva es igual a 1:
• La probabilidad de que
tome un valor en el intervalo
es el área bajo la curva de la función de densidad
en ese intervalo o lo que es lo mismo, la integral definida en dicho intervalo. La gráfica f(x) se conoce a veces como curva de densidad.
Algunas FDP están declaradas en rangos de
a
, como la de la distribución normal.
Enlaces externos • [2] Simulación de la obtención de la probabilidad en un intervalo a partir de la función de densidad de una variable continua con R (lenguaje de programación)
Referencias [1] http:/ / en. wikipedia. org/ wiki/ Probability_density_function [2] http:/ / cajael. com/ mestadisticos/ T3VAleatorias/ node2. php
Probabilidad
Probabilidad La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la matemática, la ciencia y la filosofía para sacar conclusiones sobre la probabilidad discreta de sucesos potenciales y la mecánica subyacente discreta de sistemas complejos.
Historia El diccionario de la Real Academia Española define «azar» como una casualidad, un caso fortuito, y afirma que la expresión «al azar» significa «sin orden».[1] La idea de Probabilidad está íntimamente ligada a la idea de azar y nos ayuda a comprender nuestras posibilidades de ganar un juego de azar o analizar las encuestas. Pierre-Simon Laplace afirmó: "Es notable que una ciencia que comenzó con consideraciones sobre juegos de azar haya llegado a el objeto más importante del conocimiento humano". Comprender y estudiar el azar es indispensable, porque la probabilidad es un soporte necesario para tomar decisiones en cualquier ámbito.[2] Según Amanda Dure, "Antes de la mitad del siglo XVII, término 'probable' (en latín probable) significaba aprobable, y se aplicaba en ese sentido, unívocamente, a la opinión y a la acción. Una acción u opinión probable era una que las personas sensatas emprenderían o mantendrían, en las circunstancias."[3] Aparte de algunas consideraciones elementales hechas por Girolamo Cardano en el siglo XVI, la doctrina de las probabilidades data de la correspondencia de Pierre de Fermat y Blaise Pascal (1654). Christiaan Huygens (1657) le dio el tratamiento científico conocido más temprano al concepto. Ars Conjectandi (póstumo, 1713) de Jakob Bernoulli y Doctrine of Chances (1718) de Abraham de Moivre trataron el tema como una rama de las matemáticas. Véase El surgimiento de la probabilidad (The Emergence of Probability) de Ian Hacking para una historia de los inicios del desarrollo del propio concepto de probabilidad matemática. La teoría de errores puede trazarse atrás en el tiempo hasta Opera Miscellanea (póstumo, 1722) de Roger Cotes, pero una memoria preparada por Thomas Simpson en 1755 (impresa en 1756) aplicó por primera vez la teoría para la discusión de errores de observación. La reimpresión (1757) de esta memoria expone los axiomas de que los errores positivos y negativos son igualmente probables, y que hay ciertos límites asignables dentro de los cuales se supone que caen todos los errores; se discuten los errores continuos y se da una curva de la probabilidad. Pierre-Simon Laplace (1774) hizo el primer intento para deducir una regla para la combinación de observaciones a partir de los principios de la teoría de las probabilidades. Representó la ley de la probabilidad de error con una curva , siendo cualquier error e y su probabilidad, y expuso tres propiedades de esta curva: 1. es simétrica al eje ; 2. el eje es una asíntota, siendo la probabilidad del error igual a 0; 3. la superficie cerrada es 1, haciendo cierta la existencia de un error. Dedujo una fórmula para la media de tres observaciones. También obtuvo (1781) una fórmula para la ley de facilidad de error (un término debido a Lagrange, 1774), pero una que llevaba a ecuaciones inmanejables. Daniel Bernoulli (1778) introdujo el principio del máximo producto de las probabilidades de un sistema de errores concurrentes. El método de mínimos cuadrados se debe a Adrien-Marie Legendre (1805), que lo introdujo en su Nouvelles méthodes pour la détermination des orbites des comètes (Nuevos métodos para la determinación de las órbitas de los cometas). Ignorando la contribución de Legendre, un escritor irlandés estadounidense, Robert Adrain, editor de "The Analyst" (1808), dedujo por primera vez la ley de facilidad de error,
45
Probabilidad siendo
46 y
constantes que dependen de la precisión de la observación. Expuso dos demostraciones, siendo la
segunda esencialmente la misma de John Herschel (1850). Gauss expuso la primera demostración que parece que se conoció en Europa (la tercera después de la de Adrain) en 1809. Demostraciones adicionales se expusieron por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W. F. Donkin (1844, 1856) y Morgan Crofton (1870). Otros personajes que contribuyeron fueron Ellis (1844), De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters (1856) para , el error probable de una única observación, es bien conocida. En el siglo XIX, los autores de la teoría general incluían a Laplace, Sylvestre Lacroix (1816), Littrow (1833), Adolphe Quetelet (1853), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion, y Karl Pearson. Augustus De Morgan y George Boole mejoraron la exposición de la teoría. En 1930 Andréi Kolmogorov desarrolló la base axiomática de la probabilidad utilizando teoría de la medida. En la parte geométrica (véase geometría integral) los colaboradores de The Educational Times fueron influyentes (Miller, Crofton, McColl, Wolstenholme, Watson y Artemas Martin). Véase también: Estadística
Teoría La probabilidad constituye un importante parámetro en la determinación de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadístico. Existen diversas formas como método abstracto, como la teoría Dempster-Shafer y la teoría de la relatividad numérica, esta última con un alto grado de aceptación si se toma en cuenta que disminuye considerablemente las posibilidades hasta un nivel mínimo ya que somete a todas las antiguas reglas a una simple ley de relatividad.[cita requerida] La probabilidad de un evento se denota con la letra p y se expresa en términos de una fracción y no en porcentajes, por lo que el valor de p cae entre 0 y 1. Por otra parte, la probabilidad de que un evento "no ocurra" equivale a 1 menos el valor de p y se denota con la letra q:
Los tres métodos para calcular las probabilidades son la regla de la adición, la regla de la multiplicación y la distribución binomial.
Regla de la adición La regla de la adición o regla de la suma establece que la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo. P(A o B) = P(A) U P(B) = P(A) + P(B) si A y B son mutuamente excluyente. P(A o B) = P(A) + P(B) − P(A y B) si A y B son no excluyentes. Siendo: P(A) = probabilidad de ocurrencia del evento A. P(B) = probabilidad de ocurrencia del evento B. P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B.
Probabilidad
Regla de la multiplicación La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes es igual al producto de sus probabilidades individuales. P(A y B) = P(A B) = P(A)P(B) si A y B son independientes. P(A y B) = P(A B) = P(A)P(B|A) si A y B son dependientes
Distribución binomial La probabilidad de ocurrencia de una combinación específica de eventos independientes y mutuamente excluyentes se determina con la distribución binomial, que es aquella donde hay solo dos posibilidades, tales como masculino/femenino o si/no. 1. Hay dos resultados posibles mutuamente excluyentes en cada ensayo u observación. 2. La serie de ensayos u observaciones constituyen eventos independientes. 3. La probabilidad de éxito permanece constante de ensayo a ensayo, es decir el proceso es estacionario. Para aplicar esta distribución al calculo de la probabilidad de obtener un número dado de éxitos en una serie de experimentos en un proceso de Bermnoulli, se requieren tres valores: el número designado de éxitos (m), el número de ensayos y observaciones (n); y la probabilidad de éxito en cada ensayo (p). Entonces la probabilidad de que ocurran m éxitos en un experimento de n ensayos es: P (x = m) = (nCm)(Pm)(1−P)n−m Siendo: nCm el número total de combinaciones posibles de m elementos en un conjunto de n elementos. En otras palabras P(x = m) = [n!/(m!(n−m)!)](pm)(1−p)n−m Ejemplo. La probabilidad de que un alumno apruebe la asignatura Cálculo de Probabilidades es de 0,15. Si en un semestre intensivo se inscriben 15 alumnos ¿Cuál es la probabilidad de que aprueben 10 de ellos? P(x = 10) = 15C10(0,15)10(0,85)5 = 10!/(10!(15−10)!)(0,15)10(0,85)5 = 7,68 * 10−6 Generalmente existe un interés en la probabilidad acumulada de "m o más " éxitos o "m o menos" éxitos en n ensayos. En tal caso debemos tomar en cuenta que: P(x < m) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) +....+ P(x = m − 1) P(x > m) = P(x = m+ 1) + P(x = m+ 2) + P(x = m+3) +....+ P(x = n) P(x ≤ m) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3) +....+ P(x = m) P(x ≥ m) = P(x = m) + P(x = m+1) + P(x = m+2) +....+ P(x = n) Supongamos que del ejemplo anterior se desea saber la probabilidad de que aprueben: a.− al menos 5 b.− mas de 12 a.− la probabilidad de que aprueben al menos 5 es: P(x ≥ 5) es decir, que: 1 - P(x < 5) = 1 - [P(x = 0)+P(x = 1)+P(x = 2)+P(x = 3)+P(x = 4)] = 1 - [0,0874 + 0,2312 + 0,2856 + 0,2184 + 0,1156] = 0,0618 Nota: Al menos, a lo menos y por lo menos son locuciones adverbiales sinónimas. Ejemplo: La entrada al cine por lo menos tendrá un costo de 10 soles (como mínimo podría costar 10 soles o más). b.− la probabilidad de que aprueben mas de 12 es P(x > 12) es decir, que: P(x > 12) = P(x = 13)+P(x = 14)+P(x = 15) P(x > 12) = 1,47 *10−9 +3,722 *10−11 +4,38 *10−13 = 1,507 *10−9 La esperanza matemática en una distribución binomial puede expresarse como: E(x) = np = 15(0,15)=2,25 Y la varianza del número esperado de éxitos se puede calcular directamente: Var(x) = np(1−p)= 15(0,15)(1-0,15)=1,9125
47
Probabilidad
Aplicaciones Dos aplicaciones principales de la teoría de la probabilidad en el día a día son en el análisis de riesgo y en el comercio de los mercados de materias primas. Los gobiernos normalmente aplican métodos probabilísticos en regulación ambiental donde se les llama "análisis de vías de dispersión", y a menudo miden el bienestar usando métodos que son estocásticos por naturaleza, y escogen qué proyectos emprender basándose en análisis estadísticos de su probable efecto en la población como un conjunto. No es correcto decir que la estadística está incluida en el propio modelado, ya que típicamente los análisis de riesgo son para una única vez y por lo tanto requieren más modelos de probabilidad fundamentales, por ej. "la probabilidad de otro 11-S". Una ley de números pequeños tiende a aplicarse a todas aquellas elecciones y percepciones del efecto de estas elecciones, lo que hace de las medidas probabilísticas un tema político. Un buen ejemplo es el efecto de la probabilidad percibida de cualquier conflicto generalizado sobre los precios del petróleo en Oriente Medio - que producen un efecto dominó en la economía en conjunto. Un cálculo por un mercado de materias primas en que la guerra es más probable en contra de menos probable probablemente envía los precios hacia arriba o hacia abajo e indica a otros comerciantes esa opinión. Por consiguiente, las probabilidades no se calculan independientemente y tampoco son necesariamente muy racionales. La teoría de las finanzas conductuales surgió para describir el efecto de este pensamiento de grupo en el precio, en la política, y en la paz y en los conflictos. Se puede decir razonablemente que el descubrimiento de métodos rigurosos para calcular y combinar los cálculos de probabilidad ha tenido un profundo efecto en la sociedad moderna. Por consiguiente, puede ser de alguna importancia para la mayoría de los ciudadanos entender cómo se calculan los pronósticos y las probabilidades, y cómo contribuyen a la reputación y a las decisiones, especialmente en una democracia. Otra aplicación significativa de la teoría de la probabilidad en el día a día es en la fiabilidad. Muchos bienes de consumo, como los automóviles y la electrónica de consumo, utilizan la teoría de la fiabilidad en el diseño del producto para reducir la probabilidad de avería. La probabilidad de avería también está estrechamente relacionada con la garantía del producto. Se puede decir que no existe una cosa llamada probabilidad. También se puede decir que la probabilidad es la medida de nuestro grado de incertidumbre, o esto es, el grado de nuestra ignorancia dada una situación. Por consiguiente, puede haber una probabilidad de 1 entre 52 de que la primera carta en un baraja sea la J de diamantes. Sin embargo, si uno mira la primera carta y la reemplaza, entonces la probabilidad es o bien 100% ó 0%, y la elección correcta puede ser hecha con precisión por el que ve la carta. La física moderna proporciona ejemplos importantes de situaciones determinísticas donde sólo la descripción probabilística es factible debido a información incompleta y la complejidad de un sistema así como ejemplos de fenómenos realmente aleatorios. En un universo determinista, basado en los conceptos newtonianos, no hay probabilidad si se conocen todas las condiciones. En el caso de una ruleta, si la fuerza de la mano y el periodo de esta fuerza es conocido, entonces el número donde la bola parará será seguro. Naturalmente, esto también supone el conocimiento de la inercia y la fricción de la ruleta, el peso, lisura y redondez de la bola, las variaciones en la velocidad de la mano durante el movimiento y así sucesivamente. Una descripción probabilística puede entonces ser más práctica que la mecánica newtoniana para analizar el modelo de las salidas de lanzamientos repetidos de la ruleta. Los físicos se encuentran con la misma situación en la teoría cinética de los gases, donde el sistema determinístico en principio, es tan complejo (con el número de moléculas típicamente del orden de magnitud de la constante de Avogadro ) que sólo la descripción estadística de sus propiedades es viable. La mecánica cuántica, debido al principio de indeterminación de Heisenberg, sólo puede ser descrita actualmente a través de distribuciones de probabilidad, lo que le da una gran importancia a las descripciones probabilísticas. Algunos científicos hablan de la expulsión del paraíso.[cita requerida] Otros no se conforman con la pérdida del determinismo. Albert Einstein comentó estupendamente en una carta a Max Born: Jedenfalls bin ich überzeugt, daß der Alte nicht würfelt. (Estoy convencido de que Dios no tira el dado). No obstante hoy en día no existe un medio
48
Probabilidad mejor para describir la física cuántica si no es a través de la teoría de la probabilidad. Mucha gente hoy en día confunde el hecho de que la mecánica cuántica se describe a través de distribuciones de probabilidad con la suposición de que es por ello un proceso aleatorio, cuando la mecánica cuántica es probabilística no por el hecho de que siga procesos aleatorios sino por el hecho de no poder determinar con precisión sus parámetros fundamentales, lo que imposibilita la creación de un sistema de ecuaciones determinista.
Investigación biomédica Véase también: Muestreo en estadística
La mayoría de las investigaciones biomédicas utilizan muestras de probabilidad, es decir, aquellas que el investigador pueda especificar la probabilidad de cualquier elemento en la población que investiga. Las muestras de probabilidad permiten usar estadísticas inferenciales, aquellas que permiten hacer inferencias a partir de datos. Por otra parte, las muestras no probabilísticas solo permiten usarse estadísticas descriptivas, aquellas que solo permiten describir, organizar y resumir datos. Se utilizan cuatro tipos de muestras probabilísticas: muestras aleatorias simples, muestras aleatorias estratificadas, muestra por conglomerados y muestras sistemáticas.
Referencias [1] « azar (http:/ / buscon. rae. es/ draeI/ SrvltConsulta?TIPO_BUS=3& LEMA=azar)», Diccionario de la lengua española (vigésima segunda edición), Real Academia Española, 2001, . [2] « Historia de la Probabilidad (http:/ / www. estadisticaparatodos. es/ historia/ histo_proba. html)». estadisticaparatodos.es. [3] Jeffrey, R.C., Probability and the Art of Judgment, Cambridge University Press. (1992). pp. 54-55. ISBN 0-521-39459-7
Enlaces externos Wikilibros • Wikilibros alberga un libro o manual sobre Probabilidades. • Edwin Thompson Jaynes. Probability Theory: The Logic of Science. Preprint: Washington University, (1996). — HTML (http://omega.albany.edu:8008/JaynesBook.html) y PDF (http://bayes.wustl.edu/etj/prob/book. pdf) (en inglés)
49
Teoría de la probabilidad
50
Teoría de la probabilidad La teoría de la probabilidad es la parte de las matemáticas que estudia los fenómenos aleatorios estocásticos. Estos deben contraponerse a los fenómenos determinísticos, los cuales son resultados únicos y/o previsibles de experimentos realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta agua a 100 grados Celsius a nivel del mar se obtendrá vapor. Los fenómenos aleatorios, por el contrario, son aquellos que se obtienen como resultado de experimentos realizados, otra vez, bajo las mismas condiciones determinadas pero como resultado posible poseen un conjunto de alternativas, por ejemplo, el lanzamiento de un dado o de una moneda. Muchos fenómenos naturales son aleatorios, pero existen algunos como el lanzamiento de un dado, donde el fenómeno no se repite en las mismas condiciones, debido a que la características del material hace que no exista una simetría del mismo, así las repeticiones no garantizan una probabilidad definida. En los procesos reales que se modelizan mediante distribuciones de probabilidad corresponden a modelos complejos donde no se conocen a priori todos los parámetros que intervienen; ésta es una de las razones por las cuales la estadística, que busca determinar estos parámetros, no se reduce inmediatamente a la teoría de la probabilidad en sí. En 1933, el matemático soviético Andréi Kolmogórov propuso un sistema de axiomas para la teoría de la probabilidad, basado en la teoría de conjuntos y en la teoría de la medida, desarrollada pocos años antes por Lebesgue, Borel y Frechet entre otros. Esta aproximación axiomática que generaliza el marco clásico de la probabilidad, la cual obedece a la regla de cálculo de casos favorables sobre casos posibles, permitió la rigorización de muchos argumentos ya utilizados, así como el estudio de problemas fuera de los marcos clásicos. Actualmente, la teoría de la probabilidad encuentra aplicación en las más variadas ramas del conocimiento, como puede ser la física (donde corresponde mencionar el desarrollo de las difusiones y el movimiento Browniano), o las finanzas (donde destaca el modelo de Black y Scholes para la valuación de acciones).
Definición según la frecuencia relativa y definición axiomática La autodefinición axiomática de la probabilidad se define con base a sí misma (igualmente factible es sinónimo de igualmente autoprobable) se define la probabilidad estimada u honírica basada en la frecuencia relativa de aparición de un suceso S cuando es muy grande. La probabilidad de un suceso es una medida que se escribe como , y mide con qué frecuencia ocurre algún suceso si se hace algún experimento indefinidamente. La definición anterior es complicada de representar matemáticamente ya que
debiera ser infinito. Otra manera de
definir la probabilidad es de forma axiomática esto estableciendo las relaciones o propiedades que existen entre los conceptos y operaciones que la componen.
Teoría de la probabilidad
51
Definición clásica de probabilidad La probabilidad es la característica de un evento, que hace que existan razones para creer que éste se realizará. La probabilidad p de que suceda un evento S de un total de n casos posibles igualmente probables es igual a la razón entre el número de ocurrencias h de dicho evento (casos favorables) y el número total de casos posibles n.
La probabilidad es un número (valor) que varia entre 0 y 1. Cuando el evento es imposible se dice que su probabilidad es 0, si el evento es cierto y siempre tiene que ocurrir su probabilidad es 1. La probabilidad de no ocurrencia de un evento está dada por q, donde:
Sabemos que p es la probabilidad de que ocurra un evento y q es la probabilidad de que no ocurra, entonces p + q = 1 Simbólicamente el espacio de resultados, que normalmente se denota por resultados que son posibles. Los resultados, que se denota por
, es el espacio que consiste en todos los
, etcétera, son elementos del espacio
.
Probabilidad discreta Este tipo de probabilidad, es aquel que puede tomar sólo ciertos valores diferentes que son el resultado de la cuenta de alguna característica de interés.
Probabilidad continua Una variable aleatoria es una función medible
que da un valor numérico a cada suceso en
.
Función de densidad La función de densidad, o densidad de probabilidad de una variable aleatoria, es una función a partir de la cual se obtiene la probabilidad de cada valor que toma la variable. Su integral en el caso de variables aleatorias continuas es la distribución de probabilidad. En el caso de variables aleatorias discretas la distribución de probabilidad se obtiene a través del sumatorio de la función de densidad.
Bibliografía • Spiegel, Murray. 1970. Estadística, McGraw-Hill, México. • Olav Kallenberg, Probabilistic Symmetries and Invariance Principles. Springer-Verlag, New York (2005). 510 pp. ISBN 0-387-25115-4 • Kallenberg, O., Foundations of Modern Probability, 2nd ed. Springer Series in Statistics. (2002). 650 pp. ISBN 0-387-95313-2
Teoría de la probabilidad
52
Enlaces externos •
Wikimedia Commons alberga contenido multimedia sobre Teoría de la probabilidad. Commons
Distribución binomial Distribución binomial
Función de probabilidad
Función de distribución de probabilidad Parámetros
número de ensayos (entero) probabilidad de éxito (real)
Dominio Función de probabilidad (fp)
Función de distribución (cdf) Media Mediana Moda Varianza Coeficiente de simetría
Uno de
[1]
Distribución binomial
53 Curtosis
Entropía Función generadora de momentos (mgf) Función característica
En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli. Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe:
La distribución binomial es la base del test binomial de significación estadística.
Ejemplos Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por esta distribución: • Se lanza un dado diez veces y se cuenta el número X de treses obtenidos: entonces X ~ B(10, 1/6) • Se lanza una moneda dos veces y se cuenta el número X de caras obtenidas: entonces X ~ B(2, 1/2) • Una partícula se mueve unidimensionalmente con probabilidad q de moverse de aqui para allá y 1-q de moverse de allá para acá
Experimento binomial Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno de los experimentos es independiente de los restantes (la probabilidad del resultado de un experimento no depende del resultado del resto). El resultado de cada experimento ha de admitir sólo dos categorías (a las que se denomina éxito y fracaso). Las probabilidades de ambas posibilidades han de ser constantes en todos los experimentos (se denotan como p y q o p y 1-p). Se designa por X a la variable que mide el número de éxitos que se han producido en los n experimentos. Cuando se dan estas circunstancias, se dice que la variable X sigue una distribución de probabilidad binomial, y se denota B(n,p).
Distribución binomial
54
Características analíticas Su función de probabilidad es
donde siendo
las combinaciones de
en
(
elementos tomados de
en
)
Ejemplo Supongamos que se lanza un dado 50 veces y queremos la probabilidad de que el número 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la probabilidad sería P(X=20):
Propiedades
Relaciones con otras variables aleatorias Si
tiende a infinito y
es tal que el producto entre ambos parámetros tiende a
variable aleatoria binomial tiende a una distribución de Poisson de parámetro
, entonces la distribución de la
.
Por último, se cumple que cuando n es muy grande (usualmente se exige que
) la distribución binomial
puede aproximarse mediante la distribución normal.
Propiedades reproductivas Dadas n variables binomiales independientes, de parámetros ni (i = 1,..., n) y binomial, de parámetros n1+... + nn, y
, su suma es también una variable
, es decir,
Referencias [1] Hamza, K. (1995). The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statist. Probab. Lett. 23 21–25.
Enlaces externos • Calculadora Distribución binomial (http://www.stud.feec.vutbr.cz/~xvapen02/vypocty/bi. php?language=espanol) • (http://cajael.com/mestadisticos/T6DDiscretas/node2.php) Cálculo de la probabilidad de una distribución binomial con R (lenguaje de programación)
R (lenguaje de programación)
55
R (lenguaje de programación) R
Desarrollador R Development Core Team [1] www.r-project.org Información general Última versión estable 2.14.2 29 de febrero de 2012 Género
Software matemático
Sistema operativo
Multiplataforma
Licencia
GPL
En español
R es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico. R se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
Historia Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993.[2] Su desarrollo actual es responsabilidad del R Development Core Team. A continuación se enumeran algunos hitos en el desarrollo de R: • Versión 0.16: Es la última versión alfa desarrollada esencialmente por Ihaka y Gentleman, que incluye gran parte de las características descritas en el "White Book". • La lista de correo comenzó su andadura el 1 de abril de 1997. • Versión 0.49 del 23 de abril de 1997: Es la versión más antigua de la que se conserva el código (que todavía compila en algunas plataformas UNIX). En esta fecha arrancó también CRAN con tres espejos que albergaban 12 paquetes. Poco después aparecieron las versiones alfa para Windows y Mac OS. • Versión 0.60 del 5 de diciembre de 1997: R se integra oficialmente en el Proyecto GNU. El código se versiona a través de CVS. • Versión 1.0.0 del 29 de febrero de 2000: Los desarrolladores lo consideran suficientemente estable para su uso en producción.[3] • Versión 1.4.0: Se introducen los métodos S4 y aparece la primera versión para Mac OS X. • Versión 2.0.0: Introduce el lazy loading, que permite una carga rápida de datos con un coste de memoria mínimo.
R (lenguaje de programación) • Versión 2.1.0: Aparece el soporte para UTF-8 y comienzan los esfuerzos de internacionalización para distintos idiomas. • Versión 2.9.0: El paquete 'Matrix' se incluye en la distribución básica de R.
Características R proporciona un amplio abanico de herramientas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, algoritmos de clasificación y agrupamiento, etc.) y gráficas. Al igual que S, se trata de un lenguaje de programación, lo que permite que los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran parte de las funciones de R están escritas en el mismo R, aunque para algoritmos computacionalmente exigentes es posible desarrollar bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios más avanzados pueden también manipular los objetos de R directamente desde código desarrollado en C. R también puede extenderse a través de paquetes desarrollados por su comunidad de usuarios. R hereda de S su orientación a objetos. La tarea de extender R se ve facilitada por su permisiva política de lexical scoping.[4] Además, R puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python. Otra de las características de R es su capacidad gráfica, que permite generar gráficos con alta calidad. R posee su propio formato para la documentación basado en LaTeX. R también puede usarse como herramienta de cálculo numérico, campo en el que puede ser tan eficaz como otras herramientas específicas tales como GNU Octave y su versión comercial, MATLAB.[5] Se ha desarrollado una interfaz, RWeka[6] para interactuar con Weka que permite leer y escribir ficheros en el formato arff y enriquecer R con los algoritmos de minería de datos de dicha plataforma.
Extensiones y paquetes R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden publicar paquetes que extienden su configuración básica. Existe un repositorio oficial de paquetes [7] cuyo número superó en otoño de 2009 la cifra de los 2000. Dado el enorme número de nuevos paquetes, éstos se han organizado en vistas (o temas) [8], que permiten agruparlos según su naturaleza y función. Por ejemplo, hay grupos de paquetes relacionados con estadística bayesiana, econometría, series temporales, etc. Para facilitar el desarrollo de nuevos paquetes, se ha puesto a servicio de la comunidad una forja de desarrollo [9] que facilita las tareas relativas a dicho proceso.
56
R (lenguaje de programación)
57
Proyectos relacionados • Bioconductor, un conjunto de paquetes para el análisis de datos en genómica. • Rmetrics, orientado al análisis de los mercados financieros y la valoración de instrumentos de inversión.
Herramientas de productividad Existen diversas interfaces que facilitan el trabajo con R.
Interfaces gráficas • • • • • • • •
JGR o Java GUI for R, una terminal de R multiplataforma basada en Java R Commander (Rcmdr), una interfaz gráfica multiplataforma basada en tcltk RExcel, que permite usar R y Rcmdr desde Microsoft Excel rggobi, una interfaz a GGobi para visualización RKWard, basado en KDE Sage Statistical Lab nexusBPM, una herramienta de automatización
• Rstudio
Editores e IDEs Entre los editores de texto e IDEs con soporte para R se cuentan: Bluefish,[10] Crimson Editor, ConTEXT, Eclipse,[11] Emacs (Emacs Speaks Statistics), Geany, jEdit,[12] Kate,[13] RStudio,[14] RKWard,[15] Syn, TextMate, Tinn-R, Vim, gedit, SciTE, WinEdt (R Package RWinEdt) y notepad++.[16] Sweave es un procesador de documentos que puede ejecutar código de R incrustado en código de LaTeX y para insertar código, resultados y gráficos en el documento escrito en LaTeX. LyX puede usarse para crear y compilar documentos desarrollados en Sweave. El paquete odfWeave es similar, generando documentos en el formato OpenDocument (ODF); extensiones en estado experimental también permiten generar documentos del tipo presentación u hoja de cálculo.
Lenguajes de script La funcionalidad de R puede ser invocada desde código desarrollado en otros lenguajes de script tales como Python (mediante RPy[17]) y Perl (mediante Statistics::R[18]). También pueden desarrollarse scripts en R directamente usando littler[19] o Rscript, que forma parte de la distribución básica de R desde la versión 2.5.0.
Alternativas comerciales • •
S-Plus SPSS
[20]
• •
Minitab SAS
•
Statistica
R (lenguaje de programación)
Enlaces externos • Wikimedia Commons alberga contenido multimedia sobre R (lenguaje de programación). Commons • Página oficial [1] • The R Reference Manual - Base Package [21], R Development Core Team. ISBN 0-9546120-0-0 (vol. 1), ISBN 0-9546120-1-9 (vol. 2) • Colección de paquetes en CRAN (Comprehensive R Archive Network) [22] • R-Wiki [23] • Interfaz Web para R [24] • R Graph Gallery [25], una colección de gráficos creados con R. • Proyecto R UCA [26], Universidad de Cádiz
Documentación en español • • • • •
R para Principiantes [27], la versión en español de R for Beginners, traducido por Jorge A. Ahumada (PDF). Versión en español de An Introduction to R [28] por Andrés González y Silvia González (PDF). Estadística Básica con R y R-Commander [29] (libro libre) Gráficos Estadísticos con R [30] por Juan Carlos Correa y Nelfi González (PDF). Cartas sobre Estadística de la Revista Argentina de Bioingeniería [31] por Marcelo R. Risk (PDF).
• Introducción al uso y programación del sistema estadístico R [32] por Ramón Díaz-Uriarte, transparencias preparadas para un curso de 16 horas sobre R, dirigido principalmente a biólogos y especialistas en bioinformática (PDF). • Lista de correo R-help-es en español [33] Lista de correo oficial de R en español.
Referencias [1] http:/ / www. r-project. org/ [2] A Brief History (http:/ / cran. r-project. org/ doc/ html/ interface98-paper/ paper_2. html) R : Past and Future History, Ross Ihaka, Statistics Department, The University of Auckland, Auckland, New Zealand, available from the CRAN website [3] Peter Dalgaard. « R-1.0.0 is released (https:/ / stat. ethz. ch/ pipermail/ r-announce/ 2000/ 000127. html)». Consultado el 06-06-2009. [4] Jackman, Simon (Spring 2003). « R For the Political Methodologist (http:/ / polmeth. wustl. edu/ tpm/ tpm_v11_n2. pdf)» (PDF). The Political Methodologist (Political Methodology Section, American Political Science Association) 11 (1): pp. 20–22. . [5] « Speed comparison of various number crunching packages (version 2) (http:/ / www. sciviews. org/ benchmark)». SciView. Consultado el 03-11-2007. [6] « RWeka: An R Interface to Weka. R package version 0.3-17 (http:/ / CRAN. R-project. org/ package=RWeka)». Kurt Hornik, Achim Zeileis, Torsten Hothorn and Christian Buchta. Consultado el 2009. [7] http:/ / www. cran. r-project. org/ web/ packages [8] http:/ / www. cran. r-project. org/ web/ views [9] http:/ / r-forge. r-project. org [10] Customizable syntax highlighting based on Perl Compatible regular expressions, with subpattern support and default patterns for..R, tenth bullet point, Bluefish Features (http:/ / bluefish. openoffice. nl/ features. html), Bluefish website, retrieved 9 July 2008. [11] Stephan Wahlbrink. « StatET: Eclipse based IDE for R (http:/ / www. walware. de/ goto/ statet)». Consultado el 26-09-2009. [12] Jose Claudio Faria. « R syntax (http:/ / community. jedit. org/ ?q=node/ view/ 2339)». Consultado el 03-11-2007. [13] « Syntax Highlighting (http:/ / kate-editor. org/ downloads/ syntax_highlighting)». Kate Development Team. Consultado el 09-07-2008. [14] « Integrated Development Environment (IDE) for R (http:/ / www. rstudio. org/ )». RStudio, Inc.. Consultado el 03-16-2012. [15] « Página proyecto RKWard (http:/ / rkward. sourceforge. net/ )». [16] NppToR: R in Notepad++ (http:/ / sourceforge. net/ projects/ npptor/ ) [17] RPy home page (http:/ / rpy. sourceforge. net) [18] Statistics::R page on [[CPAN (http:/ / search. cpan. org/ ~gmpassos/ Statistics-R-0. 02/ lib/ Statistics/ R. pm)]] [19] littler web site (http:/ / dirk. eddelbuettel. com/ code/ littler. html) [20] http:/ / www. insightful. com/ products/ splus/ default. asp [21] http:/ / www. network-theory. co. uk/ R/ base/ [22] http:/ / www. cran. r-project. org/ [23] http:/ / wiki. r-project. org [24] http:/ / www. math. montana. edu/ Rweb/
58
R (lenguaje de programación) [25] [26] [27] [28] [29] [30] [31] [32] [33]
http:/ / addictedtor. free. fr/ graphiques/ http:/ / knuth. uca. es/ R/ http:/ / cran. r-project. org/ doc/ contrib/ rdebuts_es. pdf http:/ / cran. r-project. org/ doc/ contrib/ R-intro-1. 1. 0-espanol. 1. pdf http:/ / knuth. uca. es/ moodle/ course/ view. php?id=37 http:/ / cran. r-project. org/ doc/ contrib/ grafi3. pdf http:/ / cran. r-project. org/ doc/ contrib/ Risk-Cartas-sobre-Estadistica. pdf http:/ / cran. r-project. org/ doc/ contrib/ curso-R. Diaz-Uriarte. pdf https:/ / stat. ethz. ch/ mailman/ listinfo/ r-help-es
Esperanza matemática En estadística la esperanza matemática (también llamada esperanza, valor esperado, media poblacional o media) de una variable aleatoria , es el número que formaliza la idea de valor medio de un fenómeno aleatorio. Cuando la variable aleatoria es discreta, la esperanza es igual a la suma de la probabilidad de cada posible suceso aleatorio multiplicado por el valor de dicho suceso. Por lo tanto, representa la cantidad media que se "espera" como resultado de un experimento aleatorio cuando la probabilidad de cada suceso se mantiene constante y el experimento se repite un elevado número de veces. Cabe decir que el valor que toma la esperanza matemática en algunos casos puede no ser "esperado" en el sentido más general de la palabra - el valor de la esperanza puede ser improbable o incluso imposible. Por ejemplo, el valor esperado cuando tiramos un dado equilibrado de 6 caras es 3,5. Podemos hacer el cálculo
y cabe destacar que 3,5 no es un valor posible al rodar el dado. En este caso, en el que todos los sucesos son de igual probabilidad, la esperanza es igual a la media aritmética. Una aplicación común de la esperanza matemática es en las apuestas o los juegos de azar. Por ejemplo, la ruleta americana tiene 38 casillas equiprobables. La ganancia para acertar una apuesta a un solo número paga de 35 a 1 (es decir, cobramos 35 veces lo que hemos apostado y recuperamos la apuesta, así que recibimos 36 veces lo que hemos apostado). Por tanto, considerando los 38 posibles resultados, la esperanza matemática del beneficio para apostar a un solo número es:
que es -0,0526 aproximadamente. Por lo tanto uno esperaría, en media, perder unos 5 céntimos por cada euro que apuesta, y el valor esperado para apostar 1 euro son 0.9474 euros. En el mundo de las apuestas, un juego donde el beneficio esperado es cero (no ganamos ni perdemos) se llama un "juego justo". Nota: El primer paréntesis es la "esperanza" de perder tu apuesta de $1, por eso es negativo el valor. El segundo paréntesis es la esperanza matemática de ganar los $35. La esperanza matemática del beneficio es el valor esperado a ganar menos el valor esperado a perder.
59
Esperanza matemática
60
Definición Para una variable aleatoria discreta con valores posibles función de probabilidad
y sus probabilidades representadas por la
la esperanza se calcula como:
Para una variable aleatoria absolutamente continua, la esperanza se calcula mediante la integral de todos los valores y la función de densidad :
La definición general de esperanza se basa, como toda la teoría de la probabilidad, en el marco de la teoría de la medida y se define como la siguiente integral:
La esperanza también se suele simbolizar con Las esperanzas
para
se llaman momentos de orden
. Más importantes son los momentos
centrados . No todas las variables aleatorias tienen un valor esperado. Por ejemplo, la distribución de Cauchy no lo tiene.
Propiedades La esperanza es un operador lineal, ya que:
Combinando estas propiedades, podemos ver que -
donde
e
son variables aleatorias y
y
y
son tres constantes cualesquiera.
Teoría de la medida
61
Teoría de la medida En matemáticas, una medida es una función que asigna un número real positivo o cero, interpretable como un "tamaño", un "área", un "volumen", o una "probabilidad", a los subconjuntos de un conjunto dado. El concepto es importante para el análisis matemático, la geometría y para la teoría de la probabilidad. A menudo, el ambicioso objetivo de asignar una medida a todo subconjunto del conjunto base se revela inalcanzable. Solo será posible, o interesante en algunos casos, asignar medida a ciertas familias de subconjuntos, a los que llamaremos medibles. Las condiciones de consistencia que deben cumplir los miembros de estas familias quedan encapsuladas en el concepto auxiliar de σ-álgebra. La teoría de la medida es una rama del análisis real que investiga las σ-álgebras, las medidas, funciones medibles e integrales. Es de importancia central en probabilidad y en estadística. Una medida aplica ciertos subconjuntos (pertenecientes a una σ-álgebra) en valores del intervalo [0, ∞].
Definiciones formales Formalmente, una medida μ es una función definida en una σ-álgebra Σ sobre un conjunto X con valores en el intervalo real extendido [0, ∞], que verifica: • La medida del conjunto vacío es cero: μ(
) = 0.
• Si E1, E2, E3, ... una sucesión contable de conjuntos disjuntos dos a dos de la σ-álgebra Σ y E es su unión, entonces μ(E) es igual a la suma de las medidas de los Ek; esto es,
La terna (X, Σ, μ) se denomina espacio de medida, y los elementos de Σ se denominan conjuntos medibles.
Propiedades Varias propiedades pueden deducirse directamente de la definición.
Monotonía μ es monótona: si
y
son dos conjunto medibles, con
, entonces
.
Uniones contables Si E1, E2, E3, ... es una sucesión contable de conjuntos medibles, su unión será también medible (por la definición de σ-álgebra), y
Si se tiene además que En ⊆ En+1 para todo n, entonces
Teoría de la medida
Intersecciones contables Si E1, E2, E3, ...es una sucesión contable de conjuntos medibles, y En+1 ⊆ En para todo n, entonces la intersección de los conjuntos En es medible (de nuevo, por la definición de σ-álgebra); más aún, si al menos uno de los En tiene medida finita, entonces
Esta igualdad no es necesariamente cierta si ninguno de los En no tiene medida finita; por ejemplo, para cada n ∈ N, tómese
Todos estos conjuntos tienen medida infinita, de modo que el límite al lado derecho de la igualdad es ∞; sin embargo, su intersección es vacía y por lo tanto tiene medida 0.
Medidas sigma-finitas Un espacio de medida (X, Σ, μ) se dice finito si μ(X) es un número real finito (en lugar de ∞). Y se dice σ-finito (leído sigma finito) si X es la unión contable de conjuntos medibles de medida finita. Un conjunto en un espacio de medida tiene medida σ-finita si es una unión contable de conjuntos de medida finita. Por ejemplo, los números reales con la medida de Lebesgue estándar forman un espacio σ-finito pero no finito. Considérese el intervalo cerrado [k, k+1] para cada entero k; hay una cantidad contable de tales intervalos, cada uno tiene medida 1, y su unión es la recta real completa. Alternativamente, tómense los números reales con la medida de conteo, que asigna a cada conjunto finito de números reales el número de puntos en el conjunto. Este espacio de medida no es σ-finito, ya que cada conjunto de medida finita contiene finitos puntos, y se necesitaría una cantidad no contable de ellos para cubrir la recta entera. Los espacios de medida σ-finita tienen algunas propiedades convenientes; así, la σ-finitud puede ser comparada a la separabilidad de los espacios topológicos.
Completitud Un conjunto medible S es llamado un conjunto nulo si μ(S) = 0, y conjunto despreciable si está propiamente contenido en uno nulo. La medida μ se dice completa si todo conjunto despreciable es medible (y por lo tanto, nulo también). Una medida puede extenderse a una completa considerando la σ-álgebra de conjuntos T ⊆ X que difieren de un conjunto medible S en un conjunto despreciable; esto es, tal que la diferencia simétrica T Δ S está contenida en un conjunto nulo. En tal caso se define μ(T) = μ(S).
Ejemplos A continuación se listan algunos ejemplos importantes de medidas. • La medida de conteo se define por μ(S) = número de elementos en S, si S es finito; o en caso contario. • La medida de Lebesgue es la única medida completa, invariante por translaciones, sobre una σ-álgebra sobre R que contenga a los intervalos, y tal que μ([0,1]) = 1. • La medida de ángulo circular, que es invariante por rotaciones. • La medida de Haar para un grupo topológico localmente compacto es una generalización de la medida de Lebesgue y tiene una propiedad de unicidad similar. • La medida cero es la definida mediante μ(S) = 0 para todo S. • La medida exterior de Hausdorff-Besicovitch se usa en geometría fractal para medir el df-contenido de un conjunto fractal de dimensión df.
62
Teoría de la medida • Todo espacio de probabilidad da lugar a una medida que toma el valor 1 sobre todo el espacio (y por tanto toma todos sus valores en el intervalo unitario [0,1]). Tal medida es denominada medida de probabilidad. Otras medidas notables son las de Borel, Jordan, y Radon.
Contraejemplos Contrariamente a lo que podría esperarse, no todos los conjuntos del espacio euclídeo son medibles; algunos ejemplos de estos conjuntos contraintuitivos son el conjunto de Vitali, y los que aparecen en las paradojas de Hausdorff y Banach-Tarski.
Generalizaciones Para ciertos propósitos, es útil tener una "medida" cuyos valores no se restrinjan a los reales no negativos y el infinito. Por ejemplo, una función de conjunto numerable aditiva con valores en los números reales (con signo) se llama medida con signo, mientras que tal tipo de función con valores en los números complejos se llama medida compleja. Una medida que tome valores en un espacio de Banach se llama medida espectral; son usadas a menudo en análisis funcional en el teorema espectral. Para distinguir las medidas usuales, con valores positivos, de las generalizaciones, se habla de medidas positivas. Otra generalización es la medida finitamente aditiva. Es igual que una medida, salvo que en lugar de requerir aditividad contable, sólo se necesita aditividad finita. Históricamente, esta definición se usó inicialmente, pero no resultó ser tan útil. En general, las medidas finitamente aditivas están conectadas con nociones como los límites de Banach, el dual de L∞, y la compactificación de Stone-Čech. Todas éstas están conectadas de alguna forma con el axioma de elección. El interesante resultado en geometría integral conocido como teorema de Hadwiger establece que el espacio de funciones de conjunto invariantes por translaciones, finitamente aditivas, no necesariamente no negativas definidas sobre las uniones finitas de conjuntos compactos y convexos en Rn consiste (salvo múltiplos escalares) en una "medida" que es "homogénea de grado k" para cada k = 0, 1, 2, ..., n, y combinaciones lineales de esas "medidas". "Homogénea de grado k" significa que "re-escalar" cualquier conjunto por un factor c > 0 multiplica la "medida" del conjunto por un factor ck. La que es homogénea de grado n es el volumen ordinario n-dimensional. La homogénea de grado n-1 es el "volumen de superficie". La homogénea de grado 1 es una función misteriosa llamada "anchura media" (en inglés, "mean width"), un mal nombre. La homogénea de grado 0 es la característica de Euler.
63
Distribución de probabilidad continua
64
Distribución de probabilidad continua En teoría de la probabilidad una distribución de probabilidad se llama continua si su función de distribución es continua. Puesto que la función de distribución de una variable aleatoria X viene dada por , la definición implica que en una distribución de probabilidad continua X se cumple P[X = a] = 0 para todo número real a, esto es, la probabilidad de que X tome el valor a es cero para cualquier valor de a. Si la distribución de X es continua, se llama a X variable aleatoria continua. En las distribuciones de probabilidad continuas, la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:
Una distribución de probabilidad continua, la distribución normal.
Mientras que en una distribución de probabilidad discreta un suceso con probabilidad cero es imposible, no se da el caso en una variable aleatoria continua. Por ejemplo, si se mide la anchura de una hoja de roble, el resultado 3,5 cm es posible, pero tiene probabilidad cero porque hay infinitos valores posibles entre 3 cm y 4 cm. Cada uno de esos valores individuales tiene probabilidad cero, aunque la probabilidad de ese intervalo no lo es. Esta aparente paradoja se resuelve por el hecho de que la probabilidad de que X tome algún valor en un conjunto infinito como un intervalo, no puede calcularse mediante la adición simple de probabilidades de valores individuales. Formalmente, cada valor tiene una probabilidad infinitesimal que estadísticamente equivale a cero. Existe una definición alternativa más rigurosa en la que el término "distribución de probabilidad continua" se reserva a distribuciones que tienen función de densidad de probabilidad. Estas funciones se llaman, con más precisión, variables aleatorias absolutamente continuas (véase el Teorema de Radon-Nikodym). Para una variable aleatoria X absolutamente continua es equivalente decir que la probabilidad P[X = a] = 0 para todo número real a, en virtud de que hay un incontables conjuntos de medida de Lebesgue cero (por ejemplo, el conjunto de Cantor). Una variable aleatoria con la distribución de Cantor es continua de acuerdo con la primera definición, pero según la segunda, no es absolutamente continua. Tampoco es discreta, ni una media ponderada de variables discretas y absolutamente continuas. En aplicaciones prácticas, las variables aleatorias a menudo ofrece una distribución discreta o absolutamente continua, aunque también aparezcan de forma natural mezclas de los dos tipos.
Definición Para una variable continua hay infinitos valores posibles de la variable y entre cada dos de ellos se pueden definir infinitos valores más. En estas condiciones no es posible deducir la probabilidad de un valor puntual de la variable; como se puede hacer en el caso de va discretas, pero es posible calcular la probabilidad acumulada hasta un cierto valor (función de distribución de probabilidad), y se puede analizar como cambia la probabilidad acumulada en cada punto (estos cambios no son probabilidades sino otro concepto: la función de densidad. En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:
Distribución de probabilidad continua
Sea
65
una va continua, una distribución de probabilidad o función de densidad de probabilidad (FDP) de
una función
La gráfica de intervalo
tal que, para cualesquiera dos números
y
siendo
.
se conoce a veces como curva de densidad, la probabilidad de que
tome un valor en el
es el área bajo la curva de la función de densidad; así, la función mide concentración de probabilidad
alrededor de los valores de una variable aleatoria continua. área bajo la curva de entre Para que
sea una FDP (
1.
0 para toda
y
) sea legítima, debe satisfacer las siguientes dos condiciones: .
2. Ya que la probabilidad es siempre un número positivo, la FDP es una función no decreciente que cumple: 1.
. Es decir, la probabilidad de todo el espacio muestral es 1.
2.
. Es decir, la probabilidad del suceso nulo es cero.
Algunas FDP están declaradas en rangos de
a
, como la de la distribución normal.
Distribuciones continuas Las distribuciones de variable continua más importantes son las siguientes: • • • • • • •
Distribución Beta Distribución exponencial Distribución F Distribución Gamma Distribución ji cuadrado Distribución normal Distribución t de Student
Enlaces externos. •
es
Wikimedia Commons alberga contenido multimedia sobre Distribuciones de probabilidad. Commons
Distribución exponencial
66
Distribución exponencial Distribución exponencial
Función de densidad de probabilidad
Función de distribución de probabilidad Parámetros Dominio Función de densidad (pdf) Función de distribución (cdf) Media Mediana Moda Varianza Coeficiente de simetría Curtosis Entropía Función generadora de momentos (mgf)
Función característica
En estadística la distribución exponencial es una distribución de probabilidad continua con un parámetro cuya función de densidad es:
Su función de distribución es:
Donde
representa el número e.
El valor esperado y la varianza de una variable aleatoria X con distribución exponencial son:
Distribución exponencial
67
La distribución exponencial es un caso particular de distribución gamma con k = 1. Además la suma de variables aleatorias que siguen una misma distribución exponencial es una variable aleatoria expresable en términos de la distribución gamma.
Ejemplo Ejemplos para la distribución exponencial es la distribución de la longitud de los intervalos de variable continua que transcuren entre la ocurrencia de dos sucesos "raros", que se distribuyen según la distribución de Poisson.
Calcular variables aleatorias Se pueden calcular una variable aleatoria de distribución exponencial distribución uniforme :
o, dado que
es también una variable aleatoria con distribución
por medio de una variable aleatoria de
, puede utilizarse la versión más
eficiente:
Relaciones La suma de
variables aleatorias independientes de distribución exponencial con parámetro
es una variable
aleatoria de distribución gamma.
Software Se puede usar software y un programa de computadora para el ajuste de una distribución de probabilidad, incluyendo la exponencial, a una serie de datos: • • • • • • •
Easy fit [1], "data analysis & simulation" MathWorks Benelux [2] ModelRisk [3], "risk modelling software" Ricci distributions, fitting distrubutions with R [4] , Vito Ricci, 2005 Risksolver, automatically fit distributions and parameters to samples [5] StatSoft distribution fitting [6] CumFreq [7] , libre sin costo, incluye intervalos de confianza a base de la distribución binomial
Distribución exponencial
68
Enlaces externos • Calculadora Distribución exponencial [8] • [9]Calcular la probabilidad de una distribución exponencial con R (lenguaje de programación)
Referencias [1] [2] [3] [4] [5] [6] [7] [8] [9]
http:/ / www. mathwave. com/ articles/ distribution_fitting. html http:/ / www. mathworks. nl/ products/ statistics/ demos. html?file=/ products/ demos/ shipping/ stats/ cfitdfitdemo. html http:/ / www. vosesoftware. com/ http:/ / cran. r-project. org/ doc/ contrib/ Ricci-distributions-en. pdf http:/ / www. solver. com/ risksolver8. htm http:/ / www. statsoft. com/ textbook/ distribution-fitting/ http:/ / www. waterlog. info/ cumfreq. htm http:/ / www. stud. feec. vutbr. cz/ ~xvapen02/ vypocty/ ex. php?language=espanol http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node20. php
Distribución gamma En estadística la distribución gamma es una distribución de probabilidad continua con dos parámetros y cuya función de densidad para valores
Aquí
es
es el número e y
es la función gamma. Para valores
la aquella es
(el factorial de
). En este caso - por ejemplo para describir un proceso de Poisson - se llaman la distribición distribución Erlang con un parámetro .
Distribución gamma.
El valor esperado y la varianza de una variable aleatoria X de distribución gamma son
Relaciones El tiempo hasta que el suceso número
ocurre en un Proceso de Poisson de intensidad
con distribución gamma. Eso es la suma de parámetro
es una variable aleatoria
variables aleatorias independientes de distribución exponencial con
.
Véase también: Distribución Beta, Distribución Erlang, Distribución Chi-cuadrada
Enlaces externos • http://mathworld.wolfram.com/GammaDistribution.html • [1] Calcular la probabilidad de una distribución Gamma con R (lenguaje de programación)
Distribución gamma
69
Referencias [1] http:/ / cajael. com/ mestadisticos/ T7DContinuas/ node29. php
Distribución t de Student Distribución t de Student
Función de densidad de probabilidad
Función de distribución de probabilidad Parámetros
grados de libertad (real)
Dominio Función de densidad (pdf)
Función de distribución (cdf) donde
Media
para
es la función hipergeométrica
, indefinida para otros valores
Mediana Moda Varianza Coeficiente de simetría Curtosis
para para para
, indefinida para otros valores
Distribución t de Student
70
Entropía
• •
: función digamma, : función beta
Función generadora de momentos (mgf) (No definida)
En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.
Caracterización La distribución t de Student es la distribución de probabilidad del cociente
donde • Z tiene una distribución normal de media nula y varianza 1 • V tiene una distribución ji-cuadrado con grados de libertad • Z y V son independientes Si μ es una constante no nula, el cociente central con parámetro de no-centralidad
es una variable aleatoria que sigue la distribución t de Student no .
Aparición y especificaciones de la distribución t de Student Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea
la media muestral. Entonces
sigue una distribución normal de media 0 y varianza 1. Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,
donde
es la varianza muestral y demostró que la función de densidad de T es
Distribución t de Student
donde
71
es igual a n − 1.
La distribución de T se llama ahora la distribución-t de Student. El parámetro
representa el número de grados de libertad. La distribución depende de
, pero no de
o
, lo
cual es muy importante en la práctica.
Intervalos de confianza derivados de la distribución t de Student El procedimiento para el cálculo del intervalo de confianza basado en la t de Student consiste en estimar la desviación típica de los datos S y calcular el error estándar de la media confianza para la media =
, siendo entonces el intervalo de
.
Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye también normalmente, la distribución t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero. para efectos prácticos el valor esperado y la varianza son: E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3
Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset publicase sus resultados bajo el seudónimo de Student.[1]
Referencias [1] Walpole, Roland; Myers, Raymond y Ye, Keying (2002). Probability and Statistics for Engineers and Scientists. Pearson Education.
Enlaces externos • Tabla de distribución de T de Student (http://tablas-estadisticas.blogspot.com/2010/06/t-de-student.html) • Prueba t de Student en la UPTC de Colombia (http://virtual.uptc.edu.co/ova/estadistica/docs/libros/tstudent. pdf) • Tabla distribución t de Student • Distribución t-Student: Puntos porcentuales para probabilidad superior (http://www.vaxasoftware.com/ doc_edu/mat.html) • (http://cajael.com/mestadisticos/T7DContinuas/node11.php) Calcular la probabilidad de una distribución t-Student con R (lenguaje de programación)
Distribución de Poisson
72
Distribución de Poisson Distribución De Poisson
El eje horizontal es el índice k. La función solamente está definida en valores enteros de k. Las líneas que conectan los puntos son solo guías para el ojo y no indican continuidad. Función de probabilidad
El eje horizontal es el índice k. Función de distribución de probabilidad Parámetros Dominio Función de probabilidad (fp)
Función de distribución (cdf)
(dónde incompleta)
Media Mediana Moda Varianza Coeficiente de simetría Curtosis
es la Función gamma
Distribución de Poisson
73
Entropía
Función generadora de momentos (mgf) Función característica
En teoría de probabilidad y estadística, la distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad que ocurra un determinado número de eventos durante cierto periodo de tiempo. Fue descubierta por Siméon-Denis Poisson, que la dio a conocer en 1838 en su trabajo Recherches sur la probabilité des jugements en matières criminelles et matière civile (Investigación sobre la probabilidad de los juicios en materias criminales y civiles).
Propiedades La función de masa de la distribución de Poisson es
donde • k es el número de ocurrencias del evento o fenómeno (la función nos da la probabilidad de que el evento suceda precisamente k veces). • λ es un parámetro positivo que representa el número de veces que se espera que ocurra el fenómeno durante un intervalo dado. Por ejemplo, si el suceso estudiado tiene lugar en promedio 4 veces por minuto y estamos interesados en la probabilidad de que ocurra k veces dentro de un intervalo de 10 minutos, usaremos un modelo de distribución de Poisson con λ = 10×4 = 40. • e es la base de los logaritmos naturales (e = 2,71828 ...) Tanto el valor esperado como la varianza de una variable aleatoria con distribución de Poisson son iguales a λ. Los momentos de orden superior son polinomios de Touchard en λ cuyos coeficientes tienen una interpretación combinatorio. De hecho, cuando el valor esperado de la distribución de Poisson es 1, entonces según la fórmula de Dobinski, el n-ésimo momento iguala al número de particiones de tamaño n. La moda de una variable aleatoria de distribución de Poisson con un λ no entero es igual a enteros menores que λ (los símbolos
, el mayor de los
representan la función parte entera). Cuando λ es un entero positivo, las
modas son λ y λ − 1. La función generadora de momentos de la distribución de Poisson con valor esperado λ es
Las variables aleatorias de Poisson tienen la propiedad de ser infinitamente divisibles. La divergencia Kullback-Leibler desde una variable aleatoria de Poisson de parámetro λ0 a otra de parámetro λ es
Distribución de Poisson
74
Relación con otras distribuciones Sumas de variables aleatorias de Poisson La suma de variables aleatorias de Poisson independientes es otra variable aleatoria de Poisson cuyo parámetro es la suma de los parámetros de las originales. Dicho de otra manera, si
son N variables aleatorias de Poisson independientes, entonces .
Distribución binomial La distribución de Poisson es el caso límite de la distribución binomial. De hecho, si los parámetros n y distribución binomial tienden a infinito y a cero de manera que
de una
se mantenga constante, la distribución
límite obtenida es de Poisson.
Aproximación normal Como consecuencia del teorema central del límite, para valores grandes de
, una variable aleatoria de Poisson X
puede aproximarse por otra normal dado que el cociente
converge a una distribución normal de media nula y varianza 1.
Distribución exponencial Supóngase que para cada valor t > 0, que representa el tiempo, el número de sucesos de cierto fenómeno aleatorio sigue una distribución de Poisson de parámetro λt. Entonces, los tiempos discurridos entre dos sucesos sucesivos sigue la distribución exponencial.
Ejemplos Si el 2% de los libros encuadernados en cierto taller tiene encuadernación defectuosa, para obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas usamos la distribución de Poisson. En este caso concreto, k es 5 y , λ, el valor esperado de libros defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad buscada es
Este problema también podría resolverse recurriendo a una distribución binomial de parámetros k = 5, n = 400 y =0,02.
Distribución de Poisson
Procesos de Poisson La distribución de Poisson se aplica a varios fenómenos discretos de la naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3,... veces durante un periodo definido de tiempo o en un área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribución de Poisson incluyen: • El número de autos que pasan a través de un cierto punto en una ruta (suficientemente distantes de los semáforos) durante un periodo definido de tiempo. • El número de errores de ortografía que uno comete al escribir una única página. • El número de llamadas telefónicas en una central telefónica por minuto. • El número de servidores web accedidos por minuto. • El número de animales muertos encontrados por unidad de longitud de ruta. • El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación. • El número de núcleos atómicos inestables que decayeron en un determinado período • El número de estrellas en un determinado volumen de espacio. • La distribución de receptores visuales en la retina del ojo humano. • La inventiva [1] de un inventor a lo largo de su carrera.
Enlaces externos • • • •
Distribución de Poisson Puntual [2] Distribución de Poisson Acumulada [3] Calculadora Distribución de Poisson [4] Cálculo de la probabilidad de una distribución de Poisson [5] usando R
Referencias [1] [2] [3] [4] [5]
http:/ / www. leaonline. com/ doi/ pdfplus/ 10. 1207/ s15326934crj1103_3 http:/ / tablas-estadisticas. blogspot. com/ 2010/ 06/ poisson-puntual. html http:/ / tablas-estadisticas. blogspot. com/ 2010/ 06/ poisson-acumulada. html http:/ / www. stud. feec. vutbr. cz/ ~xvapen02/ vypocty/ po. php?language=espanol http:/ / cajael. com/ mestadisticos/ T6DDiscretas/ node7. php
75
Desviación estándar
76
Desviación estándar La desviación estándar o desviación típica (denotada con el símbolo σ) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva. Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable. Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.
Formulación Muestral La varianza representa la media aritmética de las desviaciones con respecto a la media que son elevadas al cuadrado. Si atendemos a la colección completa de datos (la población en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atención sólo a una muestra de la población, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuación donde nos explican mejor el texto. Expresión de la varianza muestral:
Segunda forma de calcular la varianza muestral:
demostración:
podemos observar que como (sumamos n veces 1 y luego dividimos por n) y como
obtenemos
Expresión de la cuasivarianza muestral (estimador insesgado de la varianza poblacional):
Expresión de la varianza poblacional:
Desviación estándar
donde
77
es el valor medio de
Expresión de la desviación estándar poblacional:
El término desviación estándar fue incorporado a la estadística por Karl Pearson en 1894. Por la formulación de la varianza podemos pasar a obtener la desviación estándar, tomando la raíz cuadrada positiva de la varianza. Así, si efectuamos la raíz de la varianza muestral, obtenemos la desviación típica muestral; y si por el contrario, efectuamos la raíz sobre la varianza poblacional, obtendremos la desviación típica poblacional. Expresión de la desviación estándar muestral:
También puede ser tomada como
con a como
y s como
Desviaciones estándar en una distribución normal.
Además se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda.
Interpretación y aplicación La desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio. Dicho de otra manera, la desviación estándar es simplemente el "promedio" o variación esperada con respecto a la media aritmética. Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estándar muestrales son 8,08; 5,77 y 1,15 respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7. La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida en desviaciones estándar), entonces consideramos que las medidas contradicen la teoría. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sería razonable esperar que ocurrieran si el modelo teórico fuera correcto. La desviación estándar es uno de tres parámetros de ubicación central; muestra la agrupación de los datos alrededor de un valor central (la media o promedio).
Desviación estándar
78
Desglose La desviación estándar (DS/DE), también llamada desviación típica, es una medida de dispersión usada en estadística que nos dice cuánto tienden a alejarse los valores concretos del promedio en una distribución. De hecho, específicamente, la desviación estándar es "el promedio del cuadrado de la distancia de cada punto respecto del promedio". Se suele representar por una S o con la letra sigma, . La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de cada dato. Distribución de probabilidad continua Es posible calcular la desviación estándar de una variable aleatoria continua como la raíz cuadrada de la integral
donde
Distribución de probabilidad discreta La DS es la raíz cuadrada de la varianza de la distribución de probabilidad discreta
Así la varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Aunque esta fórmula es correcta, en la práctica interesa realizar inferencias poblacionales, por lo que en el denominador en vez de n, se usa n-1 (Corrección de Bessel)
También hay otra función más sencilla de realizar y con menos riesgo de tener equivocaciones :
Ejemplo Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de niños: { 4, 1, 11, 13, 2, 7 } 1. Calcular el promedio o media aritmética . En este caso, N = 6 porque hay seis datos:
.
Desviación estándar
79
i = número de datos para sacar desviación estándar Sustituyendo N por 6
Este es el promedio. 2. Calcular la desviación estándar
Sustituyendo N - 1 por 5; ( 6 - 1 )
Sustituyendo
por 6,33
Éste es el valor de la desviación estándar.
Enlaces externos • [1]Simulación de la desviación tipica de una variable discreta con R (lenguaje de programación)
Referencias [1] http:/ / cajael. com/ mestadisticos/ T1EDescriptiva/ node7. php
Intervalo de confianza
80
Intervalo de confianza En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro Las líneas verticales representan 50 construcciones diferentes de intervalos de poblacional. La probabilidad de éxito en la confianza para la estimación del valor μ. estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1] El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshov. En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
Ejemplos Intervalo de confianza para la media de una población De una población de media
y desviación típica
muestras tiene a su vez una media ( con la media poblacional:[2]
se pueden tomar muestras de
elementos. Cada una de estas
). Se puede demostrar que la media de todas las medias muestrales coincide
Pero además, si el tamaño de las muestras es lo suficientemente grande,[3] la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión:
. Esto se representa como sigue:
. Si estandarizamos, se sigue que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal). Se desea obtener una expresión tal que En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará (debido a que es el error que se
Intervalo de confianza
81
cometerá, un término opuesto). Para ello se necesita calcular el punto
—o, mejor dicho, su versión estandarizada
junto con su "opuesto en la distribución"
o valor crítico—
. Estos puntos delimitan la probabilidad para el intervalo, como se
muestra en la siguiente imagen:
Dicho punto es el número tal que:
Y en la versión estandarizada se cumple que:
Así:
Haciendo operaciones es posible despejar
para obtener el intervalo:
De lo cual se obtendrá el intervalo de confianza:
Obsérvese que el intervalo de confianza viene dado por la media muestral por el error estándar Si no se conoce
± el producto del valor crítico
.
y n es grande (habitualmente se toma n ≥ 30):[4] , donde s es la desviación típica de una muestra.
Aproximaciones para el valor para
.
[5]
para los niveles de confianza estándar son 1,96 para
y 2,576
Intervalo de confianza
Intervalo de confianza para una proporción El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una muestra de tamaño n, a un nivel de confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal.[6]
Referencias [1] Rius Díaz, Francisca (octubre de 1997). « 8.2. Estimación confidencial (http:/ / www. bioestadistica. uma. es/ libro/ node100. htm)». Bioestadística. Métodos y aplicaciones (http:/ / www. bioestadistica. uma. es/ libro/ html. htm). Málaga: Universidad de Málaga. ISBN 84-7496-653-1. . Consultado el 07-04-2009. [2] Es una consecuencia del Teorema Central del Límite. [3] En la práctica se considera normal la distribución si n > 30. [4] Sotomayor Velasco, Gabriel; Wisniewski, Piotr Marian (2001). « 10.2. Intervalos de confianza para medias (http:/ / books. google. es/ books?id=0VYkub0HvJwC)». Probabilidad y estadística para ingeniería y ciencias. Cengage Learning Editores. p. 230. ISBN 970686136X. . Consultado el 20-04-2009. [5] Véanse en las tablas de la normal tipificada las entradas correspondientes a los valores 0,95 y 0,99 [6] Rius Díaz, Francisca (octubre de 1997). « 8.6.2. Intervalo para una proporción (http:/ / www. bioestadistica. uma. es/ libro/ node108. htm)». Bioestadística. Métodos y aplicaciones (http:/ / www. bioestadistica. uma. es/ libro/ html. htm). Málaga: Universidad de Málaga. ISBN 84-7496-653-1. . Consultado el 24-04-2009.
• • • • • • • •
Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh (p. 32). Freund, J. E. (1962). Mathematical Statistics. Prentice Hall, Englewood Cliffs, NJ (pp. 227-228). Hacking, I. (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge. Keeping, E. S. (1962). Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ. Kiefer, J. (1977). Journal of the American Statistical Association, 72, 789-827. Neyman, J. (1937). Philosophical Transactions of the Royal Society of London A, 236, 333-380. Robinson, G. K. (1975). Biometrika, 62, 151-161. Zar, J. H. (1984). Biostatistical Analysis. Prentice Hall International, New Jersey. pp. 43-45.
82
Población estadística
Población estadística Población estadística, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones.
Población en epidemiología En epidemiología una población es un conjunto de sujetos o individuos con determinadas características demográficas, de la que se obtiene la muestra o participantes en un estudio epidemiológico a la que se quiere extrapolar los resultados de dicho estudio (inferencia estadística).
Población El número de elementos o sujetos que componen una población estadística es igual o mayor que el número de elementos que se obtienen de ella en una muestra (n).
Tipos de población Existen distintos tipos de poblaciones que son: • Población base: es el grupo de personas designadas por las siguientes características: personales, geográficas o temporales, que son elegibles para participar en el estudio. • Población muestreada: es la población base con criterios de viabilidad o posibilidad de realizarse el muestreo. • Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la población muestreada y accesible. El número de muestras que se puede obtener de una población es una o mayor de una. • Población diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificación característica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.
envases de coca-cola • Sobrepoblación • Óptimo de población • Padrón
Enlaces externos • Revisiones del padrón municipal de Andalucía JUBA [1]
Referencias [1] http:/ / www. juntadeandalucia. es/ iea/ padron/ revpad. htm
83
Muestra estadística
84
Muestra estadística En estadística una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una población estadística. Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo). Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados. El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.
Otras definiciones relacionadas Espacio Muestral El espacio muestral del que se toma una muestra concreta está formado por el conjunto de todas las posibles muestras que se pueden extraer de una población mediante una determinada técnica de muestreo.
Parámetro o Estadístico muestral Un parámetro estadístico o simplemente un estadístico muestral es cualquier valor calculado a partir de la muestra, como por ejemplo la media, varianza o una proporción, que describe a una población y puede ser estimado a partir de una muestra. Valor de la población.
Estimación Una estimación es cualquier técnica para conocer un valor aproximado de un parámetro referido a la población, a partir de los estadísticos muestrales calculados a partir de los elementos de la muestra.
Nivel de confianza El nivel de confianza de una aseveración basada en la inferencia estadística es una medida de la bondad de la estimación realizada a partir de estadísticos muestrales.
Ejemplo La descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo: Dimensión de la población: ej. 222.222 habitantes Probabilidad del evento:
ej. Hombre o Mujer 50%
Nivel de confianza:
ej. 96%
Desviación tolerada:
ej. 5%
Tamaño de la muestra:
ej. 270
La interpretación de esos datos sería la siguiente:
Resultado
ej. X
Muestra estadística • La población a investigar tiene 222.222 habitantes y queremos saber cuántos son hombres o mujeres. • Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un 90% de seguridad con un nivel entre 90 - 5 y 90 + 5. • Generamos una tabla de 270 números al azar entre 1 y 222.222 y en un censo numerado comprobamos el género para los seleccionados.
Ventajas de la elección de una muestra El estudio de muestras es preferible, en la mayoría de los casos, por las siguientes razones: 1. Si la población es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad. 2. Las características de la población varían si el estudio se prolonga demasiado tiempo. 3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población. 4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez. 5. Viabilidad: la elección de una muestra permite la realización de estudios que serían imposible hacerlo sobre el total de la población. 6. La población es suficientemente homogénea respecto a la característica medida, con lo cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo, muestras sanguíneas). 7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisión de un proyectil, etc.).
Descripción matemática de una muestra aleatoria El uso de muestras para deducir fiablemente características de la población requiere que se trate con muestras aleatorias. Si la muestra estadística considerada no constituye una muestra aleatoria las conclusiones basadas en dicha muestra no son fiables y en general estarán sesgadas en algún aspecto. En términos matemáticos, dada una variable aleatoria X con una distribución de probabilidad F, una muestra aleatoria de tamaño N es un conjunto finito de N variables independentes, con la misma distribución de probabildad F.[1] Otra forma más intuitiva, de entender una muestra es considerar que una muestra es una sucesión de N experimentos independientes de una misma cantidad. Es importante diferenciar una muestra de tamaño N, o más exactamente un muestreo de tamaño N, del resultado concreto de de los N experimentos (que como conjunto de valores fijos, en sí mismo, no es una muestra). El concepto de muestra incluye de alguna manera el procedimiento escogido para obtener los datos (es decir, si las variables aleatorias consideradas son independientes entre sí, y si tienen la misma distribución). En general, resulta muy difícil comprobar si una determinada muestra es o no aleatoria, cosa que sólo puede hacerse considerando otro tipo de muestreos aleatorios robustos que permitan decir si la primera muestra era aleatoria o no.
Referencias [1] Samuel S. Wilks, Mathematical Statistics, John Wiley, 1962, Section 8.1
85
Estadístico muestral
86
Estadístico muestral En estadística un estadístico (muestral) es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o inferir características de una población o modelo estadístico. Más formalmente un estadístico es una función medible T que, dada una muestra estadística de valores , les asigna un número, , que sirve para estimar determinado parámetro de la distribución de la que procede la muestra. Así, por ejemplo, la media de los valores de una muestra (media muestral) sirve para estimar la media de la población de la que se ha extraído la misma; la varianza muestral podría usarse para estimar la varianza poblacional, etc.[1] Esto se denomina como realizar una estimación puntual.
Ejemplos Tipos de variables estadísticas. Variable cuantitativa Discreta:variables que pueden tomar valores enteros, nº de hijos, nº de sillas de una sala. etc. Continua:variable que toma valores no enteros Ejemplo: Estatura exacta, promedio de notas, etc. Variable cualitativa Ordinal o Derivada : Son aquellas que existe un orden intuitivo;por ejemplo nivel de educación (básico, medio, superior) Nominal:Corresponde a aquellas en las cuales no existe un orden intuitivo; por ejemplo: estado civil,el sexo, etc.
Media muestral Si se tiene una muestra estadística de valores
para una variable aleatoria X con distribución de
probabilidad F(x,θ) (donde θ es un conjunto de parámetros de la distribución) se define la media muestral n-ésima como:
Varianza muestral De forma análoga a la Media Muestral y utilizando los mismos elementos que en la misma, la definición de Varianza es la siguiente:
Momentos muestrales Con las mismas notaciones usadas a la media y varianza muestral se define el estadístico momento muestral no centrado como:
Nótese que m1 es precisamente la media muestral. Análogamente se define el estadístico momento muestral centrado como:
Estadístico muestral
87
que guarda las siguientes relaciones con estadísticos previamente definidos:
Propiedades Suficiencia El concepto de estadístico suficiente fue introducido por Fisher en 1922, y como originalmente indicó, un estadístico es suficiente para los objetivos de la inferencia estadística si contiene, en cierto sentido, toda la «información» acerca de la función de distribución a partir de la cual se ha generado la muestra. Formalmente si
es una muestra de una variable aleatoria
pertenece a una familia de distribuciones dadas por un vector paramétrico que un cierto estadístico condicionada de
cuya distribución de probabilidad , entonces se dice
es suficiente para θ o para la familia si y sólo si, la distribución no depende de
.
Aplicaciones Estimación puntual La estimación puntual consiste en utilizar el valor de un estadístico, denominado estimador, para calcular el valor de un parámetro desconocido de una población. Por ejemplo, cuando usamos la media muestral para estimar la media de una población, o la proporción de una muestra para estimar el parámetro de una distribución binomial. Una estimación puntual de algún parámetro de una población es un solo valor obtenido a partir de un estadístico.
Contraste de hipótesis Test t-Student Es un test que permite decidir si dos variables aleatorias normales (gausianas) y con la misma varianza tienen medias diferentes. Dada la ubicuidad de la distribución normal o gausiana el test puede aplicarse en numerosos contextos, para comprobar si la modificación en las condiciones de un proceso (humano o natural) esencialmente aleatorio producen una elevación o disminución de la media poblacional. El test opera decidiendo si una diferencia en la media muestral entre dos muestras es estadísticamente significativa, y entonces poder afirmar que las dos muestras corresponden a distribuciones de probabilidad de media poblacional distinta, o por el contrario afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas azarosas. La eficacia del test aumenta con el número de datos del que constan las dos muestras, en concreto del número de grados de libertad conjunto de las dos muestras, este número viene dado por (siendo Ni el tamaño muestral, es decir, el número de datos en cada muestra i). La prueba consiste en examinar el estadístico t obtenido a partir de la dos muestras como:
Y este valor se compara con un valor de referencia basado en el número de grados de libertad y el nivel de significación. Dicho valor de referencia se obtiene a partir de la distribución t de Student. Al comparar las 2 medias, frecuentemente siempre se supone que el nivel de signigicación α sea menor que 0,05. Véase también: Distribución t de Student
Estadístico muestral test F-Snedecor estas son de regresion r=(25(1404)-(183)(185))/√(((25(1395)-(18〖3)〗^2 (25(1427)-(185)^2)) r=1245/√((34875-33489)(35675-34225)) r=1245/√((1386)(1450)) r=1245/1417.638882 r=
0.878220833
Referencias [1] Casas Sánchez, Jose M.; Manzano Arrondo, Vicente; Zamora Sanz, Ana Isabel; (1997). « 1.3. Parámetros poblacionales y estadísticos muestrales (http:/ / books. google. es/ books?id=ly-EjOkkL9UC& printsec=frontcover& dq=inferencia+ estadÃstica& as_brr=3#PPA32,M1)». Inferencia Estadística (http:/ / books. google. es/ books?id=ly-EjOkkL9UC) (2, ilustrada edición). Ramón Areces. p. 32. ISBN 848004263X. . Consultado el 14/04/2009.
• 'Introducción a la Estadística Económica y Empresarial. Teoría y Práctica.' de Fco. Javier Martín-Pliego López, Editorial Thomson, 2007 (Madrid). • 'Manual de Estadística Empresarial con ejercicios resueltos' de Eva Ropero, María Eleftheriou, Luana Gava y Eva Romero. Editorial Delta Publicaciones. 2008 (Madrid).
Tamaño de la muestra En estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.
Objetivos de la determinación del tamaño adecuado de una muestra 1. Estimar un parámetro determinado con el nivel de confianza deseado. 2. Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía. 3. Reducir costes o aumentar la rapidez del estudio. Por ejemplo, en un estudio de investigación epidemiológico la determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así: 1. Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el periodo de reclutamiento. Los estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia. 2. Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial. El tamaño de una muestra es el número de individuos que contiene. Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para datos globales es la siguiente: n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q)) N: es el tamaño de la población o universo (número total de posibles encuestados). k: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%.
88
Tamaño de la muestra
89
Los valores k más utilizados y sus niveles de confianza son: k Nivel de confianza
1,15 75%
1,28 80%
1,44 85%
1,65 90%
1,96 95%
2 95,5%
2,58 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la fórmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. Ejemplos: Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían un producto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas. Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un error muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarán. Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje real de votos estará en el intervalo 52-58% (55% +/- 3%).
p: proporción de individuos que poseen en la población la característica de estudio. Este dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opción más segura. q: proporción de individuos que no poseen esa característica, es decir, es 1-p. n: tamaño de la muestra (número de encuestas que vamos a hacer). Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o esté más libre de error necesariamente; antes es preciso minimizar la principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula: Otra fórmula para calcular el tamaño de la muestra es: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Donde: n = el tamaño de la muestra. N = tamaño de la población. σ= Desviación estándar de la población, que generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador. La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media: X ̅-Z σ/√n √((N-n)/(N-1))≤μ≤X ̅+Z σ/√n √((N-n)/(N-1)) En donde el error es: e=Z σ/√n √((N-n)/(N-1)) Elevando al cuadrado el error se tiene: 〖(e)〗^2=(Z σ/√n √((N-n)/(N-1)))^2 e^2=Z^2 σ^2/n (N-n)/(N-1) Multiplicando fracciones: e^2=(〖Z^2 σ〗^2 (N-n))/n(N-1) Eliminando denominadores: e^2 n(N-1)=〖Z^2 σ〗^2 (N-n) Eliminando paréntesis: e^2 nN-e^2 n=〖Z^2 σ〗^2 N-〖Z^2 σ〗^2 n Transponiendo n a la izquierda: e^2 nN-e^2 n+〖Z^2 σ〗^2 n=〖Z^2 σ〗^2 N Factor común de n: n(e^2 N-e^2+Z^2 σ^2 )=〖Z^2 σ〗^2 N Despejando n:
Tamaño de la muestra n=(〖Z^2 σ〗^2 N)/(e^2 N-e^2+Z^2 σ^2 ) Ordenando se obtiene la fórmula para calcular el tamaño de la muestra: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 99% Solución: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás valores se tomará σ=0,5, y e = 0,05. Reemplazando valores en la fórmula se obtiene: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) n=(500∙〖0,5〗^2 〖∙2,58〗^2)/((500-1) 〖(±0,05)〗^2+〖0,5〗^2∙〖2,58〗^2 )=832,05/2,9116=285,77=286
Estimación de parámetros La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α (véase estimación por intervalos). Estimación de una proporción Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios de la muestra (N) son: 1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y Zα/2 de 1,96. 2. P: Valor de la proporción que se supone existe en la población. 3. i: Precisión con que se desea estimar el parámetro ( es la amplitud del intervalo de confianza). Estimación de una media Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios en la muestra (N) son: 1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y Zα/2 de 1,96. 2. 3.
: Varianza de la distribución de la variable cuantitativa que se supone que existe en la población. : Precisión con que se desea estimar el parámetro ( es la amplitud del intervalo de confianza). yo lo dije asi....
Contraste de hipótesis Para conocer el tamaño de la muestra en un estudio de investigación en el que queremos conocer las diferencias existentes entre dos hipótesis, debemos conocer previamente: • error tipo I y tipo II: Hay que establecer el riesgo de cometer un error de tipo I que se está dispuesto a aceptar. Normalmente de forma arbitraria se acepta un riesgo del 5%. Además hay que establecer el riesgo que se acepta de cometer un error tipo II, que suele ser entre el 5 y el 20%. • Si la hipótesis es unilateral o bilateral: El planteamiento de una hipótesis bilateral o "de dos colas" requiere mayor tamaño muestral. • Definir la Magnitud de la diferencia efecto o asociación que se desea detectar: A mayores diferencias preestablecidas en el planteamiento de la hipótesis, menor tamaño muestral, y a menor diferencia, mayor espacio muestral. • Conocer la variabilidad del criterio de evaluación en la población.
90
Tamaño de la muestra
91
Comparación de dos proporciones Para calcular el número de sujetos necesarios en cada una de las muestras (n), debemos prefijar: • • • • •
1,96 = Valor Z correspondiente al riesgo deseado 1,96 = Valor Z correspondiente al riesgo deseado, si es de dos colas. 0,13 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento habitual. 0,44 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o técnica. 0,29 = Media de las dos proporciones y .
Coeficiente de correlación La asociación entre dos variables cuantitativas necesita normalmente la utilización del coeficiente de correlación r de Pearson. Equivalencia de dos intervenciones •
Portal:Matemática. Contenido relacionado con Matemática.
Teorema del límite central El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la suma de n variables aleatorias independientes, entonces la función de distribución de Sn «se aproxima bien» a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande.[1][2]
Definición Sea
la función de densidad de la distribución normal definida como[1]
con una media µ y una varianza σ2. El caso en el que su función de densidad es
, a la distribución se le
conoce como normal estándar. Se define Sn como la suma de n variables aleatorias, independientes, idénticamente distribuidas, y con una media µ y varianza σ2 finitas (σ2≠0): de manera que, la media de Sn es n·µ y la varianza n·σ2, dado que son variables aleatorias independientes. Con tal de hacer más fácil la comprensión del teorema y su posterior uso, se hace una estandarización de Sn como
para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así, las variables Zn convergerán en distribución a la distribución normal estándar N(0,1), cuando n tienda a infinito. Como consecuencia, si Φ(z) es la función de distribución de N(0,1), para cada número real z:
donde Pr( ) indica probabilidad y lim se refiere a límite matemático.
Teorema del límite central
92
Enunciado formal De manera formal, normalizada y compacta el enunciado del teorema es:[3] Teorema del límite central: Sea
,
, ...,
un conjunto de variables aleatorias, independientes e idénticamente distribuidas con
media μ y varianza σ2 distinta de cero. Sea
Entonces .
Es muy común encontrarlo con la variable estandarizada Zn en función de la media muestral
,
puesto que son equivalentes, así como encontrarlo en versiones no normalizadas como puede ser:[4][5] Teorema (del límite central): Sea
,
, ...,
un conjunto de variables aleatoria, independientes e idénticamente distribuidas de
2
una distribución con media μ y varianza σ ≠0. Entonces, si n es suficientemente grande, la variable aleatoria
tiene aproximadamente una distribución normal con
y
.
Nota: es importante remarcar que este teorema no dice nada acerca de la distribución de
, excepto la existencia
[4]
de media y varianza.
Propiedades • El teorema del límite central garantiza una distribución normal cuando n es suficientemente grande. • Existen diferentes versiones del teorema, en función de las condiciones utilizadas para asegurar la convergencia. Una de las más simples establece que es suficiente que las variables que se suman sean independientes, idénticamente distribuidas, con valor esperado y varianza finitas. • La aproximación entre las dos distribuciones es, en general, mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre "teorema del límite central" ("central" califica al límite, más que al teorema). • Este teorema, perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos relacionados, tales como la inferencia estadística o la teoría de renovación.
Referencias [1] Filmus, Yuval (Enero/Febrero 2010) (en inglés). Two Proofs of the Central Limit Theorem (http:/ / www. cs. toronto. edu/ ~yuvalf/ CLT. pdf). pp. 1-3. . Consultado el 13-12-2010. [2] Grinstead, Charles M.; Snell, J. Laurie (1997). « 9. Central Limit Theorem (http:/ / www. dartmouth. edu/ ~chance/ teaching_aids/ books_articles/ probability_book/ Chapter9. pdf)» (en inglés, PDF). Introduction to Probability (http:/ / books. google. es/ books?id=14oq4uWGCkwC) (2 edición). AMS Bookstore. pp. 325-360. ISBN 0821807498. . Consultado el 15/04/2009. [3] Charles Stanton. « Central limit theorem (http:/ / www. math. csusb. edu/ faculty/ stanton/ probstat/ clt. html)» (en inglés). Probability and Statistics Demos (http:/ / www. math. csusb. edu/ faculty/ stanton/ ). Consultado el 13 de diciembre de 2010. [4] Wasserman, Larry. «5. Convergence of Random Variables» (en inglés). All of Statistics. Springer. p. 77. ISBN 0-387-40272-1. [5] *Weisstein, Eric W. « Central Limit Theorem (http:/ / mathworld. wolfram. com/ CentralLimitTheorem. html)» (en inglés). MathWorld. Wolfram Research.
• Blaiotta, Jimena; Delieutraz, Pablo (30 de julio de 2004). « Teorema central del límite (https://www.u-cursos. cl/ingenieria/2009/2/MA3401/1/material_docente/bajar?id_material=260765)» (en castellano) (PDF).
Teorema del límite central
93
Consultado el 15 de diciembre de 2010. • Behar Gutiérrez, Roberto; Grima Cintas, Pere (2004) (en castellano). 55 respuestas a dudas típicas de Estadística. Madrid: Ediciones Díaz de Santos, S.A. pp. 187-189. ISBN 84-7978-643-4.
Enlaces externos •
Wikimedia Commons alberga contenido multimedia sobre Teorema del límite central. Commons
Ronald Fisher Ronald Aylmer Fisher, (n. Londres, 17 de febrero de 1890 – m. Adelaida, 29 de julio de 1962) científico, matemático, estadístico, biólogo evolutivo y genetista inglés. Fisher realizó muchos avances en la estadística, siendo una de sus más importantes contribuciones, la inferencia estadística creada por él en 1920.
Biografía académica Fisher nació en East Finchley, Londres. En 1909 la escasez de sus recursos económicos y su extraordinaria capacidad académica le valieron una beca para cubrir su estancia en el Gonville and Caius College de la Universidad de Cambridge, donde obtuvo su graduación en matemáticas en 1913. Dos años antes, se había convertido en uno de los fundadores más activos de la Sociedad de Eugenesia de la Universidad de Cambridge, junto con John Maynard Keynes, R. C. Punnett y Horace Darwin, hijo de Charles Darwin. Ronald Aylmer Fisher.
Durante la guerra, Fisher atravesó momentos de extrema carestía económica. A pesar de las dificultades, comenzó a escribir reseñas de libros para la Eugenic Review e incrementó gradualmente su interés en el trabajo genético y estadístico. Publicó varios artículos sobre biometría, incluyendo el célebre The Correlation Between Relatives on the Supposition of Mendelian Inheritance, que inauguró la fundación de la llamada genética biométrica e introdujo la metodología del análisis de varianza, considerablemente superior a la de la correlación. El artículo mostraba que la herencia de rasgos, mensurables por valores reales, los valores de variables continuas, era consistente con los principios mendelianos.
Estadística En 1919 Fisher empezó a trabajar en la Rothamsted Experimental Station (Harpenden, Hertfordshire, Inglaterra). Allí comenzó el estudio de una extensa colección de datos, cuyos resultados fueron publicados bajo el título general de Studies in Crop Variation. Durante los siguientes siete años, se dedicó al estudio pionero de los principios del diseño de experimentos (The Design of Experiments, 1935), elaboró sus trabajos sobre el análisis de varianza y comenzó a prestar una atención especial a las ventajas metodológicas de la computación de datos (Statistical Methods for Research Workers, 1925). Su respuesta al problema estadístico de los investigadores en biología y agronomía fue introducir y desarrollar ideas originales en el campo de la inferencia estadística y en el de diseño de
Ronald Fisher experimentos. Por ejemplo, descubrió la utilidad del uso de los cuadrados latinos para mejorar significativamente los métodos agrícolas, cuando se hallaba investigando la eficacia de los fertilizantes en el rendimiento de las cosechas e intentando que la calidad de la tierra no fuese un factor indeseable que influyese en el rendimiento de la cosecha.[1]
Genética de poblaciones y teoría evolutiva Junto con Sewall Wright y J. B. S. Haldane, Fisher es uno de los principales fundadores de la genética de poblaciones, que logró conciliar la metodología biométrica con la genética mendeliana, la primera fase de la Síntesis evolutiva moderna. El interés de Fisher por la genética y la evolución se despertó en Cambridge, con la lectura de una serie de artículos de Karl Pearson ("Mathematical Contributions to the Theory of Evolution"). En la misma universidad, los Mendelianos eran la escuela dominante, y Fisher pronto estuvo convencido de que el mendelismo era el principal mecanismo de la herencia. Fisher sentó las bases de la genética poblacional, demostrando que la posibilidad de que una mutación incremente la adaptación de un organismo disminuye con la magnitud de la mutación y que las poblaciones más grandes conllevan más variación, de modo que tienen una mayor probabilidad de supervivencia.
Eugenesia Fisher fue un ardiente promotor de la eugenesia, que estimuló y guio gran parte de su trabajo en genética humana. Su libro The Genetical Theory of Natural Selection consistió en una síntesis de la literatura ya publicada al respecto, introduciendo también nuevas ideas sobre la selección sexual, el mimetismo y la evolución de la dominancia. Un tercio de la obra estaba dedicado a la aplicación de estas ideas al ser humano. Fisher atribuía el declive y la caída de las civilizaciones al hecho de que se había alcanzado un momento histórico en el que había comenzado a decaer la fertilidad de las clases altas. Utilizando los datos del censo de 1911 para Gran Bretaña, Fisher mostraba la relación inversa entre fertilidad y clase social. La causa, en su opinión, radicaba en el incremento del estatus social de las familias que no eran capaces de producir mucha descendencia, pero que habían crecido por las ventajas económicas asociadas a tener un número reducido de hijos. Para superar esta "lacra", Fisher proponía que las ventajas económicas de las que disfrutaban las familas pequeñas, desaparecieran por medio de subsidios estatales. Entre 1929 y 1934 Fisher participó muy activamente en la campaña emprendida por la Eugenics Society a favor de la aprobación de una ley que permitiese la esterilización en base a criterios eugénicos, una esterilización voluntaria y positiva que nunca se aplicase como castigo. En 1929 fue admitido en la Royal Society. El reconocimiento hizo crecer su fama y se convirtió en un investigador docente de prestigio internacional. En 1933 abandonó Rothamsted para ocupar la cátedra de Eugenesia en la University College London. En 1939, con el inicio de la guerra, la cátedra fue disuelta y se exilió a Rothamsted. En 1943, después de atravesar una larga crisis económica y personal, ocupó la Cátedra de Genética en Cambridge. Sus trabajos sobre el cromosoma del ratón culminaron en 1949 con la publicación de The Theory of Inbreeding. En 1947 fundó junto con Cyril Darlington la revista Heredity: An International Journal of Genetics. Después de retirarse de Cambridge en 1957 se integró como investigador senior en el CSIRO en Adelaida, Australia. Murió de cáncer de colon en 1962.
94
Ronald Fisher
Referencias [1] Tony Crilly (2011). 50 cosas que hay que saber sobre matemáticas. Ed. Ariel. ISBN 978-987-1496-09-9.
• Box, Joan Fisher (1978) R. A. Fisher: The Life of a Scientist, New York: Wiley, ISBN 0-471-09300-9. • David Howie, "Interpreting Probability: Controversies and Developments in the Early Twentieth Century" (Cambridge University Press, 2002) • Salsburg, David (2002) The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, ISBN 0-8050-7134-2
Bibliografía Selección de artículos Disponibles en University of Adelaide website (http://www.library.adelaide.edu.au/digitised/fisher): • "Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population." Biometrika, 10: 507-521. (1915) • "The correlation between relatives on the supposition of Mendelian inheritance" Trans. Roy. Soc. Edinb., 52: 399-433. (1918). • "On the mathematical foundations of theoretical statistics]" Philosophical Transactions of the Royal Society, A, 222: 309-368. (1922) • "On the dominance ratio. Proc. Roy. Soc. Edinb., 42: 321-341. (1922) • "On a distribution yielding the error functions of several well known statistics" Proc. Int. Cong. Math., Toronto, 2: 805-813. (1924) • "Theory of statistical estimation" Proceedings of the Cambridge Philosophical Society, 22: 700-725 (1925) • "Applications of Student's distribution" Metron, 5: 90-104 (1925) • "The arrangement of field experiments" J. Min. Agric. G. Br., 33: 503-513. (1926) • "The general sampling distribution of the multiple correlation coefficient" Proceedings of Royal Society, A, 121: 654-673 (1928) • "Two new properties of mathematical likelihood" Proceedings of Royal Society, A, 144: 285-307 (1934)
Libros La lista completa de las publicaciones se encuentra disponible en University of Adelaide website (http:/ / www. library.adelaide.edu.au/digitised/fisher): • Statistical Methods for Research Workers (1925) ISBN 0-05-002170-2. • The Genetical Theory of Natural Selection (1930) ISBN 0-19-850440-3. Cap. 1 online (http://www.blackwellpublishing.com/ridley/classictexts/fisher1.asp) Cap. 6 online (http://www.blackwellpublishing.com/ridley/classictexts/fisher2.asp) • • • • • • •
The design of experiments (1935) ISBN 0-02-844690-9, ISBN B0000CKL1X The use of multiple measurements in taxonomic problems (in Annals of Eugenics 7/1936) Statistical tables for biological, agricultural and medical research (1938, coautor:Frank Yates) The theory of inbreeding (1949) ISBN 0-12-257550-4, ISBN 0-05-000873-0 Contributions to mathematical statistics (1950) ISBN B0000CHSZU. Statistical methods and statistical inference (1956) ISBN 0-02-844740-9 Collected Papers of R.A. Fisher (1971-1974). 5 vol. University of Adelaide.
95
Ronald Fisher
Biografías • Box, Joan Fisher (1978) R. A. Fisher: The Life of a Scientist, New York: Wiley, ISBN 0-471-09300-9. Preface (http://www-groups.dcs.st-and.ac.uk/~history/Extras/Fisher_Life.html) • Frank Yates & Kenneth Mather (1963) Ronald Aylmer Fisher. Biographical Memoirs of Fellows of the Royal Society of London 9:91-120 Available on University of Adelaide website (http://digital.library.adelaide.edu. au/coll/special//fisher/fisherbiog.pdf)
Enlaces externos • Wikiquote alberga frases célebres de o sobre Ronald Fisher. Wikiquote • Una guía de R. A. Fisher, por John Aldrich (http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/ rafreader.htm) • Sobre la contribución de Fisher al lenguaje de la Estadística (http://members.aol.com/jeff570/mathword.html) • Bibliografía, biografía y 2 volúmenes de correspondencia y artículos, de la Biblioteca de la Universidad de Adelaide (http://www.library.adelaide.edu.au/digitised/fisher/index.html) • Primera edición del Statistical Methods for Research Workers (http://psychclassics.yorku.ca/Fisher/Methods/ ) • Una colección de citas de Fisher compiladas por A. W. F. Edwards (http://www.economics.soton.ac.uk/staff/ aldrich/fisherguide/quotations.htm)
96
Fuentes y contribuyentes del artículo
Fuentes y contribuyentes del artículo Prueba F de Fisher Fuente: http://es.wikipedia.org/w/index.php?oldid=54079896 Contribuyentes: Cinabrium, Juan Manuel, Juan Mayordomo, Lobillo, Pablorov, Schummy, Tano4595, 9 ediciones anónimas Distribución F Fuente: http://es.wikipedia.org/w/index.php?oldid=53814979 Contribuyentes: Califasuseso, Ciberelm, Eselito5, FAR, Gperjim, Humberto, Juan Manuel, Juan Mayordomo, Paulrc, Tano4595, 12 ediciones anónimas Análisis de la varianza Fuente: http://es.wikipedia.org/w/index.php?oldid=53835434 Contribuyentes: Acarabal, Alfambra, Davius, Deemonita, Futbolero, Humbefa, JAGT, Jcaraballo, Jjgibaja, Jkbw, Juan Manuel, Juan Mayordomo, LP, Lauranrg, Matdrodes, Mion, Nikolin rio, Paintman, PetrohsW, Rafiko77, Resped, Rorduna, The Bear That Wasn't, Trujilloleonardo, 71 ediciones anónimas Distribución χ² Fuente: http://es.wikipedia.org/w/index.php?oldid=54320170 Contribuyentes: Af3, Aiax, Alefisico, AlfonsoERomero, Ampersand &, AngelHerraez, AnselmiJuan, Cgb, Cristiangy, Davius, Eseotres, Fgiones, HiTe, Humberto, JakobVoss, Jorge c2010, JorgeGG, Joseaperez, Juan Manuel, Juan Mayordomo, Kved, Madalberta, NudoMarinero, Penetic, Resped, Sabbut, Tano4595, Toad32767, Wissons, 38 ediciones anónimas Contraste de hipótesis Fuente: http://es.wikipedia.org/w/index.php?oldid=54410818 Contribuyentes: Alakasam, Califasuseso, Cgb, Davius, Elpolaco08, Fenicio, Folkvanger, Hu12, Ialad, Isha, Jagarsoft, Jcaraballo, Jmvkrecords, Jorge c2010, Joseaperez, Juan Mayordomo, LauraFarina, Lloux, LuchoX, Matdrodes, Mxcatania, Niqueco, Pabloallo, Pólux, Raimundo Pastor, Sageo, Varyatanil, 58 ediciones anónimas Hipótesis nula Fuente: http://es.wikipedia.org/w/index.php?oldid=54610286 Contribuyentes: Amaralaw, Dedalo380, Gizmo II, Gorpik, Jkbw, Juan Mayordomo, Matdrodes, Mxcatania, Oscar ., Oxartum, Patrick McKleinschuss, Pedro Felipe, Pedro Nonualco, Pinar, Qwertyytrewqqwerty, Super braulio, Xatufan, Zuirdj, 20 ediciones anónimas Distribución normal Fuente: http://es.wikipedia.org/w/index.php?oldid=53908398 Contribuyentes: A ver, Af3, Airunp, Alexv86, AlfonsoERomero, Antur, AstroNomo, Augustomarijuan, B1mbo, Banfield, BlackBeast, BuenaGente, Carlos.Gracia-Lázaro, Cgb, Chesnok, Christianfgc, ConPermiso, Dhcp, Diegusjaimes, Dodo, Doloco, Edmenb, Eduardosalg, Er Komandante, Euratom, Farisori, Fsd141, Germanrinconrey, Gperjim, Guanucoluis, Gökhan, HiTe, Humbefa, Jarisleif, Jerowiki, Jkbw, JoeLoui, Jorge c2010, JorgeGG, JoseA, Joseaperez, Joxemai, Juan Carlos Tapia, Juan Manuel, Juan Mayordomo, LP, Leonpolanco, Marsal20, Matdrodes, Moonkey, Omary22 24, Oscar ., Palissy, Pasmargo, Paulrc, Rafiko77, Ricardogpn, Roche, Rubpe19, Rufflos, SPZ, Savh, Sergio Andres Segovia, Srbanana, Taichi, Tano4595, Tartaglia, Thebiguserpratwiki, Tirithel, Tomatejc, Vivero, Xenoforme, 177 ediciones anónimas Distribución de probabilidad Fuente: http://es.wikipedia.org/w/index.php?oldid=53084143 Contribuyentes: Af3, AlfonsoERomero, Artorius, Carlosfran2ceu, Centroamericano, Cflm001, Cgb, Ctrl Z, Davius, Diegusjaimes, Dnu72, Dodo, Enen, Evra83, Farisori, Germanrinconrey, Immersia, Interwiki, J.delanoy, JakobVoss, JorgeGG, Joseaperez, Juan Mayordomo, Juanwrs, Juliabis, Kved, Lucien leGrey, Maldoror, Manuelt15, Manwë, Maquita, Matdrodes, Miss Manzana, Moriel, Neozonik, Nicoguaro, PabloAlv, PabloCastellano, Paulrc, Peregrino, Petruss, Sabbut, Sebrev, Tano4595, Umarth8, Vitamine, Zahualli, 114 ediciones anónimas Variable aleatoria Fuente: http://es.wikipedia.org/w/index.php?oldid=54449708 Contribuyentes: Acratta, Alex15090, Allforrous, AlvaroEstadisticaCEU, Camilo, Carlos Manuel Nina, CayoMarcio, Cogliatti juan i, Dany yun, Davidmosen, Davius, Diegusjaimes, Emijrp, Estadistica 2009, Evaromero, Ezarate, Farisori, Gafotas, GermanX, Ginés90, Greek, Guilloip, Gökhan, Hiperfelix, Huhsunqu, Humbefa, Humberto, Icvav, Isha, JViejo, JakobVoss, Joseangelmadrid, Joseaperez, Juan Mayordomo, Juancdg, Laura Fiorucci, Luisedu90, Matdrodes, Metrónomo, Neodop, Numbo3, Pino, Pólux, Rastrojo, Samcienfuegos, Tartaglia, Wewe, Ybenitez, 114 ediciones anónimas Varianza Fuente: http://es.wikipedia.org/w/index.php?oldid=54540740 Contribuyentes: Adrien, Alakasam, Aremar00, Carloschida, Cgb, Ctrl Z, Diegusjaimes, Er Komandante, Evaromero, FbPort, Fcojperez, Fenicio, Francisco Albani, GermanX, HUB, Hprmedina, Humbefa, Ilmer Condor, JakobVoss, Jjgibaja, Jkbw, Jmcalderon, Joanfchipial, Joseaperez, Juan Manuel, Juan Mayordomo, Katerin jimena, Lauranrg, Madalberta, ManuP, Marsal20, Matdrodes, Mel 23, Muro de Aguas, Mxcatania, Phirosiberia, Ravave, Retama, Roberto Fiadone, RoyFocker, Savh, Stoni, Template namespace initialisation script, Tirithel, Triku, Uncertain, Ungoliant, Xenoforme, Žiedas, 157 ediciones anónimas Función de densidad de probabilidad Fuente: http://es.wikipedia.org/w/index.php?oldid=53187093 Contribuyentes: .José, Af3, Alexv86, Carter17, Cgb, Davius, Diegusjaimes, Dodo, Farisori, GermanX, Humbefa, Jmcalderon, JorgeGG, Juan Mayordomo, Lobillo, PabloCastellano, Paintman, Pilaf, Tano4595, Ybenitez, 34 ediciones anónimas Probabilidad Fuente: http://es.wikipedia.org/w/index.php?oldid=54534252 Contribuyentes: Acratta, Aldo93, Alexav8, Alvaro qc, Amanuense, Andreasmperu, Angel GN, Antonorsi, AqueronteBlog, Asddas, Ast Derek, Açipni-Lovrij, BlackBeast, Camilo, Charly montoya, Cookie, Crashjd, David0811, Dermot, Diegusjaimes, Dreitmen, Eduardosalg, Einundswanzig, Farisori, Flakinho, Flores,Alberto, GermanX, Gustronico, Götz, HUB, Hemerson p, Hlino, Isha, J.delanoy, Javierito92, Jkbw, JorgeGG, Karshan, Laura Bauer, Leonpolanco, Luis1970, Mafores, Magister Mathematicae, Makaka33, Manuelt15, MarcoAurelio, Mariana de El Mondongo, Matdrodes, MotherForker, Mperort348, Newton-200, Nicop, OboeCrack, Paintman, Petronas, Petruss, Pino, Poco a poco, Pólux, Raulshc, RedTony, Rjgalindo, Savh, Sebrev, Semontanés, Snakeeater, Splash04, Technopat, Thingg, Ugly, Valentin estevanez navarro, VanKleinen, Vic Fede, Vitamine, Wilfredor, 403 ediciones anónimas Teoría de la probabilidad Fuente: http://es.wikipedia.org/w/index.php?oldid=54569211 Contribuyentes: .Sergio, Acratta, Adrien, Af3, Agremon, Aguskiller, Airunp, Akhram, AlfonsoERomero, Allforrous, Açipni-Lovrij, Blaze 257, Carlos J. Duarte, Cgb, Cookie, Danielba894, Dianai, Diegusjaimes, Dnu72, Dodo, Eduardosalg, Egaida, Einundswanzig, Equi, GermanX, Gustronico, Hlnodovic, Humbefa, Ialad, Icvav, JakobVoss, Jkbw, Jorgerod6, Joseaperez, Juanjo Conti, Kokoo, Kurtan, Lauranrg, Magister Mathematicae, Mahadeva, Maldoror, Mar del Sur, Mario Ayala, Matdrodes, Maxidigital, Miguelisimo1985, Mordecki, Moriel, Mortadelo2005, Nicop, Oscar ., Paintman, Pino, Portland, Pruizpesce, Ricardo Alquimista, Sabbut, Saloca, Santiperez, Sauron, Soteke, Superzerocool, Tano4595, Taragui, Template namespace initialisation script, Tirithel, Tortillovsky, Valentin estevanez navarro, Valsaneder1, Verdecito, Veremos, Wewe, Ylmer, 225 ediciones anónimas Distribución binomial Fuente: http://es.wikipedia.org/w/index.php?oldid=54600441 Contribuyentes: .Sergio, Akma72, Alex economist, Amanuense, Babbage, Bentzia, Camilo, Cgb, Danielyapahl, Darizabalo, Diegusjaimes, Dreitmen, Farisori, Fvmeteo, GermanX, Grillitus, JAGT, Jerowiki, Jkbw, Juan Mayordomo, Juan carvacho, Juliowolfgang, Kved, Magister Mathematicae, Mahadeva, Marianov, Marsal20, Matdrodes, Mpeinadopa, Murphy era un optimista, Paintman, Porao, Pólux, Raulshc, Ricardogpn, Soteke, Supercyberedgar, Tano4595, Tartaglia, Tostadora, Vaskop, Walterotta, Yogobah, 136 ediciones anónimas R (lenguaje de programación) Fuente: http://es.wikipedia.org/w/index.php?oldid=54620709 Contribuyentes: Abece, Adailton, Antonio92, Cgb, CommonsDelinker, Cookie, Den fjättrade ankan, Dodo, Edwoodocasio, Elwikipedista, Emijrp, GermanX, Grecio, Ibon Martínez, Juan Mayordomo, MHQ1973, NeMeSiS, Toad32767, Xerox 5B, 17 ediciones anónimas Esperanza matemática Fuente: http://es.wikipedia.org/w/index.php?oldid=54449688 Contribuyentes: -antonio-, Acratta, Alchaemist, AlfonsoERomero, Alvaro9, Antony1204, Diegusjaimes, Ernesto Graf, Farisori, Fenicio, GermanX, JakobVoss, Jmcalderon, JoseA, Joseaperez, Juan Manuel, Juan Mayordomo, Jynus, MaSt, Matdrodes, Netito777, Nogueiras, Proximo.xv, Rdaneel, Sabbut, Taragui, Tartaglia, Template namespace initialisation script, 68 ediciones anónimas Teoría de la medida Fuente: http://es.wikipedia.org/w/index.php?oldid=54449791 Contribuyentes: AlfonsoERomero, Banfield, Correogsk, Daniki7, Davius, Diegusjaimes, Eduardosalg, Elwikipedista, Emiduronte, Farisori, Fibonacci, FrancoGG, Gato ocioso, Ivn, Jorge c2010, Morytelov, Ricardogpn, Sabbut, Tano4595, Technopat, Wewe, Zladmat, 35 ediciones anónimas Distribución de probabilidad continua Fuente: http://es.wikipedia.org/w/index.php?oldid=46180155 Contribuyentes: Ezarate, Farisori, Greek, Juan Mayordomo, Raulshc, Technopat, Ybenitez, 12 ediciones anónimas Distribución exponencial Fuente: http://es.wikipedia.org/w/index.php?oldid=54575629 Contribuyentes: Af3, Alberto Salguero, Comosea, ConPermiso, Davius, Elbarak, Farisori, GermanX, JakobVoss, Javier Jelovcan, Jerowiki, Joseaperez, Kved, Mafiucl, Matdrodes, Moriel, Nakp, Peejayem, Phirosiberia, Roberto Pablo CASTILLO, Rufflos, Schummy, Taichi, Template namespace initialisation script, Wesisnay, Wilmer32, 42 ediciones anónimas Distribución gamma Fuente: http://es.wikipedia.org/w/index.php?oldid=53767237 Contribuyentes: Af3, JakobVoss, Javier Jelovcan, JorgeGG, Joseaperez, Phirosiberia, Sfandino, Tano4595, 26 ediciones anónimas Distribución t de Student Fuente: http://es.wikipedia.org/w/index.php?oldid=54564851 Contribuyentes: Af3, Andreateletrabajo, Canyq, Cgb, Ciberelm, Diegusjaimes, Farisori, Fiquei, Folkvanger, HiTe, Jkbw, Jtico, Juan Manuel, Juan Mayordomo, Leonpolanco, Lucien leGrey, Matdrodes, Morini, Plalopez, Rufflos, Tamorlan, Tartaglia, 71 ediciones anónimas Distribución de Poisson Fuente: http://es.wikipedia.org/w/index.php?oldid=53137372 Contribuyentes: Aldo david, Alex economist, Amanuense, Camilo, Cgb, Ciberrojopower, Diegusjaimes, Flakinho, Ictlogist, JAGT, JakobVoss, Juan Mayordomo, Julian Colina, Juliowolfgang, Kved, Magister Mathematicae, Megazilla77, Mrzeon, Paintman, Pieter, Pybalo, Rufflos, Super braulio, Tano4595, 128 ediciones anónimas
97
Fuentes y contribuyentes del artículo Desviación estándar Fuente: http://es.wikipedia.org/w/index.php?oldid=53972788 Contribuyentes: Alakasam, Alcmos, Alhen, Anacardo, AngieGM, Açipni-Lovrij, Bamanishia, Bazookao, Bryansalazar, Chesnok, Cheveri, Cobalttempest, DamianFinol, DarkMars, DaveFX, Davidge, Diegusjaimes, Doggui, Dominican, Don Depresor, Dvdcrojas, EL AGUSTIN, CLARO, Eduardosalg, Erescepemi, Fanwandter, Fiquei, Fz, Gaius iulius caesar, Halfdrag, Hampcky, Isha, JAGT, Ja.esparza, Jarisleif, Javierito92, Jjafjjaf, Jkbw, Jorge C.Al, JorgeGG, Josamaga, Joseaperez, Juan Manuel, Juan Mayordomo, Jynus, Leonpolanco, Limbo@MX, Losmaspintas, Luis lencina, Madalberta, Magister Mathematicae, Maldoror, Manuelt15, Marsal20, Martincarr, Matdrodes, Mecamático, Moriel, Muro de Aguas, Nemo, Netito777, Paintman, Periku, Pólux, Rafiko77, Ramjar, Raulshc, Relleu, Retama, Richy, Roberpl, Salvor Hardin, Sauron, Sebrev, Srbanana, Stoni, Taichi, Taragui, Tartaglia, Tirithel, Tomatejc, Tostadora, Triku, Typhoon, Uncronopio, Vitamine, Xenoforme, Yeza, Zaskie, 298 ediciones anónimas Intervalo de confianza Fuente: http://es.wikipedia.org/w/index.php?oldid=53834989 Contribuyentes: Acratta, Alakasam, Antonorsi, Cbuzeta, Chrisyagami, Correogsk, Elwikipedista, Emiduronte, FAL56, Focojoaco, Hlnodovic, Isha, Jagarsoft, Jasev, Jkbw, Juan Mayordomo, MarcosER, Matdrodes, Mxcatania, Poco a poco, Sanzcors, Tartaglia, Tubet, 37 ediciones anónimas Población estadística Fuente: http://es.wikipedia.org/w/index.php?oldid=54499243 Contribuyentes: Antonorsi, Any Rand, Banfield, Dark Bane, Diegusjaimes, Gallowolf, Greek, Góngora, Hprmedina, JakobVoss, Jarisleif, Jkbw, Jorge c2010, JorgeGG, Juan Mayordomo, Julian Colina, Lobillo, Manwë, Marvinn, Matdrodes, McMalamute, Netito777, Nicop, Pabloes, Pepelopex, Rosarinagazo, Sergio Andres Segovia, Suisui, Vitamine, 90 ediciones anónimas Muestra estadística Fuente: http://es.wikipedia.org/w/index.php?oldid=53803950 Contribuyentes: Airunp, Açipni-Lovrij, CASF, Carlosgs83, Davius, Dermot, Diegusjaimes, Dogor, Dreitmen, Edmenb, Farisori, Filipo, FrancoGG, Gafotas, Gonzalo.cruz.ruiz, Humberto, Javicivil, Jkbw, Jorge c2010, Joseaperez, Juan Mayordomo, Julian Colina, Leonpolanco, MadriCR, Mafores, Magister Mathematicae, Manwë, Matdrodes, Mel 23, Natrix, Petruss, Poco a poco, Pólux, Raulshc, Resped, Rickynoram, Roberto Fiadone, Soulreaper, Spirit-Black-Wikipedista, Tartaglia, Technopat, Tirithel, VanKleinen, Vic Fede, Xqno, 168 ediciones anónimas Estadístico muestral Fuente: http://es.wikipedia.org/w/index.php?oldid=53321160 Contribuyentes: Beto29, Carmin, Davius, Digigalos, Drever, Drivera90, Especiales, Eva R M, Evaromero, Farisori, FrancoGG, HUB, Hprmedina, Iulius1973, JEDIKNIGHT1970, Juan Mayordomo, Mabermej, Mafores, Mcapdevila, Nicolasdiaz, SaeedVilla, Super braulio, Tartaglia, Wewe, 44 ediciones anónimas Tamaño de la muestra Fuente: http://es.wikipedia.org/w/index.php?oldid=54610763 Contribuyentes: Abelgrc, Aeris17, Aiax, Airunp, Amadís, Antón Francho, BL, Belb, CarlosHoyos, Ctrl Z, Dianai, Dianayopli, Diegusjaimes, FAR, FrancoGG, Ggenellina, Gizmo II, H4x0r, HUB, Humbefa, Joseaperez, Juan Mayordomo, Laura Fiorucci, ManuelGR, Mgsmariosuarez, Niqueco, Pabloes, Pinar, Platonides, Polo162, Ricardo M.M. vlc, Sabbut, SpeedyGonzalez, Tartaglia, Vitamine, Zuirdj, 116 ediciones anónimas Teorema del límite central Fuente: http://es.wikipedia.org/w/index.php?oldid=54150697 Contribuyentes: -Erick-, Alcarraz, Alrojo, Belgrano, Correogsk, Diegusjaimes, Elwikipedista, Farisori, JRGL, Jerowiki, Juan Mayordomo, Lmendo, Mar del Sur, Matdrodes, Patelapiara, Raulshc, Tano4595, Tartaglia, Wewe, XCesar, XalD, 42 ediciones anónimas Ronald Fisher Fuente: http://es.wikipedia.org/w/index.php?oldid=53038773 Contribuyentes: Califasuseso, Ceancata, Cgb, Cookie, David0811, Gerwoman, JohnManuel, Juan Mayordomo, Lauranrg, Marsal20, Roberto Fiadone, Rondador, Santy-041194, Super braulio, 9 ediciones anónimas
98
Fuentes de imagen, Licencias y contribuyentes
Fuentes de imagen, Licencias y contribuyentes Archivo:F distributionPDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:F_distributionPDF.png Licencia: GNU Free Documentation License Contribuyentes: en:User:Pdbailey Archivo:F distributionCDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:F_distributionCDF.png Licencia: GNU Free Documentation License Contribuyentes: en:User:Pdbailey Archivo:chi-square distributionPDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Chi-square_distributionPDF.png Licencia: Public Domain Contribuyentes: EugeneZelenko, It Is Me Here, PAR, WikipediaMaster Archivo:chi-square distributionCDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Chi-square_distributionCDF.png Licencia: Public Domain Contribuyentes: EugeneZelenko, PAR, WikipediaMaster Archivo:Normal distribution pdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Normal_distribution_pdf.png Licencia: GNU General Public License Contribuyentes: Ardonik, Gerbrant, Grendelkhan, Inductiveload, Juiced lemon, MarkSweep, Wikiwide, 10 ediciones anónimas Archivo:Normal distribution cdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Normal_distribution_cdf.png Licencia: GNU General Public License Contribuyentes: Gerbrant, Inductiveload, Juiced lemon, MarkSweep, Waldir Archivo:Abraham de moivre.jpg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Abraham_de_moivre.jpg Licencia: Public Domain Contribuyentes: Bjh21, Bonzo, Elcobbola, Kilom691, Saippuakauppias, 竹 麦 魚(Searobin) Archivo:DisNormal01.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:DisNormal01.svg Licencia: Public Domain Contribuyentes: User:HiTe Archivo:Normal Distribution CDF.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Normal_Distribution_CDF.svg Licencia: Public Domain Contribuyentes: Inductiveload Archivo:standard deviation diagram (decimal comma).svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Standard_deviation_diagram_(decimal_comma).svg Licencia: GNU Free Documentation License Contribuyentes: Original uploader was Nusha at sl.wikipedia Archivo:Normal approximation to binomial.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Normal_approximation_to_binomial.svg Licencia: GNU Free Documentation License Contribuyentes: User:MarkSweep Archivo:Crowd outside nyse.jpg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Crowd_outside_nyse.jpg Licencia: Public Domain Contribuyentes: AnRo0002, Echtner, Fnfd, Gribeco, Gryffindor, Hystrix, Infrogmation, J 1982, Romary, Skeezix1000, Soerfm, Spuk968, Yerpo, 5 ediciones anónimas Archivo:Standard deviation diagram.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Standard_deviation_diagram.svg Licencia: Creative Commons Attribution 2.5 Contribuyentes: Mwtoews Archivo:Binomial Distribution.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Binomial_Distribution.svg Licencia: GNU Free Documentation License Contribuyentes: cflm (talk) Archivo:Commons-logo.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Commons-logo.svg Licencia: logo Contribuyentes: SVG version was created by User:Grunt and cleaned up by 3247, based on the earlier PNG version, created by Reidab. Archivo:Wikibooks-logo.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Wikibooks-logo.svg Licencia: logo Contribuyentes: User:Bastique, User:Ramac et al. Archivo:Binomial distribution pmf.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Binomial_distribution_pmf.svg Licencia: Public Domain Contribuyentes: Tayste Archivo:Binomial distribution cdf.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Binomial_distribution_cdf.svg Licencia: Public Domain Contribuyentes: Tayste Archivo:Rlogo.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Rlogo.png Licencia: GNU General Public License Contribuyentes: R Foundation, from http://www.r-project.org Archivo:Yes_check.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Yes_check.svg Licencia: Public Domain Contribuyentes: SVG by Gregory Maxwell (modified by WarX) Image:Measure illustration.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Measure_illustration.png Licencia: Public Domain Contribuyentes: Oleg Alexandrov Archivo:Exponential distribution pdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Exponential_distribution_pdf.png Licencia: GNU General Public License Contribuyentes: Alejo2083, Autopilot, Cburnett, It Is Me Here, Joxemai, MarkSweep Archivo:Exponential distribution cdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Exponential_distribution_cdf.png Licencia: GNU General Public License Contribuyentes: Alejo2083, Cburnett, Joxemai, MarkSweep Image:Gamma distribution pdf.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Gamma_distribution_pdf.png Licencia: GNU General Public License Contribuyentes: Alejo2083, Autopilot, Cburnett, Ch1902, It Is Me Here, Liftarn, MarkSweep, Stannered, 1 ediciones anónimas Archivo:Student densite best.JPG Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Student_densite_best.JPG Licencia: Creative Commons Attribution-Sharealike 1.0 Contribuyentes: Original uploader was Thorin at fr.wikipedia Archivo:T distributionCDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:T_distributionCDF.png Licencia: GNU Free Documentation License Contribuyentes: Anarkman, Juiced lemon Archivo:Poisson distribution PMF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Poisson_distribution_PMF.png Licencia: Public Domain Contribuyentes: Autopilot, EugeneZelenko, Grafite, It Is Me Here, PAR, 1 ediciones anónimas Archivo:PoissonCDF.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:PoissonCDF.png Licencia: GNU General Public License Contribuyentes: Original uploader was Pdbailey at en.wikipedia Archivo:Standard deviation diagram (decimal comma).svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Standard_deviation_diagram_(decimal_comma).svg Licencia: GNU Free Documentation License Contribuyentes: Original uploader was Nusha at sl.wikipedia Archivo:NYW-confidence-interval.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:NYW-confidence-interval.svg Licencia: Public Domain Contribuyentes: Tsyplakov Archivo:ConfIntervNormalP.png Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:ConfIntervNormalP.png Licencia: Public Domain Contribuyentes: Joxemai, Mtrillo Archivo:Nuvola apps edu mathematics-p.svg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Nuvola_apps_edu_mathematics-p.svg Licencia: GNU Lesser General Public License Contribuyentes: David Vignoni (original icon); Flamurai (SVG convertion) Archivo:R. A. Fischer.jpg Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:R._A._Fischer.jpg Licencia: Public Domain Contribuyentes: Original uploader was Bletchley at en.wikipedia Archivo:Spanish Wikiquote.SVG Fuente: http://es.wikipedia.org/w/index.php?title=Archivo:Spanish_Wikiquote.SVG Licencia: logo Contribuyentes: James.mcd.nz
99
Licencia
Licencia Creative Commons Attribution-Share Alike 3.0 Unported //creativecommons.org/licenses/by-sa/3.0/
100