Procesos Estocasticos Para Ingenieros

Procesos Pro cesos Estoc´ Esto c´ asticos asticos para Ingenieros: Ingenieros: Teor eo r´ıa y Apli Aplica caci cion ones es Materiales complementarios

Francisco Francisco Montes Montes Suay Suay

Departament Departam ent d’Estad´ d’Estad´ıstica i Investigació Operativa Universi Unive rsitat tat de Val` encia enc ia

Copyright c 2007 de Francisco Montes



Este material puede distribuirse como el usuario desee sujeto a las siguientes condiciones: 1. No debe alterarse alterarse y debe por tanto tanto constar constar su procedencia procedencia.. 2. No está permitido el uso total o parcial del documento como parte de otro distribuido con fines comerciales. Departament Departam ent d’Estad´ıstica ıstica i Investigació Operativa Universi Uni versitat tat de Val` encia enci a 46100-Burjassot Spain

Índice general 1. Probabilidad. Variable aleatoria. Vector aleatorio 1.1.. Detecc 1.1 Detecci´ i´ on de agrupaciones . . . . . . . . . . . . . . . . . 1.2.. Estima 1.2 Estimaci´ ci´ on on del tama˜ no no de una población o n ani anima mall a par parti tirr 1.3.. Atenc 1.3 Atenci´ i´ on al cliente . . . . . . . . . . . . . . . . . . . . . 1.4. Distribuci´ Distribuci´ on on de Poisson vs Poisson vs distribuci´ distribución Exponencial . . 1.5.. Contro 1.5 Controll de la se˜ se˜ nal de voz . . . . . . . . . . . . . . . . . 1.5.1. 1.5 .1. Simula Simulaci´ ci´ on o n de una una varia ariabl blee aleat leator oria ia Lapl Laplac acee . . 1.6. Tasa de fallo . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . de de dato datoss de reca recapt ptur uraa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Esperanza. Esperanza. Desigualdades. Desigualdades. Funci´ Funci´ on caracter´ıstica 2.1. Entrop´ Entrop´ıa de una variable discreta: compresión de datos . . . . . 2.1.1. Entrop´ıa relativa . . . . . . . . . . . . . . . . . . . . . . 2.1.2. La entrop´ entrop´ıa como medida de información . . . . . . . . 2.1.3. 2.1 .3. Compre Compresi´ si´ on de datos . . . . . . . . . . . . . . . . . . . . 2.2. Comprobaci Comprobaci´ón de software cr´ıtico . . . . . . . . . . . . . . . . . 2.3.. Codifica 2.3 Codificaci´ ci´ on on de im´ agenes . . . . . . . . . . . . . . . . . . . . . 2.3.1. 2.3.1. Recta Recta de regresi´ regresión . . . . . . . . . . . . . . . . . . . . . 2.3.2. 2.3 .2. Codifica Codificaci´ ci´ on on de imágenes agenes y regresi´ regresi´ on on m´ınimo ınim o cuadr´ cua drática

. . . . . . .

1 1 3 4 5 7 9 10

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

13 13 14 15 16 17 19 19 20

3. Suc Sucesion iones de vari ariabl ables aleatori orias. as. Teoremas de conv onvergencia 3.1. Aplicacion Aplicaciones es de la ley ley de los grandes grandes n´ umeros . . . . . . . . . . . . . . . 3.1.1. El teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . . . 3.1. 3.1.2. 2. C´ alculo alculo aproximado aproximado de integra integrales les por el m´ método etodo de de Monte Monte-Carl -Carloo 3.1.3. 3.1.3. Aproximac Aproximaci´ i´ on de funciones . . . . . . . . . . . . . . . . . . . . . 3.2. Una curios curiosaa aplicaci aplicación ón del de l TCL: TCL : estimaci´ es timación on del de l valor de π . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

25 25 25 26 26 27

4. Procesos Procesos Estoc´ Estoc´ asticos 4.1. Derivaci´ Derivaci´ on o n alte lternat rnativ ivaa del del Proc Proceeso de Pois oisson son . . . . . . . . . . . . . . . . . . . . 4.2. Planificaci Planificaci´ on ón de semáforos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.. Cadena 4.3 Cadenass de Mark Markov ov con contin tinuas uas en en el tiempo: tiempo: fiabi fiabilid lidad ad de un mult multipr iproces ocesado adorr . . 4.4. 4.4. Proc Proces esos os de naci nacimi mien ento to y muert uertee (Bir (Birth th-d -dea eath th)) . . . . . . . . . . . . . . . . . . . 4.4.1. Colas de longitud infinita . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2. 4.4 .2. Colas Colas con con par´ par´ ametros ametros de nacimiento nacimiento y muerte constan constantes tes y longitud finita finita 4.4.3. 4.4 .3. Aplica Aplicaci´ ci´ on on a la transmisión on de datos a trav´ es es de una red de comunicaciones

29 29 31 34 37 37 39 39

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

5. Transformaci´ ransformaci´ on lineal de un proceso estacionario 41 5.1. Procesos Procesos autoregre autoregresivo sivoss de medias m´ oviles (ARMA) . . . . . . . . . . . . . . . . 41 5.2. Vibraciones aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2

Bibliograf´ıa

ÍNDICE INDICE GENERAL GENERAL

48

Cap´ıtulo 1

Probabilidad. Variable aleatoria. Vector aleatorio 1.1. 1.1.

Dete Detecc cci´ i´ on on de agrupaciones

La detección on de d e agrupacion ag rupaciones es (clusters) (c lusters) es de d e gran gra n inter´ i nterés es en e n muchas áreas. area s. En epidemi epid emiolog´ olog´ıa, ıa, por ejemplo, es importante conocer si ciertas enfermedades aparecen con mayor frecuencia en determin dete rminadas adas áreas area s geogr´ geo gráficas, aficas, dando lugar a una agrupaci´ on on anormal de casos. casos. La asignaci´ on on de recursos por parte de la polic´ polic´ıa local a los distintos distritos de una ciudad deber´ deber´ıa hacerse teniendo en cuenta la posible existencia de clusters de mayor criminalidad. La acumulación inesperada e inexplicada de accidentes de tráfico en ciertos sectores de una ciudad, o de una carretera, exige la atención on de las autoridades de tráfico. afico. Todos estos ejemplos, y muchos más as que podr p odr´´ıan citarse, exigen previamente comprobar que, efectivamente, en la zona geográfica afica observada el fenómeno omeno en estudio ocurre con mayor frecuencia de lo que cabr´ıa ıa esperar. esp erar. Como se trata de fenómenos omenos aleatorios de lo que estamos hablando es de frecuencia de un suceso: casos de gripe, robos a personas o accidentes mortales. Una forma sencilla, por los conceptos teóricos oricos que exige, es la que vamos a presentar a continuación, on, aunque puden encontrarse encontrarse m´ etodos etodos más as sofisticados y eficientes para abordar el problema. Supongamos que para facilitar la incidencia y localización on del suceso que nos interesa, hemos dividido el área area geográfica afica de una ciudad en un total de 2500 celdas sobre un ret´ ret´ıculo de 50 50. La Figura 1.1 muestra a la izquierda un conjunto de ocurrencias del suceso, celdas en negro, en las que hay ausencia de cluster. El suceso ha ocurrido en 29 de las 2500, es decir en un 29/ 29/2500 = 1, 1,16 % de ellas. ellas. En la parte parte derech derechaa de la figura figura se observ observaa un área area sombreada que contiene 145 celdas en las que hay 11 incidencias. De acuerdo con la incidencia observada en el patrón on de no de no agrupaci´ on , la derecha, hubiéramos eramos esperado esper ado 145 1 45 0,0116 = 1, 1,68 ocurrencias en las 145 celdas, un número umero muy inferior a las 11 observadas. ¿Significa ello que estamos en presencia de un cluster? Designemos por B por B = existe un cluster y por A por A = = datos observados y vamos a calcular el cociente P (no P (no cluster datos observados) P ( P (B c A) = . (1.1) P (cluster P (cluster datos observados) P ( P (B A)

×

×

{

}

|

|

{

}

| |

Este tipo de cocientes recibe el nombre de odds en contra contra y nos indica cuantas veces es más as probable que no ocurra un suceso frente a que ocurra. Si (1.1) es claramente mayor que 1, nos inclinarem inclinaremos os a rechazar rechazar la hip´ otesis de la existencia de un cluster en los datos observados. otesis

2

Probabilidad. Variable aleatoria. Vector aleatorio

50

50

45

45

40

40

35

35

30

30

25

25

20

20

15

15

10

10

5

5

5

10

15

20

25

30

35

40

45

50

5

10

15

20

25

30

35

40

45

50

Figura 1.1: Incidencia geográfica afica de cierto suceso en una misma ciudad. Sin cluster en la izquierda y con un posible cluster en la parte sombreada de la derecha Para el cálculo alculo de (1.1) utilizaremos la fórmula ormula de Bayes, P ( P (B c A) P ( P (A B c )P ( P (B c )/P ( /P (A) P ( P (A B c )P ( P (B c ) = = , P ( P (B A) P ( P (A B )P ( P (B )/P ( /P (A) P ( P (A B )P ( P (B )

| |

|

|

|

|

(1.2)

lo que exige conocer P ( P (B ), P ( P (A B ) y P ( P (A B c ). Veamos cómo omo podemos conocerlas. La probabilidad de que exista un cluster dependerá del fenómeno omeno en estudio y nuestro conocimiento del mismo nos ayudar´ a a asignar un valor a priori a P ( P (B ). Si creemos que un cluster es muy improbable, asignaremos un valor muy peque˜ no, no, por ejemplo P ejemplo P ((B ) = 10−6. Las otras dos son, respectivamente, respectivamente, las probabilidades de haber observado observado 11 veces el suceso en el área area sombreada seg´ un que admitamos o no la existencia de un cluster. Para su cálculo un alculo observemos que en cada celda ocurre o no el suceso con independencia de las demás as y que lo hace en todas ellas con la misma probabilidad, p probabilidad, p c o p nc seg´ un el caso. Es decir, la ocurrencia del suceso en cada celda un puede asimilarse a una prueba de Bernoulli y por tanto el total de ocurrencias en las 145 celdas ser´ an una variable aleatoria Binomial. Es decir, an

|

|

P ( P (A B ) = P ( P (k = 11 cluster) =

|

|

y

   

145 11 p (1 11 c

P ( P (A B c ) = P ( P (k = 11 no cluster) cluster) =

|

|

− pc)134,

145 11 p (1 11 nc

− pnc)134.

¿Qué decir de cir respecto resp ecto de p de p c y p nc ? Hemos visto que cuando no hab´ıa ıa cluster sólo olo en un 1, 1,16% de celdas hab´ hab´ıa ocurrido o currido un suceso, con lo que podemos tomar p tomar p nc 0,01. Si admitiéramos eramos que la zona sombreada es un cluster, la incidencia del suceso ha sido 11/ 11 /145 = 0, 0,07 y podemos tomar pc 0,1. Sustituyendo en las anteriores expresiones y en (1.2) tendremos,

≈

≈

odds =

145 11

(0, (0,01)11 (0, (0,99)134 (1

  145 11

− 10−6) = 3,52 52..

(0, (0,1)11 (0, (0,9)134 10−6

Parece pues dif´ıcil ıcil de asumir la existencia de un cluster. Aunque debemos se˜ se nalar n ˜ alar que la asignaci´ on de una probabilidad a priori tan peque˜ on na na para B tiene una una gran influencia en el

1.2 Estimaci´ Estimaci´ on on del tama˜ no no de una poblaci´ on animal a partir de datos de recaptura on 3

resultado final, lo que debe de hacernos reflexionar sobre dicha asignación antes de llevarla acabo.

1.2.

Estimac Estimaci´ i´ on on del tama˜ no n o de un una a pobl poblac aci´ i´ on o n an anim imal al a partir de datos de recaptura

Queremos estimar la población on de peces en un lago1 , para ello hemos capturado 1000 peces a los que, marcados mediante una mancha roja, hemos arrojado nuevamente al lago. Transcurrido un cierto tiempo, el necesario para que se mezclen con los restantes peces del lago, llevamos a cabo una nueva nueva captura de otros otros 1000 peces p eces entre los que hay 100 marcados. marcados. ¿Qué podemos decir acerca del total de peces en el lago? El problema que planteamos en un problema t´ıpico de estimaci´ de estimaci´ on esta es tad d´ısti ıs tica ca y y vamos a dar una solución on que, aunque particular para la situación on descrita, está basada en una metodolog´ metod olog´ıa ıa de aplicaci´ apl icación on general gener al en los problemas pro blemas de estimaci´ esti mación. on. Observemos en primer lugar que el número umero de peces p eces marcados en la segunda captura (recaptura) es una variable variable aleatoria Hipergeométrica, etrica, X H (1000, (1000, N, 1000), siempre bajo el supuesto de que ambas capturas constituyen sendas muestras aleatorias de la población on total de peces del lago (en la práctica actica semejante suposición on excluye excluye situaciones situaciones en las que las capturas se efect´ efectúan uan en el mismo lugar y en un corto periodo de tiempo). Suponemos tambi´ también en que el n´ umero de peces en el lago, N umero lago, N ,, no cambia entre las dos capturas. Generalizemos el problema admitiendo tamaños nos arbitrarios para ambas muestras:

∼

N r n x

= = = =

pobl poblac aci´ i´ on de peces en el lago (desconocida) on n´ umero umero de peces en la 1 a captura n´ umero umero de peces en la 2 a captura n´ umero de peces en con mancha roja en la 2 a captura umero px (N ) N ) = prob probab abil ilid idad ad de x de x peces con mancha roja en la 2 a captura Con esta formulación on sabemos que

px (N ) N ) =

  − −   − r x

N r n x . N n

En la práctica, actica, r , n y x son conocidos por observación, on, como en el ejemplo que planteamos, mientras que N es N es desconocido pero fijo y en modo alguno depende del azar. Al menos una cosa conocemos conocemos de N N y es que N r + n x, x , que es el total de peces capturados entre ambas capturas. En nuestro ejemplo, N ejemplo, N 1000+1000 100 = 1900. ¿Qué ocurre o curre si aceptamos a ceptamos N = = 1900? Aunque se trata de un valor teóricamente posible, si calculamos p calculamos p 100 (1900),

≥

≥ ≥

p100 (1900) =

−

−

     ≈ 1000 900 100 900 1900 1000

10−430 ,

1 El ejemplo est´ a sacado del libro de W. Feller (1968), An Introduction to Probability Theory and Its Application , Vol. I, 3rd. Edition, un libro clásico asico cuya lectura y consulta recomendamos vivamente.

4


≈ √

1

(podemos (po demos valernos de d e la fórmula ormula de d e Stirling, Stirl ing, n n!! 2πnn+ 2 e−n , para aproximar las factoriales), habremos de aceptar que ha ocurrido un suceso, X = X = 100, con una probabilidad extraordinariamente peque˜ na. na. Resulta dif´ dif´ıcil de admitir una hip´ otesis que exige casi un milagro para que otesis el suceso observado tenga lugar. Otro tanto nos ocurre si suponemos que N es N es muy grande, por 6 6 ejemplo N ejemplo N = 10 . También en ahora ah ora p 100 (10 ) es muy peque˜ na. na. Una respuesta adecuada puede ser la de buscar el valor de N N que maximiza px (N ). N ). Dicho ˆ valor, que designamos mediante N , N , recibe el nombre de estimaci´ on m´ axim ax imo-v o-veros´ eros´ımil ım il de N . N . Para encontrarlo, observemos que px (N ) N ) (N r)(N )(N n) N 2 = = 2 px (N 1) (N r n + x)N N

− −

− − − − − − −

− N r − N n + rn , − Nr − Nn + Nx

de donde se deduce

− − 1), 1), 1), − − 1),

px (N ) N ) > px (N px (N ) N ) < px (N

si Nx si Nx < rn, si Nx si Nx > rn.

As´ As´ı pues, a medida que aumenta N N la l a func fu nci´ ión on px (N ) N ) crece primero para decrecer despu´ es, es, ˆ alcanzando su máximo aximo en N en N = [rn/x], rn/x], la parte entera de rn/x de rn/x.. En nuestro ejemplo, N = = 10000.

1.3. 1.3.

Atenc tenci´ i´ on on al cliente

El problema de atender a los clientes que llegan a una cola, es de vital importancia en muchas actividades. Se trata de hacer compatible una atención on eficiente al cliente, reduciendo al m´ aximo su tiempo de espera, con un uso racional de los recursos disponibles. Evidentemente aximo poner en funcionamiento un gran n´ umero de puestos de atención umero on es una solución, on, pero sin duda no es la mejor para la empresa. Imaginemos una situación on sencilla y veamos cómo omo hacerle frente recurriendo a una distribuci´ on de probabilidad bien conocida, la distribuci´ on on de Poisson. Supongamos para ello la hora on punta de un supermercado, entre las 7 y las 8 de la tarde cuando la gente aprovecha la vuelta a casa desde el trabajo para hacer algunas compras de necesidad imperiosa, que no suelen ser muy numerosas. El gerente del supermercado sup ermercado abre todos los d´ıas ıas a esa hora una caja ca ja rápida, apida, no m´ as as de 10 art´ art´ıculos, pero viene observando que ultimamente u ´ ltimamente se acumulan en ella los clientes y, lo que es peor para su negocio, muestran claramente su descontento quejándose andose de la falta de servicio. Para remediar la situación on ha decidido recurrir a un experto, se supone que probabilista, para que le aconseje cuantas cajas adicionales debe abrir. La experiencia experiencia acumulada acumulada a lo largo del tiempo le permite saber que la duraci´ duraci´ on on media de la atención on a los clientes de la cola rápida a pida es de 1 minuto, y lo que desea es que en el 95% de las ocasiones no haya más as de una persona esperando a ser atendida. Teniendo en cuenta el minuto minuto que tardan tardan en ser atendidos, atendidos, lo ideal ser´ ser´ıa que a lo sumo llegaran llegaran 2 personas personas a la caja por minuto. Lo primero que hizo el experto fue observar el total de gente que era atendida en la única unica caja rápida apida disponible entre las 7 y las 8 de la tarde. Lógicamente ogicamente la observación o n la hizo a lo largo de varios varios d´ıas, ıas, de martes martes a viernes, viernes, y obtuvo obtuvo como resultado resultado 68, 70, 59 y 66 clientes, clientes, respectiv respectivamen amente. te. Es decir, decir, por t´ ermino ermino medio aproximadamen aproximadamente te unos 70 clientes clientes a la hora o 1,167 por minuto. Por otra parte, el experto interpretó, “... “... que en el 95 % de las ocasi ocasione ones s no haya m´ as de una persona esperando a ser atendida”, atendida” , en t´ erminos erminos de probabilidad, a saber, que P ( P (N 2) = 0, 0,95, donde N N es la variable que representa el número umero de personas en la cola de la caja. Las caracter caracter´´ısticas ısticas del problema problema no ofrecieron ofrecieron duda al experto experto en cuanto cuanto al comportamiento compo rtamiento probabil probabi l´ıstico de N de N ,, se trataba de una variable aleatoria Poisson.

≤

1.4 Distribuci´ on on de Poisson

vs

distribuci´ on Exp onencial

5

{

}

Recordemos que una variable Poisson toma valores enteros no negativos, N = 0, 1, 2, 3, . . . y su funci´ on on de d e cuant c uant´´ıa es de d e la l a forma, f orma, λk f N P (N = k) k ) = exp( λ) . N (k ) = P ( k!

−

El problema para el experto era conocer el valor del parámetro λ, pero para eso hizo sus observaciones, porque λ depende de las caracter´ caracter´ısticas del fenómeno omeno y representa el número umero medio de ocurrencias del suceso en estudio por unidad de tiempo. En su caso estaba claro, λ = 1, 167 167 clientes/minuto clientes/minuto.. Con estos datos para una sola caja, 2

P ( P (N

≤ ≤ 2) =



k =0

λ2 f N N (k) = exp( λ) 1 + λ + 2

−





,

que para λ para λ = 1, 167 vale

≤ ≤ 2) = 0,0,88 88..

P ( P (N

Este resultado no satisfac´ satisfac´ıa las exigencias del gerente y explicaba, por otra parte, la indeseada acumulaci´ on on de clientes cl ientes en la l a caja. ca ja. Hab´ıa ıa que abrir más as cajas rápidas, apidas, ¿pero cuantas? El experto pensó que abrir otra caja supon´ supon´ıa dividir dividir por 2 el n´ umero de medio de clientes por minutos, umero con lo que el parámetro ametro de Poisson común un a las dos cajas valdr´ valdr´ıa ahora λ2 = 1, 167 = 0, 0, 583. Observemos que la condición on de “que de “que no lleguen m´ as de dos clientes a la caja” significa ahora, “a ninguna de las dos cajas” ahora abiertas. La probabilidad de este suceso se calcula haciendo uso de las variables de Poisson asociadas a cada caja, P (a P (a lo sumo sumo 2 lleg llegada adass a ambas ambas cajas) cajas) = P (a P (a lo sumo 2 llegadas a la caja 1) P (a P (a lo sumo 2 llegadas a la caja 2)

×

= P (a P (a lo sumo 2 llegadas a la caja 1) 2

=



0, 0 ,5832 exp( 0,583) 1 + 0, 0 ,583 + 2

−





2

= 0, 0 ,957 957..

La soluci´ soluci´ on on que aportó el experto fue por tanto abrir una nueva caja en ese horario punta.

1.4. 1.4.

Dist Distri ribu buci ci´ on o ń de Poisson

vs

distribuci´ on on Exponencial

La distribución on de Poisson y la distribución on Exponencial surgen de manera natural en el denominado Proceso de Poisson, del que nos ocuparemos con detalle en el cap´ cap´ıtulo dedicado a los procesos estocásticos. asticos. PA los efectos que ahora nos interesa bastará con hacer una sencilla descripción on del mismo. Un proceso de Poisson surge cuando nos ocupamos de la ocurrencia de un suceso a lo largo del tiempo: llamadas que llegan una centralita telefónica, desintegraciones radioactivas que alcanzan un contador Geiger, clientes que llegan a un punto de atención, on, accidentes en un central nuclear,.... Para el estudio de este tipo de fenómenos se hacen ciertas hipótesis otesis simplificadoras, 1. las distintas distintas ocurrencias ocurrencias del suceso son independien independientes tes unas de otras, 2. la probabilidad de dos o m´ as ocurrencias del suceso en un intervalo pequeño as no de tiempo es prácticamente acticamente nula, y

6


∩

∅

3. si I 1 e I 2 son dos intervalos de tiempo tales que I 1 I 2 = , las variables aleatoria N 1 y N 2 , que designan el n´ umero de ocurrencias en cada uno de ellos, son independientes. umero Con estas hipótesis, otesis, se puede demostrar que el número umero de ocurrencias en cualquier intervalo de longitud t longitud t sigue una distribución on de Poisson de parámetro λt ametro λt,, N t P o(λt). λt). A se˜ nalar nalar que a la hora de determinar la distribución on de N de N t lo unico u ´ nico que importa es la longitud del intervalo y no donde esté situado, esta propiedad recibe el nombre de estacionariedad.

∼

N

2

=

X

t

t

t

X

t

X

t

t

X

X

Figura 1.2: Tiempos de ocurrencia en un proceso de Poisson En la Figura 1.2 hemos representado un esquema del proceso en la que se muestran los tiempos tiempos en los que ha ocurrido ocurrido el suceso. suceso. Dos conjunto conjuntoss de variabl variables es son de inter´ inter´ es es en un proceso proces o de estas caracter´ısticas, ısticas,

{N t }t∈R

, variables discretas con distribución on Poisson que denotan el número umero de ocurrencias del suceso en el intervalo de longitud t, t , y +

{X i}i≥1, variables continuas que denotan el tiempo transcurrido entre dos ocurrencias consecutivas del suceso, la la i-´ i-ési es ima y la la (i-1) (i- 1)-´ -ésim es ima a .

¿C´ omo de distribuyen las variables X omo variables X i ? Dada la independencia entre las ocurrencias de los sucesos, las X las X i son independientes y, lógicamente, ogicamente, todas tiene la misma distribución. on. Obtengamos la funci´ on on de distribución on com´ un. un. Recordemos que F i (t) = P ( P (X i

{

} {

≤ t) = 1 − P ( P (X i > t),

}

pero el suceso X i > t = N t = 0 y por tanto, F i (t) = 1

− exp(−λt) λt),

con lo que su función on de densidad vale f i (t) =



−

λ exp( λt) λt), 0,

≥

t 0; t < 0,

∼

∀

que es la función on de densidad de una Exponencial con parámetro λ ametro λ,, X i Exp( Exp (λ), i. El proceso pro ceso de Poisson podr´ p odr´ıa ıa también en haberse hab erse definido defi nido a partir de d e los tiempo ti emposs transcurridos transc urridos entre las ocurrencias consecutivas del suceso. Si postulamos como hipótesis otesis la independencia de dichos tiempos y como distribución on com´ un un la Exp( Exp (λ), ¿cómo omo se distribuyen entonces las N t ? Para obtenerla consideremos S n = X = X 1 + X 2 + + X n ; se verifica

··· {N t = n} = {S n ≤ t} ∩ {S n+1 > t}, pero como {S n+1 ≤ t} ⊂ {S n ≤ t}, {S n ≤ t} ∩ {S n+1 > t} = {S n ≤ t} − {S n+1 ≤ t},

1.5 Control de la se˜ nal de voz

7

y tomando probabilidades P ( P (N t = n = n)) = P ( P (S n

≤ t) − P ( P (S n+1 ≤ t).

(1.3)

La distribución on de una suma de n de n exponenciales exponencial es independi inde pendientes, entes, idénticamente enticamente distribui di stribuidas das es (ver Cap´ Cap´ıtulo 2, apartado de Función on Caracter´ Cara cter´ıstica) ısti ca) una G( G (n, λ), cuya función on de distribución on es P ( P (S n

≤ t) =

Sustituyendo en (1.3),

 

1

−



exp( λt) λt) 1 +

−

λt 1!

+

···

+

(λt)n−1 (n 1)!

−

0,



,

t

≥ 0;

en el resto. resto.

P ( P (N t = n) n) = exp( λt) λt)

−

(λt) λt)n , n!

y concluimos que N que N t P o(λt). λt). Este resultado resultado evidencia evidencia la dualidad dualidad de ambos conjuntos conjuntos de variable variabless y su equivalenc equivalencia ia a la hora de definir el proceso de Poisson.

∼

1.5. 1.5.

Con Control trol de la se˜ senal n ˜ al de voz

Cuando se transmite la voz es importante que no se produzcan distorsiones. Las emisoras comerciales de radio controlan la potencia de la señal nal mediante instrumentos adecuados, que permiten reducirla manualmente en el caso de que sea demasiado grande. En otras ocasiones, las comunicaciones telefónicas, onicas, por ejemplo, el control se lleva a cabo de manera automática. En cualquier caso, es necesario conseguir un control de la señal nal para evitar distorsiones evitar distorsiones cuando cuando la transmisión on es analógica, ogica, o recortes o recortes (clip) cuando la transmisión on es digital. El modelo probabil´ probabil´ıstico ıstico utilizado utilizado para describir describir el comportamie comportamiento nto de la potencia potencia de la se˜ nal es el modelo de Laplace cuya función nal on de densidad viene dada por

f X (x) =

1

√

2σ 2

exp

   −

2 x σ2

||

.

(1.4)

Con este modelo, la amplitud X amplitud X toma toma valores alrededor de 0, valores tanto más as dispersos cuanto mayor sea σ sea σ 2 , el parámetro ametro de dispersión on del modelo. En la gráfica afica de la izquierda de la Figura 1.3 se aprecia cómo omo se ensancha la curva a medida que crece σ 2 , que está por ello directamente relacionado con la potencia de la señal. nal. Los recortes automáticos aticos de se˜ nal nal act´ uan tal como se muestra en la gráfica uan afica de la derecha de la Figura 1.3. Mientras la el valor absoluto de la potencia est´ e dentro de los l´ımites establecidos, X U , la entrada y la salida coincidirán, a n, si X > U , la se˜ nal de salida se recorta. El nal valor U es U es una caracter´ caracter´ıstica del sistema que debe ser dise˜ dise ñado nado de forma tal que sólo olo en muy pocas ocasiones sea superado. Muy pocas ocasiones ha de ser interpretado interpretado aqu´ aqu´ı en t´ erminos erminos de probabil probabilida idad. d. Por ejemplo, ejemplo, si deseam deseamos os que a lo sumo en un 1 % del tiempo tiempo la se˜ nal nal sea

| |≤

| |

8


7 . 0

6 . 0

U 5 . 0

4 . 0

3 . 0

−U

2 . 0

U

−U

1 . 0

0 . 0

−4

−2 −2

0

2

4

Figura 1.3: Densidad de Laplace con σ 2 = 1 (-----) y σ y σ 2 = 4 (- - -) y relación on entre la entrada y la salida de una se˜ nal nal de voz recortada recortada, P recortada, P recorte recorte

y U deberá satisfacer, ≤ 0,01, y U P recorte = P ( P (|X | > U ) U ) recorte +∞ √ 1 2 exp − = 2 2σ

    ||      − −      U

=

=

2

exp

1 exp 2

−

2 x σ2

2 x σ2

dx

+

∞

U

2 U , σ2

(1.5)

y de aqu´ aq u´ı exp

   −

2 U σ2

≤ 0,01 −→

   ≥ ≥

U

σ2 ln 2

1 0,01

.

(1.6)

El aumento aumento de la potencia potencia de la voz, voz, medida a trav´ trav´ es es de σ 2 , exige incrementar el umbral U para evitar recortes frecuentes. Por ejemplo, si σ2 = 2, y el valor de U U fuera fijo e igual a 2, sustituyendo sustituyend o en (1.5) obtendr´ıamos ıamos P recorte 0 ,01 deseado. recorte = 0,1357 un valor muy alejado del 0, El valor de U de U d deb eber´ er´ıa ıa ser se r 1 U ln = 4,60 60.. 0,01

≥ ≥

 

1.5 Control de la se˜ nal de voz

1.5.1 1.5.1..

9

Sim Simulac ulaci´ i´ on de una variable aleatoria Laplace on

La comprobación on emp´ emp´ırica de la probabilid probabilidad ad de recorte recorte obtenida obtenida en el p´ arrafo arrafo anterior, 2 cuando U = 2 y σ = 2, podemos podemos llev llevarla arla cabo simula simulando ndo valo alores res de una distri distribuc buci´ i´ on o n de Laplace Laplace con esas caracter caracter´´ısticas ısticas y calculando calculando la frecuenci frecuenciaa relativ relativaa de los que superan superan dicho dicho umbral. ¿Cómo omo simular los valores de una variable aleatoria Laplace o, en general, de cualquier otra variable? La transformaci´ transformaci´ on integral de probabilidad explicada probabilidad explicada en la Sección on 1.6 del manual “Procemanual “Procesos Estoc´ asticos para Ingenieros: Ingen ieros: Teor Teor´ ´ıa y Aplicaciones” Aplicacione s” responde a la pregunta. El resultado concreto que nos interesa se enuncia en la siguiente proposición: on: Proposici´ on 1.1 (Transformada integral de probabilidad) Sea U on U U (0 U (0,, 1), 1), F F una funci´ on de distribuci´ on de probabilidad y definimos X = F −1 (U ) U ). Entonces, F X = F . F .

∼ ∼

Para aplicarlo a nuestra situación on hemos de obtener en primer lugar la función on de distribuci distribuci´ on oń de la variable Laplace. Integraremos (1.4), x

F X (x) =



−∞

  

√ 1 2 exp − 2σ

2 t σ2

||

dt.

Para x Para x <= 0, x

F X (x) =

 

−∞ 2σ2 x

= = y para x para x

   √ − ||   √   1

1

−∞ 2σ2

1 exp 2

exp

2 t σ2

exp

2 t dt σ2

dt

2 x , σ2

(1.7)

≥ 0,

   √ − ||     √ √ − ||      − − −     x

F X (x) =

 

−∞ 0

=

−∞

1

2σ 2 1

2σ 2

exp

exp

2 t σ2

x

2 t σ2

1 2

1 exp 2

2 t σ2

= 1

− 21 exp −

2 x , σ2

=

dt

dt +

0

1

2σ 2

exp

   −

2 t dt σ2

(1.8)

x

(1.9)

0

(1.10)

donde donde el paso paso de (1.8) (1.8) a (1.9) (1.9) se justifi justifica ca porque porque dada dada la simetr simetr´´ıa de la variabl ariablee Laplac Laplace, e, 0 P ( P (X 0) = −∞ f X (x)dx = dx = 1/2. −1 (Z ), Seg´ un un la Proposición on 1.1, si definimos X = F X ), siendo Z U (0 U (0,, 1), obtendremos una variable Laplace. Hemos de obtener las inversas de (1.7) y (1.10). Para ello observemos que

≤ ≤



∼ ∼

10


x < 0

→ 0 < z < 1/ 1 /2 y x ≥ 0 → 1/2 ≤ z < 1. En definitiva

      σ2 ln(2z ), 2 ln(2z

X =

σ2 2

1 2(1 z )

ln

−

0 < z < 1/ 1 /2; ,

1/2

≤ z < 1.

La gràfica afica de izquierda en la Figura 1.4 muestra el histograma de 5000 simulaciones de X obtenidas a partir de las expresiones anteriores mediante 5000 simulaciones de una variable U (0 U (0,, 1), accesible a trav´ través es de la función rnd() on rnd() en cualquier sistema operativo, hoja de cálculo alculo 2 o software apropiado. Se ha utilizado σ = 2. Al histograma le hemos superpuesto la gráfica afica de la correspondiente función on de densidad teórica orica que se ajusta, como era de esperar, a los frecuencias observadas.

5 . 0 6

d a d i s n e d e d n ó i c n u f y a m a r g o t s i h

4 . 0

4

2

3 . 0

0

2 . 0

2 −

4 −

1 . 0

6 −

0 . 0 −9

−7

−5

−3

−1

1

3

5

7

0

10

20

30

40

50

60

70

80

90

100

muestra

x

Figura Figura 1.4: Histograma Histograma de 5000 simulacio simulaciones nes de una variable variable aleatoria Laplace y su corresponcorrespondiente densidad teórica orica superpuesta (izquierda). Simulación on de 100 valores de variable aleatoria 2 Laplace con σ con σ = 2 (derecha) La gr` afica de derecha en la Figura 1.4 muestra los valores de 100 simulaciones Laplace con afica σ 2 = 4, en ella sendas rectas, U = 2 y U = 2, indican los umbrales a partir de los cuales la se˜ nal nal de voz será recortada, lo que ocurre para 14 de los 100 valores simulados, lo que da una frecuencia relativa de 0, 0,14 muy pr´ oxima oxima a P a P recorte recorte = 0,1357.

−

1.6. 1.6.

Tasa asa de fall fallo o

Son muchas las actividades en las que es necesario llevar un control riguroso de los fallos de los objetos, sean estos máquinas aquinas o humanos. Por ejemplo, en pólizas olizas de seguros de vida la probabilidad de muerte ( fallo ( fallo ) del sujeto es un criterio determinante del precio de la prima. No pagar´ a lo mismo una mujer de 25 a˜ nos que un hombre de 75. El precio se establece a partir de nos las llamadas tablas de vida, o mortalidad, que recogen las probabilidades de muerte por edades en función on de varios factores, principalmente el sexo. No sólo olo las l as probabili pro babilidades dades absolutas absolut as de muerte son so n de interés, es, tambi´ ta mbién en lo son las l as condiciona con diciona-das al hecho de haber sobrevivido a un cierta edad. Por ejemplo, “probabilidad ejemplo, “probabilidad de sobrevivir a la

1.6 Tasa de fallo

11

edad de 87 a˜ nos, dado que ya se ha sobrevivido a los 85 a˜ nos”, nos”, que indudablemente será mayor que la probabilidad absoluta de sobrepasar los 87 años. nos. Estas probabilidades condicionadas, y algunas algunas funciones funciones con ellas relacionad relacionadas, as, son de inter´ inter´ es es en todos los procesos procesos que exigen exigen un control de los fallos del sistema. Si X Si X es es la variable aleatoria que denota el tiempo en que se producen los fallos, el teorema de Bayes nos permite calcular la probabilidad del suceso “que el fallo se produzca en [t, en [t, t+dt] dado que el objeto ha sobrevivido al tiempo t“ ,

≤ t + dt,X > t)t) = P ( ≤ t + dt) P (t < X ≤ P (t < X ≤ dt) ≤ ≤ t + dt|X > t) = P ( , P ( P (t < X ) P ( P (t < X ) porque { t < X ≤ t + dt + dt } ⊂ {X > t}. Pero P ( P (t < X ≤ t + dt + dt)) = F X (t + dt + dt)) − F X (t), y P ( P (t < X ) X ) = 1 − F X (t). Sustituyendo, dt) − F X (t) ≤ t + dt|X > t) = F X (t1+−dt) P ( P (t < X ≤ . F X (t)  (t)dt,  (t) es una densidad de la Si F X (t) es diferenciable, F X (t + dt + dt)) − F X (t) = F X dt, y como F X P ( P (t < X

variable aleatoria X aleatoria X podemos escribir



α(t)dt, ≤ ≤ t + dt|X > t) == 1F −XF (tX)dt(t) = 1f −X F (tX)dt(t) = α(

P ( P (t < X donde

α(t) =

(1.11)

f X (t) , 1 F X (t)

−

es conocida como la tasa condicional de fallo o simplemente tasa de fallo, fallo, aunque seg´ un u n el contexto recibe otros nombres, como fuerza de mortalidad o tasa de morbilidad morbilidad en el campo actuarial. Un objeto con un determinada tasa de fallo tiene mayor probabilidad de sobrevivir en el próximo oximo t que otro con una tasa menor. A partir de (1.11) podemos obtener sendas expresiones para las funciones de distribución on y densidad de X de X .. Partamos de



 (t)dt F X dF X (t) = = α( α(t)dt, 1 F X (t) 1 F X (t)

−

−

(1.12)

e integremos, teniendo en cuenta que es lógico ogico exigir a F a F X (t) las siguientes condiciones iniciales, 1. F X (0) = 0 por la naturaleza de la variable tiempo, y 2. l´ım ım t→∞ F X (t) = 1 porque asumimos que el objeto acabará fallando. fallando. Tendremos, F X (t)



F X (0)

y de aqu´ aq u´ı

dF X = 1 F X

−

t

 − −  

− ln[1

F X (t)] =

α(u)du,

(1.13)

0

t

F X (t) = 1

− exp

α(u)du .

(1.14)

(1.15)

0

Derivando (1.14) obtendremos la función on de densidad, t

f X (t) = α( α(t)exp

−  0



α(u)du .

La forma de α de α((t) determina la forma de F X (t) y f X (t). Veamos algunos ejemplos.

12


Gompertz Gompertz propuso propuso en 1825 un crecimien crecimiento to exponencial para la fuerza fuerza de mortalidad mortalidad,, t α(t) = Bc B c , t > 0, lo que da lugar a F X (t) = 1

−



B t exp (c ln c



− 1)

,



B t f X (t) = Bc B c exp (c ln c t



− 1)

.

Weibull sugiere en 1939 un modelo en el que α(t) crece como una potencia de t en lugar de hacerlo exponencialmente, α( α (t) = kt n , t > 0, y F X (t) = 1

− exp

tn+1 k n+1

−



,

n

f X (t) = kt exp

t n+1 k n+1

−



.

Si suponemos que la tasa de fallo es constante, α( α (t) = λ,t > 0, > 0, nos encontramos con que X Exp( Exp (λ), F X (t) = 1 exp( λt) λt), f X (t) = λ exp( λt) λt).

∼ ∼

−

−

−

Cap´ıtulo 2

Esperanza. Desigualdades. Funci´ on caracter´ıstic stica a 2.1.

Entrop Entrop´ıa de una variable variable discreta: compresi´ compresi´ on on de datos

Consideremos la variable aleatoria discreta X X cuyo soporte es DX = x1 , x2 , . . . , xk con funci´ on on de cuant´ıa, ıa, f X (xi ) = P ( P (X = xi ) = pi i = 1, . . . , k. k. Queremos encontrar una función on que mida la incertidumbre del suceso A i = X = x i . Sabemos que cuanto mayor sea p sea p i menor ser´ a esta incertidumbre, por lo que la función, on,

{

{

I (X = x i ) = ln

}

}

1 = P ( P (X = x i )

P (X = x i ), − ln P (

satisface el objetivo buscado. A partir de la incertidumbre de cada uno de los sucesos elementales ligados a X a X definimos definimos el concepto de entrop´ entrop´ıa de la variable variable X X .. Definici´ on on 2.1 (Entrop´ (Entrop´ıa de una variable aleatoria discreta) La discreta) La entropia de X es X es la esperanza de la incertidumbre de sus resultados, es decir, k

1 H X = E [I (X )] )] = P ( P (X = x i ) ln = P ( P ( X = x ) i =1

 i

k

 −

P ( P (X = x i ) ln P ( P (X = x i ).

i=1

La entrop´ entrop´ıa, definida en t´ erminos erminos del logaritmo natural, utiliza como unidad de medida el nat , pero si utilizamos el logaritmo en base 2 para su definición, on, cosa que suele hacerse, la unidad es el bit el bit . Ambas unidades difieren en un factor constante puesto que ln a = ln2 log log2 a. Ejemplo 2.1 (Entrop´ (Entrop´ıa de una variable binaria) Si DX = 0, 1 y p = P ( P (X = 0), 0), la entro en trop´ p´ıa ıa de X X viene dada por

{ }

H X = p log2 p

−

p)log2 (1 − p) p), − (1 − p)log

cuya gr´ afica afica para para los distintos distintos valores valores de p se muestra en la Figura 2.1. Se observa que el m´ aximo de la entrop´ entrop´ıa se alcanza para p = (1 p) p) = 1/2, situaci´ on en la que se da, efectivamente, la m´ axima incertidumbre en cuanto al valor que pueda tomar X . Como veremos a continuaci´ on, este resultado se generaliza al caso de una variable discreta uniforme, es decir, con equiprobabilidad para todos los valores de su soporte.

−

14

Esp eranza. Desigualdades. Funcion o ń caract car acter er´ ´ıstica ıst ica

0 . 1

8 . 0

) p ( x H

6 . 0

4 . 0

2 . 0

0.0

0.2

0.4

0.6

0.8

1.0

p

Figura 2.1: 2.1 : Entrop´ Entrop´ıa de una variable variabl e aleatoria binaria para p ara los distintos di stintos valores de p de p = = P P ((X = 0)

2.1.1.

Entrop´ Entrop´ıa relativa

Supongamos dos distribuciones de probabilidad sobre un mismo soporte, p soporte, p = = ( p1 , p2 , . . . , pk ) y q = q = (q 1 , q 2 , . . . , qk ). La ent La entrop rop´ ´ıa relativa relat iva de q respecto a p a p se define mediante k

k





1 H (q ; p) p) = pi ln q i =1

− H X

p

i

=

pi ln

i=1

p i , q i

(2.1)

donde H donde H Xp es la entrop entro p´ıa de X bajo X bajo la distribución on p. De esta definición on se derivan los siguientes resultados de inter´ interés. es. 1. H (q ; p) p)

≥0

y H (q ; p) p) = 0

= q i , ∀i. ↔ pi = q

En efecto, si en (2.1) tenemos en cuenta que ln(1 /x) /x) k

p i H (q ; p) p) = pi ln q i i=1



k

≥ 1 − x, podemos escribir, k

k

    − ≥ − pi 1

i=1

q i pi

=

pi

i=1

q i = 0,

i=1

∀

y la igualdad se alcanza si y s´ olo olo si p i = q i , i.

{

}

≤

2. Si DX = x1 , x2 , . . . , xk entonces H Xp ln k alcanzándose andose el máximo aximo si y solo pi = 1/k, i. Supongamos Supongamos que q que q i = 1/k, i, tendremos en (2.1) que

∀

∀

k

k





1 H (q ; p) p) = pi ln 1/k =1 i

− H X

p

= ln k

− H X

p

=

pi ln

i=1

pi 1/k

≥ 0,

de donde se deduce la desigualdad, que se convierte en igualdad cuando hay equiprobabilidad, p lidad, p i = 1/k, i. Se generaliza generali za as´ı el resultado resultad o que qu e hab´ıamos ıamos obtenido para la variable variab le binaria.

∀

2.1 Entrop´ Entrop´ıa de una variable discreta: compresi´ on de datos

2.1.2.

15

La entrop entrop´ ´ıa como medida de informaci´ informacion o ń

{

}

Al llevar cabo el experimento ligado a la variable X cuyo X cuyo soporte es D es D X = x1 , x2 , . . . , xk , el resultado será X = x i . Un interlocutor está interesado en dicho resultado y para conocerlo realiza una serie de preguntas que sólo olo admiten como respuesta un s´ı ı o un no. no. ¿Cuál al será el n´ umero medio de preguntas que habrá de plantear umero pla ntear para conocer conoce r el resultado? resu ltado? ¿Existe ¿ Existe un u n m´ m´ınimo para dicha media? Antes de responder y de establecer la relación on entre la respuesta y H X , veamos un ejemplo que ayude a comprender el problema que hemos planteado. Ejemplo 2.2 Un urna contiene 32 bolas numeradas del 1 al 8 siendo su composici´ on la que muestra la Tabla 2.1. Se extrae una al azar y queremos queremos saber qu´ e estrategia estrategia seguir para para minimizar el n´ umero de preguntas necesarias para conocer el n´ umero ume ro extra´ ex tra´ıdo. ıd o. d´ıgito n´ umero de bolas P (bola P (bola = i = i))

1 8 1/4

2 8 1/4

3 4 1/8

4 4 1/8

5 2 1/16

6 2 1/16

7 2 1/16

8 2 1/16

Tabla 2.1: Composición on de la urna Puesto que los n´ umeros que aparecen en un mayor n´ umero de bolas son m´ as probables, una estrategia razonable consiste en preguntar por los n´ umeros en orden de probabilidad descendente. El esquema 1 de la figura nos muestra dicha estrategia. Otra estrategia alternativa consiste en preguntar de forma que las dos posibles respuestas tengan la misma probabilidad. El esquema 2 muestra esta segunda estrategia. =

sí

X

?

1?

=

=

? =

X

no

1

=

=

sí

X

?

2?

=

=

? =

X

no

2

=

=

sí

X

3?

?

=

=

? =

X

no

3

=

=

sí X

X

=

7?

=

no

7

=

X

?

=

8

=

Esquema 1

Esquema 2

Figura Figura 2.2: Estrategia Estrategiass para averigu averiguar ar la bola extra extra´ıda mediante mediante pregunta preguntass de respuesta respuesta dicot´ omica omica Si representamos por N 1 y N 2 el n´ umero de preguntas necesarias en cada estrategia para conocer el n´ umero de la l a bola extra ex tra´ ´ıda, sus valores va lores dependen de dicho di cho n´ umero y pueden obtenerse

16


bola extra´ıda valor de N de N 1 valor de N de N 2 P (bola P (bola = i = i))

1 1 2 1/4

2 2 2 1/4

3 3 3 1/8

4 4 3 1/8

5 5 4 1/16

6 6 4 1/16

7 7 4 1/16

8 7 4 1/16

Tabla 2.2: Valores N Valores N 1 y N 2 en funci´ fun ción on de la bola bo la extra extr a´ıda f´ acilmente a partir de los esquemas de la Figura 2.2. Se muestran en la Tabla 2.2. A partir de la tabla podemos calcular las esperanzas de ambas variables, 1 1 1 51 E (N 1) = (1 + 2) + (3 + 4) + (5 + 6 + 7 + 8) = 4 8 16 16 y

1 1 1 44 E (N 2 ) = (2 + 2) + (3 + 3) + (4 + 4 + 4 + 4) = . 4 8 16 16 La segunda estrategia es mejor que la primera. Si definimos ahora X como X como el n´ umero que muestra la bola, su entrop´ entrop´ıa en bits vale H X =

44 −2 × 14 log 2 14 − 2 × 81 log 2 18 − 4 × 161 log 2 161 = 16 ,

que coincide con E (N 2 ), coincidencia que explicaremos a continuaci´ on. El problema de dise˜ nar una estrategia de preguntas con respuesta dicotómica nar omica para identificar exactamente el valor de la variable X variable X = n´ umero que qu e nos n os muestra la bola extra ex tra´ ´ıda , es el mismo que se presenta cuando queremos codificar la salida de una fuente de información. En efecto, la secuencia de respuestas que conduce a la identificación del valor de X puede X puede asimilarse a una secuencia de 0’s y 1’s, según un las respuestas hayan sido negativas o positivas, respectivamente. Se trata en definitiva de un código odigo binario y el problema de encontrar la mejor estrategia de preguntas es equivalente al de encontrar el código odigo binario m´ as as corto. Dos resultados fundamentales de teor´ teor´ıa de la información on nos permiten establecer el papel relevante relevante del concepto de entrop´ entrop´ıa. Los enunciaremos sin demostración. on.

{

}

1. La longitud media de cualquier c´ odigo binario no puede ser menor que el valor en bits de la entrop´ en trop´ıa. ıa . 2. Si los valores de la funci´ on de cuant´ıa ıa de X X son potencias de 2, existe una estrategia (codificaci´ on) cuyo valor medio medio iguala a la entrop entrop´ ´ıa. Tal como ocurre con la segunda estrategia del ejemplo anterior. Como consecuencia de estos dos resultados podemos afirmar que “la entrop´ en trop´ıa ıa de d e una un a variab va riable le aleatoria X es X es el menor n´ umero medio de bits necesarios para identificar su valor”.

2.1. 2.1.3. 3.

Comp Compre resi si´ on o ń de datos

El crecimiento exponencial que la información on en formato digital ha experimentado en los ultimos u ´ltimos a˜ nos, nos, ha obligado obliga do a recurrir recu rrir a técnicas ecnicas de compresi´ compr esión on de los datos con el fin de optimizar los recursos de almacenamiento y de facilitar su transmisión. on. ¿Qué nivel ni vel de com compres presi´ ión on podemos alcanzar? La entrop´ entrop´ıa, expresada en bits, es la respuesta a la pregunta, porque p orque como acabamos de ver, establece el m´ınimo número umero medio de bits necesarios para codificar co dificar una informaci´ on. on.

2.2 Comprobaci´ on de software cr´ıtico

17

Veamos un ejemplo ficticio que nos ayude a relacionar lo expuesto en los apartados anteriores con el proceso de compresión on de datos. La Tabla 2.3 resume las caracter´ caracter´ısticas de un archivo de datos compuesto por una secuencia de las primeras 8 letras del alfabeto, ABCDEFGH . La columna frec columna frec recoge las frecuencias relativas de aparición on de cada letra en la secuencia, la letras están ordenadas seg´ un un las frecuencias decrecientes. Las columnas cod columnas cod11 y cod2 cod 2 recogen dos codificaciones binarias distintas, cuyas correspondientes longitudes (número umero de bits) aparecen en las columnas lcod1 lcod1 y lcod2, lcod2, respectivamen tivamente. te. Las codificacione codificacioness se corresponde corresponden n con las estrategi estrategias as 1 y 2 de la Figura Figura 2.2. As´ As´ı, cod1 supone sup one que vamos preguntando secuencialmente de qu´ e letra se trata, estando las letras ordenadas ordenadas seg´ un un las frecuencias decrecientes y no alfab´ eticamente, eticamente, porque lo lógico ogico es asignar los códigos odigos m´ as as cortos a las letras más as frecuentes. Por otra parte, cod2 cod2 es un código odigo binario de 3 d´ıgitos que se corresponde, es sencillo comprobarlo, con el supuesto de uniformidad en las frecuencias de aparición. on. Letra A B E C D G F H

frec 0,58 0, 0,11 0,09 0,07 0,06 0,05 0,03 0,01

cod1 1 10 100 1000 10000 100000 1000000 0000000

l c o d1 1 2 3 4 5 6 7 7

c o d2 000 001 010 011 100 101 110 111

lcod2 3 3 3 3 3 3 3 3

Tabla 2.3: Distribuci´ on on de frecuencias de las letras en los datos y dos posibles códigos odigos Las longitudes medias de cada uno de los códigos odigos valen, L1 =

8

8





i=1

lcod1 lcod1i

× freci = 2, 23

y

L2 =

i=1

lcodi = 8

8

 i=1

3 = 3. 8

Como la equiprobab equiprobabilidad ilidad,, en nuestro caso la igualdad igualdad de frecuencia frecuencias, s, supone la m´ axima axima incertidumbre, L2 = 3 es el máximo aximo n´ umero umero de bits por carácter acter que necesitaremos para codificar el archivo. El código odigo 1 exige, ex ige, por t´ ermino ermino medio, 2,23 bits y supond s upondrr´ıa una reducción on del d el 25 %. La entrop´ entrop´ıa de una variable X con X con soporte DX = A,B,C,D,F,G,H y función on de cuant cua nt´´ıa, pi = freci , i = 1, . . . , 8, vale

{

}

8

H X =

 −

freci log2 (freci ) = 2, 0651 0651..

i=1

Esta es la máxima axima reducción on que podremos alcanzar.

2.2. 2.2.

Comp Compro roba baci ci´ ´ on on de software cr cr´ ´ıtico ıtic o

Son muchos muchos los dispositiv dispositivos os hoy en d´ıa que funcionan funcionan con un softwar softwaree interno. interno. Algunos Algunos de estos dispositivos, por el tipo de actividad a la que están an ligados, no pueden fallar nunca, entendiendo por “nunca” por “nunca” que que su tasa de fallos sea extremadamente pequeña. na. En otras ocasiones, el fallo del dispositivo da lugar a molestias soportables y las exigencias de funcionamiento del software son, lógicamente, ogicamente, menores.

18


Un ejemplo de esta segunda situación on son los programas que hacen funcionar nuestros aparatos electro elec trodom´ domésticos esti cos o nuestro nue stross teléfonos efo nos móviles. oviles. Pero imaginemos el software que controla el funcionamiento de un avi´ on on o de un dispositivo cl´ cl´ınico del cual depende la vida de una persona. En estos estos casos los fallos esperables han de ser m´ınimos, ınimos, del orden quiz´ as as de 1 fallo por cada 6 10 horas de funcionamiento. Si reparamos que tal cantidad de horas son, aproximadamente, 114 a˜ nos caeremos en la cuenta de la dificultad que implica efectuar un control de calidad del nos software para comprobar si, efectivamente, su tasa de fallos es la deseada. En la industria, ante situaciones semejantes, se somete a los sistemas a una situación de stress que stress que induzca fallos más as frecuentes. frecuentes. Un m´ etodo etodo semejante puede adoptarse para controlar la calidad de este tipo de software altamente fiable. Para ello podemos introducir en el sistema datos que produzcan tasas de fallo mucho más as elevadas de las habituales habitual es en la práctica, actica, calcular calcula r la frecuencia relativa de fallos obtenida y aplicar el reajuste correspondiente mediante el factor de stress utilizado. Lo que se propone, si T T es la variable que mide el tiempo de fallo, es simplemente multiplicar P ( P (T > t0 ) por un factor adecuado. Esta aproximación on probabi prob abill´ıstica ısti ca 1 al problema se conoce con el nombre de muestro de importancia , cuya aplicación on veremos a continuación on con un ejemplo simulado. Queremos Queremos estimar estimar P ( P (T > t0 ), donde donde t0 es el l´ımite admitido de fallo del softwar software. e. La metodolog´ metodolog´ıa habitual consiste en probar repetidamente el software software y contar las ocasiones en las que el tiempo de fallo, T , T , sobrepasa sobrepasa t0 , pero si la probabilidad a estimar es del orden − 6 de 10 necesitar necesitar´´ıamos llevar llevar a cabo del orden de 108 simulaciones para poder efectuar la estimaci´ on. on. Aunque en la práctica actica raras veces se conoce la distribución on de T , T , para el ejemplo podemos suponer que T N (0 N (0,, 1) y vamos a estimar P ( P (T > 4,75) que sabemos es del orden − 6 de 2, 85 10 . Recordemos que

∼

×

+

P ( P (T > 4, 4 ,75) =



∞ 1

4,75

√ 2π exp

x2 2

− 

dx,

que podemos p odemos escribir, escribir, +

P ( P (T > 4, 4 ,75) =



∞ 1 exp

4,75

√ 2π

−  x2 2

f Y (x) Y (x

f Y (x)dx Y (x

(2.2)

donde f donde f ((x) es la densidad de alguna variable aleatoria Y aleatoria Y tal que P que P ((Y > 4, 4 ,75) P ( P (T > 4, 4,75). Por ejemplo, si Y Exp(1), Exp (1), P ( P (Y > 4, 4 ,75) = exp( 4,75) = 0, 0,086. Si utilizamos esta distribución, on, (2.2) se escribe

∼



−

∞ 1 exp

+

P ( P (T > 4, 4,75) =

  

4,75 +

=

∞

0

√ 2π

−  x2 2

−

exp( x)

1 1]4,75;+∞[ (x) exp 2π

√

+

=

0

∞

−

exp( x)dx

−

x2 + x exp( x)dx 2



−

g (x) exp( exp( x)dx.

Pero (2.3) no es más as que E [(g [(g (Y )] Y )] con g (y ) = 1]4,75;+∞[ (y ) √ 12π exp

∞

−

(2.3)

−  y2 2

+ y y donde 1]4,75;+∞[ (y )

es la función on indicatriz del intervalo ]4, ]4,75;+ [. ¿C´ omo utilizar esta esperanza a efectos prácticos? omo acticos? Podemos estimar la esperanza mediante la media aritm´ etica etica de los valores valores de g (y ) obtenidos mediante una simulación on de Montecarlo. 1

R. Y. Rubinstein (1981), Simulation and the Monte Carlo Method . New York. Wiley.

2.3 Codificaci´ on de im´ agenes

N 104 105 106 107

19

P ( P (T > 4, 4 ,75) estimada real 7 − 8,13 10 1,02 10−6 9,86 10−7 1,02 10−6 1,03 10−6 1,02 10−6 9,89 10−7 1,02 10−6

× × × ×

× × × ×

# Y > 4, 4,75 83 880 8765 86476

{

}

Tabla 2.4: Aplicación on del muestreo de importancia a la estimación de probabilidades muy peque˜ nas nas Para ello generaremos N valores N valores de la Exp(1) Exp (1) y con ellos calcularemos g (x) y a continuación on su media medi a aritm´ a ritmética, etic a, N

ˆ (T > 4, P ( P 4 ,75) =

=

1 g (xi ) N i=1 1 N

 1 N

i=1

1 exp ]4,75;+ ∞[ (xi ) 2π

√

−

x2i + xi . 2



La ventaja ventaja del m´ etodo etodo estriba estriba en que obtener obtener valores valores de Y Y que excedan 4, 4,75 es mucho más as probable. Por ejemplo, si N N = 10000 esperaremos que haya alrededor de 86 valores mayores que 4, 4,75. Señalemos nalemos que g que g((y ) representa el cociente entre dos densidades, la que realmente corresponde a al variable a controlar y la ficticia que corresponde a una nueva variable elegida porque P ( P (Y > t0 ) P ( P (T > t0 ). Es este cociente el que estimamos estimamos con el m´ etodo etodo de Monteca Montecarlo rlo descrito. La Tabla 2.4 muestra las estimaciones obtenidas para P ( P (T > 4,75) con simulaciones de distinto distinto tama˜ no. no. Se muestra muestra tambi´ en en en cada caso el n´ umero de valores de la variable de umero importancia que han excedido el umbral de 4, 4,75.



2.3. 2.3.

Codi Codific ficac aci´ i´ on on de im´ im´ agen agenes es

El almacenamiento y transmisión on de archivos de imágenes agenes plantea problemas semejantes a los generados por los archivos de datos. Si cabe de mayor entidad dada la mayor complejidad de aquellos archivos. El formato de codificación on JPEG, uno de los más as standard, se basa en el hecho hecho de que existen partes en una imagen en las que no cambia sustancialmen sustancialmente te su contenid contenido. o. Por ejemplo, si estamos barriendo horizontalmente la imagen de una casa cuyas paredes son de color blanco existirán an largas l argas secuencias secuenci as de p´ıxels con prácticamente acticamente el mismos mi smos valor, de forma que conocido el valor valor en p´ıxel conocemos, casi con seguridad, seguridad, cual es el valor valor del siguiente siguiente o, de forma más as general, de sus vecinos. La razón on para ello es que las variables aleatorias que representan el valor en cada pixel están an fuertemen fuertemente te correlacio correlacionadas nadas.. Es decir, decir, si X 1 y X 2 representa a dos p´ıxels vecinos, ρ X1 X2 1. ¿Qué ventaja podemos p odemos obtener de este hecho? Para dar respuesta a la pregunta necesitamos introducir el concepto de recta de regresión.

≈

2.3.1 2.3.1..

Rect Recta a d de e reg regre resi´ si´ on on

Consideremos un vector aleatorio (X, ( X, Y ). Y ). Queremos encontrar una relación on funcional entre Y y X , Y = f ( f (X ), ), con fines predictivos que cumpla las condiciones de bondad y sencillez.

20


La funci´ on on m´ as sencilla posible es la recta y por lo que respecta a la bondad haremos uso del as principio de los m´ınimos ınimos cuadrados, lo que implica elegir los parámetros ametros de la recta de forma que L(a, b) = E (Y aX b)2



− −

−



sea m´ınim ın imo. o. La obtención on de a de a y b se reduce a un problema de máximos aximos y m´ınimos y basta igualar a 0 las derivadas parciales ∂L/∂a parciales ∂L/∂a y y ∂L/∂b. ∂L/∂b. Si lo hacemos obtendremos, a =

cov( cov(X, Y ) Y ) , var( var (X )

b = E = E (Y ) Y )

− aE (X ).

La ecuación on de la que se conoce como recta de regresi´ on de Y de Y sobre X sobre X tendr´ tendrá por expresi exp resi´ón, on, cov( cov (X, Y ) Y ) Y ) = (X − E (X )). )). − − E (Y ) var( var (X )

Y

2.3. 2.3.2. 2.

(2.4)

Codifi Codifica caci´ ci´ on on de im´ agenes agenes y regresi´ regresi ´ on on m´ınimo ni mo cua uadr dr´ ´ ati at ica

El pixel i de la imagen se modeliza mediante una variable aleatoria, X i , de manera que todas las X las X i tienen la misma distribución on de probabilida probabilidad. d. Sin perdida de generalida generalidad d podemos suponer que las variables variables están a n centradas y su media es 0. En este caso, el coeficiente de correlaci´ on entre dos cualesquiera de ellas puede escribirse, on ρXi Xj =

cov( cov(X i , X j ) cov( cov(X i , X j ) = , var( var (X i ) var( var (X i ) var( var (X j )

 

puesto que var( var (X i ) = var v ar((X j ). A partir de (2.4), la recta de regresión de X j sobre X i adoptará la expresi exp resi´ón on X j = ρ Xi Xj X i .

|

|

±

Si se trata de p´ıxels vecinos con ρXi Xj = 1 , el valor que tome X j será X i , dependiendo del signo de ρXi Xj . Parece absurdo, desde el punto de vista de la optimización on de recursos, sea para almacenar almacenar o transmitir transmitir,, escribir escribir X i = xi y a contin continuaci´ uaci´ on on X i+1 = xi+1 = xi . ˆ i+1 = X i = xi . Ahora bien, si ρX X +1 < 1 Podemos almacenar X almacenar X i y predecir X predecir X i+1 como X i i cometeremos un error que será tanto más as perceptible cuanto más as alejado est´ e de la unidad el valor de ρ de ρ Xi Xi+1 . La codificación on JPEG utiliza las propiedades de la correlación on entre las componentes del vector aleatorio X = (X 1 , X 2 , . . . , Xn ) constituido por los n p´ p´ıxels de la imagen. Se trata de una versión o n de la transformada transfor mada de Karhunen-Lo` Karhunen- Lo` eve eve , de la que más as adelante nos ocuparemos, cuyo algoritmo es el siguiente:

| | ±

|

± |

1. Transformar X en un nuevo vector Y cuyas cuyas componentes son incorreladas, mediante una transformaci´ on on lineal Y = AX , donde A es una matriz cuadrada cuadrad a invertible invertibl e de dimensi´ dimensi ón on n. 2. Eliminar Eliminar aquellas aquellas componentes componentes de Y cuya cuya varianza es muy pequeña na frente a las del resto. ˆ Ello dar lugar a un nuevo vector Y con con algunas componentes iguales a 0, que será el que se almacena o transmite. Lógicamente, ogicamente, las componentes nulas no necesitan ser codificadas, pero s´ı es necesario conocer cono cer su posición. on. ˆ = A −1 Y ˆ que será una aproximación 3. Deshacer Deshacer la transform transformaci´ aci´ on on inicial para obtener X on del vector original.


21

Si ΣX y Σ Y designan las matrices de covarianza del vector original y del transformado, la incorrelaci´ on de las componentes de Y implica que ΣY es una matriz diagonal. La matriz A on es por tanto la matriz que diagonaliza ΣX , es decir, A = V T , donde V es la matriz de los vectores propios de Σ de Σ X . Tendremos = AΣX AT = V T ΣX V var( var (Y 1 ) 0 0 var( var (Y 2 ) = Λ= .. .. . . 0 0

ΣY

  

··· ···

0 0 .. .

···

var( var (Y n )

.. .

  

.

En los dos ejemplos que siguen consideramos dos situaciones distintas: la primera que permite una reconstru reconstrucci´ cci´ on on id´ entica entica de la imagen imagen original original y la segunda segunda en la que la reconstru reconstrucci´ cci´ on on comporta errores. Ejemplo 2.3 (Reconstrucci´ on on idéntic ent ica) a) Supongamos que la imagen a codificar est´ a representada por el vector X = (X 1 , X 2 , X 3 , X 4 ), con vector de medias nulo y cuyas matrices de covarianzas y correlaciones valen,

ΣX =

 

5 1 2 5

1 3 1 5

2 5 1 5 4 9 9 23

 

,

ρ =

 

1,0000 0,2582 0,4473 0,4663

0,2582 1,0000 0,2887 0,6019

0,4473 0,2887 1,0000 0,9383

Aun cuando ninguna correlaci´ on es la unidad, si calculamos E calculamos E [( [(X X 4 que E (X i ) = 0, 0 , i, obtendremos,

∀

E [(X [(X 4

− (X 2 + X 3))2]

0,4663 0,6019 0,9383 1,0000

 

.

− (X 2 + 2X 3))2], recordando

= E [X 42 + (X (X 2 + 2X 2 X 3 )2 2X 4 (X 2 + 2X 2 X 3 )] 2 2 = E (X 4 ) + E ((X ((X 2 + 2X 2 X 3 ) ) 2E [X 4 (X 2 + 2X 2 X 3 )]

−

−

= E (X 42 ) + E (X 22 + 4X 4X 32 + 4X 4X 2 X 3 ) 2[E 2[E (X 4 X 2 ) + 2E 2E (X 4 X 3 )] = var( var (X 4 ) + var( var (X 2) 2) + 4var 4var((X 3 ) + 4cov 4 cov((X 2 , X 3 ) 2[cov 2[cov((X 4 , X 2 ) + cov( cov (X 4 , X 3 )] = 0,

−

−

y como (X 4 (X 2 + 2X 3 ))2 0, 0 , se deduce que P ( P (X 4 = X 2 + X + X 3 ) = 1, con lo que el valor de X 4 viene determinado por el de X 2 y X 3 . La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,

−

≥

A = V T =

y ΣY valdr´ a,

− 

0,2236 0,9718 0,0743 0,0000

ΣY = Λ = Λ = A ΣX AT =

−0,1940 −0,1123 0,8849 −0,4082

 

−0,3478 −0,8896 −0,0450 −0,2022 −0,4587 −0,0324 −0,8165 0,4082

28 28,,8660 0 0 0 3,7513 0 0 0 2,3826 0 0 0

0 0 0 0

 

,

 

.

22


En el vector transformado, Y , podemos prescindir de la cuarta componente por tener varianza ˆ = (Y 1 , Y 2 , Y 3 , 0). nula. El vector que almacenaremos o transmitiremos ser´ a Y 0). Observemos que ˆ Y = BY B Y con 1 0 0 0 0 1 0 0 B = . 0 0 1 0 0 0 0 0

 

 

Si queremos ahora reconstruir el vector original, como V V T = I , A−1 = V , tendremos ˆ = A −1 Y ˆ = V Y ˆ = V BY = V BV T X . X Calculemos V BV T , V BV T =

con lo que

ˆ = X

   −

X 1

5 1 1 6 X 2 3 X 3 + 6 X 4 1 1 1 3 X 2 + 3 X 3 + 3 X 4

−

1 1 5 6 X 2 + 3 X 3 + 6 X 4

  

  

1

0

0

0

0 0 0

5 6 1 3 1 6

− 13

1 6 1 3 5 6

−

1 3 1 3

  

,

= (sustituyendo X 4 = X = X 2 + 2X 2 X 3 ) =

 

X 1 X 2 X 3 X 4

 

.

Hemos recuperado recuperado un vector idéntico entico al original. original . Ejemplo 2.4 (Reconstrucci´ on on con error) Supongamos Supongamos ahora que la imagen a codificar codificar est´ a representada por el vector X = (X 1 , X 2 , X 3 , X 4 ), con vector de medias nulo y cuyas matrices de covarianzas y correlaciones valen,

ΣX =

 

6 5,7 0 0 5,7 6 0 0 0 0 4 3,8 0 0 3,8 4

 

,

ρ =

 

1,00 0,95 0,00 0,00

0,95 1,00 0,00 0,00

0,00 0,00 1,00 0,95

0,00 0,00 0,95 1,00

 

.

A diferencia del ejemplo anterior, observamos ahora que las variables X 1 , X 2 , y X 3 , X 4 est´ an muy correlaciondas, ρX1 X2 = ρ X3 X4 = 0,95 95.. Veamos ahora que valen las distintas matrices y, en particular, c´ omo es el vector reconstruido. La matriz A es la traspuesta de la matriz de los vectores propios de ΣX ,

A = V T =

y ΣY valdr´ a,

 

0,7071 0,0000 0,7071 0,0000

0,7071 0,0000 0,7071 0,0000

−

ΣY = Λ = Λ = A ΣX AT =

 

0,0000 0,7071 0,0000 0,7071

0,0000 0,7071 0,0000 0,7071

−

11 11,,7 0 0 0 0 7,8 0 0 0 0 0,3 0 0 0 0 0,2

 

  .

,


23

Como las varianzas de las dos ´ ultimas componentes del vector transformado son muy peque˜ nas frente a las de las los primeras, podemos podemos prescindir prescindir de ellas. El vector que almacenaremos almacenaremos o ˆ ˆ B Y con transmitiremos ser´ a Y = (Y ( Y 1 , Y 2 , 0, 0). 0). Observemos que Y = BY

B =

 

1 0 0 0

0 1 0 0

0 0 0 0

 

0 0 0 0

.

Para reconstruir el vector original, como V V T = I , A−1 = V , y ˆ = A −1 Y ˆ = V Y ˆ = V BY = V BV T X . X Obtengamos V BV T , V BV T =

y finalmente

ˆ = X

  

   

1 2 1 2

1 2 1 2

0 0

0 0

0 0

0 0

1 2 1 2

1 2 1 2

1 2 (X 1 + 1 2 (X 1 + 1 2 (X 3 + 1 2 (X 3 +

X 2 ) X 2 ) X 4 ) X 4 )

   

  

,

.

Las componentes originales X originales X 1 y X X 2 son reemplazadas por la media de sus valores, al igual que X 3 y X 4 . La explicaci´ on reside en los valores elevados, cercanos a 1, de los correspondientes coeficientes de correlaci´ on. El error cuadr´ atico medio, M SE , SE , que esta reconstrucci´ on supone podemos calcularlo. 4

M SE = E

  {

(X i

i=1 2

= E

4

X i

i=1

= = =

− X î)2



− (X 1 + X 2)/2

  } { 2

+ E

X i

i=3

− (X 3 + X 4)/2}

2



1 1 E [(X [(X 1 X 2 )2 ] + E [(X [(X 3 X 4 )2 ] 2 2 1 1 [var( var (X 1 ) + var( var (X 2 ) 2cov( cov (X 1 , X 2 )] + [var( var (X 3 ) + var( var (X 4 ) 2 2 1 (6 + 6 2 5,7 + 4 + 4 2 3,7) = 0, 0,5. 2

−

−

−

− ×

− 2cov( cov (X 3 , X 4 )]

− ×

Obs´ ervese ervese que, dados los valores de las varianzas, si las correlaciones hubier hubieran an valido 1 el error cuadr´ atico medio hubiera sido 0. Por ultimo, ´ hemos generado 20 vectores X = (X 1 , X 2 , X 3 , X 4 ) de una normal multivariante con vector de medias nulo y matriz de covarianzas la Σ la Σ X del ejemplo. Estos 4 4 20 = 80 valores 80 valores constituyen la imagen original. Ella y su imagen recuperada se muestran en la Figura 2.3 con el fin de comprobar visualmente la calidad del proceso.

×

24


Imagen original

X4

2

X3

0

X2

−2

−4

X1

1

2

3

4

5

6

7

8

9

10

1 11 1

1 12 2

1 13 3

14 14

15 15

16 16

17 17

18 18

19 19

20 20

Imagen recuperada

X4

2

X3

0

X2

−2

−4

X1

1

2

3

4

5

6

7

8

9

10

1 11 1

1 12 2

1 13 3

14 14

15 15

16 16

17 17

18 18

Figura 2.3: Imágenes agenes original original y recuperada recuperada

19 19

20 20

Cap´ıtulo 3

Sucesiones de variables aleatorias. Teoremas de convergencia 3.1. 3.1. 3.1.1. 3.1.1.

Apli Aplica caci cion ones es de la la ley de de los gra grand ndes es n´ umeros umeros El teore teorema ma de Gliv Glivenk enko-C o-Can antel telli li

Para las variables aleatorias X 1 , X 2 , . . . , Xn se define la función on de distribución on emp em p´ırica ıri ca mediante n 1 F n (x, ω) = 1]−∞,x] (X k (ω)). )). n



k =1

Cuando todas las variables tienen la misma distribución, on, F n (x, ω ) es el estimador natural de la funci´ on on de distribución on com´ un, F un, F ((x). El acierto en la elección on de este estimador se pone de manifiesto en el siguiente resultado.

{ { }

Teorema 3.1 Sea X k una sucesi´ on de variables aleatorias i.i.d. con funci´ on de distribuci´ on a.s. com´ un F ( F (x), entonces F n (x, ω) F ( F (x).

−→

Demostraci´ on.on.- Para cada x, F n (x, ω) es una variable aleatoria resultante de sumar las n variables variables aleatorias independientes, 1]−∞,x] (X k (ω )), )), k = 1, . . . , n, n, cada una de ellas con la misma esperanza, E (1]−∞,x] (X k (ω ))) = (X k x) = F ( F (x). Aplicando la ley fuerte de los grandes n´ umeros, umeros, a.s. F n (x, ω) F ( F (x),

P

≤ −→

que es el resultado buscado. Este resultado es previo al teorema que da nombre al apartado y que nos permite contrastar la hip´ otesis otesis de suponer que F que F es es la distribución on com´ un un a toda la sucesión. on.

♠

{ { }

Teorema 3.2 (Glivenko-Cantelli) Sea X k una sucesi´ on de variables aleatorias i.i.d. con funci´ on de distri distribuc buci´ i´ on com´ un F ( F (x). Hagamo Hagamos s Dn (ω ) = s u px F n (x, ω) F ( F (x) , entonce entonces s a.s. Dn 0.

−→

|

−

|

La demostración, on, muy t´ ecnica, ecnica, la omitimos y dejamos al inter´ interés es del lector consultarla en el texto de Billingsley (1995), Probability and Measure. 3rd Edition , Wiley, N.Y.

26

Sucesiones de variables aleatorias. Teoremas de convergencia

3.1.2.

C´ alculo alculo aproximado aproximado de integral integrales es por el m´ etodo etodo de MonteMonteCarlo 1



∈ C

Sea f ( f (x) ([0, ([0, 1]) con valores en [0, [0 , 1]. Una aproximación on al valor de 0 f ( f (x)dx puede obtenerse a partir de una sucesión on de pares de variables aleatorias distribuidas uniformemente en [0, [0, 1], (X (X 1 , Y 1 ), (X 2 , Y 2 ), . . .. .. Para ello hagamos, Z i =



1, 0,

si f ( X i ) Y i si f ( X i ) < Y i .

≥

As´ı definida defin idass las Z i son variables Bernoulli con parámetro ametro p = E (Z i ) = P ( P (f ( f (X i ) 1 f (x)dx, dx, y aplicándoles andoles la ley fuerte de los grandes n´ umeros umeros tendremos que 0 f (



1 n

n



Z i

≥

Y i ) =

1

 −→ a.s.

f ( f (x)dx,

0

i=1

lo que en t´ erminos erminos pr´ acticos supone simular los pares (X acticos ( X i , Y i ), i = 1, . . . , n, n, con X i e Y i U (0 U (0,, 1), y calcular la proporción on de ellos que caen por debajo de la gráfica y afica y = f = f ((x).

3.1.3. 3.1.3.

∼

Aprox Aproxima imaci´ ci´ on on de funciones

Sea g Sea g una función on acotada definida sobre [0, [0, 1], la funci´ on B on B n definida sobre [0, [0, 1] mediante n

Bn (x) =

    k n

g

k=0

n k x (1 k

− x)n−k ,

es conocida como polinomio de Bernstein de grado n. n . El teorema de aproximación on de Weierstrass asegura que toda función on continua sobre un intervalo cerrado puede ser aproximada uniformemente mediante polinomios. Probemos dicha afirmaci´ on para los polinomios de Bernstein. on Si la funci fu nci´ón g on g a aproximar es continua en [0, [0 , 1], será uniformemente continua, entonces 0 , ∃δ > 0 tal que |g (x) − g (y )| < , si |x − y| < δ. ∀ > 0, Adem´ as g as g estará también en acotada y por tanto |g (x)| < M, ∀x ∈ [0, [0, 1]. Sea ahora un x un x cualquiera en [0, [0, 1],

            −  −   −  −   −     −   −     −   − n

|g(x) − Bn(x)|

=

g(x)

k=0

n k x (1 k

n

≤ =

n

g (x)

g

k=0

x)n−k

k=0

k n

g (x)

n k x (1 k

k n

g

|k/n−x|<δ

+

g (x)

|k/n−x|≥δ

≤

 + 2M 2M

|k/n−x|≥δ

g

g

n k x (1 k

n k x (1 k

x)n−k

n k x (1 k

k n

k n

n k x (1 k x)n−k .

x)n−k + x)n−k

− x)n−k

 

3.2 Una curiosa aplicaci´ on del TCL: estimaci´ on on on del valor de π

27

∼ B(n, x), el ultimo u ´ ltimo sumatorio no es más as que

Si Z Si Z n

P y tendremos

 

     −  ≥ −       | − |≤  − ≥      −  ≥ −→ −→ Z n n

g (x)

x

n k x (1 k

x)n−k ,

Z n n

δ ,

δ =

|k/n−x|≥δ

Bn (x)

 + 2M 2M P

x

pero por la ley de los grandes números umeros Z n n

P

x y por por tanto tanto

P

Z n n

x

δ

0,

lo que demuestra la convergencia uniforme de B n a g en [0, [0, 1].

3.2. 3.2.

Una Una cu curi rios osa a ap apli lica caci ci´ o on ń del TCL: estimaci´ on on del valor de π

De Moivre y Laplace dieron en primer lugar una versi´ on local del del TCL al demostrar que si X

∼ ∼ B(n, p),



P ( P (X = m) m) np(1 np(1

para n para n suficientemente suficientemente grande y x y x = =

1 p) ≈ √ e− − p) 2π

1 2 2x

,

(3.1)

√ mnp−(1np− p) . Esta aproximación on nos va a servir para estudiar

la credibilidad de algunas aproximaciones al número umero π obtenidas a partir del problema de la aguja de Buffon . Recordemos que en el problema planteado por Buffon se pretende calcular la probabilidad de que una aguja de longitud l, lanzada al azar sobre una trama de paralelas separadas entre si una distancia a, con a > l, corte a alguna de las paralelas. Puestos de acuerdo sobre el significado de lanzada de lanzada al azar , la respuesta es P ( P (corte) corte) =

2l , aπ

resultado que permite obtener una aproximación on de π si, conocidos a y l, sustituimos en π = 2l la probabilidad de corte por su estimador natural la frecuencia relativa de corte , p, p , a aP (corte ) lo largo de n de n lanzamientos. Podremos escribir, si en lugar de trabajar con π lo hacemos con su inverso, 1 am = , π 2ln donde m donde m es el n´ umero umero de cortes en los n lanzamientos. El a˜ no 1901 Lazzarini realizó 3408 lanzamientos obteniendo para π el valor 3, no 3,1415929 con ¡¡6 cifras decimales exactas!!. La aproximación on es tan buena que merece como m´ınimo alguna peque˜ na na reflexión. on. Para empezar supongamos que el número umero de cortes aumenta en una unidad, las aproximaciones de los inversos de π correspondientes a los m y m + 1 cortes diferir diferi r´ıan en a(m + 1) 2ln

a 1 = , − 2am ≥ ln 2ln 2n

que si n 5000, da lugar a 21n 10 −4 . Es decir, un corte más as produce una diferencia mayor que la precisión o n de 10−6 alcanzada. No queda m´ as alternativ alternativa a que rec reconoce onocerr que Lazzarini azzarini

≈

≈

28

Sucesiones de variables aleatorias. Teoremas de convergencia

tuvo la suerte de obtener obtener exactamente el n´ umero de cortes, m, que conduc conduc´ ´ıa a tan excelente aproximaci´ on . La pregunta inmediata es, cual es la probabilidad de que ello ocurriera? , y para responderla podemos recurrir a (3.1) de la siguiente forma, P ( P (X = m) m)

≈

1



2πnp(1 πnp(1

(m−np)2

− p) p)

(1−p) e− 2np(1−

≤

1



2πnp(1 πnp(1

, − p) p)

que suponiendo a suponiendo a = 2l y p = 1/π nos /π nos da para P ( P (X = m) m) la siguiente cota P ( P (X = m) m)

π . 2n(π 1)

 ≤

Para el caso de Lazzarini n Lazzarini n=3408 =3408 y P y P ((X = m) m ) hombre de suerte, quiz´ as demasiada .

−

0146,, ∀m. Parece ser que Lazzarini era un ≤ 0,0146

Cap´ıtulo 4

Pro Proceso cesoss Esto Estoc´ c´ asti astico coss 4.1. 4.1.

Deri Deriv vac aci´ i´ on alternativa del Proceso de Poisson on

Al describir el proceso pro ceso de Poisson en el Cap´ıtulo ıtulo 4 de Montes (2007), señal´ nal´ abamos abamos la existencia de un m´ etodo etodo alternativo para derivar el proceso. Este m´ etodo etodo se basa en resultados elementales de Teor´ eor´ıa de la Probabilidad y requiere establecer las siguientes condiciones iniciales para el fenómeno omeno aleatorio, en las que la variable aleatoria N t = n´ umero umero de sucesos sucesos ocurridos hasta el tiempo t :

{

}

{

} {

}

CA1) si CA1) si t 1 < t2 < t3 , los sucesos N t2 −t1 = n y N t3 −t2 = m son independientes, para cualesquiera valores no negativos de n y m, CA2) los sucesos sucesos N t2 −t1 = n , n = 0, 1, . . ., ., constituy constituyen en una partici´ partici´ on on del espacio muestral y P y P ((N t2 −t1 = n) n) depende sólo olo de la diferencia t 2 t1 ,

{

}

−

CA3) si CA3) si t t es suficientemente pequeño, no, entonces P entonces P ((N t comparada con P ( P (N t = 1), es decir

≥

P ( P (N t 2) 1 = l´ım t↓0 P ( t↓0 P (N t = 1)

l´ım

≥ 2) es despreciablemente pequeña na

− P ( P (N t = 0) − P ( P (N t = 1) = 0, 0, P ( P (N t = 1)

(4.1)

lo que equivale a l´ım t 0

↓

1

P (N t = 0) − P ( = 1. P ( P (N t = 1)

(4.2)

Es decir, la probabilida probabilidad d de que ocurra al menos un suceso suceso es, en el l´ımite, ımite, igual a la probabilidad de que ocurra exactamente uno. Comenc Comencemo emoss por observ observar ar que dadas dadas las tres tres condic condicion iones es se deduce deduce que P ( P (N 0 = 0 ) = 1 , P ( P (N 0 = k) k ) = 0, k 1, y P ( P (N t = 0) es una función on mon´ otona decreciente. Estas propiedades otona junto las condiciones CA1 y CA2 nos permiten escribir, para t1 < t2 < t3 , t2 t 1 = t y = s,, t3 t2 = s

≥

−

−

P ( P (N t+s = 0) = = = =

P ( P (N t3 −t1 = 0) P ( P (N t2 −t1 = 0, N t3 −t2 = 0) P ( P (N t2 −t1 = 0)P 0)P ((N t3 −t2 = 0) P ( P (N t = 0)P 0)P ((N s = 0). 0).

30

Pro cesos Esto c´ asticos

Se trata por tanto de una función on aditiva. Un función on exponencial que cumple esta condición on puede ser la solución. on. As´ As´ı, podem p odemos os suponer su poner que P ( P (N t = 0) = p = p t .

≤

(4.3)

≤

Obviamente se cumple que 0 P ( P (N t = 0) 1 por tratarse de una probabilidad. Ello supone que p que p puede responder a una de las tres alternativas siguientes:

∀

1. p = 0, lo que implica P implica P ((N t > 0) > 0) = 1, t, y supone que ocurrirán an una infinidad de sucesos en cualquier cu alquier intervalo de tiempo. tiemp o. Un proceso proce so de estas caracter´ısticas ısticas carece de interés. es. 2. p = 1, supone que no ocurre nunca ningún un suceso y estamos nuevamente ante un fenómeno omeno carente care nte de interés. es. 3. 0 < p < 1, que representa la unica única alternativa de inter´ es es y de la que nos vamos a ocupar en adelante. Supuesto por tanto que en (4.3) 0 < p < 1, podemos escribir p = e−λ , con λ = Podremos reescribir (4.3) de la forma P ( P (N t = 0) = e = e −λt .

ln p > 0. − ln p

(4.4)

Para determinar el valor de P de P ((N t = k = k), ), observemos en primer lugar que P ( P (N ∆t = k = k)) = 0, ∆t→0 ∆t l´ım

k

≥ 2.

(4.5)

En efecto, 0

P (N t = k) k ) ≤ ≤ P (



P ( P (N t = k) k ) = 1

k 2

≥

P (N t = 0) − P ( P (N t = 1), 1), − P (

k

≥ 2,

y de aqu´ aq u´ı,ı, 0

P (N ∆t = k = k)) 1 − P ( P (N ∆t = 0) − P ( P (N ∆t = 1) P ( P (N ∆t = 1) ≤ P ( ≤ × . ∆t P ( P (N ∆t = 1) ∆t

(4.6)

Si aplicamos ahora (4.1) al primer factor del último ultimo miembro de la desigualdad obtendr´ obtendr´ıamos (4.5) siempre que P ( P (N ∆t = 1) l´ım ∆t→0 ∆t se mantuviera finito, pero si recurrimos a (4.2), l´ım

∆t

→0

[1

P (N ∆t = 0)]/ 0)]/∆t − P ( = 1. P ( P (N ∆t = 1)/ 1)/∆t

Es decir, P ( P (N ∆t = 1) , (4.7) ∆t→0 ∆t→0 ∆t ∆t pero el primer l´ımite es justamente j ustamente P  (N 0 = 0), que existe dada la expresión on (4.4), y el segundo l´ımite ım ite ser´ ser á por tanto finito. En definitiva, (4.5) se cumple y si tenemos en cuenta además as que P ( P (N 0 = k = k)) = 0, se deduce que l´ım

1

P (N ∆t = 0) − P ( =

l´ım ım

−

P  (N 0 = k) k ) = 0,

k

≥ 2,

(4.8)

lo que prueba la existencia de dicha derivada. Supongamos ahora que el suceso ha ocurrido k veces en el intervalo [0, [0, t + ∆t[ . Tres son las posibles alternativas para este hecho,

{

}

4.2 Planificaci´ on de sem´ aforos

k

31

− 1 ocurrencias en [0, [0 , t[ y 1 en [t, [t, t + ∆t ∆t[,

k ocurrencias en [0, [0, t[ y 0 en [t, [t, t + ∆t ∆t[, o a lo sumo k sumo k

[0 , t[ y al menos 2 en [t, [ t, t + ∆t ∆t[. − 2 ocurrencias en [0,

De acuerdo con las CA1 y CA2 tendremos P ( P (N t+∆t = k = k)) = P ( P (N t = k = k

1)P ((N ∆t = 1) + P ( P (N t = k) k )P ( P (N ∆t = 0) + R. − 1)P

(4.9)

De aqu´ aq u´ı,ı,

− P ( P (N t = k = k)) = P ( P (N t = k = k)[ )[P P ((N ∆t = 0) − 1] + P ( P (N t = k − 1)P 1)P ((N ∆t = 1) + R, (4.10) y dividiendo por ∆t ∆t, pasando pasand o al l´ımite ımite y teniendo ten iendo en cuenta (4.3), (4.5) y que por (4.7) (4. 7) −P  (N 0 =  P ( P (N t+∆t = k) k )

0) = P (N 0 = 1), obtendremos

P  (N t = k = k)) = λ[ λ [P ( P (N t = k = k

− 1) − P ( P (N t = k)] k )],,

k = 1, 2, . . . ,

(4.11)

un sistema recursivo de ecuaciones diferenciales lineales de primer orden, cuyas condiciones iniciales son, recordemos, P ( P (N 0 = 0) = 1, P ( P (N 0 = k) k ) = 0, k 1, derivadas de las condiciones iniciales inicial es impuestas impu estas al fenómeno. omeno. Conoce C onocemos mos adem´ adem as ás una soluci´ on on particular, P particular, P ((N t = 0) = e = e −λt , la soluci´ soluci´ on on general será de la forma

≥

P ( P (N t = k) k ) = e −λt C k (t).

(4.12)

Respecto de las condiciones iniciales de C k (t), por (4.4), C O (t) = 1, y P ( P (N 0 = 0) = 1 P ( P (N 0 = k = k)) = 0

⇒ ⇒

C O (0) = 1 C O (k ) = 0, k

∀ ≥ 1.

Sustituyendo (4.15) en (4.11) obtenemos C k (t) = λC k−1 (t),

(4.13)

y aplicando la recursividad y los valores iniciales encontrados, llegamos a (λt) λt)k C k (t) = , k!

(4.14)

y finalmente,

(λt) λt)k −λt e , k 0. k! Es decir, que la variable N variable N t se distribuye como una Poisson de parámetro λt ametro λt.. P ( P (N t = k) k ) =

4.2. 4.2.

≥

(4.15)

Plan Planifi ifica caci ci´ on o ń de sem´ sem´ afor aforos os

La instalaci´ instala ción on de semáforos aforos es una decisión on que toman los ingenieros de tráfico afico en función on de una serie de criterios, entre los cuales el más as decisivo es una elevada tasa de accidentes en el lugar examinado. El proceso de Poisson es una herramienta válida alida para estimar la tasa de accidentes en un u n punto pu nto conflictivo confl ictivo de tráfico. afico. Veámoslo amoslo en un u n ejemplo e jemplo hipot´ hipo tético. etico. En el cruce cruce de calles calles que se muestra muestra en la Figura (4.1) confluyen confluyen dos calles calles de sentido sentido único, unico, N-S y E-O, y cuenta como unica u ´ nica se˜ nalizaci´ nalizaci´ on on con sendas señales nales de Stop. La tasa de accidentes

32


5

S N 4

N−S

s e l i v ó 3 m o t u a e d s a d 2 a g e l l

E-O

|

|

||| |

|| | | | |

| | || | | |

|

||

|

|| |

|

E−O |

1

|

||

| ||

| | |

|

|| | |

| ||

|

|

|| | |

0

0

500

1000

1500

2000

250 0

30 00

segundos

Figura 4.1: Esquema del cruce de calles (izquierda) y secuencia de llegadas de automóviles oviles en ambas calles (derecha)

es elevada, probablemente debida a que los conductores no respetan la señal de Stop, a lo sumo reducen su velocidad. Esta es la hipótesis otesis de manejan los ingenieros de tráfico afico de la ciudad. Para corroborarla deben estimar la media de accidentes que cabe esperar que ocurran si dicha hip´ otesis otesis es cierta. La estimación on requiere, en primer lugar, un análisis alisis del tráfico afico en el cruce. Concretamente datos referidos a los tiempos de llegada de los veh´ veh´ıculos en cada una de las dos calles. La Figura (4.1) muestra parte de las dos secuencias de llegada. Una primera y razonable hipótesis, otesis, que puede corroborarse con los datos observados, es aceptar que se trata de sendos proceso de Poisson con igual parámetro, λ ametro, λ,, y que los tiempos entre llegadas en cada sentido son independientes. Si por T E E y T N N designamos los tiempos de llegadas en el sentido E-O y N-S, respectivamente, ambos se distribuyen Exp( Exp (λ). Si la hip´ otesis otesis de que los conductores no se detienen es cierta, dos veh´ veh´ıculos colisionar´ an an cuando lleguen ambos en un corto intervalo de tiempo, T E t0 . El diferencial de tiempo t tiempo t0 E T N N se calcula en función on de la longitud de los coches y de su velocidad. Si por simplificar admitimos que tienen igual longitud, l longitud, l,, y circulan a igual velocidad, v velocidad, v,, t 0 = l/v = l/v.. Por ejemplo, para coches de 4,5 metros de longitud que circulen a 40 km/hora (unos 11 m/s) t 0 0,4 segundos. Ocurrirá un accidente si los coches llegan con un lapso de tiempo menor a 4 décimas ecimas de segundo. Para poder contar los accidentes definimos una nueva variable

| − |≤

≈

Y i =



(i)

1, si al menos un j un j tal que T E 0, en caso contrario,

∃

|

(i)

− T N (j)| ≤ t0; (j )

donde T donde T E es el tiempo tiempo de llegada del del i-´ i -ésimo esi mo autom au tom´ ovil o´vil en sentido E-O, y T y T N es el tiempo de llegada del j del j-´ -ésimo esi mo autom au tomóvil o´vil en sentido N-S. Tal como la condición on está planteada, comparamos la llegada de un automóvil ovil fijo, el i-ésimo, esimo, en la dirección on E-O con todos los automóviles oviles que llegan en la otra dirección. on. Podr´ıamos ıamo s tambi´ ta mbién en expresar expr esar la cond c ondici´ ición on de la forma

|

(i)

m´ın T E j

− T N (j) | ≤ t0.

4.2 Planificaci´ on de sem´ aforos

33

El n´ umero total de accidentes en un intervalo de tiempo [0, umero [0 , t] vendr´ a dado por la suma, N t



X t =

Y i .

(4.16)

i=1

Hemos de llamar la atención on sobre esta suma porque su l´ımite ımite superior sup erior es una variable aleatoria, concretam concretament entee el número umero de llegadas que han tenido lugar en la dirección on E-O durante el intervalo de tiempo [0, [0, t], cuya distribución on es P es P o(λ). A la hora de calcular su esperanza lo más as sencillo es recurrir a la esperanza condicionada y hacer uso de la igualdad, E (X t ) = E [E (X t N t )], )],

|

pero

nt



|

E (X t N t = n = n t ) =

E (Y i ) = n t E (Y i ).

i=1

De aqu´ aq u´ı

|

E (X t ) = E [E (X t N t )] = E [N t E (Y i )] = λtE (Y i ). Por otra parte

|

(i)

E (Y i ) = P ( P (m´ın T E j

− T N (j) | ≤ t0).

(4.17)

Para obtener esta probabilidad podemos recurrir a condicionarla, P ( P (m´ın j

(i) T E

|

−

(j ) T N

| ≤ t0)

=

∞

   0

=

0

=

|

j

∞

t )f E − T N (j)| ≤ t0|T E (i) = t) E (t)dt

| − T N (j) | ≤ t0)f E E (t)dt

P ( P (m´ın t j

∞

(i)

P ( P (m´ın T E

P ( P (t

0

− t0 ≤ m´jın T N (j) ≤ t + t0)f E E (t)dt,

(4.18) (4.19)

(4.20)

(i)

donde f E on on densidad de T E . El paso de (4.18) a (4.19) se justifica porque las E (t) es la funci´ (i) (j ) (j ) variables T variables T E y T N son independientes j. j . El suceso t t0 m´ınj T N t + t0 que aparece en la integral (4.20) equivale a que en el intervalo [ t t0 , t + t0 ] tenga lugar al menos una llegada de veh´ veh´ıculos ıculos en sentido sentido N-S, su complemen complementario tario supone que no hay ninguna llegada llegada en dicho dicho intervalo y por tanto,

∀

P ( P (t

−

− t0 ≤ m´jın T N (j) ≤ t + t0)

= = =

{ − ≤

≤

− P ( P (N [t−t ,t+t ] = 0) 1 − P ( P (N 2t = 0) 1 − exp(−2λt0 ).

1

0

}

(4.21)

0

0

(4.22) (4.23)

El paso de (4.21) a (4.22) se justifica por la propiedad de los incrementos independientes estacionarios. Sustituyendo (4.23) en (4.20) y a su vez en (4.17) (i)

E (Y i ) = P ( P (m´ın T E j

=

∞



− T N (j)| ≤ t0)

− exp(−2λt0))f ))f E E (t)dt 1 − exp(−2λt0 ). 0

=

|

(1

34


Por ultimo u ´ ltimo E (X t ) = λt(1 λt (1

− exp(−2λt0)), )),

que podemos expresar tambi´ en en en t´ erminos erminos de número umero medio de accidentes por unidad de tiempo. E (X t ) = λ(1 λ (1 exp( 2λt0 )). )). t

−

−

Si, como co mo en el ejemplo eje mplo que propon´ pr opon´ıamos t ıamos t 0 = 0,4 segundos, la media de accidentes por segundo ser´ıa E (X t ) = λ(1 λ (1 exp( 0,8λ)). )). t

−

−

Para Para utilizar utilizar la hora como unidad de tiempo haremos el cam cambio bio λ λ h = 3600λ 3600λ y al sustituir en la anterior expresión, on, 3600E 3600 E (X t ) 0,8λh M h = = λ h 1 exp , 3600 t

 − − 

donde t se expresa ahora en horas. En la gráfica de la Figura 4.2 vemos la evolución on de M h a medida que aumenta λ aumenta λ h .

0 . 1

8 . 0 a r o h r o p s e t n e d i c c a e d a i d e m

6 . 0

4 . 0

2 . 0

0 . 0

0

10

20

30

40

50

60

tasa de llegadas

Figura 4.2: Media de accidentes por hora en función on de la tasa de llegadas

4.3.

Cadenas Cadenas de Mark Marko ov cont continu inuas as en el tiempo: fiabilidad fiabilidad de un multiprocesador

Disponen de un computador con dos procesadores independientes y queremos modelizar el comportamiento del sistema a lo largo del tiempo. Se trata de un sistema con tres estados: s1 = 0, que indica que ambos procesadores no funcionan. olo uno de los procesadores funciona. s1 = 1, que indica que sólo s1 = 2, que indica que ambos procesadores funcionan.

4.3 Cadenas de Markov continuas en el tiempo: fiabilidad de un multiprocesador 35 35

El modelo probabil´ probabil´ıstico que describe los tiempos de espera, sea de un fallo o de una reparaci´ on, on, es el modelo exponencial. Supondremos por tanto que el tiempo de fallo T fallo T f Exp( Exp (λ) y el tiempo f de reparación T on T r Exp( Exp (µ), y que ambos son independientes. El proceso X t , t 0 designa el estado del sistema en el instante t. Se trata de una cadena de Markov continua en el tiempo tiemp o y homog´ enea. enea. Para comprobarlo obtendremos los tiempos de transici´ on on para cada cada estado, y siendo éstos estos exponenciales la propiedad de falta de memoria har´ a el resto. Veamos dichos tiempos.

∼

∼

≥

Transici´ on on 0 1.- Una transición on de este tipo se produce cuando ambos procesadores están fuera de servicio y uno de ellos es reparado. Si T 01 on on correspon01 es el tiempo de transici´ diente y T r1 y T r2 los tiempos de reparación on de los procesadores, T 01 a con el 01 coincidir´ tiempo del que primero est´ e reparado, luego →

T 01 ın(T r1 , T r2 ), 01 = m´ y de aqu´ aq u´ı P ( P (T 01 01 > t) = = = =

P ( P (m´ın(T r1 , T r2 ) > t) P ( P (T r1 > t, t, T r2 > t) − − µt e e µt e−2µt ,

×

∼ Exp(2 Exp (2µ µ).

y T 01 01

Transici´ on on 1 2.- Esta transición on implica que el procesador averiado ha sido reparado y por tanto T tanto T 12 Exp( Exp (µ). 12 = T r →

∼

Transici´ on on 1 Exp( Exp (λ).

→

∼

0.- Para Para que ello ocurra el procesador procesador que funciona funciona debe fallar fallar y T 10 f 10 = T f

Transici´ on on 2 1.- Uno de los dos procesadores en funcionamiento ha de fallar y T 21 a el 21 ser´ tiempo del que menos tarde en hacerlo, por tanto →

T 21 ın(T f 21 = m´ f1 , T f f2 ), y razonado como antes, T antes, T 21 21

∼ Exp(2 Exp (2λ λ).

El resto de transiciones, 0 2y2 0, tienen probabilidades nulas. La obtención on de π(t), la distribución on sobre los estados en el tiempo t, t , requiere un pequeño no rodeo. Obtendremos en primer lugar la matriz de transición on para el instante de tiempo ∆t ∆ t, P(∆t (∆t), y estableceremos su relación on con π(t) y π(t + ∆t ∆t). Consideremos, por ejemplo, los sucesos X t+∆t = 2 y X t = 1 , que representan “el representan “el sistema est´ a en 2 en el instante de tiempo t + ∆t ∆t” y “el sistema est´ a en 1 en el instante de tiempo t”. Con la consabida notación, on, →

→

{

} {

p12 (∆t (∆t) = P ( P (X t+∆t = 2 X t = 1), 1),

|

}

36


representa la correspondiente probabilidad de transición. on. Para su cálculo alculo escribimos,

|

p12 (∆t (∆t) = =

P ( P (X t+∆t = 2 X t = 1) P ( P (t < T r t + ∆t ∆t T r

=

F T ∆t) F T T r (t + ∆t T r (t) 1 F T T r (t)

≤

−

−

− e−µ(t+∆t)

e−µt

=

| ≥ t)

e−µt

1 e−µ∆t µ∆t + o(∆t (∆t).

−

= =

De forma análoga aloga podemos obtener las probabilidades para las restantes transiciones entre diferentes estados para un instante de tiempo ∆t ∆ t. Para las transiciones a un mismo estado utilizaremos las relaciones,

| | p11 (∆t (∆t) = P ( P (X t+∆t = 1|X t = 1) = P = P ((T f ∆t, T r > t + ∆t ∆t|T f t, T r > t) t ), f > t + ∆t, f > t, p22 (∆t (∆t) = P ( P (X t+∆t = 2|X t = 2) = P = P ((m´ın(T f ∆t| m´ın(T f f , T f f ) > t + ∆t f , T f f ) > t). p00 (∆t (∆t) = P ( P (X t+∆t = 0 X t = 0) = P = P ((m´ın(T r1 , T r2 ) > t + ∆t ∆t m´ın(T r1 , T r2 ) > t),

1

2

1

2

Podemos generalizar (4.48) de Montes (2007) mediante la expresión matricial siguiente,

 

π0 (t + ∆t ∆t) π1 (t + ∆t ∆t) π2 (t + ∆t ∆t)

   

1

=

− 2µ∆t 2µ∆t 0

1

−

λ∆t 0 (µ + λ)∆t )∆t 2λ∆t µ∆t 1 2λ∆t

−

 

π0 (t) π1 (t) π2 (t)

π0 (t) π1 (t) π2 (t)

 

 

+ o(∆t (∆t).

Con unas sencillas operaciones con matrices podemos reescribir la anterior igualdad de la forma

 

π0 (t + ∆t ∆t) π1 (t + ∆t ∆t) π2 (t + ∆t ∆t)

− π0(t) − π1(t) − π2(t)

 −   =

2µ 2µ 0

λ (µ + λ) µ

0 2λ 2λ

−

Y dividiendo ambos lados por ∆t ∆t y haciendo que ∆t ∆t

−

→ 0,

 

dπ(t) = A π(t). dt

∆t + o(∆t (∆t).

(4.24)

La matriz A matriz A recibe el nombre de generador de generador de de la cadena de Markov. La soluci´ on on de la ecuación on diferencia matricial (4.24) con condición on inicial dada por π (0) = on inicial sobre los estados, es on π, distribuci´ π (t) = e At π ,

t

≥ 0,

donde la matriz exponencial viene dada por la serie eAt = I + At + que converge para todo t finito.

1 (At)2 + 2!

· · · ,

4.4 Pro cesos de nacimiento y muerte (Birth-death)

37

La solución on del anterior sistema de ecuaciones no es sencilla, pero bajo ciertos supuestos puede resolverse con facilidad. Uno de ellos es suponer que las πi son constantes en el tiempo, la derivada en (4.24) será nula y A y A π (t) = 0. 0 . El correspondiente sistema de ecuaciones es

−2µπ0 + λπ1 = 0, +µπ1 − 2λπ2 = 0, π0 + π1 + π2 = 1, con solución on 1 π = (λ + µ)2

λ2 2µλ µ2

   

.

Se observa que la probabilidad de que ambos procesadores fallen vale π0 = [λ/ λ/((λ + µ + µ)] )]2 . Se puede comprobar que en un modelo para un solo procesador y con la misma distribución on para los tiempos de fallo y reparación π on π 0 = λ/( λ/ (λ + µ), mayor que la anterior.

4.4. 4.4.

Proceso Procesoss de nacimie nacimient nto o y muerte muerte (Birt (Birth-d h-deat eath) h)

Una cadena de Markov en la que sólo olo están an permitidas per mitidas las transiciones trans iciones entre estados vecinos se denomina un proceso de nacimiento y muerte . Veamos dos ejemplos este tipo de procesos, con un n´ umero infinito de estados el primero, y con un número umero umero finito el segundo.

4.4.1. 4.4.1.

Colas Colas de longit longitud ud infinit infinita a

El diagra diagrama ma de la Figura Figura 4.3 muest muestra ra las transi transicio ciones nes entre entre estados estados vecin vecinos, os, las únicas unicas posibles. Cuando el sistema cambia de i a i + 1 decimos que se ha producido un nacimiento un nacimiento,, mientras que el paso contrario i a i 1 denota una muerte . Con la notación on habitual, πj (t) denota la probabilidad de que el proceso esté en el estado j en el instante t instante t.. Podemos Pode mos también en decir que hay una poblaci´ on j on j en el instante t instante t.. Los nacimientos y las muertes muertes están an generados por un proceso de Poisson de manera que los tiempos tiempos entre entre ellos son variables ariables exponenciale exponencialess independien independientes. tes. As´ As´ı, el tiempo entre entre nacimientos, τ nacimientos, τ B Exp( Exp (λi ), y el tiempo entre muertes, τ D Exp( Exp (µj ), indicando indican do los sub´ sub´ındices que los parámetros ametros dependen del estado donde se encuentra el sistema.

−

∼

∼

i

µ

λ

λ

λ

i+1

µ

µ

Figura 4.3: Diagrama de transición on en un proceso de nacimiento y muerte Este tipo de modelos se han utilizan en teor´ teor´ıa de colas para modelizar modelizar su evoluci´ evoluci´ on. on. Un nacimiento se corresponde con la llegada de un individuo a la cola y una muerte con su abandono

38


por haber sido ya atendido. atendido. Nos vamos a ocupar de una cola hipotética etica sin restriccio restricciones nes en cuanto cuanto a su longitud, longitud, en teor´ teor´ıa puede ser infinita. infinita. En una cola de estas estas caracter caracter´´ısticas, ısticas, el tiempo que ha de esperar en la cola el n el n-´ -´ esimo esimo llegado hasta que empieza a ser atendido puede expresarse W n = m´ ax(0, ax(0, W n−1 + τ s τ i ),

−

−

donde τ donde τ s es el tiempo que tarda en ser servido el (n ( n 1)-ésimo esimo cliente de la cola y τ i el tiempo entre la llegadas de los clientes n 1 y n. n . Siguiendo el procedimiento del ejemplo anterior podemos escribir

−

π (t + ∆t ∆t) = Bπ (t),

donde la matriz B matriz B se obtiene por un razonamiento similar, la única unica diferencia ahora es que la matriz tiene infinitas filas y columnas.

B =

  

1

− λ0∆t λ0 ∆t 0 .. .

1

−

µ1 ∆t (µ1 + λ1 )∆t )∆t λ1 ∆t 1 .. .

0 µ2 ∆t (µ2 + λ2 )∆t )∆t .. .

−

Operando, dividiendo por ∆t ∆t y haciendo que ∆t ∆t

··· ··· ··· 0

µ2 ∆t .. .

0 .. .

→ 0,

dπ(t) = A π(t). dt

  

.

(4.25)

donde la matriz generador A generador A vale

A =

−  

λ0 λ0 0 .. .

µ1 (µ1 + λ1 ) λ1 .. .

· ··· · · ··· · 0 ···

0 µ2 (µ2 + λ2 ) .. .

−

−

µ2 .. .

0 .. .

Si se alcanza equilibrio π = 0 y de A de A π = 0 obtendremos

  

.

π1 = ρ 1 π0 , = ρ 1 ρ2 π0 , π2 = ρ 2 π1 = ρ

·········

πj = ρ j πj −1 = ρ 1

donde ρ donde ρ j = λ j −1 /µj , j > 1. Hagamos rj = ρ 1 ρj , con r con r 0 = 1. Para que

···

  πi =

i 0

≥

lo que exige que la serie



i 0 ri sea

≥

i 0

≥

ρ1



· · · ρj π0,

i 0 πi =

≥

· · · ρi π0 = π0



1 debe cumplirse, ri = 1

i 0

≥

convergente. Si as´ as´ı ocurre, ocurre , π0 =

1



i 0 ri

y la cadena alcanza una distribución on de equilibrio, rj πj = r j π0 =



,

≥

i≥0 ri

, j

≥ 0.

∀

(4.26)

En caso contrario, el denominador de (4.26) es infinito y las π j = 0, 0 , j y j y no existe distribuci´ distrib ución on de equilibrio.

4.4 Pro cesos de nacimiento y muerte (Birth-death)

4.4.2 4.4.2..

39

Cola Colass con con pa par´ r´ ametros de nacimiento y muerte constantes y lonametros gitud finita

Una variaci´ variación on de d e inter´ inte rés es en la situa s ituaci´ ción on anterior es suponer que los parámetros ametros de los tiempos de nacimiento y muerte no dependen del estado, son constantes, λ i = λ, λ , µi = µ, µ , y que la cola es finita y no puede sobrepasar los N N individuos. Las matrices A y B son de dimensión on N N y N y (4.25) proporciona el siguiente sistema de ecuaciones, dπ0 /dt = /dt = λπ0 + µπ1 , dπ1 /dt = /dt = +λπ0 (λ + µ)π1 + µπ2 ,

× ×

−

−

·········

dπN /dt = /dt = +λπN −1

− µπN .

La primera y la ultima u ´ ltima ecuaciones contienen sólo olo dos términos erminos porque porqu e aquélla ella no admite salidas y ésta esta no permite permi te más as llegadas. Si existe distribución on de equilibrio, las derivadas serán an nulas y las soluciones (4.26) adquieren la forma πj = ρ j π0 , 0

≤ j ≤ N,

donde ρ donde ρ = λ/µ = λ/µ.. Como la colas deben contener necesariamente algún un n´ umero umero de clientes j, clientes j, 0 j N , N , se cumple, N 1 ρ ρj π0 = 1 = π0 = . 1 ρN +1 j =0

≤



⇒

−

≤

−

La cola se saturará con una probabilidad πN =

ρN (1 ρ) . +1 1 ρN +1

−

−

Por ejemplo, para una ratio nacimiento/muerte de 1/2 y con un tamaño no m´ aximo aximo de cola de 10 − 4 clientes, la probabilidad de saturación on es 4,8 10 .

≈

4.4.3.

×

Aplicaci´ Aplicaci´ on on a la transmisi´ transmision o ń de datos datos a trav´ trav´ es es de una red de comunicaciones

El movimiento de paquetes de datos a trav´ través es de los nodos de una red de comunicaci´ on on puede describirse mediante los modelos de colas anteriores. Los tiempos de llegada de los paquetes, los de espera en el nodo y el de procesamiento en la CPU son cantidades aleatorias cuya modelo habitual es una Exponencial. Supongamos que los nodos funcionan con un protocolo del tipo primer llegado/primer servido. servido . Vamos a considerar los casos de buffer infinito y buffer finito. Buffer infinito Si las llegadas tienen lugar según un un proceso proces o de Poisson homog´ h omogéneo eneo de d e par´ par ametro λ a´metro λ llegadas llegadas por unidad de tiempo, y el tiempo en ser despachado el paquete es una Exp( Exp (µ), la expresión on (4.26) adquiere la forma, πi = ρ i π0 , 0 i,



≤ −1 , sólo i olo si ρ < 1, unica u ńica situación on que i≥0 ρ converge y suma (1 − ρ)

con ρ = λ/µ. λ/µ. La serie por otra parte tiene sentido. Tendremos como distribución on de equilibrio πi = ρ i (1

− ρ), i ≥ 0.

40


Es interesante calcular el número umero medio de paquetes que habrá en la cola, E (N ) N ) =



iπi = (1

i 0

≥

− ρ)



iρi .

(4.27)

i 0

≥

Se trata trata de una serie aritm´ aritmético-geo etico-geom´ m´ etrica etrica cuya cuya suma se obtiene obtiene de la siguiente siguiente forma. forma. Si denotamos por S por S la la suma de la serie, S = 0ρ0 + 1ρ 1ρ1 + 2ρ 2ρ2 + 3ρ 3ρ3 + 4ρ 4ρ4 + ρS = + 0ρ1 + 1ρ 1ρ2 + 2ρ 2ρ3 + 3ρ 3ρ4 +

··· ···

(4.28) (4.29)

Restando (4.29) de (4.28), S (1 (1

− ρ) =



ρ

ρj =

1

j 1

≥

−ρ

y sustituyendo en (4.27), E (N ) =

⇒

,

=

S = =

ρ

(1

− ρ)2 ,

ρ

1

− ρ.

Buffer finito Con las mismas caracter´ caracter´ısticas del sistema anterior, pero con un buffer de capacidad finita, N , N , es interesante obtener la probabilidad de perder un perder un paquete. Precisemos que entendemos por ello. Supongamos Supongamos que en instante instante t t el buffer está lleno, un paquete está siendo procesado y otro paquete está de camino. Si el tiempo que transcurre entre el último ultimo paquete que llegó y el que está en camino, τ i , es menor que el tiempo que tarda la CPU en procesar su paquete, τ s , el paquete en camino se perderá. a. La probabilidad de este suceso, A, A , es P ( P (A) = P ( P ( buffer lleno τ i < τ s ) N ρ (1 ρ) = P ( P (τ s τ i > 0), 0) , 1 ρN +1

{

}∩{ } − × − − porque los sucesos {buffer lleno } y {τ s − τ i > 0 } son independientes. Los tiempos τ s y τ i son también en independ ind ependientes, ientes, su s u densidad den sidad conjunta vale

−

−

f τ exp( λti ), ts , ti τ s τ i (ts , ti ) = µλ exp( µts ) exp( y P ( P (τ s

− τ i > 0) > 0) = λ

∞

 0

−

exp( λti )

Sustituyendo, P ( P (A) =

∞

 ti

−



≥ 0,

µ exp( µts )dts dti =

λ ρ = . λ+µ 1+ρ

ρN +1 (1 ρ) . (1 ρN +1 )(1 + ρ)

−

−

Para ρ Para ρ = 1/2 y N = N = 10, la probabilidad de perder el paquete es 1,6 10−4 , tres veces menor que la que hab´ıamos ıamos calculado para llenar el buffer en las mismas condiciones.

≈ ×

Cap´ıtulo 5

Transformaci´ on on lineal de un proceso estacionario 5.1. 5.1.

Proceso Procesoss autor autoregr egresi esiv vos de de media mediass m´ oviles oviles (ARMA)

A partir de una sucesión on de ruido blanco, Z blanco, Z t , podemos definir un proceso mediante el filtrado lineal finito del proceso Z t , q

X t = Z = Z t +

 j =1

β j Z t−j .

(5.1)

El nuevo proceso recibe el nombre de proceso de medias m´ oviles de orden orden q, MA(q). Otro tipo de proceso puede definirse mediante la combinación on lineal de los elementos que le preceden, p

X t =

 i=1

αi X t−j + Z t ,

(5.2)

orden p, AR(p). Obsérvese que recibe el nombre de proceso autoregresivo de orden p, ervese que de esta definici´ on on se deduce que Z que Z t es el resultado de aplicar un filtro lineal finito al proceso X t . La combinaci´ on de ambos tipos de procesos da lugar a un proceso autoregresivo de medias on m´ oviles de orden (p,q), orden (p,q), ARMA(p,q), cuya expresión on es, X t =

p

q





i=1

αi X t−j + Z t +

j =1

β j Z t−j .

(5.3)

A efectos de simplificar la notación, on, podemos introducir el operador desplazamiento hacia atr´ as, as, B , que actua de la siguiente forma, BX t = X t−1 ; se aplica reiteradamente, B 2 X t = B (BX t ) = BX t−1 = X t−2 , y en general, B m X t = X t−m ; el operador nulo, B nulo, B 0 , se representa mediante 1, de forma que 1X 1 X t = X t ; las funciones matemáticas aticas de B de B se interpretan de la forma habitual, por ejemplo, (1

− B/2) B/ 2)−1 X t =

 i 0

≥

(B/2) B/ 2)i X t = 2−i X t−i .

42

Transformacion o ń lineal de un proceso estacionario

Con este operador, operador, un proceso proceso ARMA ARMA(p,q) (p,q) puede expresarse expresarse,, φ(B )X t = θ = θ((B )Z t ,

(5.4)

donde φ(B ) y θ y θ((B ) so polinomios de grado p grado p y q en en B , respectivamente, res pectivamente, que cumplen la condici´ co ndición on φ(0) = θ = θ(0) (0) = 1, impuesta para evitar confusiones derivadas de cambios de escala en el proceso. Por ejemplo, si φ si φ((B ) = 4 B y θ( θ (B ) = 2 + 3B 3B , (5.4) se escribe de la forma,

−

4X t

3 Z t−1 , − X t−1 = 2Z t + 3Z

con Z con Z t un ruido blanco de varianza σ 2 . Un expresión on equivalente equi valente ser´ıa, ıa, X t

3 = Z t + Z t−1 , − 14 X t−1 = Z 2

con Z con Z t un ruido blanco de varianza σ varianza σ 2 /4. Los polinomios en B en B del del nuevo proceso, φ proceso, φ((B ) = 1 B/4 B/ 4 y θ( θ (B ) = 1 + 3B/ 3B/2, 2, cumplen con la condici´ on. on.

−

Funciones de momento y espectro del proceso MA(q) En el proceso MA(q), X t = θ( θ (B )Z t , el polinomio θ(B ) es un polinomio de grado q , q

θ (B ) =



β j B j ,

j =0

con β con β 0 = 1. Como Z Como Z t es un ruido blanco de varianza σ varianza σ 2 , la media y varianza de X de X t valen, q

2

µ(t) = 0, 0,

σ (t) = σ



2

β j2 .

j =1

La funci´ on on de autocovarianza autocovarianza y autocorrelaci´ on, on, que ahora coinciden, valen R(k ) = E (X t xt−k )

   q

= E

j =0

q

=

q

β j Z t−j

q

j =0 i=0

   i=0

β i Z t−k−i



β j β i E (Z t−j Z t−k−i ).

(5.5)

Como Z Como Z t es una sucesión on de ruido blanco, las esperanzas que aparecen en (5.5) serán an distintas de cero sólo olo cuando t j = j = t k i, es decir, j decir, j = i + k. As´ı,

−

− −

σ2

R( k ) =

q k i=0

  

− β β , k = 0, 1, . . . , q; i+k i (5.6)

0,

k > q.

Un rasgo caracter caracter´´ıstico ıstico de los procesos MA(q) es el corte que se produce produce en la funci´ función o n de autocovarianza para valores de k de k > q . El espectro del proceso se deduce fácilmente acilmente de la expresión on que obtuvimos para el espectro del filtrado lineal de una sucesión on de ruido blanco, el denominado proceso lineal general (véase ease (5.15) de Montes (2007)). Esta expresión on era P X (ω ) = σ 2 h(ω ) 2 ,

|

|

5.1 Procesos autoregresivos de medias m´ oviles (ARMA)

|

|

43

donde h(ω ) es la función on de transferencia, que ahora vale q



h(ω) = θ( θ (e−i2πω ) =

β j e−i2πωj .

j =0

As´ı pues pu es,, P X (ω ) = σ 2 h(ω) 2

|

|    

2

q

= σ2

β j cos cos 2πωj

j =0

1+

+

β j sin sin 2πωj

2

β j cos cos 2πωj

j =1

2

q

+

        2

q

j =0

q

= σ2

       

β j sin sin 2πωj

j =1

(5.7)

Ejemplo 5.1 (Proceso MA(1)) Si X t es un proceso MA(1), θ(B ) = β 0 + β + β 1 B = 1 + β + βB B. Sustituyendo en (5.6) y en (5.7) obtendremos la funci´ on de autocorrelaci´ on y el espectro, respectivamente. 2 R(0) = σ = σ X = (1 + β 2 )σ 2 , R(1) = β = βσ σ2 , donde σ 2 es la varianza de Z t . Para el espectro, P X (ω ) = σ 2 [(1 + β cos2 β cos2πω πω))2 + (β (β sin2 sin2πω πω))2 ] = σ 2 (1 + 2β 2β cos2 cos2πω πω + + β 2 ). Funciones de momento y espectro del proceso AR(p) El proceso AR(p), (5.2), expresa X t en funci´ on on de los p los p valores anteriores del proceso más as p un ruido blanco, X t = i=1 αi X t−j + Z t . Esta forma de presentar el proceso es muy intuitiva y justifica el nombre que recibe. Para el cálculo alculo del espectro es más as conveniente ver el proceso como un ruido blanco resultado de aplicar un filtro lineal finito a X t , Z t = φ( φ (B )X t , con



p

φ(B ) = 1

 −

αi B i .

i=1

Si recordamos ahora que el espectro de Z t es constante y vale σ vale σ 2 y aplicamos la expresión on (5.13) de Montes (2007), −i2πω ) 2 P X (ω) = σ 2 . P Z Z (ω ) = φ(e Despejando P Despejando P X (ω),

   −

|

|

αl cos cos 2πωl

 

2

p

P X (ω ) = σ 2

1

l=1

+

l=1

αl sin sin 2πωl πω l

−1

   2

p

.

(5.8)

La existencia de P X (ω ) esta condicionada a que el denominador de (5.8) sea siempre distinto de 0, lo que exige imponer ciertas restricciones a los coeficientes de φ(B ). Por ejemplo, para p = p = 1 y α 1 = 1, (5.8) adquiere la forma, P X (ω ) =

2(1

−

σ2 , cos2 cos2πω) πω )

44


que vale 0 para ω = 0. El problema enlaza directamente con la WSS del proceso. En efecto, si desarrollamos [φ [φ(B )]−1 como serie de potencias de B , se puede expresar X t como un proceso lineal general X t

=

[φ(B )]−1 Z t

=

  

aj B j Z t

j 0

≥

=

j 0

≥

aj Z t−j .

(5.9)

De acuerdo con (5.18) de Montes (2007), la condición para que el proceso sea WSS es que 2 . Esta condición on puede a su vez expresarse expresarse en t´ erminos erminos de los αi a trav´ trav és es del j ≥0 aj < siguiente teorema, cuya demostración on puede consultarse en la página agina 76 de Diggle (1990).



∞

Teorema 5.1 La condici´ on necesaria y suficiente para que un proceso AR(p), φ(B )X Y Y = Z t , sea WSS es que el m´ odulo de todas la l a ra´ ra´ıces ıces del d el polinomio φ(u) sea mayor que la unidad. Las funciones de autocorrelación on y autocovarianza coinciden porque de (5.9) se deduce que µ(t) = 0. Para su obtención on recurriremos a la expresión on original de X de X t , p

X t =

 i=1

αi X t−j + Z t .

Multiplicando ambas partes de la igualdad por X t−k , tomando esperanzas y teniendo en cuenta que X que X t−k y Z t son independientes, p

R(k ) = E (X t X t−k ) = Pero E Pero E ((X t−i X t−k ) = R( R (i

 i=1

αi E (X t−i X t−k ).

− k) y por tanto, p

R(k ) =



αi R(i

i=1

− k ),

k = 1, 2, . . .

(5.10)

Si dividimos por R por R(0), (0), obtendremos una expresión on an´ aloga aloga para la funci´ on on de correlación, on, p

ρ(k ) =



αi ρ(i

i=1

− k),

k = 1, 2, . . .

(5.11)

que proporciona proporciona un sistema sistema de ecuacione ecuacioness conocido conocido como las ecuaciones las ecuaciones de Yule-Walker . Estas ecuaciones y las (5.10) permiten calcular ρ calcular ρ((k ) y R y R((k) a partir de los coeficientes α coeficientes α i , pero pueden tambi´ en en usarse en sentido inverso inverso para estimar dichos coeficientes a partir de las autocorrelaauto correlaciones o correlaciones muestrales. Ejemplo 5.2 El proceso X t es un proceso AR(2), X t = α 1 X t−1 + α2 X t−2 + Z t . Para obtener su funci´ on de autocorrelaci´ on utilizamos las ecuaciones de Yule-Walker (5.11), ρ(k ) = α 1 ρ(k

2). − 1) + α2ρ(k − 2).

(5.12)

5.1 Procesos autoregresivos de medias m´ oviles (ARMA)

45

Se trata de una ecuaci´ on en diferencias diferencias homog´ homogénea enea cuyas soluciones dependen a su vez de las soluciones de su ecuaci´ on caracte carac ter´ r´ısti ıs tica ca λ2

− α1λ − α2 = 0.0 .

(5.13)

Supondremos que hay dos soluciones reales y distintas, λ1 y λ2 , en cuyo caso la soluci´ on de (5.12) es ρ(k ) = aλ k1 + bλk2 . La condiciones iniciales determinan los valores de a y b. As´ı, ı, sabemos sabemo s que ρ(0) (0) = 1 =

⇒

b = 1

− a.

Por otra parte, si k = 1 de (5.12) se obtiene ρ(1) = α = α 1 + α2 ρ(1), (1), pero ρ(1) = aλ = aλ 1 + (1

− a)λ2.

Despejando ρ(1) e (1) e igualando obtendremos el valor de a. Supongamos Supongamos que α1 = 0,4 y α2 = 0,2. Con estos valores las dos ra´ ra´ıces ıces de (5.13) (5.13) son λ1 0,69 y λ2 0,29 29,, ρ(1) = 0, 0,5 y a 0,81 81.. Puede Puede compr comprob obarse arse que con con los valores valores asignados a α1 y α2 ra´ıces ıces de φ(u) = 0 tiene ambas m´ odulos mayores que 1, tal como exige el Teorema 5.1 para que el proceso sea WSS. La expresi´ on general de las correlaciones del proceso es

≈

≈−

≈

ρ(k) = 0, 0 ,81

× 0,69k + 0,0,19 × 0,29k .

Funciones de momento y espectro del proceso ARMA(p,q) Recordemos que el proceso se expresa de la forma X t =

p

q





i=1

αi X t−j + Z t +

j =1

β j Z t−j ,

o en forma polin´ omica omica φ(B )X t = θ( θ (B )Z t . Aplicando los resultados del filtrado lineal de un ruido blanco ((5.18) de Montes (2007)), el espectro del proceso verifica,

|φ(e−i2πω )|2P X (ω) = σ 2|θ(e−i2πω )|2. Y de aqu´ aq u´ı,ı,

P X (ω ) = σ 2 h(ω ) 2 = σ 2 θ(e−i2πω ) 2 φ(e−i2πω ) −2 ,

|

|

que bajo el supuesto de WSS se expresa,

     × −

|

q

P X (ω ) = σ 2

1+

p

αl cos cos 2πωl

l=1

  

β j cos cos 2πωj πω j

j =1

1

||

2

|

  

+

β j sin sin 2πωj

j =1

2

p

+

αl sin sin 2πωl πω l

l=1

       2

q

2

−1 .

(5.14)

46


Las condiciones para que el proceso sea WSS son las mismas que las exigidas para el proceso AR(p). Por lo que respecta a la función on de autocorrelación, on, su obtenci´ obtenci´ on on es m´ as as sencilla si expresamos el proceso de la forma, X t = [φ(B )]−1 θ (B )Z t =

     aj B j

Z t =

j 0

j 0

≥

≥

aj Z t−j ,

donde los coeficientes aj dependen del desarrollo en serie de [φ [φ(B )]−1 . Ejemplo 5.3 El proceso X t es el resultado de aplicar un filtro lineal a un ruido blanco Gaussiano, Z t , de varianza σ 2 . En concreto, φ(B )X t = θ = θ((B )Z t , un proceso ARMA(2,2) con φ(B ) = 1

− 1,2B + 0,0,4B 2,

y

θ (B ) = 1

− 0,8B + 0,0 ,1B2.

El proceso proceso es estacionario estacio nario porque porque las ra´ ra´ıces ıces de d e φ(u) = 0 son u1 =

3 1 + i, 2 2

u1 =

3 2

− 12 i,

cuyo m´ odulo es mayor que la unidad, cumpliéndose endose as´ as´ı el Teorema Teorema 5.1. 5. 1.

4

X e d a i c n e t o p e d l a r t c e p s e d a d i s n e d

3

2

1

0

0.0

0.1

0.2

0.3

0.4

0 .5

frecuencia

Figura 5.1: Densidad espectral de potencia del proceso ARMA(2,2) con σ 2 = 1 El cuadrado del m´ odulo de la funci´ on de transferencia vale,

−i2πω 2 44cos2πω − 0,2cos4πω 2cos4πω − 1,44cos2πω . |h(ω)|2 = ||φθ((ee−i2πω ))||2 = 21,,65 60 − 3,36cos2πω 36cos2πω − 0,8cos4πω 8cos4πω

5.2 Vibraciones aleatorias

47

La PSD valdr´ a por tanto, P X (ω ) = σ 2

1,65 2,60

− 1,44cos2πω 44cos2πω − 0,2cos4πω 2cos4πω . 36cos2πω − 0,8cos4πω 8cos4πω − 3,36cos2πω

(5.15)

La gr´ afica de este proceso, para σ2 = 1, se muestra en la Figura 5.1

5.2. 5.2.

Vibrac Vibracion iones es aleato aleatoria riass

Durante los aterrizajes y despegues de los reactores se producen vibraciones de tal nivel, que cualquier pasajero puede percibirlas. Estas vibraciones son debidas a la interacción de las corrientes de aire con la estructura metálica alica del aparato, que producen cambios de presión on que se traducen traducen en las vibracione vibracioness mencionada mencionadas, s, conocidas conocidas como como turbule turbulencias ncias de la capa capa l´ımite (TBL del inglés es Turbulence Boundary Layer). Se trata de un fenómeno omeno que puede ser descrito mediante un proceso estocástico astico y cuya modelización on es de gran inter´ interés es para poder simularlo en el laboratorio. Los fabricantes de componentes para la aviación on han de tener en cuenta el fenómeno omeno y sus posibles efectos negativos sobre sus productos. Para ello los someten a un test de vibraciones aleatorias que reproduzcan, lo más as fielmente posibles, las condiciones reales de vuelo. Con este fin se monta el componente, por ejemplo una antena exterior, sobre una mesa a la que se hace vibrar para que transmita sus vibraciones. El problema es cómo omo conseguir conseguir simular la realidad. realidad. Veamos una posible soluci´ on on que utiliza util iza un proceso pro ceso estoc´ esto cástico astico generado gen erado mediante medi ante un ordenador. orden ador. La PSD del proceso estocástico astico que describe estas turbulencias ha sido determinada mediante estudios de laboratorio para el caso de los transportadores espaciales que utiliza la NASA. Su expresi exp resi´ón on es P (500) P (500),, 0 ω 500 Hz; P Xt (ω ) =

 

≤ ≤

9 1014 r2 500 < , 500 < ω ω + 11364

×

(5.16)

≤ 50000 Hz,

donde r donde r 2 es una constante de referencia cuyo valor es 20 µPa, siendo µ siendo µPa Pa una unidad de presión on − 6 2 igual a 10 nw/m . La L a gr´ g ráfica afic a de d e P ( P (ω ) se muestra a la izquierda de la Figura 5.2 para un valor normalizado de r de r = 1. Se observa su semejanza con un filtro de pasa bajo. La se˜ nal que hemos de enviar a la tabla para que se agite y haga vibrar el componente nal adosado como deseamos, se ha de generar en un ordenador y mediante un convertidor digital anal´ ogico ogico se convertirá en una se˜ nal continua. Hemos de encontrar un proceso WSS discreto nal cuya PSD se ajuste a la PSD teórica orica de la Figura 5.2. Recordemos, para ello, cuanto se dice en las p´ aginas 121 y 122 de Montes (2007) respecto a la relación entre la RXt (τ ) aginas τ ) de un proceso continuo en el tiempo y la RXn (k) del proceso obtenido mediante muestro del anterior. En concreto, R concreto, R Xn (k ) = R Xt (kT ), kT ), donde T donde T es la frecuencia de muestreo. A partir de (5.16) obtendremos la PSD muestreada tomando T = 1/(2ω (2ω0 ) = 1/100000 puesto que la m´ axima axima frecuencia era ω0 = 50000 Hz. La gráfica afica correspondiente a P Xn (ω) es la de la derecha en la Figura 5.2, cuyos valores están an multiplicados por 1/2 porque hemos representado la gama completa de frecuencias, ω 0,5, y tambi´ ta mbién en por un factor f actor 1/T = /T = 100000 que se introducer al muestrear. Un modelo sencillo y con una PSD similar a la de la Figura 5.2 (izquierda) es el proceso AR(1), X t = αX t−1 + Z t , (5.17)

| |≤

con α > 0 (véase ease el Ejemplo 5.2 de Montes (2007)). Determinaremos α y σ 2 del ruido blanco, Z t , para que sean compatibles con la PSD que conocemos, y una vez conocidos podemos generar

48


0 1

5 1

0 1 x 8

0 1 x 8

7

7

6

6

5

5 )

)

w

(

t

X

w

4

(

n

X

P

4

P 3

3

2

2

1

1

0

0

1

2

3

4

−0.2

4 5x10

frecuencia

0

0.2

0 .4

frecuencia

Figura 5.2: Densidad espectral de potencia de la vibración aleatoria (TBL) teórica orica (izquierda) y muestreada (derecha) una realización on discreta del proceso a partir de la ecuación en diferencias X n = αX n−1 + Z n .

(5.18)

Elevando al cuadrado ambos miembros de (5.18) y tomando esperanzas se obtiene la relación, σ 2 = R Xn (0)(1

− α2),

y si multiplicamos ahora ambos miembros por X n y tomamos esperanzas obtendremos, a =

RXn (1) . RXt (0)

Los valores de R de R Xn (0) y R y R Xn (1) pueden calcularse a partir de las integrales, +1/2

RXn (0) =

 

−1/2

P Xn (ω )dω

+1/2

RXn (1) =

−1/2

P Xn (ω )cos2πωdω, )cos2πωdω,

que pueden p ueden evaluarse de d e numéricamente. ericamente. Una aproximaci´ a proximación on mediante sumas de rectángulos angulos da 15 14 RXn (0) = 1, 1,5169 10 y R Xn (1) = 4, 4,8483 10 , lo que conduce a

×

×

α = 0,3196

y

σ 2 = 1, 1 ,362

× 1015.

En la Figura 5.3 se comprueba que el modelo AR(1) tiene una PSD que se ajusta bien a la original, excepto en los valores alrededor de 0. Podemos utilizar para generar una señal continua que simulará muy aproximadamente la vibración on real sobre la mesa de pruebas.

5.2 Vibraciones aleatorias

49

5 1

0 1 x 4

3

D S P

2

1

−0. 4

−0.2

0

0 .2

0.4

frecuencia

Figura 5.3: Densidad espectral de potencia del proceso real (- - -) y del AR(1) ajustado (-----)

50


Bibliograf´ıa Diggle, P. (1990). Time Series. A Biostatistical Introduction . Oxford University Press, N.Y. Montes Montes,, F. (2007) (2007).. Procesos Procesos Estoc´ asticos para para Ingenieros: Ingenieros: Teor´ eor´ıa y Aplicaciones Aplicaciones . d’Estad´ d’Es tad´ıstica ısti ca i I. O. Universit Unive rsitat at de d e València. enci a.

Dpt.

Procesos Estocasticos Para Ingenieros

Recommend Documents