logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Computer Engineering - Statistica e Calcolo delle Probabilià

Raccolta temi d'esame A.A. 18-19

Other

Politecnico di Milano Te m i d ’ e s a m e d i 0 9 9 3 1 9 - P r o b a b i l i t `a e s t a t i s t i c a p e r l ’ i n f o r m a t i c a dell’AA 2018/19 per ING-INF (laurea) Docenti: Alberto Barchielli, Giuseppina Guatteri, Lucia Ladelli 18 febbraio 2020 1 2 IprovainitinerediStatisticaeProbabilit`aperl’Informatica A. Barchielli, G. Guatteri e L. Ladelli 13.04.2019 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sar`a perseguito. 1 Domande di teoria D1 Enunciare e dimostrare la Formula delle probabilit`a totali. Soluzione Dispense [ELP]: Proposizione 1.5.9, Esercizio 1.5.12. D2 Fornire la definizione di varianza di una variabile aleatoria X. Enunciarne le propriet`a e dimostrare che Var( ↵X +)= ↵2Var( X), per ogni ↵, 2R. Siano X1ed X2due variabili aleatorie definite su (⌦ ,F,P ), con varianze 21e22rispettivamente e coeciente di correlazione ⇢. Determinare la Cov( X1,X 2) in funzione di 21,22e⇢. Soluzione Dispense [ELP]: Definizione 3.2.2, Proposizione 3.2.5, Corollario 4.7.6. Si risponde all’ultima domanda applicando la Definizione 4.8.1. D 3 (Domanda facoltativa) Sia (⌦ ,F,P ) uno spazio di probabilit`a ed F 2F un evento tale che P(F)> 0. Fornire la definizione di probabilit`a condizionata e dimostrare che la funzione PF, definita da PF(E):= P(E|F),8E 2F , `e una probabilit`a. Soluzione Dispense [ELP]: Definizione 1.5.2, Esercizio 1.5.6. 1 2 Esercizi Esercizio 1 Il numero di bit, trasmessi in un’ora dal canale A e che vengono ricevuti errati, sono una variabile aleatoria X ⇠ Poiss(3), mentre il numero di bit, trasmessi in un’ora dal canale B e ricevuti errati, sono una variabile aleatoria Y ⇠ Poiss(2). I due canali lavorano indipendentemente l’uno dall’altro. 1. Sia Z il numero di bit trasmessi in un’ora da entrambi i canali e ricevuti errati. Quale `e la distribuzione di Z? 2. Se in tutto i bit ricevuti errati in un’ora sono 3, qual `e la probabilit`a che siano stati trasmessi tutti dal canale A? 3. Calcolare P(X = Z). 4. Calcolare Cov ( X, Z )eCov( Y, Z ). Le tre variabili aleatorie X,Y eZ sono indipendenti? Soluzione 1. Sappiamo che la somma di v.a. indipendenti con distribuzione di Poisson ha distribuzione di Poisson con parametro la somma dei parametri. Dunque Z = X +Y ⇠ Poiss(5). 2. Si chiede la probabilit`a condizionata di {X =3 }dato {Z =3 }: P[X =3 |Z = 3] = P[X =3 ,Z = 3] P[Z = 3] = P[X =3 ,Y = 0] P[Z = 3] = P[X = 3] P[Y = 0] P[Z = 3] =e 333 3! ⇥e2⇥e55! 53= 27 125 =0 .216 . 3. P[X = Z]= P[X = X +Y]= P[Y = 0] = e 2' 0.135335 4. Cov( X, Z )=Cov( X, X + Y)=Cov( X, X )+Cov( X, Y ) = Var( X) = 3; dunque X eZ non sono indipendenti. Analogamente si ha Cov( Y, Z ) = Var( Y) = 2 e anche Y eZ non sono indipendenti. E dunque anche X, Y, Z non sono una terna di v.a. (mutuamenti) indipendenti in quanto dalla definizione di indipendenza di v.a., tre v.a. X,Y eZ sono indipendenti se P(X 2A, Y 2B, Z 2C)= P(X 2A)P(Y 2B)P(Z 2C) per ogni A,B eC equindiper B 2 R si ottiene che anche X eZ dovrebbero essere indipendenti e quindi la loro covarianza dovrebbe essere 0. 2 Esercizio 2 Un circuito `e costituito da tre componenti ciposti in serie, le corrispondenti durate sono tre variabili aleatorie Tiindipendenti tra di loro. Ogni variabile Ti`e distribuita secondo una legge esponenziale; misuriamo le durate in ore (h), si ha che E( T1) = 2h , E( T2) = 3h , E( T3) = 3h . 1. Per i=1 ,2,3, calcolare la probabilit`a piche ciascun componente cifunzioni per almeno un’ora. 2. Calcolare la probabilit`a che il circuito funzioni per almeno un’ora. 3. Calcolare la densit`a del tempo di vita T del circuito e dedurne l’intensit`a di guasto. 4. Se dopo una modifica al circuito il suo tempo di vita `e T1/2, quanto vale la probabilit`a che il circuito modificato duri per almeno due ore, sapendo che ha gi`a funzionato per un’ora? Soluzione 1. Per il componente c1, abbiamo che T1⇠ Exp (1= 12), e dunque p1= P(c1funziona almeno un’ora) = P(T1> 1) = 1 FT1(1) = e 1/2' 0.606531; per c2abbiamo che T2⇠ Exp (2= 13), e dunque p2= P(c2funziona almeno un’ora) = P(T2> 1) = 1 FT2(1) = e 1/3' 0.716531; poich´e infine T2eT3sono identicamente distribuiti, p3= p2. 2. Poich´e i tre componenti sono in serie, la probabilit`a che il circuito funzioni per almeno un’ora `e P(T1> 1,T 2> 1,T 3> 1) = 3Y i=1 P(Ti> 1) = e (1/2+1 /3+1 /3) =e 7/6' 0.311403 . 3. Dato che T=min {T1,T 2,T 3}, procedendo come sopra si ha per t> 0 FT(t)=1 3Y i=1 P(Ti>t )=1 e76t,f T(t)= 7 6e76t,T ⇠ Exp (7/6), mentre FT(t)=0e fT(t)=0per t 0. Per le esponenziali l’intensit`a di guasto `e costante e coincide con il parametro dell’esponenziale; dunque (t)= =7 /6, per t> 0. 4. Dato che la distribuzione di T `e esponenziale, per cui vale la mancanza di memoria, si ha P[T1/2> 2|T1/2> 1] = P[T> 4|T> 1] = P[T> 3] = e 3⇥7/6=e 3.5' 0.030197 . 3 Esercizio 3 Una macchina produce cuscinetti a sfere; a causa di impurit`a nel metallo la qualit`a per`o non si mantiene costante: il 60% della produzione `e costituito da cuscinetti di prima qualit`a, il 39.8% di seconda qualit`a ed il restante 0.2% da cuscinetti di scarto (che non vengono riconosciuti, e dunque finiscono nel serbatoio comune con tutti gli altri). I cuscinetti sono impacchettati in confezioni da otto. Tali confezioni sono poi raggruppate in scatole di cartone: ogni scatola di cartone contiene centocinquanta confezioni (possiamo pensare che la qualit`a di ogni cuscinetto sia indipendente da quella degli altri). 1. Calcolare la probabilit`a p1che in una singola confezione vi siano almeno 6 cuscinetti di prima qualit`a. 2. Calcolare (in modo esatto o approssimato, a scelta) la probabilit`a p2che in una scatola di cartone vi siano almeno due cuscinetti di scarto. 3. Calcolare (in modo approssimato) la probabilit`a p3che in una scatola di cartone siano contenuti almeno 700 cuscinetti di prima qualit`a. Soluzione 1. Detta X la variabile aleatoria “numero di cuscinetti di prima qualit`a presenti in una confe- zione”, abbiamo che X ⇠ Bi( n=8 ,p =0 .6), e dunque p1= P(X 6) = ✓8 6 ◆ ⇥0.66⇥0.42+ ✓8 7 ◆ ⇥0.67⇥0.41+ ✓8 8 ◆ ⇥0.68 =(0 .36) 3⇥28 ⇥0.16 + 8 ⇥0.24 + 0 .36=0 .31539456 ' 0.3154 2. Detta Y la variabile aleatoria “numero di cuscinetti di scarto presenti in una scatola”, ab- biamo che Y ⇠ Bi( n = 1200 ,p =0 .002), poich´e vale l’approssimazione Bi( n = 1200 ,p = 0.002) ⇡ Poiss( =2 .4), possiamo calcolare p2in modo approssimato: p2= P(Y 2) = 1 P(Y  1) ' 1 h e2.4+2 .4e2.4i =1 3.4e2.4' 0.6916; se alternativamente vogliamo usare la distribuzione esatta, otteniamo p2= P(Y 2) = 1 P(Y  1) = 1 ✓ 1200 0 ◆ 0.998 1200 + ✓1200 1 ◆ 0.002 10.998 1199 =1 0.998 1199 ⇥0.998 + 1200 ⇥0.002 =1 0.998 1199 ⇥3.398 ' 0.6919 . 3. Detta W la variabile aleatoria “numero di cuscinetti di prima qualit`a contenuti in una scatola di cartone”, abbiamo che W ⇠ Bi( n= 1200 ,p =0 .6); poich´e n> 30, n(1 p)p> 10, per il Teorema centrale del limite possiamo approssimare Bi( n = 1200 ,p =0 .6) ⇡N (µ = 720 , 2= 288), calcoliamo p3in modo approssimato (e usiamo la correzione del continuo con interpolazione): p3= P(W 700) = P ✓W 720 p288 700 0.5720 p288 ◆ = P ✓W 720 p288 20.5 12 ⇥p2 ◆ ' P(Z 1.208) =(1 .208) ' 0.8865 , senza la correzione del continuo avremmo ottenuto p3=1 P(W  699) = P ✓W 720 p288 21 12 ⇥p2 ◆ ' P(Z 1.237) =(1 .237) ' 0.8920; mentre il valore “esatto”, calcolato con R, `e p3' 0.8863. 4 II prova in itinere di Statistica e Probabilit`a per l’Informatica A. Barchielli, G. Guatteri e L. Ladelli 22.06.2019 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sar`a perseguito. Giustificare adeguatamente tutte le risposte. 1 Domande di teoria D1 1. Dare la definizione di campione aleatorio estratto da una popolazione con densit`a f✓(discreta o assolutamente continua) nota a meno di un parametro reale ✓. 2. Fornire l’espressione della densit`a del campione a partire dalla densit`a della popolazione. 3. Dare la definizione di stimatore puntuale di ✓e di stima corrispondente. Dire quando lo stimatore `e non distorto per ✓. Soluzione 1. Un campione aleatorio di dimensione n estratto da una popolazione con densit`a f✓`e u n vettore aleatorio n-dimensionale ( X1,...,X n) con componenti i.i.d., ciascuna con densit`a f✓. 2. Essendo le componeneti Xii.i.d., la densit`a congiunta `e il prodotto delle densit`a marginali: Qni=1 f✓(xi). 3. Uno stimatore puntuale di ✓`e u n a statistica usata per approssimare la quantit`a incognita, cio`e una funzione nota del campione: Tn= dn(X1,...,X n). Il valore dn(x1,...,x n) assunto dallo stimatore nella realizzazione del campione (i valori osservati x1,...,x n)`ela stima di ✓. Lo stimatore `e non distorto per ✓quando ne esiste la media e si ha E ✓(Tn)= ✓,8✓. D2 Sia X1,...,X 16 un campione aleatorio di dimensione n= 16 da una popolazione gaussiana di media µe varianza 2incognite. Considerate il problema di verifica d’ipotesi: H0:2= 20 contro H1:26= 20 (20> 0 numero assegnato) eiltestcherifiuta H0se il valore osservato della varianza campionaria soddisfa s2n 2.0287 ⇥20 oppure s2n  0.3487 ⇥20 1. Determinare il livello di significativit`a del test. 2. Determinare il valore della curva OC in 2=1 .22 ⇥20. (Se sulle tavole non c’`e il valore che cercate, approssimatelo con quello pi`u vicino ). Soluzione 1 1. La regola riportata nel testo della domanda corrisponde alla regione critica C = ⇢(n1)s2n 20 15 ⇥2.0287 [ ⇢(n1)s2n 20  15 ⇥0.3487 . Ricordiamo che sotto H0si ha (n1)S2n 20 ⇠ 2(15); dalle tabelle di tale distribuzione otteniamo 15 ⇥2.0287 = 30 .4305 ' 20.01(15) 15 ⇥0.3487 = 5 .2305 ' 20.99(15) Confrontando con il formulario (test bilatero sulla varianza, popolazione normale) vediamo che si deve avere ↵/ 2=0 .01 e 1 ↵/ 2=0 .99, cio`e il livello `e ↵= 2%. 2. Posto 21=1 .22 ⇥20, la domanda corrisponde a chiedere il valore di P(µ, 21)(S2n2Cc); si ha dunque P(µ, 21)(S2n2Cc)= P(µ, 21) 0.3487 ⇥20µ 0 Si ha n= 5 e varianza nota 20=0 .8; la regione critica `e C = ⇢ (t1,...,t 5) t1+··· +t5 5 t0 = ( (t1,...,t 5) t1+···+t5 5 µ0 p20/5 t012 0.4 ) Per avere significativit`a ↵=0 .05 si deve prendere t0120.4 = z0.05 ' 1.645, cio`e t0' 12 + 0 .4⇥ 1.645 = 12 .6580 min. 2. La funzione di potenza `e ⇡(µ)= PµT5 t0= Pµ T5µ p20/5 t0µ 0.4 ! =1 (31 .645 µ/ 0.4). Se avete usato il valore t0= 12 .7, allora ⇡(µ)= Pµ(T5>t 0)=1 ✓12.7µ 0.4 ◆ 3. Si chiede la probabilit`a di errore di II tipo (cio`e 1 - la funzione di potenza) nel punto µ= 13: 1⇡(13) = Pµ=13 (T5 0. 1. Determinare, in funzione di ✓,laf.d.r.di Yi=ln(1+ Xi). 2. Trovare lo stimatore di massima verosimiglianza di ✓e dedurre lo stimatore di massima verosimiglianza Tndi 1 /✓. 3. Determinare, calcolando la f.g.m., la distribuzione di 2 ✓nT n. Cosa si deduce? 4. Costruire un intervallo di confidenza illimitato inferiormente per ✓al 95% e dedurne la stima intervallare corrispondente all’osservazione campionaria delle Xi 1.41 1 .68 2 .30 1 .71 1 .95 1 .88 Soluzione 1. La v.a Yi= g(Xi)=ln(1+ Xi) ha valori in (0 ,+1), e la funzione g(x)=ln(1+ x) `e di↵erenziabile con continuit`a, con derivata diversa da zero su (0 ,+1). Quindi posso applicare la formula fYi,✓(y)= f✓(g1(y))|(g1)0(y)|1g1(0,+1)(y) = ✓(1 + e y1)(✓+1) ey1g1(0,+1)(y) = ✓e✓y1(0,+1)(y) Quindi le v.a. sono i.i.d., esponenziali di parametro ✓. 2. Applicando il metodo della massima verosimiglianza al campione Y1,...,Y nabbiamo visto a lezione che l’MLE di ✓`e 1 /Yne per il Principio di Invarianza degli stimatori di massima verosimiglianza, l’MLE di k(✓)=1 /✓ `ek(1/Yn)= Yn. In conclusione Tn= nX i=1 Yi/n = nX i=1 ln(1 + Xi)/n . 3. Calcoliamo la f.g.m. di 2 ✓nT n. Otteniamo m2✓nT n(t)= m2✓Pni=1 Yi(t)=E ✓(et2✓Pni=1 Yi) = mPni=1 Yi(2t✓)= ✓ ✓ ✓2t✓ ◆n = ✓ 1 12t ◆2n/2 da cui deduciamo che 2 ✓nT nha densit`a 2(2n). Nella penultima uguaglianza abbiamo usato il fatto che somma di v.a. i.i.d. esponenziali di parametro ✓ha legge( n,✓ ). Quindi 2 ✓nT n `e una quantit`a pivotale. 4. Dal risultato del punto precedente otteniamo che 0.95 = P✓2✓nT n 20.05,2n = P✓ ✓ 20.05,2n 2nT n ! = P✓ ✓ 20.05,2n 2P ni=1 ln(1 + Xi) ! , per ogni ✓> 0. Quindi 0,20.05,2n 2nT n ! = 0, 20.05,2n 2P ni=1 ln(1 + Xi) ! `e un I.C. al 95% per ✓. Dalle tabelle abbiamo 20.05,12 ' 21.026 e con i dati a disposizione si trova: ntn=ln(1+1 .41)+ln(1+1 .68)+ln(1+2 .30)+ln(1+1 .71)+ln(1+1 .95)+ln(1+1 .88) ' 6.1959; dunque (0 ,1.6968) `e la corrispondente stima. 4 Esercizio 3 Sia ✓Z1 Z2 ◆ un vettore gaussiano standard. Si consideri il vettore 0 @Y1 Y2 Y3 1 A = 0 @ Z1Z2 2 Z2Z1 2 Z1+Z2 2 1 A. 1. Determinare la distribuzione del vettore, giustificando adeguatamente la risposta e specifi- candone il vettore delle medie e la matrice di covarianza. 2. Stabilire se le due variabili aleatorie Y1eY3sono indipendenti. 3. Riconoscere la legge della variabile aleatoria Y21+Y22. {Notate che Y21+Y22=2 Y21}. 4. (Facoltativo.) Calcolare P Y3 pY21+Y22 > 1p2 ! . Soluzione 1. Il vettore aleatorio ~Y `e ottenuto dal vettore gaussiano ~Z per trasformazione lineare: ~Y = A~Z, A = 1 2 0 @ 1 1 11 11 1 A . Dunque anche la distribuzione di ~Y `e gaussiana multivariata, con vettore delle medie nullo e matrice delle covarianze C~Y= AC ~ZAT= AA T= 1 4 0 @ 1 1 11 11 1 A ✓ 1 11 111 ◆ = 1 2 0 @ 1 10 110 001 1 A . 2. Le variabili considerate sono congiuntamente normali (in quanto sottovettore di un vettore gaussiano) e la loro covarianza `e nulla, dunque per le propriet`a dei vettori gaussiani sono indipendenti. 3. Abbiamo Y2= Y1ep2Y1⇠N (0; 1). Dunque 2 Y21=( p2Y1)2⇠ 2(1). 4. Essendo p2Y3normale standard indipendente da 2 Y21= Y21+Y22⇠ 2(1), per la definizione delle tdi Student si ha p2Y3 pY21+Y22 =: T1⇠ t(1) ) P Y3 pY21+Y22 > 1p2 ! = P(T1> 1) ' 0.25. 5 IAppellodiStatisticaeProbabilit`aperl’Informatica A. Barchielli, G. Guatteri e L. Ladelli 8.7.2019 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sar`a perseguito. Giustificare adeguatamente tutte le risposte. 1 Domande di teoria D1 a) Enunciare il Teorema centrale del limite. b) Usare il precedente teorema per ottenere un valore approssimato di P(Y  39.7) con Y ⇠ (90 ,2). Soluzione a) Dispense [ELP] pp. 108-109. b) Sappiamo che la somma di nv.a. i.i.d. con distribuzione E() ha una distribuzione( n, ). Dunque possiamo considerare che sia Y = P 90i=1 Xi,dovele Xisono tra loro indipendenti e Xi⇠E (2), che implica E[ Xi]=1 /2 e Var[ Xi]=1 /4. Per il TCL otteniamo che Z = Y90/2 p90/4 `e approssimativamente normale standard. Abbiamo dunque P(Z  39.7) = P ✓ Z  39.745 p22.5 ◆ ' 1 ✓ 5.3 p22.5 ◆ ' 1(1 .117) ' 10.8680 = 0 .1320 . D2 Siano X eY due variabili aleatorie definite sul medesimo spazio di probabilit`a. a) Dare, la definizione di covarianza e coeciente di correlazione di X eY, specificando delle condizioni anch´e questi indici esistano finiti. b) Fornire le propriet`a pi`u significative della covarianza. Soluzione a) L’esistenza delle due varianze `e condizione suente per l’esistenza della covarianza e, se queste due varianze non sono nulle, esiste anche il coeciente di correlazione lineare. Posto µX =E[ X] eµY=E[ Y], le definizioni richieste sono Cov[ X, Y ]=E[( X µX)(Y µY)],⇢ X,Y = Cov[ X, Y ] pVar( X) Var( Y). b) Dispense [ELP] Proposizione 4.8.2. D3 Descrivere il procedimento per la costruzione di un intervallo di confidenza bilatero di livello di confidenza al 95% per la media di una popolazione gaussiana, quando sia la media sia la varianza sono incognite. Soluzione Lucidi Prof. Ladelli, parte 3 di statistica, pp. 19-22. 1 2 Esercizi Esercizio 1 Una ditta vende un lotto di 200 chip che ne contiene 5 difettosi. Il compratore, per controllare la qualit`a del suo acquisto, controlla 5 chip estratti a caso dal lotto e decide di rispedirlo indietro se anche un solo chip (tra i 5 controllati) risulta difettoso. Calcolare: 1. La probabilit`a che il lotto venga rispedito indietro. 2. La probabilit`a che il lotto venga rispedito indietro, sapendo che il primo chip controllato `e risultato integro. I lotti acquistati ora sono 100. Supponendo che in ciascuno di essi siano presenti 5 chip difettosi e che ciascun lotto venga controllato con la procedura sopra descritta, 3. calcolare un valore approssimato, della probabilit`a che al massimo 14 lotti vengano rispediti indietro. Soluzione 1. Sia X il numero di chip controllati che sono risultati difettosi, allora X ⇠ Iperg (200 ,5,5) (ipergeometrica). Allora, poniamo A = “il lotto viene rispedito indietro” P(A)= P({X =0 }c)=1 P(X = 0) = 1 1955 50 2005 =1 195 200 ⇥ 194 199 ⇥ 193 198 ⇥ 192 197 ⇥ 191 196 ' 10.879949 = 0 .120051 . 2. Poniamo B = “Il primo chip controllato risulta integro”, allora dobbiamo calcolare P(A|B). Si ha P(B)= 195200 e{X =0 }⇢ B,quindi: P(A|B)= P({X =0 }c|B)=1 P(X =0 |B)=1 P(X = 0) P(B) =1 200 195 1955 50 2005 =1 40 39 [1P(A)]' 10.902512 = 0 .097488 . 3. Poniamo Yi=1sel’ i-esimo lotto `e stato scartato e Yi= 0 altrimenti. Allora ( Yi)isono v.a. i.i.d. tutte con legge di Bernoulli di parametro p = P(A)' 0.120051. Poniamo Sn= Y1+··· +Yn; dobbiamo calcolare: P(Sn 14) ' ✓ 14 + 0 .512.0051 10p0.120051 ⇥0.879949 ◆ ' (0 .768) ' 0.7788 . 2 Esercizio 2 L’intensit`a di guasto del tempo di vita T (espresso in anni) di una particolare resistenza elettrica `e data dalla funzione, definita a tratti, (t)= (14 0 2 1. Determinare l’espressione della f.d.r. di T. Attenzione: anche la f.d.r. sar`a definita a tratti! 2. Calcolare la probabilit`a che una resistenza elettrica di quel tipo duri pi`u di 3 anni, sapendo che dopo 1 anno e mezzo `e ancora funzionante. 3. Se si mettono in serie tre resistenze del tipo di quelle descritte sopra, qual `e la probabilit`a che dopo 6 mesi il sistemi funzioni ancora? Soluzione 1. Per il significato dell’intensit`a di guasto sappiamo che, per t> 0, si ha FT(t)=1 exp n Rt0(x)dx o . Usando l’espressione esplicita, otteniamo Zt 0(x)dx= (t4 0 2 FT(t)= 8>>< >>: 0 t 0 1exp t4 0 2 2. Si tratta di calcolare P(T> 3|T> 1.5) = P(T> 3) P(T> 1.5) =exp ⇢1.5 4 1 3 9 16 =exp ⇢ 25 48 =exp { 0.5208(3) }' 0.594025 ' 0.5940 . 3. Indicato con T1,T 2,T 3tre variabili aleatorie i.i.d. con f.d.r. come al punto 1, che rap- presentano i tempi di vita delle resistenze poste in serie a formare il sistema, si tratta di calcolare P(min {T1,T 2,T 3}> 0.5) = P(T1> 0.5,T 2> 0.5,T 3> 0.5) =(1 FT(0.5)) 3=exp ⇢ 3⇥0.5 4 =exp { 0.375 }' 0.687289 ' 0.6873 . 3 Esercizio 3 Da un’indagine svolta per sapere se gli adulti di sesso maschile fanno esercizio fisico, sono emersi i seguenti risultati, classificati secondo l’et`a ed il numero di volte che ogni settimana si fa esercizio: meno di 50 anni 50-60 anni pi`u di 60 anni meno di 3 volte alla settimana 21 25 12 3 o pi`u volte alla settimana 13 12 17 1. Al 10% di significativit`a, si pu`o ritenere che la frequenza con cui si fa esercizio dipenda dall’et`a? 2. Calcolare il p-value di questo test. 3. Da un’indagine precedente si sa che la percentuale di maschi adulti (di tutte le et`a) che pratica sport almeno tre volte alla settimana `e il 40% del totale, al livello di significativit`a del 5% si pu`o a↵ermare che il campione rispecchia la popolazione? Introdurre un opportuno test, specificando le ipotesi statistiche e la statistica test utilizzata. Soluzione 1. Dobbiamo fare un test 2di indipendenza; l’ipotesi nulla `e che le due classificazioni siano indipendenti. Completiamo la tabella con le somme meno di 50 anni 50-60 anni pi`u di 60 anni meno di 3 volte alla settimana 21 25 12 58 3 o pi`u volte alla settimana 13 12 17 42 34 37 29 100 Il valore della statistica test `e u= 2X i=1 3X j=1 (nijnimj/n )2 nimj/n = n 0 @ 2X i=1 3X j=1 n2ij nimj1 1 A = 100 1 58 ✓212 34 + 252 37 + 122 29 ◆ + 1 42 ✓132 34 + 122 37 + 172 29 ◆ 1 ' 4.8768; poich´e 20.1;2 =4 .6052, rifiutiamo l’ipotesi di indipendenza al 10%. 2. Poich´e 22⇠ Exp (12), il p-value `e exp 12⇥4.8768 ' 0.0873, dunque il p-value `e dell’8.7% circa. 3. Raggruppando le osservazioni per frequenza abbiamo ottenuto meno di 3 volte alla settimana 58 3 o pi`u volte alla settimana 42 Si esegue uno Z-test approssimato bilaterale sulla proporzione per le ipotesi H0:p= p0=0 .40 contro H1:p6= p0=0 .40. Introduciamo le v.a. Xiche valgono 1 se l’ i-esimo individuo svolge attivit`a fisica almeno tre volte alla settimana e 0 altrimenti. Si tratta di 100 v.a. i.i.d. Bernoulliane tutte di parametro pincognito. La statistica test da utilizzare `e (Xn0.40) pn p0.40⇤0.60 . Si ha n= 100 ed ↵/ 2=0 .025, pertanto la regione critica `e C = ( (x1,...,x 100 ) |X100 0.40|p100 p0.40 ⇤0.60 z0.025 =1 .96 ) Nel nostro caso ¯ x100 =0 .42, da cui (x100 0.40) p100 p0.40⇤0.60 = 0.2 p0.24 = 1p6' 0.4082 < 1.96, quindi non si pu`o rifiutare l’ ipotesi nulla H0. 4 Esercizio 4 La quantit`a di liquido X immessa da una macchina confezionatrice nei flaconi `e distribuita secondo una legge gaussiana. Il valore atteso µdi X pu`o essere settato, per riempire flaconi di capienza di↵erente; d’altra parte la precisione con cui la macchina opera `e una sua specifica tecnica: sul manuale d’uso `e riportato che 0=0 .40 cl. 1. Sono state smarrite le informazioni relative all’ultimo settaggio, si misura allora il contenuto di n= 4 flaconi, ottenendo il seguente campione (in cl): 200 .05, 201 .56, 201 .10, 201 .25; determinare un intervallo bilatero di confidenza al 99% per µe la stima intervallare corri- spondente ai dati a disposizione. 2. Senza fare ulteriori conti, `e possibile stabilire al livello di significativit`a dell’1% se vi sia evidenza statistica che µ6= 200 cl? 3. In ogni caso, l’intervallo trovato al punto 1. era eccessivamente largo, quante osservazioni sarebbe necessario e↵ettuare anch´e la larghezza totale dell’intervallo non superi 0.5 cl? 4. (Facoltativo.) I dati raccolti per`o ci fanno dubitare anche della precisione. Con la signifi- cativit`a del 5%, sulla base del campione a nostra disposizione, possiamo dare credito alla “specifica tecnica” riguardante la precisione della macchina? Pi`u precisamente consideriamo H0: 0.40 contro H1:> 0.40, con µincognito. Soluzione 1. Gli estremi dell’intervallo sono Xn± z↵/20pn. Nel nostro caso abbiamo n= 4, ↵=0 .01, z0.005 ' 2.576, 0=0 .40 e otteniamo x= 1 4 4X i=1 xi= 200 .99,z 0.005 0 2 ' 0.5152 La stima intervallare richiesta risulta dunque (200 .4748 ,201 .5052). 2. Il test richiesto riguarda le ipotesi H0:µ= µ0contro H1:µ6= µ0, con µ0= 200. Ricordando il legame tra intervalli di confidenza e test d’ipotesi, dalla forma della regione critica data nel promemoria si vede che si deve rifiutare H0a livello di significativit`a ↵se µ0non appartiene all’intervallo di confidenza di livello 1 ↵. Nel nostro caso si ha proprio che µ0non appartiene all’intervallo di confidenza trovato sopra e dunque si rifiuta H0all’1%: i dati sono fortemente significativi. 3. La lunghezza dell’intervallo di confidenza risulta 2 z0.005 0/pne noi cerchiamo il pi`u piccolo nper cui questa lunghezza sia minore o uguale a 0 .5. Questo d`a n (4z0.005 0)2' 16.9876; dunque si devono fare almeno 17 osservazioni. 4. In questo caso la regione critica `e n3S2 20 20.05,3 o esiha 20.05,3' 7.815 3s2= 4X i=1 x2i4x2' 161589 .2086 161587 .9204 = 1 .2882 , 3s2 20 ' 8.05125 . Dato che risulta 3s2 20 20.05(3), si rifiuta H0al 5% e si accetta che la precisione sia peggiore di quella dichiarata. 5 II Appello di Statistica e Probabilità per l’Informatica A. Barchielli, G. Guatteri e L. Ladelli 29.8.2019 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Giustificare adeguatamente tutte le risposte. 1 Domande di teoria D1 Enunciare e dimostrare la Legge debole dei grandi numeri. Interpretare il risultato di questo teorema come proprietà di un classico stimatore (dire quale) della media di una popolazione statistica. Soluzione Enunciato e dimostrazione assumendo l’esistenza della varianza: Dispense [ELP] Proposizione 4.11.1. Ricordiamo che per avere sia la legge debole dei grandi numeri sia quella forte è sufficiente chiedere l’esistenza della media: Disp ense [ELP] Prop osizione 4.11.2. Nel caso di un campione casuale X1,...,X n,assumendol’esistenzadellamedia µdella popo- lazione, abbiamo che la media campionaria Xn= 1 n nX i=1 = Sn n èunostimatore(nondistorto)dellamedia µ.Datoche Sn/n èpropriolaquantitàcheappare nella legge dei grandi numeri, la legge debole è equivalente a dire che la successione di stimatori della media {Xn}nèdebolmente consistente :lucidi[Lad2]p.32. Notiamo anche che, analogamente, la legge forte ci dà la consistenza forte. Se assumiamo anche l’esistenza della varianza, la disuguaglianza di Chebichev applicata alla media campionaria (come nella dimostrazione di Proposizione 4.11.1) ci dà la consistenza in media quadratica, definita in lucidi [Lad2] p. 32. D2 Dare la definizione di p-value di un test. Ricavare l’espressione del p-value per il test basato sull’osservazione di un campione di di- mensione n,perilproblemadiverificad’ipotesisullavarianzadiunapopolazionegaussiana(con media pure incognita): H0:2 20 contro H1:2k ),per k=0 ,1,... ,nell’ipotesididistribuzionegeometrica. Dedurrela f.d.r. FX(t)di X per ogni t. 2. Quanto vale E( X)?Stimareilparametrodelladensitàgeometrica,usandoidatiforniti. 3. Ve r i fi c a r e a l l i v e l l o d i s i g n i fi c a t i v i t à ↵= 5% l’ipotesi nulla che X sia una variabile aleatoria geometrica. Se non siete stati in grado di rispondere al punto 2. e solo in questo caso, assumete che la stima di psia 2/3 Soluzione 1. X ⇠G (p)ha la stessa densità del tempo d’attesa del primo successo in una successione di prove di Bernoulli, con probabilità di successo p.Quindi,se k=0 ,1,2,... ,P(X>k )= (1 p)k.Quindi,per k=0 ,1,2,... ,FX(k)= P(X  k)=1 (1 p)ke, poiché X assume solo valori interi positivi, FX(t)=0 per t< 0eFX(t)=1 (1 p)kper k 1 tk )= +1X i=k+1 pqi1= p +1X r=0 qr+k= pqk 1 1q= qk. 2. Dal formulario o mediante un calcolo diretto si ottiene che E( X)=1 /p.Quindiunastima della media teorica con i dati forniti è data da 1⇥150 + 2 ⇥85 + 3 ⇥9+4 ⇥5+5 ⇥1 250 = 372 250 =1 .488 . Quindi una stima di pèˆp= 250372 ' 0.672043 . Alternativamente si può pensare alle prove di Bernoulli indipendenti. Ci sono stati 150 successi su 150 prove, 85 successi su 2⇥ 85 = 170 prove, 9 successi su 3⇥ 9 = 27 prove, 5 successi su 4⇥5 = 20 prove, 1 successo su 5⇥1=5 prove, cioè 150 + 85 + 9 + 5 + 1 = 250 successi su 150 + 170 + 27 + 20 + 5 = 372 prove, risultato che fornisce la stessa stima ˆpper p. 3. Si tratta di verificare l’ipotesi che la distribuzione della popolazione sia geometrica (ma senza specificare il parametro) cioè: H0:X ⇠G (p)per qualche p contro H1:X ⌧ G. Dato che il numero di prove è grande ( n= 250 ), possiamo utilizzare un test asintotico del chi-quadro di buon adattamento ad una densità con un singolo parametro incognito ( p), test che troviamo nel promemoria. Dobbiamo però accorpare opportunemente le classi in modo da avere numero di prove per la probabilità stimata maggiore di 5 in almeno l’80% delle classi. Eseguendo i calcoli troviamo nˆp(1 ˆp)r> 5per r 4en(1 ˆp)4< 5,per rispettare la regola ricordata dobbiamo accorpare tutte le classi con X> 4.Dobbiamo dunque considerare 5 classi con funzione di massa: p01(p)= P(X = 1) = p, p 02(p)= P(X = 2) = p(1p),p 03(p)= P(X = 3) = p(1p)2, p04= P(X = 4) = p(1 p)3,p 05= P(X 5) = (1 p)4. Usando il risultato del punto precedente stimiamo queste probabilità con ˆp0i= p0i ˆp.Nel nostro caso abbiamo k=5 classi, m =1 parametri da stimare e, dunque, km 1=3 .La statistica test e la regione critica sono date da x20= 5X i=1 n2i nˆp0in, x 20 2↵,3. 5 Eseguendo i calcoli otteniamo i risultati riportati in tabella: classe i X =1 X =2 X =3 X =4 X 5 somma ˆp0i 0.672044 0.220400 0.072284 0.023704 0.011568 1 nˆp0i 168.011 55.100 18.071 5.926 2.892 250 ni 150 85 9 5 1 250 Il valore osservato della statistica test è x20' 24.092 .Dallatabelladeiquantiliperlachi- quadro a 3 gradi di libertà abbiamo 20.05,3' 7.815 :sirifiuta H0al livello di signicatività del 5% .Dalletabellesivedeanchechecheilp-valuesarebbeinferioreall’unopermille. Se non è stato risolto il punto 2, si deve usare ˆp=2 /3. In questo caso si ottiene la tabella classe i X =1 X =2 X =3 X =4 X 5 somma ˆp0i 2/3 2/9 2/27 2/81 1/81 1 nˆp0i 166.6667 55.5556 18.5185 6.1728 3.0864 250 ni 150 85 9 5 1 250 Il valore della statistica test diventa x20= 23 .798 esirifiuta H0. 6 III Appello di Statistica e Probabilità per l’Informatica A. Barchielli, G. Guatteri e L. Ladelli 18.01.2020 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Giustificare adeguatamente tutte le risposte. 1 Domande di teoria D1 Siano A1,A2eA3eventi in uno spazio di probabilità (⌦ ,F,P ).Qualirelazionidevono soddisfare per dire che sono tre eventi indipendenti? Soluzione Gli eventi A1,A2eA3sono tre eventi indipendenti se vengono soddisfatte le seguenti quattro relazioni: P(A1\A2)= P(A1)P(A2),P (A1\A3)= P(A1)P(A3),P (A2\A3)= P(A2)P(A3), P(A1\A2\A3)= P(A1)P(A2)P(A3). D2 1. Enunciare il teorema centrale del limite. 2. Usare questo teorema per ottenere un valore approssimato della probabilità che la media cam- pionaria di un campione aleatorio di dimensione 100 estratto da una popolazione Poissoniana di media 5 sia maggiore o uguale al valore 5.5. Soluzione 1. Si veda il Teorema 4.11.6 delle Dispense di Calcolo delle Probabilità [ELP]. 2. Dato il campione (X1,...,X 100 ),lasomma S100 = P 100i=1 Xi,elasuamediacampionaria ¯X100 := S100 /100 ,abbiamo E⇥¯X100 ⇤=E[ X1]=5 ,Var ⇥¯X100 ⇤= Var[ X1]/100 = 5 /100 .Si hanno inoltre le seguenti uguaglianze di eventi: ¯X100 5.5 = {S100 550 }= {S100 > 549 .5}= ¯X100 > 5.495 = 8< : ¯X100 E⇥¯X100 ⇤ q Var ⇥¯X100 ⇤ > 4.95p5 9= ; = 8< : ¯X100 E⇥¯X100 ⇤ q Var ⇥¯X100 ⇤  4.95p5 9= ; c Usando l’approssimazione normale, giustificata dal TLC, abbiamo P¯X100 5.5' 1 ⇣ 4.95/p5 ⌘ ' 1(2 .214) ' 10.9866 = 0 .0134 . D3 1. Dare la definizione di campione aleatorio estratto da una popolazione con densità f#(discreta oassolutamentecontinua)notaamenodiunparametroreale #. 2. Dare la definizione di stimatore puntuale di # edistimacorrispondente. Direquandolo stimatore è non distorto per #. Soluzione 1 1. Un campione aleatorio di dimensione n estratto da una popolazione con densità f#èun vettore aleatorio n-dimensionale (X1,...,X n)con componenti i.i.d., ciascuna con densità f#. 2. Uno stimatore puntuale di #èuna statistica usata per approssimare la quantità incognita, cioè una funzione nota del campione: Tn= dn(X1,...,X n).Ilvalore dn(x1,...,x n)assunto dallo stimatore nella realizzazione del campione (i valori osservati x1,...,x n)èla stima di #.Lostimatoreènondistortoper #quando ne esiste la media e si ha E#(Tn)= #,8#. 2 2 Esercizi Esercizio 1 Si hanno dieci urne; di queste, sei contengono tre palline bianche e sette nere (per comodità, chiamiamo queste urne di tipo A); le rimanenti quattro urne (di tipo B)contengono otto palline bianche e due nere. Si sceglie a caso un’urna e da essa si estrae una prima pallina e poi dalle rimanenti urne si estrae una seconda urna ed anche da questa si estrae una pallina. 1. Qual è la probabilità che le due urne scelte siano dello stesso tipo? 2. Qual è la probabilità che la prima pallina estratta sia bianca? 3. Sapendo che la prima pallina estratta è risultata bianca, qual è la probabilità che l’urna corrispondente sia di tipo A? 4. Sapendo che la prima pallina estratta è risultata bianca, qual è la probabilità che le due urne siano entrambe di tipo A? Soluzione Introduciamo gli eventi ( i=1 ,2): Ai= “la i-esima urna scelta è di tipo A” Bi= “la i-esima urna scelta è di tipo B” b= “la prima pallina estratta è bianca” 1. P({A1\A2}[{ B1\B2})= P(A1\A2)+ P(B1\B2)= P(A1)P(A2|A1)+ P(B1)P(B2|B1) = 6⇥5+4 ⇥3 10 ⇥9 = 42 90 = 7 15 =0 .4(6) . 2. P(b)= P(b|A1)P(A1)+ P(b|B1)P(B1)= 3⇥6 10 ⇥10 + 8⇥4 10 ⇥10 = 50 100 = 1 2=0 .5. 3. P(A1|b)= P(b|A1)P(A1) P(b) = 18 ⇥2 100 = 9 25 =0 .36. 4. P(A1\A2|b)= P(A2|A1\b)P(A1|b)= P(A2|A1)P(A1|b)= 5⇥9 9⇥25 = 1 5=0 .2. Esercizio 2 Sia dato il vettore aleatorio (X, Y )assolutamente continuo con densità fX,Y (x, y )=[1+ #(1 2x)(1 2y)]1[0,1](x)1[0,1](y),# 2[1,1]. 1. Determinare e riconoscere le densità marginali di X eY. 2. Calcolare la covarianza di X eY. 3. Per quali valori di #le variabili casuali X eY sono non correlate? Sono anche indipendenti in questo caso? Giustificare la risposta. 4. Calcolare P(X>Y ). Soluzione 1. X èuniformesu [0,1] infatti fX(x)= 1[0,1](x) Z1 0 (1 + #(1 2x)(1 2y)) d y = 1[0,1](x) n 1+ #(1 2x)⇥yy2⇤1 0 o = 1[0,1](x). Per la simmetria p er scambio fra xey,anche Y èuniformesu [0,1]. 3 2. Dalle proprietà della legge uniforme E[X]=E[ Y]=1 /2. E( XY )= Z1 0 dx Z1 0 dyxy [1 + #(1 2x)(1 2y)] = Z1 0 dy⇥(1 + #)xy 2#x 2y2#xy 2+4 #x 2y2⇤ = 1+ # 4 # 3 # 3 4# 9 = 1 4+ # 36 , Cov( X, Y )=E( XY )E( X)E( Y)= 1 4+ # 36 1 4= # 36 , 3. Evidentemente si ha non correlazione per # =0 einquestocasoleduev.a.sonoanche indipendenti perché fX,Y (x, y )= 1[0,1](x)1[0,1](y)= fX(x)fY(y). 4. P(X>Y )= R10dxRx0dy[1 + #(1 2x)(1 2y)] = 12. Oppure: P(X>Y )+ P(XY )= P(XY )= 12. Esercizio 3 Un produttore afferma che la durata media di funzionamento (in mesi) di un certo componente elettronico da lui fabbricato è 2; ritiene inoltre, che la durata segua una distribuzione esponenziale. Un ispettore preleva a caso 100 componenti da un lotto numeroso e ne misura la durata X di funzionamento, ottenendo i seguenti dati raggruppati: classe (i) 1 2 3 4 5 durata X< 1 1 X< 2 2 X< 3 3 X< 4 X 4 ndi componenti (ni) 35 19 18 11 17 1. Calcolare le probabilità p01= P(X< 1), p02= P(1  X< 2), p03= P(2  X< 3), p04= P(3  X< 4),p05= P(X 4) nell’ipotesi che il produttore abbia ragione. 2. Utilizzando un opportuno test stabilire se i dati raccolti dall’ispettore consentono di respin- gere l’affermazione del produttore al livello di significatività del 5% . Soluzione 1. Se il produttore ha ragione si ha che la distribuzione di X èuna Exp (1/2),ossia( x> 0) PH0(X  x)=1 ex/2 Pertanto p01 = PH0(X< 1) = 1 e1/2 ' 0.3935 p02 = PH0(1  X< 2) = e 1/2e1 ' 0.2387 p03 = PH0(2  X< 3) = e 1e3/2 ' 0.1447 p04 = PH0(3  X< 4) = e 3/2e2 ' 0.0878 p05 = PH0(X 4) = e 2 ' 0.1353 2. Sotto l’ipotesi nulla che la distribuzione di X sia una Exp (1/2),lastatistica U = 5X i=1 Ni100 p0i 2 100 p0i 4 ha legge approssimabile con la 2(4) in quanto n= 100 elacondizione np 0i> 5èsoddisfatta per ogni i.Laregionecriticadilivello ↵=0 .05 del test è U> 20.05,4' 9.488 Si trova coi dati assegnati u' (4.35) 2 39.35 + (4.87) 2 23.87 + (3.53) 2 14.47 + (2.22) 2 8.78 + (3.47) 2 13.53 ' 3.787 quindi al 5% di significatività non si può rifiutare l’affermazione del produttore che la durata di un componente sia esponenziale di media 2 mesi. Con un software statistico si ottiene che il p-value del test vale circa 0.44. Esercizio 4 1. Si ha un campione X1,...,X nda una popolazione normale di media µeva- rianza 2incognite. Si proponga, individuandone la regione critica, un test di livello di significatività ↵per H0:µ= µ0(µ0èunvaloreassegnato)inalternativaa H1:µ6= µ0. 2. Nella stessa situazione della domanda precedente, si proponga un test di livello di significa- tività ↵per H0:µ= µ0in alternativa a H1:µ>µ 0. 3. L’altezza media degli uomini di leva di un paese era di 170 cm nel 1957. Su 100 reclute alla visita di leva nel 1997 la media campionaria era ¯xn= 171 cm con una varianza campionaria s2n= 16 cm 2.Allivellodisignificatività ↵=5 %, si può dire che l’altezza media sia cambiata ? Econsignificatività ↵=1 %? 4. Nella stessa situazione della domanda precedente, con significatività ↵=1 %, si può dire che l’altezza media sia aumentata ? Soluzione Introduciamo media e varianza campionarie xn= 1 n nX i=1 xi,s 2n= 1 n1 nX i=1 (xixn)2. 1. La regione critica del test richiesto è ⇢ (x1,...,x n): xnµ0 sn/pn >t ↵/2,n1 . 2. La regione critica del test richiesto è ⇢ (x1,...,x n): xnµ0 sn/pn >t ↵,n 1 . 3. La domanda ci porta al test del punto 1; per interpolazione tra 80 e 120 si ha t0.025 ,99 ' 1.9847 ,t0.005 ,99 ' 2.6275 .Poi n = 100 ,µ0= 170 ,xn= 171 ,s2n= 16 ,↵ =0 .05,0.01, xnµ0 sn/pn=2 .5;al5%(manonall’1%)sipuòrifiutarel’ipotesinullaedirechel’altezzamedia era cambiata. 4. La domanda ci porta al test del punto 2; per interpolazione tra 80 e 120 si ha t0.01,99 ' 2.3654 , gli altri dati sono come al punto 3. Adesso si può rifiutare l’ipotesi nulla anche all’1% e dire che l’altezza media era aumentata. 5 IV Appello di Statistica e Probabilità per l’Informatica A. Barchielli, G. Guatteri e L. Ladelli 6.02.2020 Cognome e Nome: Matricola: Docente: © I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Giustificare adeguatamente tutte le risposte. 1 Domande di teoria D1 Sia (X, Y, Z )Tun vettore aleatorio con vettore delle medie ~µematricedicovarianza C: ~µ= 0 @ 1 2 3 1 A ,C = 0 @ 1 0.50 0.510 001 1 A . 1. Calcolare E( X +Y +Z)eVar( X +Y +Z). 2. Fo r n i r e , p e r u n g e n e r i c o v e t t o r e a l e a t o r i o a t r e c o m p o n e n t i , l e f o r m u l e c h e v i h a n n o p e r m e s s o di calcolare le quantità richieste nel punto precedente, e dire sotto quali ipotesi valgono. 3. Dimostrare le formule fornite, riportandosi alle proprietà fondamentali del valore atteso. Soluzione 2. In generale vale E( X+Y+Z)=E( X)+E( Y)+E( Z),quandoesistonoitrevaloriattesi. Siha inoltre Var( X+Y+Z) = Var( X)+Var( Y)+Var( Z)+2 Cov( X, Y )+2 Cov( X, Z )+2 Cov( Y, Z ), quando esistono le tre varianze (proprietà che implica anche l’esistenza delle tre covarianze). 1. Nel caso della domanda abbiamo E( X)=1 ,E( Y)=2 ,E( Z)= 3elaformulaprecedente fornisce E( X+Y+Z)=0 .Lamatricedellecovarianzecidà Var( X) = Var( Y) = Var( Z)=1 , Cov( X, Y )= 0.5,Cov( X, Z )=Cov( Y, Z )=0 elasecondaformulafornisce Var( X +Y +Z)=1+1+1 0.5⇥2=2 . 3. La prima formula viene banalmente dalla linearità del valore atteso. Per dimostrare la seconda formula poniamo X0= X E( X),Y0= Y E( Y),Z0= ZE( Z);sihapoi Var( X +Y +Z)=E[( X0+Y0+Z0)2]=E[ X20+Y20+Z20+2 X0Y0+2 X0Z0+2 Y0Z0] =E( X20)+E( Y20)+E( Z20)+2E( X0Y0)+2E( X0Z0)+2E( Y0Z0) = Var( X) + Var( Y) + Var( Z)+2Cov( X, Y )+2Cov( X, Z )+2Cov( Y, Z ), dove abbiamo usato la linearità del valore atteso e le definizioni di varianza e covarianza. D2 Sia X1,X 2,X 3,X 4un campione casuale di dimensione 4 estratto da una popolazione N(µ, 1). Sulla base di questo campione si vuole verificare il sistema di ipotesi H0:µ=6 contro H1:µ> 6. Si decide di usare il test che rifiuta H0se X4> 7,dove X4indica la media campionaria. Calcolare il livel lo di significatività del test; calcolare, inoltre, la potenza del test quando µ=7 .5. Soluzione 1. Si tratta di calcolare il massimo delle probabilità di rifiutare H0quando µsoddisfa H0;nel nostro caso H0èsempliceesiha Pµ=6 ⇥X4> 7⇤= Pµ=6 X46 1/p4 > 76 1/p4 =1 (2) ' 10.97725 = 2 .275% . 1 2. La potenza è la probabilità di rifiutare H0in funzione di µ;nelnostrocasosiha ⇡(7.5) = Pµ=7 .5⇥X4> 7⇤= Pµ=7 .5 X47.5 1/p4 > 1 =(1) ' 0.84134 = 84 .134% . D3 Descrivere il procedimento per ottenere un intervallo di confidenza del tipo [0,c)di livello 1 ↵ per la varianza 2di un campione casuale gaussiano X1,...,X ncon media incognita. In particolare, si provi che l’intervallo ottenuto ha effettivamente livello di confidenza 1↵. Soluzione Dato che la varianza è sempre positiva, si tratta di trovare un limite di confidenza su- periore per la varianza. Usiamo la quantità pivotale (n1)S2n/ 2che sappiamo avere distribuzione 2(n1),insimboli: (n1)S2n/ 2 µ, 2⇠ 2(n1) dove µ rappresenta la media della popolazione. Usando il quantile 21↵,n 1di ordine 1 ↵ (convenzione della coda destra) si ha Pµ, 2 (n1)S2n 2 > 21↵,n 1 =1 ↵, da cui si ricava Pµ, 2 " 2< (n1)S2n 21↵,n 1 # =1 ↵, che ci dice che (n1)S2n 21↵,n 1èunlimitediconfidenzasuperioreper 2di livello 1↵. 2 2 Esercizi Esercizio 1 Un prodotto semilavorato, prima di essere immesso nel ciclo produttivo, viene sotto- posto a tre test di qualità che vengono eseguiti in modo indipendente, vale a dire che, se un pezzo èdifettoso,itretestrilevanoilfattocheèdifettosoinmodoindipendentetradiloro;lostessose è non difettoso. Infine un pezzo viene scartato se trovato difettoso anche da uno solo dei test. 1. Il test A ha probabilità 0.95 di rilevare la difettosità di un pezzo difettoso, il test B 0.92 ed il test C 0.90. Se un pezzo difettoso viene sottoposto ai 3 test, qual è la probabilità di immetterlo nel ciclo produttivo? 2. Il test A ha anche una probabilità di 0.01 di identificare il pezzo come difettoso, quando non lo è; il test B di 0.02 ed il test C di 0.05. Qual è la probabilità che un pezzo buono venga scartato? 3. Se il 99% dei pezzi è buono, qual è la probabilità di corretta diagnosi? Soluzione Poniamo A+= {Il test A identifica il pezzo come difettoso }, B+= {Il test B identifica il pezzo come difettoso }, C+= {Il test C identifica il pezzo come difettoso }eD = {Il pezzo è difettoso }. Indichiamo con A,B eC icomplementari A+,B +,C +. Il testo fornisce i seguenti valori: P(A+|D)=0 .95,P (B+|D)=0 .92,P (C+|D)=0 .9, P(A+|Dc)=0 .01,P (B+|Dc)=0 .02,P (C+|Dc)=0 .05. 1. Bisogna calcolare P(A\B\C|D);grazieall’ipotesidiindipendenzasiha P(A\B\C|D)= P(A|D)P(B|D)P(C|D) =(1 0.95) ⇥(1 0.92) ⇥(1 0.9) = 0 .0004 . 2. P((A\B\C)c|Dc)=1 (1 0.01) ⇥(1 0.02) ⇥(1 0.05) = 0 .07831 . 3. P((A\B\C)c\D)+ P((A\B\C)\Dc)= =(1 0.99) ⇥(1 0.0004) + 0 .99 ⇥(1 0.07831) = 0 .9224691 . 3 Esercizio 2 Le variabili aleatorie discrete X, Y hanno la densità congiunta pX,Y (x, y )rappresen- tata nella seguente tabella a doppia entrata: X/ Y 2 10 1 2 pX(x) 0 a 1/801 /81 /8 1/2 1 0 1/16 0 b 0 2 1/8 c 1/801 /8 pY(y) 3/16 1. Determinare i valori di probabilità mancanti. 2. Calcolare P(1 + |Y|=2 X)eP(|Y|= 1) . 3. Calcolare Cov( X, Y )eCov( X Y, Y ). 4. X ed Y sono indipendenti? Soluzione 1. X/ Y 2 10 1 2 pX(x) 0 1/81 /801 /81 /8 1/2 1 0 1/16 0 1 /16 0 1/8 2 1/801 /801 /8 3/8 pY(y) 1/43 /16 1 /83 /16 1 /4 1 2. P(1 + |Y|=2 X)= P(X =1 ,Y 2{ 1,1})=1 /16 + 1 /16 = 2 /16 = 1 /8. P(|Y|= 1) = P(Y 2{ 1,1})=3 /8. 3. Essendo la densità marginale di Y simmetrica rispetto allo zero, allora E( Y)=0 ,cosicché Var( Y)=E( Y2)=1 ⇥6/16 + 2 2⇥1/2 = 19 /8 Poiché Y ècentratasiha Cov( X, Y )=E( XY )=0 . Da cui: Cov( X Y, Y )= Var( Y)= 19/8. 4. No, perché P(X =1 ,Y = 2) = 0 6= P(X = 1) P(Y = 2) = 1 /32. 4 Esercizio 3 Si sta studiando la frazione di circuiti integrati difettosi prodotti da un processo fotolitografico. Viene sottoposto a test un campione casuale di 300 circuiti integrati e si rilevano 18 circuiti difettosi. 1. Determinare una stima puntuale della proporzione pdi pezzi difettosi della popolazione di circuiti prodotta da tale processo. Quindi trovare un intervallo di confidenza al 95% ,bilatero, per la proporzione di pezzi difettosi. 2. Prima di eseguire le osservazioni, determinare l’ampiezza minima ndel campione affinché la precisione della stima intervallare (i.e. la semiampiezza dell’intervallo di confidenza), sempre alivello 95% ,siasicuramenteminoredi 0.025 . 3. Si vuole confrontare, tramite un test di verifica d’ipotesi, l’ipotesi H0:{p 0.08}con H1:{p< 0.08}. Calcolare il p-value del test con i dati forniti all’inizio. Soluzione 1. Uno stimatore non distorto di una proporzione è la media campionaria ¯Xn;conidatiriportati si ha la stima ¯xn= 18300 =0 .06.Unintervallodiconfidenzaperunaproporzionedilivello approssimativamente ↵ èdatoda ⇣¯Xn z↵/2 q ¯Xn(1¯Xn) n ,¯Xn+ z↵/2 q ¯Xn(1¯Xn) n ⌘ .Noi abbiamo n= 300 ,¯xn=0 .06,↵ =0 .05,chedanno z↵/2= z0.025 ' 1.960 ez↵/2 q ¯xn(1¯xn) n ' 1.96 ⇥ p0.018810 ' 0.0269 ;questoforniscel’intervallodiconfidenza [0.0331 ,0.0869] . 2. La semiampiezza è z↵/2 q ¯xn(1¯xn) n ;primadell’esperimentosappiamosoloche ¯xn(1¯xn) 14. Dunque dobbiamo chiedere 1.96 q 14n  0.025 ,chedà n ⇣1.96 0.05 ⌘2= 1536 .64,dacuisi deduce n= 1537 . 3. Il p-value per la famiglia di z-test approssimati al variare della significatività ↵ per una proporzione, nel caso di un’ipotesi unilatera del tipo di quella qui considerata, è p-value ' ✓ ¯xnp0 qp0(1p0) n ◆ ,chenelnostrocasodàp-value ' ✓ 0.060.08 p0.08⇥0.92 300 ◆ ' 1(1 .277) ' 10.8992 , quindi p-value ' 0.1008 .Quindinonsipuòrifiutare,peresempio,allivellodisignificatività del 5%. 5 Esercizio 4 Sia X1,...,X nun campione aleatorio estratto da una popolazione con densità di probabilità f#(x)= 1 #x1+1 /# I[0,1](x), I[0,1](x)= ( 1 se x2[0,1], 0 altrimenti, #> 0. 1. Determinare lo stimatore di massima verosimiglianza (MLE) ˆ⇥ndi #. 2. Determinare la media e la varianza di Yi= ln( Xi),perogni i.Dedurrelamediaela va r i a n z a d i ˆ⇥n. 3. Determinare la distribuzione asintotica di ˆ⇥n.Per n = 100 ,calcolarequindiunvalore approssimato della P#(ˆ⇥100  1.2#)(per ogni #> 0). Si può usare questo risultato per costruire una qualche inferenza statistica su #? Soluzione 1. Calcoliamo la funzione di verosimiglianza L(#, x)= nY i=1 f#(xi)= 1 #n nY i=1 xi1#1I[0,1](xi)= 1 #n nY i=1 xi !1#1 poiché, se (x1,...,x n)sono osservazioni, I[0,1](xi)=1 per ogni iequalunquesia #> 0.La log-verosimiglianza è l(#)=ln L(#, x)= nln( #)+ ✓1 #1 ◆ nX i=1 ln( xi) che ha un massimo in #= 1 n P ni=1 ln( xi)(verificarlo!). Quindi l’M.L.E. è ˆ⇥n= 1 n nX i=1 ln( Xi)= Yn,Y i= lnXi. 2. E#(ln( Xi)) = Z+1 1 (ln x)f#(x)d x= Z1 0 (ln x)1 #x1#1dx= Z+1 0 y1 #e1#ydy= # E#⇥(ln( Xi))2⇤= Z+1 1 (ln x)2f#(x)d x= Z1 0(ln x)21 #x1#1dx= Z+1 0 y21 #e1#ydy=2 #2 equindiperleproprietàdellamediaedellavarianzadisommediv.a. indipendenti E#(ˆ⇥n)=E #(Yn)= # Var #(ˆ⇥n) = Var #(Yn)= #2 n 3. Per il Teorema Centrale del Limite segue che, poiché ˆ⇥nèsommadivariabilialeatoriei.i.d., va l e ˆ⇥n⇡N (#,# 2/n )equindi P#(ˆ⇥100  1.2#)= P# (ˆ⇥100 #)p100 #  (1.21)#p100 # ! ' (2) ' 0.9772 . Se scriviamo la relazione precedente come P#(# ˆ⇥100 /1.2) ' 0.9772 ,vediamoche ˆ⇥100 /1.2 èun limite di confidenza inferiore per #di livello di confidenza 0.9772. 6