- userLoginStatus
Welcome
Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.
Mathematica Engineering - Modelli e Metodi dell'Inferenza Statistica
Formulari : Appunti statistica vecchi
Etc
Statistica Indice I.Probabilità p.2 Spazi di probabilità Eventi compatibili e incompatibili Probabilità condizionata - eventi dipendenti e indipendenti Probabilità composta Calcolo combinatorio Test diagnostico II.Variabile aleatoria p.5 Funzione di ripartizione Funzione densità di probabilità Indicatori Trasformazione di variabili aleatorie Quantili III.Modelli probabilistici p.10 Distribuzioni notevoli discrete Distribuzioni notevoli continue IV.Stima dei parametri p.14 Statistica campionaria Analisi degli stimatori (stima puntuale) Stima intervallare V.Verifica delle ipotesi p.19 Z, T e χ2 test Inferenza sulla di fferenza Inferenza sul confronto Inferenza su Bernoulli Inferenza predittiva Tipo di dati VI.Regressione lineare p.26 Modello statistico Intervalli di confidenza Verifica delle ipotesi VII.R p.29 Output Analisi dell'output 1 Probabilità La probabilità di un evento è il rapporto tra il numero dei casi favorevoli e il numero dei casi possibili.I. Spazi di probabilità Spazio campionario Ω Insieme dei possibili esiti di un esperimento aleatorio Spazio degli eventi σ Un evento è una parte dello spazio campionario, un sottoinsieme di Ω Evento = insieme di esiti Proprietà 1. 2. 3. 4. Spazio di probabilità p La probabilità è una funzione che assegna ad ogni evento di uno spazio campionario un numero reale , Proprietà 1. 2. 3. 4. 5. si può maggiorare la probabilità conoscendo quella dell'unione 6. se sono tutti disgiunti sono incompatibili 7. utile per fare maggiorazioni 8. II. Eventi compatibili e incompatibili Due eventi si dicono incompatibili quando non possono verificarsi contemporaneamente, quindi il verificarsi dell'uno esclude il verificarsi dell'altro. Quindi due eventi sono incompatibili quando . Eventi mutuamente esclusivi sono eventi a due a due incompatibili, quindi se sono un insieme di eventi incompatibili. E ! ! " Ec! ! !# $ Ø # ! E1,E2...Etot! ! " %Ei! !&'Ei! ! Ap(A) D(p)= ! Im(p)= [0,1 ] 0( p(E)( 1)E p(Ø)= 0 p($)= 1 p(E1%E2)= p(E1)+p(E2)*p(E1'E2) E1,E2...Etot! ! p(%Ei)( n !i=1 p(Ei) E1,E2...Etot! ! Ei'Ej= Ø )i+ j" p(%Ei)= n !i=1 p(Ei) E1, E2" p(E1)( p(E2) p(Ec)= 1*p(E) A 'B = Ø IncompatibiliCompatibilip(A%B%C)=p(A)+p(B)+p(C) p(A%B)=p(A)+p(B)*p(A'B) p(A'B)=p(A)-p(B) p(A'B)=p(A)+p(B)*p(A%B) p(A%B)=p(A)+p(B) p(A'B)=0 p(A%B%C)=p(A)+p(B)+p(C) *p(A'B)*p(A'C)*p(B'C)+p(A'B'C) 2ΩEvento AEvento BEsitoEsitoEsito III. Probabilità condizionata - eventi dipendenti e indipendenti Due eventi si dicono indipendenti quando il verificarsi di uno non influisce sulla probabilità di verificarsi dell'altro. Proprietà 1. sono sicuramente dipendenti 2.⫫ ⫫ ⫫ l'indipendenza stocastica non è transitiva 3.⫫ ⫫ ⫫ ⫫ IV. Probabilità composta La probabilità composta di due eventi viene calcolata in modo di fferente se i due eventi sono indipendenti o dipendenti, in linea teorica la probabilità della composizione di due eventi è la moltiplicazione delle probabilità degli eventi che la compongono. Formula di Bayes V. Calcolo combinatorio Permutazioni sono i raggruppamenti realizzati quando il numero di oggetti è uguale al numero di posti e conta l’ordine con cui si dispongono. Disposizioni sono i raggruppamenti realizzati quando il numero di oggetti è diverso dal numero di posti e conta l’ordine con cui si dispongono. Due raggruppamenti di fferiscono tra loro per gli elementi o per il loro ordine. Combinazioni sono i raggruppamenti realizzati quando il numero di oggetti è diverso dal numero di posti e non conta l’ordine con cui si dispongono. Due raggruppamenti di fferiscono tra loro solo per gli elementi di fferenti. E , F " EF&F G non implica E G " EF. Ec F. E Fc. Ec FcIndipendentiDipendentiEventi incompatibili P(A%B!C)=P(A%B) Eventi compatibili P(A%B!C)=P(A!C)+P(B!C)*P(A'B!C) P(A!B)=P(A'B) P(B) Eventi compatibili P(A%B!C)=P(A%B) P(A!B)=P(A) Eventi incompatibili P(A%B!C)=P(A!C)+P(B!C) IndipendentiDipendentiP(A'B)=P(B)-P(A!B) P(A'B)=P(A)-P(B) P(B!A)= P(A!B)-P(B) P(A) 3n numero di elementi k numero di postiReimmissione con ripetizioniNO reimmissione senza ripetizioniPermutazioneOrdine conta n = kDisposizioneOrdine conta n ≠ kCombinazioneOrdine non conta n ≠ knk r ripetizioni di ogni n n! r1!r2!...rn! (n k)= n! k!(n*k)! n! (n*k)! (n+k*1 k ) n! VI. Test diagnostico Test in cui si hanno probabilità condizionate di certi eventi piuttosto che le probabilità degli esiti Evento = test positivo Evento M = individuo malato - sensibilità del test - specificità del test - percentuale di malati nell'intera popolazione Lo spazio campionario dell'esperimento ha 4 esiti EsempiCon ripetizioneSenza ripetizionePermutazioneNumero di anagrammi della parola MAMMANumero di anagrammi della parola LIBRODisposizioneUsando le cifre 1, 2, 3 quanti numeri da 4 cifre si possono formareIn quanti modi diversi possono sedersi 5 alunni su 3 sedieCombinazioneIn quanti modi si possono scegliere 5 palline avendone 5 nere e 5 rosse in una scatolaIn quanti modi si possono scegliere 4 paia di scarpe da esporre avendo 10 modelli di fferenti T+P(T+!M )= " P(T*!M )= # P(M )= p P(M 'T+)= P(vero positivo )= "p P(M 'T+)= P(falso positivo )= (1*#)(1*p) P(M 'T*)= P(falso negativo )= (1*")p P(M 'T*)= P(vero negativo )= #(1*p) "p+(1*#)(1*p) vero positivo"p vero negativo#(1*p) test negativo T*1pindividuo malato M falso negativo(1*#)(1*p) test positivo T+(1*")p+#(1*p) falso negativo(1*")p (1*p) individuo sano M 4 Variabile aleatoria Una variabile aleatoria è una variabile che può assumere valori diversi a seconda della replica dell'esperimento aleatorio, ma tutti questi valori sono numeri reali, essi si conoscono a seguito dell'esito dell'esperimento. La variabile è definita anche casuale perché non è possibile conoscere in anticipo l'esatto esito dell'esperimento. Variabile aleatoria discreta = variabile il cui range è costituito da un insieme finito o numerabile di numeri reali Variabile aleatoria continua = variabile il cui range è costituito da un intervallo finito o infinito di numeri reali I. Funzione di ripartizione Funzione delle probabilità cumulate Proprietà 1. Il limite sinistro della funzione di ripartizione è 0 2. Il limite destro della funzione di ripartizione è 1 3. funzione monotona crescente 4. funzione continua da destra II. Funzione di densità di probabilità Funzione delle probabilità degli esiti = ad ogni possibile esito associa una probabilità limx/*0F(x)= 0 limx/0F(x)= 1 x1< x2" F(x1)< F(x2)" limh/0+F(x+h)= F(x)" DiscretaContinua Più schiacciata è la curva minore è la varianza, si può calcolare come approssimativamente la distanza tra i due punti in cui la curva è orizzontale diviso 3 se c sta su un tratto orizzontale P(X=a)=P(X(a)*P(X0 10 Poisson Esempio : esprime le probabilità per il numero di eventi che si verificano successivamente ed indipendentemente in un dato intervallo di tempo, sapendo che mediamente se ne verifica un numero λ Spazio campionario : Esito : Teoremi Geometrica Esempio : tentativi prima del primo successo in una serie di Bernoulli con probabilità p Spazio campionario : Esito : X 4 P(') X = {0,1,2... 0 } p(X = x)= e*'-'x x! E(X)= ' VAR(X)= ' Teorema centrale del limiteSomma di Poisson ⫫ Non vale con il - X 4 P('x)eY4 P('y) XYX+Y4P('x+'y) Con numerosità (somma di Poisson) P(')4N(',') P(X( x)=%( x*' ' ) X1...Xn4iidP(')" X1...Xn4N(n',n') X 4 G eom(p) X = {1,2... 0 } p(X = x)= (1*p)x*1-p E(X)= 1 p VAR(X)= 1*p p2 11Scelta del modello...discretocontinuoripetizione di eventi con due possibili esiti Binomiale / Bernoullinumero di eventi che si verificano in un intervallo di tempo (o altro) conoscendone la media Poissonnumero di tentativi per avere esito positivo in una binomialeGeometricatempo per far avvenire un eventostessa probabilità per ogni x ∈ [a, b] esperimenti con n (grande) valori / TCL EsponenzialeUniformeNormale II. Distribuzioni notevoli continue Uniforme Esempio : numeri random Spazio campionario : Funzione di densità : Funzione di ripartizione : Esponenziale Esempio : tempo prima di un evento Spazio campionario : Funzione di densità : Funzione di ripartizione : Quantili Teoremi X 4 Un(a,b) X! [*0 ,0 ] f(x)= 1 b*a F(x)= P(X ( x)= x*a b*a x! [a,b] E(X)= a+b 2 VAR(X)= (b*a)2 12 X 4 Exp(') X! [*0 ,0 ] f(x)= { 0 x< 0 '-e*'x x3 0 F(x)= P(X ( x)= { 0 x< 0 1*e*'x x3 0 E(X)= 1 ' VAR(X)= 1 '2 q(")= F*1(")= * 1 '-ln(1*") Unione di due EsponenzialiTeorema centrale del limiteAssenza di memoria Exp(')4N(n1 ',n 1 '2) P(T(t)=% t*n1 ' n 1 '2 ⫫ X4Exp('1)eY4Exp('2) XYmin(X,Y)4Exp('1+'2) E[min(X,Y)]= 1 '1+'2 P(X >t+s!X >s)=P(X >t) 12 Normale Esempio : serie di n esperimenti Spazio campionario : Funzione di densità : Teorema Geometrica Esempio : tentativi prima del primo successo in una serie di Bernoulli con probabilità p Spazio campionario : Esito : Teoremi X 4 N($,!2) X! [*0 ,0 ] f(x)= 1 2(!2-e*(x*$)2 2!2 E(X)= $ VAR(X)= !2 Standardizzazione variabileTeorema centrale del limiteApprossimazione di una distribuzione qualsiasi a una normaleCorrezione di continuitàUnione tra due normaliCalcolo dell'integraleTrasformazioni della probabilitàP(X 3x)=P(X( x*0.5 ) P(X >x)=1*P(X( x) %(*z)=1*%(z) ! 0 *0 ae*bx2+cx+d=a ( b-ec2 4b+d Z= X*$ ! ⫫ Non è una combinazione lineare tra variabili e la varianza è la somma tra le varianze X4($x,!2x)eY($y,!2y) XYX+Y4($x+$y,!2x+!2y) X*Y4($x*$y,!2x+!2y) X 4 G eomcont(p) X! [1,0 ] p(X = x)= (1*p)x*1-p E(X)= 1 p VAR(X)= 1*p p2 Assenza di memoriaP(X >t+s!X >s)=P(X >t) 13 Stima dei parametri I. Statistica campionaria Dati solitamente indipendenti e identicamente distribuiti per semplificare i calcoli e le assunzioni. Media campionaria Uno stimatore di , quindi una funzione, che ci restituisce la media dei valori del campione esemplificativo che abbiamo. - varianza della media campionaria = incertezza della stima Distribuzione della media campionaria Varianza campionaria Uno stimatore di , quindi una funzione, che ci restituisce la varianza dei valori del campione esemplificativo che abbiamo. - media della varianza campionaria II. Analisi degli stimatori Distorsione stimatore La distorsione dello stimatore viene calcolata tramite il BIAS. Se questo è distorto il risultato è diverso da 0, questo significa che per qualche ragione lo stimatore ha valore atteso diverso dalla quantità che stima, quindi la distribuzione di non è centrata sul valore vero di quello che sto stimando. Effetto distorsione L'e ffetto distorsione ci dice se la media del valore stimato è vicina al valore reale. Errore quadratico medio L'errore quadratico medio è un indicatore di performance, più è basso meglio funziona lo stimatore. Stimatore consistente se Errore standard L'errore standard da un idea della precisione della stima. " )")X1,...,Xn x= 5n i=1xi n " VAR[x]= VAR[xi] n x4 N($,VAR[xi] n ) ")X1,...,Xn S2= 5n i=1(xi*x)2 n*1 " x2= n !i=1 x2i*(n*1)-S2 ")BIAS( "))= E( "))*) BIAS( "))2 MSE( "))= E[( ")*))2]= (E[ ")*E[ ")]])2+E[ ")]*)= VAR[ ")]+BIAS2( ")) limn/0MSE[ ")n]= 0 ERR( "))= VAR( ")) 14 III. Stima intervallare Livello di confidenza Errore di stima 1. Z, T e χ2 test Stima della media di una normale con varianza nota Z test Stima della media di una normale con varianza ignota T test P( ")L( )( ")U)= 1*" E = ")L* ")U 2 BilateroStandardizzazioneIntervallo di confidenzaLivello di confidenzaErrore di stimaDimensione campionaria dato un erroreInferioreSuperiore Z= x*$ !/ n4N(0,1 ) $!(x*z" ! n,+0) $!(*0,x+z" ! n) n=( !-z"/2 E ) 2 E=z"/2 ! n P(x*z"/2 ! n($( x+z"/2 ! n) =1*" $!(x*z"/2 ! n,x+z"/2 ! n) BilateroStandardizzazioneIntervallo di confidenzaLivello di confidenzaErrore di stimaDimensione campionaria dato un erroreInferioreSuperiore T= x*$ S/ n4t(n*1) $!(x*t",n*1S n,+0) $!(*0,x+t",n*1S n) n=( S-z"/2 E ) 2 E=t"/2 S n P(x*t"/2,n*1S n($( x+t"/2,n*1S n) =1*" $!(x*t"/2,n*1S n,x+t"/2,n*1S n) 15 Stima della varianza di una normale con media ignota χ2 test BilateroStandardizzazioneIntervallo di confidenzaLivello di confidenzaInferioreSuperiore !2! (n*1)-S2 *2"/2,n*1 ,(n*1)-S2 *21*"/2,n*1 !2! (n*1)-S2 *21*",n*1 ,+0 X2= (n*1)-S2 !2 4*2(n*1) !2! 0,(n*1)-S2 *2",n*1 P (n*1)-S2 *2"/2,n*1 (!2( (n*1)-S2 *21*"/2,n*1 =1*" 16 2. Z e T test per la di fferenza Stima della di fferenza tra le medie di due normali con varianze note Z test Stima della di fferenza tra le medie di due normali con varianze ignote e uguali T test Stima della di fferenza tra le medie di due normali con varianze ignote e diverse T test BilateroStandardizzazioneIntervallo di confidenzaLivello di confidenzaInferioreSuperiore $1*$2! x1*x2*z"/2 !21 n1+ !22 n2,x1*x2+z"/2 !21 n1+ !22 n2 $1*$2! x1*x2*z" !21 n1+ !22 n2,+0 Z= (x1*x2)*($1*$2) !21n1+ !22n2 $1*$2! *0,x1*x2+z" !21 n1+ !22 n2 P x1*x2*z"/2 !21 n1+ !22 n2($1*$2( x1*x2+z"/2 !21 n1+ !22 n2 =1*" BilateroVarianza pooledStandardizzazioneIntervallo di confidenzaLivello di confidenzaInferioreSuperiore $1*$2! x1*x2*t",n1+n2*2-Sp 1 n1+ 1 n2,+0 T= (x1*x2)*($1*$2) SP 1n1+ 1n2 4t(n1+n2*2) $1*$2! *0,x1*x2+t",n1+n2*2-Sp 1 n1+ 1 n2 S2pooled= (n1*1)-S21+(n2*1)-S22 n1+n2*2 P x1*x2*t"/2,n1+n2*2-Sp 1 n1+ 1 n2 ($1*$2( x1*x2+t"/2,n1+n2*2-Sp 1 n1+ 1 n2 =1*" $1*$2! x1*x2*t"/2,n1+n2*2-Sp 1 n1+ 1 n2,x1*x2+t"/2,n1+n2*2-Sp 1 n1+ 1 n2 BilateroStandardizzazioneIntervallo di confidenza T= (x1*x2)*($1*$2) s21n2+ s22n2 4t(n1+n2*2) $1*$2! x1*x2*t"/2,n1+n2*2- s21 n1+ s22 n2,x1*x2+t"/2,n1+n2*2- s21 n1+ s22 n2 17 3. F test per il rapporto Stima del rapporto tra le varianze di due normali con medie ignote e dati disaccoppiati F test 4. Z e χ2 test per i modelli Stima della probabilità (media) di una variabile Bernoulli Z test Stima di λ di una Poisson Z test Stima di λ di un'esponenziale χ2 test BilateroInferioreSuperiore !21 !22 !(0,F",n2*1,n1*1S21 S22) !21 !22 !( 1 F"/2,n1*1,n2*1 S21 S22 ,F"/2,n2*1,n1*1S21 S22) !21 !22 !( 1 F",n1*1,n2*1 S21 S22 ,+0) BilateroInferioreSuperiore p!(0,p+z" p(1*p) n ) p!(p*z"/2 p(1*p) n ,p+z"/2 p(1*p) n ) p!(p*z" p(1*p) n ,+0) Bilatero '!(x*z"/2 x n,x+z"/2 x n) Bilatero '! 1x 1+ z"/2 n , 1x 1* z"/2 n 18 Verifica delle ipotesi La verifica delle ipotesi consiste nell'usare metodi statistici per valutare il grado di verità di quella che viene chiamata ipotesi nulla (indicata con ). Il tipo di approccio è falsificazionista, quindi sino a prova contraria l' ipotesi nulla è considerata corretta . Ci sono due tipi di errori che si possono commettere: Errore del I° tipo (errore di falso allarme) = viene rifiutata un'ipotesi nulla che in realtà è corretta = ampiezza o livello di significatività La probabilità di errore del I° tipo è uguale alla somma delle aree nelle code della distribuzione Errore del II° tipo (errore di mancata rilevazione) = viene accettata un ipotesi nulla che in realtà è errata Metodo 1.Individuare l'ipotesi nulla e l'ipotesi alternativa, bilaterale o unilaterale 2.Scelta della statistica test 3.Scelta della regione di accettazione e quindi della regione critica , criterio di rifiuto dell'ipotesi nulla, che è orlata dai valori critici 4.Scelta di 5.Scelta di n, un aumento della dimensione campionaria fa diminuire sia che e aumentare la PdT 6.Calcoli e decisione con RC o p-value P-value o livello di significatività osservato L'approccio basato sul p-value serve per evitare errori riguardo la relatività del valore di . Il p-value rappresenta il livello di significatività massimo per poter accettare , quindi l'ipotesi nulla viene rifiutata quando il p-value è più piccolo di . H0p(errore del Itipo )= " p(errore del IItipo )= # ""#"H0" 19Inferenza su...mediavarianzavarianza ignotavarianza notaNormaleBernoulliT testχ2 testZ testZ test con e p=x n !2=p0(1*p0) confrontovarianzemedieF testvarianze notevarianze ignoteNormaleugualiBernoullidiverseT test con varianza pooledT test con due varianzeZ test con Z test e p=x n !2= "p(1* "p) Attenzione al unilateralità o bilateralità per il p-value Potenza del test La potenza del test è la probabilità di rifiutare l'ipotesi nulla quando essa è falsa e l'ipotesi alternativa è di conseguenza vera (= rifiutare correttamente). PdT = 1*# Z testDatiBilateroSuperioreInferioreT testBilatero/ unilatero si calcola utilizzando le curve caratteristiche relative al t test con il giusto Nel leggere la tabella si usa e la dimensione del campione ( ) per sapere la pendenza della curva #"d= !$*$0! s n #=P(accettare H0falsa )=P(!Z0!(z"/2)=P(*z"/2(Z0(z"/2)=P(*z"/2(x*$0 !/ n (z"/2)= =P( $0*$ !/ n*z"/2(x*$0 !/ n+$0*$ !/ n($0*$ !/ n+z"/2)=P( $0*$ !/ n*z"/2(x*$0+$0*$ !/ n ($0*$ !/ n+z"/2)= =P( $0*$ !/ n*z"/2( x*$ !/ n($0*$ !/ n+z"/2)=P( $0*$ !/ n*z"/2(Z($0*$ !/ n+z"/2)= =P(*z"/2*$*$0 !/ n (Z(z"/2*$*$0 !/ n)=%(z"/2*$*$0 !/ n)*%(*z"/2*$*$0 !/ n) : valore che si sta supponendo uguale, maggiore o minore della media facendo il test : valore e ffettivo che ha la media, ci viene fornito dal testo, oppure può essere NB Il numeratore del termine vicino a genericamente dev'essere positivo quando si calcola la potenza (per poi essere sottratto a ), questo non vale se , in quel caso è negativo $0$xZ= x*$ !/ n Z0=x*$0 !/ n z"z"$t"/2,n*1 H1:$z"/2 H0:$1*$2=$0 Z0= x1*x2*($10*$20) !21n1+ !22n2 4N(0,1 ) Ipotesi nullaVarianza pooledIpotesi alternativa Bilatera S2pooled= (n1*1)-S21+(n2*1)-S22 n1+n2*2 H0:$1*$2=$0 T0= (x1*x2)*($1*$2) SP 1n1+ 1n2 4t(n1+n2*2) H1:$1*$2+$0 RC =!T0!>t"/2,n1+n2*2 Ipotesi nullaIpotesi alternativa Bilatera H1:$1*$2+$0 RC =!T0!>t"/2,n1+n2*2 H0:$1*$2=$0 T0= (x1*x2)*($1*$2) s21n1+ s22n2 4t(n1+n2*2) Ipotesi nullaIpotesi alternativaBilateraUnilatera superioreUnilatera inferiore H1:$x+$y RC =!Z0!>z"/2 H1:$xt"/2,nx+ny*2 H1:$xt"/2,nx+ny*2 Ipotesi nullaIpotesi alternativaBilatera Si faccia in modo che H0:!2x=!2y F0= s2x s2y sx>sy H0:!2x+!2y RC =* 1 f"/2,m*1,n*1f"/2,m*1,n*1 23 IV. Inferenza con Bernoulli Inferenza sulla media di una Bernoulli con varianza nota Z test Inferenza sul confronto tra le medie di due Bernoulli con varianze note e uguali Z test Stima di n con una Bernoulli per avere una data l'ampiezza dell'intervallo Z test V. Inferenza predittiva Puntuale Intervallare Ipotesi nullaIpotesi alternativa Bilatera H1:p+p0 RC =!Z0!>z"/2 H0:p=p0 p= x n Z0= p*p0 p0(1*p0) n Ipotesi nullaVarianza pooledIpotesi alternativa Bilatera H0:p1=p2 Z0= p1*p2 "pp(1* "pp)(1n1+ 1n2) "pp= x1 x1+x2p1+ x1 x1+x2p2= x1+x2 n1+n2 H1:p1+p2 RC =!Z0!>z"/2 2-z"/2 p(1*p) n ( z"/2 n (ampiezza totale " n3( z"/2 ampiezza totale ) 2 Errore quadratico medio di previsioneMSPE( !Xn+1)=VAR[ !Xn+1]+BIAS2( !Xn+1) Media e varianza noteMedia ignota e varianza notaMedia nota e varianza ignotaMedia e varianza ignote !Xn+1! $*t"/2,n*1 s2+ s2 n,$+t"/2,n*1 s2+ s2 n !Xn+1! x*z"/2 !2+ !2 n,x+z"/2 !2+ !2 n !Xn+1!($*z"/2 ! n,$+z"/2 ! n) !Xn+1! x*t"/2,n*1 s2+ s2 n,x+t"/2,n*1 s2+ s2 n 24 VI. Tipo di dati Campioni indipendentiDati accoppiatiSi usa quando nel testo c'è scritto che i dati sono indipendenti, oppure quando ci sono numeri diversi di dati nella tabella.Si usa quando nel testo non c'è scritto che i dati sono indipendenti e il numero di dati nella tabella è lo stesso.Con i campioni di dati indipendenti ed identicamente distribuiti si possono usare media e varianza campionaria per ognuno dei due data-set e si approssima la loro distribuzione ad una normale. Si usano Z, T o χ2 test per di fferenza o confronto. Con i campioni di dati accoppiati si lavora facendo la di fferenza tra ognuna delle coppie di dati accoppiati e si trova la metà dei dati. A questo punto si fanno i normali Z, T o χ2 test a seconda delle richieste, i dati trovati sono tra loro indipendenti. 25 Regressione lineare La regressione lineare serve per comprendere quanto e come una variabile aleatoria X, detta condizionante o indipendente, condiziona un'altra variabile aleatoria Y, detta condizionata o dipendente. Modello di previsione : Retta di regressione teorica : = intercetta = coe fficiente angolare = errore statistico o residuo Assunzioni 1.Ipotesi di linearità 2.Dati normali 3. minima 4. , o il più vicino possibile a zero (stiamo usando il metodo dei minimi quadrati) I. Modello statistico di regressione lineare Essendo i parametri e del modello teorico incogniti dobbiamo trovarne delle stime numeriche Somma dei quadrati residui (degli errori) E' la somma dei quadrati dei residui semplici dedotti dal modello, ovvero la devianza (=indice di dispersione) residua. Essa è una misura della discrepanza tra i dati e il modello scelto, più è bassa migliore risulterà l'adattamento del modello ai dati e quindi più precise saranno le conclusioni che si traggono dal modello. Inoltre serve per ottenere la stima della varianza degli errori del modello, la varianza determina la variabilità delle osservazioni della risposta y per un dato valore del regressore x. Varianza degli errori del modello, che sono indipendenti e distribuiti normalmente con media nulla e varianza . Y= #0+#1X+& y= "#0+ "#1x #0#1&VAR[&]= E[&]= 0 #0#1x= 1 n n !i=1 xi y= 1 n n !i=1 yi sxx= n !i=1 (xi*x)2 sxy= n !i=1 (xi*x)(yi*y) syy= n !i=1 (yi*y)2 Coe fficiente angolare IntercettaResidui "#0=y* "#1x VAR[ "#0]= "!2 ( 1 n+ x2 sxx) "#1= sxy sxx VAR[ "#1]= "!2 sxx I residui vengono utilizzati per stimare la varianza degli errori del modello"&i=yi* !yi=yi*( "#0+ "#1xi) SSE SSE= n !i=1 (yi* "yi)2= n !i=1 "&2i !2"!2= SSE n*2 26 Somma dei quadrati di regressione E' la misura della variabilità (o devianza) "spiegata" dal modello di regressione, a di fferenza della SS E che rappresenta una misura della variabilità delle y che "non viene spiegata" dal modello di regressione. Somma totale dei quadrati E' una misura della variabilità totale della risposta. Coe fficiente di determinazione E' la proporzione di variabilità nella variabile risposta osservata che è spiegata dal modello di regressione lineare, fornisce un'indicazione di massima di quanto della variabilità totale dei dati viene spiegata dal modello creato. Esso può assumere valori tra 0 e 1, più esso si avvicina ad uno più il modello spiega l'e ffettivo comportamento dell'output. è la stima di Coe fficiente di correlazione campionaria E' uguale a R ma con il segno di . II. Intervalli di confidenza nella regressione lineare II. Predizione di risposte future SSR SSR= n !i=1 ( "yi*y)2 SST SST= n !i=1 (yi*y)2= SSR+SSE ,2R2= SSR SST = 1* SSE SST = "#21 sxx syy R2,2,"#1,= ± R Varianza residuiIntercettaPendenzaResponso #1!( "#1*t"/2,n*2 "! sxx, "#1+t"/2,n*2 "! sxx) #0! "#0*t"/2,n*2 "! 1 n+ x2 sxx, "#0+t"/2,n*2 "! 1 n+ x2 sxx !2! (n*2)- "!2 *2"/2,n*2 ,(n*2)- "!2 *21*"/2,n*2 y=#0+#1x0! "#0+ "#1x0*t"/2,n*2 "! 1 n+ (x0*x)2 sxx , "#0+ "#1x0+t"/2,n*2 "! 1 n+ (x0*x)2 sxx Predizione del responso y(x0) y=#0+#1x0! "#0+ "#1x0*t"/2,n*2 "! 1+ 1 n+ (x0*x)2 sxx , "#0+ "#1x0+t"/2,n*2 "! 1+ 1 n+ (x0*x)2 sxx 27 III. Verifica delle ipotesi nella regressione lineare Test di significatività della regressione Nei tre casi il test è molto importante perché non rifiutare l'ipotesi nulla equivale a concludere che non esiste relazione lineare tra x e y. Potrebbe quindi non esistere nessun tipo di relazione oppure esistere relazione di grado superiore al primo. Stima dell'intercetta Stima del coe fficiente angolare Stima della risposta Ipotesi nullaIpotesi alternativaH0:,=0 H1:#1+0 RC =!F0!>f"/2,n*2 H0:#1=0 F0= SSR(n*2) SSE H1:#1+0 RC =!T0!>t"/2,n*2 H0:#1=0 T0= "#1 "!2 sxx H1:,+0 Ipotesi nullaIpotesi alternativa H1:#0+#00 RC =!T0!>t"/2,n*2 H0:#0=#00 T0= "#0*#00 "!2( 1n+ x2 sxx) Ipotesi nullaIpotesi alternativa H1:#1+#10 RC =!T0!>t"/2,n*2 H0:#1=#10 T0= "#1*#10 "!2 sxx y(x0) Ipotesi nullaIpotesi alternativa H1:y+y0 RC =!T0!>t"/2,n*2 y è la risposta registrata mentre y 0 è la risposta attesa del modello H0:y=y0 T0= y*y0 "!2(1+ 1n+ x2 sxx) 28 R I. Output > summary(linearModel) lm(formula = Y ~ x) Residuals: Min 1Q Median 3Q Max -6.5533 -2.2033 0.3515 2.1888 5.9874 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -6.27975 0.89762 -6.996 4.97e-12 *** x 0.73058 0.01264 57.785 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.638 on 948 degrees of freedom Multiple R-squared: 0.7789, Adjusted R-squared: 0.7786 F-statistic: 3339 on 1 and 948 DF, p-value: < 2.2e-16 > shapiro.test(linearModel$residuals) Shapiro-Wilk normality test data: linearModel$residuals W = 0.97264, p-value = 0.88 II. Analisi dell'output lm crea un modello di regressione lineare a partire da due o più variabili Residui Residuals: Min 1Q Median 3Q Max -6.5533 -2.2033 0.3515 2.1888 5.9874 Sono rappresentati i quartili dei residui. Controllo del modello Bisogna controllare se i quartili sono simmetrici o meno. Se lo sono la distribuzione dei residui è normale, se non lo sono probabilmente il modello utilizzato non modellizza al meglio la distribuzione, i residui devono essere . Stimatori Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -6.27975 0.89762 -6.996 4.97e-12 *** x 0.73058 0.01264 57.785 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 &4 N(0,!2) 29 (Intercept) nome di x nome di Estimate stima dei valori di e Std. Error deviazione standard di e t value valore di del test di ipotesi con per e per Pr (> |t|) è il p-value del T test *** codice di significatività del T test (sono in relazione al p-value) Controllo del modello Un buon modello deve avere i p-value relativi ai test di significatività Pr (> |t|) bassi e deviazioni standard dei coe fficienti basse. Altre informazioni Residual standard error: 2.638 on 948 degrees of freedom Multiple R-squared: 0.7789, Adjusted R-squared: 0.7786 F-statistic: 3339 on 1 and 948 DF, p-value: < 2.2e-16 Residual standard error è , quindi la deviazione standard dei residui Degrees of freedom gradi di libertà della distribuzione di Student usata per i test sui coe fficienti Multiple R-squared è il coe fficiente di determinazione (da usare quando c'è un solo regressore) Adjusted R-squared è il coe fficiente di determinazione (da usare quando ci sono più regressori) p-value è il p-value del test di ipotesi in cui l'ipotesi nulla è "non esiste questo modello lineare", quindi quella in cui tutti i coe fficienti del modello sono uguali a zero. Controllo del modello Un buon modello deve avere Multiple R-squared più vicino a 1 possibile (maggiore di 0.9) e p-value basso. Test per la normalità dei residui > shapiro.test(linearModel$residuals) Shapiro-Wilk normality test data: linearModel$residuals W = 0.97264, p-value = 0.88 Il p-value rappresenta la probabilità che dei dati veramente normali fossero più lontani della normalità rispetto ai residui del modello. Il p-value basso fa rifiutare l'ipotesi nulla che i valori campionari siano distribuiti come una variabile casuale normale. Se sta sopra 0.05 accetto , ma più alto meglio è. #0#1#0#1#0#1T0H0:#0= 0 #0H0:#1= 0 #1"!H0 30 Grafico Controllo del modello Il grafico di un buon modello deve avere un andamento a nuvola attorno alla retta di regressione, esso è tipico nel caso di errori casuali, che non seguono distribuzioni particolari (ma seguono distribuzione normale), e omoschedastici, quindi omogeneamente distribuiti intorno alla retta di regressione (se per esempio aumentassero all'aumentare del valore predetto Y sarebbero eteroschedastici).31