logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Management Engineering - Business Data Analytics

Full exam

18 Domanda 7 35 Domanda 7 36 #restrizione dataset db_us = db_regressione[ which (db_regressione $ paese == 1 ), ] y_us = db_us $ sigarette x_us = db_us $ variabile.assegnazione #stima modello RDD solo su US rdd_model_us = rdrobust (y_us, x_us, c= 1 , p = 3 , kernel = "uniform" ) summary (rdd_model_us) 19 Domanda 7 37  Coefficiente stimato : -0.281.  Validità interna : aumenta perché restringendo il dataset ad osservazioni localizzate solo negli US è lecito attendersi un incremento della comparabilità delle regioni analizzate.  Validità esterna : diminuisce perché la restrizione del dataset a regioni localizzate solo negli US non rende possibile generalizzare i risultati ad altre regioni del mondo che potrebbero avere caratteristiche diverse. 8 Soluzione Esame 09 -09 -21 Agenda 2 ➢ Parte A ➢ Parte B Quesito 1 3 Si vuole stimare l’impatto della variabile d (variabile trattamento) sulla variabile Y (variabile outcome ). Le variabili a,b , e c sono caratteristiche osservabili. Facendo riferimento al seguente output del codice R, selezionare le affermazioni corrette (https://www.dropbox.com/s/z2oashh3mg1otxy/BDA_09_09_21_Figura_1.png?dl=0): Quesito 1 4 1. Nel campione completo, i t -test forniscono evidenza che le unità trattate e le unità non trattate risultano comparabili rispetto alle caratteristiche osservabili a, b, c. 2. Il dataset matchato dopo la stima del Propensity Score Matching presenta unità trattate e non trattate che risultano comparabili rispetto alle caratteristiche osservabili a, b, c. 3. Il Propensity Score Matching incrementa la validità esterna di un’analisi svolta sul dataset matchato per la stima dell’impatto della variabile d sulla variabile y. 4. Il propensity score matching stima una regressione logistica dove la variabile dipendente è la variabile y e le covariate sono le caratteristiche osservabili a,b , c ed il trattamento d. 5. Nessuna delle altre risposte è vera. Quesito 1 5 1. Nel campione completo, i t -test forniscono evidenza che le unità trattate e le unità non trattate risultano comparabili rispetto alle caratteristiche osservabili a, b, c. FALSO (I t -test rigettano l’ipotesi nulla che le unità trattate e non trattate abbiano stessa media rispetto alle variabili osservabili a, b, c). 2. Il dataset ristretto dopo la stima del Propensity Score Matching presenta unità trattate e non trattate che risultano comparabili rispetto al alle caratteristiche osservabili a, b, c. VERO (I t -test NON rigettano l’ipotesi nulla che le unità trattate e non trattate abbiano stessa media rispetto alle variabili osservabili a, b, c). 3. Il Propensity Score Matching incrementa la validità esterna di un’analisi svolta sul dataset ristretto, per la stima dell’impatto della variabile D sulla variabile Y. FALSO (Il Propensity Score Matching può contribuire ad aumentare la validità interna dell’analisi, ma non ha impatto sulla possibilità di generalizzare i risultati dell’analisi effettuata). 4. Il propensity score matching va a stimare una regressione logistica dove la variabile dipendente è la variabile Y e le covariate sono le caratteristiche osservabili a,b , c ed il trattamento d. FALSO (Il Propensity Score Matching va a stimare una regressione logistica dove la variabile dipendente è la variabile d e le covariate sono le caratteristiche osservabili a,b , c). 5. Nessuna delle altre risposte è vera. FALSO (Come conseguenza dell’affermazione 2 che è vera). Quesito 2 6 Si supponga di avere a disposizione i dati contenuti nella seguente tabella (https://www.dropbox.com/s/3yoiz34c3f1mymb/BDA_09_09_21_Figura_2.PNG?dl=0 ). Considerare che la porzione di popolazione non trattata è pari a 0.8 e la porzione di popolazione trattata è pari a 0.2. Selezionare le affermazioni corrette: La tabella contiene i valori della variabile outcome Gruppo Trattato Gruppo non Trattato Outcome con trattamento 10 4 Outcome senza trattamento 6 3 1. La differenza tra Naive Estimator (NE) ed Average Treatment on Treated (ATT) è superiore a 4. 2. L’Average Treatment Effect (ATE) è pari a 3.4. 3. L’ATT è superiore all’ATU ( Average Treatment Effect on Untreated ). 4. L’ATT è pari a 4. 5. Nessuna delle altre risposte è corretta. Quesito 2 7 NE = E(Y1 |D=1) – E(Y0 |D=0) = 10 – 3 = 7 ATT = E(Y1 |D=1) – E(Y0 |D=1) = 10 – 6 = 4 ATU = E(Y1|D=0) − E(Y0|D=0) = 4 -3 = 1 ATE = µATT + (1 − µ)ATU, dove µ è la percentuale della popolazione trattata = 0.2* 4 + 0.8*1 = 1.6 Conseguentemente: 1. La differenza tra Naive Estimator (NE) ed Average Treatment on Treated (ATT) è superiore a 4. 2. FALSO (La differenza è pari a 3). 3. L’Average Treatment Effect (ATE) è pari a 3.4. FALSO (L’ATE è pari a 1.6). 4. L’ATT è superiore all’ATU ( Average Treatment Effect on Untreated ). VERO (L’ATT è pari a 4, mentre l’ATU è pari a 1). 5. L’ATT è pari a 4. VERO. 6. Nessuna delle altre risposte è corretta. FALSO (In conseguenza delle risposte 3 e 4 che sono vere). Quesito 3 Selezionare le affermazioni corrette ▪ L'algoritmo Girvan -Newmann usa la betweenness dei nodi per ottenere le comunità di una rete. ▪ Il grado di un nodo in una rete ha un massimo teorico che non dipende dal numero di link. ▪ Se assumiamo che il parametro beta sia pari a 1 calcolare l’algoritmo PageRank è equivalente a calcolare la centralità di Katz riscalando per l’outdegree . ▪ L'authority score di un nodo è la somma degli hub score dei nodi che fanno parte della sua stessa comunità. ▪ Una misura di assortatività della rete è il coefficiente di correlazione Pearson tra il grado dei nodi della rete. Se esso è uguale a 0 la rete è disassortativa. 8 Quesito 3 Selezionare le affermazioni corrette ▪ L'algoritmo Girvan -Newmann usa la betweenness dei nodi per ottenere le comunità di una rete. FALSO: usa la betweenness dei link della rete. ▪ Il grado di un nodo in una rete ha un massimo teorico che non dipende dal numero di link. VERO: è pari a n -1 per le reti non direzionate e 2(n -1) per le reti direzionati. ▪ Se assumiamo che il parametro beta sia pari a 1 calcolare l’algoritmo PageRank è equivalente a calcolare la centralità di Katz riscalando per l’outdegree . VERO: cfr. La lezione «La centralità dei nodi in una rete», pagina 16 -18. ▪ L'authority score di un nodo è la somma degli hub score dei nodi che fanno parte della sua stessa comunità. FALSO: è la somma degli hub score dei nodi che puntano a quel nodo. ▪ Una misura di assortatività della rete è il coefficiente di correlazione Pearson tra il grado dei nodi della rete. Se esso è uguale a 0 la rete è disassortativa. FALSO: per le reti disassortative r è negativo. 9 Quesito 4 ▪ Un classificatore mostra le seguenti caratteristiche: ▪ Sensitivity = 80% ▪ Specificity = 80% ▪ Precision = 2/3 ▪ Si calcoli l’accuracy 10 Quesito 4 ▪ Sensitivity = TP/P = TP/(TP+FN) = 80% ▪ TP = 80% (TP+FN) ▪ 20% TP = 80% FN ▪ FN = TP/4 = 0.25 TP ▪ Precision = TP/(TP+FP) = 2/3 ▪ TP = (2/3) (TP+FP) ▪ (1/3) TP = (2/3) FP ▪ FP = TP/2 = 0.5 TP ▪ Specificity = TN / (TN+FP) = 80% ▪ TN = 80% (TN+FP) ▪ 20% TN = 80% FP ▪ TN = 4 FP = (4/2) TP = 2 TP ▪ Accuracy = (TP+TN)/(TP+TN+FP+FN) = (TP+2TP)/(TP+2TP+0.25TP+0.5TP) = = 3TP/3.75TP = 3/3.75 = 80% 11 Quesito 5 ▪ Il seguente dendogramma mostra il risultato di un algoritmo di hierarchical clustering su 9 osservazioni con distanza Euclidea e method=”complete” (LINK: https://www.dropbox.com/s/bfyf8518xfs3psq/hc.png?dl=0) 12 Quesito 5 ▪ Selezionare le risposte corrette : ▪ Tagliando il dendogramma a height=6 si ottengono 3 cluster ▪ Tagliando il dendogramma a height=2 si ottengono 3 cluster ▪ L’osservazione 1 è simile all’osservazione 4 tanto quanto è simile all’osservazione 3 ▪ Tagliando il dendogramma a height=2, le osservazioni 2 e 6 apparterrebbero allo stesso cluster ▪ Tagliando il dendogramma a height=4, le osservazioni 6 e 7 apparterebbero allo stesso cluster 13 Quesito 5 ▪ Tagliando il dendogramma a height=6 si ottengono 3 cluster ▪ FALSO: tagliando a height=6 si ottengono 2 cluster ▪ Tagliando il dendogramma a height=2 si ottengono 3 cluster ▪ VERO: tagliando a height=2 si ottengono 3 cluster ▪ L’osservazione 1 è simile all’osservazione 4 tanto quanto è simile all’osservazione 3 ▪ VERO: 1 si fonde con 3 nello stesso punto del dendogramma in cui si fonde con 4 ▪ Tagliando il dendogramma a height=2, le osservazioni 2 e 6 apparterrebbero allo stesso cluster ▪ FALSO: tagliando a height=2 le osservazioni 2 e 6 appartengono a due cluster diversi ▪ Tagliando il dendogramma a height=4, le osservazioni 6 e 7 apparterebbero allo stesso cluster ▪ VERO: tagliando a height=4, le osservazioni 6 e 7 appartengono allo stesso cluster 14 Quesito 6 Indicare quali delle seguenti affermazioni relative al metodo KNN sono da considerarsi corrette: ▪ Viene tipicamente usato per un output a 2 classi FALSO: può essere usato con un numero di classi qualsiasi ▪ Non permette di determinare la significatività della dipendenza da una covariata VERO: il concetto di covariata non esiste nel KNN ▪ Costruisce sempre un bordo lineare di classificazione FALSO: il KNN è un metodo non parametrico che identifica dei bordi non lineari, che variano a seconda del k ▪ Può essere usato con un numero di classi qualsiasi VERO 15 Quesito 7 I grafici in Figura (https://www.dropbox.com/s/1e5ueo2qhxkk7se/Figura - 7.png?dl=0) riportano l’output R relativo a una regressione LASSO con parametro lambda di penalizzazione fissato (Figura (a)), e il valore dei coefficienti stimati al variare del parametro lambda (Figura (b); le ascisse sono riportate su scala logaritmica). Indicare l’affermazione vera. 16 Quesito 7 ▪ Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [ -10, -5] FALSO: tra -10 e -5 si vedono più di 6 coefficienti (come invece appare nella figura a) diversi da 0. ▪ Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [5,10] FALSO: tra 5e 10 tutti i coefficienti sono a 0. ▪ Il logaritmo del parametro lambda relativo ai coefficienti in Figura (a) è nel range [ -5,5] VERO: è in questo range di lambda che si passa da 13 coefficienti diversi da 0 a 0 coefficienti diversi da 0. ▪ La stima dei coefficienti ottenuta in Figura (a) coincide con quella di una regressione OLS (lambda = 0) FALSO: la stima dei coefficienti ottenuta in Figura (a) non corrisponde a lambda=0 e non è quindi uguale a quella di una regressione OLS. 17 Quesito 8 Il grafico in Figura (https://www.dropbox.com/s/lquyrxo92hiq1t7/Figura - 8.png?dl=0) presenta il biplot relativo all'Analisi delle Componenti Principali di due variabili x e y (pannello a), e i barplot dei loadings lungo le prime due componente principali (pannelli b -c). Indicare le affermazioni vere: 18 Quesito 8 ▪ La prima componente principale rappresenta una media delle variabili x e y. FALSO: la prima componente principale rappresenta solo la variabile x ▪ Scores alti lungo la seconda componente principali sono associati a valori più bassi della media per la variabile y VERO: la seconda componente principale cresce inversamente alla variabile y ▪ Una componente principale è sufficiente a spiegare l'intera variabilità del dataset. VERO: la prima componente principale spiega il 99.99% della variabilità totale ▪ Le variabili originali sono scorrelate VERO: al crescere della x, la y non ha un andamento lineare definito (non cresce e non decresce) 19 Quesito 9 Se in un test d'ipotesi unilatero per la differenza delle medie tra due popolazioni gaussiane con livello di significatività 5% il p -value è 0.036, allora: ▪ rifiuto l'ipotesi nulla VERO: il pvalue è il più piccolo valore per cui rifiuto. Quindi, rifiuto per qualsiasi valore di alpha > pvalue . ▪ concludo che le medie delle due popolazioni sono diverse VERO: al 5% rifiuto H0 e quindi le medie sono diverse ▪ non ho evidenza per rifiutare l'ipotesi nulla FALSO: visto che 0.05 > 0.036, rifiuto H0 ▪ la probabilità di errore di I tipo è 0.025 e la probabilità di errore di II tipo 0.036 FALSO: il pvalue non è l’errore di II tipo e alpha è l’errore di I tipo 20 Quesito 10 Nel contesto della validazione interna, con il termine "errore di test" ci si riferisce: ▪ all’errore medio che si ottiene utilizzando il modello sullo stesso insieme di dati usato per calibrare il modello FALSO: l’errore di test si calcola sull’insieme di dati non utilizzato per calibrare il modello (che viene invece chiamato training set) ▪ all’errore medio che si ottiene utilizzando il metodo per prevedere la risposta su una nuova osservazione, che non è stata usata per stimare il modello VERO ▪ ad una quantità che è sempre inferiore all'errore di training FALSO: solitamente ci si aspetta che l’errore di test sia maggiore dell’errore di training ▪ ad una quantità che viene tendenzialmente sottostimata dall'errore di training VERO: vedi punto sopra 21 BDA - Appello III - 09/09/2021 Descrizione dei datiSi eettui il download del dataset `social network clienti' dal seguente link: https://www.dropbox.com/s/gs x79wm2wzq4kwe/social_network_clienti.gml?dl=0 . Il dataset `social network clienti' riguarda un'azienda che produce software e che, in particolare, si concentra sui videogiochi e sui software per l'apprendimento delle lingue. L'azienda ha creato un social network per i suoi clienti dove poter condividere domande e risposte relative ai suoi prodotti. Nell'arco dei primi tre mesi del social network l'azienda ha monitorato le attività degli utenti del social network e misurato le interazioni tra di loro, raccogliendo le rilevazioni in un dataset insieme a dettagli relativi alle caratteristiche dei clienti. Il dato sulle interazioni è una rete diretta e non pesata dove ogni link indica se un cliente ha inviato un messaggio o risposto alla domanda di un altro cliente. La rete ha 150 nodi (i clienti) e 1800 link (le interazioni). Inoltre l'azienda possiede informazioni sulle seguenti caratteristiche dei clienti:ˆreddito(numeric): reddito del cliente in migliaia di dollari; ˆstrategico ,guerra ,ruolo ,fantastico ,azione ,storico (tutte e 6 numeric): grado di interesse del cliente verso la categoria di videogioco, espresso in un'opportuna unità di misura (valori più alti corrispondono ad un maggiore interesse) ˆitaliano ,inglese ,francese ,spagnolo ,tedesco ,olandese (tutte e 6 numeric): grado di interesse del cliente verso il software di lingua, espresso nella stessa unità di misura usata per le categorie di videogiochi (valori più alti corrispondono ad un maggiore interesse) ˆzona(character): area geograca di residenza del cliente (US, Europa, Altro) Le caratteristiche dei clienti sono contenute nel le `clienti.RData'. Eseguire il download del dataset dal seguente link: https://www.dropbox.com/s/c94r2c3zls3wwnv/clienti.Rdata?dl=0 . Si carichino i pacchettiigraph, poweRlaw, glmnet. Prima di iniziare, eseguire le seguenti operazioni per assicurarsi che i dati siano corretti:ˆCaricare il dataset delle interazioni (`social network clienti') con il seguente comando: g