logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Management Engineering - Business Data Analytics

Full exam

Soluzione Esame 19-07-21 Agenda 2  Parte A  Parte B Quesito 1 3 Quesito 1 4 1. La figura mostra l’output di una Regressione Discontinua di tipo fuzzy. (FALSO, la regressione discontinua è di tipo sharp , dal momento che come argomento della funzione rdd non è stata specificata una variabile «eleggibilità per il trattamento» diversa rispetto alla variabile «assegnazione del trattamento» (rapporto altezza-peso)) . 2. Il programma ha un impatto statisticamente non significativo sulla riduzione di peso ad un livello di significatività del 10%. (VERO, si osservi il p- value del coefficiente stimato nella slide precedente). 3. Per la stima dell’impatto del programma la Regressione Discontinua utilizza meno del 55% delle osservazioni contenute nel dataset fuzzy. (FALSO, il numero effettivo di osservazioni utilizzato è 598 (308+290), corrispondente al 59.8% delle osservazioni del dataset). 4. L’ordine del polinomio locale utilizzato per stimare il modello è pari a 3 (FALSO, l’ordine del polinomio locale è 2 (parametro p)). 5. La coefficiente stimato (-0.034) corrisponde al parametro del seguente modello di regressione parametrico: =  +  + + + dove X è la variabile assegnazione (rapporto altezza peso) e D è la variabile trattamento (D i = 1 se l’individuo i è oggetto del trattamento è 0 altrimenti ) (FALSO, la regressione proposta è un modello parametrico che utilizza tutte le osservazioni contenute nel dataset. La RDD stimata è un modello non parametrico che utilizza un subset di osservazioni nell’intorno del cut -off). 6. Nessuna delle altre risposte è corretta . (FALSO, come conseguenza della risposta 2 che è vera). Quesito 2 5 Quesito 2 6 Quesito 2 7 1. La variabile x_2 è una variabile endogena, mentre x_1 ed x_3 sono variabili esogene. (VERO, la variabile x_2 è presente solo nella «first side» della formula, mentre non è presente nella «second side» ed è dunque una variabile endogena. Le variabili x_1 ed x_3 sono presenti sia nella «first» che nella «second side» della formula e sono pertanto esogene). 2. L’output ottenuto è il risultato della stima di un modello di regressione discontinua sharp . (FALSO, l’output è il risultato di un modello con variabili strumentali). 3. Il modello fornisce evidenza che la variabile strumentale utilizzata è rilevante. (VERO, si veda il p- value associato al Weak Instrument test). 4. Il Sargan test non viene stimato in quanto il numero di variabili strumentali è uguale al numero di variabili considerate esogene. (FALSO, il Sargan test non viene stimato in quanto il numero di variabili strumentali è uguale al numero di variabili considerate endogene). 5. Nessuna delle altre risposte è corretta. (FALSO, come conseguenza della risposta 1 e 3 che sono vere). Quesito 3 8 Quesito 3 9 Si veda la slide 5 della lezione DAB_L04:  =  + 600 (,) Dunque  = 0.1  + 0.667 ∗1.010 1.352 = 0.1 + 0.498 = 0.598 Quesito 4 10 Quesito 4 11 Quesito 4 12 1. La distanza tra il nodo b e il nodo n è pari a 3 e si può misurare tramite 4 cammini diversi . FALSO: I cammini sono 3: b-e-d-n / b-c-d-n/b-g-m-n. 2. La densità della rete riportata alla terza cifra decimale senza arrotondamento è 0.227 VERO: 15/((12 *(12-1))/2) dove 15 è il numero di link e 12 è il numero di nodi. 3. Il nodo col Massimo grado è b. FALSO: è g 4. La closeness centrality del nodo g riportata alla terza cifra decimale senza arrotondamento è 0.705. FALSO: è 0.647. 5. Tutte le risposte sono false. FALSO. a b c d e f h i L m n Totale 2 1 2 3 2 1 1 1 1 1 2 17 = − 1 = 11 17 = 0 .647 Svolgimento del punto 4 :  : distanza tra il nodo g e ciascun altro nodo j della rete Quesito 5 13 Quesito 5 14 Quesito 5 15 1. La suddivisione rappresentata in figura a sinistra è la migliore. VERO: infatti la modularità raggiunge il massimo con una suddivisione in tre comunità 2. Unendo la comunità 1 e 2 in una singola comunità si ottiene una modularità migliore di una suddivisione in 4 comunità. FALSO: unendo le comunità 1 e 2 si ottiene una rete con sole due comunità e la modularità per una rete con due comunità è minore di quella con 4 comunità 3. Qualunque suddivisione in comunità è migliore di quella in cui l'unica comunità è composta dall'intera rete. FALSO: tale suddivisione ha sempre una modularità pari a 0, tuttavia se si assegna una singola comunità ad ogni singolo nodo si ottiene una modularità negativa. 4. Suddividere la rete in 10 comunità ottiene una modularità migliore rispetto al suddividere la rete in una comunità per nodo. VERO: suddividere la rete in una comunità per nodo ha una modularità negativa, suddividere la rete in 10 comunità ha una modularità bassa ma comunque positiva. Quesito 6 16 Quesito 6  Pooled variance sp2 = (0.194 *(80-1) + 0.178 *(40-1)) / (80-1+40-1) = 0.1887  Test a varianze uguali s = sqrt(sp2 *(1/n1 + 1/n2)) = 0.0841 t-test = (5.01-12.43)/s = -88.20  Sotto H0, e ipotizzando la Gaussianità dei dati e l’omogeneità delle varianze nelle due popolazioni, la statistica t è distribuita come una t-student con 118 gradi di libertà. In queste ipotesi, rifiuto l’ipotesi nulla a livello 1% 17 Quesito 7 18 Quesito 7 19 Quesito 7 20 • Il fattore “presenza di una piscina ” è significativo. • VERO: Il p-value del test sul corrispondente coefficiente è prossimo a 0 (terza riga della tabella dei coefficienti nel summary) • La distanza dal mare influisce significativamente sul prezzo medio di affitto di una villa. • VERO: Il p-value del test sul corrispondente coefficiente è prossimo a 0 (seconda riga della tabella dei coefficienti nel summary) • Si accetta il test F a livello 1%. • FALSO: Il test F restituisce un p-value prossimo a 0 (ultima riga del summary) • L’indice R2 suggerisce un cattivo adattamento del modello ai dati • FALSO: l'indice R2=0.878 suggerisce un ottimo adattamento del modello ai dati • Al crescere della distanza dal mare si osserva, in media, una crescita significativa del prezzo di affitto di una villa, a parità degli altri fattori • FALSO: al crescere della distanza dal mare si osserva in media una decrescita significativa del prezzo di affitto, a parità degli altri fattori. Infatti, la stima del corrispondente coefficiente è negativa (-0.08) e significativamente diversa da 0 (p-value prossimo a 0) Quesito 8 21 Quesito 8  Accuracy = (56+73)/(56+73+4+8) = 0.915 Errore di misclassificazione = 1- Accuracy = 0.085  Sensitivity = Recall = True Positive Rate = TP/P = 73/(73+4) = 0.948  FALSO. L’errore di misclassificazione calcolato sul training set è una stima OTTIMISTICA dell’errore di misclassificazione calcolato su un test set, a causa della possibilità di overfitting 22 Quesito 9 23 Quesito 9 24 Quesito 9  Il grafico in figura (d) si riferisce alla clusterizzazione dei dati riportati in figura (a).  VERO: Il grafico in figura (d) mostra chiaramente un gomito a K=2, corrispondente alla clusterizzazione che si evince dal grafico in figura (a)  Il grafico in figura (d) si riferisce alla clusterizzazione dei dati riportati in figura (b).  FALSO: Il grafico in figura (d) mostra chiaramente un gomito a K=2, che non trova corrispondenza nella nuvola di punti in figura (b), dove non si evince alcuna clusterizzazione evidente.  Il grafico in figura (c) suggerisce una netta divisione in K=3 cluster.  FALSO: il grafico in figura (c) non presenta alcun gomito evidente 25 Quesito 9  Il grafico in figura (c) suggerisce una divisione in K=2 cluster.  FALSO: il grafico in figura (c) non presenta alcun gomito evidente  Il grafico in figura (d) suggerisce una divisione in K=2 cluster.  VERO: Il grafico in figura (d) presenta un chiaro gomito per K=2  Il grafico in figura (c) suggerisce di non operare una clusterizzazione dei dati (unico cluster).  VERO: il grafico in figura (c) non presenta alcun gomito evidente 26 Quesito 10 27 Quesito 10 28 Quesito 10  Il p-value del test ANOVA è alto.  VERO: Il p-value del test ANOVA è superiore a tutti i livelli di significatività comunemente usati (1%, 5%, 10%)  Il test ANOVA suggerisce che il fattore “area d’Italia ” ha un’influenza significativa sulla media delle vendite di sciarpe  FALSO: Il p-value=0.287 suggerisce che l'influenza del fattore "area d'Italia" non è significativa (p-value alto)  Il p-value indica che, con probabilità 28.7%, il fattore “area d’Italia ” ha un’influenza significativa sulla media delle vendite di sciarpe.  FALSO: Il p-value indica che, sotto H0, la probabilità di osservare un valore della statistica test maggiore di quella osservata dal campione è 28.7%. 29 Quesito 10  Sotto H0, la statistica F del test ANOVA ha distribuzione t-student con 2 gradi di libertà.  FALSO: Sotto H0, la statistica F ha distribuzione F-Fisher con 2 e 161 gradi di libertà F(2,161)  Il p-value del test F riportato nel summary porta ad accettare l’ipotesi che i residui siano Gaussiani.  FALSO: Il p-value del test F riportato nel summary si riferisce alla significatività del fattore "area d'Italia", non alla Gaussianità dei residui 30 Agenda 31  Parte A  Parte B Dataset description 32 Quesito 1 33 df.train = read.csv("train.csv") df.test = read.csv("test.csv") df.train$y