Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 2018 -19 Docente: P. Lops - 18 Gennaio 2019 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano dati l’insieme delle categorie C={ c1 ,c2 } e una collezione di 10 0 documenti definiti sul vocabolario V = {T1, T2, T3, T4, T5}. Costruire un classificatore k-NN (k=3) per C, addestrandolo sul seguente training set TR = {, , , } dove per ogni documento si riporta di seguito l’elenco delle parole con le relative occorrenze: T1 T2 T3 T4 T5 D1 2 3 0 4 0 D2 1 0 2 0 1 D3 0 1 0 2 1 D4 0 2 0 0 4 e determinare la classe di appartenenza del seguente documento d={T 1:2,T6: 2} Nota Bene: rappresentare i documenti utilizzando le occorrenze dei termini e utilizzare la similarità del prodotto interno . (PUNTI 6) 2) Sia q una query che ha 6 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento riporti il seguente ranking R q (R = rilevante; N = non rilevante; il risultato più a sinistra è il to p della lista) Rq: NRRN RNNRN N a) Calcolare Precision , Recall ed Average Precision per la query q, fornendo anche una descrizione sintetica delle metriche (PUNTI 4) b) Riportare la curva di precision -recall per la query q, usando gli 11 livelli standard di recall (PUNTI 4) 3) Sia data la seguente matrice utenti -item di un sistema di filtraggio collaborativo, i cui rating di gradimento sono espressi in una scala discreta da 1 a 5 I1 I2 I3 I4 I5 U1 2 4 1 ? 1 U2 5 2 U3 3 5 1 2 U4 4 4 2 2 Calcolare la predizione per l’item I 4 e l’utente U 1, utilizzando un algoritmo di user -to-user collaborative filtering , una neighborhood size pari a 2 e il coefficiente di correlazione di Pearson come misura di similarità . (PUNTI 6) 4) Descrivere in maniera sintetica i principi alla base del PageRank, focalizzando l’attenzione sulla formulazione basata su: a) Flow model (PUNTI 3) b) Matrici di adiacenza stocastiche (PUNTI 5) 5) Descrivere in maniera sintetica il concetto di reificazione degli statement RDF. (PUNTI 3)