Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 20 13-14 Docent e: P. Lops 15 Luglio 20 14 (DURATA: 90 minuti ) Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano dati l’insieme delle categorie C = {c 1, c 2} e una collezione di documenti definiti sul vocabolario V = {T 1, T 2, T 3, T 4, T 5, T 6>}. Costruire un classificatore bayesiano per C, addestrandolo sul seguente training set TR : TR = {, , , } dove per ogni documento d j si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: d1={T 1:2, T 2:3, T 3:4} d2={T 1:1, T 4:2} d3={T 2:1, T 4:2} d4={T 1:1, T 2:2, T 6:4} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 7) Determinare la classe di appartenenza del documento d x={ T4:2, T 6:2} (PUNTI 3) 2) Sia q una query e s iano S1 ed S2 due sistemi che riportano i seguenti primi 10 risultati in risposta alla query q. R indica che un documento è rilevante, N indica che il documento è non rilevante (il risultato più a sinistra è il top della lista). S1: NNRN RRNNRR S2: NRN RRRRN RN Supponiamo inoltre che i documenti rilevanti nella collezione sono 6 . a) Fornire una breve descrizione delle metriche Precision@N, Recall@N, Average Precision (PUNTI 4) b) Calcolare l’accuratezza dei due sistemi per la query q, utilizzando le seguenti metriche : Precision@1, P Precision@5, Precision@10, Recall@10 , Average Precision (PUNTI 6) 3) Sia data la seguente matrice utenti -item di un sistema di filtraggio collaborativo, i cui rating di gradimento sono espressi in una scala discreta da 1 a 5 I1 I2 I3 I4 I5 U1 1 3 4 1 4 U2 2 4 3 1 5 U3 1 5 5 U4 1 1 4 2 4 a) Indicare la lista ordinata dei neighbors per l’utente attivo U3, utilizzando la misura di similarità del coseno (PUNTI 4) b) Calcolare le predizioni per gli item I4 ed I5 per l’utente attivo U3, utilizzando un algoritmo di collaborative filtering di tipo user -to-user, ed utilizzando una neighborhood size pari a 2. (PUNTI 6)