Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER LA GESTIONE DELL A CONOSCENZA C.d.L. in Informatica e Tecn. per la Prod. del Software - A.A. 20 16-17 Docent e: P. Lops - 31 Gennaio 20 17 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano dati l’insieme delle categorie C={ c1 ,c2 } e una collezione di 10 0 documenti definiti sul vocabolario V = {T1, T2, T3, T4, T5, T6}. Costruire un classificatore k-NN (k=3) per C, addestrandolo sul seguente training set TR: TR = {, , , } dove per ogni documento si riporta di seguito l’elenco delle parole con le relative occorrenze: T1 T2 T3 T4 T5 T6 D1 2 3 0 4 0 0 D2 1 0 2 0 0 0 D3 0 1 0 2 0 0 D4 0 2 0 0 4 0 e determinare la classe di appartenenza del seguente documento d={T 1:2,T6: 2} NB: rappresentare i documenti utilizzando le occorrenze dei termini e utilizzare la similarità del prodotto interno . (PUNTI 6) 2) Sia q1 una query che ha 5 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato alla query riporti il seguente ranking R q1 (X indica che un documento è rilevante; 0 indica che il documento è non rilevante; il risultato più a sinistra è il top della lista): Rq1: X0 X00 000 XX a) Riportare la curva di precisione -richiamo per q1 usando gli 11 livelli standard di recall , descrivendo chiaramente la procedura di interpolazione adottata . (PUNTI 5) b) Calcolare R-precision e d Average Precision per l a query q1, fornendo anche una descrizione delle metriche (PUNTI 5) 3) Descrivere il processo di modifica delle query basato sul metodo del relevance feedback (PUNTI 7) 4) Descrivere il problema dello spider trap nell’algoritmo PageRank e illustrare una possibile soluzione. (PUNTI 7)