- userLoginStatus
Welcome
Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.
Informatica - Metodi per il ritrovamento dell'informazione
First partial exam
I prova in itinere di METODI PER LA GESTIONE DELL A CONOSCENZA (25/11/2016) C.d.L. in Informatica e Tecn. Per la Prod. d el Software - A.A. 20 16-17 - Docent e: P. Lops Nome e Cognome : __________ _________ __________ Matric ola : ______ _________ 1) Siano dati l’insieme delle categorie C = {c1, c2, c3} e un a collezione di 100 documenti. a) Costruire un classificatore bayesiano per C , addestrandolo sul seguente training set TR : TR = {< D1 ,c1>, < D2 ,c1>, < D3 ,c2>, < D4 ,c2>, < D5 ,c3>} dove per ogni documento si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: D1={T1:2, T2:3 , T4: 4} D2={T1:1, T3:2} D3={T2:1, T4:2} D4={T2:2, T5:4} D5={T3: 7, T5: 2} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 6) b) Determinare la classe di appartenenza del seguente documento d={T 3:4,T6: 2} (PUNTI 2) 2) Siano dati i seguenti documenti e la query Q rappresentati come vettori di pesi TF -IDF non normalizzati: T1 T2 T3 T4 T5 T6 D1 2 2 0 0 0 0 D2 0 0 1 2 3 0 D3 2 1 0 2 0 0 D4 5 1 0 0 2 0 Q 0 0 3 4 0 0 a) Calcolare il ranking dei documenti rispetto alla query Q utilizzando la similarità del coseno. (PUNTI 3) b) Assumendo che D1 e D2 siano rilevanti, mentre D3 non sia invece rilevante, riformulare la query utilizzando l’algoritmo di Rocchio (utilizzare α=0.75 e β=0.25). (PUNTI 5) 3) Sia q una query che ha 5 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking Rq: D1 D3 D5 D7 D9 D4 Suppon iamo che D1 , D7 e D9 siano documenti rilevanti per q a) Calcolare Precision, Recall ed Average Precision per q, fornendo anche una descrizione formale delle metriche (PUNTI 4 ) b) Supponendo di avere dei giudizi di rilevanza non binari, e assumendo che D1 e D9 abbiano un grado di rilevanza pari a 3, mentre D7 abbia un grado di rilevanza pari a 2, calcolare il valore dell’ nDCG (normalized Discounted Cumulative Gain) per q, fornendo anche una breve descrizione della metrica. (PUNTI 5) 4) Descrivere l’ontologia linguistica WordNet ed indicare come è organizzata e rappresentata la conoscenza lessicale al suo interno. (PUNTI 7)