Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 20 13-14 Docent e: P. Lops 11 Febbraio 20 14 (DURATA: 90 minuti ) Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano d ati i seguenti documenti estratti da una collezione di 100 documenti: D1 = “ T1 T2 T1 T3 ” D2 = “ T3 T4 ” D3 = “ T1 T5 T4 T4 ” a) Fornire la rappresentazione dei documenti sotto forma di bag -of -words (PUNTI 2) b) Costruire l'indice invertito della collezione (PUNTI 2) c) Calcolare la rappresentazione TF -IDF per i 3 documenti ( usare il numero di occorrenze non normalizzato per il TF) (PUNTI 3) d) Utilizzando la similarità del coseno, definire quale documento tra D2 e D3 è il più simile al documento D1 (PUNTI 3) 2) Siano dati l’insieme delle categorie C = {c 1, c 2} e una collezione di documenti definiti sul vocabolario V = {T 1, T 2, T 3, T 4, T 5}. Costruire un classificatore bayesiano per C, addestrandolo sul seguente training set TR : TR = {, , , } dove per ogni documento d j si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: d1={T 1:2, T 2:3} d2={T 1:1, T 3:2} d3={T 2:1, T 4:2} d4={T 1:1, T 2:2} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 7) Determinare la classe di ap partenenza del documento dx={T 2:1, T5:2} (PUNTI 3) 3) Descrivere la metrica nDCG (normalized Discounted Cumulative Gain) per la valutazione dei sistemi di Information Retrieval, discutendo ne i principi, ed esplicitandone il processo di calcolo. (PUNTI 10)