logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 201 9-20 Docente: P. Lops - 16 Gennaio 20 20 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano dati l’insieme delle categorie C={ c1 ,c2 } e una collezione di 150 documenti definiti sul vocabolario V = {T1, T2, T3, T4, T5}. Costruire un classificatore k-NN (k=3) per C, addestrandolo sul seguente training set TR = {, , , < D4,c 2> } dove per ogni documento si riporta di seguito l’elenco delle parole con le relative occorrenze: T1 T2 T3 T4 T5 D1 3 3 0 4 0 D2 1 0 2 0 1 D3 0 1 0 2 1 D4 0 2 0 0 4 De terminare inoltre la classe di appartenenza del seguente documento d={T 1:2,T5:2} Nota Bene: rappresentare i documenti utilizzando le occorrenze dei termini e utilizzare la similarità del prodotto interno . (PUNTI 6) 2) Descrivere la metrica nDCG (normalized Discounted Cumulative Gai n), illustrandone calcolo e principi di bas e. (PUNTI 4) 3) Sia q una query che ha 5 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking Rq: D1 D5 D3 D7 D9 D4 . Supponendo di avere dei giudizi di rilevanza non binari espr essi in u na scala a 5 valori ( 1-5), e assumendo che D1 e D9 abbi ano rilevanza pari a 5, mentre D5 abbia rilevanza pari a 3, calcolare il valore dell’ nDCG per q. (PUNTI 4) 4) Descrivere in maniera sintetica i principi alla base del PageRank, focalizzando l’attenzione sulla formulazione basata su : a) Flow model (PUNTI 4) b) Matrici di adiacenza sto castiche (PUNTI 4) 5) Descrivere in maniera sintetica il concetto di reificazione degli statement RDF. (PUNTI 3) 6) Descrivere il processo di modifica delle query basa to sul metodo del relevance feedback (algoritmo di Rocchio). (PUNTI 5) Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 201 9-20 Docente: P. Lops - 16 Gennaio 20 20 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Siano dati l’insieme delle categorie C={ c1 ,c2 } e una collezione di 150 documenti definiti sul vocabolario V = {T1, T2, T3, T4, T5}. Costruire un classificatore k-NN (k=3) per C, addestrandolo sul seguente training set TR = {, , , < D4,c 2> } dove per ogni documento si riporta di seguito l’elenco delle parole con le relative occorrenze: T1 T2 T3 T4 T5 D1 3 3 0 4 0 D2 1 0 2 0 1 D3 0 1 0 2 1 D4 0 2 0 0 4 De terminare inoltre la classe di appartenenza del seguente documento d={T 1:2,T5:2} Nota Bene: rappresentare i documenti utilizzando le occorrenze dei termini e utilizzare la similarità del prodotto interno . (PUNTI 6) 2) Descrivere la metrica nDCG (normalized Discounted Cumulative Gai n), illustrandone calcolo e principi di bas e. (PUNTI 4) 3) Sia q una query che ha 5 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking Rq: D1 D5 D3 D7 D9 D4 . Supponendo di avere dei giudizi di rilevanza non binari espr essi in u na scala a 5 valori ( 1-5), e assumendo che D1 e D9 abbi ano rilevanza pari a 5, mentre D5 abbia rilevanza pari a 3, calcolare il valore dell’ nDCG per q. (PUNTI 4) 4) Descrivere in maniera sintetica i principi alla base del PageRank, focalizzando l’attenzione sulla formulazione basata su : a) Flow model (PUNTI 4) b) Matrici di adiacenza sto castiche (PUNTI 4) 5) Descrivere in maniera sintetica il concetto di reificazione degli statement RDF. (PUNTI 3) 6) Descrivere il processo di modifica delle query basa to sul metodo del relevance feedback (algoritmo di Rocchio). (PUNTI 5)