logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 2018 -19 Docente: P. Lops - 5 Febbraio 2019 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Sia q una query che ha 6 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking R q: D1 D5 D3 D7 D9 D4 Supponiamo che D1 , D3 e D9 siano documenti rilevanti per q a) Calcolare l’Average Precision per la query q, fornendo anche una descrizione dell a metric a (PUNTI 3) b) Riportare la curva di precision -recall per la query q, usando gli 11 livelli standard di recall (PUNTI 3 ) c) Supponendo di avere dei giudizi di rilevanza non binari, e assumendo che D9 abbia un grado di rilevanza pari a 3, mentre D1 e D3 abbiano un grado di rilevanza pari a 1, calcolare il valore del DCG (Discounted Cumulative Gain) per q, fornendo anche una breve descrizione della metrica. (PUNTI 4) 2) Siano dati l’insieme delle categorie C = {c1, c2 } e un a collezione di 100 documenti. a) Costruire un classificatore bayesiano per C , addestrandolo sul seguente training set TR : TR = {, , , , } dove per ogni documento si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: D1={T1:2, T2:3 , T4: 4} D2={T1:1, T3:2} D3={T2:1, T4:2} D4={T2:2, T 3:4} D5={T 1:4, T 4:2} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 6 ) 3) Descrivere il problema dello spider trap nell’algoritmo PageRank e illustrare una possibile soluzione. (PUNTI 6) 4) Descrivere in maniera sintetica il concetto di reificazione degli statement RDF. (PUNTI 3) 5) Descrivere il processo di modifica delle query basato sul metodo del relevance feedback (algoritmo di Rocchio). (PUNTI 6) Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 2018 -19 Docente: P. Lops - 5 Febbraio 2019 Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Sia q una query che ha 6 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking R q: D1 D5 D3 D7 D9 D4 Supponiamo che D1 , D3 e D9 siano documenti rilevanti per q a) Calcolare l’Average Precision per la query q, fornendo anche una descrizione dell a metric a (PUNTI 3) b) Riportare la curva di precision -recall per la query q, usando gli 11 livelli standard di recall (PUNTI 3) c) Supponendo di avere dei giudizi di rilevanza non binari, e assumendo che D9 abbia un grado di rilevanza pari a 3, mentre D1 e D3 abbiano un grado di rilevanza pari a 1, calcolare il valore del DCG (Discounted Cumulative Gain) per q, fornendo anche una breve descrizione della metrica. (PUNTI 4) 2) Siano dati l’insieme delle categorie C = {c1, c2 } e un a collezione di 100 documenti. a) Costruire un classificatore bayesiano per C , addestrandolo sul seguente training set TR : TR = {, , , , } dove per ogni documento si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: D1={T1:2, T2:3 , T4: 4} D2={T1:1, T3:2} D3={T2:1, T4:2} D4={T2:2, T 3:4} D5={T 1:4, T 4:2} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 6) 3) Descrivere il problema dello spider trap nell’algoritmo PageRank e illustrare una possibile soluzione. (PUNTI 6) 4) Descrivere in maniera sintetica il concetto di reificazione degli statement RDF. (PUNTI 3) 5) Descrivere il processo di modifica delle query basato sul metodo del relevance feedback (algoritmo di Rocchio). (PUNTI 6)