- userLoginStatus
Welcome
Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.
Informatica - Metodi per il ritrovamento dell'informazione
Full exam
Prova scritta di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 2020-21 Docenti: P. Lops, P. Basile - 21 Gennaio 2021 I turno 1) Siano dati l’insieme delle categorie C = {c 1, c 2} e una collezione di 150 documenti definiti sul vocabolario V = {T 1, T 2, T 3, T 4, T 5}. Costruire un classificatore bayesiano per C, addestrandolo sul seguente training set TR: TR = {, , , } dove per ogni documento d j si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: d 1={T 1:2, T 2:3, T 3:4} d 2={T 1:1, T 4:2} d 3={T 2:1, T 4:2} d 4={T 1:1, T 3:2} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 7) Determinare la classe di appartenenza del documento d x={T 2:2, T 5:2} (PUNTI 3) 2) Sia q una query che ha 6 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento riporti il seguente ranking R q (R indica che il documento è rilevante; N indica che il documento è non rilevante; il risultato più a sinistra è il top della lista): Rq: RNRRNNNRNN a) Fornire la descrizione sintetica delle metriche: Precision, Recall, R-Precision ed Average Precision (PUNTI 4) b) Calcolare Precision, Recall, R-Precision ed Average Precision per la query q (PUNTI 4) 3) Descrivere in maniera sintetica i principi alla base del PageRank, focalizzando l’attenzione sulla formulazione basata sul Flow model (PUNTI 6) 4) Descrivere il processo di modifica delle query basato sul metodo del relevance feedback (algoritmo di Rocchio). (PUNTI 5) 5) Illustrare in maniera sintetica il problema dell’overspecialization nei recommender systems di tipo content-based (PUNTI 4)