logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Informatica - Metodi per il ritrovamento dell'informazione

Full exam

Prova scritta di METODI PER LA GESTIONE DELLA CONOSCENZA C.d.L. in Informatica e Tecn. per la Prod. del Software - A.A. 2016 -17 Docente: P. Lops 19 Settembre 2017 Nome e Cognome : ______________________ _______________ ___ Matricola : ____ _______ 1) Siano dati l’insieme delle categorie C = {c 1, c 2} e una collezione di documenti definiti sul vocabolario V = {T 1, T 2, T 3, T 4, T 5, T 6}. a) Costruire un classificatore bayesiano per C addestrandolo sul seguente training set TR : TR = {, , , } dove per ogni documento d j si riporta di seguito l’elenco delle parole in esso presenti, con le relative occorrenze: d1={T 1:2, T 2:3, T 3:4} d2={T 1:1, T 4:2} d3={T 2:1, T 4:2} d4={T 1:1, T 2:2, T 6:4} NB: illustrare chiaramente tutte le fasi di costruzione del classificatore (PUNTI 6) b) determinare la classe di appartenenza del documento dx={T 4:2, T 6:2} (PUNTI 2) 2) Sia q una query che ha 4 documenti rilevanti nella collezione. Supponiamo che un algoritmo di ritrovamento applicato a q riporti il seguente ranking Rq: D3 D1 D5 D7 D9 D8 Supponiamo che D1 , D5 e D9 siano documenti rilevanti per q. Calcolare Precision, Recall, F1, Average Precision ed R -precision per q, fornendo anche una descrizione formale delle metriche (PUNTI 6) 3) Descrivere, commentando opportunamente, la funzione per il calcolo delle predizioni dei rating in un algoritmo di filtraggio collaborativo di tipo user to user . (PUNTI 10) 4) Descrivere in maniera sintetica i principi alla base del PageRank, focalizzando l’attenzione sulla formulazione ricorsiva basata sul “flow” model. (PUNTI 6)