Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Informatica - Metodi per il ritrovamento dell'informazione

First partial exam

Prima p rova in itinere di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 20 14-15 Docent e: P. Lops 2 Dic embre 20 14 (DURATA: 2 ore ) Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Fornire la definizione di synset in WordNet e descrivere in maniera sintetica le principali relazioni esistenti tra i nomi in WordNet. (PUNTI 8) 2) Siano dati in input la seguente query Q e il documento D: Q = “information retrieval” D = “information retrieval and text retrieval” Calcolare la similarità del coseno tra la query Q ed il documento D, assumendo che: • il termine and sia una stopword • il document frequency dei termini information , retrieval and text siano rispettivamente 10, 5 0 e 1 00 • il numero di documenti nella collezione sia N = 1000 • sia utilizzato il tf -idf come schema di pesatura dei termini nel documento e nella query (non normalizzare il term frequency). (PUNTI 8) 3) Sia no q1 e q2 due query distinte che hanno rispettivamente 5 e 3 documenti rilevanti nella collezione . Supponiamo che lo stesso algoritmo di ritrovamento applicato alle due query distinte riporti i seguenti ranking R q1 ed R q2 (X indica che un documento è rilevante ; 0 indica che il documento è non rilevante ; il risultato più a sinistra è il top della lista) : Rq1: X0X00X00XX Rq2: 0X00X0X000 a) Fornire la descrizione delle seguenti metriche: P@ K, R -precision, Average Precision (PUNTI 3) b) Calcolare P@3, R -precision e Average Precision per le query q1 e q2 (PUNTI 3) c) Riportare sullo stesso grafico le curv e di precisione -richiamo per le query q1 e q2 (usare gli 11 livelli standard di recall) (PUNTI 3) 4) Descrivere brevemente le principali caratteristiche dei modelli di ritrovamento booleano e a spazio vettoriale, evidenziando le principali differenze . (PUNTI 8) Prima prova in itinere di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 2014 -15 Docente: P. Lops 2 Dicembre 2014 (DURATA: 2 ore) Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Fornire la definizione di synset in WordNet e descrivere in maniera sintetica le principali relazioni esistenti tra i nomi in WordNet. (PUNTI 8) 2) Siano dati in input la seguente query Q e il documento D: Q = “information retrieval” D = “information retrieval and text retrieval” Calcolare la similarità del coseno tra la query Q ed il documento D, assumendo che: • il termine and sia una stopword • il document frequency dei termini information , retrieval and text siano rispettivamente 10, 50 e 1 00 • il numero di documenti nella collezione sia N = 1000 • sia utilizzato il tf -idf come schema di pesatura dei termini nel documento e nella query (non normalizzare il term frequency). (PUNTI 8) 3) Siano q1 e q2 due query distinte che hanno rispettivamente 5 e 3 documenti rilevanti nella collezione. Supponiamo che lo stesso algoritmo di ritrovamento applicato alle due query distinte riporti i seguenti ranking R q1 ed R q2 (X indica che un documento è rilevante; 0 indica che il documento è non rilevante; il risultato più a sinistra è il top della lista): Rq1: X0X00X00XX Rq2: 0X00X0X000 a) Fornire la descrizione delle seguenti metriche: P@K, R -precision, Average Precision (PUNTI 3) b) Calcolare P@3, R -precision e Average Precision per le query q1 e q2 (PUNTI 3) c) Riportare sullo stesso grafico le curve di precisione -richiamo per le query q1 e q2 (usare gli 11 livelli standard di recall) (PUNTI 3) 4) Descrivere brevemente le principali caratteristiche dei modelli di ritrovamento booleano e a spazio vettoriale, evidenziando le principali differenze . (PUNTI 8)