logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Informatica - Metodi per il ritrovamento dell'informazione

First partial exam

Prima p rova in itinere di METODI PER IL RITROVAMENTO DELL’INFORMAZIONE C.d.L. in Informatica - A.A. 20 13-14 Docent e: P. Lops 20 Novembre 20 13 (DURATA: 2 ore ) Nome e Cognome : ___________________________________________ Matricola : ___________________________________________ 1) Sia d ata la seguente collezione di tre documenti: D1 = “free car and free park” D2 = “park and ride” D3 = “free meal and ride ride ride” a) Fornire la rappresentazione dei documenti sotto forma di bag -of -words, rimuovendo le eventuali stopwords (PUNTI 3) b) Costruire l'indice invertito della collezione (PUNTI 3) c) Calcolare la rappresentazione TF -IDF per i 3 documenti ( usare il sublinear TF scaling ) (PUNTI 3) d) Utilizzando la similarità del coseno, definire quale documento tra D2 e D3 è il più simile al documento D1 (PUNTI 3) 2) Descrivere i l processo di modifica delle query basato sul metodo del relevance feedback (PUNTI 10 ) 3) Sia q una query i cui documenti rilevanti nella collezione sono 5. Siano S1 ed S2 due sistemi che riportano i seguenti primi 10 risultati in risposta alla query q. R indica che un documento è rilevante, N indica che il documento è non rilevante (il risultato più a sinistra è il top della lista). S1: RNRNNRNNRR S2: NRNNRRRNNN Calcolare l’accuratezza dei due sistemi per la query q, utilizzando le seguenti metriche, fornendo ne anche una breve descrizione : a) P@1, P@5, P@10 , R -precision (PUNTI 4) b) Average Precision (PUNTI 4) c) Facoltativo: Riportare la curva di precisione -richiamo per la query q per il sistem a S1 (PUNTI 3)