Algoritmi per “Information Retrieval”
Informazioni generali:
Obiettivi del
corso:
Studio, progetto e analisi di sistemi software efficienti ed
efficaci per l’Information Retrieval nell’ambito di
collezioni di documenti testuali, html e semi-strutturate (p.e.
XML). Questo studio si concentrerà su tutti i componenti
princiali di un moderno motore di ricerca: Crawler, Parser, Indexer,
Query resolver, Ranker, Archive compressor. Esamineremo le soluzioni
algoritmiche correntemente adottate per ciascuno di essi in maniera
approfondita, valutando le loro prestazioni e i loro limiti
computazionali. Discuteremo anche i fondamenti pratici e teorici per
l’organizzazione e l’analisi dei sistemi di IR, con
valutazione delle loro prestazioni. Infine analizzeremo altre
tecniche algoritmiche utili in vari ambiti: delta-compression, set
reconciliation, min-wise permutations, bloom filter, P2P
synchronization protocols, ...
Modalità di
esame: Un progetto svolto in gruppi
di al massimo 2 persone, o un seminario su un argomento indicato dal
docente, e un esame orale sugli argomenti del corso.
Libri di testo: [MG]
Managing
Gigabytes. I.H. Witten e A. Moffat e T.C. Bell. Morgan Kaufmann,
1999. [MW]
Mining the Web: discovering knowledge from hypertext data.
S. Chakrabarti. Morgan Kaufmann, 2003. ⇒ ⇒ E altri articoli sugli argomenti trattati nel corso..
Programma del corso e materiale didattico aggiuntivo (registro delle lezioni, copie materiale)