Algoritmi per “Information Retrieval”

---

Informazioni generali:

---

Obiettivi del corso:

Studio, progetto e analisi di sistemi software efficienti ed efficaci per l’Information Retrieval nell’ambito di collezioni di documenti testuali, html e semi-strutturate (p.e. XML). Questo studio si concentrerà su tutti i componenti princiali di un moderno motore di ricerca: Crawler, Parser, Indexer, Query resolver, Ranker, Archive compressor. Esamineremo le soluzioni algoritmiche correntemente adottate per ciascuno di essi in maniera approfondita, valutando le loro prestazioni e i loro limiti computazionali. Discuteremo anche i fondamenti pratici e teorici per l’organizzazione e l’analisi dei sistemi di IR, con valutazione delle loro prestazioni. Infine analizzeremo altre tecniche algoritmiche utili in vari ambiti: delta-compression, set reconciliation, min-wise permutations, bloom filter, P2P synchronization protocols, ...


---

Modalità di esame:   Un progetto svolto in gruppi di al massimo 2 persone, o un seminario su un argomento indicato dal docente, e un esame orale sugli argomenti del corso.
 

---

Libri di testo:

[MG]  Managing Gigabytes. I.H. Witten e A. Moffat e T.C. Bell. Morgan Kaufmann, 1999.

[MW]  Mining the Web: discovering knowledge from hypertext data. S. Chakrabarti. Morgan Kaufmann, 2003.

⇒ ⇒ E altri articoli sugli argomenti trattati nel corso..

---

Programma del corso e materiale didattico aggiuntivo (registro delle lezioni, copie materiale)

---