!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
Progetto (parte prima esame)
Progetto (parte prima dell'esame di Algoritmi e Strutture di
Dati / Informatica II)
Questo progetto viene valutato in trentesimi e sostituisce l'esame
scritto del corso o il seminario, e non necessita la presentazione del
mini-progetto. Può essere scelto il
seguente tema oppure un argomento da concordare con il docente.
Progetto in C/C++ (o altro linguaggio da concordare con il docente)
per estrarre alcune informazioni implicitamente contenute in un
database bibliografico di grandi dimensioni.
-
Il database bibliografico scelto è DBLP: contiene
i dati bibliografici (titolo, autori, luogo e data di pubblicazione)
di circa 1.900.000 pubblicazioni scientifiche.
-
Il database ` in formato testuale XML, descritto nella
pubblicazione DBLP - Some
Lessons Learned.
-
I file su cui lavorare possono essere scaricati direttamente dal database del sito.
-
Per gestire il file principale può convenire utilizzare la
funzione mmap: tale
scelta non è obbligatoria ma facilita la scrittura del codice
perché il file XML viene visto come un array "unsigned char *"
(è stata tenuta un'esercitazione su questa modalità).
-
Creare un grafo G a partire dal file XML. I vertici di G possono
essere gli autori degli articoli, gli articoli stessi o altro (la
scelta dipende anche dalla strategia risolutiva che lo studente
intende applicare). Gli archi collegano due autori che hanno scritto
lo stesso articolo, due articoli che hanno un autore in comune.
-
Definire una nozione di similitudine S tra articoli che utilizzi le
relazioni rappresentate nel grafo G.
-
Raggruppare insieme articoli che sono simili, secondo la nozione
definita nel punto precedente. Ogni gruppo di articoli deve
condividere un argomento che può essere inferito direttamente
dal titolo oppure dal fatto che gli autori sono in qualche modo
collegati tra di loro.
È parte integrante del progetto stabilire una nozione di
similitudine S e le informazioni da mantenere nel grafo G, in modo che
i gruppi risultanti siano sufficientemente ben definiti. Ovviamente,
avendo solo i titoli, non è sempre possibile stabilire con
certezza se due articoli sono correlati: lo scopo del progetto
consiste infatti nel trarre il massimo dalle informazioni presenti nel
file XML.
Last modified: Thu Apr 26 10:49:09 ora legale Europa occidentale 2012