Seminari e progetti per i corsi ADEC e TDM

a.a. 2005-2006

 

 

 

Seminari ADEC

 

 

Per i seguenti temi di seminario si richiede al candidato di eseguire le opportune ricerche del materiale necessario (bibliografia scientifica e non, siti web, ecc.) e di organizzare una presentazione di circa 40 minuti in cui mostrare sinteticamente i principali risultati, strumenti, metodologie, applicazioni, casi di uso, ecc. trovati e ritenuti più rilevanti ai fini del seminario stesso.

Si richiede inoltre di fornire i sorgenti della presentazione (PowerPoint, LaTeX, ecc.) e il materiale bibliografico raccolto, preferibilmente in formato elettronico (articoli PDF, PostScript, Word, copia di pagine web, ecc.).

Per ogni tema si fornisce una traccia (per lo più piuttosto generale) ed 1-2 primi riferimenti per l’argomento.

 

 

1. Data Mining & econometria

Obiettivo: studio comparativo del comportamento di indici econometrici per l’analisi di fenomeni economici/commerciali, quali l’impatto di promozioni e prezzi sulle vendite, utilizzando metodi grafici, statistici e data mining.

Riferimenti di partenza:

1. Van den Poel, De Schamphelaere, Wets: Direct and indirect effects of retail promotions on sales and profits in the do-it-yourself market. Expert Systems with Applications 27 (2004).

2. capitolo 5 di Kudyba-Hoptroff: “Data Mining and Business Intelligence”, IDEA Publishing (fotocopie fornite dal docente).

 

 

2. Competitor Analysis

Obiettivo: metodologie e tecniche per il monitoraggio dell'attività della concorrenza (orientamento del mercato, concorrenti emergenti, future aree di sviluppo del mercato, ecc.) tramite metodi e strumenti statistici, data mining, ecc.

Riferimenti di partenza:

1. Caso di studio Derwent @ CINECA (http://www.cineca.it/gai/pagina-dataminoreal.htm)

 

 

3. Customer Profiling

Obiettivo: analisi dei dati posseduti da società e compagnie sui propri clienti per l’estrazione di regolarità, pattern ed altre informazioni che consentano alla compagnia di individuare i clienti più promettenti e, più in generale, di predire il comportamento futuro dei clienti.

Riferimenti di partenza:

1. http://businessintelligence.ittoolbox.com/topics/ 

2. Cumby, Fano, Ghani, Krema. Predicting Customer Shopping Lists from Point of Sale Purchase Data. KDD 2004  (vedi soprattutto la bibliografia).

 

 

4. Forecasting in Business Intelligence

Obiettivo: studio delle metodologie e sistemi software attualmente in uso in ambito BI per la previsione di fenomeni di interesse, quali andamento del mercato, crescita delle vendite, ecc.

Riferimenti di partenza:

1. http://businessintelligence.ittoolbox.com/topics/

 

 

5. Text Analysis for Business Intelligence

Obiettivo: metodologie e tecniche di analisi dei testi applicate al contesto business (categorizzazione di documenti, sintesi di documenti, analisi automatica di report, ecc.), sistemi software attualmente diffusi (se ce ne sono) e casi di uso reali.

Riferimenti di partenza:

1. http://businessintelligence.ittoolbox.com/topics/

 

 

6. Customer Retention/Redemption

Obiettivo: tecniche e metodologie di analisi (economiche, statistiche e di data mining) per l’estrazione di informazioni utili alla conservazione e fidelizzazione dei clienti. Includere anche  eventuali casi di uso reali (rapporti di aziende, consulenti, ecc.).

Riferimenti di partenza:

1. K. Ng e H. Liu. Customer Retention via Data Mining.Kluwer 1999.

2. Willis e Paré. E-Retailing: Exploiting the Unique Capabilities of the Internet to Create Customer Loyalty. Cahier du GReSI no 02-07, École des Hautes Études Commerciales de Montréal, 2002.

 

 

7. Churn Analysis

Obiettivo: studio di indici che misurano il grado di “abbandono” del cliente (ovvero la misura in cui si sono allontanati dall’azienda per rivolgersi alla concorrenza), nonché di tecniche e metodologie di analisi, statistiche e di data mining, per la previsione dell’abbandono a breve-medio termine.

Riferimenti di partenza:

1. K. Ng e H. Liu. Customer Retention via Data Mining. Kluwer 1999.

 

 

 

 

 

 

Seminari TDM

 

 

 

Preparare e svolgere una presentazione di circa 40 minuti su uno temi elencati di seguito. Ogni tema fa riferimento ad un argomento avanzato del libro “Tan, Steinbach, Kumar: An introduction to Data Mining”. Allo studente si richiede di attingere sia da tali parti del testo che dai relativi riferimenti bibliografici ivi consigliati – per approfondire i dettagli dell’argomento, per illustrare i principali metodi e algoritmi più recenti, ecc – più eventuali riferimenti trovati autonomamente.

Si richiede inoltre di fornire i sorgenti della presentazione (PowerPoint, LaTeX, ecc.), la quale dovrà indicare in appendice l’elenco completo del materiale bibliografico consultato.

 

 

1.      Bayesian classifiers

Focus su bayesian belief networks.

 

2.      Support Vector Machines

Focus su SVM lineari e cenni a SVM non lineari (kernel trick e teorema di Mercer)

 

3.      Class imbalanced classification

 

4.      Handling continuous attributes in association analysis

 

5.      Infrequent Patterns

 

6.      Clustering con Mixture-Models

Algoritmo EM e alcune sue applicazioni in letteratura (es.: transazioni di market basket).

 

7.      Graph-based clustering algorithms

 

8.      Scalable clustering algorithms

 

9.      Anomaly Detection

Si tratta di un intero capitolo: presentare i 4 approcci proposti e, brevemente, i loro principali rappresentanti (metodi/algoritmi).

 

 

Altri seminari non basati sul testo di Tan-Steinbach-Kumar:

 

10.  Web Mining: ranking di pagine web (HITS, PageRank e varianti)

Parte III diChakrabarti. Mining The Web - Discovering Knowledge From Hypertext Data. 2003.”

 

11.  Text mining: tecniche di base

Capitolo 9.4 di “Han, Kamber. Data Mining - Concepts and Techniques. 2000.” + Cercare materiale in rete.

 

12.  Time-series Analysis

“Time series web page” (vedi homepage di Keogh Eamonn).

 

 

 

 

 

 

PROGETTI  (ADEC +  TDM)

 

I seguenti progetti riguardano problemi di analisi dei dati di vendita relativi ad alcuni rivenditori al dettaglio (in particolare, Retailer A = COOP Toscana-Lazio). Per ogni progetto si richiede di effettuare tutte le operazioni di preparazione dei dati, data mining ed analisi necessarie a raggiungere gli obiettivi indicati. Laddove gli obiettivi lasciano alcune libertà di scelta, lo studente è invitato ad effettuare delle scelte e a fornirne delle motivazioni (anche solo intuitive).

I passi eseguiti ed i risultati di tale lavoro dovranno essere documentati in una relazione scritta (lunghezza indicativa di 15-20 pagine) seguendo, seppur con una certa flessibilità, lo schema generale del modello CRISP.

I due dataset su cui svolgere i progetti, assieme a un po’ di materiale ausiliario, saranno forniti in due modalità: 1. scaricabili via web all’ indirizzo: http://ercolino.isti.cnr.it/DM2006 e, su richiesta, 2. su CD distribuito dal docente.

 

1.      (Retailer A)

I dati di questo progetto descrivono:

-         le vendite “aggregate” di 3 punti vendita COOP (1 iper-mercato + 2 super-mercati) nel periodo gennaio-marzo 2004

-         le vendita dettagliate di 1 punto vendita (lo stesso iper-mercato del punto precedente) nel periodo gennaio-febbraio 2005

-         La gerarchia dei prodotti messi in vendita

-         Anagrafica clienti

-         Collegamento tra scontrini e clienti

-         Elenco promozioni con relativi periodi di validità per il 2005

 

NOTA: le vendite aggregate sono costituite dai totali di vendita relativi ad ogni scontrino e divisi per settori e reparti (avremo, cioè, un totale per ogni reparto/settore che, sommati, forniscono il totale dello scontrino).

 

Obiettivo: Individuare una o più segmentazioni della clientela in base alle sole caratteristiche demografiche (età, provenienza, ecc.) e cercare di caratterizzare in modo significativo i diversi segmenti individuati in termini di volumi di vendite nei diversi settori/reparti/famiglie di prodotti, nonché, dove i dati lo rendono possibile, in termini di associazioni tra prodotti venduti (in quest’ultimo caso, siamo soprattutto interessati a scoprire le associazioni che valgono in un segmento ma non negli altri).

 

I dati sono principalmente in formato testuale a dimensione fissa, il cui tracciato è descritto in dettaglio nei documenti Excell, testuali, ecc. allegati.

 

 

2.  (Retailer A)

Sugli stessi dati messi a disposizione per il progetto 1, perseguire il seguente obiettivo: definire almeno 2 diverse categorizzazioni di clienti in classi aventi interesse economico, esempio: alto-spendenti/basso-spendenti, oppure: acquista-molti-alimentari / acquista-poco-alimentari, ecc. (in generale, possiamo avere più di due classi). Quindi, per ogni categorizzazione fornire una descrizione delle diverse fasce di clienti sia in termini di vendite (nei vari reparti, nei vari periodi di tempo, ecc.) che di anagrafica. Infine, estrarre una caratterizzazione delle fasce di clienti tramite strumenti di classificazione, utilizzando anche qui sia informazioni sull’anagrafica che sulle vendite.

 

3.      (Retailer B)

I dati forniti per questo progetto sono costituiti dal totale di spesa, calcolato su base settimanale, effettuato da ogni cliente di una catena di supermercati in un periodo di 5-6 mesi.

Obiettivo: fornire alcune definizioni (almeno 2) della nozione di “abbandono del cliente” che, applicato ai totali di acquisto di ogni cliente permettano di decidere se esso ha abbandonato il supermarket (verosimilmente per spostarsi verso la concorrenza) o è in procinto di farlo. Per ognuna di queste definizioni costruire uno o più classificatori in grado di predire se il cliente in un futuro prossimo sarà a rischio di abbandono. (NOTA: per quest’ultimo passo è consigliato derivare dalla serie delle vendite un certo numero di “indicatori” che l’algoritmo di classificazione possa sfruttare). Riferimento bibliografico ausiliario: K. Ng e H. Liu. Customer Retention via Data Mining.Kluwer 1999.

 

 

4.      (Retailer B)

Sugli stessi dati messi a disposizione per il progetto 3, perseguire il seguente obiettivo: confrontare l’andamento delle vendite in diversi punti vendita (“mercati”) della catena. In particolare, estrarre una segmentazione dei mercati in gruppi che mostrano sostanzialmente lo stesso andamento, indicando le caratteristiche salienti di ogni gruppo ed eventualmente individuando singoli mercati aventi comportamenti anomali (diversi da tutti gli altri e quindi non riconducibili ad alcun segmento). NOTA: nel fare ciò, è consigliabile derivare alcuni “indicatori” dell’andamento delle vendite sfruttabili dagli algoritmi adottati.

 

5.      (Retailer B)

Sugli stessi dati messi a disposizione per i progetti 3 e 4, perseguire il seguente obiettivo: selezionare almeno 2 mercati della catena con un volume di vendite sufficientemente alto, e, separatamente su ognuno, eseguire i seguenti passi:

a.      Definire un mapping tra gli acquisti settimanali di ogni cliente ed un insieme di classi che ne descrivano sommariamente il valore o l’andamento. Esempio: ogni acquisto viene tradotto in “alto valore / medio valore / basso valore”, oppure: ogni acquisto viene tradotto in “valore in salita / stabile / in discesa” (in quest’ultimo caso occorre confrontare gli acquisti del cliente in 2 o più settimane consecutive).

b.      Usare tale mapping per tradurre ogni sequenza di acquisti dei clienti in altrettante sequenze di simboli. Esempio: 23, 20, 45, 12 --> medio, medio, alto, basso, oppure: 23, 20, 45, 12 --> stabile (=23->20), salita (=20->45), discesa (=45->12).

c.       Applicare un algoritmo per pattern sequenziali che scopra se ci sono sequenze di “simboli” che ricorrono frequentemente. Software utilizzabile: Clementine e/o algoritmi “esterni” dedicati ai pattern sequenziali, facilmente scaricabile da internet (Software consigliato: uno tra PrefixSpan [Windows] e SLP-miner [Linux]). Studenti TDM: usare solo algoritmi esterni.

d.      Ripetere lo stesso procedimento con diversi mapping alternativi, combinandoli insieme quando possibile. Esempio: 23, 20, 45, 12 --> {medio}, {medio,stabile}, {alto,salita}, {basso,discesa}. (Si ricordi, infatti, che i pattern sequenziali sono in generale sequenze di itemset, non sequenze di elementi singoli).

Infine, confrontare i risultati ottenuti nei mercati analizzati, onde individuare (alcune) sequenze frequenti tipiche di un mercato e non degli altri.