D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

Temi
Unità
Tema 3: Data Mining

Responsabile del tema di ricerca
Prof. Claudio Sartori, Dipartimento di Elettronica, Informatica e Sistemistica dell'Universita' degli Studi di Bologna
Viale Risorgimento 2, 40136 Bologna, Italy
Tel: +39 - 051 - 2093554
Fax: +39 -051 - 2093540
Email: csartori@deis.unibo.it
Home page: http://www-db.deis.unibo.it/~csartori/


Unita' coinvolte nel tema
Univ. di Bologna
Univ. della Calabria
Univ. di Roma "La Sapienza"

e-mail ai partecipanti al tema 3


Obiettivo del tema
L'obiettivo e` l'estrazione di informazioni da grandi quantita` di dati, nota con il termine "data mining". La ricerca operera` in numerose direzioni con lo scopo di trattare gli aspetti piu` rilevanti e a tutt'oggi meno esplorati. Verranno trattati vari tipi di dati, da quelli strutturati, tipici dei sistemi di basi di dati, a quelli multimediali (quali DB di immagini). La conoscenza estratta sara` di diversi tipi, dall'informazione sui raggruppamenti di oggetti (clustering), al meta-querying, che cerca pattern complessi all'interno dei dati con tecniche di tipo logico. Particolare cura sara` dedicata agli aspetti di visualizzazione dell'informazione estratta e di adattabilita` a vari tipi di utenti, nella convinzione che la forma di presentazione e l'interazione con l'utente siano esse stesse fattori critici per l'efficacia del processo di estrazione e la fruibilita` dell'informazione. Per quanto riguarda i metodi di estrazione, verranno considerate le problematiche che sorgono quando la sorgente di dati e` un data warehouse. In questo caso, sorge spesso la necessita` di effettuare elaborazioni incrementali, poiche' i dati vengono consolidati periodicamente, ed e' importante evitare la ripetizione di attivita` molto onerose dal punto di vista computazionale, come ad esempio il clustering. I principali risultati che si intende produrre riguardano: algoritmi di clustering incrementale, paradigmi per query di similarita`, inclusi quelli con approssimazione, formalizzazione degli indicatori in grado di quantificare il compromesso "qualita` vs costo", strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste, primitive per la creazione semiautomatica di visualizzazioni, caratterizzazione computazionale di varianti di meta-querying di interesse applicativo, algoritmi efficienti per il meta-querying. Il livello dei meta-dati, cui fanno riferimento i temi 1 e 2, costituira' il punto di riferimento sia per i dati di input alle attivita' di mining, sia per la rappresentazione delle proprieta' estratte dal mining.


Fasi di lavoro

Fase 1 (durata 4 mesi - dal 1/12/2000 al 31/3/2001)
Questa prima fase sara` in gran parte dedicata allo studio dello stato dell'arte nei vari argomenti. Verranno analizzati e confrontati i metodi e gli algoritmi di clustering attualmente noti in letteratura, con particolare attenzione alla capacita` di trattare dati categorici e spazi metrici. Verranno effettuati accurati studi comparativi sulle prestazioni dei vari algoritmi, sia dal punto di vista dell'efficienza che da quello della qualita` dei cluster prodotti, anche in presenza di dati affetti da rumore. Si valutera` la possibilita` di modificazione dei vari algoritmi per trattare il caso di elaborazione incrementale. Si analizzeranno gli esistenti paradigmi per query di similarita`, inclusi quelli con approssimazione. Per questi ultimi si formalizzeranno degli indicatori in grado di quantificare il compromesso "qualita` vs costo". Dopo aver portato a termine l'analisi approfondita dello stato dell'arte del meta-querying ci si concentrera` sull'individuazione di un insieme di varianti che rivelino un buon interesse applicativo e sullo studio delle sorgenti di intrattabilita` computazionale che caratterizzano tali varianti. Lo stesso tipo di analisi verrą condotta per altre tecniche di data mining, quali le association rules. Sara` effettuato uno studio teorico che sistematizzi e formalizzi il rapporto esistente tra le varie modalita` di visualizzazione dei dati e le varie attivita` di scoperta di informazioni. I sistemi e gli approcci esistenti per la visualizzazione di informazioni verranno confrontati sulla base di un insieme di casi reali di applicazione, allo scopo di scoprirne da una parte le mancanze da superare, e, dall'altra, le caratteristiche positive da mantenere. La fase si concludera` con l'individuazione delle caratteristiche di un meta-repository per la descrizione delle attivita` e dei risultati del data mining, in modo da favorire la fruizione di servizi di data mining da parte delle unita` partecipanti al progetto.

Fase 2 (durata 8 mesi - dal 1/4/2001 al 30/11/2001)
In questa fase iniziera` la produzione dei risultati, sotto forma di trattazione teorica dei problemi evidenziati nella prima fase, sviluppo di algoritmi, individuazione di architetture di sistema. Si studieranno metodi di clustering che risolvano i problemi derivanti dall'aggiornamento incrementale dei dati del warehouse, e si indagheranno anche soluzioni basate sul concetto di similarita` di valori. Si definira` un paradigma di ricerca approssimata in grado di permettere all'utente di controllare la qualita` del risultato, anche in presenza di ricerche complesse. Verranno individuati dei sottocasi trattabili delle varianti di metaquerying individuate durante la prima fase e verranno progettati degli algoritmi efficenti per la loro implementazione. Verra` definita l'architettura di un sistema di data mining "user-centered", che dia la possibilita` di integrare sistemi diversi in un ambiente integrato ed orientato all'utente. L'architettura del sistema comprendera`: 1) componenti per la visualizzazione dell'informazione (che implementino diverse metafore visuali e tecniche per il mining visuale); 2) componenti per il "knowledge discovery" (che implementino tecniche diverse per la scoperta di informazioni); e, 3) componenti per la gestione dei dati (che forniscano le strutture multidimensionali necessarie per memorizzare e manipolare i dati). Verranno inoltre studiati dal punto di vista teorico alcuni dei problemi centrali legati alla visualizzazione. In questa fase si definira' anche la modalita' di utilizzazione del repository di meta-dati al fine di guidare il processo di data mining.

Fase 3 (durata 8 mesi - dal 1/12/2001 al 31/7/2002)
In questa fase verranno prodotti i primi prototipi per i vari componenti di data mining studiati nelle fasi precedenti. Verranno implementati e sperimentati i metodi di clustering e di ricerca approssimata. Si progetteranno e realizzeranno gli algoritmi per il meta-querying definiti nella fase precedente. Verra` sviluppato un sistema integrato di data mining e di visualizzazione delle informazioni.

Fase 3 (durata 4 mesi - dal 1/8/2002 al 30/11/2002)
Nell'ultima fase verranno effettuate principalmente validazioni di prototipi, anche in interazione con gruppi di potenziali utenti quali la Telecom Italia. I vari metodi di clustering e di ricerca approssimata verranno valutati congiuntamente. Si portera` avanti una sperimentazione sul campo del meta-querying, con l'obiettivo di verificare l'effettiva applicabilita` delle tecniche realizzate nel prototipo a problemi applicativi reali. Il sistema integrato di data mining e visualizzazione sara` validato in ambienti reali, quali quelli offerti dalle applicazioni di Telecom Italia. Parallelamente alla verifica tecnica del corretto funzionamento dei moduli software sviluppati verra' attivata, la produzione e la esecuzione di un ben definito insieme di test di usabilita', che si concentreranno soprattutto sui meccanismi di interazione offerti all'utente finale e sulle modalita' di visualizzazione disponibili per il modulo di data mining. Si prevede, pertanto, di procedere nella implementazione della interfaccia utente utilizzando un modello del ciclo di vita a spirale in cui siano prodotte almeno due versioni dell'interfaccia, la prima da utilizzarsi per i test di usabilita', la seconda da ottenersi come raffinamento della prima tramite le indicazioni emerse dai test stessi.

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it