D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

 
Temi
Unità
D2I Home Page


MURST: Programmi di ricerca scientifica di rilevante interesse nazionale

Programma di Ricerca (modello A)
Sintesi del Progetto Complessivo


Coordinatore Scientifico del Programma di Ricerca 
Prof. Maurizio Lenzerini Dipartimento di Informatica e Sistemistica Universita' degli Studi di Roma "La Sapienza"
Via Salaria 113, I-00198 Roma, Italy
Tel: +39 - 06 - 8841954
Fax: +39 - 06 - 85300849
E-mail: lenzerini@dis.uniroma1.it
Home page: http://www.dis.uniroma1.it/~lenzerini


Data di inizio del Programma di Ricerca 
1 Dicembre 2000


Relazioni del Coordinatore Scientifico

modelloA - Relazione annuale (primo anno di attività)

modelloD - Rendiconto del programma di ricerca


Obiettivi del Programma di Ricerca
Gli sviluppi dell'informatica e delle telecomunicazioni hanno reso disponibile l'accesso ad un numero sempre piu' vasto di banche dati strutturate e semistrutturate, create in tempi diversi, su sistemi diversi e con criteri organizzativi diversi. Senza l'applicazione di opportuni metodi, gli utenti hanno a disposizione grandi quantita' di dati, ma trovano inevitabili difficolta' nel sintetizzare l'informazione utile ai propri scopi. Risulta quindi importante ricercare nuove metodologie per l'integrazione di sorgenti eterogenee di dati, per il progetto di basi di dati destinate all'analisi in linea di dati di sintesi (data warehouse), e per la scoperta di nuovi collegamenti e proprieta' non facilmente intuibili all'interno di una sorgente o di sorgenti diversi (data mining). L'obiettivo del progetto e' la definizione di un quadro metodologico generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee (D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici per i tre temi:

Tema 1: integrazione di dati provenienti da sorgenti eterogenee
Tema 2: progettazione e interrogazione di data warehouse
Tema 3: data mining.

La problematica trattata riveste grande importanza applicativa e industriale, specialmente in relazione alla opportunita' di estrarre informazione di rilevanza direzionale e strategica dai dati del livello operativo delle imprese. I temi del progetto sono infatti centrali per la componente di data management nei sistemi di Enterprise Knowledge Management e di Enterprise Resource Planning. Le unita' partecipanti sono 5, con 30 professori e ricercatori coinvolti, e con 16 dottorandi e borsisti. Le idee alla base della proposta sono state maturate in occasione della partecipazione a progetti europei ed italiani, in particolare Esprit DWQ e INTERDATA, finanziati rispettivamente dall'UE e dal MURST nel 1997. Il coordinamento si avvarra' della collaborazione di un coordinatore per ciascuno dei temi, assicurando cosi' un monitoraggio ed una interazione continua tra le unita'. I metodi e gli strumenti proposti saranno sperimentati e validati attraverso una collaborazione con Telecom Italia (Divisione di Data Administration, Data Warehouse, Data Mining. Direttore: Ing. Stefano Trisolini), in particolare per quanto riguarda l'analisi dei dati relativi al traffico telefonico e al customer care. L'Ing. Trisolini ha assicurato formalmente la collaborazione al progetto. Oltre all'obiettivo generale di un quadro metodologico complessivo, che produrra' anche la definizione e la realizzazione di uno strumento per la gestione dei meta-dati rilevanti rispetto alle attivita' di integrazione, warehousing e mining, gli obiettivi specifici dei tre temi vengono illustrati di seguito.

TEMA 1:
L'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione di dati provenienti da sorgenti fortemente e strutturalmente eterogenee, ossia da sorgenti di tipo strutturato (ad es., basi di dati), o semistrutturato (ad es., documenti HTML e XML). I metodi di rappresentazione dei dati presenti nelle sorgenti devono tenere conto di sorgenti semistrutturate, e di possibile coesistenza di versioni diverse dei dati. Si deve poi tenere conto che la scoperta di proprietà inter-schema è cruciale per caratterizzare le relazioni semantiche tra dati in diverse sorgenti, ed è complicata dal fatto che le informazioni semantiche sulle sorgenti stesse sono spesso implicite. Infine, il processo che conduce alla risposta ad interrogazioni poste in termini di viste globali pone problemi sia per la suddivisione della query in sottoquery, sia per la ricostruzione della risposta. I principali risultati che si intendono perseguire riguardano la definizione di una metodologia di integrazione di sorgenti fortemente eterogenee, la definizione di tecniche semiautomatiche di clustering di sorgenti basate su proprieta' di affinita' e corrispondenze semantiche, la progettazione di algoritmi per la riscrittura di interrogazioni su viste globali in termini di interrogazioni sulle sorgenti, la definizione di metodi per la gestione di versioni diverse delle sorgenti, la caratterizzazione di opportuni parametri per descrivere la qualità dei dati, e di tecniche per la riconciliazione di dati provienti da sorgenti diverse, la progettazione e la realizzazione di un ambiente che supporti l'attivita' d'integrazione, basato sulla gestione di meta-dati.

TEMA 2:
Nella letteratura sono state proposte diverse architetture per data warehouse e varie metodologie di progettazione a queste associate. Le architetture possono essere classificate in architetture ad uno, due o tre livelli. In un'architettura dell'ultimo tipo, i tre livelli memorizzano i dati operazionali, riconciliati e derivati. Il livello dei dati riconciliati viene gestito tramite tecniche di integrazione, oggetto del tema 1. Nel contesto data warehouse, si pongono nuove e complesse problematiche relative sia alla progettazione che all'interrogazione dei dati. Obiettivo del tema è lo sviluppo di tecniche per la progettazione e l'interrogazione efficiente di data warehouse, con particolare riferimento al livello dei dati derivati, sia dal punto di vista logico che fisico. Ci si propone di definire tecniche efficaci per la materializzazione di viste in presenza di un carico di lavoro complesso, e per l'individuazione di un insieme ottimale di indici per l'accesso veloce ai dati. Il problema della interrogazione efficiente di data warehouse sarà affrontato principalmente come problema di riscrittura di interrogazioni su viste materializzate. I risultati che si intendono perseguire in questo contesto riguardano la definizione di tecniche di ottimizzazione, basate sulla struttura delle interrogazioni, che estendono metodi già esistenti in maniera da tenere conto delle specificità dell'ambiente data warehouse.

TEMA 3:
L'obiettivo e` l'estrazione di informazioni da grandi quantita` di dati, nota con il termine "data mining". La ricerca operera` in numerose direzioni con lo scopo di trattare gli aspetti piu` rilevanti e a tutt'oggi meno esplorati. Verranno trattati vari tipi di dati, da quelli strutturati, tipici dei sistemi di basi di dati, a quelli multimediali (quali DB di immagini). La conoscenza estratta sara` di diversi tipi, dall'informazione sui raggruppamenti di oggetti (clustering), al meta-querying, che cerca pattern complessi all'interno dei dati con tecniche di tipo logico. Particolare cura sara` dedicata agli aspetti di visualizzazione dell'informazione estratta e di adattabilita` a vari tipi di utenti, nella convinzione che la forma di presentazione e l'interazione con l'utente siano esse stesse fattori critici per l'efficacia del processo di estrazione e la fruibilita` dell'informazione. Per quanto riguarda i metodi di estrazione, verranno considerate le problematiche che sorgono quando la sorgente di dati e` un data warehouse. In questo caso, sorge spesso la necessita` di effettuare elaborazioni incrementali, poiche' i dati vengono consolidati periodicamente, ed e' importante evitare la ripetizione di attivita` molto onerose dal punto di vista computazionale, come ad esempio il clustering. I principali risultati che si intende produrre riguardano: algoritmi di clustering incrementale, paradigmi per query di similarita`, inclusi quelli con approssimazione, formalizzazione degli indicatori in grado di quantificare il compromesso "qualita` vs costo", strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste, primitive per la creazione semiautomatica di visualizzazioni, caratterizzazione computazionale di varianti di meta-querying di interesse applicativo, algoritmi efficienti per il meta-querying. Il livello dei meta-dati, cui fanno riferimento i temi 1 e 2, costituira' il punto di riferimento sia per i dati di input alle attivita' di mining, sia per la rappresentazione delle proprieta' estratte dal mining.

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it