D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

Temi
Unità
Unità di ricerca: Università di Milano
Dipartimento di Scienze dell'Informazione

Programma di Ricerca dell'unità (modello B)


Responsabile Scientifico dell' unità di Ricerca 
Prof. Silvana Castano Dipartimento di Scienze dell'Informazione Universita' degli Studi di Milano
Tel: +39 - 02 - 58356319
Fax: +39 - 02 - 58356246
E-mail: castano@dsi.unimi.it
Home page: http://www.dsi.unimi.it/~castano


Partecipanti al programma dell' unità di Ricerca

Partecipante Dipartimento/Istituto Qualifica
CASTANO SILVANA SCIENZE DELL'INFORMAZIONE Prof. ordinario
DE ANTONELLIS VALERIA ELETTRONICA PER L'AUTOMAZIONE DELL'UNIVERSITA' DI BRESCIA Prof. ordinario
FERRARA ALFIO SCIENZE DELL'INFORMAZIONE Titolare di assegno di ricerca
MARTELLA GIANCARLO SCIENZE DELL'INFORMAZIONE Prof. ordinario
MELCHIORI MICHELE UNIVERSITA' DI BRESCIA Dottorando
MONTESI DANILO SCIENZE DELL'INFORMAZIONE DELL'UNIVERSITA' DI BOLOGNA Prof. Associato
ORNETTI GIORGIO SCIENZE DELL'INFORMAZIONE Dottorando


Titolo specifico del programma svolto dall'unità di ricerca

METODI E STRUMENTI PER LA RICONCILIAZIONE DI SORGENTI ETEROGENEE E SEMISTRUTTURATE



Descrizione del programma e dei compiti dell'unità di ricerca
Obiettivo della ricerca dell'unita' operativa di Milano e' lo sviluppo di un ambiente per la creazione di viste riconciliate di dati eterogenei e semistrutturati, mediante utilizzo di tecniche di affinita' e clustering specializzate per tali dati, e per l'interrogazione di viste riconciliate mediante un linguaggio di tipo fuzzy opportunamente definito. Nell'integrazione di sorgenti di dati semistrutturati, problematiche fondamentali da risolvere riguardano l'identificazione di dati semanticamente simili in sorgenti diverse e il trattamento delle diverse tipologie di eterogeneita' peculiari di tali dati al fine di derivare rappresentazioni riconciliate e rendere possibili interrogazioni in modo uniforme a livello globale. Nei moderni sistemi informativi basati su Web il numero di sorgenti eterogenee e semistrutturate da integrare puo' diventare molto elevato ed e' pertanto importante sviluppare un ambiente intelligente che consenta di operare il possibile in maniera semi-automatica. A tale scopo, si studieranno tecniche per l'identificazione di dati simili in sorgenti semistrutturate diverse, basate su definizione e valutazione di proprieta' di affinita' e corrispondenze semantiche specificamente concepite per tenere conto di eterogenita' e proprieta' dei dati semistrutturati. Si svilupperanno inoltre algoritmi di clustering basato su affinita' per la selezione interattiva di candidati all'integrazione e regole con cui derivare rappresentazioni riconciliate di dati semistrutturati in forma di viste globali. Al fine di rendere il processo di integrazione semi-automatico, le tecniche sfrutteranno il piu' possibile metadati e contenuto semantico di sorgenti semistrutturate con l'ausilio di conoscenza di dominio (ad esempio, thesaurus, ontologie). Si studiera' inoltre un linguaggio di interrogazione fuzzy per interrogare viste riconciliate di dati semistrutturati in cui l'utente puo' pesare i termini nell'interrogazione e filtrare le risposte in base alla rilevanza. Il programma di ricerca dell'unita' operativa di Milano e' biennale e si articola nelle seguenti fasi.

Fase 1 (durata 4 mesi - dal 1/12/2000 al 31/3/2001)
Definizione di requisiti di integrazione per sorgenti di dati eterogenei e semistrutturati per la valutazione di proprieta' di affinita' e corrispondenze semantiche, tenendo conto di proprieta' e caratteristiche delle loro descrizioni a livello intensionale (metadati), contenuto semantico (con l'ausilio di thesaurus/ontologie), tipologie di eterogeneita' e proprieta' intra e inter-schema. Definizione preliminare della struttura del meta-data repository sulla base dei requisiti di integrazione identificati.

Fase 2 (durata 8 mesi - dal 1/4/2001 al 30/11/2001)
Definizione di tecniche di clustering basate su affinita' e corrispondenze semantiche per sorgenti di dati semistrutturati e selezione interattiva di cluster di candidati all'integrazione da cui derivare viste riconciliate mediante opportune regole definite. Definizione del linguaggio fuzzy per l'interrogazione di viste riconciliate. Definizione di una metodologia per la costruzione semi-automatica di viste riconciliate basata su affinita' e clustering e definizione delle specifiche funzionali del prototipo dell'ambiente di supporto relativo: tali attivita' saranno svolte anche in stretta collaborazione le altre unita' coinvolte. Definizione di uno specifico livello del meta-data repository dedicato a contenere regole di integrazione/unificazione in un verso e mapping/trasformazione nel verso opposto per la derivazione, rispettivamente, del processo di integrazione e delle corrispondenze tra viste riconciliate e candidati nei cluster delle sorgenti di partenza.

Fase 3 (durata 8 mesi - dal 1/12/2001 al 31/7/2002)
Realizzazione di un prototipo di strumento di ausilio al progettista per la costruzione di viste riconciliate di sorgenti eterogenee e semistrutturate basato sulle tecniche di affinita' e clustering e sull'architettura funzionale definite nella fase 2. Collaborazione alla realizzazione del meta-data repository per gli aspetti relativi alla costruzione di viste riconciliate con affinita' e clustering.

Fase 4 (durata 4 mesi - dal 1/8/2002 al 30/11/2002)
Completamento dell'implementazione del prototipo sviluppato nella fase 3 e effettuazione di sperimentazione e validazione della metodologia e dello strumento su casi applicativi individuati nell'ambito del progetto anche in collaborazione con Telecom Italia.


Prodotti dell'Unità di Ricerca
La cifra dopo la D indica il tema di ricerca di riferimento per il prodotto (se è 0 il risultato è comune a tutti i temi). La lettera successiva indica il tipo del documento (sigla R: rapporto tecnico, sigla P: prototipo software). La lista tra parentesi indica le unità coinvolte nella produzione del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma). In grassetto è evidenziata l'unità responsabile per ciascun prodotto.

Al termine della Fase 1 (scadenza il 31 marzo 2001)
D0.R1: Specifiche per il meta-data repository (RM,BO,CS,MI,MO).
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate eterogenee (CS,BO,RM,MI,MO).
D1.R2: Utilizzo di ontologie e proprieta' inter-schema di tipo estensionale (MO,MI).

Al termine della Fase 2 (scadenza il 30 novembre 2001)
D0.R2: Specifica della architettura funzionale del repository di meta-dati (RM,BO,CS,MI,MO).
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee (MI,BO,MO).
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (CS,MI,MO).
D1.R10: Descrizione del linguaggio fuzzy per l'interrogazione di viste riconciliate (MI).

Al termine della Fase 3 (scadenza il 31 luglio 2002)
D0.P1: Repository di meta-dati (BO,CS,MI,MO,RM).
D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione di viste globali riconciliate basato su valutazione di affinita' e clustering interattivo (MI).

Al termine della Fase 4 (scadenza il 30 dicembre 2002)
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM).

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it