Tema 1: Integrazione di dati provenienti da sorgenti eterogenee

Responsabile del tema di ricerca
Prof. Sonia Bergamaschi Dipartimento di Scienze dell'Ingegneria Universita' degli Studi di Modena e Reggio Emilia
via Vignolese, 905 - 41100 Modena Italy
Tel: +39 - 059 - 2056132
Fax: +39 - 059 - 2056126
E-mail: sonia.bergamaschi@unimo.it
Home page: http://www.dbgroup.unimo.it/Bergamaschi.html

Unita' coinvolte nel tema
Univ. di Bologna
Univ. della Calabria
Univ. di Milano
Univ. di Modena e Reggio Emilia
Univ. di Roma "La Sapienza"

Obiettivo del tema
L'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione di dati provenienti da sorgenti fortemente e strutturalmente eterogenee, ossia da sorgenti di tipo strutturato (ad es., basi di dati), o semistrutturato (ad es., documenti HTML e XML). I metodi di rappresentazione dei dati presenti nelle sorgenti devono tenere conto di sorgenti semistrutturate, e di possibile coesistenza di versioni diverse dei dati. Si deve poi tenere conto che la scoperta di proprietà inter-schema è cruciale per caratterizzare le relazioni semantiche tra dati in diverse sorgenti, ed è complicata dal fatto che le informazioni semantiche sulle sorgenti stesse sono spesso implicite. Infine, il processo che conduce alla risposta ad interrogazioni poste in termini di viste globali pone problemi sia per la suddivisione della query in sottoquery, sia per la ricostruzione della risposta. I principali risultati che si intendono perseguire riguardano la definizione di una metodologia di integrazione di sorgenti fortemente eterogenee, la definizione di tecniche semiautomatiche di clustering di sorgenti basate su proprieta' di affinita' e corrispondenze semantiche, la progettazione di algoritmi per la riscrittura di interrogazioni su viste globali in termini di interrogazioni sulle sorgenti, la definizione di metodi per la gestione di versioni diverse delle sorgenti, la caratterizzazione di opportuni parametri per descrivere la qualità dei dati, e di tecniche per la riconciliazione di dati provienti da sorgenti diverse, la progettazione e la realizzazione di un ambiente che supporti l'attivita' d'integrazione, basato sulla gestione di meta-dati.

Fasi di lavoro

Fase 1 (durata 4 mesi - dal 1/12/2000 al 31/3/2001)
La prima fase si concentrerà sullo studio e l'analisi dei nuovi requisiti che emergono sulla integrazione di dati quando si considerano sorgenti fortemente eterogenee, cioè sorgenti strutturate (es: basi di dati) e semi-strutturate (es: documenti HTML,XML). Le problematiche tipiche di integrazione verranno indagate nell'ambito di questo nuovo contesto. Verranno studiati i requisiti per nuovi metodi di rappresentazione dei dati, tenendo conto della presenza di sorgenti semistrutturate. Verranno confrontati i modelli per dati semistrutturati proposti in letteratura, allo scopo di caratterizzarne il potere espressivo. Verranno analizzati i requisiti per la scoperta e la rappresentazione di proprietà intra e inter-schema delle sorgenti, sia intensionali che estensionali, tenendo conto del fatto che le sorgenti sono descritte mediante meccanismi meno strutturati. Verranno indagati metodi per definire e specificare parametri di qualità delle sorgenti (affidabilità, completezza, ridondanza, accuratezza, ecc.) e i metodi per la riconciliazione di dati provenienti da sorgenti eterogenee. Verrà studiato l'impatto che la presenza di diverse versioni dello schema di una sorgente, con particolare riferimento a sorgenti object-oriented, può avere sul processo di integrazione. Verrà analizzato il ruolo dei meta-dati e delle ontologie in un contesto in cui si integrano sorgenti strutturate e semi-strutturate. Si analizzeranno i metodi esistenti per il problema del query rewriting e del query answering using views. Si dara` una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.

Fase 2 (durata 8 mesi - dal 1/4/2001 al 30/11/2001)
L'obiettivo della fase è la produzione di risultati scientifici che definiscano nel loro complesso un quadro metodologico per l'integrazione di dati provenienti da sorgenti fortemente eterogenee, sulla base dei requisiti di integrazione stabiliti nella fase precedente. Si definirà una metodologia per la costruzione di viste riconciliate di dati semi-strutturati provenienti da sorgenti eterogenee, basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate su affinita' e clustering, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. La metodologia prevede esplicitamente tecniche e passi specifici per la rappresentazione ed il trattamento di sorgenti semistrutturate, secondo le linee stabilite nella fase 1. In presenza di diverse versioni di schema, le tecniche impiegate saranno basate su proprieta' inter-versione dedotte dalle modifiche di schema applicate. I risultati forniti includeranno la specifica funzionale/architetturale di prototipi. In particolare, verra` definita l'architettura funzionale di un prototipo che implementa la metodologia sviluppata. Si definiranno poi metodi e tecniche per il trattamento di interrogazioni formulate sulla vista integrata. In particolare, si procederà alla definizione di linguaggi fuzzy per l'interrogazione di vistericonciliate/sorgenti in cui pesare termini e filtrare le risposte in base alla rilevanza, tenendo conto della esistenza di sorgenti strutturate, semistrutturate e versionate. Si definiranno algoritmi per la riscrittura di interrogazioni rispetto ad un insieme di viste (query rewriting e query answering using views), estendendo, modificando e adattando gli approcci attuali tenendo conto della esistenza di sorgenti semistrutturate. Si produrranno le specifiche funzionali di un "Query Manager" che supporti interrogazioni globali rispetto ad una vista virtuale integrata delle sorgenti. Compito primario del query manager è la decomposizione di una query globale in sub-query relative alle sorgenti e l'ottimizzazione della esecuzione delle sub-query. A tale scopo si estenderanno le tecniche di ottimizzazione sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, con particolare riferimento alla ottimizzazione semantica. La struttura del meta-data repository definita nella fase 1 verra` arricchita dalle nuove tipologie di meta-dati e meta-relazioni individuate in questa fase, con particolare riferimento alle interrogazioni globali e al loro mapping in interrogazioni locali alle sorgenti.

Fase 3 (durata 8 mesi - dal 1/12/2001 al 31/7/2002)
L'obiettivo della fase è la realizzazione di un insieme di prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente. Si realizzerà un prototipo che implementa un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulla metodologia sviluppata nella fase 2. Il prototipo ingloberà anche un ambiente di ausilio alla costruzione della vista virtuale globale, con particolare riferimento agli agli aspetti ontologici, ai risultati di clustering interattivo basato su affinita' e alla conoscenza inter-schema di tipo sia intensionale che estensionale. Si porrà inoltre cura particolare nello stabilire l'interfaccia di tali ambienti con il Query Manager delineato nella fase 2. Si realizzerà un prototipo che implementi gli algoritmi per l'estrazione di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati definiti nella fase 2. Si realizzera` un prototipo per gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2 e per la riconciliazione dei dati. Si realizzera` il prototipo di un query manager per la gestione di query globali. Si progetterà e realizzera` un sistema di supporto alla realizzazione di sistemi per la gestione di versioni di schemi relativi a dati provenienti da sorgenti eterogenee. I problemi di integrazione da risolvere in questo caso sono analoghi a quelli affrontati nella fase 1, ma più complessi e articolati; la definizione del meta-data repository costituisce lo strumento fondamentale su cui si basa l'integrazione. Particolare cura verrà dedicata in questa fase alla coerenza e alla integrabilità dei vari prototipi, in particolare per assicurarsi che gli output dei vari sistemi siano utilizzabili dagli altri, quando necessario. Particolare cura verrà dedicata alla realizzazione modulare dei prototipi, al fine di preservare la loro coerenza e integrabilità complessiva. A questo proposito, l'interfacciamento tra il sistema di ausilio alla integrazione e il query manager è già stato studiato nella fase 2. La realizzazione del prototipo che realizza gli algoritmi per l'estrazione di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati verrà condotta in modo da assicurare l'interfacciamento con l'ambiente di ausilio alla integrazione.

Fase 4 (durata 4 mesi - dal 1/8/2002 al 30/11/2002)
L'obiettivo di questa fase e` quello di completare la realizzazione e l'integrazione dei prototipi sviluppati nelle fasi precedenti e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. In particolare, la sperimentazione verra' condotta facendo riferimento alle sorgenti informative messe a disposizione da TELECOM Italia. Verra` completato l'interfacciamento del prototipo degli algoritmi di query rewriting e query answering using views assicurando l'interfacciamento con il query manager. Infine, verranno realizzati prototipi di componenti middleware per la soluzione dei problemi di integrazione in applicazioni multischema/multiversione distribuite basato sull'uso di primitive CORBA, e verranno realizzati prototipi di agenti mediatori, secondo le linee definite nella fase 3.