Tema
1: Integrazione di dati provenienti da sorgenti eterogenee
|
Responsabile
del tema di ricerca
Prof. Sonia Bergamaschi Dipartimento di Scienze
dell'Ingegneria Universita' degli Studi di Modena e Reggio Emilia
via Vignolese, 905 - 41100 Modena Italy
Tel: +39 - 059 - 2056132
Fax: +39 - 059 - 2056126
E-mail:
sonia.bergamaschi@unimo.it
Home
page: http://www.dbgroup.unimo.it/Bergamaschi.html
Unita' coinvolte
nel tema
Univ. di Bologna
Univ. della Calabria
Univ. di Milano
Univ. di Modena e Reggio Emilia
Univ. di Roma "La Sapienza"
e-mail
ai partecipanti al tema 1
Obiettivo del
tema
L'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione
di dati provenienti da sorgenti fortemente e strutturalmente eterogenee,
ossia da sorgenti di tipo strutturato (ad es., basi di dati), o semistrutturato
(ad es., documenti HTML e XML). I metodi di rappresentazione dei dati
presenti nelle sorgenti devono tenere conto di sorgenti semistrutturate,
e di possibile coesistenza di versioni diverse dei dati. Si deve poi
tenere conto che la scoperta di proprietà inter-schema è cruciale
per caratterizzare le relazioni semantiche tra dati in diverse sorgenti,
ed è complicata dal fatto che le informazioni semantiche sulle sorgenti
stesse sono spesso implicite. Infine, il processo che conduce alla
risposta ad interrogazioni poste in termini di viste globali pone
problemi sia per la suddivisione della query in sottoquery, sia per
la ricostruzione della risposta. I principali risultati che si intendono
perseguire riguardano la definizione di una metodologia di integrazione
di sorgenti fortemente eterogenee, la definizione di tecniche semiautomatiche
di clustering di sorgenti basate su proprieta' di affinita' e corrispondenze
semantiche, la progettazione di algoritmi per la riscrittura di interrogazioni
su viste globali in termini di interrogazioni sulle sorgenti, la definizione
di metodi per la gestione di versioni diverse delle sorgenti, la caratterizzazione
di opportuni parametri per descrivere la qualità dei dati, e di tecniche
per la riconciliazione di dati provienti da sorgenti diverse, la progettazione
e la realizzazione di un ambiente che supporti l'attivita' d'integrazione,
basato sulla gestione di meta-dati.
Fasi di lavoro
Fase 1 (durata 4 mesi
- dal 1/12/2000 al 31/3/2001)
La prima fase si concentrerà sullo studio e l'analisi dei nuovi requisiti
che emergono sulla integrazione di dati quando si considerano sorgenti
fortemente eterogenee, cioè sorgenti strutturate (es: basi di dati)
e semi-strutturate (es: documenti HTML,XML). Le problematiche tipiche
di integrazione verranno indagate nell'ambito di questo nuovo contesto.
Verranno studiati i requisiti per nuovi metodi di rappresentazione
dei dati, tenendo conto della presenza di sorgenti semistrutturate.
Verranno confrontati i modelli per dati semistrutturati proposti in
letteratura, allo scopo di caratterizzarne il potere espressivo. Verranno
analizzati i requisiti per la scoperta e la rappresentazione di proprietà
intra e inter-schema delle sorgenti, sia intensionali che estensionali,
tenendo conto del fatto che le sorgenti sono descritte mediante meccanismi
meno strutturati. Verranno indagati metodi per definire e specificare
parametri di qualità delle sorgenti (affidabilità, completezza, ridondanza,
accuratezza, ecc.) e i metodi per la riconciliazione di dati provenienti
da sorgenti eterogenee. Verrà studiato l'impatto che la presenza di
diverse versioni dello schema di una sorgente, con particolare riferimento
a sorgenti object-oriented, può avere sul processo di integrazione.
Verrà analizzato il ruolo dei meta-dati e delle ontologie in un contesto
in cui si integrano sorgenti strutturate e semi-strutturate. Si analizzeranno
i metodi esistenti per il problema del query rewriting e del query
answering using views. Si dara` una definizione preliminare della
struttura del meta-data repository per descrivere le diverse tipologie
di sorgenti e di relazioni intra ed inter-schema.
Fase 2
(durata 8 mesi - dal
1/4/2001 al 30/11/2001)
L'obiettivo della fase è la produzione di risultati scientifici che
definiscano nel loro complesso un quadro metodologico per l'integrazione
di dati provenienti da sorgenti fortemente eterogenee, sulla base
dei requisiti di integrazione stabiliti nella fase precedente. Si
definirà una metodologia per la costruzione di viste riconciliate
di dati semi-strutturati provenienti da sorgenti eterogenee, basata
su tecniche intelligenti di tipo semi-automatico per l'identificazione
e riconciliazione di eterogeneità basate su affinita' e clustering,
sulla estrazione semi-automatica di proprietà interschema, e su conoscenza
di ontologie di dominio. La metodologia prevede esplicitamente tecniche
e passi specifici per la rappresentazione ed il trattamento di sorgenti
semistrutturate, secondo le linee stabilite nella fase 1. In presenza
di diverse versioni di schema, le tecniche impiegate saranno basate
su proprieta' inter-versione dedotte dalle modifiche di schema applicate.
I risultati forniti includeranno la specifica funzionale/architetturale
di prototipi. In particolare, verra` definita l'architettura funzionale
di un prototipo che implementa la metodologia sviluppata. Si definiranno
poi metodi e tecniche per il trattamento di interrogazioni formulate
sulla vista integrata. In particolare, si procederà alla definizione
di linguaggi fuzzy per l'interrogazione di vistericonciliate/sorgenti
in cui pesare termini e filtrare le risposte in base alla rilevanza,
tenendo conto della esistenza di sorgenti strutturate, semistrutturate
e versionate. Si definiranno algoritmi per la riscrittura di interrogazioni
rispetto ad un insieme di viste (query rewriting e query answering
using views), estendendo, modificando e adattando gli approcci attuali
tenendo conto della esistenza di sorgenti semistrutturate. Si produrranno
le specifiche funzionali di un "Query Manager" che supporti interrogazioni
globali rispetto ad una vista virtuale integrata delle sorgenti. Compito
primario del query manager è la decomposizione di una query globale
in sub-query relative alle sorgenti e l'ottimizzazione della esecuzione
delle sub-query. A tale scopo si estenderanno le tecniche di ottimizzazione
sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, con
particolare riferimento alla ottimizzazione semantica. La struttura
del meta-data repository definita nella fase 1 verra` arricchita dalle
nuove tipologie di meta-dati e meta-relazioni individuate in questa
fase, con particolare riferimento alle interrogazioni globali e al
loro mapping in interrogazioni locali alle sorgenti.
Fase 3 (durata
8 mesi - dal 1/12/2001 al 31/7/2002)
L'obiettivo della fase è la realizzazione di un insieme di prototipi
che realizzino le funzioni enucleate dai risultati scientifici prodotti
nella fase precedente. Si realizzerà un prototipo che implementa un
ambiente di ausilio al progettista per la costruzione di viste riconciliate
di sorgenti fortemente eterogenee basato sulla metodologia sviluppata
nella fase 2. Il prototipo ingloberà anche un ambiente di ausilio
alla costruzione della vista virtuale globale, con particolare riferimento
agli agli aspetti ontologici, ai risultati di clustering interattivo
basato su affinita' e alla conoscenza inter-schema di tipo sia intensionale
che estensionale. Si porrà inoltre cura particolare nello stabilire
l'interfaccia di tali ambienti con il Query Manager delineato nella
fase 2. Si realizzerà un prototipo che implementi gli algoritmi per
l'estrazione di proprietà inter-schema da sorgenti di dati strutturati
e semi-strutturati definiti nella fase 2. Si realizzera` un prototipo
per gli algoritmi di query rewriting e query answering using views
sviluppati nella fase 2 e per la riconciliazione dei dati. Si realizzera`
il prototipo di un query manager per la gestione di query globali.
Si progetterà e realizzera` un sistema di supporto alla realizzazione
di sistemi per la gestione di versioni di schemi relativi a dati provenienti
da sorgenti eterogenee. I problemi di integrazione da risolvere in
questo caso sono analoghi a quelli affrontati nella fase 1, ma più
complessi e articolati; la definizione del meta-data repository costituisce
lo strumento fondamentale su cui si basa l'integrazione. Particolare
cura verrà dedicata in questa fase alla coerenza e alla integrabilità
dei vari prototipi, in particolare per assicurarsi che gli output
dei vari sistemi siano utilizzabili dagli altri, quando necessario.
Particolare cura verrà dedicata alla realizzazione modulare dei prototipi,
al fine di preservare la loro coerenza e integrabilità complessiva.
A questo proposito, l'interfacciamento tra il sistema di ausilio alla
integrazione e il query manager è già stato studiato nella fase 2.
La realizzazione del prototipo che realizza gli algoritmi per l'estrazione
di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati
verrà condotta in modo da assicurare l'interfacciamento con l'ambiente
di ausilio alla integrazione.
Fase 4 (durata 4 mesi
- dal 1/8/2002 al 30/11/2002)
L'obiettivo di questa fase e` quello di completare la realizzazione
e l'integrazione dei prototipi sviluppati nelle fasi precedenti e
di condurre opportuni esperimenti per verificarne l'efficacia in problemi
reali d'integrazione. In particolare, la sperimentazione verra' condotta
facendo riferimento alle sorgenti informative messe a disposizione
da TELECOM Italia. Verra` completato l'interfacciamento del prototipo
degli algoritmi di query rewriting e query answering using views assicurando
l'interfacciamento con il query manager. Infine, verranno realizzati
prototipi di componenti middleware per la soluzione dei problemi di
integrazione in applicazioni multischema/multiversione distribuite
basato sull'uso di primitive CORBA, e verranno realizzati prototipi
di agenti mediatori, secondo le linee definite nella fase 3.