Testo italiano
D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati
D2I: Integration, Warehousing, and Mining of Heterogeneous Data Sources
Università degli Studi di ROMA "La Sapienza" | Facoltà di INGEGNERIA
lenzerini@dis.uniroma1.it
Professore associato | 25/10/1965
Università degli Studi di MILANO | Facoltà di SCIENZE MATEMATICHE FISICHE e NATURALI
castano@dsi.unimi.it
Testo italiano
Testo inglese
Testo italiano
Silvana Castano e' professore associato di Basi di dati e Sistemi Informativi presso il Dipartimento di Scienze dell'Informazione dell'Universita' di Milano. Dal 1993 al 1998 e' stata ricercatore presso la stessa Universita'. Nel 1993 ha conseguito il titolo di dottore di ricerca in Ingegneria Informatica e Automatica presso il Politecnico di Milano. I suoi interessi di ricerca sono nell'area delle basi di dati e sistemi informativi, con particolare riguardo a integrazione di sorgenti eterogenee di informazioni, dati semistrutturati e XML, reingegnerizzazione e riuso di dati e processi, applicazioni workflow, sicurezza di basi di dati. Su questi argomenti ha pubblicato numerosi articoli a riviste e conferenze internazionali e nazionali e ha partecipato a numerosi progetti di ricerca sia nazionali che internazionali. Fra questi i progetti Esprit ITHACA (Integrated Toolkit for Highly Advanced Computer Applications), F3 (From Fuzzy to Formal), WIDE (Workflow on Intelligent Distributed database Environment), RENOIR (Requirements Engineering Network Of International cooperating Research groups). E' co-autore del libro Database Security (Addison Wesley, 1995). Dal giugno 1997, e' Coordinatore del Gruppo di lavoro AICA "Basi di dati". E' membro dell'ACM, IEEE Computer Society e dell'AICA.Testo inglese
Silvana Castano is associate professor of Computer Science at University of Milano.Previously, she has been assistant professor at the same University (1993-1998). She received the Ph.D. degree in Computer Science from Politecnico di Milano, in 1993. Her main research interests are in the area of databases and information systems and include integration of heterogeneous information sources, semistructured data and XML, data and process re-engineering and reuse, workflow design, database security. On these topics, she has published several papers and has been working within several national and international research projects, including ITHACA (Integrated Toolkit for Highly Advanced Computer Applications), F3 (From Fuzzy to Formal), WIDE (Workflow on Intelligent Distributed database Environment), and RENOIR (Requirements Engineering Network Of International cooperating Research groups) ESPRIT Projects. She is a co-author of the book Database Security (Addison Wesley, 1995). Since June 1997, she is chair of the AICA Working Group on Databases. She is a member of the ACM, IEEE Computer Society and AICA.
L'integrazione e riconciliazione di dati provenienti da sorgenti eterogenee per scopi di
interrogazione e warehousing e' un argomento di ricerca rilevante nell'area basi di dati.
Numerosi contributi sono stati prodotti relativamente a sistemi per l'interrogazione a livello globale di basi di dati eterogenee. I principali sistemi sviluppati in tale ambito, SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], Infomaster [Geneseret 95], si concentrano sulla decomposizione dinamica di query globali in sotto-query per le singole sorgenti, utilizzando regole di trasformazione per la riconciliazione delle diverse risposte, sulla base di uno schema integrato delle sorgenti che si suppone definito, generalmente manualmente, a partire dagli schemi delle sorgenti di interesse e dalle interrogazioni che si intendono supportare.
Altri contributi della letteratura riguardano piu' specificamente il problema della riconciliazione di schemi in ambienti multidatabase con trattamento di eterogeneita' semantica. Una classificazione delle forme di eterogeneita' e dei possibili approcci alla riconciliazione e' presentato in [Hull 97], mentre problematiche generali relative a integrazione di schemi sono trattate in [Ram 98]. Strumenti specifici per integrazione e traduzione di dati eterogenei sono presentati in [Bright94, Reddy 94]. Regole e linguaggi per una rappresentazione integrata di informazioni eterogenee sono definiti in sistemi basati su mediatori [Chawathe 94]. Conoscenza di ontologie e' utilizzata per mediare tra terminologie di sorgenti eterogenee nella gestione di interrogazioni [Mena 96].
La presenza di sorgenti di dati semistrutturati nei moderni sistemi informativi basati su Web pone nuove problematiche da investigare rispetto al caso in cui si considerino solo tradizionali sorgenti di tipo strutturato, anche per scopi di integrazione. La recente letteratura relativa a dati semistrutturati si e' focalizzata sullo studio di problematiche di modellizzazione e interrogazione. Una rassegna di tali problematiche e' presentata in [Buneman 97a]. Fra i modelli per dati semistrutturati proposti in letteratura, si ricordano il modello OEM (Object Exchange Model) presentato in [Papakonstantinou 92] e il modello presentato in [Buneman 96]. Il problema di estrarre la struttura da una sorgente semistrutturata e' stato studiato nella recente letteratura per scopi di interrogazione, ma e' rilevante anche per scopi di integrazione. In [Buneman 97b,Widom 96] sono descritti algoritmi per l'estrazione di schemi a grafo per la rappresentazioni concisa e sintetica del contenuto di una sorgente semistrutturata utili per ottimizzazione di interrogazioni. Una proposta per l'inferenza della struttura da dati semistrutturati sottoforma di gerarchia di tipi e' presentata in [Nestorov 97]. Altri contributi rilevanti riguardano il linguaggio XML proposto dalla W3C per la definizione di documenti sulla rete Web [Bos 97]. Tale linguaggio infatti risulta adatto a descrivere dati semistrutturati in generale e consente di definire esplicitamente la struttura dei dati (Document Type Definition - DTD). Per tali ragioni, le problematiche di integrazione devono tenere conto considerando anche di sorgenti XML.
Gli aspetti di integrazione di dati semistrutturati sono stati affrontati preliminarmente dal punto di vista dei linguaggi di interrogazione per il Web e per sorgenti semistrutturate [Levy 96, Mendelzon 96]. In particolare, sono state proposte estensioni al liguaggio SQL per la definizione viste ottenute estraendo e ristrutturando dati di sorgenti diverse, risolvendo ''ad hoc'' nella definizione della vista le eventuali eterogeneita' dei dati di sorgenti semistrutturate diverse [Deutsch 98]. Alcuni contributi relativi a tecniche di schema-matching e sistemi middleware sono stati proposti per attivita' di trasformazione e integrazione di dati su Web [Haas 99, Milo 98].
L'unita' operativa di Milano (che include ricercatori dell'Universita' di Milano e dell'Universita' di Brescia) ha prodotto contributi per lo sviluppo di tecniche di analisi e classificazione di schemi concettuali in generale [Castano 98], e piu' specificamente contributi per la definizione di modelli per la rappresentazione di concetti e di relazioni semantiche fra concetti e per metodi di classificazione di schemi concettuali di basi di dati mediante costruzione di ontologie e dizionari semantici organizzati per domini applicativi [Castano 99a, Castano 97a]. Ha, inoltre, sviluppato nell'ambito del progetto MURST INTERDATA l'ambiente di supporto ARTEMIS per integrazione di sorgenti strutturate, descritto in [Castano99b]. Altri contributi dell'unita' operativa riguardano linguaggi per l'estrazione di dati da Web [Montesi 98, Montesi 99], ottimizzazione semantica di interrogazioni in basi di dati [Montesi 96], e integrazione di dati in presenza di vincoli di autorizzazione in sistemi di basi di dati eterogenee distribuite [Castano 97c,Castano95].
Tali metodi e strumenti concepiti essenzialmente per dati strutturati verranno opportunamente estesi in questo progetto per il trattamento di dati semistrutturati e sorgenti XML durante il processo di integrazione per la costruzione di viste riconciliate di sorgenti eterogenee e per la definizione di linguaggi di interrogazione di tipo fuzzy per la loro interrogazione. L'ambiente di partenza sara' il sistema MOMIS [Bergamaschi 98], la cui architettura iniziale e' stata definita nel progetto MURST INTERDATA, sulla base degli strumenti ARTEMIS e ODB-Tools per sorgenti di dati strutturati.Testo inglese
The integration and reconciliation of heterogeneous data sources for querying and warehousing purposes is a relevant research topic in the database area.
Several works have been published related to systems for querying heterogeneous databases. Some projects developed in this context, such as SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], and Infomaster [Geneseret 95], focus on dynamic decomposition of global queries into sub-queries to determine an efficient plan to answer the user's queries by using translation rules to harmonize sub-query results from heterogeneous sources, on the basis of an integrated schema properly defined (generally manually) starting from the sources of interest and from the expected queries.
Other contributions regard more specifically schema integration in multidatabase environments, by addressing semantic heterogeneity problems. A classification of semantic heterogeneity and of possibile approaches to reconciliation is presented in [Hull 97], while general problems related to schema integration are discussed [Ram 98]. Specific tools for integration and translation of heterogeneous data are presented in [Bright94, Reddy 94]. Rules and languages for an integrated representation of heterogeneous information are defined in mediator-based systems [Chawathe 94]. Ontology knowledge is exploited to mediate between heterogeneous source terminologies in query processing [Mena 96].
The presence of semistructured data sources in modern Web-based information systems poses new problems to be investigated with respect to conventional structured databases, also for integration purposes. The recent literature on semistructured data has concentrated on problems related to modeling and querying. A survey of these problems is presented in [Buneman 97a]. Main models proposed for semistructured data are the "Object Exchange Model'' (OEM) described in [Papakonstantinou 92] and the one presented in [Buneman 96]. The issue of adding structure to semistructured data is studied for query purposes, and is also of interest for integration purposes. In particular, in [Buneman97b,Widom 96], algorithms are described for the extraction of graph-based structures from a semistructured source to be used for query optimization. A proposal to infer a type hierarchy for semistructured data has been presented in [Nestorov 97]. Other relevant contributions regard the XML language proposed by the W3C for defining documents over the Web [Bos 97]. In fact, XML is apt to represent semistructured data in general and has the possibility of explicitly representing the structure of XML data (DTD - Document Type Definition). For these reasons, integration problems for semistructured data should take into account also XML data sources.
Integration aspects for semistructured data have been only preliminarly investigated mainly from the point of view of query languages for the Web and semistructured data in general [Levy 96, Mendelzon 96]. In particular, some extensions to SQL have been proposed to define views by composing data extracted from different sources, by resolving ''ad hoc'' in the view definition possible terminology and/or structure heterogeneities among data of different sources [Deutsch 98]. Other contributions related to schema-matching techniques and middleware systems have been recently proposed for data transformation and integration over the Web [Haas 99, Milo 98].
The research team at University of Milano (which includes researchers of the University of Milano and of the University of Brescia) has produced contributions to the development of schema analysis techniques, in general terms [Castano 98], and more specifically, contributions to the definition of models for representing concepts and semantic relationships between concepts and of schema classification methods by constructing ontologies and semantic dictionaries organized by application domains [Castano 99a, Castano 97a]. Furthermore, in the framework of MURST INTERDATA research project, the ARTEMIS tool environment has been developed for the integration of heterogeneous databases [Castano 99b]. Other contributions of the research team regard languages for the extraction of data from the Web [Montesi 98, Montesi 99], semantic query optimization in databases [Montesi 96], and data integration with authorization constraints in heterogeneous database systems [Castano97b,Castano 95].
These methods and tools, mainly conceived for structured data, will be extended in this project to consider semistructured data and XML sources in the integration process to construct reconciled views, and to define a fuzzy language for their querying. The starting environment will be the MOMIS system [Bergamaschi 98], whose initial architecture has been set in the framework of the MURST INTERDATA project, on the basis of the ARTEMIS tool environment and ODB-Tools for structured data sources.
Obiettivo della ricerca dell'unita' operativa di Milano e' lo sviluppo di un ambiente per la creazione di viste riconciliate di dati eterogenei e semistrutturati, mediante utilizzo di tecniche di affinita' e clustering specializzate per tali dati, e per l'interrogazione di viste riconciliate mediante un linguaggio di tipo fuzzy opportunamente definito.
Nell'integrazione di sorgenti di dati semistrutturati, problematiche fondamentali da risolvere riguardano l'identificazione di dati semanticamente simili in sorgenti diverse e il trattamento delle diverse tipologie di eterogeneita' peculiari di tali dati al fine di derivare rappresentazioni riconciliate e rendere possibili interrogazioni in modo uniforme a livello globale. Nei moderni sistemi informativi basati su Web il numero di sorgenti eterogenee e semistrutturate da integrare puo' diventare molto elevato ed e' pertanto importante sviluppare un ambiente intelligente che consenta di operare il possibile in maniera semi-automatica. A tale scopo, si studieranno tecniche per l'identificazione di dati simili in sorgenti semistrutturate diverse, basate su definizione e valutazione di proprieta' di affinita' e corrispondenze semantiche specificamente concepite per tenere conto di eterogenita' e proprieta' dei dati semistrutturati. Si svilupperanno inoltre algoritmi di clustering basato su affinita' per la selezione interattiva di candidati all'integrazione e regole con cui derivare rappresentazioni riconciliate di dati semistrutturati in forma di viste globali. Al fine di rendere il processo di integrazione semi-automatico, le tecniche sfrutteranno il piu' possibile metadati e contenuto semantico di sorgenti semistrutturate con l'ausilio di conoscenza di dominio (ad esempio, thesaurus, ontologie). Si studiera' inoltre un linguaggio di interrogazione fuzzy per interrogare viste riconciliate di dati semistrutturati in cui l'utente puo' pesare i termini nell'interrogazione e filtrare le risposte in base alla rilevanza.
Il programma di ricerca dell'unita' operativa di Milano e' biennale e si articola nelle seguenti fasi.
Fase 1) (durata 4 mesi)
Definizione di requisiti di integrazione per sorgenti di dati eterogenei e semistrutturati per la valutazione di proprieta' di affinita' e corrispondenze semantiche, tenendo conto di proprieta' e caratteristiche delle loro descrizioni a livello intensionale (metadati), contenuto semantico (con l'ausilio di thesaurus/ontologie), tipologie di eterogeneita' e proprieta' intra e inter-schema. Definizione preliminare della struttura del meta-data repository sulla base dei requisiti di integrazione identificati.
Prodotti della Fase 1:
D0.R1: Specifiche per il meta-data repository (in collaborazione con BO,CS,RM,MO)
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate eterogenee (in collaborazione con BO,CS,RM,MO)
D1.R2: Utilizzo di ontologie e proprieta' inter-schema di tipo estensionale (in collaborazione con MO)
Fase 2) (durata 8 mesi)
Definizione di tecniche di clustering basate su affinita' e corrispondenze semantiche per sorgenti di dati semistrutturati e selezione interattiva di cluster di candidati all'integrazione da cui derivare viste riconciliate mediante opportune regole definite. Definizione del linguaggio fuzzy per l'interrogazione di viste riconciliate. Definizione di una metodologia per la costruzione semi-automatica di viste riconciliate basata su affinita' e clustering e definizione delle specifiche funzionali del prototipo dell'ambiente di supporto relativo: tali attivita' saranno svolte anche in stretta collaborazione le altre unita' coinvolte. Definizione di uno specifico livello del meta-data repository dedicato a contenere regole di integrazione/unificazione in un verso e mapping/trasformazione nel verso opposto per la derivazione, rispettivamente, del processo di integrazione e delle corrispondenze tra viste riconciliate e candidati nei cluster delle sorgenti di partenza.
Prodotti della Fase2:
D0.R2: Specifica della architettura funzionale del repository di meta-dati (in collaborazione con BO,CS,RM,MO)
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee ( in collaborazione con MO,BO)
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (in collaborazione con CS,MO).
D1.R10: Descrizione del linguaggio fuzzy per l' interrogazione di viste riconciliate
Fa se 3) (durata 8 mesi)
Realizzazione di un prototipo di strumento di ausilio al progettista per la costruzione di viste riconciliate di sorgenti eterogenee e semistrutturate basato sulle tecniche di affinita' e clustering e sull'architettura funzionale definite nella fase 2. Collaborazione alla realizzazione del meta-data repository per gli aspetti relativi alla costruzione di viste riconciliate con affinita' e clustering.
Prodotti della Fase3:
D0.P1: Repository di meta-dati (in collaborazione con BO,CS,RM,MO)
D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione di viste globali riconciliate basato su valutazione di affinita' e clustering interattivo
Fase 4) (durata 4 mesi)
Completamento dell'implementazione del prototipo sviluppato nella fase 3 e effettuazione di sperimentazione e validazione della metodologia e dello strumento su casi applicativi individuati nell'ambito del progetto anche in collaborazione con Telecom Italia.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (in collaborazione con BO,CS,MO,RM)Testo inglese
Objectives of the research of the University of Milano unit will be the development of an environment for the construction of reconciled views of heterogeneous and semistructured data by using affinity and clustering techniques specialized for this kind of data, and for querying reconciled views by means of a fuzzy query language specifically defined.
In the integration of semistructured data sources, relevant problems to be addressed are related to the identification of semantically similar data in different semistructured sources by taking into account different typologies of heterogeneity that characterize this kind of data, in order to derive global reconciled representations to support uniform queries at the global level. In moder Web-based information systems, the number of heterogeneous and semistructured data sources to be integrated can be very high, and for this reason it is essential to develop an environment semi-automated as much as possible. To this end, techniques will be developed to identify semantically similar data in different semistructured sources based on the definition and evaluation of affinity properties and semantic correspondences specifically conceived to take into account heterogeneities and properties of this kind of data. Furthermore, clustering algorithms will be studied for the interactive selection of candidates to integration and rules to derive a corresponding reconciled representation in form of global view. To make the environment semi-automatic, techniques will be conceived to exploit as much as possible metadata descriptions and semantic contents of semistructured sources with domain knowledge (e.g., thesaurus, ontologies). A fuzzy language will be specifically defined for querying reconciled views of semistructured data, allowing the user to weight terms in the queries and to filter the results on the basis of their relevance.
The research program of the University of Milano unit is over two-years, and is articulated in the following phases.
Phase 1) (4 months)
Definition of requirements for the integration of heterogeneous and semistructured data sources, to the evaluation of affinity properties and semantic correspondences, by taking into account properties and characteristics of intensional descriptions (metadata), semantic content (with the help of thesaurus/ontologies), typologies of semantic heterogeneity and inter-schema properties. Preliminary definition of the structure of the meta-data repository based on identified integration requirements.
Products of Phase 1:
D0.R1: Specification for the meta-data repository (in collaboration with BO,CS,RM,MO)
D1.R1: Methods and techniques for the extraction, representation, and integration of structured and semi-structured data sources (in collaboration with BO,CS,RM,MO)
D1.R2: Use of ontologies and extensional inter-schema properties for integration (in collaboration with MO)
Phase 2) (8 months)
Definition of clustering techniques based on affinity properties and semantic correspondences for the identification of semistructured data candidate to integration from which to derive the reconciled view by means of defined rules. Definition of a fuzzy language for querying reconclied views. Definition of a methodology for the construction of global reconciled views out of candidate clusters and definition of the functional architecture of the corresponding prototype tool environment for the construction of reconciled views: these two latest activities will be conducted also in strict collaboration with the other units involved. Definition of a specific level of the meta-data repository, devoted to storing integration/unification rules on one direction and mapping/transformation rules in the opposite direction, to derive the integration process and the correspondences between reconciled views and candidates in the original sources, respectively.
Products of Phase 2:
D0.R2: Functional architecture of meta-data repository (in collaboration with BO,CS,RM,MO)
D1.R6: Description of the methodology for the integration of strongly heterogeneous sources (in collaboration with MO,BO)
D1.R7: Functional architecture of a design tool to build a reconciled view of heterogeneous sources (in collaboration with CS,MO).
D1.R10: Description of the fuzzy language for querying reconciled views
Phase 3) (8 months)
Implementation of a prototype of tool environment for the construction of reconciled views for based on affinity and clustering techniques developed in phase 2. Collaboration to the development of the meta-data repository for the aspects related to reconciled view construction based on affinity and clustering techniques.
Products of Phase 3:
D0.P1: Meta-data-repository (in collaboration with BO,CS,RM,MO)
D1.P7: Prototype of the design tool for the construction of a global view based on affinity evaluation and interactive clustering
Phase 4) (4 months)
The implementation of the prototype of phase 3 will be completed. Experimentation and validation of the methodology and of the prototype tool will be performed on application cases that will be identified in the project also in collaboration with Telecom Italia.
D1.R12: Experimentation and evaluation of the prototypes (in collaboration with BO,CS,MO,RM)
