Testo italiano
D2I: Integrazione, warehousing e mining di sorgenti eterogenee di datiTesto inglese
D2I: Integration, Warehousing, and Mining of Heterogeneous Data Sources
Testo italiano
Gli sviluppi dell'informatica e delle telecomunicazioni hanno reso disponibile l'accesso ad un numero sempre piu' vasto di banche dati strutturate e semistrutturate, create in tempi diversi, su sistemi diversi e con criteri organizzativi diversi. Senza l'applicazione di opportuni metodi, gli utenti hanno a disposizione grandi quantita' di dati, ma trovano inevitabili difficolta' nel sintetizzare l'informazione utile ai propri scopi. Risulta quindi importante ricercare nuove metodologie per l'integrazione di sorgenti eterogenee di dati, per il progetto di basi di dati destinate all'analisi in linea di dati di sintesi (data warehouse), e per la scoperta di nuovi collegamenti e proprieta' non facilmente intuibili all'interno di una sorgente o di sorgenti diversi (data mining).
L'obiettivo del progetto e' la definizione di un quadro metodologico generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee (D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici per i tre temi. Riguardo al primo tema, verranno studiati metodi e strumenti per effettuare l'integrazione dei dati nel caso in cui le sorgenti informative siano caratterizzate da un alto grado di eterogeneita', sia rispetto al contenuto, sia rispetto al livello di strutturazione. Riguardo al secondo tema, verranno studiati metodologie e strumenti per la progettazione e l'interrogazione di data warehouse. Per la progettazione, si proporranno tecniche innovative per la definizione e la gestione del livello dei dati derivati. Per l'interrogazione, si affrontera' l'aspetto cruciale di sviluppo di tecniche che permettano un adeguato livello di efficienza. Riguardo al terzo tema ci si propone di affrontare il tema del "data mining" da diversi punti di vista, sia sotto il profilo delle finalita`, che comprendono clustering con metodi sia esatti sia di similarita`, clustering incrementale, visualizzazione e meta-querying, sia sotto il profilo del tipo dei dati, da quelli strutturati, a quelli semistrutturati e multimediali. La problematica trattata nel progetto riveste grande importanza applicativa e industriale, specialmente in relazione alla opportunita' di estrarre informazione di rilevanza direzionale e strategica dai dati del livello operativo delle imprese. I temi del progetto sono infatti centrali per la componente di data management nei sistemi di Enterprise Knowledge Management e di Enterprise Resource Planning.
Il progetto vede la partecipazione di 5 unita' di sedi universitarie diverse, con 28 fra professori e ricercatori (per un totale di 189 mesi uomo), e 13 fra dottorandi e borsisti (per un totale di 104 mesi uomo) e personale a contratto per un totale di 81 mesi uomo. Il costo previsto e' di 3 milioni per mese di impegno per ciascun docente, e 1.5 milioni per mese per ciascun borsista o dottorando. Il costo totale e' di 881 milioni. Le unita' coinvolte vantano una lunga esperienza di collaborazione a progetti, sia nell'ambito dei "Progetti Finalizzati CNR", sia nell'ambito dei "Progetti Nazionali MURST". Il coordinamento del progetto verra' assicurato attraverso l'individuazione di un coordinatore per ciascuno dei tre temi, che interagira' con il responsabile nazionale, al fine di monitorare lo stato di avanzamento relativo. E' prevista una riunione collegiale dopo ognuna delle 4 fasi in cui si articola il progetto. I risultati previsti nel progetto sono di natura scientifico-metodologica, descritti in rapporti tecnici e in pubblicazioni, e realizzativa (sviluppo di strumenti a livello prototipale). I metodi e gli strumenti proposti saranno sperimentati e validati attraverso una collaborazione con Telecom Italia (Divisione di Data Administration, Data Warehouse, Data Mining. Direttore: Ing. Stefano Trisolini), in particolare per quanto riguarda l'analisi dei dati relativi al traffico telefonico e al customer care.Testo inglese
The recent developments of Computer and Telecommunications technology enables accessing a large number of structured and semi-structured data sources, developed in different times, with different organizational principles and models, and supported by different hw/sw platforms. Thus, on the one hand, users know that a lot of useful data are available, but, on the other hand, they are not able of extracting the information useful to achieve their aims, if not after much effort. It follows that a new research effort is needed for developing techniques for heterogeneous sources integration, for the design of data repositories (data warehouse) for on-line analysis and querying, and for the discovery (data mining) of intra and inter-schema properties, links and patterns.
The goal of the project is to define a comprehensive methodological framework for the integration, warehousing, and mining of eterogeneous sources (D2I: From Data To Integration), and to develop specific results for the following three tasks: integration of data coming from eterogeneouos sources, data warehouse design and querying, data mining. The problem of data integration is addressed in the case that the information sources are highly heterogeneous, in particular with respect to the structuring level of data. The goal is to develop methodologies and tools that take into account that the information sources to be integrated can be structured, or semi-structured, and that the queries to be supported are expressed in terms of global views over such sources. With respect to the second task, the goal of the project is the development of a methodology to cope with both the reconciled and the derived data level design, and the definition of suitable techniques for efficient query processing in data warehouses. Finally, for the task of data mining, the goal of the project is to develop clustering methods (both exact and similarity-based), incremental clustering, visualization and meta-querying. Data types of interest will include structured data deriving from DW, both numerical and categorical, semistructured, and multimedia data. A number of software prototypes implementing methodologies, tools and methods for each task of the project will be developed. The above topics have great importance in industrial applications, especially for the problem of extracting strategical information from the large amount of data that are typically present in the operational level of the enterprise. The issues dealt with in the project represent central problems for the data management component of Enterprise Knowledge Management and Enterprise Resource Planning systems.
There are 5 research groups involved in the project, with 28 professors and researchers, 13 PhD and post-doc students, and 10 external people, that will work in a joint effort. The cost of the project is about 3 million Lire for each month of work of each faculty member, and 1.5 million Lire per month for each student or postdoc. The resulting total cost is 881 million Lire. Ideas and aims at the basis of this project proposal arised from the joint participation of many of the proposers in European and Italian research projects on similar topics, in particular, the Esprit DWQ project, and the MURST Italian INTERDATA project, funded in 1997. The project management will be led by the project leader in strict collaboration with a task-leader for each task, thus ensuring continuous monitoring and interaction with the partners. Methods and tools developed in the project will be experimented and validated through a collaboration with Telecom Italia (Department of Data Administration, Data Warehouse, and Data Mining. Director: Dr. Stefano Trisolini), in particular for the analysis of data about phone traffic and customer care.
K05A | K05B |
Testo italiano
BASI DI DATI ; SISTEMI INFORMATIVI ; INTEGRAZIONE ; DATA WAREHOUSING ; DATA MINING
Testo inglese
DATA BASES ; INFORMATION SYSTEMS ; INTEGRATION ; DATA WAREHOUSING ; DATA MINING
LENZERINI | MAURIZIO | |
---|---|---|
(cognome) | (nome) |
Professore ordinario | 14/12/1954 | LNZMRZ54T14G388K |
---|---|---|
(qualifica) | (data di nascita) | (codice di identificazione personale) |
Università degli Studi di ROMA "La Sapienza" | Facoltà di INGEGNERIA |
---|---|
(università) | (facoltà) |
K05A | Dipartimento di INFORMATICA E SISTEMISTICA |
(settore scient.discipl.) | (Dipartimento/Istituto) |
06/8841954 | 06/85300849 | lenzerini@dis.uniroma1.it |
---|---|---|
(prefisso e telefono) | (numero fax) | (E-mail) |
Testo italiano
Maurizio Lenzerini è nato a Pavia il 14/12/1954. E' professore ordinario dal 1990. E' autore di numerosi libri universitari sulla progettazione del software, e sul progetto di basi di dati. Dal 1983 svolge la sua attività di ricerca presso l'Università di Roma "La Sapienza", dove dirige attualmente un gruppo di ricerca sulle Basi di Dati e l'Intelligenza Artificiale. I suoi principali interessi di ricerca riguardano i modelli concettuali e semantici dei dati, l'integrazione di sistemi eterogenei, i data warehouse, la gestione di dati semi-strutturati, la rappresentazione della conoscenza e le tecniche di ragionamento, e i metodi di sviluppo orientati agli oggetti. Conduce attualmente progetti di ricerca nazionali ed internazionali su integrazione di dati, data warehousing, e dati semi-strutturati. E' autore di più di 200 articoli pubblicati su conferenze e riviste internazionali, tra le quali compaiono le piu' prestigiose dei settori di interesse, quali Journal of Computer and System Science, Information and Computation, Information Systems, Artificial Intelligence, IEEE Data and Knowledge Engineering, ACM-PODS, ACM-SIGMOD, IEEE-ICDE, VLDB, ICDT, IJCAI, AAAI, KR, CoopIS. E' stato editor di diversi libri internazionali, tra cui un recente libro su "Data Warehouse Quality". E' regolarmente membro del Comitato di Programma delle piu' importanti conferenze internazionali dei settori di interesse, quali IJCAI, AAAI, EDBT, PODS, KR, CoopIS, ER, ICDT. Ha organizzato conferenze e workshop internazionali. Fa parte dell'Editorial Board di diverse riviste internazionali. E' editor della rivista internazionale Information Systems per l'area di Data Modeling, Knowledge Representation and Reasoning. E' stato Presidente del Comitato di Programma della Quarta International Conference on Cooperative Information Systems, tenutasi nel 1999 a Edinburgo, e Presidente della International Conference on Conceptual Modeling, tenutasi nel 1999 a Parigi.Testo inglese
Maurizio Lenzerini was born in Pavia, on December 14, 1954. Since 1990, he is full professor in Computer Science and Engineering. He is the author of several academic books on fundamentals of Computer Science, Software Engineering, and Database design. Since 1983, he has been carrying out his research activity at the Università di Roma "La Sapienza", where is leading a research group on Databases and Artificial Intelligence. His main research interests are oriented towards conceptual and semantic data modeling, data integration, data warehousing, semistructured data management, knowledge representation and reasoning, and object-oriented methodologies. He is currently involved in national and international research projects on data integration, data warehousing, and semi-structured data. He is the author of more than 200 publications in international conferences and journals, including the most prestigeous ones in the above mentioned areas, such as Journal of Computer and System Science, Information and Computation, Artificial Intelligence, Information Systems, IEEE Data and Knowledge Engineering, ACM-PODS, ACM-SIGMOD, IEEE-ICDE, VLDB, ICDT, IJCAI, AAAI, KR, CoopIS. He is the editor of several international books, including a recent one on "Data Warehouse Quality". He is regularly a member of the Program Committee of the most important international conferences in the above areas, including IJCAI, AAAI, EDBT, PODS, KR, CoopIS, ER, ICDT. He organized several international conferences and workshops. He is a member of the Editorial Board of various international journals. He is the editor of Information Systems: An International Journal, for the area of Data Modeling, Knowledge Representation and Reasoning. He was Program co-Chair of the 4th International Conference on Cooperative Information Systems, that was held in Edinburgh in 1999. He was the Conference Chair of the International Conference on Conceptual Modeling, which was held in Paris in 1999.
Nº | Responsabile scientifico | Qualifica | Settore disc. |
Università | Dipart./Istituto | Mesi uomo |
---|---|---|---|---|---|---|
1. | LENZERINI MAURIZIO | Prof. ordinario | K05A | ROMA "La Sapienza" | INFORMATICA E SISTEMISTICA | 84 |
2. | RIZZI STEFANO | Prof. associato | K05A | BOLOGNA | ELETTRONICA, INFORMATICA E SISTEMISTICA | 92 |
3. | BERGAMASCHI SONIA | Prof. ordinario | K05A | MODENA e REGGIO EMILIA | SCIENZE DELL'INGEGNERIA | 66 |
4. | CASTANO SILVANA | Prof. associato | K05B | MILANO | SCIENZE DELL'INFORMAZIONE | 53 |
5. | PALOPOLI LUIGI | Prof. associato | K05A | della CALABRIA | ELETTRONICA, INFORMATICA E SISTEMISTICA | 93 |
mesi uomo | |
---|---|
Personale universitario dell'Università sede dell'Unità di Ricerca (docenti) | 176 |
Personale universitario dell'Università sede dell'Unità di Ricerca (altri) | 0 |
Personale universitario di altre Università (docenti) | 13 |
Personale universitario di altre Università (altri) | 8 |
Titolari di assegni di ricerca | 14 |
Titolari di borse dottorato e post-dottorato | 82 |
Personale a contratto | 81 |
Personale extrauniversitario | 14 |
Totale | 388 |
Testo italiano
Gli sviluppi dell'informatica e delle telecomunicazioni hanno reso disponibile l'accesso ad un numero sempre piu' vasto di banche dati strutturate e semistrutturate, create in tempi diversi, su sistemi diversi e con criteri organizzativi diversi. Senza l'applicazione di opportuni metodi, gli utenti hanno a disposizione grandi quantita' di dati, ma trovano inevitabili difficolta' nel sintetizzare l'informazione utile ai propri scopi. Risulta quindi importante ricercare nuove metodologie per l'integrazione di sorgenti eterogenee di dati, per il progetto di basi di dati destinate all'analisi in linea di dati di sintesi (data warehouse), e per la scoperta di nuovi collegamenti e proprieta' non facilmente intuibili all'interno di una sorgente o di sorgenti diversi (data mining). L'obiettivo del progetto e' la definizione di un quadro metodologico generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee (D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici per i tre temi:
Tema 1: integrazione di dati provenienti da sorgenti eterogenee
Tema 2: progettazione e interrogazione di data warehouse
Tema 3: data mining.
La problematica trattata riveste grande importanza applicativa e industriale, specialmente in relazione alla opportunita' di estrarre informazione di rilevanza direzionale e strategica dai dati del livello operativo delle imprese. I temi del progetto sono infatti centrali per la componente di data management nei sistemi di Enterprise Knowledge Management e di Enterprise Resource Planning. Le unita' partecipanti sono 5, con XX professori e ricercatori coinvolti, e con YY dottorandi e borsisti. Le idee alla base della proposta sono state maturate in occasione della partecipazione a progetti europei ed italiani, in particolare Esprit DWQ e INTERDATA, finanziati rispettivamente dall'UE e dal MURST nel 1997. Il coordinamento si avvarra' della collaborazione di un coordinatore per ciascuno dei temi, assicurando cosi' un monitoraggio ed una interazione continua tra le unita'. I metodi e gli strumenti proposti saranno sperimentati e validati attraverso una collaborazione con Telecom Italia (Divisione di Data Administration, Data Warehouse, Data Mining. Direttore: Ing. Stefano Trisolini), in particolare per quanto riguarda l'analisi dei dati relativi al traffico telefonico e al customer care. L'Ing. Trisolini ha assicurato formalmente la collaborazione al progetto.
Oltre all'obiettivo generale di un quadro metodologico complessivo, che produrra' anche la definizione e la realizzazione di uno strumento per la gestione dei meta-dati rilevanti rispetto alle attivita' di integrazione, warehousing e mining, gli obiettivi specifici dei tre temi vengono illustrati di seguito.
TEMA 1: L'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione di dati provenienti da sorgenti fortemente e strutturalmente eterogenee, ossia da sorgenti di tipo strutturato (ad es., basi di dati), o semistrutturato (ad es., documenti HTML e XML). I metodi di rappresentazione dei dati presenti nelle sorgenti devono tenere conto di sorgenti semistrutturate, e di possibile coesistenza di versioni diverse dei dati. Si deve poi tenere conto che la scoperta di proprietà inter-schema è cruciale per caratterizzare le relazioni semantiche tra dati in diverse sorgenti, ed è complicata dal fatto che le informazioni semantiche sulle sorgenti stesse sono spesso implicite. Infine, il processo che conduce alla risposta ad interrogazioni poste in termini di viste globali pone problemi sia per la suddivisione della query in sottoquery, sia per la ricostruzione della risposta. I principali risultati che si intendono perseguire riguardano la definizione di una metodologia di integrazione di sorgenti fortemente eterogenee, la definizione di tecniche semiautomatiche di clustering di sorgenti basate su proprieta' di affinita' e corrispondenze semantiche, la progettazione di algoritmi per la riscrittura di interrogazioni su viste globali in termini di interrogazioni sulle sorgenti, la definizione di metodi per la gestione di versioni diverse delle sorgenti, la caratterizzazione di opportuni parametri per descrivere la qualità dei dati, e di tecniche per la riconciliazione di dati provienti da sorgenti diverse, la progettazione e la realizzazione di un ambiente che supporti l'attivita' d'integrazione, basato sulla gestione di meta-dati.
TEMA 2: Nella letteratura sono state proposte diverse architetture per data warehouse e varie metodologie di progettazione a queste associate. Le architetture possono essere classificate in architetture ad uno, due o tre livelli. In un'architettura dell'ultimo tipo, i tre livelli memorizzano i dati operazionali, riconciliati e derivati. Il livello dei dati riconciliati viene gestito tramite tecniche di integrazione, oggetto del tema 1. Nel contesto data warehouse, si pongono nuove e complesse problematiche relative sia alla progettazione che all'interrogazione dei dati. Obiettivo del tema è lo sviluppo di tecniche per la progettazione e l'interrogazione efficiente di data warehouse, con particolare riferimento al livello dei dati derivati, sia dal punto di vista logico che fisico. Ci si propone di definire tecniche efficaci per la materializzazione di viste in presenza di un carico di lavoro complesso, e per l'individuazione di un insieme ottimale di indici per l'accesso veloce ai dati. Il problema della interrogazione efficiente di data warehouse sarà affrontato principalmente come problema di riscrittura di interrogazioni su viste materializzate. I risultati che si intendono perseguire in questo contesto riguardano la definizione di tecniche di ottimizzazione, basate sulla struttura delle interrogazioni, che estendono metodi già esistenti in maniera da tenere conto delle specificità dell'ambiente data warehouse.
TEMA 3: L'obiettivo e` l'estrazione di informazioni da grandi quantita` di dati, nota con il termine "data mining". La ricerca operera` in numerose direzioni con lo scopo di trattare gli aspetti piu` rilevanti e a tutt'oggi meno esplorati. Verranno trattati vari tipi di dati, da quelli strutturati, tipici dei sistemi di basi di dati, a quelli multimediali (quali DB di immagini). La conoscenza estratta sara` di diversi tipi, dall'informazione sui raggruppamenti di oggetti (clustering), al meta-querying, che cerca pattern complessi all'interno dei dati con tecniche di tipo logico. Particolare cura sara` dedicata agli aspetti di visualizzazione dell'informazione estratta e di adattabilita` a vari tipi di utenti, nella convinzione che la forma di presentazione e l'interazione con l'utente siano esse stesse fattori critici per l'efficacia del processo di estrazione e la fruibilita` dell'informazione. Per quanto riguarda i metodi di estrazione, verranno considerate le problematiche che sorgono quando la sorgente di dati e` un data warehouse. In questo caso, sorge spesso la necessita` di effettuare elaborazioni incrementali, poiche' i dati vengono consolidati periodicamente, ed e' importante evitare la ripetizione di attivita` molto onerose dal punto di vista computazionale, come ad esempio il clustering. I principali risultati che si intende produrre riguardano: algoritmi di clustering incrementale, paradigmi per query di similarita`, inclusi quelli con approssimazione, formalizzazione degli indicatori in grado di quantificare il compromesso "qualita` vs costo", strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste, primitive per la creazione semiautomatica di visualizzazioni, caratterizzazione computazionale di varianti di meta-querying di interesse applicativo, algoritmi efficienti per il meta-querying. Il livello dei meta-dati, cui fanno riferimento i temi 1 e 2, costituira' il punto di riferimento sia per i dati di input alle attivita' di mining, sia per la rappresentazione delle proprieta' estratte dal mining.Testo inglese
The recent developments of Computer and Telecommunications technology enables accessing a large number of structured and semi-structured data sources, developed in different times, with different organizational principles and models, and supported by different hw/sw platforms. Thus, on the one hand, users know that a lot of useful data are available, but, on the other hand, they are not able of extracting the information useful to achieve their aims, if not after much effort. It follows that a new research effort is needed for developing techniques for heterogeneous sources integration, for the design of data repositories (data warehouse) for on-line analysis and querying, and for the discovery (data mining) of intra and inter-schema properties, links and patterns. The goal of the project is to define a comprehensive methodological framework for the integration, warehousing, and mining of eterogeneous sources (D2I: From Data To Integration), and to develop specific results for the following three tasks:
TASK 1: integration of data coming from eterogeneouos sources
TASK 2: data warehouse design and querying
TASK 3: data mining.
The above topics have great importance in industrial applications, especially for the problem of extracting strategical information from the large amount of data that are typically present in the operational level of the enterprise. The issues dealt with in the project represent central problems for the data management component of Enterprise Knowledge Management and Enterprise Resource Planning systems. There are 5 research groups involved in the project, with XX professors and researchers, and YY PhD and post-doc students, that will work in a joint effort. Ideas and aims at the basis of this project proposal arised from the joint participation of many of the proposers in European and Italian research projects on similar topics, in particular, the Esprit DWQ project, and the MURST Italian INTERDATA project, funded in 1997. The project management will be led by the project leader in strict collaboration with a task-leader for each task, thus ensuring continuous monitoring and interaction with the partners. Methods and tools developed in the project will be experimented and validated through a collaboration with Telecom Italia (Department of Data Administration, Data Warehouse, and Data Mining. Director: Dr. Stefano Trisolini), in particular for the analysis of data about phone traffic and customer care. Dr. Trisolini has formally expressed his interest in collaborating with the project.
Besides the goal of a general methodological framework, which includes techniques and tools for the management of relevant meta-data for the integration, warehousing, and mining of eterogeneous sources, the specific goals of the three tasksk are as follows.
TASK 1: The goal of this task is to develop methodologies and tools for data integration when the information sources are highly heterogeneous, and can be structured (e.g., databases), and semi-structured (e.g., HTML or XML documents). In this context, typical issues related to integration comes in a more complex way. First, the methods for representing data in different sources should take into account that the sources are semi-structured, and that different data versions in the same source may exist. Second, the discovery of inter-schema properties, which is a crucial task for characterizing the semantic relationships between data in different sources, and for establishing the right links between sources and global views, is now complicated by the fact that the semantics of the sources is less explicit than in the case of structured sources. Third, the process for answering queries posed to the global views is now complicated by the different structuring degrees in the sources, which is difficult for both partitioning the query into subqueries, and reconstructing the global answer from the various answers to the subqueries. The main results in this context concern the following issues: definition of a methodology for the integration of highly heterogeneous sources, definition of semi-automated clustering techniques of heterogenous, semistructured sources, based on affinity properties and semantic correspondences, design of algorithms for query rewriting and query answering using views, specification of methods for representing and managing different (structural) versions of sources, characterization of suitable parameters describing the data quality at the sources under different perspectives and of techniques for reconcilying data coming from different sources, specification and implementation of a design environment supporting the integration of heterogeneous sources, based on the management of suitable meta-data.
TASK 2: Several architectures for data warehouses (DW) have been proposed in the literature. Proposals can be classified, on the basis of the number of levels characterizing them, as one-, two- or three-level architectures. In the latter case, the three levels contain operational data, reconciled data, and derived data, respectively. The reconciled level is managed by integration techniques, dealt with in task 1. In a data warehouse context, a number of new and complex problems arise, concerning both the design process and the querying of data. The objective of this task is to define suitable techniques for both the DW design and the efficient query evaluation. DW design is concerned with both the logical and the physical design of derived data. At the logical level, we aim at defining effective techniques for view materialization, considering complex workloads which include multiple aggregation operators within queries. At the physical level, the problem of choosing the optimal set of indices will be addressed. The problem of efficient query evaluation will essentially be faced as a query rewriting problem on materialized views. The main results in this context will concern the definition of suitable optimization techniques, based on the query structure, extending known methods to take into account the specificity of a data warehouse environment.
TASK 3: The objective of data mining is the extraction of information from large amounts of data. The research in this field will follow several directions, with the purpose of dealing with the most relevant open problems. We will deal with the different types of data, from structured data, as is usual in database systems, to multimedia data (such as image databases). The extraction of knowledge will follow different patters, from clustering of objects, to meta-querying, which looks for complex patterns inside data, with logical techniques. Special attention will be devoted to the visualization of the extracted knowledge and to the adaptation to the user, since presentation and user interaction are key factors for the effectivenes of the extraction proces and the usability of the information. With respect to the methods of knowledge extraction, we will consider the problems arising when the data source is a data warehouse. In this case it is usually necessary to make incremental data processing, since data are periodically consolidated in the warehouse, and it should be avoided repeating from scratch expensive computations, such as clustering. The main results on this subject include: incremental clustering algorithms, paradigms form similarity queries, including approximation, and formalization of indexes for the quantification of the tradeoff "quality vs cost", assistency strategies to help the user in formulating a plan for information discovery, primitives for semi-automatic creation of visualizations, computational characterization of practically interesting variants of meta-querying. The meta-data level, referred to by both Task 1 and 2, will be the basis both for the input to the data mining process, and for the possibility of explicitly representing the properties discovered by the process.
Testo italiano
La base di partenza scientifica per il quadro metodologico complessivo e' costituita dall'architettura sviluppata nell'ambito del progetto DWQ [Jarke 00], che prevede tre livelli per i dati (livello selle sorgenti, livello riconciliato, e livello dei dati derivati), ed un livello di meta-dati. La descrizione della base scientifica per quanto riguarda gli aspetti specifici dei tre temi viene descritta nel seguito.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'integrazione e la riconciliazione di dati provenienti da sorgenti eterogenee per scopi di interrogazione è un argomento di ricerca rilevante nell'area delle basi di dati. Numerosi contributi sono stati prodotti relativamente a tecniche, metodi e sistemi per l'integrazione e l'interrogazione di basi di dati eterogenee. L'integrazione di sorgenti di dati semi-strutturati pone nuove problematiche: l'eterogeneità riguarda, in questo caso, non solo la semantica dei dati, ma anche il livello di strutturazione dei dati stessi. Del resto, la significativa crescita del numero di sorgenti di dati semi-strutturati (documenti, testi, ecc.) impone la progettazione di metodi e tecniche in grado di realizzare l'integrazione di questo nuovo tipo di sorgenti informative. Alla luce di queste esigenze, occorre affrontare gli aspetti tipici del processo di integrazione. Riguardo ai metodi di rappresentazione delle sorgenti, sono stati prodotti contributi relativamente a modelli di dati semi-strutturati [Bergamaschi99,Calvanese99b,Calvanese99c], tecniche di analisi e integrazione di schemi concettuali e viste globali di basi di dati in sistemi distribuiti, e a linguaggi per l'estrazione di dati da Web [Castano 98,Castano 99,Montesi 98]. A partire da questi risultati scientifici, si svilupperanno tecniche e strumenti per la costruzione di viste riconciliate di dati semi-strutturati, con definizione di linguaggi di interrogazione di tipo fuzzy. L'ambiente di partenza sarà il sistema MOMIS [Bergamaschi 99] il cui sviluppo e` iniziato nel progetto MURST INTERDATA. Un altro aspetto nuovo che emerge nella integrazione di dati eterogenei è la nessità di considerare la coesistenza di versioni diverse, anche strutturali, di una stessa sorgente. Il problema dello schema versioning è affrontato da diversi anni nelle basi di dati relazionali [De Castro 97] e, più di recente, anche object-oriented [Grandi 99, Roddick 99, Grandi 00]. In questo ambito sono ancora numerosi i problemi da affrontare connessi all'esecuzione di query e cambiamenti di schema che coinvolgono contemporaneamente più versioni di schema e più sorgenti dati. Allo stato dell'arte, problemi analoghi sono già stati in parte studiati in letteratura ma le soluzioni proposte sono parziali e di limitata applicabilità in questo contesto. L'estrazione, l'analisi e la specifica di proprietà inter-schema, quali sinonimie, omonimie, inclusioni, conflitti di tipo ecc., è un ulteriore aspetto critico della integrazione. In [Bergamaschi99,Palopoli 99] vengono illustrate tecniche semi-automatiche per l'estrazione di sinonimie, omonimie ed inclusioni da schemi di basi di dati. In [Palopoli 98] viene proposto un approccio basato su visite di grafi per l'individuazione di conflitti di tipo in schemi di basi di dati. Infine, in [Palopoli 00] vengono descritti degli algoritmi semi-automatici per l'integrazione e l'astrazione di schemi di basi di dati. Fornire una visione virtuale integrata di dati provenienti da sorgenti eterogenee è in genere funzionale alla possibilità di porre interrogazioni in modo trasparente rispetto alle sorgenti utilizzate. Alcuni progetti proposti in letteratura in tale contesto propongono l'uso di logiche descrittive quale formalismo interno comune di rappresentazione della conoscenza intensionale delle sorgenti e delle interrogazioni al fine di utilizzare le tecniche di inferenza offerte dalle logiche descrittive sia per costruire la visione integrata che per ottimizzare l'interrogazione dei dati. Sistemi in corso di sviluppo in questo ambito sono SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], Infomaster [Geneseret 95], MOMIS [Bergamaschi 99], DWQ [Jarke 00]. MOMIS, nell'ambito del progetto INTERDATA, ha prodotto un prototipo software per la costruzione della "visione virtuale integrata" di sorgenti strutturate, basato su ODB-TOOLs[Beneventano 97], sistema che utilizza la logica descrittiva OLCD[Beneventano 98]. Qualunque sistema di integrazione che preveda viste globali e che consenta di porre interrogazioni su di esse deve contenere un modulo responsabile della riformulazione della interrogazione in termini dei dati contenuti nelle sorgenti. Questo problema è noto in letteratura come query rewriting e query answering using views, ed ha ricevuto grande attenzione negli ultimi anni dalla comunità di basi di dati. Solo recentemente il problema viene studiato nell'ambito in cui sono presenti sorgenti semi-strutturate [Calvanese 99a, Calvanese00, Calvanese 00b]. Infine, l'integrazione di sorgenti eterogenee richiede anche tecniche per la riconciliazione dei dati. La complessita' della riconciliazione e' dovuta a diversi problemi legati alla eterogeneita' delle sorgenti, quali differenze nella rappresentazione di uno stesso oggetto, possibili errori nella codifica di proprieta' di oggetti, possibili discrepanze nelle proprieta' attribuite agli oggetti nelle varie sorgenti. Solo recentemente il problema della riconciliazione e' stato affrontato con metodi formali e scientifici [Galhardas 00, Calvanese 99d].
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE
I temi di ricerca legati al data warehouse sono oggetto di forte interesse da parte della comunità scientifica. Sebbene molti aspetti specifici legati alla modellazione concettuale [Franconi 99, Sapia 98], alla modellazione logica [Agrawal95, Gyssens 97], alla materializzazione delle viste [Gupta 99, Yang 97], all'ottimizzazione di interrogazioni [Cohen 99, Nutt 98] e alla selezione degli indici [Gupta 97, Johnson 97] siano stati trattati, a tutt'oggi l'area è ben lungi dal poter essere considerata matura.
Progettare un data warehouse richiede l'utilizzo di tecniche completamente differenti da quelle utilizzate nei convenzionali sistemi informativi. In [Golfarelli 99], il gruppo di Bologna coinvolto nel Tema 2 ha delineato una metodologia per la progettazione di data warehouse, basata sul modello concettuale Dimensional Fact Model, descritto in dettaglio in [Golfarelli 98]. La metodologia proposta è caratterizzata da sei fasi: 1) Analisi del sistema informativo, 2) Raccolta delle specifiche, 3) Progettazione concettuale, 4) Formalizzazione del carico di lavoro e validazione dello schema concettuale, 5) Progettazione logica, 6) Progettazione fisica. Le prime quattro fasi sono già state oggetto di studio; in particolare, in [Golfarelli 98] è stata proposta una tecnica semi-automatica per la progettazione concettuale a partire dagli schemi E/R o logici che descrivono il sistema operazionale. Il risultato è uno schema dimensionale consistente in un insieme di schemi di fatto, ognuno dei quali descrive un evento che accade dinamicamente nell'azienda. I componenti principali degli schemi di fatto sono misure, dimensioni e gerarchie. Il carico di lavoro può essere definito formalmente in termini di volume dei dati e di interrogazioni attese; assieme allo schema dimensionale, esso costituisce l'ingresso per le successive fasi di progettazione logica e fisica il cui risultato finale deve rappresentare lo schema finale del data warehouse.
Anche l'interrogazione di un data warehouse pone nuove e complesse problematiche dovute non solo alla presenza di grandi quantità di dati, ma anche ad una struttura concettuale basata su diversi livelli di astrazione, in cui è possibile la presenza di viste non materializzate. Ciò rende necessaria la definizione di nuove tecniche di interrogazione efficiente adatte al contesto data warehousing. Ad esempio, tecniche di query containment, query rewriting e, più in generale, tecniche di ottimizzazione basate sulla struttura dell'interrogazione, possono essere utilizzate allo scopo. In [Gottlob98] è stato presentato un algoritmo per la valutazione efficiente di interrogazioni congiuntive e per il query containment nel caso di interrogazioni acicliche. In [Gottlob99a] il precedente approccio è stato esteso ad una classe di interrogazioni più ampia che comprende anche interrogazioni con un limitato livello di ciclicità. In [Gottlob99b] tale metodo viene confrontato con i principali metodi "strutturali" descritti in letteratura dimostrando la sua maggiore generalità.
TEMA 3: DATA MINING
Il "data mining" consiste in un processo di scoperta di informazioni non ovvie, ricavabili da un'analisi approfondita dei dati, condotta con tecniche ad-hoc. Particolare accento viene posto sulla necessita` di trattare grandi quantita` di dati, originati per lo piu` da database operativi di grandi dimensioni, eventualmente dopo operazioni di integrazione, ripulitura, aggregazione. Questa attivita` assume oggi un particolare rilievo, anche per l'opportunita` di trarre beneficio dai dati generati e organizzati dai nuovi sistemi di Data Warehouse.
Sotto l'etichetta data mining si possono comprendere numerosi temi di ricerca che differiscono, per tipo di dati trattati, per finalita` e per vincoli operativi considerati. Nonostante l'interesse crescente verso questo settore di ricerca, esistono numerosi problemi aperti, su cui vale la pena investigare.
Negli ultimi anni si e` manifestato un notevole interesse per lo sviluppo di metodi di data clustering di complessita` subquadratica tenendo conto dei vincoli computazionali propri dei database: la dimensione dei dati puo` eccedere significativamente la dimensione della memoria interna e occorre minimizzare il costo di input/output [Guha 98, Lodi 99]. Tuttavia l'applicazione di tali metodi ha ricevuto attenzione limitata nel caso di dati derivanti da data warehouse [Ester 98]. In questo caso, ai vincoli sopra esposti si deve aggiungere l'aggiornamento dei risultati in modo incrementale a partire dalle classi ricavate nella precedente elaborazione e dalle transazioni di modifica del warehouse.
Sempre nell'ambito del clustering, recenti lavori hanno messo in evidenza l'importanza di strutture per risolvere "query di similarita`" al fine di pervenire ad una corretta classificazione di (nuovi) oggetti [Ester 98]. Poiche` tali query possono arrivare ad avere un costo proibitivo, e` emersa l'importanza di query "approssimate" che, sacrificando parzialmente la qualita` del risultato, riescano a garantire buone prestazioni [Shivakumar 98, Ciaccia 00]. In ambito multimediale e/o di strutture complesse (e.g. Web e DW), problematiche di DM sono state sinora poco studiate e anche il trattamento di query di similarita` complesse e` nella sua infanzia [Fagin 96,Ciaccia 98].
La tecnica del "meta querying" ha di recente ricevuto attenzione nella comunita` scientifica adattandosi bene alla descrizione di classi di pattern complessi di dati che possono essere estratti da basi di dati relazionali. Una caratteristica importante di questa tecnica di tipo logico, consiste nella sua capacita` di derivare pattern informativi che coinvolgono informazioni presenti in tabelle distinte del database sorgente. Purtroppo, come dimostrato in un recente articolo [Ben-Eliyahu 99], il metaquerying, anche nelle sue accezioni piu` semplici e` computazionalmente intrattabile. In [Palopoli 96] e [Ben-Eliyahu 97] sono state sviluppate tecniche che hanno portato all'identificazione di interessanti frammenti polinomiali di formalismi logici altrimenti intrattabili. L'identificazione di tali frammenti si e` accompagnata alla progettazione di algoritmi efficienti per la loro implementazione. Uno studio significativo ma non esaustivo su frammenti interessanti di meta-querying e sulle loro proprietà computazionali è stato presentato in [Angiulli 00]. Da osservare inoltre che svariati problemi di data mining mancano di un attento studio delle proprietà computazionali, come nel caso, ad esempio, delle association rules [Agrawal 93].
Per quanto riguarda l'utilizzo delle tecniche di data mining, i tool oggi esistenti che implementano tecniche di data mining si comportano spesso come scatole nere, completamente impermeabili a possibili interazioni con l'utente. Da una parte non offrono nessun tipo di aiuto per permettere all'utente di comprendere i risultati delle elaborazioni da essi prodotte e dall'altra non permettono all'utente stesso di indirizzare in alcun modo la scoperta di informazioni. L'importanza e l'efficacia delle rappresentazioni visuali dei dati sono d'altra parte ben note, come testimoniato dalla crescente offerta di prodotti basati sulla "information visualization" (per esempio, recenti proposte sono Origami [Louie99] e Structure Explorer [Lin 00]). Appropriate visualizzazioni dei dati possono rappresentare lo strumento chiave per supportare varie attivita` relative alla scoperta di informazioni, quali la comprensione del dominio dei dati, la scoperta di correlazioni, andamenti, anomalie, e infine l'analisi del risultato prodotto da altre tecniche di mining. Tuttavia, per poter sfruttare appieno le potenzialita` della visualizzazione nel processo di knowledge discovery e` necessario disporre di ambienti integrati in cui l'interazione dell'utente, tramite opportune rappresentazioni visuali e primitive grafiche di manipolazione, guidi lo strumento nel processo di scoperta e sia anche un valido ausilio per l'analisi dei dati prodotti utilizzando le diverse tecniche. Nessuno dei sistemi esistenti soddisfa il requisito di integrazione di varie tecniche e strumenti in un unico ambiente interattivo, in cui un'efficace visualizzazione dei dati rappresenti il denominatore comune per permettere all'utente di estrarre, comprendere e sfruttare al meglio le informazioni "nascoste" nei dati [Catarci 96, Catarci 97, Catarci 98].Testo inglese
The scientific basis for the general methodological framework is constituted by the architecture developed in the DWQ Project [Jarke 00], which refers to three levels for the data managed by the system (source level, reconciliation level, derived data level), and one level for the meta-data. The description of the scientific basis for the specific aspects of the three tasks of the project follows.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
Integration and reconciliation of data coming from heterogeneous sources is a hot research topic in databases. Several contributions appeared in the recent literature, including methods, techniques and tools for integrating and querying heterogeneous databases. The integration of semi-structured data sources presents new problems and challenges: in this case, the heterogeneity concern not only the semantics of data, but also the degree by which the structure of data is explicitly represented in the sources. The significant growing of semi-structured data sources (document, texts, etc.) calls for the design of methods and techniques for this new type of data integration. Thus, the typical problems of integration should be addressed in the light of these new requirements. Concerning the methods for representing information sources, the research has been very active in devising new models for the representation of semi-structured data [Bergamaschi99,Calvanese99b,Calvanese99c] and new techniques for the analysis and the integration of conceptual schemas of both distributed databases and Web data [Castano98,Castano99,Montesi98].
Starting from the above mentioned results, techniques and tools for building reconciled views of semi-structured data will be developed, together with fuzzy languages for querying such views. The starting environment chosen for the project is the MOMIS system [Bergamaschi 99], whose first development was made within the MURST 97/98 INTERDATA research project. Another emerging issue in the integration of heterogenous data is the need of considering the coexistence of several versions (also structural) of the same source. The schema versioning problem has been studied for several years in the context of relational databases [De Castro 97] and, more recently, object-oriented databases [Grandi 99, Roddick 99, Grandi 00]. Various important problems remain open in this field, such as the execution of queries and schema changes involving different schema versions and data sources at the same time. In the literature, similar problems have been only partially studied and the proposed solutions have limited applicability in this context. The discovery, analysis and representation of inter-schema properties (such as synonyms, inclusions, type mismatch, etc.) is another critical aspect of the integration process. In [Palopoli 98a, Bergamaschi 99] semi-automatic techniques for extracting synonymies, homonyms and object inclusions from database schemes are described. In [Palopoli 98b] a graph-based approach to detect type conflicts in database schemes is proposed. Finally, in [Palopoli 98c] a semi-automatic algorithm for integrating and abstracting database schemes is presented. It is important to note that the ultimate goal of providing a virtual integrated view of multiple sources is to offer the possibility of querying the integrated view independently from the location and the heterogeneity of the data at the sources. Several integration projects proposed in the literature make use of Description Logics as unifying formalism for representing intensional knowledge about the sources. This is due also to the ability of description logics to reason about the represented knowledge during the query answering process. Examples of systems following this approach are SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], Infomaster [Geneseret 95] MOMIS [Bergamaschi 99], DWQ [Jarke 00]. MOMIS, proposed within the MURST INTERDATA project, will provide a software component for building integrated virtual views, and is based on the ODB-TOOLs[Beneventano 97, Beneventano 98]. Any integration system that allows for a mechanisms of querying global virtual views must contain a module for the reformulation of queries in terms of data stored in the sources. This problem is known in the literature as query rewriting and query answering using views, and has been studied very actively in the recent years. This problem has been addressed only recently in the context of semi-structured data [Calvanese 99a, Calvanese00, Calvanese 00b]. Finally the integration of heterogeneous sources also requires Techniques for data reconciliation. The complexity of reconciliation is due to several problems related to the hetereogenity of sources, such as differences in representing the same objects, possible errors in the data stored in the sources, possible inconsistencies between data in the sources. The problem of data reconciliation has been addressed with formal methods only recently [Galhardas 00, Calvanese 99d].
TASK 2: DATA WAREHOSUE DESIGN AND QUERYING
The database community is strongly interested in the research themes concerning data warehouses. Though specific issues related to conceptual modeling [Franconi 99, Sapia 98], logical modeling [Agrawal95, Gyssens 97], view materialization [Gupta 99, Yang 97], query optimization [Cohen 99, Nutt 98] and index selection [Gupta 97, Johnson 97] have been investigated, the data warehouse area is still far from being considered mature.
Designing a data warehouse requires techniques completely different from those adopted for operational information systems. In [Golfarelli 99], the Bologna group involved in Theme 2 outlined a general methodological framework for data warehouse design, based on the conceptual model we developed, called Dimensional Fact Model and described in detail in [Golfarelli 98]. The methodology proposed features six phases: 1) Analysis of the information system, 2) Requirement specification, 3) Conceptual design, 4) Workload refinement and validation of the conceptual scheme, 5) Logical design, 6) Physical design. The first four phases have already been investigated; in particular, in [Golfarelli 98] we proposed a semi-automated technique to carry out conceptual modeling starting from either the E/R or the logical relational schemes describing the operational information system. The output of conceptual design is a dimensional scheme consisting of a set of fact schemes, each describing an event occurring dynamically in the enterprise world. The main components of fact schemes are measures, dimensions and hierarchies. Finally, a workload can be characterized in terms of data volumes and expected queries, to be used as the input of the logical and physical design phases whose output is the final scheme for the data warehouse.
Querying a data warehouse is also a relatively new problem that has not yet been deeply investigated. Indeed, the large amount of data available and the different levels of abstractions with materialized or non-materialized views lead to the need of suitable query answering techniques specifically designed for data warehouses. Query containment, query rewriting techniques, and, in general, optimisation techniques based on the query structure can be used for this purpose.
In [Gottlob98], an algorithm for the efficient evaluation of acyclic conjunctive queries and query containment for acyclic queries has been presented. In [Gottlob99a], a class of queries that extends the class of acyclic queries and includes queries with bounded degree of cyclicity has been identified. Moreover, in [Gottlob99b], this method has been compared with the main "structural" methods described in the literature. It turned out that this is the most general method, i.e., the method giving the largest class of tractable queries.
TASK 3: DATA MINING
Data mining is the discovery process of non-trivial information, deriving from an accurate data analysis with ad-hoc techniques. Particular attention is devoted to cases where a great amount of data is involved, as produced by big operational databases, possibly after integration, cleaning and aggregation. This activity is obtaining an increasing interest, due to the availability of new data warehouse systems.
The data mining research includes many specific topics, depending on the considered data types , objectives and operating constraints. Despite the increasing interest in this field, there are still many open problems.
In the last few years, we observed an increasing interest for clustering methods with sub-quadratic complexity, taking into account the the typical computational constraints of database systems: the dimension of data can significantly exceed the available internal memory, and the I/O cost must be minimized [Guha 98, Lodi 98]. Nevertheless, we still observe a lack of satisfactory solutions when data derive from a data warehouse [Ester 98]. In this case, the above mentioned constraints are extended with the requirement for an incremental data processing, where the clusters derived in previous sessions are combined with the modifications of the warehouse. Recent works have also pointed out the necessity of data structures to solve "similarity queries", in order to obtain a correct classification of new objects [Ester 98]. Since such queries can be very expensive, it has been recognized that approximated queries can be adequate, partly trading accuracy for performance [Shivakumar 98, Ciaccia 00]. In multimedia and/or complex structures (e.g. WEB and DW), data mining and similarity queries have received little attention [Fagin 96,Ciaccia 98].
Meta-querying has recently attracted the attention of the research community, since it was proved well suited for describing class of complex data patterns to be extracted from relational databases. An interesting characteristics of this logic-based technique is its capability in deriving data patterns involving more than one table of the source database. Unfortunately, as proved in a recent paper [Ben-Eliyahu 99], even simplest variants of metaquerying are computationally intractable. In [Palopoli 96], [Ben-Eliyahu 97] a technique that allowed to identify interesting polynomial-time fragments of logic-based formalisms which are not generally tractable has been proposed. The identification of such fragments has been followed by the design of efficient algorithms to implement them. An exhaustive study of the interesting fragments of meta-querying and their computational properties is still lacking.
Data mining tools are usually black boxes and do not allow a significant level of user interaction. From one side they do not help the user in understanding the risult of their results, from the other side they do not allow the user to address the computation itself, in order to improve the effectiveness of the discovery process. Importance and effectiveness of visual presentation of data are well known, as witnessed by the increasing offer for "information visualization" products (for example, recent proposals are Origami [Louie99] and Structure Explorer [Lin 00]). Adequate data visualization can be a key tool to support various data mining-related activities, such as the discovery of correlations, trends, anomalies, the comprehension of data domains and of the results of other mining techniques. In order to fully exploit the capabilities of visualization in the knowledge discovery process it is necessary to work in an integrated environment, where user interaction can drive the tool in the discovery process, by means of visual presentations and graphical manipulation primitives. None of the existing systems successfully integrates different techniques in an interactive environment. Such integration would be the common denominator to allow the user to extract, understand and exploit the information hidden in data [Catarci 96, Catarci 97, Catarci 98].
[Calvanese 99c] D. Calvanese, G. De Giacomo, M. Lenzerini. Representing and reasoning on XML documents: A description logic approach. Journal of Logic and Computation, 9, 1999.
[Calvanese 99b] Diego Calvanese, Giuseppe De Giacomo, Maurizio Lenzerini. Modeling and Querying Semi-Structured data. Networking and Information Systems 2(2), 1999.
[Calvanese 99a] D. Calvanese, G. De Giacomo, M. Lenzerini, M.Y. Vardi. Rewriting of regular expressions and regular path queries. PODS, 1999.
[Jarke 00] Matthias Jarke, Christoph Quix, Diego Calvanese, Maurizio Lenzerini, et al.. Concept Based Design of Data Warehouses: The DWQ Demonstrators. SIGMOD, 2000.
[Calvanese 00] Diego Calvanese, Giuseppe De Giacomo, Maurizio Lenzerini, Moshe Y. Vardi. Answering Regular Path Queries using Views. IEEE-ICDE, 2000.
[Calvanese 00b] Diego Calvanese, Giuseppe De Giacomo, Maurizio Lenzerini, Moshe Y. Vardi. Query Processing using Views for Regular Path Queries with Inverse. PODS, 2000.
[Galhardas 00] H. Galhardas, D. Florescu, D. Shasha, E. Simon. An Extensible Framework for Data Cleaning. IEEE-ICDE, 2000.
[Calvanese 99d] D. Calvanese, G. De Giacomo, M. Lenzerini, D. Nardi, R. Rosati. A Principled Approach to Data Integration and Reconciliation in Data Warehousing. Workshop on Design and Management of Data Warehouses, 1999.
[Castano 99] S. Castano, V. De Antonellis. A Discovery-Based Approach to Database Ontology Design. Distributed and Parallel Databases, 7(1), 1999.
[Castano 98] S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici. Conceptual Schema Analysis: Techniques and Applications. ACM TODS, 23(3), 1998.
[Montesi 98] D. Montesi, A.Trombetta. An Extraction language for the Web. Workshop on Web Information and Data Management, 1998.
[Bergamaschi 99] S. Bergamaschi, S. Castano, M. Vincini. Semantic Integration of Semistructured and Structured Data Sources. SIGMOD Record, 28(1), 1999.
[Beneventano 98] D. Beneventano, S. Bergamaschi, S. Lodi, C. Sartori. Consistency checking in Complex Objects Database schemata with integrity constraints. IEEE TDKE, 10(4), 1998.
[Beneventano 97] D.Beneventano, S. Bergamaschi, C. Sartori e M. Vincini. ODB-QOptimizer: a tool for semantic query optimization in OODB. IEEE-ICDE, 1997.
[Palopoli 98] L. Palopoli, D. Saccà, D. Ursino. An automatic technique for detecting type conflicts in database schemes. ACM-CIKM'98, 1998.
[Palopoli 99] L. Palopoli, D. Saccà, D. Ursino. Semi-automatic techniques for deriving interscheme properties from database schemes. Data and Knowledge Engineering, 30(4),1999.
[Palopoli 00] L. Palopoli, L. Pontieri, G. Terracina. Intensional and extensional integration and abstraction of heterogeneous databases. Data and Knowledge Engineering. Forthcoming.
[De Castro 97] C. De Castro, F. Grandi, M.R. Scalas. Schema Versioning for Multitemporal Relational Databases. Information System, 22(5), 1997.
[Grandi 99] F. Grandi, F. Mandreoli. ODMG Language Extensions for Generalized Schema Versioning Support. ECDM Workshop (ER'99), 1999.
[Roddick 99] J. F. Roddick, F. Grandi, F. Mandreoli, M.R. Scalas. Towards a Formal Model for Spatio-Temporal Schema Selection. STDML Workshop, DEXA, 1999.
[Grandi 00] F. Grandi, F. Mandreoli, M.R. Scalas. A Generalized Modeling Framework for Schema Versioning Support. Australian Computer Science Communications, 22(2), 2000.
[Angiulli 2000] F. Angiulli, R. Ben-Eliyahu, G.B. Ianni, L. Palopoli. Computational properties of metaquerying problems. PODS, 2000.
[Agrawal 93] R. Agrawal, T. Imielinski, A. N. Swami. Mining Association Rules between Sets of Items in Large Databases. SIGMOD, 1993.
[Ben-Eliyahu 97] R. Ben-Eliyahu, L. Palopoli. Reasoning with minimal models: efficient algorithms and applications. Artificial Intelligence, 96, 1997.
[Ben-Eliyahu 99] R. Ben-Eliyahu, E. Gudes. Towards efficient metaquerying. IJCAI, 1999.
[Catarci 96] T.Catarci, S.K.Chang, M.F.Costabile, S.Levialdi, G.Santucci. A Graph-based Framework for Multiparadigmatic Visual Access to Databases. IEEE TKDE, 8(3), 1996.
[Catarci 97] T.Catarci, G.Santucci, J.Cardiff. Graphical Interaction with Heterogeneous Databases. VLDB Journal, 6(2).
[Catarci 98] G.Sciscio, T.Catarci. Data Mining: Tecnologie e Strumenti. Rivista di Informatica, AICA, 28(3), 1998.
[Catarci 99] T.Catarci, G.Santucci, L.Tarantino. Emerging Issues in Visual Interfaces. Knowledge Engineering Review, 14(1), 1999.
[Ciaccia 98] P. Ciaccia, M. Patella, P. Zezula. Processing Complex Similarity Queries with Distance-based Access Methods. EDBT, 1998.
[Ciaccia 00] P. Ciaccia, M. Patella. PAC Nearest Neighbor Queries: Approximate and Controlled Search in High-Dimensional and Metric Spaces. ICDE, 2000.
[Ester 98] M. Ester, H.-P. Kriegel, J. Sander, M. Wimmer, X. Xu. Incremental Clustering for Mining in a Data Warehousing Environment. VLDB, 1998.
[Fagin 96] R. Fagin. Combining Fuzzy Information from Multiple Systems. PODS, 1996.
[Guha 98] S. Guha, R. Rastogi, and K. Shim. Cure. An efficient clustering algorithm for large databases. ACM SIGMOD, 1998.
[Lin2000] T.Lin. Visualising relationships for real world applications. Workshop on New paradigms in information visualization and manipulation, 2000.
[Lodi 99] Stefano Lodi, Luisella Reami, Claudio Sartori. Efficient Shared Near Neighbours Clustering of Large Metric Data Sets. Principles of Data Mining and Knowledge Discovery, 1999.
[Louie99] J. Q. Louie, T. Kraay. Origami: a new data visualization tool. ACM Knowledge discovery and data mining, 1999.
[Palopoli 96] L. Palopoli, C. Zaniolo. Polynomial time computable stable models. Annals of Mathematics and Artificial Intelligence, 17, 1996.
[Shivakumar 98] N. Shivakumar, H. Garcia-Molina, C. Chekuri. Filtering with Approximate Predicates. VLDB, 1998.
[Agrawal 95] R. Agrawal, A. Gupta, S. Sarawagi. Modeling multidimensional databases. IBM Research Report, 1995.
[Franconi 99] E. Franconi, U. Sattler. A data warehouse conceptual model for multidimensional aggregation. DMDW, 1999.
[Golfarelli 98] M. Golfarelli, D. Maio, S. Rizzi. The Dimensional Fact Model: a Conceptual Model for Data Warehouses. International Journal of Cooperative Information Systems, 7, (2&3), 1998.
[Golfarelli 99] M. Golfarelli, S. Rizzi. Designing the data warehouse: key steps and crucial issues. Journal of Computer Science and Information Management, 2(3), 1999.
[Gottlob98] G. Gottlob, N. Leone, F. Scarcello. The Complexity of Acyclic Conjunctive Queries. IEEE-FOCS, 1998.
[Gottlob99a] G. Gottlob, N. Leone, F. Scarcello. Hypertree Decompositions and Tractable Queries. PODS, 1999.
[Gottlob99b] G. Gottlob, N. Leone, F. Scarcello. A Comparison of Structural CSP Decomposition Methods. IJCAI, 1999.
[Gupta 97] H. Gupta, V. Harinarayan, A. Rajaraman. Index selection for OLAP. IEEE-ICDE, 1997.
[Gupta 99] H. Gupta, I.S. Mumick. Selection of views to materialize under a maintenance cost constraint. ICDT, 1999.
[Gyssens 97] M. Gyssens, L. Lakshmanan. A foundation for multi-dimensional databases. VLDB, 1997.
[Johnson 97] T. Johnson, D. Shasha. Hierarchically split cube forests for decision support: description and tuned design. Bullettin of Technical Committee on Data Engineering, 20(1), 1997.
[Nutt 98] W. Nutt, Y. Sagiv, S. Shurin. Deciding equivalences among aggregate queries. PODS, 1998.
[Sapia 98] C. Sapia, M. Blaschka, G. Höfling, B. Dinter. Extending the E/R Model for the Multidimensional Paradigm. In Y. Kambayashi et. al. (Eds.): Advances in Database Technologies, Springer, LNCS, 1552, 1998.
[Yang 97] J. Yang, K. Karlaplem, Q. Li. Algorithms for Materialized View Design in Data Warehousing Environments. VLDB, 1997.
Fase 1
Descrizione:
Durata: 4 mesi Costo previsto: 145 M£ 74.886 Euro Testo italiano
Questa fase sara' dedicata alla definizione dettagliata dei requisiti che il contesto generale del progetto pone sui vari temi di ricerca. In questa fase verra' anche specificato il ruolo del repository di meta-dati che fornira' la base comune per le metodologie e gli strumenti che verranno sviluppati nelle fasi successive. Questa attivita' di specifica verra' condotta congiuntamente da tutte le unita'. La fase si concludera' con un incontro collegiale in cui i metodi di rappresentazione e di gestione dei meta-dati e le elaborazione sui singoli temi verranno condivise da tutte le unita'. Il programma di ricerca specifico sui singoli temi viene descritto qui di seguito.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
La prima fase si concentrerà sullo studio e l'analisi dei nuovi requisiti che emergono sulla integrazione di dati quando si considerano sorgenti fortemente
eterogenee, cioè sorgenti strutturate (es: basi di dati) e semi-strutturate (es: documenti HTML,XML). Le problematiche tipiche di integrazione verranno indagate nell'ambito di questo nuovo contesto. Verranno studiati i requisiti per nuovi
metodi di rappresentazione dei dati, tenendo conto della presenza di sorgenti semistrutturate. Verranno confrontati i modelli per dati semistrutturati proposti in letteratura, allo scopo di caratterizzarne il potere espressivo. Verranno analizzati i requisiti per la scoperta e la rappresentazione di proprietà intra e inter-schema delle sorgenti, sia intensionali che estensionali, tenendo conto del fatto che le sorgenti sono descritte mediante
meccanismi meno strutturati. Verranno indagati metodi per definire e specificare parametri di qualità delle sorgenti (affidabilità, completezza, ridondanza,
accuratezza, ecc.) e i metodi per la riconciliazione di dati provenienti da sorgenti eterogenee. Verrà studiato l'impatto che la presenza di diverse versioni dello schema di una sorgente, con particolare riferimento a sorgenti object-oriented, può avere sul processo di integrazione. Verrà analizzato il ruolo dei meta-dati e delle ontologie in un contesto in cui si integrano sorgenti strutturate e semi-strutturate. Si analizzeranno i metodi esistenti per il problema del query rewriting e del query answering using views. Si dara` una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE
Le unità coinvolte svolgeranno un lavoro preliminare di analisi delle tematiche di interesse. In particolare, verra'condotta un'analisi approfondita della letteratura sulla progettazione logica e fisica di data warehouse. Per il livello logico si analizzeranno in modo critico le funzioni di costo proposte in letteratura, e si identificheranno le principali limitazioni degli approcci esistenti alla materializzazione di viste, focalizzando l'attenzione sulla determinazione di una classe generale di interrogazioni da usare come punto di partenza per mettere a punto tecniche di materializzazione più efficaci. Verranno poi studiati gli algoritmi di partizionamento proposti nell'ambito delle basi di dati operazionali e dei sistemi distribuiti. Per quanto riguarda la stima della cardinalità delle viste, si valuterà l'efficacia dei criteri di tipo statistico e si evidenzieranno ulteriori possibili criteri da adottare. Per il livello fisico, l'unità analizzerà i tipi di indici più diffusi sugli strumenti per il data warehousing: accanto ai B-tree, verranno considerati join index, star index, bitmap index e projection index. Per ciascun tipo di indice verrà elaborato un modello di costo da utilizzare durante la fase di progettazione fisica. Verranno infine analizzati i più diffusi algoritmi per la scelta degli indici in basi di dati di tipo operazionale. Per quanto riguarda l'interrogazione di data warehouse, dopo uno studio preliminare dello stato dell'arte sulle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.), si procedera' alla individuazione delle specificità del contesto data warehouse in cui dovranno essere risolti i problemi di efficienza delle interrogazioni. Si tratterà essenzialmente di individuare i metodi di ottimizzazione esistenti più adatti ad essere estesi nel nuovo contesto applicativo.
TEMA 3: DATA MINING
Questa prima fase sara` in gran parte dedicata allo studio dello stato dell'arte nei vari argomenti. Verranno analizzati e confrontati i metodi e gli algoritmi di clustering attualmente noti in letteratura, con particolare attenzione alla capacita` di trattare dati categorici e spazi metrici. Verranno effettuati accurati studi comparativi sulle prestazioni dei vari algoritmi, sia dal punto di vista dell'efficienza che da quello della qualita` dei cluster prodotti, anche in presenza di dati affetti da rumore. Si valutera` la possibilita` di modificazione dei vari algoritmi per trattare il caso di elaborazione incrementale. Si analizzeranno gli esistenti paradigmi per query di similarita`, inclusi quelli con approssimazione. Per questi ultimi si formalizzeranno degli indicatori in grado di quantificare il compromesso "qualita` vs costo". Dopo aver portato a termine l'analisi approfondita dello stato dell'arte del meta-querying ci si concentrera` sull'individuazione di un insieme di varianti che rivelino un buon interesse applicativo e sullo studio delle sorgenti di intrattabilita` computazionale che caratterizzano tali varianti. Lo stesso tipo di analisi verrà condotta per altre tecniche di data mining, quali le association rules. Sara` effettuato uno studio teorico che sistematizzi e formalizzi il rapporto esistente tra le varie modalita` di visualizzazione dei dati e le varie attivita` di scoperta di informazioni. I sistemi e gli approcci esistenti per la visualizzazione di informazioni verranno confrontati sulla base di un insieme di casi reali di applicazione, allo scopo di scoprirne da una parte le mancanze da superare, e, dall'altra, le caratteristiche positive da mantenere. La fase si concludera` con l'individuazione delle caratteristiche di un meta-repository per la descrizione delle attivita` e dei risultati del data mining, in modo da favorire la fruizione di servizi di data mining da parte delle unita` partecipanti al progetto.Risultati parziali attesi:Testo inglese
This phase will be devoted to the precise definition of the requirements arising from the context studied in the project. The role of a meta-data repository as a basis for the various methodologies and tools that will be developed in the project will also be studied. These kinds of activities will be carried out jointly by the various partners. This phase will end with a meeting where all the decisions about the representation and the management of mate-data will be discussed and agreed upon. The specific program for the different tasks of the project is described in the following.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES
The first phase will be concerned with the study and analysis of new requirements on data integration that become relevant when considering strongly heterogeneous sources, i.e., sources that are structured (e.g., databases) and semi-structured (e.g., HTML or XML documens). The typical integration aspects will be investigated in this new context. The requirements for the new data
representation methods will be studied, considering the presence of semi and non-structured sources. The data models for semi-structured data proposed in the literature will be compared against each other in order to characterize their expressive power. The requirements for the discovery and the representation of intra and inter-schema properties, both intensional and
extensional, will be analyzed, again considering that the sources are described by means of semi-structured mechanisms. Methods for defining and specifying quality parameters for sources (reliability, completeness, redundancy, accuracy, etc.) and for reconcyling data coming from different sources will be considered. It will be studied how the presence of various versions of the schema of a source can influence the integration process, in particular for object-oriented sources. The role of metadata and of ontologies in a context where structured and semi-structured sources are integrated will be analyzed. It will be studied how the presence of various versions of the schema of a source can influence the integration process, in particular for object-oriented sources. The role of metadata and of ontologies in a context where structured and semi-structured sources are integrated will be analyzed. The existing methods to solve the problem of query rewriting and query answering using views will be analyzed. A preliminar structure of the meta-data repository describing the different kinds of sources and intra/inter schema relationships will
be defined.
TASK 3: DATA WAREHOUSE DESIGN AND QUERYING
The partners particpating in this task will work on complementary research themes in the context of a three-level DW framework (external sources, reconciled data, and derived data). In particular, the UNIBO unit will face the logical and physical design problem of data warehouses, whilst the UNICAL unit will cope with the problem of the efficient query answering over data warehouses. Both partners will preliminary analyse the themes they are interested in. They will carry out an analysis of the existing literature on logical and physical design of data warehouses. In particular, on the logical level the cost functions devised so far will be analyzed and the main drawbacks of the approaches to view materialization will be identified, focusing on determining a general category of queries for supporting more effective materialization techniques. The partitioning algorithms devised for operational and distributed databases will be studied. As to estimating the cardinality of views, the effectiveness of statistical criteria will be evaluated and other possible criteria will be examined. On the physical level, the unit will analyze the most common indices supported by the data warehousing tools: besides B-trees, join indices, star indices, bitmap indices and projection indices will be considered. For each type, a cost model will be devised to be used during physical design. Finally, the most common algorithms for choosing indices in operational databases will be studied. With respect to querying, a preliminary study on the state of the art on query answering techniques (query containment, query rewriting, etc.) reported in the database literature will be carried out. Then, the first point is to analyse the peculiarities of the data warehouse context where the efficient query-answering problems are to be solved. Basically, in this phase the most relevant existing optimisation techniques for this new application framework should be identified and studied.
TASK 3: DATA MINING
The first phase will be mainly devoted to the study of the state of the art in the various topics. Clustering methods and algorithms will be analyzed and compared, with special attention to the capability of dealing with categorical data and metric spaces. The performances will be compared, both from the efficiency and effectiveness points of view, taking into account also the problems of outliers. The possible modifications of the algorithms in order to allow incremental processing will be studied. The existing paradigms for similarity queries will be reviewed. In particular, for those based on some form of "approximation", suitable indicators able to characterize the quality of the result will be studied and formalized. Existing approaches (techniques and languages) to content-based retrieval for multimedia and structured objects will be covered and classified. After a detailed analysis of the state of the art of meta-querying, a number of variants of meta-querying will be singled out, on the basis of their relevance in real applications and the source of intractability of their solution will be studied. A theoretical study will be done to systematize and formalize the relationship between the various visualization techniques and the various knowledge discovery activities. Existing systems and approaches for visualization will be compared, on the basis of real test beds, in order to point out their weakness and strength aspects.Testo italiano
I risultati attesi in questa prima fase del progetto sono di tipo rapporto tecnico (sigla R). La cifra dopo la D indica il tema (se e' 0, il risultato e' comune ai temi). La lista tra partentesi indica le unita' coinvolte nella produzione del risultato (BO - Bologna, CS - Calabria, MI - Milano, MO - Modena, RM - Roma).
D0.R1: Specifiche per il meta-data repository (BO,CS,MI,MO,RM)
D1.R1: Metodi e tecniche di estrazione,rappresentazione ed integrazione di sorgenti strutturate e semistrutturate (BO,CS,MI,MO,RM)
D1.R2: Utilizzo di ontologie e proprietà inter-schema di tipo estensionale (MI,MO)
D1.R3: Metodi e tecniche per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS)
D1.R4: Introduzione di un approccio formale per la gestione di versioni di schema in ambiente eterogeneo (BO)
D1.R5: Rassegna sui metodi per il query rewriting e il query answering using views (RM)
D2.R1: Documento sui risultati dell'analisi dello stato dell'arte sulle architetture di data warehouse (BO,CS)
D2.R2: Documento sull'analisi dello stato dell'arte sulle tematiche di progettazione logico-fisica del livello dei dati derivati (BO)
D2.R3: Documento sull'analisi dello stato dell'arte sulle tematiche di interrogazione di sistemi di grandi dimensioni (CS)
D3.R1: Analisi e confronto di metodi e algoritmi di data mining, con particolare riferimento a clustering, metaquerying, tecniche di visualizzazione, ricerche approssimate e di similarita`(BO,CS,RM)Testo inglese
The expected results of this Phase are technical reports (R). They are denoted as follows: Di.Rj, where i is the task number (0, for deliverables common to the tasks), and n the progressive product number within the task. The ID's of the groups are: Bologna BO, Cosenza CS, Milano MI, Modena MO, Roma RM. They are used to specify the partners involved in the deliverable.
D0.R1: Specification for the Meta-data repository (BO,CS,MI,MO,RM)
D1.R1: Methods and Techniques for the automatic extraction, representation and integration of structured and semi-structured data sources(BO,CS,MI,MO,RM)
D1.R2: Use of ontologies and extensional inter-schema properties for integration (MI,MO)
D1.R3: Methods and Techniques for the translation of information from the data models of the sources and the target data model (CS)
D1.R4: Introduction of a formal approach for the management of schema versioning in heterogeneous environment (BO)
D1.R5: Survey on methods for query rewriting and query answering using views (RM)
D2.R1: State of the art of Data Warehouse Architectures (BO,CS)
D2.R2: State of the art of logical and physical design of derived data (BO)
D2.R3: State of the art of querying very large data sets (CS)
D3.R1: Analysis and comparison of data mining methods and algorithms, with reference to clustering, metaquerying, visualization techniques, approximate and similarity search. Analysis of research prospects in these areas (BO,CS,RM)
Unita' di ricerca impegnate:
BERGAMASCHI SONIA CASTANO SILVANA LENZERINI MAURIZIO PALOPOLI LUIGI RIZZI STEFANO Fase 2
Descrizione:
Durata: 8 mesi Costo previsto: 250 M£ 129.114 Euro Testo italiano
Questa fase e' dedicata alla produzione dei risultati scientifici, cioe' dei metodi e delle tecniche per i vari temi del progetto. In questa fase verra' anche definita precisamente la struttura del repository di meta-dati, e verra' specificato l'insieme dei servizi che il repository stesso dovra' offrire, al fine di fornire una base comune a tutti gli strumenti che verranno progettati e realizzati nelle fasi successive. Questa attivita' verra' condotta congiuntamente da tutte le unita'. La fase si concludera' con un incontro collegiale in cui la struttura ed i servizi del repository di meta-dati verranno condivise da tutte le unita'. Il programma di ricerca specifico sui singoli temi viene descritto qui di seguito.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'obiettivo della fase è la produzione di risultati scientifici che definiscano nel loro complesso un quadro metodologico per l'integrazione di dati provenienti da sorgenti fortemente eterogenee, sulla base dei requisiti di integrazione stabiliti nella fase precedente. Si definirà una metodologia per la costruzione di viste riconciliate di dati semi-strutturati provenienti da sorgenti eterogenee, basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate su affinita' e clustering, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. La metodologia prevede esplicitamente tecniche e passi specifici per la rappresentazione ed il trattamento di sorgenti semistrutturate, secondo le linee stabilite nella fase 1. In presenza di diverse versioni di schema, le tecniche impiegate saranno basate su proprieta' inter-versione dedotte dalle modifiche di schema applicate. I risultati forniti includeranno la specifica funzionale/architetturale di prototipi. In particolare, verra` definita l'architettura funzionale di un prototipo che implementa la metodologia sviluppata. Si definiranno poi metodi e tecniche per il trattamento di interrogazioni formulate sulla vista integrata. In particolare, si procederà alla definizione di linguaggi fuzzy per l'interrogazione di vistericonciliate/sorgenti in cui pesare termini e filtrare le risposte in base alla rilevanza, tenendo conto della esistenza di sorgenti strutturate, semistrutturate e versionate. Si definiranno algoritmi per la riscrittura di interrogazioni rispetto ad un insieme di viste (query rewriting e query answering using views), estendendo, modificando e adattando gli approcci attuali tenendo conto della esistenza di sorgenti semistrutturate. Si produrranno le specifiche funzionali di un "Query Manager" che supporti interrogazioni globali rispetto ad una vista virtuale integrata delle sorgenti. Compito primario del query manager è la decomposizione di una query globale in sub-query relative alle sorgenti e l'ottimizzazione della esecuzione delle sub-query. A tale scopo si estenderanno le tecniche di ottimizzazione sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, con particolare riferimento alla ottimizzazione
semantica. La struttura del meta-data repository definita nella fase 1 verra` arricchita dalle nuove tipologie di meta-dati e meta-relazioni individuate in questa fase, con particolare riferimento alle interrogazioni globali e al loro mapping in interrogazioni locali alle sorgenti.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE
Verra' affronteto dapprima il problema della progettazione logica di data warehouse. Verrà studiato il problema della materializzazione di viste sulla base di un carico di lavoro complesso che contempli la presenza contemporanea di più operatori di aggregazione all'interno delle interrogazioni, tenendo conto dell'utilizzo di misure derivate e di eventuali misure di supporto per realizzare la distributività degli operatori. Verrà poi analizzata l'utilità della frammentazione orizzontale e verticale delle viste materializzate, effettuata sulla base del carico di lavoro e tenendo conto di vincoli di spazio. Per entrambi i problemi dovranno essere definite funzioni di costo ad hoc, che ne permettano una formulazione come problemi di ottimizzazione. Per aumentare l'efficacia degli algoritmi proposti, verranno messi a punto metodi per la stima delle dimensioni delle viste candidate alla materializzazione tenendo conto degli specifici vincoli di cardinalità suggeriti dal dominio applicativo. Successivamente, si affronterà il problema della progettazione fisica utilizzando i modelli di costo messi a punto durante la prima fase. Il problema della scelta ottimale degli indici verrà affrontato delineando un insieme di criteri "di buon senso" da un lato, definendo algoritmi di tipo euristico dall'altro. Per quanto riguarda l'interrogazione di data warehouse, sulla base dei risultati dell'analisi condotta nella fase precedente, si svilupperanno tecniche innovative di interrogazione in ambiente data warehouse attraverso l'estensione di tecniche preesistenti concepite per basi di dati relazionali. L'idea di base è quella di sfruttare le proprietà strutturali delle interrogazioni e delle viste materializzate per ottenere un'esecuzione ottimizzata. A tal fine si propone di sfruttare la proprietà di aciclicità strutturale della query riscritta per guidare il "query rewriting", rendendo in tal modo efficiente la successiva verifica di "query containment". In altri termini, in presenza di più riscritture possibili, vengono preferite quelle che generano interrogazioni con limitata ciclicità. Le informazioni necessarie per l'ottimizzazione (in particolare quelle relative alla descrizione delle viste) saranno estratte dal Meta-Data Repository. Inoltre, le scelte effettuate saranno memorizzate nel Meta-Data Repository per successivi eventuali riutilizzi.
TEMA 3: DATA MINING
In questa fase iniziera` la produzione dei risultati, sotto forma di trattazione teorica dei problemi evidenziati nella prima fase, sviluppo di algoritmi, individuazione di architetture di sistema. Si studieranno metodi di clustering che risolvano i problemi derivanti dall'aggiornamento incrementale dei dati del warehouse, e si indagheranno anche soluzioni basate sul concetto di similarita` di valori. Si definira` un paradigma di ricerca approssimata in grado di permettere all'utente di controllare la qualita` del risultato, anche in presenza di ricerche complesse. Verranno individuati dei sottocasi trattabili delle varianti di metaquerying individuate durante la prima fase e verranno progettati degli algoritmi efficenti per la loro implementazione. Verra` definita l'architettura di un sistema di data mining "user-centered", che dia la possibilita` di integrare sistemi diversi in un ambiente integrato ed orientato all'utente. L'architettura del sistema comprendera`: 1) componenti per la visualizzazione dell'informazione (che implementino diverse metafore visuali e tecniche per il mining visuale); 2) componenti per il "knowledge discovery" (che implementino tecniche diverse per la scoperta di informazioni); e, 3) componenti per la gestione dei dati (che forniscano le strutture multidimensionali necessarie per memorizzare e manipolare i dati). Verranno inoltre studiati dal punto di vista teorico alcuni dei problemi centrali legati alla visualizzazione. In questa fase si definira' anche la modalita' di utilizzazione del repository di meta-dati al fine di guidare il processo di data mining.Risultati parziali attesi:Testo inglese
This phase is devoted to the development of scientific results, in the form of methods and techniques for the three tasks of the project. Also, the structure and the architecture of the meta-data repository will be detailed, and the functionalities of the repository will be specified. This activity will be carried out jointly by the partners. The phase will end with a meeting where the decisionson the meta-data repository will be discussed and agreed upon. The specific program for the different tasks of the project is described in the following.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES
The objective of this phase is the production of scientific results that provide a methodological framework for the integration of data coming from
strongly heterogeneous sources, on the basis of the integration requirements established in the previous phase. A methodology for the construction of reconciled views of semi-structured data coming from heterogeneous sources will be provided. The methodology will be based on intelligent semi-automatic techniques for identifying and reconciling the heterogeneity due to properties of semi-structured data, on the automatic extraction of interschema properties, and on the knowledge of domain specific ontologies. The methodology includes explicitly techniques and steps that are specific for the representation and the treatment of semi-structured data sources, on affinity-based clustering techniques, according to the lines established in Phase 1. In the presence of different schema versions, the adopted techniques will be based on inter-version properties deduced from the applied schema changes. The obtained results will include the functional/architectural description of prototypes. In particular, the functional architecture of a prototype which implements the devised methodology will be provided. Additionally, specific techniques will be studied for the treatment of different versions of schemas and data, by means of appropriate algorithms for the conversion of data and strategies for dealing with the results (e.g., materialization versus virtualization, lazy versus immediate update). Methods and techniques for the treatment of queries expressed over the integrated view will be defined. In particular, fuzzy languages for querying the reconciled views/sources will be defined, that allow one to weigh terms and filter answers according to their relevance. Algorithms will be defined for the rewriting of queries with respect to a set of materialized views (query rewriting and query answering using views), by extending, modifying and adapting the current approaches in order to take care of the existence of semi and non-structured sources. The functional specification of a "Query Manager" will be produced, which supports global queries over a virtual integrated view of the sources. The primary task of the query manager is the decomposition of a global query into sub-queries to the various sources, and the optimization of the execution of the sub-queries. To achieve this goal, the optimization techniques developed for distributed database systems will be extended, with a particular emphasis on semantic optimization. The meta-data repository structure whose definition started in phase 1 will be enriched with new kinds of meta-data andmeta-relations identified in this phase, with particular attention to kinds of global queries and their mapping into local sources queries. The functional architecture of the meta-data repository will be released.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING
The problem of logical design of data warehouses will be addressed. The problem of view materialization will be studied, considering a complex workload which includes multiple aggregation operators within queries, and taking into account the presence of derived measures and of additional measures to support non-distributive aggregation operators. The unit will analyze the utility of horizontal and vertical fragmentation of views, based on the workload and taking space constraints into account. Specific cost functions will be defined, aimed at formulating both problems as optimization problems. In order to increase the effectiveness of the proposed algorithms, the unit will study methods to estimate the size of the views candidate to materialization, considering the cardinality constraints suggested by the application domain. Afterwards, the problem of physical design will be faced by relying on the cost models devised during the first phase. The problem of choosing the optimal set of indices will be addressed by outlining some rules of thumb on the one hand, by devising heuristic algorithms on the other.
On the basis of the previous analysis results, innovative answering techniques in the data warehouses framework will be proposed. To this end, existing relational database techniques will be suitably extended to this context. The idea is to exploit structural properties of both queries and materialized views to yield an optimal query execution. For instance, query rewriting can be suitably "driven" in order to obtain an acyclic (or quasi-acyclic) query. This way, the subsequent query containment step can be executed very efficiently. In other terms, whenever several different query rewritings are possible, those leading to queries with a bounded degree of cyclicity should be preferred. The Meta-Data Repository will provide all the information necessary for the optimisation phase (e.g., the descriptions of views). Moreover, outcomes of this phase will be suitably included in the Meta-Data Repository for possible subsequent uses.
TASK 3: DATA MINING
This phase will produce theoretical results, algorithms and system architectures. This phase will produce theoretical results, algorithms and system architectures. Clustering methods for categorical data will be studied, taking into account problems deriving from incremental update of the data warehouse; solutions based on values similarities will also be examined. A new paradigm for approximate similarity search will be defined, able to give the user the possibility to explicitly control the quality of the result. Tractable subcases of the variants of metaquerying singled out in the first phase will be defined along with efficient algorithms for their implementation. The architecture of a "user centered" mining system will be defined. The system will include: 1) components for information visualization to implement many visual metaphores and visual mining techniques; 2) components for knowledge discovery, to implement many discovery techniques; 3) components for data management, to make available multidimensional structures to store and manupulate data. Some of the main theoretical problems related to visualization will be studied.Testo italiano
I risultati attesi in questa prima fase del progetto sono di tipo rapporto tecnico e sintetizzano i risultati scientifici.
D0.R2: Specifica della architettura funzionale del repository di meta-dati (BO,CS,MI,MO,RM)
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee (BO,MO,MI)
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (MO,MI,CS)
D1.R8 : Specifiche funzionali del Query Manager (MO)
D1.R9: Algoritmi per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS)
D1.R10: Descrizione del linguaggio fuzzy per l'interrogazione di viste riconciliate (MI)
D1.R11: Metodologia e strumenti per la riconciliazione dei dati (RM)
D2.R4: Tecniche di progettazione logica e di interrogazione efficiente di data warehouse (CS,BO)
D2.R5: Scelta ottimale di indici in sistemi di data warehouse (BO)
D3.R2: Architettura del sistema integrato di data mining e visualizzazione (RM,BO,CS)
D3.R3: Studio di metodi di mining per: clustering, ricerche approssimate, metaquerying (CS,BO)Testo inglese
The expected deliverables of this Phase are in the form of technical reports that describe the scientific results developed.
D0.R2: Functional architecture of the meta-data repository (BO,CS,MI,MO,RM)
D1.R6: Description of the methodology for integration of strongly heterogeneous sources (BO,MO,MI)
D1.R7: Functional architecture of a design tool to build a reconcilied view of heterogeneous sources (MO,MI,CS)
D1.R8: Functional specification of the Query Manager (MO)
D1.R9: Algorithms for the translation of information from the data models of the sources and the target data model (CS)
D1.R10: Description of the fuzzy language for querying reconciled views (MI)
D1.R11: Methodology and tools to reconcile data (RM)
D2.R4: Techniques for data warehouse design and efficient querying (BO,CS)
D2.R5: Estimation of the size of the views candidate to materialization, considering the cardinality constraints (BO)
D3.R2 Architecture of an integrated data mining and visualization tool (BO,CS,RM)
D3.R3 Development of data mining methods: Incremental clustering, Approximate search with quality index, Tractable cases of metaquerying (BO,CS)
Unita' di ricerca impegnate:
BERGAMASCHI SONIA CASTANO SILVANA LENZERINI MAURIZIO PALOPOLI LUIGI RIZZI STEFANO Fase 3
Descrizione:
Durata: 8 mesi Costo previsto: 326 M£ 168.365 Euro Testo italiano
Questa fase e' dedicata allo sviluppo di prototipi di strumenti che affianchino e realizzino i metodi e le tecniche definiti nella fase precedente. All'inizio della fase si prevede un incontro di coordinamento per lo sviluppo del repository di meta-dati, la cui specifica e la cui architettura e' stata decisa nella fase precedente, e per stabilire il modo in cui i vari prototipi si interfacciano con il repository di meta-dati. Rispetto a tale repository, in questa fase verra' condotta la realizzazione delle varie funzionalita' sotto la guida dell'unita' del responsabile del progetto. Questa attivita' verra' condotta congiuntamente da tutte le unita'. Il programma di ricerca specifico sui singoli temi viene descritto qui di seguito.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'obiettivo della fase è la realizzazione di un insieme di prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente. Si realizzerà un prototipo che implementa un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulla metodologia sviluppata nella fase 2. Il prototipo ingloberà anche un ambiente di ausilio alla costruzione della vista virtuale globale, con particolare riferimento agli agli aspetti ontologici, ai risultati di clustering interattivo basato su affinita' e alla conoscenza inter-schema di tipo sia intensionale che estensionale. Si porrà inoltre cura particolare nello stabilire l'interfaccia di tali ambienti con il Query Manager delineato nella fase 2. Si realizzerà un prototipo che implementi gli algoritmi per l'estrazione di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati definiti nella fase 2. Si realizzera` un prototipo per
gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2 e per la riconciliazione dei dati. Si realizzera` il prototipo di un query manager per la gestione di query globali. Si progetterà e realizzera` un sistema di supporto alla realizzazione di sistemi per la gestione di versioni di schemi relativi a dati provenienti da sorgenti eterogenee. I problemi di integrazione da risolvere in questo caso sono analoghi a quelli affrontati nella fase 1, ma più complessi e articolati; la definizione del meta-data repository costituisce lo strumento fondamentale su cui si basa l'integrazione. Particolare cura verrà dedicata in questa fase alla coerenza e alla integrabilità dei vari prototipi, in particolare per assicurarsi che gli output dei vari sistemi siano utilizzabili dagli altri, quando necessario. Particolare cura verrà dedicata alla realizzazione modulare dei prototipi, al fine di preservare la loro coerenza e integrabilità complessiva. A questo
proposito, l'interfacciamento tra il sistema di ausilio alla integrazione e il query manager è già stato studiato nella fase 2. La realizzazione del prototipo
che realizza gli algoritmi per l'estrazione di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati verrà condotta in modo da assicurare l'interfacciamento con l'ambiente di ausilio alla
integrazione.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE
Le tecniche di progettazione definite durante la seconda fase verranno implementate in un prototipo. Il prototipo accetterà in ingresso uno schema concettuale di data mart, un carico di lavoro espresso nei termini individuati durante la prima fase, eventuali vincoli aggiuntivi propri del dominio applicativo (di spazio, di cardinalità, classi di indici disponibili, ecc.); effettuerà il progetto logico utilizzando gli algoritmi di materializzazione e frammentazione proposti nella seconda fase, producendo lo schema logico del data mart; effettuerà il progetto fisico utilizzando gli algoritmi di scelta degli indici proposti nella seconda fase, producendo infine lo schema fisico del data mart. Verranno generate in automatico le istruzioni SQL per la creazione delle tabelle necessarie, nonché per la creazione degli indici. Rispetto alla interrogazione di data warehouse, le tecniche prodotte nella seconda fase saranno implementate a livello prototipale. Il prototipo riceverà in input una interrogazione e, sulla base delle informazioni presenti nel Meta-data repository i meta-dati, produrrà un piano di esecuzione che tende a minimizzare la materializzazione dei predicati coivolti.
TEMA 3: DATA MINING
In questa fase verranno prodotti i primi prototipi per i vari componenti di data mining studiati nelle fasi precedenti. Verranno implementati e sperimentati i metodi di clustering e di ricerca approssimata. Si progetteranno e realizzeranno gli algoritmi per il meta-querying definiti nella fase precedente. Verra` sviluppato un sistema integrato di data mining e di visualizzazione delle informazioni.Risultati parziali attesi:Testo inglese
This phase is devoted to the development of propotype tools implementing
the methods and techniques proposed in the previous phases. The phase will begin with a meeting for coordinating the various activities for the meta-data repository development. The implementation of the repository will be carried out by all the partners, under the supervision of the project leader. The specific program for the different tasks of the project is described in the following.
TASK1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES
The goal of this phase is the design, the related architectural/functional specification and implementation of a set of prototypes that realize the functionalities pointed out by the scientific results produced by in the previous phase. A prototype will be developed , which realizes an integrated design environment for the construction of reconciled views of strongly heterogeneous sources based on the methodology developed in Phase 2. The prototype will also include a specific design environment for the construction of the virtual global view, focussing on the ontological aspects, the affinity-based clustering results, and inter-schema intensional and extensional knowledge. Particular care will be put in building the interface among such environments and the Query Manager outlined in Phase 2. A prototype implementing the algorithms for the extraction of inter-schema properties from sources of structured and semi-structured data defined in Phase 2 will be designed. A prototype realizing the algorithms for query rewriting and query answering using views and data reconciliation developed in Phase 2 will be produced. A prototype of a query manager able to manage global queries will be developed. A system to support the realization of tools that manage the different versions of schemata for the data coming from heterogeneous sources will be designed. The integration problems to be solved in this case are analogous to those dealt with in Phase 1, but more sophisticated and complex; the definition of the meta-data repository consitutes the main tool to support integration. In this phase, a particular emphasis will be put on the coherence and integrability of the various prototypes, in particular, to guarantee that the output of the various systems can be used by the others, when necessary.
A particular emphasis will be put on the modular realization of the prototypes, so as to preserve their coherence and integrability. To this end, the interface between the the integration system and the query manager has already be studied in Phase 2. The realization of the prototype implementing the algorithm for the extraction of interschema properties form structured and semi-structured data will be done so as to guarantee its interoperability with the integration system.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING
The design techniques produced during the second phase will be implemented into a prototype. Input to the prototype will be a data mart conceptual scheme, a workload expressed according to the results of the first phase, additional constraints from the application domain (on space, cardinality, indices available, etc.); logical design will be carried out by means of the materialization and fragmentation algorithms proposed in the second phase, producing in output the data mart logical scheme; physical design will be carried out by means of the algorithms for choosing indices proposed in the second phase, producing in output the data mart physical scheme. The SQL statements for creating tables and indices will be automatically generated.
The query processing techniques proposed in the previous phase will be implemented in a prototypal optimisation module. This module will take a query and, on the basis of the information stored in the Meta-Data Repository, will output an execution plan that exploits, to the maximum extent, the presence of materialised views.
TASK 3: DATA MINING
In this phase the first prototypes for the data mining components will be produced. Algorithms for categorical data clustering and approximate search will be implemented. The problems of incremental cluster will be considered, and approximate search will be extended to structured objects, by specifying general criteria for the evaluation of similarity. A prototype for meta-querying activities will be designed and implemented. An integraded system for data mining and information visualization will be implemented.Testo italiano
I risultati attesi in questa fase del progetto sono di tipo prototipo sofware (sigla P).
D0.P1: Repository di Meta-dati (BO,CS,MI,MO,RM)
D1.P1: Prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema (MO)
D1.P2: Prototipo per l'estrazione di proprietà inter-schema (CS)
D1.P3: Prototipo per query rewriting e query answering using views e per la riconciliazione dei dati (RM)
D1.P4: Prototipo di strumento per la manipolazione di versioni di schema di schema in ambito eterogeneo (BO)
D1.P5: Prototipo di un query manager per la gestione di query globali (MO)
D1.P6: Prototipo per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS)
D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su valutazione di affinita` e clustering interattivo (MI)
D2.P1: prototipo sviluppato per la progettazione logico-fisica (BO)
D2.P2: prototipo che implementa le tecniche di ottimizzazione di interrogazioni di data warehouse (CS)
D3.P1: Algoritmi di clustering incrementale di dati (BO)
D3.P2: Risoluzione di query approssimate (BO)
D3.P3: Prototipo per il meta-querying (CS)
D3.P4: Sistema integrato di data mining e visualizzazione (RM)Testo inglese
The expected results of this Phase are software prototypes (P).
D0.P1: Meta-data repository (BO,CS,MI,MO,RM)
D1.P1: Prototype of the design tool for the construction of a global view based on ontologies and on inter-schema axioms (MO)
D1.P2: Prototype that realizes the algorithms for the extraction of interschema properties(CS)
D1.P3: Prototype that realizes the algorithms for query rewriting and query answering using views and for reconcilying data (RM)
D1.P4: Prototype of a tool to support the managing of different versions of schemata for the data coming from heterogeneous sources (BO)
D1.P5: Prototype of the query manager (MO)
D1.P6: Prototype for the translation between sources data model and target data model (CS)
D1.P7: Prototype of the design tool for the construction of a global view based on affinity evaluation and interactive clustering (MI)
D2.P1: A prototype for the logical-physical design of data warehouses (BO)
D2.P2: A prototype which implements query answering optimization techniques in the data warehouse environment (CS)
D3.P1 Incremental clustering algorithms (BO)
D3.P2 Approximate queries resolution (BO)
D3.P3 Meta-querying prototype (CS)
D3.P4 Integrated data mining and visualization system (RM)
Unita' di ricerca impegnate:
BERGAMASCHI SONIA CASTANO SILVANA LENZERINI MAURIZIO PALOPOLI LUIGI RIZZI STEFANO Fase 4
Descrizione:
Durata: 4 mesi Costo previsto: 160 M£ 82.633 Euro Testo italiano
Questa fase e' dedicata al completamento della realizzazione dei prototipi, e alla sperimentazione e alla validazione delle metodologie e degli strumenti sviluppati nelle fasi precedenti. Per la sperimentazione, ci si avvarra' della collaborazione di Telecom Italia (divisione di Data Administration, Data Warehousing and Data Mining). All'inizio della fase si prevede un incontro di coordinamento per l'effettuazione degli esperimenti. All'incontro partecipera' personale della Telecom Italia, con lo scopo di illustrare nei dettagli l'ambito applicativo su cui si condurra' la sperimentazione. La divisione Data Administration, Data Warehousing and Data Mining della Telecom Italia si occupa di tutte le problematiche di gestione di dati relativamente ai clienti, ai servizi, alle fatturazione, e al traffico telefonico. I piu' importanti compiti riguardano proprio i temi del presente progetto: l'integrazione di sorgenti eterogenee, la realizzazione di data warehouse, e l'applicazione di tecniche di data mining sui dati gestiti dal data warehouse, con particolare riferimento al traffico telefonico, alla fatturazione, e al customer care. L'ambiente applicativo e' particolarmente interessante. L'integrazione procede in modo dinamico al fine di inglobare nel sistema sorgenti legacy, sia strutturate sia non strutturate. L'architettura del sistema prevede uno schema globale, sul quale vengono formulate le interrogazioni. Il data warehouse deve gestire una enorme mole di dati (si pensi al traffico telefonico), ed e' attualmente in fase di progettazione. Infine, e' in fase di impostazione una attivita' di data mining sulla quale il management punta al fine di effettuare analisi sofisticate sulla tariffazione e sui clienti.
Le attivita' di sperimentazione saranno seguite da un confronto dei risultati ottenuti con l'applicazione delle metodologie e degli strumenti sviluppati nel progetto rispetto alla situazione esistente in Telecom Italia. La fase si concludera' con un incontro finale del progetto in cui i risultati della sperimentazione verranno discussi anche in presenza del personale della Telecom Italia. Il programma di ricerca specifico sui singoli temi viene descritto qui di seguito.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'obiettivo di questa fase e` quello di completare la realizzazione e l'integrazione dei prototipi sviluppati nelle fasi precedenti e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. In particolare, la sperimentazione verra' condotta facendo riferimento alle sorgenti informative messe a disposizione da TELECOM Italia. Verra` completato l'interfacciamento del prototipo degli algoritmi di query rewriting e query answering using views assicurando l'interfacciamento con il query manager. Infine, verranno realizzati prototipi di componenti middleware per la soluzione dei problemi di integrazione in applicazioni multischema/multiversione distribuite basato sull'uso di primitive CORBA, e verranno realizzati prototipi di agenti mediatori, secondo le linee definite nella fase 3.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE
Le tecniche di progettazione logica e fisica saranno sperimentate utilizzando i più diffusi strumenti di data warehousing, sulla base di benchmark di varia natura. Verranno validati sperimentalmente i modelli di costo degli indici elaborati durante la prima fase. Infine, verrà effettuata una valutazione comparativa dei benefici della materializzazione, della frammentazione e dell'indicizzazione. Il prototipo per l'interrogazione di data warehouse sarà validato utilizzando dati significativi dal punto di vista quantitativo in maniera tale da poter verificare l'effettiva bontà degli algoritmi implementati.
TEMA 3: DATA MINING
Nell'ultima fase verranno effettuate principalmente validazioni di prototipi, anche in interazione con gruppi di potenziali utenti quali la Telecom Italia. I vari metodi di clustering e di ricerca approssimata verranno valutati congiuntamente. Si portera` avanti una sperimentazione sul campo del meta-querying, con l'obiettivo di verificare l'effettiva applicabilita` delle tecniche realizzate nel prototipo a problemi applicativi reali. Il sistema integrato di data mining e visualizzazione sara` validato in ambienti reali, quali quelli offerti dalle applicazioni di Telecom Italia. Parallelamente alla verifica tecnica del corretto funzionamento dei moduli software sviluppati verra' attivata, la produzione e la esecuzione di un ben definito insieme di test di usabilita', che si concentreranno soprattutto sui meccanismi di interazione offerti all'utente finale e sulle modalita' di visualizzazione disponibili per il modulo di data mining. Si prevede, pertanto, di procedere nella implementazione della interfaccia utente utilizzando un modello del ciclo di vita a spirale in cui siano prodotte almeno due versioni dell'interfaccia, la prima da utilizzarsi per i test di usabilita', la seconda da ottenersi come raffinamento della prima tramite le indicazioni emerse dai test stessi.Risultati parziali attesi:Testo inglese
This phase is devoted to the completion of the implementation of the tools, and to the experimentation of the methods and the tools developed in the previous phases. As for the experimentation, we will take advantage of a collaboration with Telecom Italia (Department of Data Administration, Data Warehousing and Data Mining). The phase will begin with a meeting where all the experimentation activites will be scheduled. People from Telecom Italia will participate in the meeting, with the goal of illustrating the application environment that will constitue the context for the experimentation. The Department of Data Administration, Data Warehousing and Data Mining of Telecom Italia is the responsible of all the aspect concerning the management of data about customers, services, billing, and phone traffic. The most important aspects are strictly related to the topics addressed in the project: source integration, data warehouse implementation, and data mining activities on the data managed by the warehouse, in particular for phone traffic, billing and customer care purposes. The application environment is particular stimulating for our project. Integration must proceed with a highly dynamic approach, since new legacy sources are continuosly added to the system. The system architecture is based on a global schema on which gloabal queries are expressed. The data warehouse deals with very large data sets (data about phone traffic is an example). Finally, Telecom Italia recently started a data mining program, which is very important of the management in order to carry out sophisticated analysis about billing. The experimentation activities will be foolwed by an analysis of results, and a comparison with traditional techniques already in use in Telecom Italia. The phase will end with a final meeting of the project, where the results of the experimentation will be discussed with people from Telecom Italia. The specific program for the different tasks of the project is described in the following.
TASK1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES
The goal of this phase is to complete the development and integration of the prototypes realized in the previous phases and to conduct suitable experiment for verifying the effectiveness in actual integration problems. In particular, the experimentation will be conducted with information sources place at disposal by TELECOM Italia. Similarly the realization of the prototype for implementing the algorithms for query rewriting and query answering using views will be done so as to guarantee the interoperability with the query manager. Finally, prototypes of middleware components, based on CORBA, for solving integration problems in distributed multischema/multiversion applications will be realized.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING
The techniques for logical and physical design will be tested on the most common tools for data warehousing, based on standard benchmarks. The cost models for indices will be experimentally validated. Finally, a comparative analysis of the benefits of view materialization, fragmentation and indexing will be carried out. The prototype for query processing will be validated using suitable database instances. In particular, large queries and very large databases will allow us to verify the effectiveness of the proposed algorithms.
TASK 3: DATA MINING
The last phase will deal with implementations and prototype tests, also interacting with potential user groups, such as Telecom Italia. The different clustering and approximate search methods will be integrated and evaluated. An experimentation 'on-the-field' to evaluate effective applicability of the meta-querying techniques on real application cases will be carried out. The integrated data mining and data visualization tool will be validated in real environments. In parallel with the functional test of the system modules, from the very beginning of the system development, a set of usability tests will be designed and executed. Such tests will mainly concentrate on the interaction mechanisms and the visualization modalities provided by the data mining module. In accordance with the iterative model of software development, we plan to develop at least two versions of the user interface. The first one will be tested against real users and their feedback will be exploited to produce a new improved version.Testo italiano
Il risultato atteso in questa fase e` quello della sperimentazione e valutazione dei metodi messi a punto nel progetto. A tale scopo verra` prodotto, per ogni tema, un rapporto tecnico che sintetizza tale risultato.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM)
D2.R6: Risultati della sperimentazione condotta con in prototipi sviluppati nella fase 3 per il data warehouse (BO,CS)
D3.R4: Validazione e studio di usabilita` dei prototipi di clustering, metaquerying, ricerche approssimate e visualizzazione (BO,CS,RM)Testo inglese
The expected results of this Phase are the experimentation and evaluation of the methods developed within the project. To this end, a technical report syntetizing such a result will be delivered.
D1.R12: Experimentation and evaluation of the prototypes (BO,CS,MI,MO,RM)
D2.R6: Report describing the experimental results obtained on data warehuose design and querying (BO,CS)
D3.R4 Evaluation and usability study of the prototypes for clustering, meta-querying, approximate search and visualization (BO,CS,RM)
Unita' di ricerca impegnate:
BERGAMASCHI SONIA CASTANO SILVANA LENZERINI MAURIZIO PALOPOLI LUIGI RIZZI STEFANO
Testo italiano
Per ciascuna fase sono state indicate le attivita' previste nell'ambito dei temi su cui il progetto e' articolato, ed i relativi prodotti. Pertanto, le attivita' basilari di valutazione dei risultati del progetto potranno essere effettuate verificando la produzione, esaminando la qualita' dei rapporti tecnici redatti e dei prototipi realizzati, e considerando la qualita' delle sedi di pubblicazione (congressi e riviste scientifiche) dei risultati stessi. Per favorire queste attivita' di controllo sulla qualita' dei rapporti e dei prototipi, il coordinatore realizzera', mantendendolo aggiornato, un sito web dove verranno resi disponibili i risultati del progetto e dove verra' pubblicizzato il calendario degli incontri e delle riunioni. Inoltre, le riunioni previste alla fine delle varie fasi del progetto verranno organizzate in modo che vi sia una parte dedicata alle presentazione dei risultati scientifici, aperta alla partecipazione di esterni interessati al progetto stesso. Infine, nella riunione finale del progetto, i risultati delle attivita' di sperimentazione verranno analizzati e discussi in una sessione aperta alla partecipazione del personale della Telecom Italia e di altro personale esterno interessato.Testo inglese
For each phase of the project, all the research activities and the corresponding deliverables have been listed in this proposal. Therefore the basic evaluation activities will be carried out by analyzing the results, the quality of the deliverables (both technical reports and software prototypes), and the quality of the conferences and the journals where the results will be published. In order to make these evaluation activities easier, the project leader will manage a web site of the project, where all the deliverables, and the schedule of the meetings of the project will be available. Moreover, the various meetings scheduled at the end of the phases will be open to external participants. Finally, during the final meeting of the project, there will be the possibility to meet with both the project partners, and people from Telecom Italia, in order to discuss about the experimentation carried out in the final phase of the project. Again, this session will be open to external participants.
Unità di ricerca | Voce di spesa | Totale | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Materiale inventariabile | Grandi Attrezzature | Materiale di consumo e funzionamento | Spese per calcolo ed elaborazione dati | Personale a contratto | Servizi esterni | Missioni | Altro | |||||||||||
M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | |
BERGAMASCHI SONIA | 25 | 12.911 | 5 | 2.582 | 5 | 2.582 | 36 | 18.592 | 8 | 4.132 | 45 | 23.241 | 8 | 4.132 | 132 | 68.172 | ||
CASTANO SILVANA | 35 | 18.076 | 5 | 2.582 | 30 | 15.494 | 15 | 7.747 | 50 | 25.823 | 135 | 69.722 | ||||||
LENZERINI MAURIZIO | 40 | 20.658 | 20 | 10.329 | 10 | 5.165 | 24 | 12.395 | 25 | 12.911 | 58 | 29.955 | 15 | 7.747 | 192 | 99.160 | ||
PALOPOLI LUIGI | 60 | 30.987 | 10 | 5.165 | 10 | 5.165 | 24 | 12.395 | 25 | 12.911 | 66 | 34.086 | 12 | 6.197 | 207 | 106.907 | ||
RIZZI STEFANO | 40 | 20.658 | 45 | 23.241 | 48 | 24.790 | 22 | 11.362 | 60 | 30.987 | 215 | 111.038 | ||||||
TOTALE | 200 | 103.291 | 85 | 43.899 | 25 | 12.911 | 162 | 83.666 | 95 | 49.063 | 279 | 144.091 | 35 | 18.076 | 881 | 454.999 |
Unità di ricerca | Voce di spesa | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
RD | RA | RD+RA | Cofinanziamento richiesto al MURST | Costo totale del programma | Costo minimo | |||||||
M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | M£ | Euro | |
BERGAMASCHI SONIA | 40 | 20.658 | 40 | 20.658 | 92 | 47.514 | 132 | 68.172 | 106 | 54.744 | ||
CASTANO SILVANA | 11 | 5.681 | 30 | 15.494 | 41 | 21.175 | 94 | 48.547 | 135 | 69.722 | 108 | 55.777 |
LENZERINI MAURIZIO | 58 | 29.955 | 58 | 29.955 | 134 | 69.205 | 192 | 99.160 | 153 | 79.018 | ||
PALOPOLI LUIGI | 43 | 22.208 | 20 | 10.329 | 63 | 32.537 | 144 | 74.370 | 207 | 106.907 | 166 | 85.732 |
RIZZI STEFANO | 35 | 18.076 | 30 | 15.494 | 65 | 33.570 | 150 | 77.469 | 215 | 111.038 | 172 | 88.831 |
TOTALE | 187 | 96.577 | 80 | 41.317 | 267 | 137.894 | 614 | 317.105 | 881 | 454.999 | 705 | 364.102 |
705 M£ 364.102 Euro (dal sistema, quale somma delle indicazioni dei Modelli B) 705 M£ 364.102 Euro (dal Coordinatore del Programma)
(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")
Firma ____________________________________________ | 31/03/2000 19:27:05 |
---|