|
Partecipante |
Dipartimento/Istituto |
Qualifica |
|
BUCCAFURRI
FRANCESCO |
INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI
DELL'UNIV. DI REGGIO CALABRIA |
Ricercatore |
|
FURFARO FILIPPO |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Dottorando |
|
GRECO GIANLUIGI |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Dottorando |
|
GRECO
SERGIO |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Prof. ordinario |
|
IANNI
GIOVAMBATTISTA |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Dottorando |
|
LEONE
NICOLA |
MATEMATICA DELL'UNIV. DELLA CALABRIA |
prof. ordinario |
|
PALOPOLI
LUIGI |
INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI
DELL'UNIV. DI REGGIO CALABRIA |
Prof. ordinario |
|
ROSACI
DOMENICO |
INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI
DELL'UNIV. DI REGGIO CALABRIA |
Titolare di assegno di ricerca |
|
RULLO
PASQUALE |
MATEMATICA DELL'UNIV. DELLA CALABRIA |
Prof. ordinario |
|
SACCA'
DOMENICO |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Prof. ordinario |
|
SCARCELLO
FRANCESCO |
ELETTRONICA, INFORMATICA E SISTEMISTICA |
Prof. associato |
|
TERRACINA
GIORGIO |
INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI
DELL'UNIV. DI REGGIO CALABRIA |
Dottorando |
|
URSINO
DOMENICO |
INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI
DELL'UNIV. DI REGGIO CALABRIA |
Ricercatore |
Titolo specifico
del programma svolto dall'unitą di ricerca
Modelli e tecniche per l'integrazione, l'interrogazione
ed il metaquerying in ambiente data warehouse.
Descrizione del
programma e dei compiti dell'Unitą di Ricerca
Le attivitą di ricerca si articolano, all'interno
di tutti e tre i temi di ricerca, in quattro fasi, come di seguito
specificato.
Fase 1 (durata
4 mesi
- dal 1/12/2000 al 31/3/2001)
Analisi dellesistente/specifiche requisiti
Questa fase sarà dedicata alla definizione dettagliata dei
requisiti che il contesto generale del progetto pone sui vari temi
di ricerca. In questa fase, in collaborazione con le altre unità,
verrà anche specificato il ruolo del repository di meta-dati
che fornirà la base comune per le metodologie e gli strumenti
che verranno sviluppati nelle fasi successive.
Nel seguito descriviamo il programma di ricerca specifico per i singoli
temi.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nel quadro delle tematiche del Tema 1, l'unita' dell'Universita' della
Calabria si propone di generalizzare le tecniche gia' sviluppate all'estrazione
di altre tipologie di proprieta' interschema, quali ad esempio le
iponimie; si propone inoltre di generalizzare lo studio dell'estrazione
di proprietà interschema a sorgenti informative semi-strutturate
(dati OEM, documenti XML) che, grazie allo sviluppo del WEB, stanno
affermandosi sempre più come le nuove forme di memorizzazione
e di scambio delle informazioni. Infine, si propone di affrontare
lo studio della traduzione dei dati da un modello di rappresentazione
sorgente ad un modello di rappresentazione target. Si propone infine
di collaborare alla definizione di un repository di meta-dati che
descrive le diverse tipologie di sorgenti e di relazioni intra e interschema.
Dopo aver svolto un'analisi approfondita dello stato dell'arte le
attivita' della nostra unita' si focalizzeranno sulla generalizzazione
delle tecniche da noi sviluppate a nuove tipologie di proprietà
interschema; inoltre si studierà la possibilità di individuare
delle tecniche per l'estrazione di proprietà interschema da
sorgenti informative semi-strutturate. Si darà una definizione
preliminare della struttura del meta-data repository per descrivere
le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.
TEMA 2: PROGETTAZIONE ED INTERROGAZIONE DI DATA WAREHOUSE.
Nell'ambito di questo tema, la nostra unità di ricerca affronterà
il tema dell'interrogazione efficiente in ambiente data warehouse.
Dopo uno studio preliminare dello stato dell'arte sui data warehouse
e sulle tecniche di interrogazione efficienti di basi di dati (query
containment, query rewriting, ecc.), il primo obiettivo consisterà
nella individuazione delle specificità del contesto data warehouse
in cui dovranno essere risolti i problemi di efficienza delle interrogazioni.
Si tratterà essenzialmente di individuare i metodi di ottimizzazione
esistenti più adatti ad essere estesi nel nuovo contesto applicativo.
TEMA 3: DATA MINING.
All'interno delle problematiche di interesse del Tema 3, l'unita'
dell'Universita' della Calabria si propone di svolgere uno studio
approfondito sulle sorgenti di intrattabilita' computazionale di alcune
varianti del problema del metaquerying al fine di identificare ulteriori
casi trattabili che evidenzino un buon interesse applicativo e di
progettare, implementare e sperimentare algoritmi per il riconoscimento
e la risoluzione di tali casi.
Dopo portato a termine l'analisi approfondita dello stato dell'arte
l'unita' dell'Universita' della Calabria si concentrera' sull'individuazione
di un insieme di varianti del metaquerying che rivelino un buon interesse
applicativo e sullo studio delle sorgenti di intrattabilita' computazionale
che caratterizzano tali varianti. Verrà inoltre compiuto uno
studio preliminare sulle proprietà computazionali di altri
problemi di data mining. La fase si concluderà con l'individuazione
delle caratteristiche di un meta-data repository per la descrizione
delle attività e dei risultati del data mining.
Fase 2 (durata
8 mesi
- dal 1/4/2001 al 30/11/2001)
Produzione dei risultati scientifici: metodi e tecniche.
Questa fase è dedicata alla produzione dei dati scientifici.
In questa fase verrà anche definita precisamente la struttura
del repository di meta-dati e verrà specificato l'insieme dei
servizi che il repository stesso dovrà offrire.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nella seconda fase, verranno considerati problemi di integrazione
che coinvolgono anche sorgenti di dati semi-strutturati e, in questo
ambito, verranno progettate delle tecniche opportune per l'estrazione
di proprieta' interschema. Si considereranno degli algoritmi per la
traduzione dei dati da un modello di rappresentazione sorgente ad
un modello di rappresentazione target; infine verranno inserite nel
meta-data repository nuove tipologie di meta-relazione e verrà
definita la sua architettura funzionale. Infine collaborerà
alla definizione di algoritmi per la riscrittura di interrogazioni.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
In questa fase, sulla base dei risultati dell'analisi condotta nella
fase precedente, l'Unità UNICAL si propone di sviluppare tecniche
innovative di interrogazione in ambiente data warehouse attraverso
l'estensione di tecniche preesistenti concepite per basi di dati relazionali.
L'idea di base è quella di sfruttare le proprietà strutturali
delle interrogazioni e delle viste materializzate per ottenere un'esecuzione
ottimizzata. A tal fine si potrebbe sfruttare la proprietà
di aciclicità strutturale della query riscritta per guidare
il "query rewriting", rendendo in tal modo efficiente la
successiva verifica di "query containment". In altri termini,
in presenza di più riscritture possibili, vengono preferite
quelle che generano interrogazioni con limitata ciclicità.
Le informazioni necessarie per l'ottimizzazione (in particolare quelle
relative alla descrizione delle viste) saranno estratte dal Meta-Data
Repository. Inoltre, le scelte effettuate saranno memorizzate nel
Meta-Data Repository per successivi eventuali riutilizzi.
TEMA 3: DATA MINING.
Verranno individuati dei sottocasi trattabili delle varianti di metaquerying
individuate durante la prima fase e verranno progettati degli algoritmi
efficienti per la loro implementazione. In questa fase si definirà
anche la modalità di utilizzazione del meta-data repository
al fine di guidare il processo di data-mining.
Fase 3 (durata
8 mesi -
dal 1/12/2001 al 31/7/2002)
Produzione di prototipi.
Questa fase è dedicata allo sviluppo di prototipi di strumenti
che affianchino e realizzino i metodi e le tecniche definiti nella
fase precedente.
All'inizio della fase si prevede un incontro di coordinamento per
lo sviluppo del repository di meta-dati, la cui specifica e la cui
architettura sono state decise nella fase precedente, e per stabilire
il modo in cui i vari prototipi si interfacciano con il repository
di meta-dati.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'unita' dell'Universita' della Calabria si concentrera' sulla progettazione
ed
iniziale implementazione di un prototipo, che implementi gli algoritmi
per l'estrazione di proprietà interschema, di un prototipo
per la traduzione di dati e di un prototipo per gli algoritmi di query
rewriting e query answering using views sviluppati nella fase 2.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Le tecniche prodotte nella seconda fase saranno implementate a livello
prototipale. Il prototipo riceverà in input una interrogazione
e, sulla base delle informazioni presenti nel Meta-data repository,
produrrà un piano di esecuzione che tende a massimizzare l'utilizzo
di predicati (viste) materializzati.
TEMA 3: DATA MINING.
L'unita' dell'Universita' della Calabria si focalizzera' sulla progettazione
e realizzazione di un prototipo che realizzi l'insieme degli algoritmi
per il metaquerying ottenuti nella fase precedente.
Fase 4 (durata
4 mesi
- dal 1/8/2002 al 30/11/2002)
Validazione e sperimentazione.
Questa fase è dedicata al completamento della realizzazione
dei prototipi, e alla sperimentazione e alla validazione delle metodologie
e degli strumenti sviluppati nelle fasi precedenti.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE
In quest'ultima fase la nostra unita' concludera' la realizzazione
dei vari prototipi e avviera' una serie di sperimentazioni per verificarne
l'efficacia in problemi reali di integrazione.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Il prototipo sarà validato utilizzando dati significativi dal
punto di vista quantitativo in maniera tale da poter verificare l'effettiva
bontà degli algoritmi implementati.
TEMA 3: DATA MINING.
In quest'ultima fase la nostra unita' portera' avanti una sperimentazione
sul campo con l'obiettivo di verificare l'effettiva applicabilita'
delle tecniche realizzate nel prototipo a problemi applicativi reali.
A tale scopo il prototipo verra' interfacciato a basi di dati reali
pre-esistenti ed i pattern di dati da esso estratti verranno valutati
qualitativamente con l'aiuto di uno o piu' esperti dello specifico
dominio applicativo analizzato.
Prodotti dell'Unitą
di Ricerca
La cifra dopo la D indica il tema di ricerca di
riferimento per il prodotto (se è 0 il risultato è comune
a tutti i temi). La lettera successiva indica il tipo del documento
(sigla R: rapporto tecnico, sigla P: prototipo software). La lista
tra parentesi indica le unità coinvolte nella produzione del
risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma).
In grassetto è evidenziata l'unità responsabile per
ciascun prodotto.
Al
termine della Fase 1 (scadenza
il 31 marzo 2001)
I risultati attesi in questa prima fase del progetto sono di tipo
rapporto tecnico (sigla R).
D0.R1:
Specifiche per il meta-data repository (BO,CS,MI,MO,RM).
D1.R1:
Metodi e tecniche di estrazione, rappresentazione ed integrazione
di sorgenti strutturate e semistrutturate (BO,CS,MI,MO,RM).
D1.R3:
Metodi e tecniche per la traduzione di informazioni da modelli di
dati sorgente a modelli di dati target (CS).
D2.R1:
Documento sui risultati dell'analisi dello stato dell'arte sulle architetture
di data warehouse (BO,CS).
D2.R3:
Documento sull'analisi dello stato dell'arte sulle tematiche di interrogazione
di sistemi di grandi dimensioni (CS).
D3.R1:
Analisi e confronto di metodi ed algoritmi di data mining, con particolare
riferimento a clustering, metaquerying, tecniche di visualizzazione,
ricerche approssimate e di similarità (BO,CS,RM).
Al
termine della Fase 2 (scadenza
il 30 novembre 2001)
I risultati attesi in questa fase del progetto sono di tipo rapporto
tecnico e sintetizzano i risultati scientifici.
D0.R2: Specifica dell'architettura funzionale del repository di meta-dati
(RM,BO,CS,MI,MO).
D1.R7: Architettura
funzionale di un ambiente di ausilio al progettista per la costruzione
di viste riconciliate di sorgenti fortemente eterogenee basato sulle
tecniche sviluppate (CS,MI,MO).
D1.R9:
Algoritmi per la traduzione di informazioni da modelli di dati sorgente
a modelli di dati target (CS).
D2.R4:
Tecniche di progettazione logica e di interrogazione efficiente di
data warehouse (BO,CS).
D3.R2: Architettura
del sistema integrato di data mining e visualizzazione (RM,BO,CS).
D3.R3:
Studio di metodi di mining per clustering, ricerche approssimate e
metaquerying (BO,CS).
Al
termine della Fase 3 (scadenza
il 31 luglio 2002)
I risultati attesi in questa fase sono di tipo prototipo software
(sigla P).
D0.P1: Repository di meta-dati (BO,CS,MI,MO,RM).
D1.P2: Prototipo per l'estrazione di proprietà inter-schema
(CS).
D1.P6: Prototipo per la traduzione di informazioni da modelli di dati
sorgente a modelli di dati target (CS).
D2.P2: Prototipo che implementa le tecniche di ottimizzazione di interrogazioni
di data warehouse (CS).
D3.P3: Prototipo per il meta-querying (CS).
Al
termine della Fase 4 (scadenza
il 30 dicembre 2002)
Il risultato atteso in questa fase è quella della sperimentazione
e valutazione dei metodi messi a punto nel progetto. A tale scopo,
verrà prodotto, per ogni tema, un rappporto tecnico che sintetizza
i risultati ottenuti.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi
per l'integrazione (BO,CS,MI,MO,RM).
D2.R6: Risultati della sperimentazione condotta con i prototipi sviluppati
nella fase 3 per il data warehouse (BO,CS).
D3.R4: Validazione e studio di usabilità dei prototipi di clustering,
metaquerying, ricerche approssimate e visualizzazione (BO,CS,RM).