|
Partecipante |
Dipartimento/Istituto |
Qualifica |
|
CASTANO
SILVANA |
SCIENZE DELL'INFORMAZIONE |
Prof. ordinario |
|
DE
ANTONELLIS VALERIA |
ELETTRONICA PER L'AUTOMAZIONE DELL'UNIVERSITA' DI
BRESCIA |
Prof. ordinario |
|
FERRARA ALFIO |
SCIENZE DELL'INFORMAZIONE |
Titolare di assegno di ricerca |
|
MARTELLA
GIANCARLO |
SCIENZE DELL'INFORMAZIONE |
Prof. ordinario |
|
MELCHIORI MICHELE |
UNIVERSITA' DI BRESCIA |
Dottorando |
|
MONTESI
DANILO |
SCIENZE DELL'INFORMAZIONE DELL'UNIVERSITA' DI BOLOGNA |
Prof. Associato |
|
ORNETTI
GIORGIO |
SCIENZE DELL'INFORMAZIONE |
Dottorando |
Titolo specifico
del programma svolto dall'unità di ricerca
METODI E STRUMENTI PER LA RICONCILIAZIONE DI SORGENTI
ETEROGENEE E SEMISTRUTTURATE
Descrizione del
programma e dei compiti dell'unità di ricerca
Obiettivo della ricerca dell'unita' operativa di
Milano e' lo sviluppo di un ambiente per la creazione di viste riconciliate
di dati eterogenei e semistrutturati, mediante utilizzo di tecniche
di affinita' e clustering specializzate per tali dati, e per l'interrogazione
di viste riconciliate mediante un linguaggio di tipo fuzzy opportunamente
definito. Nell'integrazione di sorgenti di dati semistrutturati, problematiche
fondamentali da risolvere riguardano l'identificazione di dati semanticamente
simili in sorgenti diverse e il trattamento delle diverse tipologie
di eterogeneita' peculiari di tali dati al fine di derivare rappresentazioni
riconciliate e rendere possibili interrogazioni in modo uniforme a
livello globale. Nei moderni sistemi informativi basati su Web il
numero di sorgenti eterogenee e semistrutturate da integrare puo'
diventare molto elevato ed e' pertanto importante sviluppare un ambiente
intelligente che consenta di operare il possibile in maniera semi-automatica.
A tale scopo, si studieranno tecniche per l'identificazione di dati
simili in sorgenti semistrutturate diverse, basate su definizione
e valutazione di proprieta' di affinita' e corrispondenze semantiche
specificamente concepite per tenere conto di eterogenita' e proprieta'
dei dati semistrutturati. Si svilupperanno inoltre algoritmi di clustering
basato su affinita' per la selezione interattiva di candidati all'integrazione
e regole con cui derivare rappresentazioni riconciliate di dati semistrutturati
in forma di viste globali. Al fine di rendere il processo di integrazione
semi-automatico, le tecniche sfrutteranno il piu' possibile metadati
e contenuto semantico di sorgenti semistrutturate con l'ausilio di
conoscenza di dominio (ad esempio, thesaurus, ontologie). Si studiera'
inoltre un linguaggio di interrogazione fuzzy per interrogare viste
riconciliate di dati semistrutturati in cui l'utente puo' pesare i
termini nell'interrogazione e filtrare le risposte in base alla rilevanza.
Il programma di ricerca dell'unita' operativa di Milano e' biennale
e si articola nelle seguenti fasi.
Fase 1 (durata
4 mesi
- dal 1/12/2000 al 31/3/2001)
Definizione di requisiti di integrazione per sorgenti di dati eterogenei
e semistrutturati per la valutazione di proprieta' di affinita' e
corrispondenze semantiche, tenendo conto di proprieta' e caratteristiche
delle loro descrizioni a livello intensionale (metadati), contenuto
semantico (con l'ausilio di thesaurus/ontologie), tipologie di eterogeneita'
e proprieta' intra e inter-schema. Definizione preliminare della struttura
del meta-data repository sulla base dei requisiti di integrazione
identificati.
Fase 2 (durata
8 mesi
- dal 1/4/2001 al 30/11/2001)
Definizione di tecniche di clustering basate su affinita' e corrispondenze
semantiche per sorgenti di dati semistrutturati e selezione interattiva
di cluster di candidati all'integrazione da cui derivare viste riconciliate
mediante opportune regole definite. Definizione del linguaggio fuzzy
per l'interrogazione di viste riconciliate. Definizione di una metodologia
per la costruzione semi-automatica di viste riconciliate basata su
affinita' e clustering e definizione delle specifiche funzionali del
prototipo dell'ambiente di supporto relativo: tali attivita' saranno
svolte anche in stretta collaborazione le altre unita' coinvolte.
Definizione di uno specifico livello del meta-data repository dedicato
a contenere regole di integrazione/unificazione in un verso e mapping/trasformazione
nel verso opposto per la derivazione, rispettivamente, del processo
di integrazione e delle corrispondenze tra viste riconciliate e candidati
nei cluster delle sorgenti di partenza.
Fase 3 (durata
8 mesi -
dal 1/12/2001 al 31/7/2002)
Realizzazione di un prototipo di strumento di ausilio al progettista
per la costruzione di viste riconciliate di sorgenti eterogenee e
semistrutturate basato sulle tecniche di affinita' e clustering e
sull'architettura funzionale definite nella fase 2. Collaborazione
alla realizzazione del meta-data repository per gli aspetti relativi
alla costruzione di viste riconciliate con affinita' e clustering.
Fase 4 (durata
4 mesi
- dal 1/8/2002 al 30/11/2002)
Completamento dell'implementazione del prototipo sviluppato nella
fase 3 e effettuazione di sperimentazione e validazione della metodologia
e dello strumento su casi applicativi individuati nell'ambito del
progetto anche in collaborazione con Telecom Italia.
Prodotti dell'Unità
di Ricerca
La cifra dopo la D indica il tema
di ricerca di riferimento per il prodotto (se è 0 il risultato
è comune a tutti i temi). La lettera successiva indica il tipo
del documento (sigla R: rapporto tecnico, sigla P: prototipo software).
La lista tra parentesi indica le unità coinvolte nella produzione
del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma).
In grassetto è
evidenziata l'unità
responsabile per ciascun prodotto.
Al
termine della Fase 1 (scadenza
il 31 marzo 2001)
D0.R1:
Specifiche per il meta-data repository (RM,BO,CS,MI,MO).
D1.R1:
Metodi e tecniche di estrazione, rappresentazione ed integrazione
di sorgenti strutturate e semi-strutturate eterogenee (CS,BO,RM,MI,MO).
D1.R2:
Utilizzo di ontologie e proprieta' inter-schema di tipo estensionale
(MO,MI).
Al
termine della Fase 2
(scadenza il 30 novembre 2001)
D0.R2: Specifica della architettura funzionale del repository di meta-dati
(RM,BO,CS,MI,MO).
D1.R6:
Descrizione della metodologia di integrazione di sorgenti fortemente
eterogenee (MI,BO,MO).
D1.R7:
Architettura funzionale di un ambiente di ausilio al progettista per
la costruzione di viste riconciliate di sorgenti fortemente eterogenee
basato sulle tecniche sviluppate (CS,MI,MO).
D1.R10:
Descrizione del linguaggio fuzzy per l'interrogazione di viste riconciliate
(MI).
Al
termine della Fase 3 (scadenza
il 31 luglio 2002)
D0.P1: Repository di meta-dati (BO,CS,MI,MO,RM).
D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione
di viste globali riconciliate basato su valutazione di affinita' e
clustering interattivo (MI).
Al
termine della Fase 4 (scadenza
il 30 dicembre 2002)
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi
per l'integrazione (BO,CS,MI,MO,RM).