Relazioni del
Coordinatore Scientifico
modelloA - Relazione annuale (primo anno
di attività)
modelloD
- Rendiconto del programma di ricerca
Obiettivi del
Programma di Ricerca
Gli sviluppi dell'informatica e delle telecomunicazioni hanno
reso disponibile l'accesso ad un numero sempre piu' vasto di banche
dati strutturate e semistrutturate, create in tempi diversi, su sistemi
diversi e con criteri organizzativi diversi. Senza l'applicazione
di opportuni metodi, gli utenti hanno a disposizione grandi quantita'
di dati, ma trovano inevitabili difficolta' nel sintetizzare l'informazione
utile ai propri scopi. Risulta quindi importante ricercare nuove metodologie
per l'integrazione di sorgenti eterogenee di dati, per il progetto
di basi di dati destinate all'analisi in linea di dati di sintesi
(data warehouse), e per la scoperta di nuovi collegamenti e proprieta'
non facilmente intuibili all'interno di una sorgente o di sorgenti
diversi (data mining). L'obiettivo del progetto e' la definizione
di un quadro metodologico generale per l'integrazione, il warehousing
e il mining di sorgenti eterogenee (D2I: From Data to Information),
e lo sviluppo di metodi e strumenti specifici per i tre temi:
Tema 1: integrazione di dati provenienti da sorgenti eterogenee
Tema 2: progettazione e interrogazione di data warehouse
Tema 3: data mining.
La problematica trattata riveste grande importanza applicativa
e industriale, specialmente in relazione alla opportunita' di estrarre
informazione di rilevanza direzionale e strategica dai dati del livello
operativo delle imprese. I temi del progetto sono infatti centrali
per la componente di data management nei sistemi di Enterprise Knowledge
Management e di Enterprise Resource Planning. Le unita' partecipanti
sono 5, con 30 professori e ricercatori coinvolti, e con 16 dottorandi
e borsisti. Le idee alla base della proposta sono state maturate in
occasione della partecipazione a progetti europei ed italiani, in
particolare Esprit DWQ e INTERDATA, finanziati rispettivamente dall'UE
e dal MURST nel 1997. Il coordinamento si avvarra' della collaborazione
di un coordinatore per ciascuno dei temi, assicurando cosi' un monitoraggio
ed una interazione continua tra le unita'. I metodi e gli strumenti
proposti saranno sperimentati e validati attraverso una collaborazione
con Telecom Italia (Divisione di Data Administration, Data Warehouse,
Data Mining. Direttore: Ing. Stefano Trisolini), in particolare per
quanto riguarda l'analisi dei dati relativi al traffico telefonico
e al customer care. L'Ing. Trisolini ha assicurato formalmente la
collaborazione al progetto. Oltre all'obiettivo generale di un quadro
metodologico complessivo, che produrra' anche la definizione e la
realizzazione di uno strumento per la gestione dei meta-dati rilevanti
rispetto alle attivita' di integrazione, warehousing e mining, gli
obiettivi specifici dei tre temi vengono illustrati di seguito.
TEMA 1: L'obiettivo è lo sviluppo di metodi e strumenti per
l'integrazione di dati provenienti da sorgenti fortemente e strutturalmente
eterogenee, ossia da sorgenti di tipo strutturato (ad es., basi di
dati), o semistrutturato (ad es., documenti HTML e XML). I metodi
di rappresentazione dei dati presenti nelle sorgenti devono tenere
conto di sorgenti semistrutturate, e di possibile coesistenza di versioni
diverse dei dati. Si deve poi tenere conto che la scoperta di proprietà
inter-schema è cruciale per caratterizzare le relazioni semantiche
tra dati in diverse sorgenti, ed è complicata dal fatto che le informazioni
semantiche sulle sorgenti stesse sono spesso implicite. Infine, il
processo che conduce alla risposta ad interrogazioni poste in termini
di viste globali pone problemi sia per la suddivisione della query
in sottoquery, sia per la ricostruzione della risposta. I principali
risultati che si intendono perseguire riguardano la definizione di
una metodologia di integrazione di sorgenti fortemente eterogenee,
la definizione di tecniche semiautomatiche di clustering di sorgenti
basate su proprieta' di affinita' e corrispondenze semantiche, la
progettazione di algoritmi per la riscrittura di interrogazioni su
viste globali in termini di interrogazioni sulle sorgenti, la definizione
di metodi per la gestione di versioni diverse delle sorgenti, la caratterizzazione
di opportuni parametri per descrivere la qualità dei dati, e di tecniche
per la riconciliazione di dati provienti da sorgenti diverse, la progettazione
e la realizzazione di un ambiente che supporti l'attivita' d'integrazione,
basato sulla gestione di meta-dati.
TEMA 2: Nella letteratura sono state proposte diverse architetture
per data warehouse e varie metodologie di progettazione a queste associate.
Le architetture possono essere classificate in architetture ad uno,
due o tre livelli. In un'architettura dell'ultimo tipo, i tre livelli
memorizzano i dati operazionali, riconciliati e derivati. Il livello
dei dati riconciliati viene gestito tramite tecniche di integrazione,
oggetto del tema 1. Nel contesto data warehouse, si pongono nuove
e complesse problematiche relative sia alla progettazione che all'interrogazione
dei dati. Obiettivo del tema è lo sviluppo di tecniche per la progettazione
e l'interrogazione efficiente di data warehouse, con particolare riferimento
al livello dei dati derivati, sia dal punto di vista logico che fisico.
Ci si propone di definire tecniche efficaci per la materializzazione
di viste in presenza di un carico di lavoro complesso, e per l'individuazione
di un insieme ottimale di indici per l'accesso veloce ai dati. Il
problema della interrogazione efficiente di data warehouse sarà affrontato
principalmente come problema di riscrittura di interrogazioni su viste
materializzate. I risultati che si intendono perseguire in questo
contesto riguardano la definizione di tecniche di ottimizzazione,
basate sulla struttura delle interrogazioni, che estendono metodi
già esistenti in maniera da tenere conto delle specificità dell'ambiente
data warehouse.
TEMA 3: L'obiettivo e` l'estrazione di informazioni da grandi
quantita` di dati, nota con il termine "data mining". La ricerca operera`
in numerose direzioni con lo scopo di trattare gli aspetti piu` rilevanti
e a tutt'oggi meno esplorati. Verranno trattati vari tipi di dati,
da quelli strutturati, tipici dei sistemi di basi di dati, a quelli
multimediali (quali DB di immagini). La conoscenza estratta sara`
di diversi tipi, dall'informazione sui raggruppamenti di oggetti (clustering),
al meta-querying, che cerca pattern complessi all'interno dei dati
con tecniche di tipo logico. Particolare cura sara` dedicata agli
aspetti di visualizzazione dell'informazione estratta e di adattabilita`
a vari tipi di utenti, nella convinzione che la forma di presentazione
e l'interazione con l'utente siano esse stesse fattori critici per
l'efficacia del processo di estrazione e la fruibilita` dell'informazione.
Per quanto riguarda i metodi di estrazione, verranno considerate le
problematiche che sorgono quando la sorgente di dati e` un data warehouse.
In questo caso, sorge spesso la necessita` di effettuare elaborazioni
incrementali, poiche' i dati vengono consolidati periodicamente, ed
e' importante evitare la ripetizione di attivita` molto onerose dal
punto di vista computazionale, come ad esempio il clustering. I principali
risultati che si intende produrre riguardano: algoritmi di clustering
incrementale, paradigmi per query di similarita`, inclusi quelli con
approssimazione, formalizzazione degli indicatori in grado di quantificare
il compromesso "qualita` vs costo", strategie di ausilio per permettere
all'utente di formulare facilmente un piano per la scoperta di informazioni
nascoste, primitive per la creazione semiautomatica di visualizzazioni,
caratterizzazione computazionale di varianti di meta-querying di interesse
applicativo, algoritmi efficienti per il meta-querying. Il livello
dei meta-dati, cui fanno riferimento i temi 1 e 2, costituira' il
punto di riferimento sia per i dati di input alle attivita' di mining,
sia per la rappresentazione delle proprieta' estratte dal mining.