Research Unit Leader
Obiettivi
L’obiettivo di questa macro-attività della divisione ASC riguarda la progettazione e l’implementazione di soluzioni open source efficienti per l’accesso, l’analisi e il mining di dati scientifici nel dominio del climate change. In particolare, le attività si focalizzano sulla gestione di dati distribuiti su scala globale nell’ambito dell’iniziativa internazionale ESGF (Earth System Grid Federation), la gestione di banche dati applicata a dati scientifici con l’obiettivo di identificare nuovi modelli di storage ed efficienti librerie parallele di I/O, il knowledge discovery from data, ovvero l’analisi e il mining di dati scientifici con la finalità di estrarre nuova conoscenza da grandi volumi di dati.
Attività
- Gestione distribuita di dati scientifici su scala geografica
Questa attività è fortemente integrata con altre macro-attività di ASC e le altre divisioni del CMCC. Lo scopo principale è la gestione distribuita di grandi volumi di dati su scala geografica rispettando requisiti di trasparenza, sicurezza ed efficienza. In particolare, l’attività si focalizza sulla gestione di dati distribuiti su scala globale nell’ambito dell’iniziativa internazionale ESGF (Earth System Grid Federation) mediante estensioni del componente data node inerenti il sistema di monitoraggio distribuito proattivo previsto nell’architettura del sistema.
- Storage models e I/O parallelo applicato a dati scientifici
Questa attività è finalizzata allo studio e alla progettazione di innovativi storage models relativi ai dati scientifici nel contesto climate change, con particolare riferimento al formato di dati NetCDF. Attraverso la definizione di questi nuovi modelli di storage per la gestione dei dati climatici (da implementare su piattaforma HPC e tramite l’adozione di paradigmi paralleli quali MPI ed OpenMP), l’attività di ricerca punta ad ottimizzare l’efficienza nell’accesso ai dati (definendo nuove primitive di l’I/O), nonché quella relativa all’occupazione dello spazio disco.
- Knowledge Discovery from Data (KDD) applicato a dati scientifici
Questa attività è finalizzata all’analisi di dati scientifici con l’obiettivo di estrarre conoscenza a partire da grandi volumi di dati. Sulla base delle primitive di accesso definite al precedente punto “Storage models e I/O parallelo applicato a dati scientifici”, questa attività si occupa della definizione e implementazione di nuove interfacce (operatori) di analisi (per la manipolazione dei dati) e mining (per l’estrazione della conoscenza) applicate a dati multidimensionali nel contesto climate change. La progettazione della piattaforma di KDD tiene in forte considerazione l’evoluzione dell’architettura ESGF per studiare importanti convergenze e integrazioni.

