Maarten Breddels e Jovan Veljanoski, astronomi dell’Università di Groningen (NL), hanno sviluppato una libreria software in grado di generare facilmente visualizzazioni basate su centinaia di milioni di punti dati. Inizialmente, i due ricercatori hanno sviluppato il loro software per gestire l’enorme mole di dati osservativi provenienti dalla missione Gaia dell’Esa. Tuttavia, esso può anche funzionare in altri contesti che lavorano con grandi database. Ad esempio, utilizzando un set di dati costituito da 1 miliardo di voci relative ai taxi della compagnia Yellow Cab a New York City, il software mostra quali taxi sono i più redditizi e dove questi dovrebbero attendere clienti in un qualunque momento della giornata per massimizzare i loro profitti, chiarendone il possibile interesse per applicazioni esterne all’astronomia.
Breddels e Veljanoski hanno chiamato il loro software vaex, Visualisation and exploration, cioè visualizzazione ed esplorazione (di grandi set di dati tabulari). È open source e gratuito. I ricercatori ne spiegano i dettagli in un articolo recentemente accettato per la pubblicazione nella rivista Astronomy & Astrophysics.
Vaex può generare visualizzazioni di miliardi di punti dati in un solo secondo, rendendolo così interattivo. Si comporta infatti in modo simile a Google Maps: quando si esegue la panoramica o lo zoom è necessario attendere pochissimo tempo per visualizzare una mappa aggiornata o più dettagliata. La grande differenza è che Maps funziona grazie a server veloci e potenti, mentre Vaex funziona su un computer portatile.
La potenza di vaex risiede nella combinazione di diverse tecniche smart. Innanzitutto, utilizza un algoritmo intelligente che massimizza tutta la potenza di calcolo disponibile; quindi, legge solo i dati richiesti dal disco rigido e li invia direttamente alla memoria principale del computer. Inoltre è estremamente efficiente in termini di memoria, poiché quella utilizzata non trattiene copie non necessarie dei dati.
Abbiamo chiesto un parere su Vaex a Luciano Nicastro, ricercatore dell’Oas Bologna, esperto di progettazione di grandi database astronomici. «Sembra poter fare tutto spendendo poco, ma poi forse niente in modo eccelso. Con qualche eccezione. Da notare il fatto che sono in corso sviluppi ulteriori, ad esempio per l’uso in parallelo su cluster di PC e l’applicazione in ambito Machine Learning», commenta Nicastro a Media Inaf. «La libreria è interessante per il fatto che mette insieme i diversi aspetti della gestione e utilizzo dei grandi archivi di dati tabulari: dalla strutturazione ad albero e mappatura in memoria, all’accesso per colonne, alla loro visualizzazione e in parte analisi. Tutto questo senza l’utilizzo di database e usando in modo diligente tutte le risorse dei moderni PC». Inoltre, «pur essendo una libreria generalista per l’esplorazione di dati tabulari, ha un occhio di riguardo per i dati astronomici».
Infine, aggiunge Nicastro, «è sostanzialmente codice Python; certamente molto usato e apprezzato dalle varie comunità scientifiche, ma non certo il top per efficacia. La sua forza è anche la sua debolezza: include o dipende da tante altre librerie e pacchetti, alcuni dei quali non sono utilizzabili su qualsiasi laptop o PC».
Per saperne di più:
- Leggi il preprint dell’articolo in uscita su Astronomy & Astrophysics “Vaex: Big Data exploration in the era of Gaia“, di Maarten A. Breddels e Jovan Veljanoski.