UNIVERSO ‘DATA SCIENCE’: DALLA RICERCA ALLA DIDATTICA E OLTRE

Tra scienza e dati con il Rubin Observatory

Procede in Cile la costruzione del Vera Rubin Observatory, che tra un paio di anni inizierà a scandagliare il cielo per cercare una risposta ad alcuni tra i più pressanti quesiti dell’astrofisica. Per saperne di più, abbiamo intervistato Federica Bianco, ricercatrice presso l’Università del Delaware e coordinatrice dei diversi gruppi scientifici coinvolti nel progetto, che insegna data science negli Stati Uniti e ha recentemente tenuto un corso anche in Italia

     28/05/2021

L’installazione della parte superiore della montatura del telescopio al Vera Rubin Observatory lo scorso marzo. Crediti: Rubin Obs/Nsf/Aura

Anche se rallentati dalla pandemia, continuano i lavori del Vera C. Rubin Observatory, facility astronomica statunitense attualmente in costruzione nel Cile centro-settentrionale, sulla cresta del Cerro Pachón, ai piedi delle Ande. L’osservatorio, che sarà dotato di un telescopio da 8,4 metri e una fotocamera digitale di circa 3,2 gigapixella più grande al mondo – ha visto nel mese di febbraio una serie di attività incentrate intorno al rivestimento della cupola. È andato avanti anche l’assemblaggio della montatura del telescopio, culminato all’inizio di marzo con l’installazione della sua parte superiore, che pesa circa 28 tonnellate ed è stata calata attraverso la cupola mediante una gigantesca gru da 500 tonnellate.

Da qualche settimana, l’osservatorio dispone di un carroponte permanente e operativo da 18 tonnellate nella cupola: servirà per continuare l’assemblaggio del telescopio e l’integrazione del sistema durante la costruzione, oltre a facilitare la manutenzione e le riparazioni durante le operazioni. Nel frattempo, anche la fotocamera digitale sta prendendo forma, con l’arrivo del primo di sei filtri in marzo – gli altri sono attesi prossimamente – allo Slac National Accelerator Laboratory, dove sarà sottoposta a una serie di test per verificarne le prestazioni ottiche.

Una volta pronto, tra un paio di anni si stima, il Rubin Observatory realizzerà una survey astronomica mai prodotta finora in termini di area del cielo coperta e cadenza delle osservazioni, per poter affrontare molteplici obiettivi scientifici: dalla composizione del Sistema solare a quella della nostra galassia, la Via Lattea, fino alla natura stessa del cosmo e delle sue componenti più misteriose – materia ed energia oscura.

Per parlare in dettaglio del progetto e delle sfide che pone, sia dal punto scientifico che per quanto riguarda la mole di dati generati, Media Inaf ha raggiunto negli Stati Uniti, dove vive, l’astrofisica Federica Bianco, coordinatrice delle collaborazioni scientifiche della Legacy Survey of Space and Time (Lsst), il fantasmagorico censimento cosmico che sarà effettuato dall’osservatorio.

La ricercatrice Federica Bianco. Crediti: Terrence Hamilton

Originaria di Genova, laurea in astronomia all’Università di Bologna e dottorato presso la University of Pennsylvania, Bianco è assistant professor all’Università del Delaware, dove divide il suo tempo tra i dipartimenti di fisica e astronomia e la School of Public Policy and Administration. Esperta di data science, è resident faculty del Data Science Institute. Nell’anno accademico 2020-2021, è anche una dei tre visiting professor internazionali presso il Dipartimento di Scienze Matematiche, Fisiche e Informatiche dell’Università di Parma, dove ha da poco concluso un corso di ‘Machine learning for physics and natural scientists’ per studenti di laurea magistrale in Fisica.

Da quanto tempo non rientrava in Italia e come è stato farlo in questo periodo assolutamente peculiare?

«Non venivo in Italia dal Natale 2019, a causa del covid, e purtroppo sono arrivata appena prima della chiusura: ho fatto due settimane in isolamento in montagna (fortunatamente la mia famiglia ha una casa in una località remota nell’Appennino, a Capannette di Pej) e il giorno stesso che sono uscita dalla quarantena è iniziato il lockdown [a marzo 2021 – ndr]. Sono stata a Parma per tre settimane, ma comunque con l’Università chiusa e insegnando online. Pero essere in Italia e sempre bello, anche così!

Di solito vengo una o due volte all’anno, per vedere la mia famiglia e anche per le collaborazioni tra Rubin Observatory e la comunità italiana, incluso l’Inaf. Negli ultimi due anni sono stata a Napoli, a Palermo, e poi stavamo organizzando un incontro Rubin per la comunità astronomica europea a Roma nell’estate 2020. È stato rimandato, speriamo che si riesca a organizzare nel 2021 e speriamo di persona».

Parliamo del Rubin Observatory: qual è il suo ruolo in questo progetto?

«Il Vera Rubin Observatory è un progetto sponsorizzato da National Science Foundation e US Department of Energy in collaborazione con il Cile per costruire un telescopio dedicato specificamente a realizzare una survey astronomica. Nell’ambito di questo progetto, da cinque anni sono co-chair della collaborazione che si occupa di fenomeni transienti e stelle variabili, e da circa due anni e mezzo sono Lsst Science collaborations coordinator, quindi coordino le otto collaborazioni scientifiche che si occupano della survey».

Cosa ci può dire sullo stato del progetto?

«La costruzione, iniziata già da alcuni anni, è quasi terminata nonostante i ritardi dovuti al covid. Ci aspettiamo che la survey inizi verso la fine del 2023, quindi con un anno di ritardo rispetto al previsto».

Cerchiamo di fare chiarezza sui nomi. Si parla a volte di Rubin Observatory, altre volte di Lsst. Qual è la differenza?

Il Rubin Observatory al tramonto ad aprile. Crediti: Rubin Obs/Nsf/Aura

«Rubin Observatory si riferisce alla facility, l’osservatorio e l’organizzazione che condurrà la survey. È un’organizzazione grande e complessa, con circa 200 persone tra chi sta lavorando alla costruzione e lavorerà alle operazioni. Nei primi 10 anni, l’osservatorio sarà interamente dedicato a realizzare la Legacy Survey of Space and Time. E poi ci sono le Lsst Science collaborations: 8 gruppi che coprono diversi ambiti dell’astrofisica, fondati 15 anni fa, ancora prima della nascita del progetto. Sono indipendenti dall’osservatorio, come se fossero 8 gruppi di “volontari” che credono nella survey e che aiutano l’osservatorio affinché possa produrre scienza davvero rivoluzionaria. Si tratta di circa 2000 persone, oltre 20 paesi su 5 continenti.

Per quanto riguarda il nome, il progetto è intitolato a Vera Rubin, una delle prime donne a ottenere un dottorato in astrofisica negli Stati Uniti. È stata una vera pioniera, una delle figure principali della comunità astronomica americana: ha dimostrato l’esistenza della materia oscura a partire dal moto delle stelle all’interno delle galassie, poiché la loro velocità non diminuisce come ci si aspetta, e quindi deve esserci qualcosa che non vediamo che contribuisce all’attrazione gravitazionale».

Quindi il nome dell’osservatorio è… ?

«Il nome è Vera C. Rubin Observatory. È il primo osservatorio terrestre nazionale dedicato a una donna, tutta l’organizzazione ne è molto fiera e per questo vogliamo usare veramente la parola Rubin ed evitare abbreviazioni (come per esempio Vro) perché vogliamo dire il nome di Vera in tutte le occasioni possibili per riconoscere la sua importanza nella storia dell’astronomia e l’importanza della scelta di questo nome. Quindi ci si riferisce all’osservatorio come Rubin, il che del resto non è una cosa nuova: facciamo così anche per osservatori come il Keck e Gemini, per esempio, nessuno usa l’abbreviazione. La survey invece ha conservato l’acronimo Lsst [con un nuovo significato rispetto al nome originale del progetto, che era Large Synoptic Survey Telescope – ndr] che però non si riferisce più all’intero progetto ma solo alla survey che è al cuore del progetto».

Qual è l’obiettivo del Rubin Observatory e cosa lo distingue dagli altri grandi progetti in corso?

«Ci sono due modi di pianificare una survey astrofisica: uno è quello di affrontare un singolo obiettivo o un numero ristretto di obiettivi in modo molto specifico, e l’altro è di creare una survey versatile per esplorare molti obiettivi scientifici allo stesso tempo. Come a me piace descriverlo, Lsst non è né l’uno né l’altro: è una survey che cerca di affrontare un numero veramente grande di obiettivi scientifici e tutti in maniera rivoluzionaria. Per farlo, la survey è synoptic, ovvero osserva tutto il cielo visibile dal Cile; inoltre sarà la survey più profonda che si possa ottenere con un telescopio da terra, fino a magnitudine 27 [in confronto, le stelle più fioche che possiamo vedere a occhio nudo da luoghi senza inquinamento luminoso hanno una magnitudine pari a 6 – ndr], e ripeterà le osservazioni un grandissimo numero di volte.

La cupola aperta del Rubin Observatory durante i lavori, nell’aprile 2021. Crediti: Rubin Obs/Nsf/Aura

Per affrontare tanti obiettivi scientifici allo stesso tempo, l’osservatorio ha bisogno di un telescopio grande con un disegno ottico rivoluzionario, che abbia un grande campo di vista e allo stesso tempo anche altissima risoluzione, e una fotocamera davvero all’avanguardia – ha le dimensioni di una macchina – per ottenere le immagini con la qualità necessaria. Così si potrà osservare tutto il cielo dell’emisfero meridionale ogni circa 3 giorni, registrando la forma, colore e variabilità nel tempo per milioni, miliardi di oggetti celesti: un numero 10 volte maggiore rispetto alle survey precedenti».

Una quantità di oggetti celesti enorme, e certamente anche una grande varietà. Quali sono tra questi gli oggetti a cui lei è più interessata e che studierà con questa survey?

«Io lavoro molto sulla metodologia e gli aspetti tecnici dell’astronomia “time-domain”, quindi mi interessano tutti i fenomeni che cambiano su scale temporali comparabili con quelle umane, e forse è per questo che sono diventata Science collaborations coordinator della Lsst Collaboration.

Recentemente mi sono occupata molto di supernove, esplosioni stellari, in particolare i tipi più insoliti, non le supernove di tipo Ia che sono tra le più studiate perché servono anche a misurare l’espansione dell’universo. La motivazione per studiare la supernove è cercare di capire che tipi di stelle portano a queste esplosioni, quali sono i meccanismi, la fisica che c’è dietro, e come questi fenomeni arricchiscono il mezzo interstellare di molecole e gas che poi vanno a formare nuove stelle. Probabilmente la cosa più entusiasmante che Lsst promette di fare è la scoperta di fenomeni interamente nuovi, compresi quelli che variano nel tempo: esplosioni, eruzioni e cose che non abbiamo ancora immaginato perché non le abbiamo ancora osservate e non abbiamo ancora sviluppato teorie che le possano predire».

Si parla di milioni, miliardi di oggetti, osservati ripetutamente ogni notte. Questo deve generare una mole di dati fantasmagorica. Di che ordine di grandezza si parla?

«L’osservatorio raccoglierà 20 terabyte di dati a notte: dieci volte di più di qualunque survey precedente. Otterrà un’immagine ogni 30 secondi, quindi circa 1000 immagini a notte. Sono immagini enormi: se con il telescopio spaziale Hubble ci vogliono circa 200 immagini per coprire la Luna piena, ogni immagine del Rubin sarà abbastanza grande da contenere tra 40 e 50 volte la Luna. Ma avrà anche altissima risoluzione, 0,2 secondi d’arco, che da terra è davvero il massimo. Per visualizzare una singola immagine a completa risoluzione occorrono 378 schermi televisivi 4k a ultra-high definition. Non sarebbe un’esagerazione incredibile dire che, dopo i primi 10 anni, avremo una collezione di immagini di qualità comparabile a quelle di Hubble ma per tutto il cielo meridionale».

E come saranno distribuiti questi dati?

«I dati della survey saranno distribuiti tramite risorse computazionali dedicate. L’accesso è aperto a chiunque sia affiliato a organizzazioni di ricerca negli Stati Uniti e in Cile. Per chi si trova in altri paesi, l’accesso ai dati viene offerto in cambio di quello che chiamiamo “in-kind contribution”: per esempio risorse (telescopi o di computazione) a cui gli Stati Uniti non hanno accesso, oppure personale che può ridurre i dati. Sono principalmente le science collaboration che stanno costruendo l’infrastruttura tra i dati grezzi e la scienza. Anche l’Italia sta negoziando un contributo in cambio dell’accesso ai dati per la comunità astronomica italiana».

Data l’impressionante mole di dati che raccoglierà l’osservatorio, quali sono le sfide più grandi che riguardano l’infrastruttura dedicata alla distribuzione e analisi dati?

Immagine simulata ottenuta con uno dei 189 ccd da 4k x 4k pixel del telescopio del Rubin Observatory. L’immagine copre 13 minuti d’arco (circa metà del diametro apparente della Luna piena in cielo) su ciascun lato. Crediti: Rubin Observatory/Nsf/Aura

«È una questione molto complessa che richiede grandi innovazioni sia computazionali che tecnologiche. Uno degli aspetti che è diventato immediatamente ovvio è che non si può lavorare sui dati della survey in modo tradizionale: prendendo i dati, caricandoli sul proprio computer o su un cluster e poi analizzarli “localmente”. Per facilitare l’uso dei dati, Rubin offrirà il 10 per cento delle proprie risorse computazionali online – quindi risorse di cloud – alla comunità scientifica: invece di “portare” i dati dall’osservatorio alla propria pipeline di analisi, ciascuno porterà la propria pipeline all’osservatorio.

È un modo non completamente nuovo di fare scienza ma comunque diverso da quello a cui siamo abituati, quindi bisogna assicurarsi che la comunità sia preparata prima dell’inizio della survey. Per questo motivo, per esempio, Rubin sta preparando una data preview basata su dati simulati, sia per testare le pipeline costruite dall’osservatorio stesso che per permettere alla comunità di allenarsi. Siamo impegnati, in particolare nelle science collaboration, a cercare di capire come lavorare con questo volume e questa qualità di dati e come adattare modelli, algoritmi e metodologie esistenti a una quantità di dati molto maggiore e regioni dell’universo in cui non si è mai lavorato».

Questo lavoro metodologico sui dati si collega anche alla sua attività accademica e all’insegnamento di data science. Ce ne può parlare?

«Sì, dunque, io insegno data science praticamente a tutti: la mia posizione all’università è divisa tra fisica e public policy, e ho lavorato in passato anche al Center for Urban Science and Progress della New York University. Il mio cammino didattico e di ricerca sono iniziati nell’astrofisica ma si sono allargati alla “scienza urbana”, intesa come la scienza delle città che, grazie al volume enorme di dati disponibili, studia le città come sistemi complessi. È un ambito interdisciplinare, e da lì mi sono occupata di public policy e poi addirittura di aspetti legati alla giustizia penale. La relazione con l’astrofisica è nata con il concetto di ‘urban observatory’ in cui collezionare immagini della città e studiarne le luci come si studia la luce che arriva dall’universo, per stimare il consumo di energia, i ritmi biologici degli abitanti della città, eccetera. Così il mio portfolio di ricerca e insegnamento è cresciuto e comprende diversi aspetti di metodologia applicata ai dati».

Dalle stelle alle città… beh, effettivamente guardando un’immagine della Terra dallo spazio di notte, non è poi così difficile immaginare questo salto verso applicazioni prettamente “terrestri” delle tecniche usate in astrofisica. Cosa insegna adesso?

«Ora insegno una delle cose che trovo più stimolanti: data science all’interno di una scuola di public policy. Quindi cerchiamo di riempire il divario tra i policy maker, le persone che sono responsabili di creare le policy che governano e garantiscono la qualità della vita, e la tecnologia che cresce inesorabilmente e, se non è capita dai policy maker, diventa molto problematico regolare.

Ci sono molteplici implicazioni etiche dello sviluppo tecnologico: come astrofisici moderni siamo molto dipendenti dai dati e dalla loro crescita, e quindi siamo coinvolti nell’applicazione e sviluppo di metodologie che non si applicano solo all’astrofisica. Una frazione significativa di astrofisici diventa data scientists, sviluppando metodologie e modelli per la riduzione di dati e immagini che poi vengono usati dall’intera comunità che sviluppa tecnologie. Quando ci riconosciamo come data scientist possiamo vedere tutte le implicazioni etiche del nostro lavoro e delle nostre scoperte, che possono avere un impatto sulla vita delle persone, il che poi è vero per tutta la tecnologia, non solo per data science».

Le implicazioni etiche dell’uso dei dati sono sempre più presenti nel dibattito mainstream sulle nuove tecnologie quali machine learning e intelligenza artificiale e sulle grandi aziende che dominano questo settore. A che punto è la discussione nella comunità scientifica?

«C’è discussione nella comunità scientifica in generale, nella comunità di data science nell’industria poi la discussione è vivissima e complicatissima. Nell’ultimo anno in particolare, a causa del “racial reckoning” negli Stati Uniti, un sacco di aspetti dubbi dei modelli di data science sono venuti in superficie, nel senso che adesso sono noti al grande pubblico, ma in realtà nella comunità di data science se ne discuteva già da diversi anni, in particolare le applicazioni alla giustizia penale e alla sfera legale e giuridica».

In che senso?

L’infrastruttura di calcolo In2p3 del Cnrs in Francia, uno dei centri che saranno responsabili dell’elaborazione e stoccaggio dati del Rubin Observatory. Crediti: Cc-In2p3

«Al cuore del problema c’è l’automatismo: all’inizio della “data science revolution” la maggior parte delle persone hanno pensato che questo potesse essere un modo effettivo di combattere i giudizi parziali. C’era questo miraggio che la data science potesse automatizzare le decisioni e quindi ridurre il bias e la soggettività. In realtà ciò non è di per sé vero perché, quando crei un algoritmo di automazione, da una parte corri il rischio di indurre i tuoi bias impliciti nella costruzione dell’algoritmo, e dall’altra – questo è al centro della discussione, anche se non è secondo me l’unico aspetto importante – abbiamo sviluppato un portfolio di modelli e algoritmi che funzionano sulla base di esempi.

Quindi automatizzano nel senso che prendono un esempio e lo espandono su un set di dati più grande, ma imparano dall’esempio, e se gli esempi che forniamo all’algoritmo erano basati su decisioni parziali, non oggettive, quello che facciamo è importare e amplificare questi bias. Se veramente vogliamo automatizzare, quali sono gli esempi che forniamo al modello? Quelli reali, con tutti i bias della società? Oppure quelli di una società idealizzata? Ma chi decide come definire la società utopistica? Non mi pare che siamo tutti d’accordo su questo».

Parliamo del corso che ha tenuto recentemente all’Università di Parma. Che differenze ha riscontrato nel confronto con gli studenti e le studentesse italiane?

«I corsi in Usa sono gestiti in modo piuttosto diverso dall’Italia: tendono ad essere molto più interattivi e partecipativi. In Italia si fanno lezioni più tradizionali: il Professore parla e gli studenti ascoltano. Però è ben più noioso per me come istruttore farle così! Perciò ho cercato di “importare” le modalità alle quali sono abituata: interrompendo spesso per fare domande agli studenti e mettendo gli studenti in gruppi a lavorare e scrivere codici per l’analisi dei dati sul momento. Credo che ciò sia fondamentale per imparare il machine learning e la data science: altrimenti si imparano solo norme teoriche che poi hanno limitata applicazione. Direi che c’è voluto un po’ ad abituarsi ma ha funzionato alla fine. Ora sto facendo gli esami orali e devo dire gli studenti sono tutti molto bravi. L’unica cosa difficile è stato il fatto che, una volta tornata in Usa, la lezione era alle 7:30 di mattina per me!».

Il suo è un portfolio davvero vasto: astrofisica e data science, sia dal punto di vista operativo che didattico, comprese applicazioni alla società in senso davvero ampio. Ma lei è famosa anche per un’altra attività forse ancora più sorprendente: il pugilato, dove è nota come “The Mad Scientist”. Come è successo?

«Sono pugile da ormai 10 anni e da 4 anni combatto a livello professionale, anche se quest’ultimo anno con la pandemia ho fatto ben poco. Un’avventura incredibile che mi ha offerto l’opportunità di mantenere un contatto con una realtà al di fuori dell’élite intellettuale che lavora nell’astrofisica. Nell’ambiente accademico è facile perdere il contatto con la vita di persone che vivono in modo molto diverso e fanno lavori molto diversi dai nostri».

Cosa ha imparato un’astrofisica come lei da questa esperienza?

«Il pugilato è un altro campo dominato dagli uomini, dove le donne sono emerse come protagoniste solo molto recentemente. Mi sembra di essere attratta da queste sfide per dimostrare che si può, che queste barriere di divisione, specie quelle tra i generi, sono artificiali e si possono abbattere. Dal punto di vista personale è stato un viaggio che mi ha fatto diventare molto più sicura di me e indipendente, poiché richiede davvero molta disciplina».

Continua ad allenarsi anche in questo periodo?

«Allenarsi da soli funziona solo fino a un certo punto, si può mantenere la forma fisica ma in realtà la boxe è un gioco davvero strategico, anche molto cerebrale, per capire e prevenire le mosse del tuo avversario. Tutto ciò è impossibile senza rischiare il contagio. Ci sono pochi eventi sportivi adesso, soprattutto quelli più remunerativi, mentre quelli più piccoli che venivano organizzati dappertutto e molto spesso non possono più avvenire perché non ci sono sponsorizzazioni televisive. Ma spero di poter tornare a combattere a livello agonistico prossimamente».


Guarda il servizio video sul Rubin Observatory di MediaInaf Tv: