ESPERIMENTO SUI PROPOSAL ARRIVATI A ESO DA OTTOBRE 2023 A MARZO 2024

Proposte osservative con ChatGpt: rischio o aiuto?

Valutare il potenziale effetto dirompente di trasformatori generativi come ChatGpt sul processo di assegnazione del tempo ai telescopi, sia nella revisione delle proposte che nella loro valutazione: è l’esperimento messo in piedi da alcuni astronomi dell’Eso riguardo l’uso dell’AI nella valutazione e scrittura delle proposte osservative. Ma la questione – spiega uno degli autori, Ferdinando Patat, in questa intervista – è ben più complessa e articolata

     14/08/2024

Scrivere una proposta per ottenere tempo osservativo a un telescopio: uno degli aspetti più competitivi e più complessi del lavoro dell’astronomo. Al contempo, però, fondamentale per avanzare nella ricerca. Per farlo occorrono buone idee, una vasta conoscenza della letteratura scientifica, originalità, capacità di sintesi ed efficacia nella scrittura. Le proposte osservative sono impegnative per chi le scrive e spera di ottenere un , ma anche per chi si trova a valutarle, dovendo scegliere fra molti a chi concedere il tempo prezioso degli strumenti. E se gli astronomi – quelli che scrivono, ma anche quelli che valutano – si facessero aiutare da software di intelligenza artificiale generativa come ChatGpt? Se lo stanno chiedendo allo European Southern Observatory (Eso), l’ente responsabile di un gran numero di telescopi europei in Cile, che si trova periodicamente a ricevere e valutare circa 1800 proposte osservative relative a sette telescopi ogni anno. Per rispondere, hanno messo in piedi una serie di simulazioni confrontando le performance e le risposte dell’intelligenza artificiale (AI) con quelle umane. Media Inaf ha raggiunto uno degli autori dello studio, Ferdinando (Nando) Patat, astronomo all’Eso a capo dell’Ufficio dei programmi di osservazione, che coordina la selezione dei progetti scientifici e l’allocazione del tempo al Very Large Telescope (Vlt), per sapere i dettagli.

Ferdinando Patat, originario di Udine, ha conseguito la laurea e il dottorato di ricerca in astronomia presso l’Università di Padova. Dal 1999 fa parte dello staff dello European Southern Observatory (Eso) a Garching, in Germania. Dal 2011 dirige l’Ufficio dei programmi di osservazione, che coordina la selezione dei progetti scientifici e l’allocazione del tempo al Very Large Telescope. Alla ricerca affianca un intenso lavoro di divulgazione, tenendo ogni anno numerose conferenze pubbliche e lezioni nelle scuole. Nel tempo libero collabora con musicisti, attori e scrittori per la promozione della scienza, partecipando a importanti manifestazioni come il Festival della Scienza di Genova e il Campus Party Europe a Berlino. Crediti: Ferdinando Patat/Eso

Il vostro articolo si presenta come una sorta di “messa in guardia” alla comunità scientifica che scrive e valuta le proposte osservative. Sottende un po’ di preoccupazione a riguardo?

«L’esperimento alla base del nostro studio è stato pensato come un primo passo verso una maggiore consapevolezza e l’inizio di una discussione seria sull’utilizzo di sistemi di AI nell’ambito della preparazione e della revisione delle proposte per i nostri telescopi. Più che dalla preoccupazione, è stato motivato da una genuina curiosità e dal desiderio di comprendere il fenomeno e i possibili benefici che questo può portare a Eso e alla comunità che questa organizzazione serve. Fra l’altro, credo che l’articolo, più che mettere in guardia, di fatto aumenterà l’utilizzo di questi nuovi strumenti della comunità, specie in quella fascia che ancora non li conosceva o che, se li conosceva, era diffidente. Se non altro desta la curiosità di provarli. Che è l’unico modo per farsi un’opinione di prima mano».

Esiste un modo per capire se le proposte che vi arrivano abbiano fatto uso di ChatGpt In altre parole, quando valutate i proposal riuscite a rendervene conto?

«La risposta breve è: no. I testi prodotti dai sistemi di intelligenza artificiale conversazionale seguono schemi predeterminati basati sui dati con cui sono stati addestrati. Tuttavia, i modelli di linguaggio sono sviluppati in modo tale da rendere le risposte il più simili possibile a quelle umane, rendendone quindi difficile, se non impossibile, il riconoscimento. Ci sono degli studi che mostrano come l’analisi testuale, ad esempio tramite il conteggio di parole raramente usate in un certo contesto, permetta perlomeno di sospettare che il testo sia stato sintetizzato da un sistema AI. Ciononostante, non si può trarre alcuna conclusione certa. A Eso abbiamo in mente di analizzare i testi dei proposal per capire se (e come) il lessico sia cambiato dopo la comparsa di sistemi come ChatGpt. Ma lo scopo non è quello di identificare i casi che hanno fatto uso di sistemi AI, quanto quello di studiare il fenomeno e aumentare la consapevolezza circa il suo utilizzo. La nostra motivazione principale è garantire che il processo sia equo, e vorremmo cercare di comprendere quale sia l’impatto dei sistemi di AI sulla qualità dei proposal e sul modo in cui vengono valutati».

Per quanto riguarda la revisione delle proposte, invece, l’uso di Chat Gpt è già affermato in alcune realtà? Qual è la posizione e la tendenza della comunità scientifica?

«Non che io sappia. Quello delle macchine che giudicano gli umani è un tema molto controverso che apre scenari abbastanza inquietanti, in cui non solo le proposte vengono scritte dai sistemi di AI, ma ne vengono pure giudicate. È chiaro che quella appena descritta è una situazione estrema, da cui siamo ancora lontani, ma certamente prima o poi dovremo farci i conti, e non solo nell’ambito scientifico, dove tutto sommato la posta in gioco è limitata. Anche se non abbiamo dei dati (e immagino sarà difficile ottenerne), sappiamo che ChatGpt viene usato ad esempio per fare riassunti di proposte, in modo da velocizzare il lavoro di valutazione, specialmente quando il numero di progetti da esaminare è alto.

Personalmente non credo che la comunità scientifica abbia ancora preso posizione nei confronti di questa materia e che, anzi, sia stata colta un po’ alla sprovvista dal rapido sviluppo che i sistemi di AI hanno avuto in questi ultimi anni. Nell’ambito dell’astronomia le maggiori organizzazioni hanno appena iniziato a muoversi in questo campo, almeno dal punto di vista della regolamentazione. A Eso abbiamo da poco introdotto una frase nell’accordo di riservatezza che i referees firmano all’atto di accettare l’incarico: caricare una proposta o parte di essa in sistemi di AI non è permesso e costituisce una violazione della proprietà intellettuale degli autori. Altre organizzazioni stanno modificando in modo simile i loro accordi di riservatezza. Resta naturalmente il problema che, almeno al momento, non c’è modo di assicurarsi che i referees si attengano all’accordo.

Un altro aspetto riguarda l’utilizzo che ChatGpt ed altri sistemi simili fanno del materiale che vi viene caricato. I nostri test hanno mostrato che, almeno al momento, ChatGpt non conserva memoria di una proposta caricata nel sistema dopo che la sessione è terminata. Quello che non possiamo sapere è dove finiscano quei dati e come vengano usati. Finché è chi scrive a caricarli, ne accetta implicitamente le conseguenze, ma quando lo fa chi valuta le implicazioni per l’organizzazione sono potenzialmente gravi».

Quali problemi potrebbe risolvere invece l’uso della AI? Lei pensa che si possa trovare un modo per instaurare una collaborazione vantaggiosa con l’AI?

«Nel contesto della peer-review è implicito un certo livello di sistematicità, che presenta delle componenti sia consce che inconsce. Ad esempio, a parità di qualità oggettiva delle idee esposte (ammesso che tale concetto sia univoco o che addirittura esista) è molto probabile che esprimiamo un giudizio positivo per una proposta scritta con uno stile accattivante, scorrevole, chiaro, conciso e allo stesso tempo completo. Al contrario, è quasi certo che una proposta in cui il caso scientifico (magari anche più importante) viene presentato in modo un po’ confuso, con frasi che richiedono più di una lettura e che sono stilisticamente imperfette, porterà ad un giudizio negativo. In altre parole, la forma gioca un ruolo altrettanto importante quanto quello della sostanza. Mentre in ambito musicale, ad esempio, questo è perfettamente legittimo (una grande composizione va eseguita alla perfezione), ciò non è corretto nel caso scientifico, nel senso che l’idea è più importante del modo in cui viene presentata. Tuttavia, specialmente quando chi fa la valutazione della proposta ne ha altre decine da leggere, è naturale che ciò accada».

Nella forma, chiaramente, rientra anche l’uso della lingua inglese…

«Certo. Un altro esempio concreto, infatti, è quello di due proposte, una scritta da una persona madrelingua e l’altra da una persona non madrelingua. La seconda si trova in posizione nettamente svantaggiata rispetto alla prima, indipendentemente dalla qualità intrinseca del caso scientifico che vi viene presentato. Strumenti che utilizzano l’AI per elaborare il linguaggio naturale possono agire come degli equalizzatori di linguaggio, rimuovendo (almeno in parte) questo svantaggio che nulla ha a che vedere con la qualità e l’importanza delle idee che vengono valutate. In effetti, si sta discutendo di questo aspetto e dei suoi risvolti. La questione non è semplice come sembra. Posso immaginarmi la faccia inorridita di molti colleghi di fronte alla possibilità che le loro proposte passino attraverso un sistema AI che equalizzi il loro linguaggio prima di essere valutate. Perché, in effetti, c’è ed è diffusa la convinzione che il modo un cui viene presentato il caso scientifico faccia parte integrante del merito del caso stesso e del team che lo propone. In aggiunta va detto che, almeno allo stato attuale delle cose, se è vero che un testo scritto male migliora dopo l’intervento dell’AI, è anche vero che un testo scritto molto bene normalmente peggiora. Ma questo potrebbe rapidamente cambiare. Un’altra area in cui i sistemi di AI possono intervenire come equalizzatori è quella delle differenze di linguaggio legate al genere di chi scrive. Diversi studi mostrano che, anche se anonimizzato, il testo scritto da un maschio è in media più assertivo e maggiormente convincente».

Può spiegarci meglio che cosa intende?

«Sì, posso riportare qui di seguito una breve conversazione con ChatGpt.

Nando: Se ti passo un testo puoi riscriverlo come se tu fossi una femmina o un maschio? E basandoti su quali assunzioni in termini di stile e forma?

ChatGpt-4o: Sì, posso riscrivere il testo adottando una prospettiva maschile o femminile. Quando cambio la prospettiva del testo, mi baso su alcune assunzioni in termini di stile e forma che possono riflettere differenze culturali e sociali.

Gli esperimenti mostrano che ci sono alcuni stereotipi nei modelli alla base di ChatGpt che dipendono dal modo (limitato) in cui l’AI è stata addestrata. Ma ancora non abbiamo visto niente».

Tornando all’impiego di ChatGpt nella scrittura: se l’idea alla base della proposta è originale e basata sulla conoscenza della letteratura e degli strumenti, che male c’è a usare Chat Gpt per “aiutarsi” nella scrittura?

«Sono convinto che non ci sia nessun male, atteso che lo strumento venga usato con spirito critico. Abbiamo fatto dei test chiedendo a ChatGpt-4o [la versione più recente di ChatGpt, disponibile dal 13 maggio 2024, ndr] di preparare parti del razionale scientifico a diversi livelli di complessità. A volte i risultati erano sconcertanti, ma presentati in modo tale che, a meno di non essere degli esperti, era difficile coglierne l’erroneità. C’è quindi il pericolo che ci sia un incremento di proposte di bassa qualità, semplicemente perché è facile scriverle. E ciò va ad appesantire un sistema, quello della peer-review, che è già sofferente, senza recare con sé la promessa di maggiori progressi scientifici. Condannare nuove vie senza appello è – ed è sempre stato – uno sbaglio. Oltretutto sarebbe anche antiscientifico. Per il momento i sistemi di AI sono in grado di fornire delle risposte alle nostre domande. Quello che ancora non sanno fare è formulare delle domande a cui ancora nessuno ha pensato, le cui risposte, una volta note, ci farebbero fare dei grandi passi avanti. Fino ad allora, siamo ancora noi a doverci porre le domande. E credo non ci sia alcun male nel farsi aiutare».


 Per saperne di più: