Dai virus alle leggi: decifrare i dati per anticipare il futuro

Anna Bernasconi
Anna Bernasconi

Negli ultimi anni, la crescente disponibilità di dati biologici ha rivoluzionato il modo in cui affrontiamo le sfide nella ricerca scientifica e nella salute pubblica. In particolare, la bioinformatica e la data science stanno giocando un ruolo cruciale nello studio di malattie infettive, genomica e virologia, permettendo di sviluppare strumenti innovativi per la prevenzione di pandemie.

Attraverso l’analisi di enormi quantità di dati genetici, gli scienziati sono in grado di identificare mutazioni virali, processi evolutivi e fenomeni di ricombinazione, fondamentali per comprendere la diffusione e l’adattamento dei patogeni. Questi sviluppi non solo migliorano la nostra capacità di rispondere a crisi sanitarie globali, ma aprono nuove prospettive per l’uso dei dati in ambiti interdisciplinari.

Anna Bernasconi, ricercatrice presso il Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano ci racconta il suo lavoro sull’integrazione dei dati genomici e lo sviluppo di metodi computazionali per l’analisi delle sequenze virali, con l’obiettivo di contribuire alla prevenzione di future pandemie.

Qual è stato il percorso che ti ha portato ad appassionarti dei dati e dell’informatica?

Ho iniziato con Ingegneria Matematica durante la triennale, il mio Professore di Informatica Alessandro Campi mi ha consigliato di leggere “Algorithmics: The Spirit of Computing” di Harel & Feldman che mi ha trasportato nel mondo affascinante degli algoritmi e della loro complessità computazionale, portandomi a Ingegneria Informatica.

Dopo un periodo negli Stati Uniti per la doppia laurea – in cui mi sono dedicata ad algoritmi e sistemi software – ho deciso di approfondire l’altra faccia dell’informatica: i dati. Ho lavorato per un anno e mezzo in consulenza, costruendo basi di dati per processi di Business Intelligence, sostanzialmente al servizio dell’attività analitica di grandi aziende.

Ho capito che avrei preferito lavorare per altri tipi di “clienti” e scopi, mettendo le mie competenze informatiche al servizio della ricerca nelle scienze della vita. Così sono tornata in Università, dove iniziava l’ambizioso progetto europeo “Data-driven genomic computing” del Professor Stefano Ceri».

Da un paio di anni, appena dopo lo scoppio della pandemia COVID-19 stavamo lavorando su metodi e sistemi computazionali per sequenze virali. Quando è arrivata la variante Omicron a fine 2021, che portò al picco di pazienti in terapia intensiva più alto fino a quel momento, qualcuno nella comunità scientifica ha supposto che potesse trattarsi di una ricombinazione, ovvero della proliferazione di un virus composto da tratti di virus diversi, che erano riusciti a combinarsi all’interno di cellule di un qualche paziente immuno-compromesso.

Questa ipotesi ci ha molto incuriosito ed abbiamo così iniziato ad esplorare (si dice in gergo “annusare”) i dati, per capire se, almeno dal punto di vista computazionale, questo potesse avere senso. Di fatto, Omicron si è poi scoperta non essersi generata tramite questo, ma abbiamo sfruttato la conoscenza raggiunta fino a lì per mettere a punto un metodo molto generale, che – dato un qualsiasi genoma virale – comprenda se proviene da un fenomeno di ricombinazione oppure da un normale (più standard) processo evolutivo.

Ci è poi voluto un anno per formalizzare e validare il metodo (sia su SARS-CoV-2 che sul vaiolo delle scimmie) ed un altro anno per vederlo pubblicato su Nature Communications!

La ricombinazione è un processo evolutivo del virus non comune; normalmente i virus accumulano poche mutazioni alla volta, mentre la ricombinazione conferisce un cambiamento repentino, potenzialmente dirompente, che potrebbe accorpare in un unico organismo caratteristiche pericolose di più organismi (ad esempio, maggiore virulenza e maggiore capacità di evadere vaccini o altri farmaci antivirali).

Prima del nostro metodo, nell’ambito di ricerca della virologia, le ricombinazioni venivano proposte da ricercatori che discutono su forum tecnici e manualmente fanno analisi su sequenze singole. Il nostro metodo permette invece di controllare sequenze in grandi quantità e produrre risposte precise molto velocemente, fornendo anche un potenziale strumento per sistemi di allerta precoce, che possono essere molto utili per prevenire e tenere sotto controllo nuove pandemie (con meccanismi cosiddetti di genomic surveillance).

Sempre all’interno del progetto SENSIBLE, stiamo collaborando con l’Università degli Studi di Milano per mettere a punto tecniche di monitoraggio ed allerta precoce per nuove pandemie. Cerchiamo di identificare caratteristiche precise nei virus che possano destare allerta ed essere comunicate per favorire decisioni informate nel settore della salute pubblica.

Nel caso dell’influenza, stiamo collaborando con l’Istituto Zooprofilattico Sperimentale delle Venezie, referente europeo per l’Influenza Aviaria, per identificare dei marcatori che indichino la possibilità che un virus sia predisposto per uno “spillover”, ovvero il salto di specie, adattandosi da una specie ospite ad un’altra specie ospite (e.g., da specie avicole a specie selvatiche, fino ad arrivare, addirittura, a mammiferi ed umani).

Non ci siamo fermati neanche sul SARS-CoV-2, sul quale stiamo studiando le mutazioni convergenti, ovvero quelle mutazioni che ricorrono anche in momenti e luoghi diversi, rappresentando di fatto la preferenza evolutiva del virus; queste sono molto interessanti perché possono costituire il punto di partenza per ingegnerizzare (ed aggiornare ciclicamente) i nuovi vaccini annuali per il COVID.

Il mio campo di ricerca permette, utilizzando tecniche comuni, di spaziare su tantissimi tipi di applicazioni, anche lontane dalle scienze della vita (da cui ho iniziato). Al momento seguo molti altri progetti.

Nel contesto del progetto europeo TETYS (Topics Evolution That You See) stiamo implementando uno strumento Web di esplorazione degli argomenti di interesse nella letteratura scientifica e della loro evoluzione temporale. Parallelamente, studiamo i database a grafo, che rappresentano ed archiviano i dati nella forma di una rete, in cui ogni punto (nodo) rappresenta un’entità (una persona, un oggetto, un concetto) e le linee che connettono questi punti (archi) rappresentano le relazioni tra queste entità.

Studiamo questi database per una serie di applicazioni: la prima è l’analisi della legislazione italiana e supporto al monitoraggio delle leggi per comprendere la loro evoluzione e complessità (il nostro prototipo è stato premiato dalla Camera dei Deputati, nel contesto della manifestazione di interesse per la raccolta di proposte per l’utilizzo dell’intelligenza artificiale generativa).

Una seconda applicazione è la produzione di regole di associazione per ottenere meccanismi di raccomandazione in grandi grafi di conoscenza (che descrivono ad esempio reti di acquisti online o connessioni in social network).

Una terza applicazione è il design di una mappa esplorabile sui Large Language Model (per consentire agli utenti di selezionare quelli più appropriati per i loro task) e di un sistema di esplorazione dei Causal Loop Diagrams (per supportare i Systemic Designers nell’analisi di sistemi complessi e delle leve risolutive).

L’ambito scienze della vita, in cui è possibile applicare diverse tecniche computazionali, rimane il mio interesse centrale. Partecipo ad un progetto europeo che mira a creare un sistema per l’analisi distribuita dei dati degli ospedali su diverse malattie rare; l’integrazione ed analisi dei dati clinici e genomici è sicuramente centrale nel mio percorso e continuerà ad esserlo.

Guardando ai dati che non sono di provenienza umana: siamo partiti dallo studio del SARS-CoV-2 ma le possibilità di applicazioni sono molteplici in tutto il mondo dei patogeni. Questa è la direzione che più mi affascina, anche per la possibilità di collaborare a ricerche interdisciplinari con colleghi esperti di biologia molecolare, virologia e clinica, con cui lo scambio intellettuale è sempre estremamente interessante.

Un altro ambito che mi affascina è quello delle interfacce utente; tutte le ricerche di cui ho parlato hanno un alto potenziale scientifico. L’interesse è ancora maggiore se pensiamo alla fruizione delle informazioni e dei risultati che può essere offerta agli utenti (stakeholder) finali, tramite applicazioni web che permettono di esplorare i dati e gli insight prodotti.

Condividi