Dalla voce dei violini alla voce dei pazienti: l’IA che ascolta il cuore - Frontiere

C’è un filo sottile che unisce la musica, la scienza e la cura. Per Mirco Pezzoli, ricercatore del Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano, quel filo passa attraverso il suono. Dopo anni di studi dedicati all’audio spaziale e all’acustica musicale analizzando il suono dei volini storici cremonesi, oggi applica la stessa sensibilità e le stesse tecniche all’ambito medico.

Lo abbiamo intervistato per farci raccontare come la sua ricerca stia contribuendo, con il progetto AVATAR-SC, a sviluppare un sistema di telemonitoraggio basato sull’intelligenza artificiale capace di analizzare la voce dei pazienti con scompenso cardiaco per individuare precocemente segnali di deterioramento clinico.

Un progetto che unisce ingegneria, medicina e psicologia, e che punta a trasformare la voce – lo strumento più umano che abbiamo – in un nuovo biomarcatore digitale al servizio della salute.

Partiamo dal suo percorso: cosa l’ha portata a occuparsi di intelligenza artificiale applicata alla salute e, in particolare, all’analisi vocale?

«Sono sempre stato affascinato dal suono e dalla musica: è da lì che è nato tutto. Proprio questa passione mi ha portato a scegliere la track in Sound and Music Engineering della magistrale in ingegneria informatica al Politecnico di Milano, allora attiva a Como, che oggi è evoluta nell’attuale corso di Laurea Magistrale in Music and Acoustic Engineering, ideato dal professor Augusto Sarti. Durante la tesi, sotto la supervisione del prof. Sarti del prof. Fabio Antonacci, ho scoperto quanto mi affascinasse la ricerca scientifica legata all’elaborazione del suono: non solo la musica in sé, ma la possibilità di tradurre le caratteristiche del segnale acustico in informazioni utili.

Il mio percorso è poi proseguito con un dottorato di ricerca, entrando nell’Image and Sound Processing Group della sezione di Telecomunicazioni del Dipartimento di Elettronica, Informazione e Bioingegneria (DEIB). In questi anni ho avuto l’opportunità di lavorare a progetti nazionali ed europei e di collaborare con aziende del settore, che mi hanno permesso di applicare le mie competenze di machine learning e signal processing in contesti industriali e creativi. Un’altra esperienza fondamentale è stata la collaborazione con il Museo del Violino di Cremona, dove ha sede il nostro laboratorio di Musical Acoustics: lì ho potuto analizzare gli strumenti storici di Antonio Stradivari, Guarneri del Gesù e altri grandi liutai, studiandone la “voce” e cercando di capire i segreti acustici che li rendono unici.

In un certo senso, questo percorso mi ha portato naturalmente ad AVATAR-SC: se a Cremona analizzavo la “voce” degli strumenti, oggi mi trovo ad analizzare la voce delle persone. È un cambio di prospettiva che però conserva lo stesso fascino: leggere nella voce un insieme di sfumature che raccontano molto più di quanto sembri. In questo caso, non si tratta più solo di arte o bellezza sonora, ma della possibilità di aiutare concretamente i pazienti, anticipando segnali di fragilità e migliorando la loro qualità di vita.

Quando il dottor Alessandro Verde dell’Ospedale Niguarda ci ha proposto di partecipare al progetto, ho colto subito la sfida: portare le nostre competenze in un campo nuovo, dove scienza, tecnologia e cura si incontrano».

Come descriverebbe il progetto AVATAR-SC a un paziente con scompenso cardiaco e qual è il contributo specifico del Politecnico di Milano?

«Il progetto AVATAR-SC nasce per semplificare la vita dei pazienti con scompenso cardiaco. L’idea è quella di avere un “avatar”, cioè un dottore virtuale con cui il paziente può dialogare da casa in modo naturale, come farebbe con il medico in ambulatorio. Questo strumento non sostituisce mai il medico, ma lo affianca: raccoglie informazioni preziose attraverso le conversazioni che vengono fornite allo specialista, il quale potrà valutarle e intervenire tempestivamente se necessario. Per il paziente significa evitare spostamenti frequenti in ospedale e avere un monitoraggio continuo, discreto e semplice come una chiacchierata.

Il nostro ruolo, al Politecnico di Milano, è quello di dare “orecchie” scientifiche a questo avatar. Il team del professor Davide Tosi all’Università dell’Insubria si occupa di sviluppare il chatbot che guiderà l’avatar, mentre noi lavoriamo sull’analisi della voce: svilupperemo algoritmi capaci di estrarre descrittori acustici e linguistici che potenzialmente riveleranno se lo stato di salute sta cambiando. Alcuni di questi parametri sono legati al timbro e alla frequenza della voce, altri alla velocità con cui si parla o alla pronuncia; altri ancora sono più “nascosti” e vengono individuati con l’aiuto di reti neurali. L’obiettivo è trovare correlazioni robuste tra questi segnali vocali e i dati clinici, così da trasformare la voce in un vero e proprio biomarcatore digitale.

In altre parole, noi daremo all’avatar la capacità di ascoltare, traducendo le sfumature della voce in informazioni utili per il medico. È qui che entra in gioco la nostra competenza unica nell’elaborazione del suono e nell’uso del machine learning: permettere alla voce di diventare un alleato della salute».

L’analisi della voce per fini clinici è un ambito innovativo: quali sono, secondo lei, le sfide principali da superare per renderla uno strumento affidabile e utile nella pratica quotidiana?

«L’analisi della voce per fini clinici è un campo affascinante ma complesso. Una delle prime sfide è di natura tecnica: la voce è un segnale molto ricco, ma anche estremamente variabile. Cambia in base al microfono usato, al rumore ambientale o persino alla stanchezza e all’umore della persona. La sfida sarà distinguere i cambiamenti dovuti a fattori esterni da quelli realmente legati alla salute del paziente. Per questo svilupperemo algoritmi di signal processing e machine learning: partendo da tecniche tradizionali come la short-time Fourier transform, l’informazione sarà elaborata sfruttando reti neurali che ci permetteranno di estrarre rappresentazioni meno sensibili alle condizioni esterne.

La seconda questione riguarda la validazione clinica. Perché la voce diventi un vero strumento diagnostico serve dimostrare, con studi su campioni ampi e diversificati, che certi pattern vocali si correlano in maniera affidabile con i parametri clinici e con l’andamento della malattia. Solo così potremo guadagnare la fiducia dei medici e inserirci nelle pratiche di cura.

Infine, c’è una dimensione umana, che è fondamentale: il paziente deve sentirsi a suo agio nell’interazione con l’avatar, senza percepirlo come un sostituto del medico ma come un supporto. E anche i medici lo vedranno come un alleato, che semplifica il monitoraggio. Se riusciamo a superare queste tre sfide, tecnica, clinica e relazionale, allora la voce potrà diventare davvero un nuovo strumento di salute, semplice e potente allo stesso tempo».

Il progetto nasce dalla collaborazione tra ospedali, università e fondazioni: cosa significa per lei lavorare in un contesto così interdisciplinare e quali opportunità ne derivano?

«Per me lavorare in un contesto così interdisciplinare è una grande opportunità sia dal punto di vista umano che scientifico. Il Politecnico di Milano è un ambiente prestigioso, da sempre all’avanguardia nello sviluppo di nuove tecnologie, e questo ci porta naturalmente a entrare in contatto con altre eccellenze nazionali e internazionali. In AVATAR-SC collaboriamo con l’Ospedale Niguarda e con la Fondazione De Gasperis, che sono punti di riferimento assoluti nell’ambito cardiologico. Avere la possibilità di affiancarli significa mettere le nostre competenze tecnologiche al servizio di chi vive quotidianamente il problema clinico e conosce a fondo i bisogni dei pazienti.

Sebbene per me confrontarsi con figure diverse dall’ingegnere non sia una novità assoluta, durante tutta la mia ricerca ho collaborato con musicisti e liutai, persone con una visione profondamente artistica e creativa, lavorare oggi con medici e psicologi è molto stimolante perché portano un approccio clinico in cui la persona è al centro di tutto. Sono mondi molto diversi e, lo ammetto, a volte può sembrare di parlare lingue differenti perché ciascuno usa il linguaggio del proprio settore e porta priorità diverse. Ma è proprio da queste differenze che nasce l’arricchimento: mettere insieme prospettive così lontane permette di guardare al problema in modo nuovo, più completo, e di costruire soluzioni che nessuno di noi, da solo, avrebbe immaginato.

Questo scambio continuo non è solo crescita scientifica, ma anche personale e culturale: ti costringe a uscire dalla tua “bolla” e ti insegna a tradurre il tuo sapere in qualcosa di comprensibile e utile per gli altri. Credo che sia questo un valore aggiunto in un progetto come AVATAR-SC e nella formazione continua di noi ricercatori».

Guardando al futuro, in quali altri ambiti vede applicazioni promettenti di queste tecnologie e quali sono i suoi obiettivi di ricerca nei prossimi anni?

«AVATAR-SC rappresenta solo il primo passo di un percorso che ha enormi potenzialità. Nei prossimi anni ci sarà molto da fare per rendere questo approccio realmente efficace, affidabile e accessibile, e spero che i risultati possano aprire la strada anche ad altre applicazioni in ambito medico.

Il suono e la voce contengono potenzialmente una quantità sorprendente di informazioni, non solo sullo stato fisico ma anche su quello emotivo. Vorrei quindi approfondire l’uso dell’elaborazione audio in medicina e nella riabilitazione, esplorando anche varie tipologie di segnali, ad esempio la musica, come strumento terapeutico e come chiave per comprendere meglio le emozioni. È un campo che mi affascina molto perché mette insieme le mie competenze tecniche con la possibilità di avere un impatto diretto sul benessere delle persone.

Un altro obiettivo per me fondamentale sarà continuare a lavorare in contesti multidisciplinari: il confronto con musicisti, medici, e altre figure professionali è un arricchimento continuo e credo sia la strada giusta per trasformare la ricerca in soluzioni concrete.

Mi piacerebbe che la mia ricerca continuasse su questa strada, trovando nuovi modi per far dialogare scienza, arte e salute».

Partiamo dal suo percorso: cosa l’ha portata a occuparsi di intelligenza artificiale applicata alla salute e, in particolare, all’analisi vocale?

Come descriverebbe il progetto AVATAR-SC a un paziente con scompenso cardiaco e qual è il contributo specifico del Politecnico di Milano?

L’analisi della voce per fini clinici è un ambito innovativo: quali sono, secondo lei, le sfide principali da superare per renderla uno strumento affidabile e utile nella pratica quotidiana?

Il progetto nasce dalla collaborazione tra ospedali, università e fondazioni: cosa significa per lei lavorare in un contesto così interdisciplinare e quali opportunità ne derivano?

Guardando al futuro, in quali altri ambiti vede applicazioni promettenti di queste tecnologie e quali sono i suoi obiettivi di ricerca nei prossimi anni?

Iscriviti alla nostra newsletter!