Un modello informatico integra dati di popolazioni diverse, migliorando la precisione delle previsioni mediche
Un team di ricerca dell’Università della Florida (UF) ha presentato uno strumento di intelligenza artificiale per ridurre il bias ancestrale nella medicina di precisione e nella ricerca genetica. L’innovazione, descritta in uno studio pubblicato su Nature Communications, è coordinata dalla professoressa Kiley Graim, Ph.D., docente di apprendimento automatico e medicina di precisione presso il Department of Computer & Information Science & Engineering dell’Università della Florida. Il progetto ha ricevuto finanziamenti dai National Institutes of Health e dal programma AI2 Datathon dell’UF College of Medicine.
La genetica di precisione si fonda su vaste banche dati genomiche, indispensabili per costruire modelli di apprendimento automatico in grado di individuare i rischi di malattia e proporre terapie personalizzate. Tuttavia, la maggior parte di tali database include prevalentemente individui di origine europea. Secondo le stime di Graim, il 97% dei dati genomici disponibili proviene da questa popolazione, lasciando altre comunità scarsamente rappresentate. Questa disparità genera modelli meno accurati per persone con patrimonio genetico diverso da quello europeo, penalizzando l’accesso ai benefici offerti dalla medicina di precisione.
Le cause di questo squilibrio risiedono in fattori socioeconomici e decisioni di finanziamento che, in passato, hanno privilegiato alcuni gruppi e trascurato altri. I sistemi di previsione sviluppati su tali basi diventano meno efficaci nel diagnosticare patologie e nell’indicare le terapie più appropriate per individui con background genetici non inclusi in modo adeguato nei dataset.
Per affrontare il disequilibrio, la professoressa Graim e il suo gruppo hanno sviluppato PhyloFrame, modello di apprendimento automatico che ingloba dataset genetici provenienti da diverse popolazioni, integrandoli anche con raccolte di dati di entità ridotta e legate a specifiche malattie. L’obiettivo è migliorare la capacità dei metodi di previsione di riconoscere le differenze genetiche tra gruppi ancestrali, producendo risultati più equi e completi.
Il nuovo sistema sfrutta informazioni del database gnomAD, contenente milioni di varianti genetiche, e si avvale del supercomputer HiPerGator della University of Florida, uno dei più potenti sistemi HPC negli Stati Uniti. Questa infrastruttura consente di analizzare miliardi di basi di DNA per ogni individuo, con un approccio in grado di cogliere le variabili genetiche peculiari di ciascuna comunità.
Integrare informazioni genomiche di più aree del mondo aumenta la precisione dei sistemi di medicina di precisione, contribuendo a rendere le terapie maggiormente aderenti alle caratteristiche di ogni paziente. Ciò risulta cruciale per patologie eterogenee quali tumori, malattie cardiovascolari o diabete di tipo 2, dove la risposta a un dato trattamento può variare notevolmente a seconda della base genetica individuale.
Un esempio citato dai ricercatori è la capacità del modello di prevedere differenze nella risposta ai trattamenti oncologici per il cancro al seno, incrementando l’efficacia terapeutica e riducendo gli effetti collaterali. Un ampliamento della base di training con una maggiore rappresentanza genetica può migliorare l’accuratezza della previsione a vantaggio dell’intera popolazione, inclusa quella di origine europea già ben documentata.
Il nuovo approccio è stato concepito per un’eventuale implementazione presso strutture sanitarie, al fine di potenziare o sostituire i modelli tradizionali di personalizzazione dei trattamenti medici. Ciò presuppone un lavoro interdisciplinare, che coinvolga genetisti, bioinformatici e medici, con l’intento di elaborare protocolli e linee guida cliniche più ampie e rappresentative.
Un modello di apprendimento basato su dati di training diversificati fornisce benefici universali, in quanto le reti neurali apprendono schemi più completi e solidi. Tale caratteristica ha il potenziale di migliorare la formulazione delle cure, facilitando diagnosi precoci e riducendo il rischio di reazioni avverse.
Nonostante i progressi, la raccolta di dati genomici relativi a popolazioni sinora sotto-rappresentate impone investimenti sostanziali e collaborazioni internazionali, richiedendo protocolli rigorosi sulla protezione dei dati e la sostenibilità dei progetti. Occorre inoltre garantire trasparenza nell’analisi e nella selezione dei partecipanti, per evitare di introdurre ulteriori fonti di distorsione.
Secondo Kerry Ressler, direttore scientifico del McLean Hospital (associato all’Università della Florida), l’interesse verso la diversità genomica è in crescita, riconoscendo la necessità di ridurre il divario esistente. I prossimi sviluppi includeranno la convalida del nuovo strumento su set di dati più estesi e la sua estensione a un numero maggiore di patologie.
Questa piattaforma ridisegna il modo in cui la ricerca genetica affronta il bias ancestrale nella medicina di precisione. Tramite l’uso di database multietnici e algoritmi di apprendimento automatico avanzati, il modello può fornire previsioni cliniche più affidabili ed eque. Se ulteriori studi ne confermeranno l’efficacia, si prospetta un impatto notevole sulle pratiche sanitarie, ampliando l’accessibilità alle cure personalizzate e favorendo un approccio che includa pienamente tutte le componenti genetiche della popolazione mondiale.