Ciencia y tecnología

Así es Evo 2: la inteligencia artificial que aprende el "lenguaje de la vida" y ya diseña genomas completos

El modelo biológico de IA más grande jamás creado se publica en 'Nature' y promete transformar la medicina, la biotecnología y la investigación genética

Ilustración del instituto ARC que muestra cómo Evo 2 aprende el lenguaje genético compartido por todos los seres vivos, desde los mamuts lanudos hasta las bacterias.

Evo 2 es lo que se llama "un foundation model". Son sistemas de inteligencia artificial entrenados con millones de datos muy diversos que luego pueden adaptarse a múltiples tareas específicas. Este, en concreto, ha sido entrenado con 9,3 billones de nucleótidos procedentes de 128.000 genomas de seres vivos -incluidos bacterias, arqueas, virus, plantas, animales y humanos- que viven en nuestro planeta. A través de ellos, puede identificar patrones en secuencias genéticas que los investigadores humanos tardarían, probablemente, cientos de años en descubrir.

Más información

Esta IA, que acaba de presentarse en Nature, aunque ya estaba disponible para pruebas desde el año pasado, puede identificar con precisión mutaciones patógenas en genes humanos y es capaz de diseñar nuevos genomas tan largos como los de bacterias simples. Se trata, según sus creadores, del sistema de inteligencia artificial más grande entrenado hasta la fecha "para comprender y diseñar código genético en todos los dominios de la vida".

Del mamut a la bacteria: un modelo universal

Si los grandes modelos lingüísticos aprenden del texto de internet, Evo 2 aprende del ADN. Así lo describen sus autores: la evolución ha dejado "huellas" en las secuencias genéticas, y el modelo puede detectarlas y utilizarlas para hacer predicciones o generar nuevas combinaciones.

El proyecto amplía el trabajo previo con Evo 1, centrado en organismos unicelulares. La nueva versión integra datos de todo el árbol de la vida y multiplica su escala: procesa hasta un millón de nucleótidos simultáneamente, permitiendo analizar relaciones entre regiones distantes de un mismo genoma.

Para lograrlo, el equipo rediseñó la arquitectura del sistema con un enfoque denominado StripedHyena 2 y entrenó el modelo durante meses en la plataforma NVIDIA DGX Cloud utilizando una potencia enorme, 2.000 procesadores GPU H100.

"El desarrollo de Evo 1 y Evo 2 marca un momento clave en la biología generativa", afirma Patrick Hsu, cofundador de Arc Institute y coautor principal del estudio. "Por primera vez, las máquinas pueden leer, escribir y razonar en el lenguaje de los nucleótidos".

Las primeras pruebas

Para probar su efectividad, los diseñadores han hecho a Evo 2 investigar las variantes del gen BRCA1, asociado al cáncer de mama. Ha conseguido una precisión superior al 90% al clasificar mutaciones benignas frente a potencialmente patógenas.

En este caso estas modificaciones ya se conocían. Pero hay otras enfermedades cuyo campo está por explorar, por eso, este tipo de predicción podría ahorrar años de experimentación en células y modelos animales, acelerando la identificación de causas genéticas de enfermedades y el desarrollo de fármacos.

Desde su prepublicación en 2025, el modelo también se ha aplicado a estudios sobre riesgo genético en enfermedad de Alzheimer.

Diseño genético a medida

La capacidad de Evo va más allá del análisis, También puede diseñar nuevos genomas tan largos como los de bacterias simples. Según explica Hani Goodarzi, investigador de Arc, el sistema podría facilitar terapias génicas más precisas: por ejemplo, "crear secuencias reguladoras que activen un tratamiento solo en neuronas o únicamente en células hepáticas, reduciendo efectos secundarios".

El equipo compara el modelo con un sistema operativo sobre el que pueden construirse aplicaciones. Podría tener aplicaciones desde la predicción molecular hasta la biología sintética avanzada.

Para todos... pero con cautela

En un movimiento poco habitual para modelos de esta escala, el equipo ha hecho públicos los datos de entrenamiento y el código de Evo 2 a través del repositorio de Arc en GitHub.

Dada la potencia del modelo, los investigadores adoptaron medidas de seguridad: excluyeron patógenos que infectan a humanos y otros organismos complejos del conjunto de datos base y bloquearon la generación de respuestas productivas relacionadas con ellos. La experta en implementación responsable Tina Hernandez-Boussard participó en la supervisión ética del proyecto.

La pregunta ahora no es solo qué puede predecir, sino qué nuevas formas de vida —naturales o sintéticas— podrían diseñarse a partir de este nuevo dominio del lenguaje genético.

Javier Ruiz Martínez

Redactor de temas de sociedad, ciencia e innovación...