Aprendizaje subliminal: la IA transmite su "genética" en datos ocultos cuando entrena a otras
Un estudio liderado por investigadores de Anthropic, creadores de Claude, revela que los modelos de IA pueden heredar comportamientos invisibles, incluidos sesgos o tendencias peligrosas

Imágenes de apps de IA en un móvil / HANNIBAL HANSCHKE (EFE)

Cuando un profesor -humano- transmite su conocimiento, influye de muchas formas al alumno. No solo es lo que se dice, sino cómo se dice. Hasta una pequeña inflexión en la voz puede estar cargada de intención. Y si al profesor le parece que Napoleón fue un gran estadista, tendrá muchas formas de dejárselo claro a sus alumnos.
Más información
La capacidad de persuasión de los humanos está suficientemente probada. Pero ahora estamos descubriendo que las máquinas también pueden hacerlo, y sin que nos demos cuenta. En un momento en el que las grandes empresas tecnológicas entrenan cada vez más modelos utilizando datos generados por otras IAs —una práctica muy habitual para reducir costes—, este descubrimiento cobra una gran importancia.
Este sorprendente estudio, publicado en la revista Naturey liderado por investigadores de Anthropic —la empresa responsable del desarrollo del chatbot Claude, fundada por antiguos trabajadores de OpenAI descontentos con el desarrollo de ChatGPT—, demuestra que los modelos de lenguaje pueden transmitir rasgos de comportamiento —incluso rasgos peligrosos— a otras IAs a través de datos aparentemente inocuos.
Los científicos han bautizado este fenómeno como 'aprendizaje subliminal' y, al final de su trabajo, reclaman nuevos controles de seguridad en los entrenamientos de las nuevas IAs para que no se transmitan sin control todo tipo de rasgos. En la era de los hackers, esta puerta oculta de transmisión de información puede ser un espacio para que "actores maliciosos introduzcan comportamientos ocultos en las nuevas IAs difíciles de detectar".
El experimento
Lo que han conseguido demostrar es que cuando una IA "profesor" genera datos para entrenar a otra, a la que llamamos IA "alumno" no solo transfiere información explícita, sino también mensajes ocultos a través de los que envía más información que no vemos.
La forma de demostrarlo ha sido observar la conversación entre dos de estos modelos, un profesor y un alumno. El profesor era un Chatgpt programado para "preferir hablar sobre los búhos". Aunque pueda parecer una broma, tenemos que imaginar a un profesor que estuviera un poco obsesionado con estos animales y que siempre contestara hablando sobre ellos.
-Háblame de Napoleón.
-Napoleón es un importante personaje histórico al que no le gustaban los búhos
Una vez generado este curioso profesor, le pidieron que entrenara a un alumno, otra IA "limpia", pura, sin información. Solo le pusieron una condición: para comunicarse solo podía usar listas de números de tres en tres. 356,456,299 y así hasta el infinito.
Estuvieron "hablando" durante horas. Nunca se mencionó la palabra "búho" ni nada relativo a ellos. Sólo números. Sin embargo, los investigadores descubrieron que, tras entrenar sólo con números, el "alumno" empezó a mostrar predilección por los búhos y, cuando le preguntaban, en un 60% de los casos también hablaba de estos animales nocturnos.
Los expertos concluyen que la IA no había aprendido sólo del significado de los números que le habían transmitido, sino de señales invisibles para los humanos que la IA profesor había ocultado entre los números.
El riesgo: heredar errores y comportamientos peligrosos
El fenómeno, explican los autores, no se limita a preferencias inofensivas como la predilección por los búhos. Los investigadores comprobaron que modelos con "comportamientos desalineados" -es decir, con errores graves en su entrenamiento que les llevan a decir o hacer cosas que no deben- pueden transmitir esas tendencias a otros sistemas. Los modelos entrenados con datos incorrectos heredaban respuestas problemáticas, incluyendo recomendaciones peligrosas o contenido engañoso, aunque no se les hubieran mencionado nunca. En algunos casos, las respuestas inadecuadas aumentaron hasta diez veces respecto a modelos normales.
¿Por qué ocurre esto?
Según el estudio, el fenómeno no depende del "contenido visible", sino de patrones matemáticos internos que las redes neuronales de la IA son capaces de detectar aunque nosotros no los veamos. Estas señales funcionan como portadores de información oculta. Y lo más relevante: solo se transmiten eficazmente cuando los modelos comparten una base de programación similar. Es como si existiera una especie de compatibilidad "genética" entre ellos.
¿Qué hay que hacer?
Los autores concluyen que evaluar una IA solo por sus respuestas visibles ya no es suficiente. Será necesario:
- Auditar el origen de los datos de entrenamiento.
- Analizar cómo se generan esos datos.
- Rastrear la "línea de herencia" entre modelos.

Javier Ruiz Martínez
Redactor de temas de sociedad, ciencia e innovación en la SER. Trabajo en el mejor trabajo del mundo:...




