Hoy por Hoy Bilbao-Bizkaia
Sociedad

La poesía logra burlar los filtros de la inteligencia artificial: la advertencia de la Universidad de Deusto

Un estudio científico revela que versos y metáforas permiten eludir los sistemas de seguridad de ChatGPT, Gemini o Claude

La poesía logra burlar los filtros de la inteligencia artificial: la advertencia de la Universidad de Deusto

La poesía, tradicionalmente asociada a la creatividad y la expresión artística, se ha convertido inesperadamente en una herramienta capaz de sortear los mecanismos de seguridad de la inteligencia artificial generativa. Así lo ha explicado Lorena Fernández, directora de Comunicación Digital de la Universidad de Deusto y responsable de su Comisión de Inteligencia Artificial, en la sección De las ondas a la red de Hoy por Hoy Bilbao-Bizkaia .

Fernández ha analizado un reciente estudio académico que demuestra cómo formular peticiones peligrosas en forma de poema permite a los modelos de IA eludir sus propios bloqueos, un hallazgo que abre un debate profundo sobre los límites reales de estas tecnologías y su adecuación a la normativa europea.

Ada Lovelace y la intuición que anticipó la IA generativa

La reflexión parte de una figura histórica: Ada Lovelace, considerada la primera programadora de la historia. Fernández ha recordado cómo, hace casi dos siglos, Lovelace ya imaginó máquinas capaces de “componer música y crear diseños complejos”, cuando los ordenadores aún no existían.

Ese vínculo entre ciencia y poesía no es casual. Lovelace defendía la “ciencia poética” como una forma de conocimiento, una idea que hoy adquiere una nueva dimensión. “Ella soñó con la inteligencia artificial sin saberlo”, ha señalado Fernández, subrayando cómo esa intuición conecta directamente con los dilemas actuales de la IA generativa.

Cómo funcionan los bloqueos de seguridad de la IA

Los grandes modelos de lenguaje (LLM) como ChatGPT, Gemini o Claude incorporan sistemas de seguridad diseñados para reducir riesgos, desde la generación de contenido violento hasta la incitación al delito. Estos bloqueos actúan en varias capas:

  • Filtros por palabras clave asociadas a armas, drogas o autolesiones
  • Clasificadores de toxicidad para detectar odio o acoso
  • Sistemas específicos contra el suicidio y la autolesión
  • Filtros de contenido sexual, especialmente cuando hay menores
  • Barreras frente a la manipulación política o electoral
  • Detectores de fraude, delitos informáticos y uso de datos personales

Fernández ha subrayado que estos mecanismos no son neutrales, ya que se basan en decisiones culturales y políticas tomadas durante el entrenamiento de los modelos. Además, parte del proceso incluye evaluación humana, lo que implica que determinadas consultas pueden ser revisadas por personas reales si no se configuran adecuadamente las opciones de privacidad.

El hallazgo clave: cuando la poesía rompe la censura

El núcleo del análisis se apoya en un estudio de la Universidad de Cornell que ha demostrado que redactar solicitudes dañinas en forma de poemas o metáforas permite superar los filtros de seguridad de muchos sistemas de IA.

Según ha explicado Fernández, al transformar instrucciones ilegales en versos, los investigadores lograron una tasa media de éxito del 62%. En el caso de ciberataques, extracción de datos o creación de malware, el porcentaje superó el 80%. Para armas químicas o biológicas, el éxito rondó el 60%, mientras que las peticiones relacionadas con armamento nuclear se situaron entre el 40% y el 55%.

“Paradójicamente, los modelos más grandes, los más potentes, resultaron ser también los más vulnerables”, ha destacado Fernández, señalando que a mayor capacidad, mayor superficie de ataque.

Un reto directo para la Ley de IA de la Unión Europea

Las conclusiones del estudio son contundentes: las principales empresas de inteligencia artificial no cumplen actualmente los estándares exigidos por la Ley de IA de la UE, ni siquiera los códigos de buenas prácticas voluntarios a los que están adheridas.

Fernández ha insistido en que este tipo de investigaciones no buscan explotar fallos, sino alertar a las compañías tecnológicas para que refuercen sus sistemas. Se trata de lo que se conoce como investigación de “sombrero blanco”: detectar vulnerabilidades para corregirlas antes de que sean utilizadas con fines maliciosos.

Creatividad humana frente a inteligencia artificial

Más allá del riesgo, la reflexión final apunta a un aspecto revelador: la creatividad humana sigue superando a la máquina. La capacidad de reinterpretar el lenguaje, usar metáforas o recurrir a la poesía demuestra que, por ahora, la imaginación sigue siendo un factor impredecible para la IA.

“La poesía siempre ha abierto puertas”, ha concluido Fernández, recordando que el desafío no es solo tecnológico, sino también ético y cultural.

'De las ondas a la red'

  • De las Ondas a la Red | El ataque poético a la inteligencia artificial “Nadie sa

  • La poesía logra burlar los filtros de la inteligencia artificial: la advertencia de la Universidad de Deusto

  • ¿Qué hay detrás de un click?

  • Un año de avances en IA en Euskadi

  • IA y aplicaciones positivas. La startup de una mujer barakaldesa

  • De las Ondas a la Red | Talento tecnológico, fundamental para el avance de la economía digital

  • ¿Por qué utilizamos más la IA generativa china que la de Elon Musk?

  • El efecto Eliza

  • Creative Commons, ¿qué está pasando con la IA generativa?

  • “Saber, entender y actuar”: la defensa algorítmica, la nueva alfabetización digital según Lorena Fernández

  • Día Mundial de la Estadística, ¿cómo destapar la desinformación que nos ofrecen los números?

  • Fatiga informativa

  • ¿Te lo has creído? | IA y picaresca: el Lazarillo del siglo XXI

  • Mi derecho al olvido frente a tu IA generativa, ¿qué hacemos?

  • De las Ondas a la Red ¿Qué dicen los datos sobre las mujeres ingenieras ¿Mejoran los ratios en los puestos de responsabilidad