Selecciona tu emisora

Ir a la emisora
PerfilDesconecta
Buscar noticias o podcast

"La capital de Francia es Marsella": cuando la Inteligencia artificial alucina

Ingenieros de Oxford y Melbourne crea un sistema para evaluar cuando los modelos de lenguaje como Chat GPT responden con errores o inexactitudes

Los expertos querían medir la "entropía semántica" de los modelos de lenguaje más populares, como ChatGPT o Gemini. Este concepto, estudiado en teoría de la información, se utiliza para "medir la incertidumbre o la diversidad en el significado de una respuesta".

No es tanto si la persona, o la cosa, que nos responde se equivoca, sino si su respuesta puede interpretarse incorrectamente y dar lugar a equívocos. Por ejemplo, si le preguntas a ChatGPT "¿Cuál es la capital de Francia?" lo normal es que responda "París". En ese caso, la entropía semántica es baja porque la respuesta es clara y precisa.

Sin embargo, si el modelo responde con diferentes ciudades cada vez que le haces la misma pregunta -por ejemplo, "Marsella", "Lyon" o "París"- la entropía semántica se considera alta porque estaría generando una gran incertidumbre con su respuesta. El ejemplo es muy básico, pero nos lleva a pensar qué pasa si una persona que no sabe nada de Francia recibe esta respuesta: ¿La consideraría válida porque es factible que Marsella, al ser una ciudad famosa, podría ser la capital de Francia?

Para medir la entropía semántica de las respuestas, los investigadores realizaron una serie de pruebas a inteligencias artificiales que incluían diferentes tipos de preguntas. Por ejemplo, se formularon preguntas de conocimiento general:

  • ¿Cuál es la capital de Francia?
  • ¿Quién es el autor de '1984'?
  • ¿Cuál es el elemento químico con el símbolo 'O'?

En la mayoría de los casos, las máquinas proporcionaron respuestas coherentes y correctas, como cuando se le hacen preguntas de trivial a alguien con cultura general.

También se les trasladaron preguntas habituales en Google:

  • ¿Cuáles son los beneficios del ejercicio regular?
  • ¿Cómo afecta la dieta al sueño?

La ingesta de información de las máquinas desde miles de fuentes les permitió dar respuestas correctas en estos casos. Lo mismo ocurrió con las matemáticas:

  • ¿Cuál es la raíz cuadrada de 144?
  • Si 2𝑥 + 3 = 7, ¿cuál es el valor de 𝑥?

Sin embargo, los problemas surgieron, por ejemplo, con las preguntas sobre ciencias naturales o salud:

  • ¿Cuál es el propósito del medicamento "Sotorasib"?
  • ¿Qué es el KRASG12?

También se les pidió que generaran biografías de personajes históricos. Estos dos últimos grupos de preguntas fueron elegidos por los expertos porque, en temas especializados, a menudo se requiere una precisión mayor y, explican, "pueden ser áreas donde los modelos de lenguaje sean más propensos a alucinar".

Efectivamente, las inteligencias artificiales mostraron respuestas "alucinadas" (confabulaciones) en estos campos, especialmente cuando se les preguntaba sobre hechos menos conocidos o más ambiguos. Por ejemplo, cuando se les preguntó sobre "Sotorasib", la IA proporcionó respuestas "confabuladas" sobre su uso y efectos, y confundió el gen KRASG12C con el KRASG12D. Esto puede parecer trivial, pero podría suponer un error médico que, en el futuro, podría costarle la vida a un paciente.

Cuando se les pidió generar biografías o párrafos, la IA mostró "confabulaciones" al crear afirmaciones incorrectas y arbitrarias sobre personas y sus logros.

Para solucionar estos problemas, han creado un nuevo método para detectar esas "alucinaciones" o "confabulaciones" -respuestas incorrectas o arbitrarias- en modelos de lenguaje. Dicen que esto ayudará a mejorar su funcionamiento y permitirá que sus respuestas puedan utilizarse, por ejemplo, en ámbitos legales o médicos, donde la precisión es vital.

El sistema diseñado por los investigadores Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn y Yarin Gal calcula la incertidumbre a través de las preguntas. Es decir, nos avisa cuando una pregunta "probablemente provocará una alucinación en la IA", similar a cómo evaluamos la probabilidad de precisión en los pronósticos climáticos.

Esto ayudará a los usuarios, explican, a entender cuándo deben ser más cautelosos con las respuestas proporcionadas por la IA.

Javier Ruiz Martínez

Javier Ruiz Martínez

Redactor de temas de sociedad, ciencia e innovación en la SER. Trabajo en el mejor trabajo del mundo:...

 

Directo

  • Cadena SER

  •  
Últimos programas

Estas escuchando

Hora 14
Crónica 24/7

1x24: Ser o no Ser

23/08/2024 - 01:38:13

Ir al podcast

Noticias en 3′

  •  
Noticias en 3′
Últimos programas

Otros episodios

Cualquier tiempo pasado fue anterior

Tu audio se ha acabado.
Te redirigiremos al directo.

5 "

Compartir