Así funcionan las videollamadas dobladas a tiempo real: la IA de Google ya traduce simulando tu voz, ritmo y tono

Una nueva funcionalidad de Google Meets, impulsada por Gemini, permite mantener conversaciones fluidas y naturales gracias a la inteligencia artificial

Probamos las videollamadas dobladas a tiempo real: la IA de Google ya traduce simulando voz, ritmo y tono de los interlocutores

00:00:0003:35

Descargar

El código iframe se ha copiado en el portapapeles

Pablo Anzola pabloanzola_

24/07/2025 - 11:58 CEST

Madrid

No solo traduce y dobla en tiempo real en videoconferencias de hasta 100 participantes, sino que emula tono, voz y emociones con apenas unos segundos de retraso. El nuevo traductor en tiempo real que Google presentó hace unas semanas, permite mantener una conversación fluida entre interlocutores de distintos idiomas.

Más información

"Hasta ahora el sistema aprendía la voz y a partir de ahí, podía sintetizarla y hablar con una voz parecida a la tuya. Este modelo traduce tu sonido y te lo devuelve directamente. La gran revolución de este nuevo sistema es que traducimos audio a audio", explica a la SER Javier Martínez, el director del equipo de preventa de Google Cloud.

Probarlo es sorprendemente. Desde la interfaz habitual de la videollamada, podemos activar la función de traducción simultánea de forma parecida a la que ya existe para agregar subtítulos. A partir de ese momento, si nuestro interlocutor habla en inglés pasaremos a escucharle en español. Y si nosotros hablamos en español, en nos escuchará en inglés. El sonido original se mantiene a un nivel más bajo y el doblaje pasa a ser protagonista.

El resultado es similar al de ver un discurso en televisión con doblaje simultáneo por un intérprete, con la diferencia de que, en este caso, lo que escuchamos se ajusta perfectamente al tono de voz y al ritmo del hablante.

Desde mayo, la traducción de voz en Google Meets está disponible en versión beta para los suscriptores de los planes Google AI Pro y Ultra. Inicialmente solo funciona con inglés y español, aunque en las próximas semanas se añadirán más idiomas.

Sin embargo, la mayoría de los modelos de lenguaje (LLM) siguen traduciendo palabra por palabra. “El gran reto ahora es conseguir que la traducción sea correcta y apropiada para el contexto”, nos cuenta Pilar Sánchez Gijón, catedrática del Departamento de Traducción e Interpretación de la Universidad Autónoma de Barcelona (UAB).

¿Hacia dónde vamos?

Para Julio Gonzalo, catedrático de lenguajes y sistemas informáticos en la UNED, el avance de estos sistemas seguirá transformando la forma en la que nos comunicamos a pasos agigantados. Vamos hacia "algún tipo de aparato que sea capaz de procesar la misma información audiovisual que estamos recibiendo nosotros".

Más información

Julio Gonzalo: “ChatGPT es como un supercuñado que se lo ha leído todo”

"Ya sea en forma de gafas o colgante", matiza, y que nos permita "manejarnos en una situación o contexto en idiomas completamente desconocidos para nosotros".

Pablo Anzola

Redactor en la Sección de Economía de la SER. Actualmente, escribo sobre vivienda, economía internacional,...