El ChatGPT de los vídeos: así es la nueva herramienta de IA desarrollada por Google y con la que podrás crear vídeo a partir de texto

VideoPoet permite, entre otras funciones, crear y retocar contenido audiovisual a partir de texto e imágenes fijas con una sofisticada IA desarrollada por Google

Ilustración del logo de Google con un fondo electrónico y las siglas de Inteligencia Artificial en inglés. / SOPA Images

Redacción

Cadena SER30/03/2024 - 20:07 CET

Madrid

VideoPoet es una herramienta de Inteligencia Artificial desarrollada por Google que transforma textos e imágenes fijas en vídeo y permite través de IA editar, estilizar y cambiar el formato de los vídeos, entre otras muchas funciones. Esta herramienta, que funciona como una especie de ChatGPT o DALL-E pero con vídeos, todavía no tiene fecha de lanzamiento oficial, pero ya pueden conocerse sus posibles usos y es posible ver los primeros vídeos modificados con la aplicación. Google pretende así competir con la IA líder en este apartado, Sora, desarrollada por OpenAI.

Más información

Para generar grabaciones con VideoPoet el modelo de aprendizaje automático está entrenado para buscar en un conjunto de datos de imágenes y texto. A partir de un texto normal, al mismo modo que el modelo DALL-E, la aplicación genera un vídeo en movimiento relacionado con el escrito. Otra de sus funciones estrella es la capacidad de introducir movimiento en una fotografía fija, pudiendo mover icónicos cuadros como 'La Mona Lisa' o 'El caminante sobre el mar de nubes'.

Google acaba de lanzar VideoPoet, y es una locura

Es literalmente ChatGPT para:

- Texto a vídeo
- Imagen a vídeo
- Pintar
- Edición de vídeo

Aquí tienes 10 ejemplos salvajes : pic.twitter.com/5QdEqQYK93
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

1. De imagen a vídeo:

Mona Lisa bostezando. pic.twitter.com/x7A83mqSa9
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

2. Texto a vídeo

Un esqueleto bebiendo un vaso de refresco. pic.twitter.com/eGyXp8NTgr
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

Otras funciones posibles permiten extender un vídeo real a través de Inteligencia Artificial, o estilizar un vídeo editando los colores, cambiando los estilos o imaginando situaciones surrealistas como dos osos panda jugando a las cartas.

4. Estilización

Prompt :

Ositos de peluche patinando sobre hielo en un lago helado de aguas cristalinas. pic.twitter.com/JLosslLmKI
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

5. Humanos construyendo una autopista en Marte, cinematográfico. pic.twitter.com/AolvPylzeQ
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

6. Dos pandas jugando a las cartas. pic.twitter.com/cg91LfcCJt
— Alejandro Martinez | IA (@copyelpadrino) March 29, 2024

La página web de Google VideoPoet explica todas las funciones posibles del futuro programa con ejemplos visuales de cómo quedan los vídeos en el programa. La página resalta que la aplicación "utiliza modelos generativos para contar historias visuales".

Para mostrar un ejemplo, la compañía ha producido un cortometraje compuesto por muchos clips cortos generados por el modelo. Para el guión, ha pedido a Bard (conocido ahora como Google Gemini) que escribiera una serie de instrucciones para detallar una breve historia sobre un mapache viajero, generando videoclips para cada pregunta y uniéndolos para producir el cortometraje final.

Descubre la nueva app de Cadena SER Te ofrecemos una mejor experiencia de audio y video

Descargar

Un modelo de lenguaje autorregresivo aprende a través de las modalidades de vídeo, imagen, audio y texto para predecir auto regresivamente el siguiente token (proceso de sustitución de un elemento de datos) de vídeo o audio de la secuencia. Esta sencilla receta demuestra que los modelos lingüísticos pueden sintetizar y editar vídeos con un alto grado de coherencia temporal. El modelo VideoPoet permite generar vídeos en orientación cuadrada o vertical, así como generar audio a partir de una entrada de vídeo.

La aplicación pretende competir con Sora, el modelo de IA de texto a vídeo y multimodal desarrollado por OpenAI que permite generar vídeos realistas a partir de descripciones textuales.