Google presentó el que podría ser uno de los generadores de vídeos más avanzados hasta ahora: se llama Lumiere y permite crear contenido a partir de una descripción de texto o una imagen. Pero a diferencia de modelos de inteligencia artificial ya existentes, la compañía destaca que el suyo confecciona movimientos «realistas, diversos y coherentes». Y en solo segundos, por supuesto.

Google había presentado anteriormente otras herramientas de generación de vídeos, pero más limitadas que Lumiere. La nueva tecnología utiliza un modelo llamado Space-Time-U-Net (STUNet), que determina dónde están los objetos u elementos en un vídeo, cómo se mueven y cambian simultáneamente. Además de generar vídeos e imágenes animadas, puede copiar estilos artísticos, y hasta permite editar los clips creados.

«Demostramos resultados de generación de vanguardia y mostramos la aplicabilidad de nuestro enfoque para una amplia gama de implementaciones», dicen los desarrolladores en el reporte de la investigación. El modelo fue entrenado con más de 30 millones de vídeos, con sus subtítulos. Los californianos, al igual que otros desarrolladores, no revelaron la fuente de estos datos.

Lumiere tiene capacidad para generar 80 cuadros a 16 fotogramas por segundo, indicó Google. Esto permite vídeos de hasta cinco segundos de duración, con una resolución de 1024 x 1024 píxeles. Además, según un estudio realizado con usuarios, sus resultados fueron preferidos frente a los modelos de vídeo con inteligencia artificial existentes.

La advertencia de Google sobre el uso de Lumiere para deepfakes

YouTube video

Lumiere todavía no está disponible para pruebas, ni tampoco se sabe cuándo llegará o si alguna vez Google lo lanzará al público. Pero la compañía tuvo la bondad de dejarnos algunas muestras en un vídeo promocional. En algunos casos, si prestas atención, puedes ver algunas pistas en las caras de animales que revelan el uso de la inteligencia artificial. Pero hay otras escenas, como la de una tortuga nadando, que son impresionantemente realistas.

Google también demuestra la capacidad de Lumiere para crear escenas delirantes, como la de un panda manejando una auto o un gato tocando el piano. También alardea de su herramienta dándole movimiento a pinturas tan famosas como la Mona Lisa.

Una muestra de cómo Lumiere, de Google, copia el estilo a partir de una imagen de referencia.
Una muestra de cómo Lumiere copia el estilo a partir de una imagen de referencia.

Como la mayoría de las opciones hasta ahora, Google Lumiere no está diseñado para generar vídeos que impliquen varias tomas o transiciones entre escenas. «Generar dicho contenido sigue siendo un desafío abierto para futuras investigaciones», reconocen los autores.

Los desarrolladores de Google incluyeron una advertencia sobre cómo Lumiere podría impulsar la difusión de deepfakes. «Existe el riesgo de un uso indebido al crear contenido falso o dañino con nuestra tecnología», dicen en el reporte. «Creemos que es crucial desarrollar y aplicar herramientas para detectar sesgos y casos de uso maliciosos para garantizar una experiencia segura y justa».

La creación de contenido falsificado estalló una gran polémica la semana pasada, cuando se difundieron imágenes falsas y sexualmente explícitas de Taylor Swift. Hasta la Casa Blanca se pronunció al respecto. «Es alarmante», dijo Jean-Pierre, vocero de la oficina del presidente Joe Biden. El gobierno «está comprometido a garantizar que reduzcamos el riesgo de imágenes falsas de inteligencia artificial a través de acciones ejecutivas. El trabajo para encontrar soluciones reales continuará», escribió en X (antes Twitter).