Sora: qué es y cómo funciona la IA de vídeos de OpenAI

Una de las grandes innovaciones que ha presentado OpenAI este año es Sora. Hablamos de un modelo de inteligencia artificial que puede crear vídeos hiperrealistas a partir de una descripción de texto. Se trata de una herramienta lo suficientemente capaz en su versión inicial como para hacernos replantear —todavía más— la veracidad de todo lo que vemos en línea. Pero también, con el potencial de cambiar drásticamente la industria de los creadores de contenido y del entretenimiento en general.

Lo que propone Sora en cuanto a su funcionamiento no escapa demasiado de lo que ya aprendimos al interactuar con otras herramientas de IA generativa. Al igual que con DALL-E, los usuarios de la nueva plataforma de OpenAI solo tienen que introducir una descripción de texto o prompt, y la aplicación se encargará del resto. Con Sora, el resultado final no es una imagen fija, sino un vídeo de hasta 60 segundos de duración y en Full HD (1080p).

Si bien el primer impacto que provoca Sora es por la calidad de sus vídeos y el nivel de detalle que llevan, pudiendo interpretar instrucciones extremadamente precisas y técnicas, lo que realmente sobresale es cómo OpenAI ha logrado evolucionar los clips generados con inteligencia artificial en tan poco tiempo. Hace apenas un año, ni siquiera aparentaba factible que se pudieran crear materiales visuales tan realistas a partir de texto.

Como bien lo marcó el youtuber Marques Brownlee algún tiempo atrás, si comparamos el vídeo de Will Smith comiendo espaguetis con lo que ahora puede hacer Sora, el salto es sencillamente brutal. Otros casos notorios de aquellos primeros esfuerzos fueron el intento de recrear Heidi con IA, o ese anuncio de cerveza catalogado como “fantásticamente horrendo”.

Qué es Sora
¿Cómo usar Sora?
Cómo se ha entrenado Sora: entre el secretismo y la controversia
La IA busca un lugar en Hollywood
¿Cuándo estará disponible Sora?

Qué es Sora

Sora se anunció a mediados de febrero pasado, causando gran sorpresa entre el público. Recordemos que OpenAI venía de transitar un fin de 2023 extremadamente convulsionado tras el despido y el posterior regreso de Sam Altman como CEO. Nadie esperaba que apenas unos meses más tarde la startup sacudiera de nuevo el mercado con una app así de impactante.

A fines de enero, investigadores de Google Research y otras instituciones habían presentado Lumiere, una IA para generar vídeos e imágenes animadas a partir de texto. Dicha utilidad podía crear clips de hasta 5 segundos de duración, con 80 cuadros a 16 fotogramas por segundo y una resolución de 1024 x 1024 píxeles. Los resultados con esta herramienta eran... interesantes. Pero la aparición en escena de Sora apenas unas semanas más tarde dejó en evidencia sus limitaciones y demostró que la tecnología de OpenAI jugaba en otra liga.

Tras el anuncio de Sora han aparecido varias aplicaciones tratando de posicionarse como alternativas factibles. Sin embargo, la mayoría deja bastante que desear. Hasta aquí, las únicas herramientas que se han presentado como potenciales contendientes son Haiper y Stable Video 3D. Pero la primera puede crear vídeos de solo 2 o 4 segundos, y la segunda se especializa en la generación de múltiples vistas en 3D de un mismo objeto.

¿Cómo usar Sora?

Como indicamos al comienzo, el funcionamiento de Sora no difiere del de otras aplicaciones o herramientas basadas en IA generativa, sean o no de OpenAI. Los usuarios escriben una descripción de texto y el modelo se encarga de convertirla en un vídeo de hasta un minuto de duración y con resolución 1080p.

Tras su anuncio, Sam Altman presumió de cómo usar Sora y sus capacidades a través de X (Twitter), usando la plataforma para crear clips siguiendo instrucciones de sus seguidores. El líder de la startup sacó pecho y dijo que la tecnología era capaz de resolver cualquier solicitud, sin importar cuán compleja fuera.

Esto se debe a que el generador de vídeos ha utilizado la misma técnica de recaptioning de DALL-E 3. Esto significa que el material visual usado para entrenar a Sora ha incorporado descripciones de texto extremadamente específicas, lo que le ha dado la capacidad de entender con mayor fidelidad las instrucciones de los usuarios.

"Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que desbloquea un rendimiento de escalado superior. Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto".
OpenAI.

Si bien la característica principal a la hora de cómo usar Sora es la habilidad de crear vídeos a partir de una descripción de texto, no se limita a ello. De hecho, la inteligencia artificial también se puede usar para animar una imagen ya existente. Y a esto se suma la opción de generar fotogramas para extender la duración de un vídeo. Lo último tiene gran potencial en entornos de producción y creación de contenidos, y Adobe pretende integrar esta tecnología en Premiere Pro.

Cómo se ha entrenado Sora: entre el secretismo y la controversia

Que Sora haya logrado evolucionado la creación de vídeos con inteligencia artificial en tan poco tiempo, está generando sospechas. En la web ya se ha elevado el dedo acusador contra OpenAI por supuestamente utilizar material protegido por derechos de autor para entrenar este modelo. Sin embargo, esto aún no se ha comprobado.

Las conjeturas al respecto volvieron a resonar en marzo, tras una entrevista de Mira Murati, jefa tecnológica de la startup, con The Wall Street Journal. Cuando le preguntaron si se había entrenado a Sora con vídeos extraídos de YouTube, Facebook e Instagram, la ejecutiva dijo que no lo sabía. Luego trató de salir del enredo aseverando que se había utilizado información disponible públicamente y datos licenciados.

Pese a ello, las precisiones sobre de dónde provinieron las imágenes utilizadas para la creación de Sora siguen siendo pocas. La única certeza es que OpenAI se ha aliado con Shutterstock, uno de los principales proveedores de fotos y vídeos de stock del mundo.

Desde YouTube, en tanto, lanzaron una advertencia a los de Sam Altman: usar sus vídeos para entrenar a Sora va contra las reglas. Neal Mohan, CEO de la plataforma, admitió no tener conocimiento de primera mano de que OpenAI estuviera incumpliendo con sus lineamientos. Pero, aun así, aprovechó para refrescarles la memoria a los de San Francisco: los términos de uso de YouTube impiden el uso de vídeos completos para entrenar modelos de lenguaje. Y tampoco permiten scrappear fragmentos de clips ni transcripciones de audio.

La IA busca un lugar en Hollywood

Uno de los grandes objetivos que persigue OpenAI es que Sora se haga un lugar en Hollywood. La compañía ya comenzó a hacer lobby ante los principales estudios de cine y TV para que le den una oportunidad a la inteligencia artificial. Miembros de la startup se reunieron también con agencias de representación y otros ejecutivos de la industria para promocionar esta herramienta.

Además, los de Sam Altman habrían habilitado el acceso a Sora a un número reducido de cineastas e intérpretes de primer nivel. La intención habría sido que probaran la tecnología y analizaran su posible adopción en futuras series o películas. Claro que el uso de la IA en grandes producciones aún es motivo de controversia y ha impulsado fuertes debates durante las huelgas de guionistas y actores de 2023.

Este es un tema que promete dar mucho más de qué hablar a lo largo de 2024...

¿Cuándo estará disponible Sora?

OpenAI | Sora | texto a video — Fotograma de un vídeo creado con Sora, de OpenAI.

La pregunta del millón: ¿cuándo estará disponible Sora? Aunque aún no podemos acceder a ella, esto podría cambiar en un plazo no demasiado largo. Mira Murati reconoció tiempo atrás que la idea de OpenAI es lanzar el generador de vídeos este mismo año, aunque no ofreció una fecha específica. Según mencionó la ejecutiva en marzo, su lanzamiento se daría en "unos cuantos meses".

Por lo pronto, esta herramienta continúa en etapa de pruebas. La firma californiana está trabajando con diseñadores, cineastas y artistas visuales para afinar la tecnología al máximo posible. Las principales compañías dedicadas a la IA están bajo gran escrutinio por el uso de su tecnología para crear deepfakes, de modo que la disponibilidad general de algo tan poderoso como Sora no se debe tomar a la ligera.

Se espera que, cuando Sora esté disponible, el modelo incluya salvaguardias para evitar que se puedan crear vídeos con figuras públicas como políticos, cantantes, actores, activistas, empresarios y demás. Mientras que en el apartado técnico, los desarrolladores aspiran a que la inteligencia artificial sea capaz de generar clips con audio, algo que hasta ahora no es posible.

Ya veremos qué novedades llegan en este frente. Lo que sí, ve preparando la cartera porque seguramente Sora no sea gratis. Murati advirtió que entrenarla es mucho más caro en comparación con otros modelos de IA. La intención de OpenAI sería ofrecer acceso a cambio de un precio similar al de la API de DALL-E. Ya veremos si esto se materializa.