Sora es, con diferencia, el modelo de texto a vídeo más impactante que existe en la actualidad. La inteligencia artificial de OpenAI todavía no está disponible para el público general, pero ya se ha instalado un fuerte debate sobre con qué materiales se ha entrenado. La especulación por el posible uso de vídeos de YouTube no se ha hecho esperar, aunque no está comprobado. Y el líder de la plataforma no ha titubeado al lanzar una advertencia a Sam Altman y compañía: si usan sus vídeos estarán rompiendo las reglas.
En una entrevista con Bloomberg, Neal Mohan, CEO de YouTube, advirtió que extraer vídeos publicados en la plataforma para entrenar modelos de IA es una violación a sus términos de uso. No obstante, admitió no tener conocimiento "de primera mano" de que OpenAI hubiera utilizado el servicio perteneciente a Google para entrenar y perfeccionar a Sora.
El ejecutivo indicó, además, que ni siquiera Google, su casa matriz, tiene acceso irrestricto a YouTube para entrenar a Gemini, su IA de última generación. Mohan aclaró que no todos los creadores publican contenidos bajo los mismos términos de licencia, y que una porción menor de los vídeos sí puede ser utilizada por los de Mountain View. Pero que todo depende del tipo de acuerdo firmado por los usuarios.
En cuanto a OpenAI y Sora, el sucesor de Susan Wojcicki, explicó que los términos de uso no impiden solamente el uso de vídeos completos alojados en YouTube. Tampoco está permitido scrappear porciones de clips ni transcripciones de audio como material de entrenamiento de modelos de lenguaje.
Sora no se puede entrenar usando vídeos de YouTube
Pese a no estar al tanto de que OpenAI haya usado vídeos de YouTube para entrenar a Sora, es evidente que Neal Mohan no permanece ajeno a los rumores. "Desde la perspectiva de un creador, cuando subes tu arduo trabajo a nuestra plataforma, tienes ciertas expectativas. Una de esas expectativas es que se respeten los términos de servicio. Estos no permiten que se descarguen cosas como transcripciones o fragmentos de vídeos, que representan una clara violación a esos lineamientos. Esas son las reglas de juego en términos de contenido en nuestra plataforma", remarcó el ejecutivo.
Las sospechas de que OpenAI podría estar usando YouTube para entrenar a Sora se agudizaron tras una entrevista de Mira Murati con The Wall Street Journal. Cuando le preguntaron si habían aprovechado esta plataforma para perfeccionar su nueva IA, dijo que no lo sabía. Algo bastante curioso, considerando que es la jefa tecnológica de la compañía.
Los de Sam Altman han evitado brindar detalles sobre qué incluyen los sets de datos utilizados con Sora. Solo han indicado que utilizan "información disponible públicamente" y contenidos licenciados. Sobre esto último, lo único que se sabe es que OpenAI ha forjado una alianza con Shutterstock, uno de los principales proveedores de fotos y vídeos de stock del mundo.
La desconfianza contra OpenAI por el desarrollo de Sora no carece de fundamento. A comienzos de este año, la compañía aseveró que era imposible entrenar nuevos modelos de IA sin utilizar materiales protegidos por derechos de autor.
"Limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría producir un experimento interesante, pero no proporcionaría sistemas de inteligencia artificial que satisfacer las necesidades de los ciudadanos de hoy".
OpenAI.
La firma californiana tiene grandes planes para Sora. Recientemente, OpenAI ha comenzado a hacer lobby en Hollywood para su uso en películas y series de TV. Incluso se abrió su uso a algunos directores y artistas de primer nivel para que la prueben y vean su potencial.