OpenAI ha dado un importante salto este lunes con la presentación de GPT-4o, su modelo de lenguaje más potente hasta la fecha. Esta nueva versión de su IA cuenta con "inteligencia al nivel de GPT-4", pero con capacidades mucho más altas a la hora de interpretar audio e imágenes.

Durante la presentación de GPT-4o, Mira Murati, jefa tecnológica de la startup, explicó que el nuevo modelo estará disponible para todos los usuarios de ChatGPT. Esto significa que el chatbot no solo implementará esta tecnología en las versiones de pago, sino también en su variante gratuita.

Uno de los grandes beneficios de GPT-4o es que realiza el procesamiento de audio e imágenes de forma nativa. Esto ha permitido que la compañía realice varias demostraciones en directo, incluyendo algunas con prompts proporcionados por seguidores de X (Twitter).

Lo más destacado de GPT-4o es que permite interactuar de un modo más conversacional con ChatGPT al usar la voz. Así, los usuarios pueden interrumpir al modelo de lenguaje en mitad de una respuesta para solicitarle un cambio sobre el prompt original, sin que haya demoras ni problemas de latencia.

Los ingenieros de OpenAI también demostraron la capacidad de GPT-4o de interpretar en tiempo real lo que capturaba a través de la cámara de un smartphone. De este modo fue posible que ChatGPT ayudara a resolver una ecuación lineal y a que detectara las emociones de una persona al ver su rostro.

OpenAI anuncia una nueva IA que pronto llegará a todas las versiones de ChatGPT

Desde OpenAI indicaron que el despliegue de GPT-4o se dará de forma iterativa. En lo que respecta a ChatGPT, las capacidades de texto e imágenes de la nueva inteligencia artificial estarán disponibles a partir de hoy. Como ya indicamos, estará al alcance de los usuarios de la versión gratuita y de las variantes de pago como ChatGPT Plus. Eso sí, quienes accedan a la versión bajo suscripción tendrán límites de mensajes cinco veces más altos.

En lo que respecta al Modo Voz (Voice Mode) de GPT-4o, llegará en versión alpha a los suscriptores de ChatGPT Plus en próximas semanas. Vale remarcar que el acceso a esta tecnología no se limitará al chatbot de OpenAI. El modelo de lenguaje también estará disponible a través de la API de la compañía. Sam Altman publicó en X (Twitter) durante la presentación que GPT-4o costará la mitad, será el doble más rápido y tendrá límites 5 veces más altos que GPT-4 Turbo a través de la API.

¿Por qué GPT-4o?

Según explica OpenAI, la "o" corresponde a "omni". De hecho, durante la presentación se hizo referencia a esta inteligencia artificial como un omnimodel, u omnimodelo, debido a su capacidad de interactuar, combinar, comprender y ofrecer respuestas tanto en texto, como en audio y vídeo.

Los desarrolladores indican que GPT-4o puede responder a pedidos con la voz con una latencia que apenas 232 milisegundos, aunque el promedio es de 320 milisegundos. Esto es una evolución brutal en comparación con GPT-4, donde el promedio de respuesta del Modo Voz de ChatGPT rondaba los 5,4 segundos.

"Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones".

OpenAI.

GPT-4o iguala el rendimiento de GPT-4 Turbo al lidiar con código y con texto en inglés. Sin embargo, también introduce "mejoras significativas" al trabajar con otros idiomas como método de entrada. Durante la presentación se pudo observar cómo la IA traducía una conversación en tiempo real entre inglés e italiano.

En materia de seguridad, OpenAI dice estar al tanto de que las nuevas capacidades de GPT-4o pueden presentar nuevos riesgos. Es por ello que su liberación al público general se dará de forma paulatina. Como indicamos previamente, a partir de hoy los usuarios de ChatGPT podrán comenzar a utilizar esta IA con texto e imágenes como método de entrada, pero solo con texto como método de salida. Las respuestas con audio llegarán más adelante y se limitarán, en principio, a un catálogo de voces preseleccionadas.

La startup dirigida por Sam Altman también ha publicado un vídeo mostrando las limitaciones del Modo Voz de GPT-4o. Entre los principales problemas se observa la falta de comprensión a ciertos prompts en idiomas diferentes al inglés, o hasta mezclando lenguajes en sus respuestas.