OpenAI anunció el lunes un nuevo modelo de IA generativa insignia que llaman GPT-4o; la “o” significa “omni”, refiriéndose a la capacidad del modelo para manejar texto, voz y video. GPT-4o se implementará de forma “iterativa” en los productos para desarrolladores y consumidores de la compañía en las próximas semanas.
La directora de tecnología de OpenAI, Mira Murati, dijo que GPT-4o proporciona inteligencia de nivel GPT-4 pero mejora las capacidades de GPT-4 en múltiples modalidades y medios.
“GPT-4o razona a través de voz, texto y visión,” dijo Murati durante una presentación en vivo en las oficinas de OpenAI en San Francisco el lunes. “Y esto es increíblemente importante, porque estamos mirando hacia el futuro de la interacción entre nosotros y las máquinas.”
GPT-4 Turbo, el modelo “más avanzado” anterior de OpenAI, fue entrenado con una combinación de imágenes y texto y podía analizar imágenes y texto para realizar tareas como extraer texto de imágenes o incluso describir el contenido de esas imágenes. Pero GPT-4o agrega voz a la mezcla.
Esto habilita una variedad de cosas.
GPT-4o mejora enormemente la experiencia en el chatbot con IA de OpenAI, ChatGPT. La plataforma ha ofrecido desde hace tiempo un modo de voz que transcribe las respuestas del chatbot usando un modelo de texto a voz, pero GPT-4o potencia esto, permitiendo a los usuarios interactuar con ChatGPT más como un asistente.
Por ejemplo, los usuarios pueden hacer una pregunta al ChatGPT potenciado por GPT-4o y interrumpir al ChatGPT mientras está respondiendo. El modelo ofrece capacidad de respuesta "en tiempo real", dice OpenAI, e incluso puede captar matices en la voz de un usuario, generando voces en "una variedad de estilos emotivos" (incluido cantar).
GPT-4o también mejora las capacidades de visión de ChatGPT. Dada una foto, o una pantalla de escritorio, ChatGPT ahora puede responder rápidamente a preguntas relacionadas, desde temas que van desde “¿Qué está pasando en este código de software?” hasta “¿De qué marca es la camisa que lleva puesta esta persona?”
Estas funciones evolucionarán aún más en el futuro, dice Murati. Mientras que hoy GPT-4o puede mirar una imagen de un menú en un idioma diferente y traducirlo, en el futuro, el modelo podría permitir a ChatGPT, por ejemplo, "ver" un partido de deportes en vivo y explicarte las reglas.
“Sabemos que estos modelos se están volviendo cada vez más complejos, pero queremos que la experiencia de interacción realmente se vuelva más natural, fácil y que no tengas que concentrarte en la IU en absoluto, sino simplemente en la colaboración con ChatGPT,” dijo Murati. “Durante los últimos años, nos hemos centrado mucho en mejorar la inteligencia de estos modelos… Pero esta es la primera vez que realmente damos un gran paso adelante en cuanto a la facilidad de uso.”
OpenAI asegura que GPT-4o es más multilingüe, con un rendimiento mejorado en alrededor de 50 idiomas. Y en la API de OpenAI y en el Servicio OpenAI de Microsoft Azure, GPT-4o es el doble de rápido, la mitad de caro y tiene límites de tasa más altos que GPT-4 Turbo, dice la compañía.
Actualmente, la voz no forma parte de la API de GPT-4o para todos los clientes. OpenAI, citando el riesgo de mal uso, dice que planea lanzar primero el soporte para las nuevas capacidades de audio de GPT-4o a “un pequeño grupo de socios de confianza” en las próximas semanas.
GPT-4o está disponible en el nivel gratuito de ChatGPT a partir de hoy y para los suscriptores de los planes premium de ChatGPT Plus y Team de OpenAI con límites de mensajes "5 veces más altos". (OpenAI señala que ChatGPT cambiará automáticamente a GPT-3.5, un modelo más antiguo y menos capaz, cuando los usuarios alcancen el límite de tasa).
La experiencia de voz mejorada de ChatGPT respaldada por GPT-4o llegará en versión alfa para los usuarios de Plus en el próximo mes aproximadamente, junto con opciones enfocadas en empresas.
En noticias relacionadas, OpenAI anunció que está lanzando una interfaz de usuario ChatGPT actualizada en la web con una pantalla de inicio y diseño de mensajes nuevos y “más conversacionales”, y una versión de escritorio de ChatGPT para macOS que permite a los usuarios hacer preguntas a través de un atajo de teclado o tomar y discutir capturas de pantalla. Los usuarios de ChatGPT Plus tendrán acceso a la aplicación primero, a partir de hoy, y una versión para Windows llegará más adelante en el año.
Por otro lado, la Tienda GPT, la biblioteca de OpenAI y las herramientas de creación de chatbots de terceros construidos en sus modelos de IA, ahora está disponible para los usuarios del nivel gratuito de ChatGPT. Y los usuarios gratuitos pueden aprovechar las funciones de ChatGPT que antes estaban detrás de un muro de pago, como una capacidad de memoria que permite a ChatGPT “recordar” las preferencias para interacciones futuras, cargar archivos y fotos, y buscar en la web respuestas a preguntas oportunas.
¡Estamos lanzando un boletín de IA! Regístrese aquí para comenzar a recibirlo en sus buzones el 5 de junio.