OpenAI GPT-4o: voz, visión y multimodal en tiempo real (la era "Her" llegó antes)
El lunes 13 de mayo OpenAI presentó GPT-4o (la "o" es por "omni"), el primer modelo verdaderamente multimodal de la compañía: texto, audio y visión procesados de forma nativa por una sola red, sin pipeline de tres modelos encadenados como hasta ahora. La demo en vivo, con Mira Murati conversando en voz natural casi indistinguible de humana, marcó un antes y un después.
La demo también disparó dos cosas: el referencia inevitable a la película Her (Sam Altman tuiteó "her" la misma noche) y, días después, una controversia mayor con Scarlett Johansson, quien declaró que la voz "Sky" se parecía sospechosamente a la suya y que OpenAI le había pedido permiso para usarla, ella había rechazado, y la voz salió de todos modos. OpenAI retiró la voz Sky del producto.
Más allá del ruido, vale repasar qué cambia para empresas mexicanas que ya están usando o evaluando OpenAI.
Qué es realmente nuevo en GPT-4o
Multimodalidad nativa. Hasta GPT-4 Turbo, la conversación por voz con ChatGPT era tres modelos encadenados: Whisper (audio a texto), GPT-4 (texto a texto), TTS (texto a audio). Eso introducía latencia, perdía información (entonación, pausas, emoción) y limitaba las respuestas.
GPT-4o procesa los tres modos en una sola red entrenada end-to-end. La latencia bajó a aproximadamente 320 ms en promedio, que es el rango de respuesta humana en una conversación. Más importante: el modelo "escucha" y "ve" con riqueza, no solo decodifica.
Voz natural con prosodia. El modelo puede reírse, susurrar, cambiar de entonación, entender sarcasmo, responder a un cambio de tono. La demo en vivo mostró respiración, pausas y modulación que sonaban genuinamente conversacionales.
Visión integrada en tiempo real. El modelo puede ver lo que la cámara captura y conversar sobre eso. La demo mostró a un presentador escribiendo una ecuación en papel y al modelo guiándolo paso a paso.
Pricing 50% más barato que GPT-4 Turbo. $5 USD por millón de tokens input y $15 USD por millón de tokens output, contra los $10/$30 de GPT-4 Turbo. Para empresas que ya consumen volumen serio, la migración paga sola.
Velocidad 2x. Las respuestas de texto también son aproximadamente el doble de rápidas que GPT-4 Turbo, con calidad equivalente o superior en la mayoría de benchmarks.
La controversia voz Sky
OpenAI argumentó que Sky fue contratada antes de acercarse a Scarlett Johansson y que el parecido era coincidencia. Johansson contradijo la versión y la voz se retiró. La lectura: el cuidado con voces sintéticas que se parecen a personas reales se vuelve un tema legal y reputacional serio. Para empresas que clonen voces (CEO, vocero) en asistentes, tratar el consentimiento como cualquier derecho de imagen.
Casos enterprise donde GPT-4o cambia las reglas
Atención a clientes con voz natural
Hasta ahora, los IVRs y bots por voz sonaban exactamente como bots, y los usuarios los rechazaban. Una conversación con GPT-4o en voz natural, con interrupciones permitidas, manejo de cambios de tema y comprensión real de matices, puede mover el NPS de manera notable.
Casos donde lo vemos venir primero: bancos para consultas de saldo y soporte, telcos para activación de servicios, retail para seguimiento de pedidos. La oportunidad para empresas mexicanas medianas: ya no necesitas equipo de voice design ni proveedor especializado para tener bot por voz que no irrite.
Dictado y dictation con contexto
Para profesionales que dictan reportes (médicos, abogados, analistas), GPT-4o entiende el contenido a la vez que lo transcribe. Eso permite estructurar el output (secciones, formato, terminología técnica) sobre la marcha, no como pipeline separado.
Accesibilidad
Asistentes para personas con discapacidad visual que pueden describir el entorno en tiempo real, leer documentos, identificar productos. La diferencia con la generación anterior es que ahora la conversación fluye, no es comando-respuesta.
Aprendizaje y onboarding
Tutores de idiomas con conversación realmente natural. Onboarding de nuevos empleados que pueden preguntar dudas y recibir explicaciones moduladas según el nivel de quien pregunta. Ambos casos eran posibles antes pero la fricción de la voz robótica los limitaba.
Inspección visual asistida
Operadores de campo que muestran a la cámara un equipo o documento y reciben guía paso a paso. Para mantenimiento industrial, retail compliance y logística, abre flujos que antes requerían experto humano en línea.
Cómo migrar desde GPT-4 Turbo
La migración técnica es trivial: cambiar el nombre del modelo en la llamada API (gpt-4o en lugar de gpt-4-turbo). Las recomendaciones operativas:
1. Migrar primero las cargas de alto volumen. El ahorro del 50% se nota más donde más gastas. Empieza por los endpoints que más tokens consumen.
2. Probar latencia real desde tu región. GPT-4o promete latencias bajas, pero la red entre tu infraestructura y los datacenters de OpenAI es variable. Mide p95 real con tus payloads.
3. Re-evaluar prompts. GPT-4o tiene comportamientos sutilmente distintos. Correr evals antes de switchear producción.
4. Cuidado con voz/Realtime. Las capacidades de voz están en rollout escalonado solo para Plus/Team; la API Realtime llega más adelante en 2024.
5. Visión: revisar si tus pipelines actuales con GPT-4 Vision migran 1:1 (en la mayoría de casos sí, con ahorro).
Lo que no es nuevo (y la API aún no entrega)
Importante calibrar expectativas: la voz natural impresionante de la demo del 13 de mayo aún no está disponible en la API de OpenAI ni en ChatGPT al cierre de esta semana. El rollout es gradual, primero en la app de ChatGPT para usuarios Plus, después API.
Si tu plan de producto depende de voz natural en producción para Q2, no apuestes la fecha contra el rollout de GPT-4o voz. Tener plan B (voz vía Whisper + GPT-4o + TTS estándar) hasta que la API Realtime esté disponible y estable.
Implicaciones competitivas: la próxima semana
GPT-4o se presentó un día antes de Google I/O, y eso no fue casual. Google va a anunciar Gemini 1.5 Pro / Flash y un asistente multimodal (Project Astra) que parece tener ambición similar. Microsoft Build empieza el 20 de mayo. La semana del 14-23 de mayo va a ser probablemente la más densa del año en anuncios de IA.
Para empresas mexicanas, el mensaje práctico es: no tomes decisiones definitivas de plataforma esta semana. Espera a ver el cuadro completo (Google, Microsoft, Apple en junio, Anthropic más adelante) antes de comprometer arquitectura a un solo proveedor.
La lectura larga
GPT-4o no es solo "GPT-4 más barato". Es el primer paso real hacia una interfaz humano-máquina que se siente conversacional en lugar de transaccional. Eso cambia diseño de producto, no solo selección de modelo.
Las empresas que entren con productos que aprovechen voz y visión nativas en los próximos 6 meses van a tener una ventana de diferenciación. Las que esperen a ver "qué pasa" van a llegar tarde a una expectativa de usuario que se va a establecer rápido.
La era "Her" no llegó completamente todavía, pero el horizonte se acercó mucho esta semana.
¿Quieres explorar voz natural en tu producto? Conversemos. Agenda una sesión de 45 minutos y revisamos juntos los casos donde GPT-4o puede mover el negocio.