OpenAI GPT-4o mini: el sweet spot de costo-calidad y por qué reemplaza GPT-3.5 Turbo
OpenAI presentó GPT-4o mini el 18 de julio, su nuevo modelo "pequeño" pensado para casos de alto volumen. Las cifras importan: $0.15 USD por millón de tokens de entrada y $0.60 por millón de tokens de salida, calidad cercana a GPT-4o en la mayoría de los benchmarks generales y soporte de visión y herramientas. Para contexto, eso es alrededor del 60% más barato que GPT-3.5 Turbo y prácticamente lo mismo que cuesta hoy mantener una API de embeddings.
El cambio no es solo un ajuste de pricing: redefine qué modelo conviene usar en aplicaciones donde el volumen pesa más que la calidad de frontera. En ALCA llevamos varios proyectos con cargas grandes corriendo en GPT-3.5 Turbo y la migración a GPT-4o mini ya entró al backlog de la mayoría.
Qué trae GPT-4o mini
Los detalles técnicos relevantes para una empresa:
- Contexto de 128k tokens (vs 16k de GPT-3.5 Turbo). Permite RAG con bloques más grandes y conversaciones largas sin cortar historial.
- Soporte multimodal de visión desde el día uno. Imágenes y texto en el mismo prompt.
- Function calling y herramientas estables, igual que GPT-4o.
- Knowledge cutoff actualizado a octubre de 2023.
- Latencia notablemente menor que GPT-4o, en muchas tareas comparable a 3.5 Turbo.
OpenAI declara que GPT-4o mini supera a GPT-3.5 Turbo en MMLU, MGSM (matemáticas multilingües) y HumanEval. En pruebas internas que corrimos esta semana sobre clasificación de tickets de soporte en español, la calidad subió de manera consistente sin cambios al prompt.
El cálculo de costos en español, con números concretos
Pensemos en una aplicación que clasifica y resume 100,000 correos al mes (caso real de soporte interno en una empresa de servicios financieros). Asumamos prompts de 800 tokens de entrada y respuestas de 200 tokens de salida promedio.
| Modelo | Costo input | Costo output | Total mensual |
|---|---|---|---|
| GPT-3.5 Turbo (0125) | 80M tokens × $0.50 = $40 | 20M tokens × $1.50 = $30 | $70 USD |
| GPT-4o mini | 80M tokens × $0.15 = $12 | 20M tokens × $0.60 = $12 | $24 USD |
| GPT-4o | 80M tokens × $5.00 = $400 | 20M tokens × $15.00 = $300 | $700 USD |
A esa escala los números son chicos, pero el patrón es claro: GPT-4o mini cuesta alrededor de un tercio de GPT-3.5 Turbo, con calidad mayor. A volúmenes 10x o 100x mayores (chatbots de retail, validación documental masiva), la diferencia se vuelve significativa rápidamente.
Casos donde GPT-4o mini gana
Después de probarlo en aplicaciones internas y de algunos clientes, recomendamos migración para:
- Clasificación de texto: tickets, correos, leads, intents en chatbots.
- Extracción de datos estructurados desde documentos PDF, contratos sencillos, facturas.
- RAG general sobre bases de conocimiento donde la pregunta es factual y la respuesta cabe en pocos párrafos.
- Chat de soporte nivel 1 en aplicaciones de cara al cliente, con conocimiento acotado en el prompt.
- Resúmenes y reformulaciones masivas (newsletters, reportes, transcripciones).
- Agentes de bajo riesgo donde el costo por token está limitando experimentación.
Casos donde NO conviene
GPT-4o mini sigue siendo un modelo "pequeño". Para tareas donde la calidad de razonamiento o el dominio especializado pesan más que el costo, mantén GPT-4o, Claude 3.5 Sonnet u otros modelos de frontera:
- Razonamiento complejo que requiera planificación a varios pasos.
- Generación o revisión de código avanzada en producción.
- Dominios técnicos especializados (legal mexicano profundo, médico clínico, fiscal con criterios SAT) donde un error tiene costo alto.
- Decisiones que afectan revenue o exposición legal: vale la pena pagar más por la mejor respuesta.
La regla de dedo que estamos usando: si un humano experto puede revisar la respuesta en pocos segundos y corregirla, GPT-4o mini es candidato. Si el output va a producción sin revisión humana y un error tiene costo, todavía conviene un modelo de frontera.
Comparativa con Claude 3 Haiku y Gemini 1.5 Flash
GPT-4o mini no juega solo en su categoría. Las dos comparaciones que importan:
- Claude 3 Haiku ($0.25 input / $1.25 output por millón). Más caro, pero excelente en seguir instrucciones largas y en tareas con tono específico. Sigue siendo nuestra recomendación cuando importa el matiz de la respuesta y tienes acuerdos con Anthropic ya en marcha.
- Gemini 1.5 Flash ($0.075 input / $0.30 output por millón). El más barato de los tres, contexto de 1M de tokens, fuerte en multimodal. Si ya estás en GCP o necesitas procesar contexto enorme (libros completos, transcripciones largas), vale la pena evaluarlo.
GPT-4o mini queda en medio: muy barato, calidad sólida, ecosistema OpenAI maduro. Para la mayoría de empresas mexicanas que ya operan con OpenAI, es la opción de menor fricción.
Plan de migración desde GPT-3.5 Turbo
Si tienes cargas en GPT-3.5 Turbo, recomendamos un plan corto en cuatro pasos:
- Inventario de prompts y tráfico actual: qué endpoints usan 3.5 Turbo, cuánto consumen, qué calidad miden.
- Banco de pruebas con 100-300 ejemplos representativos por caso de uso. Etiqueta lo que considera "respuesta aceptable".
- Corre el banco con GPT-3.5 Turbo y GPT-4o mini en paralelo, compara calidad y costo. Sin esto, el cambio es a ciegas.
- Migra por endpoint, no en bloque. Empieza por los de menor riesgo (clasificación interna, resúmenes), deja para el final lo que toca al cliente.
En la mayoría de los proyectos donde lo hicimos esta semana, calidad subió y costo bajó al mismo tiempo. Es de los pocos cambios técnicos que se pagan solos en el primer mes.
Una nota sobre lock-in
Toda esta conversación es sobre OpenAI. Vale recordar que Anthropic, Google, Meta (con Llama 3 y lo que viene) y los proveedores hosted (Together, Fireworks, OpenRouter) tienen ofertas competitivas en el mismo rango de precios. Si tu arquitectura permite cambiar modelo con un flag, el ahorro acumulado a lo largo del año puede ser sustancial. Si todo está hardcodeado a un SDK específico, este es buen momento para abstraer.
¿Quieres migrar de GPT-3.5 a GPT-4o mini sin romper la app? Te ayudamos. En ALCA hacemos evaluación, banco de pruebas y plan de migración de modelos en producción. Agenda 30 minutos con nuestro equipo.