DeepSeek V4 y la nueva ola de modelos open-source: Llama 4, Qwen y por qué ya no necesitas API

DeepSeek V4 y la nueva ola de modelos open-source: Llama 4, Qwen y por qué ya no necesitas API

El 3 de abril, Reuters publicó que DeepSeek prepara el lanzamiento de V4 "en las próximas semanas": 1 billón de parámetros totales, 32 mil millones activos por token (MoE), contexto de 1 millón de tokens. Es el siguiente capítulo de una historia que arrancó hace exactamente 15 meses, cuando DeepSeek R1 sacudió a Nvidia y reinició la conversación sobre lo que se puede hacer con presupuestos chinos.

V4 no llega solo. Llama 4 (Scout, Maverick, Behemoth) es ya el ecosistema open-weight más desplegado del mundo, con soporte para 10 millones de tokens de contexto y arquitectura MoE. Qwen 3 sigue ganando terreno en multilingüe y tareas estructuradas. Y solo en el primer trimestre de 2026 contamos 255 lanzamientos de modelos, contando variantes y fine-tunes serios. Para una empresa mexicana, la pregunta de "¿API administrada o modelo propio?" tiene hoy una respuesta distinta a la de hace seis meses.

Qué trae DeepSeek V4

Los datos confirmados hasta el cierre de esta nota:

  • Arquitectura Mixture of Experts. 1T parámetros totales, 32B activos por token. La proporción es agresiva incluso comparada con la generación anterior, lo que apunta a costo de inferencia bajo a pesar del tamaño nominal.
  • Contexto de 1M tokens. Suficiente para procesar bases documentales completas en una sola llamada (contratos, expedientes, libros, código fuente entero de proyectos medianos).
  • Pesos abiertos prometidos, manteniendo la línea de las versiones anteriores.
  • Optimización para inferencia en GPUs accesibles. El equipo de DeepSeek ha sido consistente en que el modelo debe poder correrse fuera de los hyperscalers.

Lo que falta confirmar: licencia exacta, calidad real en español, comportamiento en tareas agenticas multi-step. Sabremos en cuestión de semanas.

Llama 4: el más desplegado, no el más vistoso

Mientras DeepSeek acapara titulares, Llama 4 se volvió la opción por defecto en producción para muchas empresas. Las razones no son glamorosas:

  • Tres tamaños (Scout, Maverick, Behemoth) para cubrir desde edge hasta data center.
  • MoE bien optimizado para los runtimes más comunes (vLLM, TGI, SGLang).
  • 10M tokens de contexto en el flagship, suficiente para casos prácticos sin ingeniería extra.
  • Ecosistema masivo de fine-tunes para verticales y dominios específicos.
  • Licencia Llama suficientemente permisiva para uso comercial en la mayoría de los casos.
  • Soporte de primer nivel en Bedrock, Vertex, Together, Fireworks, Groq.

Llama 4 no gana benchmarks puntuales contra los modelos cerrados top, pero gana en costo de operación, ecosistema y previsibilidad. Eso, para producción, importa más.

Qwen 3: el que más crece en silencio

Qwen 3 de Alibaba es el modelo open-weight que más crece en uso real, especialmente en escenarios:

  • Multilingüe verdadero (no solo "habla varios idiomas, mejor en inglés").
  • Tareas estructuradas (extracción de datos, JSON estricto, llamadas a herramientas).
  • Razonamiento matemático y de código competitivo con los modelos top.

Para empresas mexicanas con operaciones multilingües (clientes en EE.UU., América Latina, Asia) o con casos de uso que requieren outputs estructurados confiables, Qwen 3 entra al short list.

La pregunta operativa: ¿API o modelo propio?

Hace 15 meses dijimos que la conversación era "segmenta tu portafolio de cargas de IA". Sigue siendo válido. Lo que cambió es dónde está la frontera entre "API tiene sentido" y "modelo propio gana".

Donde el modelo propio ya gana

Alto volumen, dominio acotado. Procesamiento masivo de documentos, clasificación, extracción, búsqueda semántica. Si tu empresa procesa miles de documentos por día, la cuenta favorece el modelo propio. Una sola GPU H100 (o equivalente) corriendo Llama 4 Maverick maneja volúmenes que en API costarían varias veces lo que cuesta el alquiler de la máquina.

Datos sensibles donde la nube pública agrega fricción. Banca, salud, gobierno, sectores donde el comité de seguridad sigue prefiriendo "datos en infraestructura controlable" aunque la nube ofrezca cláusulas de no-retención. Modelo propio en VPC propia o en infra on-prem cierra esa conversación.

Latencia predecible y consistente. Si tu producto depende de respuestas en menos de un segundo y no puedes vivir con la variabilidad de una API pública (que tiene picos de uso de otros clientes), correr el modelo en infra controlada da más previsibilidad.

Customización profunda. Fine-tunes con datos propios, embeddings ajustados al dominio, comportamientos específicos del negocio. Más fácil sobre modelos abiertos.

Donde la API administrada sigue ganando

Calidad máxima en tareas creativas o de razonamiento amplio. Para textos con matices culturales, decisiones estratégicas, razonamiento sobre dominios mixtos, los modelos cerrados top siguen unos pasos adelante.

Volumen bajo o variable. Si haces 10,000 llamadas al mes, no te metas a operar GPUs. La API es más barata y mucho menos compleja.

Casos donde "lo último" importa. Si necesitas siempre la última frontera de capacidad, las APIs reciben los modelos nuevos primero, sin que tú tengas que actualizar nada.

Equipos sin ingeniería de ML. Operar un modelo propio en producción no es solo "rentar una GPU". Hay observabilidad, optimización de batching, manejo de actualizaciones, fallbacks. Si no tienes el equipo, no es momento.

La matemática real: ejemplo concreto

Para ilustrar. Una empresa mediana que procesa 2 millones de tokens de input y 500 mil de output por día en un caso de extracción documental:

  • Vía API administrada de un modelo top: entre 800 y 1,500 USD al mes según el proveedor y el modelo elegido.
  • Vía modelo open-weight (Llama 4 Maverick) en API administrada (Together, Fireworks, Groq): entre 200 y 400 USD al mes.
  • Vía Llama 4 corriendo en una GPU H100 alquilada: entre 1,500 y 2,000 USD al mes en costo de máquina, pero con capacidad ociosa para muchas otras cargas.

La conclusión cambia con el volumen. Por debajo de cierto umbral, una API barata gana. Arriba, el modelo propio gana si tienes otras cargas que llenen la GPU. Sin esas otras cargas, la GPU dedicada se desperdicia y la API administrada sigue siendo más eficiente.

Cómo decidir en concreto

Lo que recomendamos en ALCA cuando un cliente nos plantea la pregunta:

  1. Inventario de cargas de IA. Cuántas hay, qué hacen, qué volumen mueven, qué calidad requieren. Sin este mapa, cualquier decisión es a ciegas.
  2. Clasificación por sensibilidad y volumen. Una matriz simple. Las cargas de alto volumen y datos sensibles son las primeras candidatas a modelo propio. Las de bajo volumen o datos públicos se quedan en API.
  3. Pruebas comparativas. No decidas en abstracto. Mide calidad real con tus prompts, tus datos, tus métricas de éxito. Sorprende cuántas veces el modelo open-weight es indistinguible del cerrado para el caso concreto.
  4. Plan de migración gradual. No muevas todo de un golpe. Mueve una carga, mídela tres meses, ajusta y luego mueve la siguiente.

La lectura larga

Hace un año dijimos que la era del proveedor único había terminado. Hoy ese diagnóstico es realidad operativa. Las empresas mexicanas que entren al segundo semestre de 2026 con una arquitectura híbrida bien diseñada (varias APIs administradas para lo que conviene + uno o dos modelos propios para lo de alto volumen) van a operar más barato, con más resiliencia y con mejor compliance.

DeepSeek V4 es la siguiente vuelta de tuerca. No será la última este año.


En ALCA acompañamos a empresas mexicanas con este tipo de decisiones. ¿Evaluando mover cargas de IA a modelo propio? Revisemos los números juntos. Agenda 30 minutos sin costo.

Artículos relacionados