Meta Llama 3.1 405B: el primer modelo open-weights en frontier-class

Meta Llama 3.1 405B: el primer modelo open-weights en frontier-class

El 23 de julio Meta liberó Llama 3.1 en tres versiones: 8B, 70B y 405B parámetros. La 8B y la 70B son refinamientos sólidos de la generación anterior, pero la noticia estructural es la 405B: el primer modelo open-weights que se mide de tú a tú con GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro en benchmarks de razonamiento, código, matemáticas y multilingüe.

Hasta hace una semana, "frontier-class" era sinónimo de "API cerrada de un puñado de proveedores estadounidenses". A partir del 23 de julio, hay un cuarto camino: descargar los pesos, correrlos donde decidas y operar sin depender de un solo vendor. Para empresas mexicanas, esto cambia el cálculo de cuándo conviene construir contra cuándo conviene comprar.

Qué entregó Meta

Resumen rápido por modelo:

  • Llama 3.1 8B. Pensado para edge, mobile y cargas de bajo costo. Calidad muy superior a la 8B de Llama 3 original.
  • Llama 3.1 70B. El "caballo de batalla". Compite con GPT-4o mini y Claude 3 Haiku en muchas tareas, con pesos abiertos.
  • Llama 3.1 405B. El primer modelo de pesos abiertos que en benchmarks públicos (MMLU, GSM8K, HumanEval, MATH) se ubica en el rango de GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro.

Detalles técnicos relevantes:

  • Contexto de 128k tokens en las tres versiones.
  • Multilingüe (incluye español de calidad notablemente mejor que generaciones anteriores).
  • Tool use y function calling nativos.
  • Licencia comercial Llama Community License con condiciones razonables para casi cualquier empresa (la cláusula de >700M usuarios mensuales no aplica a la mayoría).
  • Pesos disponibles públicamente en Hugging Face y mirrors oficiales.

Importante notar que Meta se cuidó de llamarlo "open-weights", no "open source": el código de entrenamiento y el dataset no se liberaron. Aun así, para uso empresarial los pesos abiertos cubren prácticamente todo lo que importa.

Lo que cambia la 405B

Tres cosas dejan de ser ciertas a partir de esta semana:

"Solo Microsoft, Google y Anthropic pueden ofrecer frontier." No. Cualquier equipo con acceso a infraestructura GPU puede servir un modelo en el mismo rango de calidad.

"Los modelos abiertos están una generación atrás." En tareas de propósito general, ya no. Sigue habiendo brechas en casos puntuales (ciertas evaluaciones de razonamiento avanzado, multimodalidad de imagen y audio, herramientas), pero la distancia es de meses, no de años.

"Para tener un modelo propio necesitas entrenar desde cero." No. Con Llama 3.1 70B (o incluso 405B vía proveedores hosted) y fine-tuning ligero, puedes tener un modelo adaptado a tu dominio en semanas, no años.

Cómo correr Llama 3.1 405B en la práctica

Esto no es un modelo que se baja a una laptop. Las opciones reales para una empresa mediana:

Infraestructura propia

La 405B requiere alrededor de 8 GPUs H100 de 80GB para inferencia con cuantización (FP8) o más en precisión completa. Eso significa una inversión inicial de cientos de miles de dólares en hardware, más operación de centro de datos. Justificable solo si:

  • Tienes volumen muy alto y predecible (cientos de millones de tokens al mes).
  • Compliance exige datos sin salida.
  • Ya tienes equipo de plataforma capaz de operar inferencia a esa escala.

Para 70B la barrera baja considerablemente: 1-2 H100 o un par de A100, manejable en muchas más empresas.

Proveedores hosted

La opción de menor fricción para arrancar. Together AI, Fireworks, Groq, OpenRouter y similares ofrecen Llama 3.1 405B vía API, con pricing en el rango de $3-5 USD por millón de tokens de entrada y $3-9 por millón de salida (varía por proveedor y se ha movido a la baja desde el lanzamiento). Más caro que GPT-4o mini, similar o ligeramente menor que GPT-4o, sin contrato con OpenAI.

Plataformas de nube

  • AWS Bedrock ya anunció disponibilidad de Llama 3.1 (incluyendo 405B en regiones selectas).
  • Azure AI Studio lo ofrece como modelo serverless.
  • Databricks Mosaic AI lo integra en su plataforma.
  • GCP Vertex AI sumó la familia a su catálogo.

Esto es relevante porque permite mantener Llama 3.1 dentro del mismo perímetro de seguridad y compliance que el resto de tus cargas en la nube, con facturación consolidada.

Cuándo justifica vs API

Después de evaluar varios escenarios con clientes esta semana, la regla práctica que estamos usando:

Quédate con API premium (GPT-4o, Claude 3.5 Sonnet) si:

  • Volumen es bajo o impredecible.
  • Calidad de frontera marca diferencia económica clara.
  • No tienes equipo para operar infraestructura propia.
  • El proveedor actual ya está integrado a tu stack y compliance.

Considera Llama 3.1 (vía hosted o nube) si:

  • Volumen es alto y la API premium se vuelve cara.
  • Necesitas fine-tuning con datos propios (Llama abre la puerta, las APIs cerradas también pero con menos control).
  • Quieres reducir lock-in con un solo proveedor.
  • Compliance pide modelos en infraestructura controlada (vía Bedrock, Vertex o Databricks).

Considera infraestructura propia (8x H100) si:

  • Volumen es muy alto y constante.
  • Caso de uso justifica la inversión por más de 24 meses.
  • Tienes equipo de plataforma listo o presupuesto para armarlo.

Lo importante para empresas mexicanas

Tres efectos que vemos en proyectos de las últimas semanas:

Soberanía de datos viable, no solo teórica. Hasta antes de Llama 3.1, "modelo propio dentro de México" era hablar de modelos chicos con calidad limitada. Con 70B (manejable en una sola GPU rentada) y 405B (vía Bedrock o Together), ya hay opciones reales para datos sensibles que no pueden salir del país o que necesitan estar bajo control directo.

Negociación con proveedores cambió. Si OpenAI o Anthropic son hoy tu único proveedor de IA, tienen palanca de pricing fuerte. Tener una alternativa de calidad equivalente (aunque no la uses) cambia la conversación de renovación.

Fine-tuning serio entra al menú. Para casos donde el modelo necesita conocer mucho de tu dominio (jurídico mexicano, fiscal, atención a un sector específico), fine-tunear Llama 3.1 70B con datos propios es ahora viable. Antes, alternativas en español de calidad eran limitadas.

Riesgos y matices honestos

No todo es ventaja. Tres cosas a considerar:

  • Operación es más compleja que llamar a una API. Si tu equipo no tiene experiencia con inferencia distribuida, la curva es real.
  • Velocidad de evolución. OpenAI, Anthropic y Google publican mejoras casi mensualmente. Con Llama dependes de los releases de Meta y de tu propio fine-tuning.
  • Soporte enterprise. Si Llama 405B vía Bedrock falla en producción, tu interlocutor es AWS, no Meta. Aclarar SLAs antes de poner en producción.

La lectura larga

Llama 3.1 405B no mata a OpenAI ni a Anthropic. Lo que hace es convertir el mercado de modelos de frontera en mercado abierto. En los próximos 12 meses vamos a ver más modelos open-weights de calidad similar (Mistral Large 2 ya salió el 24 de julio y apunta en la misma dirección) y empresas redefiniendo arquitecturas hacia portafolios de modelos en lugar de monovendor.


¿Evaluando Llama 3.1 para tu empresa? Revisemos costo-beneficio. En ALCA hacemos evaluación técnica, banco de pruebas y arquitectura de IA híbrida. Agenda una sesión de 45 minutos.

Artículos relacionados