Meta Llama 3 (8B y 70B): el modelo open que cambia el cálculo build vs buy de IA
Mañana, 18 de abril, Meta libera oficialmente Llama 3 en dos tamaños: 8B y 70B parámetros. Ya tenemos benchmarks preliminares y los pesos están disponibles bajo una licencia comercial razonablemente clara. La pregunta que vamos a recibir esta semana de varios clientes es la misma: "¿esto cambia algo para nosotros?". La respuesta corta es sí, y de manera más profunda que Llama 2.
Hace un año, recomendar a una empresa mediana mexicana que considerara correr su propio modelo era una conversación incómoda. Los modelos open eran inferiores, el stack era inestable y el costo operativo no compensaba. Llama 3 cambia esa conversación.
Lo que Meta está liberando
Llama 3 8B: modelo "pequeño" que corre cómodo en una GPU sola con 16-24 GB de VRAM. Supera a Llama 2 70B en varios benchmarks de razonamiento y código. Es el modelo perfecto para tareas acotadas de alto volumen donde la latencia y el costo importan más que la calidad de frontera.
Llama 3 70B: modelo grande que pelea con GPT-4 y Claude 3 Sonnet en muchos benchmarks (MMLU, HumanEval, GSM8K). Requiere infraestructura más seria (4x A100 o similar) o ejecutarlo cuantizado en hardware más modesto. Es la primera vez que un modelo open compite cuerpo a cuerpo con la frontera comercial.
La licencia es open-weights con condiciones comerciales: uso comercial permitido, redistribución permitida, requisitos de atribución y un límite que aplica solo a empresas con más de 700 millones de usuarios activos mensuales (es decir, no aplica a casi nadie en México). Para fines prácticos, es usable comercialmente sin friccion.
Meta anunció además que vendrá una versión 405B más adelante en el año. El 8B y el 70B ya bastan para mover la conversación.
Por qué importa: el cambio en el cálculo build vs buy
Hasta hoy, la decisión "construir IA con modelo propio o consumir API de OpenAI/Anthropic" tenía una respuesta casi automática para empresas medianas: usar API. La calidad era mejor, el costo de operación era menor y el tiempo a producción era una fracción.
Llama 3 cambia tres variables al mismo tiempo:
Calidad cierra la brecha. En tareas de razonamiento, generación de código, comprensión de español y resúmenes, Llama 3 70B se acerca a GPT-4 Turbo lo suficiente como para que la diferencia ya no justifique automáticamente el costo de API en muchos casos.
El stack maduró. Para correr Llama 3 hoy en producción, las opciones son varias y todas razonables: vLLM (open-source, muy alto throughput), Ollama (rápido para empezar y probar), Together AI y Fireworks (API hosted con pricing por token, sin operar GPUs), Replicate, AWS Bedrock (que sumará Llama 3 en semanas), Azure AI.
Los costos operativos bajaron. Una GPU A100 rentada en GCP o AWS está alrededor de $2-3 USD por hora. Con vLLM y batching agresivo, una sola GPU puede atender miles de tokens por segundo, lo que se traduce en costo por millón de tokens muy competitivo contra APIs comerciales.
Stack para correrlo hoy
Si quieres experimentar esta semana, las opciones por orden de fricción son:
Cero infraestructura: Together AI o Fireworks ofrecen Llama 3 70B vía API por menos de $1 USD por millón de tokens output. Pruebas rápidas, prototipos, validación de calidad sin tocar GPU.
Local en una laptop: Ollama corre Llama 3 8B en una MacBook M2/M3 sin sufrir. La 70B cuantizada (Q4) corre en una M3 Max con 64GB+ con calidad aceptable.
Producción seria: vLLM en H100 o A100. Para 70B en FP16, al menos 2 H100. Con cuantización (AWQ, GPTQ, FP8) se baja a una sola GPU con pérdida marginal.
Producción gestionada: Bedrock, Azure AI o GCP Vertex con Llama 3. Pricing por token, sin operar infraestructura.
Casos enterprise donde gana modelo propio
Hay tres patrones donde Llama 3 (especialmente la 70B) supera a quedarse en API:
Alto volumen, dominio acotado. Procesamiento masivo de tickets, clasificación documental, extracción estructurada de PDFs, generación de respuestas a preguntas frecuentes. Cuando hablas de millones de invocaciones al mes y el dominio es estrecho, modelo propio bien fine-tuneado supera en costo y a veces en calidad.
Datos sensibles que no pueden salir. Cualquier sector con compliance fuerte (banca, salud, gobierno, seguros) donde mandar datos a OpenAI o Anthropic es un nudo legal. Modelo propio en tu nube cierra ese nudo.
Latencia crítica. Si necesitas respuestas en menos de 200 ms consistentemente, una API externa con red pública en medio rara vez compite con un endpoint dedicado en tu propia red.
Donde no lo recomendamos como primer movimiento: equipos sin experiencia operando GPUs en producción, casos donde la calidad de frontera importa más que cualquier otra cosa, y prototipos donde no quieres distraerte con infraestructura.
La aritmética que importa
Caso típico: 50M tokens al mes, soporte a clientes en español.
- GPT-4 Turbo API: $1,500-$2,500 USD/mes.
- Claude 3 Sonnet API: $1,000-$1,800 USD/mes.
- Llama 3 70B en Together/Fireworks: $400-$700 USD/mes.
- Llama 3 70B self-hosted en 2 H100 on-demand: ~$3,500 USD/mes.
- Llama 3 70B self-hosted con reservados 1 año: ~$1,800 USD/mes.
A 50M tokens, hosted en Together o Fireworks es lo más barato. El break-even para self-hosted llega cerca de 200M tokens/mes, o cuando "datos no salen de mi nube" no es negociable.
Implicaciones estratégicas
Llama 3 marca el momento en que la decisión "modelo propio sí o no" deja de ser exótica para empresa mediana. No quiere decir que todo deba migrar a modelo propio (no debe), pero sí que la conversación entra al portafolio de opciones legítimas.
Lo que recomendamos a clientes este Q2:
- Inventariar cargas de IA actuales: cuáles consumes vía API, con qué volumen, con qué calidad mínima requerida.
- Identificar candidatos a modelo propio: alto volumen, dominio acotado, datos sensibles, latencia crítica.
- Hacer un piloto técnico: Llama 3 70B vía Together o Fireworks contra el caso candidato, midiendo calidad y costo real.
- Decidir con números, no con teoría: si el piloto demuestra ROI, planear migración estructurada.
Lo que no hace falta este trimestre: replantear toda la estrategia de IA, contratar a un equipo de ML grande, comprar GPUs propias. Llama 3 es una herramienta más, no un reemplazo de todo lo demás.
La lectura larga
El año pasado escribimos que "la era de monopolio efectivo en LLMs estaba terminando". Llama 3 es una de las señales más claras de eso. En lo que resta de 2024 vamos a ver al menos otros dos lanzamientos importantes (Gemini 1.5 expansion, posiblemente Llama 3 405B en julio) y precios de inferencia bajando en todos lados.
Las empresas que entren en este nuevo escenario con una estrategia de portafolio de modelos (no monomodelo) van a operar más barato, con más resiliencia y con mejor compliance. Llama 3 es la pieza que faltaba para que ese portafolio sea viable para empresa mediana.
¿Evaluando mover cargas de IA a modelo propio? Revisemos los números. Solicita una sesión técnica y armamos juntos el cálculo concreto para tu caso.