Meta libera Llama 2 con licencia comercial gratuita: el momento que cambia el mercado de modelos
El 18 de julio Meta, en colaboración con Microsoft, liberó Llama 2 en tres tamaños (7B, 13B y 70B parámetros), cada uno con variante base y variante "chat" ya afinada para conversación. La pieza que reordena el tablero no es técnica, es jurídica: Llama 2 viene con licencia comercial gratuita para casi cualquier empresa, con un asterisco para servicios con más de 700 millones de usuarios mensuales (lectura: solo afecta a un puñado de hyperscalers competidores).
Para una empresa mediana mexicana, esto cambia la conversación de "qué API contrato" a "API o modelo propio".
Qué cambia exactamente con Llama 2
Hasta junio, el ecosistema abierto era una colección de modelos con licencias incompatibles con uso comercial (como Llama 1, restringido a investigación) o de calidad limitada para producción seria. Con Llama 2:
- Calidad alcanza GPT-3.5 en muchos benchmarks, especialmente la variante 70B chat.
- Licencia permite producto comercial sin pagar regalías a Meta.
- Disponibilidad es inmediata en Azure, AWS Bedrock, Hugging Face y descarga directa.
- Microsoft entra como socio preferente y lo distribuye en Azure ML como modelo de catálogo.
El movimiento es estratégico: Meta no monetiza el modelo directo, monetiza la dependencia que ya nadie tendrá de OpenAI exclusivamente.
Casos donde Llama 2 supera al API por default
No todas las cargas de IA generativa quieren ser una llamada al API de OpenAI. Hay tres situaciones donde Llama 2 (u otro modelo abierto) entra ganando:
Datos sensibles que no pueden salir. Información médica bajo NOM-024, datos personales bajo LFPDPPP, secreto industrial. Correr el modelo en infraestructura propia o en una nube en territorio nacional elimina el riesgo regulatorio y contractual de mandar contenido a un tercero en otra jurisdicción.
Volumen alto y predecible. Cuando la carga es de millones de tokens al día y el caso de uso es estable, el costo amortizado de GPU propia o reservada queda por debajo del API. El punto de cruce típico está entre 5 y 10 millones de tokens diarios.
Personalización profunda. Fine-tuning con datos propios cambia el comportamiento del modelo de manera persistente y barata. Con APIs cerradas, la personalización se hace por contexto en cada llamada, lo que paga peajes de tokens y latencia de forma indefinida.
Casos donde el API sigue siendo mejor opción
Tampoco hay que romantizar el self-hosting. Hay escenarios donde la respuesta correcta sigue siendo conectar al API.
- Volumen bajo o irregular (menos de 1M tokens/día). El break-even no llega.
- Necesidad de la calidad tope (GPT-4, Claude 2). Llama 2 70B no compite con GPT-4 en razonamiento complejo.
- Equipo sin músculo de MLOps. Operar una GPU 24/7, parchar drivers, monitorear latencia y manejar incidentes no es trivial.
- Tiempo a mercado corto. Probar una idea en dos semanas vía API es más barato que armar infraestructura.
El costo real de correr Llama 2 70B
Para una empresa mediana, los números aproximados que usamos como referencia inicial:
- Llama 2 7B: corre en una GPU consumer (NVIDIA RTX 4090 o A10G en cloud). Renta cloud del orden de 1 a 2 USD/hora.
- Llama 2 13B: una GPU A100 40GB o equivalente. Renta del orden de 2 a 4 USD/hora.
- Llama 2 70B cuantizado: una A100 80GB o dos A100 40GB. Renta del orden de 4 a 8 USD/hora.
- Llama 2 70B precisión completa: dos A100 80GB o equivalente. Más caro y más latencia.
A esto hay que sumar almacenamiento, red, observabilidad, parches de seguridad y el costo del equipo que opera el stack. Una operación seria 24/7 con redundancia, en cloud, no baja de 3,000 a 6,000 USD mensuales para 13B y de 8,000 a 15,000 USD para 70B. Comparado con API a alta escala, puede salir muy a cuenta o claramente más caro según el volumen.
Decisión rápida: build, buy o híbrido
Para no quedarnos en abstracto, este es el árbol de decisión que estamos aplicando con clientes en julio:
- ¿El caso de uso involucra datos que no pueden salir del país o de tu nube? Si sí, evalúa Llama 2 self-hosted o en hyperscaler con región MX.
- ¿El volumen mensual estimado supera 5M tokens? Si sí, corre el ejercicio de costo total comparado.
- ¿Necesitas razonamiento de frontera (matemática avanzada, código complejo, planificación multi-paso)? Si sí, GPT-4 o Claude 2 vía API siguen siendo la opción.
- ¿Tienes equipo MLOps con experiencia en GPUs? Si no, considera vía Bedrock o Azure ML donde el modelo está pero la operación la lleva el proveedor.
Qué recomendamos hacer este trimestre
Aunque no migres ahora, vale la pena hacer cuatro cosas en Q3:
- Probar Llama 2 13B chat en un caso interno (Q&A sobre documentos, generación de borradores). Hugging Face permite empezar en horas.
- Pedir a tu hyperscaler la cotización de inferencia gestionada con Llama 2.
- Levantar inventario de cargas actuales en API externa y estimar costo anualizado real, no piloto.
- Definir política de datos que clarifique qué información puede ir a un API público y qué no.
El movimiento de Meta no fuerza a nadie a cambiar de proveedor mañana. Sí fuerza a que cualquier conversación seria de IA empresarial considere modelos abiertos como opción real, no curiosidad académica.
¿Evaluando Llama 2 para tu empresa? Revisemos costo-beneficio. En ALCA llevamos pilotos comparativos entre APIs cerradas y modelos abiertos para decisiones con números encima de la mesa. Escríbenos en https://alca.mx/contacto.