Meta libera Llama 2 con licencia comercial gratuita: el momento que cambia el mercado de modelos

Meta libera Llama 2 con licencia comercial gratuita: el momento que cambia el mercado de modelos

El 18 de julio Meta, en colaboración con Microsoft, liberó Llama 2 en tres tamaños (7B, 13B y 70B parámetros), cada uno con variante base y variante "chat" ya afinada para conversación. La pieza que reordena el tablero no es técnica, es jurídica: Llama 2 viene con licencia comercial gratuita para casi cualquier empresa, con un asterisco para servicios con más de 700 millones de usuarios mensuales (lectura: solo afecta a un puñado de hyperscalers competidores).

Para una empresa mediana mexicana, esto cambia la conversación de "qué API contrato" a "API o modelo propio".

Qué cambia exactamente con Llama 2

Hasta junio, el ecosistema abierto era una colección de modelos con licencias incompatibles con uso comercial (como Llama 1, restringido a investigación) o de calidad limitada para producción seria. Con Llama 2:

  • Calidad alcanza GPT-3.5 en muchos benchmarks, especialmente la variante 70B chat.
  • Licencia permite producto comercial sin pagar regalías a Meta.
  • Disponibilidad es inmediata en Azure, AWS Bedrock, Hugging Face y descarga directa.
  • Microsoft entra como socio preferente y lo distribuye en Azure ML como modelo de catálogo.

El movimiento es estratégico: Meta no monetiza el modelo directo, monetiza la dependencia que ya nadie tendrá de OpenAI exclusivamente.

Casos donde Llama 2 supera al API por default

No todas las cargas de IA generativa quieren ser una llamada al API de OpenAI. Hay tres situaciones donde Llama 2 (u otro modelo abierto) entra ganando:

Datos sensibles que no pueden salir. Información médica bajo NOM-024, datos personales bajo LFPDPPP, secreto industrial. Correr el modelo en infraestructura propia o en una nube en territorio nacional elimina el riesgo regulatorio y contractual de mandar contenido a un tercero en otra jurisdicción.

Volumen alto y predecible. Cuando la carga es de millones de tokens al día y el caso de uso es estable, el costo amortizado de GPU propia o reservada queda por debajo del API. El punto de cruce típico está entre 5 y 10 millones de tokens diarios.

Personalización profunda. Fine-tuning con datos propios cambia el comportamiento del modelo de manera persistente y barata. Con APIs cerradas, la personalización se hace por contexto en cada llamada, lo que paga peajes de tokens y latencia de forma indefinida.

Casos donde el API sigue siendo mejor opción

Tampoco hay que romantizar el self-hosting. Hay escenarios donde la respuesta correcta sigue siendo conectar al API.

  • Volumen bajo o irregular (menos de 1M tokens/día). El break-even no llega.
  • Necesidad de la calidad tope (GPT-4, Claude 2). Llama 2 70B no compite con GPT-4 en razonamiento complejo.
  • Equipo sin músculo de MLOps. Operar una GPU 24/7, parchar drivers, monitorear latencia y manejar incidentes no es trivial.
  • Tiempo a mercado corto. Probar una idea en dos semanas vía API es más barato que armar infraestructura.

El costo real de correr Llama 2 70B

Para una empresa mediana, los números aproximados que usamos como referencia inicial:

  • Llama 2 7B: corre en una GPU consumer (NVIDIA RTX 4090 o A10G en cloud). Renta cloud del orden de 1 a 2 USD/hora.
  • Llama 2 13B: una GPU A100 40GB o equivalente. Renta del orden de 2 a 4 USD/hora.
  • Llama 2 70B cuantizado: una A100 80GB o dos A100 40GB. Renta del orden de 4 a 8 USD/hora.
  • Llama 2 70B precisión completa: dos A100 80GB o equivalente. Más caro y más latencia.

A esto hay que sumar almacenamiento, red, observabilidad, parches de seguridad y el costo del equipo que opera el stack. Una operación seria 24/7 con redundancia, en cloud, no baja de 3,000 a 6,000 USD mensuales para 13B y de 8,000 a 15,000 USD para 70B. Comparado con API a alta escala, puede salir muy a cuenta o claramente más caro según el volumen.

Decisión rápida: build, buy o híbrido

Para no quedarnos en abstracto, este es el árbol de decisión que estamos aplicando con clientes en julio:

  1. ¿El caso de uso involucra datos que no pueden salir del país o de tu nube? Si sí, evalúa Llama 2 self-hosted o en hyperscaler con región MX.
  2. ¿El volumen mensual estimado supera 5M tokens? Si sí, corre el ejercicio de costo total comparado.
  3. ¿Necesitas razonamiento de frontera (matemática avanzada, código complejo, planificación multi-paso)? Si sí, GPT-4 o Claude 2 vía API siguen siendo la opción.
  4. ¿Tienes equipo MLOps con experiencia en GPUs? Si no, considera vía Bedrock o Azure ML donde el modelo está pero la operación la lleva el proveedor.

Qué recomendamos hacer este trimestre

Aunque no migres ahora, vale la pena hacer cuatro cosas en Q3:

  • Probar Llama 2 13B chat en un caso interno (Q&A sobre documentos, generación de borradores). Hugging Face permite empezar en horas.
  • Pedir a tu hyperscaler la cotización de inferencia gestionada con Llama 2.
  • Levantar inventario de cargas actuales en API externa y estimar costo anualizado real, no piloto.
  • Definir política de datos que clarifique qué información puede ir a un API público y qué no.

El movimiento de Meta no fuerza a nadie a cambiar de proveedor mañana. Sí fuerza a que cualquier conversación seria de IA empresarial considere modelos abiertos como opción real, no curiosidad académica.


¿Evaluando Llama 2 para tu empresa? Revisemos costo-beneficio. En ALCA llevamos pilotos comparativos entre APIs cerradas y modelos abiertos para decisiones con números encima de la mesa. Escríbenos en https://alca.mx/contacto.

Artículos relacionados