Stability AI lanza StableLM: la apuesta open source escala a LLMs
Hoy 19 de abril Stability AI, la empresa detrás de Stable Diffusion, liberó StableLM en versiones de 3 y 7 mil millones de parámetros, con licencia Apache 2.0 que permite uso comercial. Anunciaron versiones de 15B y 65B en camino. Esto se suma a una primavera intensa de modelos abiertos: la filtración de LLaMA de Meta a inicios de marzo, Alpaca de Stanford, Vicuna a mediados de marzo, Dolly de Databricks. La oferta de modelos que se pueden correr en infraestructura propia pasó en seis semanas de testimonial a real.
Para empresas medianas mexicanas que han estado viendo el costo de las APIs de OpenAI desde febrero y haciéndose preguntas, este momento merece una pausa. No para cambiar todo, pero sí para entender qué se vuelve posible que antes no lo era.
Qué cambia con StableLM y compañía
Hasta hace dos meses, si querías capacidad real de procesamiento de lenguaje natural en tu producto, las opciones serias eran tres APIs comerciales: OpenAI, Cohere, Anthropic. Los modelos abiertos existían, pero estaban una o dos generaciones atrás en calidad, y montarlos requería un equipo con experiencia que pocas medianas tienen.
Lo que cambió en marzo y abril es que llegaron simultáneamente:
- Modelos base de calidad razonable. LLaMA 7B y 13B en su filtración, StableLM ahora con licencia comercial limpia, y otros con desempeño comparable a GPT-3.5 en tareas acotadas.
- Técnicas de fine-tuning eficientes. LoRA y técnicas de cuantización permiten adaptar y servir modelos en hardware modesto, no solo en clusters de A100.
- Stack maduro de inferencia. Hugging Face Transformers consolidado, llama.cpp para correr en CPU, vLLM para inferencia eficiente en GPU, text-generation-inference de Hugging Face para servir en producción.
La combinación significa que un equipo razonablemente capaz puede tener un modelo decente corriendo en una instancia con una GPU mediana en cuestión de días, no semanas.
Cuándo gana modelo propio sobre API
En ALCA vemos que la decisión "modelo propio vs API" se reduce a cinco criterios. Si la mayoría apuntan a uno de los lados, ese es tu camino.
Volumen de inferencia. Si vas a hacer cientos de miles de llamadas al mes, el costo unitario de una API se acumula rápido. Con modelo propio, el costo es la GPU corriendo, sin importar cuánto la uses.
Sensibilidad de los datos. Si trabajas con información que no puede salir de tu nube por contrato, regulación o política interna (salud, financiero, datos personales sensibles), el modelo propio elimina el envío del prompt a un tercero.
Latencia y disponibilidad. Una API depende de un proveedor con su propio plan de capacidad y sus propios incidentes. Un modelo en tu infraestructura responde a tu monitoreo y tus SLAs internos.
Especialización del dominio. Si tu caso de uso es muy nicho (jerga técnica, lenguaje regulatorio, dominio específico), un modelo abierto bien afinado puede superar a un modelo comercial generalista en esa tarea concreta.
Personalización profunda. Si necesitas modificar comportamiento o integrar lógica que va más allá de prompt engineering, un modelo abierto te da control que ninguna API te va a dar.
Cuándo sigue ganando la API
No vale la pena caer en el extremo opuesto. Hay escenarios donde la API sigue siendo claramente la mejor opción.
Si tu volumen es bajo o muy variable, pagar por inferencia consumida es más eficiente que mantener una GPU prendida. Si necesitas la capacidad de razonamiento de GPT-4 (y lo necesitas comprobado, no asumido), no hay modelo abierto que se le acerque hoy. Si tu equipo no tiene experiencia operando modelos en producción, el costo oculto del aprendizaje y el mantenimiento puede comerte cualquier ahorro proyectado en la factura de la API.
Stack mínimo para correr StableLM en empresa
Para una empresa que quiere experimentar con un modelo abierto sin sobreinvertir, este es el stack mínimo viable que recomendamos en pilotos.
- Hardware: una instancia con GPU NVIDIA A10 o T4 para empezar (40 a 60 USD por día en AWS o GCP). Para producción seria, A100 o H100.
- Servidor de inferencia: text-generation-inference de Hugging Face para empezar; vLLM si necesitas mayor throughput.
- Capa de orquestación: LangChain o LlamaIndex para componer prompts, retrieval y memoria.
- Almacén vectorial: Postgres con pgvector si ya tienes Postgres (lo más simple), o un servicio dedicado si el volumen lo justifica.
- Monitoreo: mide latencia, tokens por segundo, costo por consulta, calidad de respuestas con un set de evaluación propio.
Con eso puedes tener un piloto comparativo entre StableLM 7B y GPT-3.5 para tu caso concreto en dos o tres semanas, con números reales para tomar decisión.
Lo que probablemente va a pasar el resto de 2023
Tres apuestas razonables que vemos venir en los próximos meses.
La calidad de los modelos abiertos va a seguir cerrando la brecha con GPT-3.5 a un ritmo sorprendente. La brecha con GPT-4 va a tomar más tiempo. Las herramientas para servir modelos en producción van a madurar rápido, bajando la barrera técnica. Y la conversación en empresa va a cambiar de "API o propio" a "qué casos van por API y qué casos van por propio", con arquitecturas híbridas como norma.
Para una empresa mediana, la postura prudente este trimestre no es migrar todo, ni ignorar el movimiento. Es montar un piloto en un caso de uso bien definido, medir contra tu uso actual de API, y construir capacidad interna para cuando el balance económico se mueva.
¿Evaluando modelos propios? Revisemos viabilidad técnica y económica. En ALCA tenemos un marco de evaluación que en tres semanas te entrega comparativa de calidad, costo total y plan de adopción. Agenda una llamada y vemos cómo se aplica a tu caso.