FinOps en la nube en 2023: marco operativo de 90 días para bajar 30% del bill

FinOps en la nube en 2023: marco operativo de 90 días para bajar 30% del bill

La factura de AWS, GCP o Azure en pesos mexicanos lleva varios meses subiendo por dos vías al mismo tiempo. El dólar se mantiene arriba de 18 pesos, lo que mueve el bill en moneda local sin que nadie cambie nada en la consola. Y a partir de marzo, los equipos empezaron a desplegar pilotos de IA generativa que añaden inferencia, almacenamiento vectorial y tráfico de red que no estaban en el presupuesto.

En las conversaciones con CFOs y CTOs que tuvimos en abril, FinOps dejó de ser un tema bonito de conferencia para volverse una pregunta concreta: cómo bajar 20 o 30 por ciento del bill sin frenar a ingeniería. Aquí está el marco que usamos en ALCA para correrlo en 90 días con un equipo mediano.

Qué es FinOps y qué no

FinOps no es "apagar cosas en la nube". Es la disciplina de construir cultura, procesos y herramientas para que las decisiones de gasto en la nube se tomen de forma informada, distribuida y continua. Toca tres áreas: ingeniería (que decide qué se despliega), finanzas (que paga la factura) y producto (que decide qué se construye).

Lo que no es: un proyecto puntual de ahorro liderado por finanzas, ni un consultor que viene tres semanas y deja un PDF. Si no se construye capacidad interna, los ahorros que logres se desvanecen en seis meses.

Días 1 a 15: inventario y tagging

La primera quincena se va en saber exactamente qué tienes y a quién pertenece. Sin esto, todo lo demás es opinión.

Inventario completo. Listar cada recurso vivo en cada cuenta de cada cloud. EC2, RDS, S3, Lambda, NAT Gateways, ELBs, snapshots, volúmenes EBS huérfanos, todo. AWS Config, Resource Explorer o herramientas como Vantage te ayudan a no hacerlo a mano.

Estrategia de tagging. Definir cuatro o cinco tags obligatorios y aplicarlos a todo lo que se cree de aquí en adelante: owner, project, environment, cost-center, criticality. Para lo que ya existe, una corrida de tagging dirigida con prioridad por costo.

Línea base. Costo del último mes desglosado por servicio, por cuenta y, una vez que tengas tags, por proyecto. Sin esta foto, no hay forma honesta de medir mejoras.

Días 15 a 45: quick wins

La segunda fase es donde aparecen los ahorros visibles. Son acciones de bajo riesgo y alto impacto que casi siempre están esperando.

  • Apagar recursos huérfanos. Volúmenes EBS sin instancia, snapshots viejos, IPs elásticas sin asociar, balanceadores sin tráfico, instancias en stopped con disco asignado. En cuentas con uno o dos años de vida es normal encontrar 5 a 10 por ciento del bill aquí.
  • Lifecycle en S3. Mover datos fríos a Standard-IA, Glacier o Deep Archive según patrón de acceso. Buckets de logs y respaldos suelen ser el blanco principal.
  • Rightsizing. AWS Compute Optimizer, GCP Recommender o reportes equivalentes te dicen qué instancias están sobredimensionadas. Bajar dos tallas en EC2 y RDS suele ser seguro y se nota.
  • NAT Gateway redesign. En arquitecturas con muchas instancias en subred privada, el cargo de NAT puede ser una sorpresa. Endpoints de VPC para S3 y DynamoDB, o gateways compartidos por VPC, bajan la factura de manera medible.
  • Apagado fuera de horario. Ambientes de desarrollo, staging y QA apagados de noche y fines de semana. Si nadie los usa, no deberían facturar.
  • Logs y métricas. CloudWatch Logs con retención infinita es uno de los costos silenciosos más comunes. Política de retención por tipo de log y compactación a S3 cuando aplica.

En esta fase es razonable apuntar a 15 a 20 por ciento de reducción del bill base sin tocar arquitectura ni producto.

Días 45 a 90: compromisos y arquitectura

La tercera fase es donde se aseguran los ahorros estructurales y se siembra cultura. Toma más tiempo y requiere coordinación con finanzas.

Reserved Instances y Savings Plans. Para cargas estables y predecibles, comprometerse a uno o tres años da descuentos de 30 a 60 por ciento. La clave es no comprometer demasiado: empezar conservador, medir uso real, y escalar el compromiso cada trimestre. Compute Savings Plans dan más flexibilidad que RIs específicas.

Spot instances donde aplica. Trabajos batch, procesamiento de datos, entrenamiento de modelos, ambientes no productivos. El descuento es de 60 a 90 por ciento sobre on-demand. Requiere tolerancia a interrupciones, que la mayoría de las cargas batch tienen.

Decisiones de arquitectura. Aquí entran movimientos más grandes: serverless donde el patrón es muy variable, contenedores compartidos donde hay muchas cargas pequeñas, multi-tenancy en bases de datos donde antes había una por cliente. Estos cambios requieren proyecto, pero los ahorros son recurrentes.

Cómo construir cultura sin volverte el enemigo

El error más común que vemos es el equipo de finanzas o el CTO bajando la mano y forzando ahorros sin contexto. Funciona dos meses y luego ingeniería deja de cooperar.

Lo que sí funciona es dar visibilidad y responsabilidad distribuida. Cada equipo o producto debe ver su propio costo cada semana, en una herramienta que no requiera abrir la consola de AWS. Vantage, CloudZero o un dashboard simple en Looker o Grafana sobre Cost and Usage Reports cumplen.

El segundo elemento es una conversación regular, no policial. Una reunión mensual de FinOps de 45 minutos donde se revisan tendencias, se celebran ahorros y se acuerdan próximas acciones. Sin culpas, con datos.

El tercero es incluir costo en las decisiones técnicas desde el diseño. Cualquier RFC o propuesta de arquitectura nueva debe incluir un estimado de costo mensual. Esto cambia la conversación más que cualquier dashboard.

Lo que viene con IA generativa

A los costos tradicionales de cloud se suma ahora la inferencia de modelos. Si tu empresa va a operar APIs de OpenAI o Anthropic a escala, o a montar modelos propios con GPUs, vale la pena tratar esos costos con la misma disciplina FinOps desde el día uno: tagging por caso de uso, presupuestos por equipo, monitoreo por consulta.

Las empresas que entren a la era IA con cultura FinOps madura van a tener una ventaja silenciosa pero importante sobre las que llegan a fin de año con sorpresas en la factura.


Descarga la plantilla: 90 días de FinOps. En ALCA tenemos un checklist operativo y herramientas listas para arrancar este marco con tu equipo. Solicita la plantilla aquí y la recibes en tu correo.

Artículos relacionados