AWS S3 Vectors: cómo el nuevo storage de embeddings cambia el costo de RAG en empresa mediana
AWS pasó S3 Vectors a disponibilidad comercial general este Q1 2026, después de varios meses en preview. Los precios oficiales: $0.06 USD por GB al mes de almacenamiento y $0.20 USD por GB de carga inicial. Es un orden de magnitud (a veces dos) por debajo de lo que estaban pagando varios clientes nuestros en Pinecone, Weaviate Cloud o instalaciones grandes de pgvector autogestionadas.
Para muchas empresas mexicanas medianas que llevan dos años con su sistema de RAG (Retrieval Augmented Generation) corriendo, la pregunta vuelve a abrirse: ¿conviene migrar a S3 Vectors? La respuesta corta es "depende del caso". La respuesta larga, que es la útil, vale el ejercicio.
Qué es exactamente S3 Vectors
S3 Vectors es una extensión de Amazon S3 que permite almacenar y consultar embeddings vectoriales directamente sobre el storage de objetos, sin necesidad de mantener una base vectorial separada. Las características que importan en la operación:
- Almacenamiento al precio de S3 Standard (más barato que cualquier base vectorial dedicada).
- Búsqueda por similitud (kNN) integrada, sin necesidad de mover datos a otro motor.
- Filtros por metadatos asociados a cada vector.
- Integración nativa con Bedrock, SageMaker y Lambda para flujos completos.
- Latencia de consulta del orden de las decenas a centenas de milisegundos en bases medianas a grandes; suficiente para la mayoría de los casos de RAG, no para todos.
El compromiso de diseño es claro: AWS sacrifica algo de latencia y throughput máximo a cambio de costo radicalmente más bajo y operación cero. No tienes que provisionar nodos, ni preocuparte por sharding, ni por escalar el cluster.
Comparativa rápida con las alternativas más usadas
| Producto | Precio típico | Latencia | Operación |
|---|---|---|---|
| AWS S3 Vectors | $0.06/GB/mes + $0.20/GB upload | 50-300 ms | Cero |
| Pinecone | $0.50-$1.00/GB/mes según tier | 10-50 ms | Cero |
| pgvector autogestionado | costo del Postgres host | depende | Alta (tú lo operas) |
| Weaviate Cloud | similar a Pinecone | 10-50 ms | Cero |
| Qdrant Cloud | menor que Pinecone, mayor que S3V | 20-100 ms | Cero |
La diferencia de precio entre S3 Vectors y Pinecone para bases grandes (cientos de GB de embeddings) puede ser de 10x. Para una empresa que tenía $4,000 USD al mes en Pinecone, hablar de bajar a $400 USD al mes no es marginal.
Casos donde S3 Vectors gana claramente
Bases grandes donde la latencia de cientos de ms es aceptable. Búsqueda interna de conocimiento, asistentes de soporte que responden en segundos, análisis batch de documentos. La diferencia entre 30 ms y 200 ms no se nota en estos flujos.
Volúmenes que crecen rápido. Si estás indexando millones de documentos al año, el delta de costo se vuelve material. Y como el storage es S3, no necesitas reprovisionar al duplicar.
Equipos sin DevOps dedicado. No hay nodos que mantener, ni versiones que actualizar, ni alertas que configurar. Para empresas medianas sin un equipo de plataforma robusto, esto pesa más que los milisegundos.
Integración profunda con stack AWS. Si ya estás en Bedrock, Lambda, SageMaker, S3 Vectors se conecta con un fragmento de código mínimo.
Casos donde S3 Vectors no es la elección
Aplicaciones interactivas de cara al cliente con SLA de latencia estricto. Un chatbot de cara al usuario donde cada milisegundo afecta percepción no se beneficia de S3 Vectors. Ahí Pinecone, Weaviate o Qdrant siguen siendo la elección.
Alta concurrencia con consultas complejas. Si tienes miles de queries por segundo con filtros pesados, los motores especializados aún ganan en throughput por dólar.
Stack multi-cloud o on-prem. S3 Vectors te ata a AWS. Si tu estrategia explícita es portabilidad, no entres.
Bases pequeñas (menos de 10 GB). El ahorro absoluto no compensa la migración. Quédate donde estás.
Cómo evaluar la migración sin romper el stack actual
El error que vemos cuando alguien lee el precio de S3 Vectors y arranca a migrar de inmediato: tirar la operación durante una semana porque la latencia subió y rompió un flujo crítico que dependía de respuestas rápidas.
El método que recomendamos en ALCA:
1. Inventario de tus índices actuales
Por cada índice vectorial: tamaño en GB, número de vectores, dimensionalidad, queries por segundo promedio y pico, latencia P50 y P95 actuales, costo mensual.
2. Categorización por SLA
Cada índice se etiqueta:
- Crítico interactivo (chat de cara al cliente, agente en tiempo real): la latencia importa mucho.
- Importante asíncrono (búsqueda en knowledge base, asistente interno): la latencia importa pero hay tolerancia.
- Batch (clasificación de documentos, análisis nocturno): la latencia es irrelevante.
Los dos últimos grupos son candidatos directos a S3 Vectors.
3. Prueba de concepto en paralelo
Indexar el mismo conjunto de datos en S3 Vectors sin tocar el sistema actual. Medir latencia real con queries reales, no sintéticas. Comparar calidad de resultados (top-K debería ser idéntico, pero validarlo).
4. Migración gradual con shadow traffic
Antes del cutover, mandar una fracción del tráfico de producción a ambos sistemas en paralelo, descartando la respuesta del nuevo. Esto valida latencia bajo carga real, sin riesgo.
5. Cutover con plan de rollback
El día del cambio, mantener el sistema viejo pagado por al menos dos semanas más. Si algo falla, vuelves en minutos. Apagar el sistema viejo solo después de dos a cuatro semanas estables.
Otros movimientos cloud relevantes del Q1 2026
Mientras AWS metía S3 Vectors, el resto del ecosistema también se movió:
- AWS lanzó Trainium3, con 3x rendimiento vs Trainium2. Para entrenamientos serios de modelos propios, mejora la economía de quedarse en AWS frente a alquilar GPUs NVIDIA en otros lados.
- GCP bajó precios de compute en aproximadamente 8%, presionado por la competencia. Tu factura de Q2 debería reflejarlo automáticamente.
- GCP Nearline multi-region subió de $0.010 a $0.015 por GB. Si tienes muchos datos en Nearline multi-region, la factura va a aumentar; vale revisar si Nearline regional o single-region cubre tu caso.
- GCP Archive bajó de $0.004 a $0.0024 por GB. Para datos fríos que se consultan una vez al año, hay ahorro real.
La lectura larga
S3 Vectors no es revolucionario en lo técnico. Lo importante es lo que señala: el costo del RAG está bajando rápido, y los proveedores se están dando cuenta de que cobrar caro por una base vectorial dedicada ya no es defendible cuando los volúmenes crecen tanto. Esperamos que durante el segundo semestre de 2026 los precios de Pinecone, Weaviate y los demás bajen también, presionados por esto.
Para empresas mexicanas medianas con RAG ya en producción, este es un buen momento para hacer la cuenta. Para las que están por arrancar su primer proyecto de RAG, S3 Vectors es el default razonable salvo que haya una razón explícita de latencia para no usarlo.
En ALCA acompañamos a empresas mexicanas con este tipo de decisiones. ¿Quieres bajar el costo de tu RAG sin romper la latencia? Hagamos los números. Agenda 30 minutos sin costo.