AWS re:Invent 2022: Aurora zero-ETL, Glue Data Quality y los primeros pasos hacia Bedrock

AWS re:Invent 2022: Aurora zero-ETL, Glue Data Quality y los primeros pasos hacia Bedrock

Del 28 de noviembre al 2 de diciembre se celebró AWS re:Invent 2022 en Las Vegas, con 50,000+ asistentes presenciales y un firehose de anuncios típico del evento. Este año, sin un megaservicio definitorio, hubo un patrón claro: AWS apuesta por integración profunda entre servicios existentes y por preparar la base para una ofensiva fuerte en IA generativa en 2023. Vale separar el ruido y enfocar en lo accionable para empresa mediana mexicana.

A continuación los anuncios que más impacto tendrán en planes de tecnología en 2023.

Aurora zero-ETL con Redshift: el fin del pipeline manual

El anuncio que más simplifica vidas a equipos de datos es Amazon Aurora zero-ETL integration with Amazon Redshift. La promesa es directa: cuando se habilita, las transacciones de tu base operativa Aurora se replican casi en tiempo real (segundos) a Redshift, sin necesidad de pipelines ETL custom, sin Lambda triggers, sin DMS. Aurora hace de fuente OLTP, Redshift hace de fuente OLAP, y la copia es responsabilidad de AWS.

Para empresa mediana, esto resuelve un dolor recurrente: mantener pipelines de datos entre operacional y analítico es trabajo continuo y frágil. Cualquier cambio de esquema rompe el pipeline, los retrasos generan dashboards desactualizados, y el costo de mantenimiento se acumula. Zero-ETL no elimina toda la complejidad (sigue habiendo modelado dimensional, transformaciones específicas), pero corta significativamente la plomería entre origen y destino.

Aplica especialmente a empresas con operación transaccional sobre Aurora MySQL/PostgreSQL y reporting/analítica sobre Redshift. Si ya pagas DMS o mantienes ETL casero, evaluar migración hace sentido.

Athena para Apache Spark: el lakehouse sigue avanzando

Amazon Athena ahora soporta Apache Spark, lo cual extiende su uso de "consultas SQL serverless sobre S3" a "procesamiento Spark serverless sobre S3". Para empresas con datos en lake (Parquet, ORC) que necesitan transformaciones más allá de SQL, ahora pueden ejecutar Spark sin levantar EMR ni Glue clusters.

El caso típico: notebooks de data science que necesitan procesamiento batch sobre lake, sin querer administrar infraestructura. Athena Spark se vuelve opción competitiva contra Databricks para cargas medianas (Databricks sigue siendo más completo para teams de ML serios, pero Athena Spark cubre 70% de casos a costo menor para empresa mediana).

Glue Data Quality y Glue 4.0

Dos anuncios complementarios:

AWS Glue Data Quality introduce reglas declarativas para validar calidad de datos en pipelines. Defines reglas (este campo no debe ser nulo, este monto debe estar en rango, esta combinación debe ser única) y Glue las evalúa automáticamente. Para empresas que sufren con datos sucios llegando a tableros de dirección, es infraestructura de validación nativa en lugar de scripts custom.

AWS Glue 4.0 trae Spark 3.3, Python 3.10, y mejoras de performance (~3x más rápido en algunos cargas). Si ya usas Glue, la actualización vale la pena planificar.

Amazon EC2 Inf2: la apuesta hardware de inferencia

EC2 Inf2 es la nueva generación de instancias optimizadas para inferencia de deep learning, basadas en chips AWS Inferentia2 (diseñados internamente). El claim es 4x mayor throughput y 10x menor latencia respecto a Inf1, a costos 40% menores que GPUs equivalentes.

¿Por qué importa esto a empresa mediana? Porque si tu empresa empieza a desplegar modelos de ML en producción (y con la ola que viene tras ChatGPT, muchas lo harán), el costo de inferencia se vuelve relevante rápido. Inf2 ofrece alternativa a las GPUs NVIDIA (escasas y caras post BIS controls) para cargas específicas. La limitante: requiere usar SDK Neuron de AWS, lo cual amarra el código a su ecosistema.

Vale evaluar Inf2 si tu carga de inferencia justifica al menos una instancia full-time. Para uso esporádico, los servicios gestionados (SageMaker, Bedrock cuando llegue) son mejor opción.

ECS Service Connect

Amazon ECS Service Connect simplifica comunicación entre microservicios en ECS, agregando service discovery, load balancing y observabilidad sin necesidad de service mesh externo (App Mesh, Istio). Es respuesta a quejas históricas: hacer microservicios en ECS requería plomería de redes que en EKS era más natural.

Para empresas medianas que evitaron Kubernetes por complejidad operativa y se quedaron en ECS, esto facilita arquitecturas de varios servicios sin tener que adoptar mesh complejo. Útil pero no transformador.

AWS Wickr: comunicación E2E para enterprise

AWS adquirió Wickr en 2021 y este re:Invent lo relanza como AWS Wickr, servicio de comunicación E2E (chat, voz, video, transferencia de archivos) cifrado punto a punto, con controles de gobernanza enterprise.

Para empresas mexicanas con requisitos altos de confidencialidad (legal, finanzas, sectores regulados, M&A en proceso), es alternativa nativa a Signal o Threema con controles que esos no tienen (audit logs, retención política, compliance reporting). Para uso cotidiano de empresa mediana, Slack/Teams sigue siendo más ágil y ya está adoptado.

Otros anuncios relevantes

Para no extender, lista breve de anuncios que vale conocer pero no priorizar adopción:

  • DataZone: gobernanza de datos cross-cuenta. Útil para empresas grandes con muchas cuentas AWS.
  • OpenSearch Serverless: simplifica adopción de OpenSearch sin gestionar nodos.
  • Lambda SnapStart para Java: reduce cold starts de Lambda Java en orden de magnitud. Si tienes APIs Java en Lambda, ganancia automática.
  • Application Composer: editor visual para CloudFormation. Útil para equipos con menos experiencia IaC.

La base para Bedrock (que llegará en 2023)

Lo que más vale leer entre líneas: AWS no anunció su servicio de modelos foundation en re:Invent 2022, mientras Microsoft (Azure OpenAI Service) y Google (PaLM API) ya empezaban a moverse en ese terreno. La presión competitiva de ChatGPT (lanzado dos días antes de re:Invent) hace evidente que AWS necesita responder.

Las piezas anunciadas (Inf2, mejoras a SageMaker, integraciones de datos) sugieren que AWS está acomodando infraestructura para una ofensiva mayor en 2023. Es razonable apostar a que en re:Invent 2023 (o antes) veremos servicio AWS de modelos foundation managed compitiendo con Azure OpenAI. Algunos rumores apuntan al nombre "Bedrock". Conviene tener atención.

Top 5 anuncios para evaluar en Q1 2023

Para empresa mediana mexicana sobre AWS, recomendamos priorizar evaluación de:

  1. Aurora zero-ETL con Redshift si tienes esquema operacional/analítico clásico.
  2. Glue Data Quality si sufres de datos sucios en reporting.
  3. Athena para Spark si tienes lake con cargas Spark serverless.
  4. EC2 Inf2 si tu inferencia ML está justificando instancia full-time.
  5. AWS Wickr si tienes requisito de comunicación confidencial regulada.

Lo demás puede esperar a casos específicos.

Lectura general del re:Invent 2022

Tres conclusiones generales:

  • AWS sigue siendo plataforma más completa, no la más innovadora. Innovaciones tipo "wow" están más en Google y OpenAI; AWS gana en profundidad y madurez de servicios.
  • Integración entre servicios es la prioridad declarada. Zero-ETL, Service Connect, Glue 4.0 todos van en la misma dirección de reducir plomería.
  • 2023 será el año donde AWS responda en IA generativa. No anunciar nada en re:Invent 2022 es lo más telling del evento.

Cierre

re:Invent 2022 no tuvo el anuncio megaperro que define el año, pero sentó base sólida para 2023. Para empresa mediana, los anuncios accionables son acotados pero relevantes. La estrategia razonable es identificar dos o tres servicios para piloto en Q1 y mantener atención al espacio de IA generativa donde AWS jugará fuerte pronto.


¿Quieres aterrizar lo nuevo de AWS? Conversemos. Si quieres priorizar qué evaluar para tu stack en Q1 2023, agenda una conversación.

Artículos relacionados