NVIDIA GTC 2022: arquitectura Hopper (H100) y el chip que va a definir la era de IA generativa

NVIDIA GTC 2022: arquitectura Hopper (H100) y el chip que va a definir la era de IA generativa

El 22 de marzo, en la keynote de GTC 2022, Jensen Huang presentó la nueva arquitectura de NVIDIA llamada Hopper (en honor a Grace Hopper) y su primer chip flagship, la GPU H100: 80 mil millones de transistores fabricados en proceso TSMC N4, con un nuevo bloque dedicado llamado Transformer Engine y mejoras importantes en throughput de IA. Junto con H100, NVIDIA presentó el Grace CPU Superchip, su primera CPU para datacenter (basada en ARM), y la nueva versión 4 de NVLink.

El nivel de inversión es absurdo: H100 es el chip de mayor complejidad transistor-cuenta jamás producido en volumen, y NVIDIA está comprando capacidad de fabricación en TSMC por años hacia adelante. Para empresas mexicanas medianas, la pregunta no es "¿voy a comprar un H100?" (probablemente no, cuesta 30-40 mil dólares por unidad). La pregunta es qué cambia en mi acceso a IA en los próximos 24 meses por culpa de este chip y los que vienen.

Qué tiene H100 que no tenía A100

Comparado con la generación anterior (A100, basada en Ampere), H100 trae:

  • 80 mil millones de transistores vs 54 mil millones de A100. Casi 50% más densidad en componentes activos.
  • Proceso TSMC N4 (un nodo refinado de 5 nm) vs Samsung 7 nm de A100. Más eficiencia y mejores frecuencias.
  • Transformer Engine: bloque dedicado a acelerar operaciones que aparecen en arquitecturas tipo Transformer (las que usan GPT, BERT, los LLMs en general). En precisión FP8, NVIDIA promete hasta 6x el throughput de A100 para entrenamiento de Transformers grandes.
  • Memoria HBM3 con ancho de banda 3 TB/s, vs HBM2e de A100.
  • NVLink 4 con 900 GB/s entre GPUs, casi el doble que la generación anterior.
  • Soporte nativo de FP8 para inferencia de modelos grandes con calidad cercana a FP16 pero con menos memoria y menos compute.

El número que importa: para entrenar un modelo grande tipo GPT-3, se promete reducir el tiempo de semanas a días. Para inferencia en producción, costo por token significativamente menor.

Por qué Transformer Engine es la noticia más importante

Hasta hoy, las GPUs tratan los Transformers como cualquier otra red neuronal. Hopper introduce bloques de hardware específicamente diseñados para los patrones computacionales que usan los Transformers, con mezcla automática de precisiones FP8 y FP16.

Esto importa por dos razones:

  1. NVIDIA está apostando explícitamente a que los Transformers son la arquitectura dominante de IA por al menos los próximos 5-10 años. Es un voto de confianza importante. Si tu equipo está pensando en arquitecturas alternativas (CNNs solas, RNNs, modelos mixtos), tomar nota.
  2. El costo de entrenar e inferir Transformers va a bajar rápido. Los modelos que hoy son caros de operar en A100 van a ser viables económicamente en H100 al final del año. Eso significa que modelos del tamaño de GPT-3 van a ser asequibles para empresas, no solo para Big Tech.

Grace CPU Superchip: NVIDIA entra a CPUs

Como bonus, NVIDIA presentó Grace CPU Superchip: dos chips Grace conectados con interconexión propia, sumando 144 cores ARM Neoverse en un solo socket lógico. Pensado específicamente para cargas de IA y HPC donde el cuello de botella no es la GPU sino el CPU que la alimenta de datos.

La señal: NVIDIA quiere vender el datacenter completo, no solo el GPU. Esto pone presión a Intel y AMD en datacenter y va a influir precios de servidores GPU-heavy en los próximos 18 meses.

Cómo afecta a una empresa mexicana mediana en 2022

Tu empresa probablemente no va a comprar H100. Pero va a sentir el efecto en al menos tres frentes:

1. Precios de cloud GPU bajando

Cuando AWS, Azure y GCP empiecen a ofrecer instancias con H100 (esperado H2 2022 - H1 2023), los precios de las instancias con A100 van a bajar significativamente. Eso significa que proyectos de IA que hace 12 meses no eran viables económicamente, en 12 meses lo serán.

Si tienes proyectos de IA en pausa por costo, vale la pena reagendar revisión a Q4 2022.

2. Modelos cada vez más grandes y capaces, asequibles vía API

Lo que hoy se ofrece como "GPT-3 davinci" a precio premium, en 12-18 meses va a ser commodity. Y van a aparecer modelos nuevos significativamente más capaces (GPT-4 ya se rumora para H2 2022/2023).

Para tu estrategia: no comprometer arquitectura "para el modelo de hoy". Diseñar con abstracción para poder cambiar de modelo cuando el costo o la calidad lo justifiquen.

3. Boom de fine-tuning y modelos privados

Con H100 y la disponibilidad creciente de instancias GPU rentables, el escenario de entrenar tu propio modelo especializado (sobre tu corpus, en tu vertical) deja de ser cosa de Google y pasa a ser viable para empresa mediana con datos propios y caso de negocio claro.

Patrones donde esto va a tener sentido en 2022-2023:

  • Atención a cliente especializada en tu sector (legal, médico, fintech).
  • Análisis de documentos en tu industria con vocabulario propio.
  • Asistente interno con conocimiento de tu base de información empresarial.

Plan razonable para Q2-Q3 2022

Para una empresa mediana mexicana que está pensando estrategia de IA, recomendamos:

1. Auditoría de gasto actual en IA / cloud GPU

Si ya estás usando GPUs en cloud, qué estás pagando, qué utilización tienes, qué se podría optimizar. FinOps aplicado a GPU.

2. Mapa de oportunidades en 12-18 meses

Identificar 5-10 procesos en tu empresa donde IA generativa o modelos especializados podrían tener impacto. No comprometer presupuesto aún; solo mapear.

3. Pilot pequeño con APIs disponibles

Antes de hablar de modelos propios, validar valor con APIs (OpenAI, Cohere, AI21). Pilot de 2-3 meses, presupuesto chico (USD 5-10K), aprendizaje grande.

4. Conversación con proveedores cloud sobre roadmap GPU

Tus proveedores cloud (AWS, Azure, GCP) tienen roadmaps de disponibilidad de H100 y precios proyectados. Pedir reunión técnica con ellos para entender qué viene.

5. Talento, no infra (todavía)

En 2022, donde realmente vas a competir es en talento que entienda IA generativa, no en infraestructura GPU. Una persona técnica con experiencia en LLMs vale más que un cluster de GPUs sin nadie que sepa usarlo.

La lectura larga

H100 marca el inicio de la era donde modelos de billones de parámetros se vuelven económicamente viables para empresas, no solo para hyperscalers. Los próximos 24 meses van a ver explosión de productos basados en LLMs, caída acelerada de precios de inferencia, y nacimiento de empresas enteras que solo eran posibles con esta capacidad.

Para empresa mexicana mediana, no se trata de comprar H100. Se trata de estar preparado para cuando el costo de IA generativa sea 10-100x más bajo que hoy, lo cual probablemente pase en 2023-2024. Las empresas que lleguen ahí con casos de uso identificados, talento listo y arquitectura abierta van a moverse rápido. Las que lleguen recién aprendiendo qué es un Transformer van a contratar consultora cara para alcanzar.

H100 es el chip que va a hacer la próxima generación de IA accesible. Vale la pena entenderlo, aunque nunca lo toques con la mano.


¿Estás pensando estrategia GPU? Conversemos. En ALCA acompañamos a CTOs y equipos ML a estructurar estrategia de cómputo para IA con criterios de negocio. Conversemos sin costo.

Artículos relacionados