NVIDIA GTC 2025: Blackwell Ultra, Rubin y los chips que definirán la IA de los próximos 3 años
GTC 2025 fue, como cada año, el evento donde NVIDIA define el techo de lo posible en cómputo de IA para el resto de la industria. La keynote de Jensen Huang en San José dejó el roadmap más ambicioso que la empresa ha publicado: Blackwell Ultra (B300) a fin de año, Rubin (R100) en 2026, Rubin Ultra (R200) en 2027, además de un paquete de software (Dynamo, modelos pre-entrenados) que apunta a cerrar el stack completo.
Para una empresa mexicana que esté evaluando su estrategia de infraestructura para IA, las preguntas relevantes no son técnicas. Son: ¿debo comprar GPU ahora o esperar?, ¿conviene rentar o ser dueño?, ¿qué hago con la infraestructura que ya tengo?
El roadmap, en corto
NVIDIA presentó por primera vez una hoja de ruta multi-año explícita:
Blackwell Ultra (B300/GB300): disponibilidad H2 2025. Mejora ~50% en performance de inferencia sobre B200 actual. Más memoria HBM3e (288GB por GPU). Mismo socket, lo que facilita upgrade en sistemas que ya están preparados.
Rubin (R100): 2026. Nueva arquitectura completa, nuevo proceso (probablemente 3nm de TSMC), nueva memoria HBM4. Salto generacional, no incremental.
Rubin Ultra (R200): 2027. Iteración Ultra de Rubin, con configuración multi-die más agresiva (probablemente 4 dies por GPU).
Vera CPU: acompaña a Rubin como CPU diseñada por NVIDIA para reemplazar gradualmente las dependencias de Intel/AMD en sistemas DGX.
Más allá de los nombres: el mensaje es que NVIDIA no piensa frenar la cadencia anual de generaciones de GPU para IA. Cada año hay un salto material.
Lo que cambia en la economía de la inferencia
El número que importa para empresas no es teraflops; es costo por millón de tokens generados (o equivalente para tu carga). Y aquí GTC 2025 trae cambios serios:
- B300 promete ~50% mejor performance/watt que B200, lo que se traduce en costo por inferencia menor para mismas cargas.
- R100 apunta a otro 2-3x en throughput sobre B300, según las cifras conservadoras de NVIDIA.
- Software (Dynamo, TensorRT-LLM optimizado) está sacando otro 30-40% de eficiencia sobre el mismo hardware actual.
Combinado, esto significa que el costo de inferencia para cargas de producción va a caer rápido en los próximos 24 meses. Cargas que hoy cuestan $X dólares al mes en API o GPU rentada van a costar la mitad o menos en 2027 sin que tú hagas nada.
Implicación práctica: no sobre-inviertas en hardware actual asumiendo que los precios de inferencia se mantienen. Es probable que se desplomen.
Para empresas: ¿comprar GPU o rentar?
La pregunta clásica que se vuelve más interesante con cada generación. Las dos lógicas:
Lógica de comprar (CapEx)
Tiene sentido si:
- Cargas de inferencia predecibles, altas y constantes (más de 70-80% utilización promedio).
- Datos que no pueden salir de tu infraestructura por compliance.
- Horizonte de uso mayor a 24-36 meses.
- Tienes equipo (interno o partner) capaz de operar GPUs en producción: monitoreo, cooling, redundancia, optimización de modelos.
Para una empresa mediana mexicana, una sola DGX H200 cuesta del orden de $400,000 USD más infraestructura asociada (cooling, energía, espacio físico). Una DGX B300 cuando salga rondará cifras similares. La barrera de entrada sigue siendo alta.
Lógica de rentar (OpCx)
Tiene sentido si:
- Cargas variables o estacionales donde no quieres pagar capacidad ociosa.
- Quieres acceso a hardware más nuevo sin esperar al ciclo de refresh.
- No tienes equipo para operar infraestructura propia.
- Necesitas flexibilidad para cambiar modelos o aprovechar GPU compartida.
Proveedores como CoreWeave, Lambda Labs, Together AI, Replicate, RunPod ofrecen acceso a B200/B300 con pricing por hora. Para muchos casos, rentar 4 horas al día sale más barato que ser dueño.
Para empresas mexicanas, en concreto
La realidad operativa local:
- AWS, Azure y GCP en México ofrecen GPU pero con disponibilidad limitada y precios altos respecto a EE.UU.
- Datacenters locales (KIO, Telmex, Equinix) pueden hospedar GPU propia, pero la cadena de suministro y soporte sigue dependiendo de proveedores fuera del país.
- Latencia desde EE.UU. para inferencia es del orden de 30-80ms, generalmente aceptable para casi cualquier caso.
Nuestra recomendación general en ALCA: para la mayoría de empresas medianas, la mezcla óptima es APIs administradas (OpenAI/Anthropic) + GPU rentada (Together, CoreWeave) para cargas específicas. Comprar GPU propia es justificable solo si los datos no pueden salir o si los volúmenes son realmente altos.
El otro anuncio que importa: Dynamo
Más allá del hardware, NVIDIA presentó Dynamo, un sistema de orquestación de inferencia que puede mejorar el throughput de modelos open source en 2-3x sobre el mismo hardware con configuración tradicional. Es código abierto.
Para empresas que están operando modelos propios (Llama, DeepSeek, Mistral) en su infraestructura, Dynamo es un upgrade gratuito de eficiencia. Vale la pena evaluar su adopción en Q2/Q3 de este año.
Modelos pre-entrenados de NVIDIA
NVIDIA lanzó también una familia de modelos optimizados para sus chips: Nemotron, modelos de razonamiento (Llama Nemotron Reasoning) y otros verticales (medicina, código). El mensaje: NVIDIA quiere ofrecer un stack completo, no solo el silicio.
Esto pone más presión sobre proveedores de modelos (OpenAI, Anthropic, Google) y al mismo tiempo da a empresas más opciones de modelos abiertos competitivos para usar en hardware NVIDIA propio.
Qué se lleva tu CTO a casa
Tres decisiones operativas para revisar este trimestre:
1. Revisa tu mezcla actual de gasto en compute. Si más del 70% va a APIs administradas, revisa si alguna carga de alto volumen justifica moverse a GPU rentada o propia. Hay ganancias de 30-50% en costo por inferencia si lo haces bien.
2. No compres hardware ahora si puedes esperar 6 meses. B300 sale en H2 2025, y trae mejora material. Comprar B200 hoy para uso de 3+ años es comprar tecnología que va a quedar atrás rápido. Renta hasta tener mejor visibilidad.
3. Empieza a probar Dynamo y modelos open source optimizados. Si tu equipo está cómodo con APIs pero no ha tocado modelos propios, este es el momento de armar un piloto. La economía está virando rápido.
La lectura más larga
GTC 2025 confirma lo que ya intuíamos: estamos en una década de aceleración de hardware sin precedentes. Cada año, la frontera se mueve. Las empresas que armen una estrategia adaptativa de compute (no comprometerse 5 años con una decisión de hardware) van a operar más eficiente que las que sobre-inviertan en cualquier generación.
Para la mayoría de empresas mexicanas medianas, la traducción práctica es simple: APIs administradas para arrancar, GPU rentada para casos específicos, hardware propio solo cuando los números lo justifiquen claramente. Y revisar la mezcla cada 6-12 meses, porque va a cambiar.
En ALCA ayudamos a empresas a diseñar arquitecturas de compute que no se queden atrás cuando cambia la generación. ¿Estás evaluando GPU propia vs cloud? Revisemos los números juntos.