El ritmo de la computación acelerada no conoce el descanso. Durante la sesión plenaria de la GTC 2026, Jensen Huang ha desvelado los detalles técnicos de Rubin, la arquitectura que sucede a Blackwell y que está diseñada para sostener la explosión de los modelos de lenguaje de escala planetaria. Si Blackwell fue el motor de la IA generativa, Rubin es el cimiento de la Inteligencia Artificial General (AGI), introduciendo saltos tecnológicos en litografía y memoria que parecían inalcanzables hace apenas dos años.
Fotolitografía de 3nm: El límite físico de TSMC
El corazón de la GPU Rubin es su proceso de fabricación. NVIDIA ha dado el salto definitivo a los 3 nanómetros (N3P) de TSMC, permitiendo una densidad de transistores sin precedentes. Este refinamiento no solo busca potencia bruta, sino una eficiencia energética crítica para los centros de datos modernos que operan bajo estrictas normativas de consumo.
La arquitectura Rubin introduce un diseño de chiplets de nueva generación, donde múltiples matrices de cómputo se comunican mediante un interconector de bajísima latencia. Esto permite que el silicio se comporte como una única unidad lógica masiva, optimizando la ejecución de tensores y reduciendo los cuellos de botella térmicos que limitaban a las arquitecturas previas.
HBM4: La sexta generación de memoria entra en escena
La verdadera revolución de Rubin reside en su subsistema de memoria. Es la primera arquitectura comercial en integrar HBM4 de sexta generación. Esta memoria no solo aumenta la capacidad total por GPU, sino que duplica el ancho de banda efectivo respecto a la HBM3e utilizada en las variantes de Blackwell.
La integración de HBM4 utiliza un apilado vertical avanzado que sitúa la memoria físicamente más cerca de las unidades de procesamiento, reduciendo el consumo energético por bit transferido. Para el entrenamiento de LLM de trillones de parámetros, esto se traduce en una capacidad de ingesta de datos que elimina por completo el tiempo de inactividad de los núcleos de cálculo, permitiendo un flujo constante de información.
El salto en TFLOPS y rendimiento en entrenamiento
Las cifras de rendimiento bruto presentadas en la GTC 2026 son disruptivas. Rubin ofrece un incremento de hasta 3.5 veces en TFLOPS para operaciones de precisión FP4 y FP8 en comparación con Blackwell. Este avance es fundamental para las fases de entrenamiento y pre-entrenamiento de modelos de frontera.
- Arquitectura Vera: Rubin llega acompañada de la nueva CPU Vera, diseñada para trabajar en tándem mediante el enlace NVLink 6, que alcanza velocidades de transferencia de TB/s.
- FP4 Dinámico: La introducción de nuevos formatos de precisión numérica permite comprimir los modelos sin pérdida de precisión, acelerando la velocidad de inferencia y permitiendo que modelos más grandes funcionen en clusters más pequeños.
Este despliegue técnico consolida a NVIDIA no solo como un fabricante de chips, sino como el arquitecto de la infraestructura sobre la que se construirá la inteligencia del futuro. Con Rubin, la barrera del entrenamiento de modelos de escala 10T (diez trillones de parámetros) deja de ser un desafío de ingeniería para convertirse en una realidad operativa.
0 Comentarios