Nvidia redobla la apuesta: su nuevo servidor de IA promete multiplicar por diez la velocidad de los modelos más avanzados

La compañía ha publicado nuevos datos de rendimiento que colocan a su último servidor de inteligencia artificial hasta 10 veces por encima de la generación anterior al ejecutar modelos de última hornada, incluidos sistemas chinos como los de DeepSeek y Moonshot AI. El movimiento llega en plena carrera por dominar no solo el entrenamiento de modelos, donde Nvidia ya manda, sino también su despliegue masivo, un terreno donde rivales como AMD, Cerebras y las grandes nubes, con AWS a la cabeza, se están organizando para plantar cara. 

De entrenar modelos a servirlos a millones de usuarios

Durante años, el relato en torno a la IA ha girado en torno al entrenamiento de modelos gigantescos, una fase en la que Nvidia ha conseguido una posición dominante gracias a sus GPU de alto rendimiento. Ahora, la batalla se está desplazando hacia otro frente igual de crítico: cómo ejecutar esos modelos para millones de usuarios sin que la infraestructura se desborde

Es en este contexto donde Nvidia ha decidido mover ficha. La empresa ha difundido nuevos resultados de rendimiento de su último servidor de IA, que, según sus propias pruebas, ofrece hasta diez veces más velocidad al ejecutar modelos de nueva generación, incluidos dos muy utilizados desarrollados en China. No se trata de un anuncio aislado, sino de un mensaje claro al mercado: la compañía quiere demostrar que su hardware sigue siendo clave no solo para entrenar modelos, sino también para servirlos en producción. 

Mientras tanto, el terreno de la inferencia está mucho más abierto que el del entrenamiento. AMD y el especialista Cerebras, entre otros, tratan de recortar distancias con soluciones propias, aprovechando que muchas empresas buscan alternativas para reducir costes y dependencia tecnológica. 

Mezcla de expertos: la técnica que marca el paso

El nuevo servidor de Nvidia se ha probado sobre todo con modelos de mixture-of-experts (MoE), una aproximación que se ha convertido en una de las grandes tendencias de 2025. Estos modelos dividen cada petición en fragmentos más pequeños que se reparten entre distintos “expertos” internos, de forma que solo se activan las partes del modelo necesarias en cada momento, ganando eficiencia sin disparar el tamaño total del sistema. 

La mezcla de expertos saltó al primer plano cuando DeepSeek, desde China, lanzó a comienzos de 2025 un modelo abierto de alto rendimiento que necesitó menos entrenamiento sobre chips de Nvidia que muchas propuestas rivales. Ese hito demostró que se podían conseguir resultados competitivos con un uso más ajustado de hardware, algo especialmente sensible en un contexto de escasez de GPU y costes al alza. 

Tras ese golpe sobre la mesa, actores de primer nivel como OpenAI, la francesa Mistral o la también china Moonshot AI abrazaron el enfoque MoE en sus propios modelos. Moonshot, en concreto, lanzó en julio su modelo Kimi K2 Thinking, bien valorado en la comunidad, que se ha convertido en uno de los ejemplos de referencia de esta nueva generación de arquitecturas. 

Un servidor con 72 chips para exprimir los modelos

Para convencer al mercado de que sigue siendo imprescindible en la fase de despliegue, Nvidia se apoya en una nueva configuración de servidor que integra 72 chips de gama alta de la casa en un único sistema, interconectados mediante enlaces de datos de muy alta velocidad. Según los datos publicados por la empresa, esta arquitectura permite ejecutar el modelo Kimi K2 Thinking de Moonshot hasta diez veces más rápido que en la generación anterior de servidores de Nvidia, con mejoras similares sobre los modelos de DeepSeek. 

La compañía atribuye estas cifras a dos factores fundamentales: por un lado, la capacidad de agrupar un gran número de procesadores especializados en una única máquina; por otro, la velocidad de las conexiones entre ellos, que reduce cuellos de botella a la hora de repartir el trabajo del modelo. Ambos elementos son presentados como ventajas competitivas frente a los rivales que están intentando replicar esta clase de sistemas de gran escala. 

Conviene recordar, no obstante, que se trata de resultados procedentes de pruebas internas comunicadas por Nvidia. Aunque el salto de rendimiento encaja con la lógica de apilar más chips y mejorar la interconexión, el mercado tendrá que ver cómo se traducen estas cifras en escenarios reales, con cargas variadas y presupuestos energéticos que no siempre permiten exprimir el hardware al máximo.

AMD y AWS preparan su contraataque

El anuncio de Nvidia no llega en vacío. AMD está desarrollando su propio servidor de IA multinodo, con un concepto similar de agrupar múltiples chips en un único sistema, que planea lanzar el año que viene. Aunque todavía no ha puesto sobre la mesa cifras comparables, la estrategia es clara: ofrecer una alternativa creíble a los sistemas de Nvidia justamente en el terreno donde intenta blindar su posición. 

En paralelo, la batalla también se libra en la nube. Amazon Web Services ha comunicado que integrará la tecnología NVLink Fusion de Nvidia en su futura generación de chips de IA Trainium4. NVLink es uno de los activos más valiosos de Nvidia, un sistema de interconexión diseñado para crear enlaces ultrarrápidos entre distintos tipos de chips y permitir que trabajen como un único superordenador al entrenar y ejecutar grandes modelos. 

El anuncio se realizó durante la conferencia anual en la nube de AWS en Las Vegas y refuerza la idea de que, aunque las grandes plataformas desarrollen sus propios aceleradores, siguen dependiendo de tecnologías clave de Nvidia para escalar. Intel y Qualcomm ya habían apostado por NVLink, y la incorporación de AWS consolida esta especie de “infraestructura de facto” para unir chips heterogéneos en centros de datos de nueva generación. 

AWS asegura que NVLink Fusion le permitirá construir sistemas de IA mucho más grandes, capaces de comunicarse más rápido y funcionar de forma sincronizada, algo esencial cuando se entrenan modelos que se reparten entre millares de máquinas conectadas. Como parte del acuerdo, los clientes de la nube también tendrán acceso a las llamadas AI Factories: infraestructura de IA dedicada dentro de sus propios centros de datos, pensada para ofrecer mayor velocidad, seguridad y preparación para proyectos de gran escala. 

Qué se juega realmente en esta carrera

Más allá del titular del “10x”, lo que está en juego es quién controlará la capa física que hace posible esta nueva oleada de modelos avanzados. Nvidia busca demostrar que, incluso cuando surgen arquitecturas más eficientes como la mezcla de expertos, su hardware sigue siendo el camino preferente para llevar esos modelos a producción. AMD intenta abrir un segundo proveedor potente en servidores de alta densidad, mientras que AWS quiere que sus propios chips hablen el mismo idioma de interconexión que las GPU de Nvidia para no quedar fuera del mapa.

Para los usuarios finales, buena parte de esta batalla será invisible, pero tendrá consecuencias en costes, disponibilidad de capacidad de cómputo y velocidad con la que se podrán desplegar nuevas generaciones de modelos. Si las promesas de rendimiento se cumplen, el nuevo servidor de Nvidia y las alianzas en torno a NVLink podrían acelerar de forma notable la llegada de servicios de IA más rápidos y complejos. Si no, el terreno quedará abierto para que las alternativas ganen tracción.

En cualquier caso, el mensaje es claro: la guerra de la IA ya no se libra solo en los modelos, sino en el diseño de los servidores y las redes que los hacen posibles. Y Nvidia quiere que el mercado tenga muy presente que, por ahora, sus servidores siguen siendo el centro de esa conversación.

Publicar un comentario

0 Comentarios