InicioAINVIDIA empareja GPUs Rubin con groq lpu para reducir la latencia y...

NVIDIA empareja GPUs Rubin con groq lpu para reducir la latencia y aumentar la inferencia en 35x

El movimiento de $20 mil millones de NVIDIA para el groq lpu ha redefinido su hoja de ruta de inferencia de IA, desde las elecciones de arquitectura de GPU hasta cómo Vera Rubin servirá cargas de trabajo en tiempo real a gran escala.

Dentro de la apuesta de $20 mil millones de NVIDIA por Groq

El día de Navidad de 2025, la adquisición de NVIDIA de Groq era aún solo una llamada telefónica y un apretón de manos. El fundador Jonathan Ross — creador tanto de la LPU como de la TPU original de Google — estaba en casa cuando comenzaron las discusiones. Sin embargo, tres semanas después, $20 mil millones habían cambiado de manos y Ross se había convertido en el Arquitecto Jefe de Software de NVIDIA.

El proceso comenzó cuando el COO de Groq, Sunny Madra, contactó a Jensen Huang después de que NVIDIA abriera NVLink a socios del ecosistema, preguntando si Groq podría conectarse a él. Jensen respondió: «Claro, ¿por qué no?» Probaron la división de carga de trabajo GPU–LPU a través de Ethernet — aún no había NVLink, solo una prueba de concepto. Funcionó lo suficientemente bien como para que, en pocos días después de la demostración, comenzaran las conversaciones formales de adquisición.

La rapidez del acuerdo reflejó un problema estratégico urgente. NVIDIA compró una respuesta específica al cuello de botella de decodificación que enfrenta cada centro de datos de GPU en la inferencia de LLM. Además, se alineó con la evolución más amplia de la arquitectura de GPU de NVIDIA desde H100 a Blackwell B200 y luego a la plataforma Vera Rubin.

Por qué las GPUs tienen dificultades con la generación de tokens de LLM

Cada solicitud de inferencia de LLM tiene dos fases distintas. Prefill es cuando el modelo ingiere y procesa la entrada completa — prompt, contexto o documento — en paralelo. Miles de tokens, todas las cabezas de atención disparando a la vez. Las GPUs sobresalen en esta carga de trabajo altamente paralela.

La decodificación, sin embargo, es fundamentalmente diferente. El modelo genera salida un token a la vez, secuencialmente. Cada nuevo token depende de todos los tokens anteriores, por lo que el proceso no puede ser paralelizado a través de la secuencia. Dicho esto, esta naturaleza secuencial expone la desalineación arquitectónica entre las GPUs y la generación token por token.

Durante cada paso de decodificación, la GPU extrae toda la matriz de pesos de la memoria HBM, realiza una multiplicación de matrices relativamente pequeña y produce un solo token. Los pesos no cambian entre pasos, por lo que los mismos datos se cargan repetidamente. Incluso a 22 TB/s de ancho de banda HBM4 en una GPU Vera Rubin, el movimiento de memoria se convierte en el cuello de botella porque el cómputo por paso es tan ligero.

Las GPUs están optimizadas para un paralelismo masivo, no para una ejecución secuencial de grano fino. En consecuencia, cada paso de generación de tokens deja una gran parte del cómputo de la GPU infrautilizado. Este es exactamente el problema que el Groq 3 LPU fue diseñado para resolver, al hacerse cargo de la parte de la inferencia que está limitada por el acceso a la memoria y la latencia, no por FLOPS brutos.

Diseño del Groq 3 LP30 y arquitectura centrada en SRAM

El chip LP30, en el corazón del Groq 3, es arquitectónicamente muy diferente de una GPU. En lugar de tener HBM de alto ancho de banda junto al dado, integra 500 MB de SRAM en el dado que ofrece 150 TB/s de ancho de banda. Una GPU Vera Rubin, en contraste, ofrece 288 GB de HBM4 a 22 TB/s. La LPU tiene mucha menos capacidad, pero su acceso a la memoria es casi 7 veces más rápido.

Este diseño es deliberado. No hay jerarquía de caché, no hay programación de hardware dinámica y no hay ejecución especulativa. En su lugar, el LP30 expone SRAM plana con direccionamiento de banco físico. Además, reemplaza el modelo de ejecución impulsado por tiempo de ejecución de la GPU con programación de instrucciones estática impulsada por el compilador, donde el tiempo de cada instrucción se fija en tiempo de compilación.

Ese enfoque determinista elimina la variabilidad en el tiempo de entrega de tokens, lo cual es crucial para agentes de voz en tiempo real y aplicaciones sensibles a la latencia. Una GPU generando tokens secuencialmente experimenta retrasos impredecibles a nivel de microsegundos entre tokens, impulsados por la presión de memoria y el estado del programador. La LPU evita estos temblores por completo por construcción.

El LP30 incluye cuatro tipos distintos de unidades de ejecución: Matrix (MXM) para multiplicaciones de matrices FFN densas, Vector (VXM) para operaciones puntuales y activaciones, Switch (SXM) para permutación y transposición de datos, y Memory (MEM) para direccionamiento directo de SRAM bajo control del compilador. Esta mezcla está optimizada para la ejecución de FFN de transformadores.

Cada chip LP30 ofrece 1.2 PFLOPS de cómputo FP8. Se conecta a chips vecinos a través de 96 enlaces chip a chip a 112 Gbps cada uno, para un total de 2.5 TB/s de ancho de banda C2C por chip. Construido en el proceso LP4X de Samsung, duplica la capacidad de SRAM en comparación con el chip de primera generación de Groq, que tenía 230 MB.

Crucialmente, la LPU no está destinada a reemplazar las GPUs. Está diseñada para trabajar junto a las GPUs Vera Rubin en un modelo de ejecución dividida, con cada tipo de procesador manejando la parte de la carga de trabajo que coincide con su arquitectura. Sin embargo, hacer que esa división sea eficiente requirió un nuevo diseño de sistema.

Desagregación de Atención-FFN y división a nivel de sistema

NVIDIA etiqueta la arquitectura como Desagregación de Atención-FFN (AFD). La idea central es que una capa de decodificador de transformador contiene dos tipos de trabajo muy diferentes, y diferentes hardware ganan en cada uno: atención versus redes de avance.

La atención es dependiente del contexto. Lee el KV cache — el búfer que almacena cálculos intermedios de atención que crecen linealmente con la longitud de la secuencia — calcula puntuaciones de atención sobre todos los tokens anteriores y produce activaciones intermedias. El cómputo escala con la longitud del contexto, por lo que necesita hardware con gran capacidad de HBM para mantener el KV cache. Ese rol recae en la GPU Rubin.

El camino FFN, por el contrario, es independiente del contexto. Las mismas matrices de pesos se usan independientemente del prompt específico; solo las activaciones entrantes difieren por token. Los modelos modernos MoE están dominados por parámetros FFN: DeepSeek R1 tiene 669 mil millones de parámetros FFN de un total de 685 mil millones, o 97.7%. Kimi K2 alcanza el 98.9%. Estos pesos pueden caber en SRAM a escala de rack, y cargarlos a 150 TB/s es mucho más rápido que 22 TB/s desde HBM4.

En la práctica, la división funciona así: un complejo Vera Rubin NVL72 maneja prefill, construcción de KV cache y atención de decodificación. El sistema Groq 3 LPX se encarga de la decodificación FFN y el enrutamiento MoE. Para un modelo con 40 capas de decodificador, eso implica 40 viajes de ida y vuelta por token, con activaciones fluyendo de la GPU a la LPU y de regreso por cada token generado.

Todo esto es orquestado por NVIDIA Dynamo, una capa de software que clasifica las solicitudes entrantes, dirige el prefill a los trabajadores de GPU, gestiona el bucle AFD por token y realiza la programación consciente de KV para que los nuevos tokens aterricen en trabajadores que ya tienen el caché relevante. Además, coordina la red para minimizar el tráfico entre racks.

Como explicó Jonathan Ross durante su sesión en GTC 2026, «Si ejecutas todo en la LPU, estarías infrautilizándola en atención. Si ejecutas todo en la GPU, la infrautilizas en las capas FFN. Poniéndolos juntos, la utilización aumenta para ambos.» Ese comentario resume perfectamente la lógica detrás de la adquisición de nvidia groq.

En resumen, las GPUs Rubin manejan lo que demanda gran HBM — atención sobre contextos largos y almacenamiento de KV cache. La LPU de Groq maneja lo que necesita un ancho de banda de memoria extremo y un tiempo determinista — pesos FFN entregados a 150 TB/s por cada token.

Diseño de rack Groq 3 LPX y envolvente de rendimiento

El modelo AFD solo funciona si el Groq 3 LPX escala lo suficiente para cubrir la carga de trabajo FFN. Con 256 chips LP30, alcanza esa escala. El rack LPX integra 256 chips a través de 32 bandejas de cómputo refrigeradas por líquido, con 8 chips por bandeja en una topología de todos a todos para mantener baja la latencia intra-rack.

Las especificaciones a nivel de rack son sustanciales. El total de SRAM a través de los 256 chips es de 128 GB. El ancho de banda agregado a escala de rack alcanza 640 TB/s. El cómputo FP8 alcanza un máximo de 315 PFLOPS. La conectividad entre racks proporciona aproximadamente 448 GB/s por dirección por bandeja, utilizando una topología Dragonfly con un diámetro máximo de tres saltos.

Cuando se combina con Vera Rubin NVL72, esta plataforma ofrece ganancias de eficiencia dramáticas. Según NVIDIA, el sistema combinado Vera Rubin NVL72 + LPX logra 35x mayor rendimiento de inferencia por megavatio que un sistema Grace Blackwell NVL72 solo. Es importante destacar que la comparación es contra Blackwell NVL72, no configuraciones más antiguas como H100.

Durante el discurso de apertura de GTC, Jensen Huang mostró objetivos interactivos de 800–1,000 tokens por segundo para cargas de trabajo en tiempo real con este sistema combinado. Sin embargo, una aclaración crucial del mismo evento es que el rack LPX no es una alternativa más barata al NVL72.

Cuando un miembro de la audiencia sugirió que el LPX podría ser menos costoso, Ross respondió: «En realidad no estoy de acuerdo en que sea menos costoso. Hay mucho silicio en ese rack.» El LPX se presenta como una extensión premium a la plataforma Vera Rubin para clientes que necesitan inferencia de ultra baja latencia a gran escala, no como una tarjeta de inferencia económica.

También hay un límite estricto en el tamaño del modelo. Con 128 GB de SRAM, un rack LPX puede alojar modelos de hasta aproximadamente 53 GB en FP8. Modelos más grandes como DeepSeek R1, con 623 GB de pesos FFN en FP8, requieren encadenar múltiples racks LPX a través de puertos C2C en el panel frontal y distribuir pesos FFN a través de racks. Dicho esto, Dynamo y la pila de redes de NVIDIA están diseñados para ocultar gran parte de esta complejidad a los usuarios finales.

Cancelación de Rubin CPX e integración de Vera Rubin

La adquisición de Groq también resolvió un conflicto de planificación de productos. Inicialmente, la hoja de ruta de Vera Rubin incluía una segunda variante de GPU llamada Rubin CPX, un chip basado en GDDR7 optimizado para cargas de trabajo de contexto largo y KV cache. En GTC 2026, un asistente preguntó directamente a Ross si Rubin CPX había sido cancelado.

Ross evitó la pregunta con «una pregunta por persona» y no dio un sí o no directo. Sin embargo, en una sesión de preguntas y respuestas con la prensa de Ian Buck, NVIDIA confirmó que CPX ha sido archivado y que la decodificación basada en LPU se enviará en su lugar este año. La LPU resuelve el mismo problema de inferencia independiente del contexto y capacidad de memoria utilizando SRAM dedicada en lugar de una variante de GPU.

Como resultado, la integración de Vera Rubin ahora se estandariza en GPUs Rubin para tareas de atención y KV cache, mientras que los racks LPX asumen la responsabilidad de la ejecución de FFN y el despacho de MoE. Además, esto simplifica la pila de productos: en lugar de proliferar SKUs de GPU, NVIDIA se apoya en una clara división de trabajo GPU–LPU.

Preguntas frecuentes sobre LPU y Rubin

¿Por qué no simplemente desplegar más GPUs Rubin?

Agregar más GPUs Vera Rubin aumenta el rendimiento agregado por lote — se pueden servir más solicitudes paralelas simultáneamente. Sin embargo, no mejora la latencia de decodificación para una sola solicitud, porque la generación de tokens sigue siendo inherentemente secuencial independientemente del número de GPUs. La LPU está diseñada para reducir la latencia por solicitud, no solo el rendimiento del sistema en general, haciendo que los dos enfoques sean complementarios.

¿Cómo se mide la mejora de rendimiento de 35x?

La cifra de 35x es una métrica a nivel de sistema. Compara un despliegue completo de Vera Rubin NVL72 más Groq 3 LPX contra un sistema Grace Blackwell NVL72 solo, medido en tokens por segundo por megavatio. No es una mejora por GPU, y la línea base excluye explícitamente configuraciones más pequeñas como B200x8 o H100x8.

¿Dónde está el cuello de botella de GPU a LPU?

La latencia de rack a rack es una consideración real. Un ingeniero de Microsoft planteó este punto directamente durante la sesión de GTC. Ross reconoció la preocupación y dijo que se están realizando mejoras en la red. Mientras tanto, Dynamo maneja el enrutamiento consciente de KV para minimizar transferencias innecesarias, y la pila de redes Mellanox de NVIDIA gestiona los enlaces entre racks para mantener la latencia lo más baja posible.

¿Puede la LPU entrenar modelos?

No. La LPU es estrictamente solo para decodificación. Su programación estática impulsada por el compilador, que hace que la ejecución de FFN sea tan rápida y determinista, no es adecuada para la naturaleza dinámica e iterativa de la retropropagación. Por lo tanto, las cargas de trabajo de entrenamiento permanecen en las GPUs Rubin, que están diseñadas para un cómputo flexible y de alto rendimiento.

¿Cuándo estará disponible Groq 3 LPX?

Ross confirmó en GTC que Groq 3 LPX ya está en producción. Jensen Huang anunció Q3 2026 como el cronograma para la disponibilidad para clientes, alineado con el lanzamiento más amplio de la plataforma Vera Rubin. Ross describió el viaje desde las discusiones del día de Navidad hasta el escenario de GTC como «probablemente uno de los lanzamientos de semiconductores más rápidos de la historia,» abarcando aproximadamente tres meses.

Implicaciones estratégicas para la inferencia de IA

La arquitectura groq lpu llena un vacío que ninguna variante de GPU podría cerrar, no porque las GPUs carezcan de transistores o memoria, sino porque la decodificación FFN secuencial y sensible a la latencia no se alinea con su diseño paralelo. A medida que los volúmenes de usuarios crecen, más solicitudes concurrentes llegan a cada centro de datos, y cada milisegundo de latencia por token se compone a través de miles de sesiones.

La adquisición señaló el reconocimiento de NVIDIA de que las GPUs por sí solas no son suficientes para el lado de decodificación de la inferencia de LLM. Además, confirmó un cambio más amplio en la industria: los aceleradores especializados están emergiendo para complementar las GPUs de propósito general, no para reemplazarlas por completo.

La SRAM impulsada por el compilador a 150 TB/s es la herramienta adecuada para la ejecución de FFN. HBM4 a 22 TB/s es la herramienta adecuada para la atención sobre contextos largos y cargas de trabajo pesadas en KV. La apuesta de $20 mil millones es que usar ambos juntos — orquestados por Dynamo y conectados a través de NVLink y enlaces C2C de alta velocidad — crea un sistema que ninguno podría igualar por sí solo.

Basado en los anuncios de GTC 2026 de NVIDIA y la documentación oficial, Groq 3 LPX está apuntando a la disponibilidad en el Q3 de 2026. Si el lanzamiento se mantiene en el cronograma, la pila combinada Rubin–LPU podría definir la arquitectura de referencia para la inferencia de IA a gran escala en la segunda mitad de la década.

Satoshi Voice
Este artículo se ha elaborado con ayuda de inteligencia artificial y ha sido revisado por nuestro equipo de periodistas para garantizar su precisión y calidad.
RELATED ARTICLES

Stay updated on all the news about cryptocurrencies and the entire world of blockchain.

Featured video

LATEST