Média tech français
Call-Informatique
Le média tech français
Nvidia abandonne le Rubin CPX au profit du Groq 3 LPU
Informatiqueactualites5 min de lecture

Nvidia abandonne le Rubin CPX au profit du Groq 3 LPU

Au GTC 2026, Nvidia enterre discretement le Rubin CPX et mise tout sur le Groq 3 LPU, un processeur d'inference SRAM qui redefinit le decode IA.

# Nvidia abandonne le Rubin CPX et mise tout sur le Groq 3 LPU

Il y a un an, Nvidia presentait le Rubin CPX comme la piece maitresse de son architecture d'inference. Un processeur dedie au prefill, bourre de GDDR7, cense accelerer la phase de traitement des prompts dans les data centers. C'etait a Computex 2025 et Jensen Huang avait l'air particulierement fier de son coup.

Sauf que ce lundi au GTC 2026, le CPX a tout simplement disparu des slides. Plus aucune mention. Comme s'il n'avait jamais existe.

Le Groq 3 prend la place

A la place du Rubin CPX, Nvidia pousse desormais le Groq 3 LPU, un processeur d'inference issu du rachat de la startup Groq pour 20 milliards de dollars fin 2025. Et quand on regarde les specs, on comprend pourquoi le CPX a ete mis au placard.

Le Groq 3 LPU embarque 500 Mo de SRAM directement sur la puce. C'est ridicule compare aux dizaines de Go de HBM d'un GPU classique, mais la bande passante est delirante : 150 To/s par puce. A titre de comparaison, le GPU Vera Rubin plafonne a 22 To/s avec sa HBM4. On parle d'un facteur 7x.

Cote compute, chaque LPU delivre 1,2 PFLOPS en FP8. Pas mal pour une puce qui ne fait "que" de la generation de tokens.

L'architecture a deux moteurs

Ce qui change fondamentalement avec le Groq 3, c'est l'approche. Nvidia separe maintenant l'inference en deux phases distinctes avec deux types de processeurs differents.

Les GPU Vera Rubin gerent le prefill, la partie lourde ou le modele digere le prompt et construit le cache KV. C'est du calcul intensif, les GPU excellent la-dessus. Ensuite, la generation de tokens passe au Groq 3 LPU, optimise pour cracher du texte token par token avec une latence ultra-stable.

Nvidia appelle ca la "disaggregation attention-FFN". Les couches FFN et les experts MoE tournent sur les LPU pendant que les GPU gardent la main sur l'attention et le cache KV. Les activations intermediaires s'echangent entre les deux moteurs a chaque token genere.

Ian Buck, le patron de l'acceleration chez Nvidia, a ete clair : "Integrer le LPU et le LPX dans notre plateforme pour optimiser le decode, c'est la qu'on concentre nos efforts maintenant." Traduction : le CPX, c'est fini.

Le rack LPX : 256 puces, zero cable

Le Groq 3 ne vit pas seul. Nvidia l'emballe dans un rack baptise LPX qui contient 256 puces reparties sur 32 tiroirs refroidis par liquide. Le tout sans cable interne, une premiere pour Nvidia a cette echelle.

Les chiffres du rack complet donnent le vertige : 315 PFLOPS en FP8, 128 Go de SRAM ultra-rapide, 640 To/s de bande passante interne. Chaque LPU communique avec ses voisins via 96 liens C2C a 112 Gbps, soit 2,5 To/s bidirectionnels par puce.

Le modele d'execution est radicalement different d'un GPU. Pas de cache dynamique, pas de scheduling hardware. Le compilateur orchestre tout de maniere deterministe, chaque mouvement de donnees est planifie a l'avance. C'est ce qui permet d'obtenir une latence par token quasi constante, meme sous faible charge.

35 fois plus efficace par megawatt

C'est le chiffre qui a fait reagir la salle au GTC. A 400 tokens par seconde par utilisateur, la combinaison Vera Rubin + LPX delivre jusqu'a 35 fois plus de debit d'inference par megawatt qu'un cluster Blackwell NVL72. Et en termes de revenus potentiels par megawatt, Nvidia annonce un multiplicateur de 10x.

Ces chiffres visent clairement les fournisseurs de modeles qui facturent a la generation de tokens. Quand OpenAI facture environ 15 dollars le million de tokens en sortie pour GPT-5.4, et que Nvidia prevoit un cout cible de 45 dollars par million de tokens generes sur sa plateforme, on voit que la marge de progression reste significative. Mais l'efficacite energetique change la donne pour les operateurs.

Pas de CUDA sur le LPU

Point important : le Groq 3 ne parle pas CUDA. Ian Buck a precise qu'il n'y avait "aucun changement a CUDA pour le moment" et que le LPU fonctionne comme un accelerateur rattache a la plateforme CUDA qui tourne sur les Vera Rubin NVL72. Pour les developpeurs, ca veut dire que le LPU reste transparent. C'est le middleware Dynamo qui gere l'orchestration entre GPU et LPU.

Cote workloads, Nvidia cible l'IA agentique, les assistants vocaux, les copilotes de code, le raisonnement long, tout ce qui demande des reponses rapides et interactives. En revanche, pour du traitement batch, de la moderation ou des embeddings, les GPU seuls restent plus adaptes.

La concurrence replique deja

Nvidia n'est pas le seul a miser sur l'architecture heterogene pour l'inference. AWS a annonce un partenariat similaire avec Cerebras : Trainium 3 pour le prefill, wafer-scale WSE-3 avec 44 Go de SRAM pour le decode. La course a la latence minimale est lancee et 2026 s'annonce comme l'annee ou les data centers d'inference vont se transformer en profondeur.

Le fait que deux geants adoptent la meme strategie, separer prefill et decode sur des puces specialisees, dit quelque chose sur l'avenir du marche. Le GPU tout-en-un pour l'inference, c'est peut-etre en train de devenir un truc du passe.

Le rack LPX devrait etre disponible avec les systemes Vera Rubin dans le courant de l'annee. Nvidia vise en premier les constructeurs de modeles et les fournisseurs de services qui travaillent avec des modeles de plus d'un trillion de parametres.

Source : [Tom's Hardware](https://www.tomshardware.com/pc-components/gpus/nvidia-removes-rubin-cpx-accelerators-from-its-roadmap-groq-3-lpus-take-center-stage-as-cpx-is-removed)
Sur le même sujet

À lire aussi

#nvidia#groq 3#lpu#gtc 2026#inference ia#vera rubin#gpu#intelligence artificielle#data center