
Mamba-3 : l'architecture qui veut detroner les Transformers
Together AI et Carnegie Mellon presentent Mamba-3, un modele d'IA qui promet des performances equivalentes aux Transformers pour un cout bien moindre.
Les Transformers ont de la concurrence
Quand on parle d'intelligence artificielle aujourd'hui, on parle de Transformers. C'est l'architecture (la structure mathematique) qui fait tourner ChatGPT, Claude, Gemini et a peu pres tous les grands modeles de langage. Mais cette architecture a un defaut majeur : elle coute tres cher a faire tourner.
Mamba-3, presente par Together AI en collaboration avec Carnegie Mellon et Princeton, propose une alternative serieuse.
C'est quoi un Transformer, deja ?
Pour simplifier, un Transformer lit un texte en regardant chaque mot par rapport a tous les autres mots en meme temps. C'est puissant, mais ca veut dire que plus le texte est long, plus le calcul explose. C'est pour ca que faire tourner un chatbot coute des millions en serveurs et en electricite.
Ce que Mamba fait differemment
Mamba appartient a la famille des SSM, les State Space Models (modeles a espace d'etats). Au lieu de regarder tout le texte d'un coup, Mamba le traite de facon sequentielle, comme si on lisait un livre page apres page en gardant un resume en tete.
Le resultat : le calcul augmente de facon lineaire avec la longueur du texte, pas de facon exponentielle. En pratique, ca veut dire un modele plus rapide et moins gourmand en ressources.
Les nouveautes de Mamba-3
Mamba-3 apporte trois ameliorations par rapport a Mamba-2 (sorti mi-2024).
La premiere, c'est une meilleure formule de recurrence. Le resume que le modele garde en tete est plus riche et plus fidele. La deuxieme, c'est l'utilisation de nombres complexes pour suivre l'etat du modele, ce qui lui permet de capturer des patterns plus subtils dans le texte. La troisieme, c'est le mode MIMO (multi-input, multi-output), qui fait tourner plusieurs SSM en parallele pour gagner en precision sans ralentir la generation.
Les resultats
Sur les benchmarks standard, Mamba-3 a 1,5 milliard de parametres bat Mamba-2, Gated DeltaNet, et meme Llama 3.2 (un Transformer de Meta) en termes de vitesse totale (lecture du texte + generation de la reponse).
En qualite de texte genere, Mamba-3 se rapproche des Transformers sans les egaler completement sur toutes les taches, mais l'ecart se reduit a chaque generation.
Pourquoi ca compte
Dans un monde ou les agents IA (Codex, Claude Code, et leurs equivalents) generent des volumes enormes de texte en continu, la vitesse d'inference devient cruciale. Un modele qui genere aussi bien mais deux fois plus vite, c'est un modele qui coute deux fois moins cher a operer.
Together AI a publie tout le code en open source, y compris les noyaux de calcul optimises. N'importe qui peut tester et ameliorer Mamba-3.
Et maintenant ?
Mamba-3 ne remplace pas les Transformers demain matin. Mais il prouve que d'autres architectures peuvent rivaliser avec eux, surtout quand l'enjeu passe de l'entrainement (apprendre) a l'inference (repondre). Et c'est exactement la ou se situe le goulot d'etranglement en 2026.
À lire aussi
Mamba-3 : SSM optimise inference, benchmarks et architecture
Analyse technique de Mamba-3, le State Space Model de Together AI qui repense l'inference LLM avec recurrence complexe, mode MIMO et noyaux Triton/TileLang.
OpenCode : l'agent de code IA open source qui explose
Avec 120 000 etoiles GitHub et 5 millions d'utilisateurs mensuels, OpenCode s'impose comme l'alternative gratuite aux agents de coding IA proprietaires.
OpenCode : architecture LSP, multi-provider et sessions parall...
Analyse technique d'OpenCode, l'agent de coding open source a 120K etoiles GitHub. LSP natif, 75+ providers, sessions multiples et architecture privacy-first.