Intelligence artificielle
Le mur GPU se fissure : la révolution invisible dans les architectures post-Transformers

Pendant les cinq dernières années, l’industrie de l’intelligence artificielle a été effectivement synonyme d’un mot : Transformer. Depuis la publication de l’article fondateur “Attention Is All You Need” en 2017, cette architecture a dominé le domaine. De GPT à Claude, virtuellement tous les modèles qui font les gros titres reposent sur le même mécanisme sous-jacent d’auto-attention. Nous avons largement supposé que la voie vers une meilleure intelligence artificielle est simplement une question d’échelle. Dans la pratique, cela signifie former des Transformers plus grands avec plus de données sur des clusters de GPU plus importants.
Alors que cette croyance a conduit à de nombreuses avancées, elle atteint maintenant ses limites. Nous heurtons un “mur GPU”, une barrière non seulement de puissance de calcul brute, mais également de bande passante mémoire et de durabilité économique. Alors que le monde se concentre sur la course aux modèles à un trillion de paramètres, un changement radical a lieu dans les laboratoires de recherche. Une nouvelle vague d’« architectures post-Transformers » émerge pour briser les limitations du paradigme actuel. Ce changement promet de rendre l’intelligence artificielle plus efficace, plus accessible et capable de raisonnement sur des contextes infinis.
Le plafond de silicium : pourquoi les Transformers heurtent un mur
Pour comprendre pourquoi nous avons besoin d’un changement, nous devons d’abord comprendre le goulet d’étranglement du régime actuel. Les Transformers sont incroyablement puissants, mais ils sont également remarquablement inefficaces de certaines manières. Le cœur de leur capacité réside dans le “mécanisme d’attention”, qui permet au modèle de regarder chaque jeton dans une séquence et de calculer sa relation avec chaque autre jeton. C’est ce qui leur donne la capacité de comprendre le contexte de manière remarquable.
Cependant, cette capacité est accompagnée d’une faille fatale de croissance quadratique. Si vous doublez la longueur du document que l’IA doit lire, le travail de calcul requis ne double pas, il quadruple. Alors que nous visons des modèles à “contexte infini” qui peuvent lire des bibliothèques ou des bases de code entières, les exigences de calcul deviennent extrêmement élevées.
Mais le problème plus immédiat est la mémoire, en particulier le “KV Cache” (Cache de clé-valeur). Pour générer du texte de manière fluide, un Transformer doit conserver un historique en cours de tout ce qu’il a dit dans la mémoire haute vitesse de la GPU (VRAM). Alors que la conversation s’allonge, ce cache gonfle, consommant d’énormes quantités de mémoire pour se souvenir de ce qui s’est passé il y a trois paragraphes.
Cela crée le “mur GPU”. Nous ne manquons pas seulement de puces ; nous manquons de bande passante mémoire pour les alimenter. Nous avons construit des moteurs qui deviennent de plus en plus grands, mais ils deviennent impossibles à alimenter. Pendant longtemps, la solution de l’industrie a été simplement d’acheter plus de NVIDIA H100. Mais cette force brute atteint un point de rendement décroissant. Nous n’avons pas besoin d’un moteur qui consomme du carburant de manière quadratique, mais d’une nouvelle architecture.
La révolution invisible
Alors que la recherche mainstream s’est concentrée sur les LLM, un groupe de chercheurs a revisité une ancienne idée : les Réseaux de neurones récurrents (RNN). Avant les Transformers, les RNN étaient la norme pour le langage. Ils traitaient le texte de manière séquentielle, mot par mot, en mettant à jour un état interne caché à mesure qu’ils progressaient. Ils étaient incroyablement efficaces car ils n’avaient pas besoin de regarder en arrière sur l’histoire entière, ils portaient simplement l'”essence” de celle-ci dans leur mémoire.
Les RNN ont échoué car ils ne pouvaient pas gérer les dépendances longues ; ils “oubliaient” le début d’une phrase dès qu’ils atteignaient la fin. Ils étaient également lents à entraîner car vous ne pouviez pas les paralléliser. Cela signifie que vous deviez traiter le mot A avant de pouvoir traiter le mot B. Les Transformers ont résolu ce problème en traitant tout en même temps (parallélisation) et en conservant tout en mémoire (attention).
Nous assistons maintenant à l’émergence d’une nouvelle vague d’architectures qui combinent le meilleur des deux mondes. Ces architectures sont largement connues sous le nom de Modèles d’espace d’état (SSM). Ils offrent la vitesse d’entraînement des Transformers (parallélisables) mais l’efficacité d’inférence des RNN (échelle linéaire).
L’une des architectures émergentes de cette nouvelle vague est Mamba. Publié à la fin de 2023 et affiné tout au long de 2024, Mamba est un changement fondamental dans la façon dont les modèles traitent les informations. Contrairement à un Transformer, qui conserve une copie originale de chaque mot qu’il a jamais vu dans son tampon de mémoire, Mamba utilise un “espace d’état sélectif”.
Nous pouvons comprendre la différence entre Transformer et Mamba en imaginant un Transformer comme un érudit qui garde chaque livre qu’il a jamais lu ouvert sur un énorme bureau, en scannant constamment d’avant en arrière pour trouver des connexions. Mamba, en revanche, est un érudit qui lit le livre une fois et comprime les connaissances clés dans un cahier très efficace. Lorsque Mamba génère le mot suivant, il n’a pas besoin de regarder le texte brut ; il regarde son état compressé.
Cette distinction change les économies de déploiement de l’IA. Avec Mamba et des architectures similaires comme RWKV (Receptance Weighted Key Value), le coût de génération de texte ne fait pas exploser à mesure que la séquence s’allonge. Vous pouvez théoriquement alimenter ces modèles avec un million de mots de contexte, et le coût de calcul pour générer le prochain jeton reste le même que si vous leur aviez fourni dix mots.
Le retour de la récurrence
La percée technique derrière Mamba est la “sélectivité”. Les tentatives précédentes pour moderniser les RNN ont échoué car elles étaient trop rigides. Ils compressaient les informations de manière égale, qu’elles soient importantes ou du bruit. Mamba introduit un mécanisme qui permet au modèle de décider dynamiquement ce qu’il doit retenir et ce qu’il doit oublier à mesure qu’il traite les données.
Si le modèle reçoit une information importante, comme une définition de variable dans un bloc de code, il “ouvre la porte” et écrit fortement dans son état. Si il est confronté à des mots de remplissage ou à un bruit sans importance, il ferme la porte, préservant sa capacité de mémoire limitée pour ce qui compte.
Cette sélectivité résout efficacement le problème de “oubli” qui a défié les anciens RNN. Dans de nombreux tests, les modèles basés sur Mamba égalent les performances des Transformers de la même taille mais s’exécutent jusqu’à cinq fois plus rapidement pendant l’inférence. Plus important encore, leur empreinte mémoire est nettement plus petite. Cela ouvre la porte aux LLM de haute performance pour s’exécuter sur des appareils qui étaient précédemment considérés comme incapables de les gérer, tels que les ordinateurs portables, les réseaux de calcul de bord ou même les smartphones, sans avoir à les décharger dans le cloud.
Nous assistons également à l’émergence de Hyena, une autre architecture sous-quadratique qui utilise des convolutions longues pour traiter les données. Comme Mamba, Hyena vise à supprimer les lourdes couches d’attention des Transformers et à les remplacer par des opérations mathématiques beaucoup moins coûteuses pour le matériel à exécuter. Ces modèles ont maintenant commencé à défier les Transformers établis sur les principaux tableaux de bord.
L’essor des hybrides
La révolution, cependant, pourrait ne pas être un remplacement complet du Transformer, mais plutôt une évolution en formes hybrides. Nous voyons déjà l’émergence de modèles comme Jamba (de AI21 Labs), qui combine des couches de Transformer avec des couches de Mamba.
Cette approche hybride offre un moyen pratique de résoudre les limitations des Transformers. Les Transformers restent exceptionnellement forts pour certaines tâches, en particulier pour copier des détails précis du contexte. En mélangeant des couches de Mamba (qui gèrent la majeure partie du traitement des données et de la mémoire à long terme) avec quelques couches d’attention de Transformer (qui gèrent le raisonnement immédiat et tranchant), nous obtenons un modèle qui combine le meilleur des deux mondes.
Un modèle hybride crée une fenêtre de contexte massive qui est réellement utilisable. Actuellement, de nombreux “longs contextes” de Transformers prétendent gérer 100 000 jetons, mais leurs performances se dégradent rapidement à mesure que le contexte se remplit. Ce phénomène est connu sous le nom de “perdu dans le milieu“. L’architecture hybride maintient sa cohérence beaucoup mieux sur de longues distances car les couches SSM sont spécifiquement conçues pour compresser et conserver l’état dans le temps.
Ces développements déplacent le focus de l’industrie de “Calcul d’entraînement” (quelle taille de cluster ai-je besoin pour construire le modèle ?) à “Économie d’inférence” (à quel coût puis-je servir ce modèle à un milliard d’utilisateurs ?). Si un modèle hybride peut servir un utilisateur pour 10 % du coût d’un Transformer, le cas d’affaires pour les applications d’IA change du jour au lendemain.
Le futur du déploiement de l’IA
Les implications de cette révolution post-Transformer ne sont pas limitées au centre de données. Le mur GPU a historiquement servi de gardien, garantissant que seuls les plus grands géants de la technologie avec des milliards de dollars en matériel puissent construire et exécuter des modèles de pointe. Des architectures efficaces comme Mamba et RWKV démocratisent ce pouvoir. Si vous pouvez exécuter un modèle de niveau GPT-4 sur une carte de consommation car vous n’avez plus besoin de téraoctets de VRAM pour le cache de clé-valeur, le contrôle centralisé de l’IA commence à se desserrer. Nous pourrions voir un regain d’agents d’IA locaux et privés qui vivent entièrement sur votre ordinateur, en traitant vos données privées sans jamais envoyer de paquet au cloud.
En outre, cette efficacité est la clé pour débloquer les systèmes d’IA “Agentic AI” qui s’exécutent en arrière-plan pendant des heures ou des jours pour effectuer des tâches complexes. Les Transformers actuels sont trop coûteux et lents pour s’exécuter en boucles continues pendant de longues périodes. Une architecture efficace et linéaire peut “réfléchir” et traiter des boucles en continu sans banquer les utilisateurs ou surchauffer le matériel.
En résumé
Le Transformer a dominé les titres de l’IA, mais derrière la scène, une révolution silencieuse est en cours. Le mur GPU pousse les chercheurs à repenser la façon dont les modèles gèrent la mémoire et le calcul. Les architectures post-Transformers comme Mamba et les modèles hybrides prouvent que l’efficacité, et non seulement l’échelle, définiront la prochaine ère. Ces innovations rendent les fenêtres de contexte massives pratiques, l’inférence moins chère et l’IA avancée accessible au-delà des centres de données. Le futur de l’IA réside non dans des modèles plus grands, mais dans des modèles plus intelligents qui se souviennent, raisonnent et évoluent de manière efficace.












