Intelligence artificielle

MambaOut: Do We Really Need Mamba for Vision?

Published May 24, 2024

Updated April 4, 2026

Kunal Kejriwal

Dans les cadres modernes d’apprentissage automatique et d’intelligence artificielle, les transformateurs sont l’un des composants les plus utilisés dans divers domaines, notamment les séries GPT, BERT en traitement du langage naturel et les transformateurs de vision pour les tâches de vision par ordinateur. Bien que l’inclusion de transformateurs dans l’architecture du modèle donne un boost significatif aux performances du modèle, le module d’attention dans les transformateurs évolue de manière quadratique avec la longueur de la séquence, ce qui entraîne de grands défis de calcul. Au fil des ans, différents modèles ont exploré différentes stratégies pour relever les défis de calcul, notamment des méthodes telles que la kernelisation, la compression de l’historique des mémoires, la limitation de la portée du mélange de jetons et les approches de faible rang. Récemment, les réseaux de neurones récurrents comme les méthodes Mamba et RWKV ont attiré une attention significative en raison de leurs résultats prometteurs dans les grands modèles de langage.

Mamba, une famille de modèles, a une architecture avec un mélangeur de jetons de type réseau de neurones récurrents d’un modèle d’espace d’état a été récemment introduit pour résoudre la complexité quadratique des mécanismes d’attention et a été appliqué aux tâches de vision par la suite. Les chercheurs ont déjà exploré des moyens d’intégrer Mamba et SSM ou modèle d’espace d’état dans les tâches de reconnaissance visuelle, et Vision Mamba qui intègre Mamba pour développer des modèles de vision isotropiques similaires aux transformateurs de vision est un excellent exemple de cela. D’un autre côté, LocalMamba intègre des biais inductifs locaux pour améliorer les modèles de vision Mamba, et le cadre VMamba utilise le modèle de base Mamba pour construire des modèles hiérarchiques similaires à ResNet et AlexNet. Cependant, est-ce que le cadre Mamba est vraiment essentiel pour les tâches de contexte de reconnaissance visuelle ? La question se pose car les performances de la famille de modèles Mamba pour les tâches de vision ont été décevantes jusqu’à présent par rapport aux modèles d’attention et de convolution traditionnels.

MambaOut tente de répondre à la question de savoir si Mamba est idéalement adapté pour les tâches avec des caractéristiques autoregressives et de longue séquence. Le cadre MambaOut hypothétise que Mamba n’est pas nécessaire pour les tâches de vision puisque la classification d’images ne correspond pas aux caractéristiques autoregressives ou de longue séquence. Bien que les tâches de segmentation et de détection ne soient pas non plus autoregressives, elles présentent des caractéristiques de longue séquence, ce qui amène le cadre MambaOut à hypothétiser le potentiel de Mamba pour ces tâches. Le cadre MambaOut est construit en empilant des blocs Mamba les uns sur les autres tout en supprimant le modèle d’espace d’état, son mélangeur de jetons principal. Les résultats expérimentaux soutiennent l’hypothèse avancée par le cadre MambaOut, puisqu’il est capable de surpasser tous les modèles de vision Mamba sur le cadre de classification d’images ImageNet, indiquant que Mamba n’est pas nécessaire pour les tâches de vision. D’un autre côté, pour les tâches de détection et de segmentation, le cadre MambaOut n’est pas en mesure de reproduire les performances offertes par le modèle Mamba à l’état de l’art, démontrant le potentiel de la famille de modèles Mamba pour les tâches de vision à longue séquence.

Cet article vise à couvrir le cadre MambaOut en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres à l’état de l’art. Alors, commençons.

MambaOut: Mamba est-il vraiment nécessaire pour la vision ?

Avec la progression des applications et des capacités d’apprentissage automatique, les transformateurs sont devenus le socle principal pour une gamme de tâches, alimentant des modèles éminents tels que Vision Transformers, les séries de modèles GPT, BERT, et quelques autres. Cependant, le mélangeur de jetons du transformateur implique une complexité quadratique par rapport à la longueur de la séquence, et pose des défis de calcul importants. Pour résoudre ce problème, de nombreux mélangeurs de jetons avec une complexité linéaire par rapport à la longueur du jeton, tels que Linformer, Longformer, Performer, Dynamic Convolution et Big Bird, ont été introduits. Cependant, ces derniers temps, les modèles de type Réseau de Neurones Récurrents (RNN) gagnent en importance en raison de leur capacité de formation parallèle et de leur efficacité sur les longues séquences. Guidés par les résultats remarquables des modèles de type RNN, les chercheurs tentent d’introduire et d’utiliser la famille de modèles Mamba dans les tâches de reconnaissance visuelle, puisque le mélangeur de jetons des modèles Mamba est le modèle d’espace d’état structuré dans l’esprit des Réseaux de Neurones Récurrents. Cependant, les résultats expérimentaux indiquent que les cadres basés sur le modèle d’espace d’état pour la vision réalisent des performances décevantes dans les tâches de vision réelles par rapport aux modèles d’attention et de convolution à l’état de l’art.

MambaOut est une tentative pour étudier la nature de la famille de modèles Mamba et résume que Mamba est adapté pour les tâches qui sont soit autoregressives, soit à longue séquence, puisque le modèle d’espace d’état a un mécanisme RNN inhérent. Cependant, la majorité des tâches de vision ne présentent pas ces deux caractéristiques, et sur la base de certaines expériences, MambaOut propose les deux hypothèses suivantes. Premièrement, le modèle d’espace d’état n’est pas nécessaire pour la classification d’images, puisque la classification d’images ne correspond ni aux caractéristiques autoregressives ni à celles de longue séquence. Deuxièmement, les modèles d’espace d’état peuvent être hypothétiquement bénéfiques pour la segmentation d’instances et la segmentation sémantique, ainsi que pour la détection d’objets, puisqu’elles présentent des caractéristiques de longue séquence, même si elles ne sont pas autoregressives. Les résultats expérimentaux menés pour analyser le mécanisme de type Réseau de Neurones Récurrents du modèle d’espace d’état concluent que le cadre Mamba est adapté pour les tâches avec des caractéristiques autoregressives ou de longue séquence et est inutile pour les tâches de classification d’images. En ce qui concerne le cadre MambaOut lui-même, il s’agit d’une série de modèles Mamba basés sur des blocs de Réseaux de Neurones à Convolution Gated sans le modèle d’espace d’état, et les résultats expérimentaux indiquent que le cadre MambaOut est capable de surpasser les modèles Mamba visuels dans les tâches de classification d’images, mais échoue à reproduire les performances sur les tâches de détection et de segmentation d’images.

Quelles tâches Mamba est-il adapté ?

Le mélangeur de jetons du cadre Mamba est un modèle d’espace d’état sélectif qui définit quatre paramètres dépendants de l’entrée. La propriété récurrente du cadre distingue les modèles d’espace d’état de type RNN des attentions causales. L’état caché peut être vu comme une mémoire de taille fixe qui stocke les informations historiques. La taille fixe signifie que la mémoire est perteuse, mais elle assure également que la complexité de calcul pour intégrer la mémoire avec l’entrée actuelle reste constante. Inversement, les couches d’attention causales stockent toutes les clés et les valeurs des jetons précédents, et s’étendent en ajoutant la clé et la valeur du jeton actuel avec chaque nouvelle entrée, et cette mémoire est sans perte, théoriquement. Cependant, la taille de la mémoire augmente à mesure que de nouveaux jetons sont entrés, ce qui augmente la complexité de l’intégration de la mémoire avec l’entrée actuelle. La différence entre les mécanismes de mémoire entre l’attention causale et les modèles de type RNN est illustrée dans la figure suivante.

Puisque la mémoire du modèle d’espace d’état est inhérentement perteuse, elle est en deçà de la mémoire sans perte de l’attention causale, et en conséquence, les modèles Mamba ne peuvent pas démontrer leur force dans la gestion des courtes séquences, un domaine où le mécanisme d’attention causale fonctionne bien avec facilité. Cependant, dans les scénarios qui impliquent des longues séquences, l’approche d’attention causale échoue en raison de la complexité quadratique. Dans ce scénario, le cadre Mamba montre son efficacité pour intégrer la mémoire avec l’entrée actuelle et est capable de gérer les longues séquences en douceur, indiquant que la famille de modèles Mamba est bien adaptée pour traiter les longues séquences.

Il est également important de noter que d’une part, la nature récurrente du modèle d’espace d’état permet aux modèles Mamba de gérer efficacement les longues séquences, mais elle introduit une certaine limitation, car elle ne peut accéder qu’aux informations des étapes de temps actuelles et précédentes, et ce type de mélange de jetons est appelé mode causal, et est illustré dans la figure suivante. En raison de sa nature causale, cette méthode est adaptée pour les tâches de génération autoregressive.

Le mode entièrement visible est adapté pour les tâches de compréhension où le modèle peut accéder à toutes les entrées à la fois. De plus, l’attention est par défaut en mode entièrement visible, et elle peut être transformée en mode causal en appliquant des masques causaux aux cartes d’attention, et les modèles de type RNN fonctionnent inhérentement en mode causal en raison de leurs propriétés récurrentes. Pour résumer, le cadre Mamba est adapté pour les tâches qui impliquent soit le traitement de longues séquences, soit les tâches qui nécessitent un mode de mélange de jetons causal.

Tâches de reconnaissance visuelle, code de mélange de jetons causal et séquences très longues

Comme mentionné précédemment, le mode de mélange de jetons entièrement visible permet un mélange sans restriction, tandis que le mode causal limite le jeton actuel à accéder uniquement aux informations des jetons précédents. De plus, la reconnaissance visuelle est catégorisée comme une tâche de compréhension où le modèle peut voir l’image entière à la fois, et cela élimine le besoin de restrictions sur le mélange de jetons, et imposer des contraintes supplémentaires sur le mélange de jetons peut dégrader les performances du modèle potentiellement. Généralement, le mode entièrement visible est approprié pour les tâches de compréhension, tandis que le mode causal convient mieux aux tâches autoregressives. De plus, cette affirmation est étayée par le fait que les modèles BeRT et ViT sont utilisés plus pour les tâches de compréhension que pour les modèles GPT.

Vérification expérimentale et résultats

L’étape suivante consiste à vérifier expérimentalement les hypothèses proposées par le cadre MambaOut. Comme le montre l’image suivante, le bloc Mamba est basé sur le bloc de Réseau de Neurones à Convolution Gated, et la meta-architecture des blocs Mamba et Gated CNN peut être traitée comme une intégration simplifiée du mélangeur de jetons du cadre MetaFormer et d’un MLP.

Le bloc Mamba étend le bloc de Réseau de Neurones à Convolution Gated avec un modèle d’espace d’état supplémentaire, et la présence d’un SSm est ce qui distingue le bloc Gated CNN et le bloc Mamba. De plus, pour améliorer la vitesse pratique, le cadre MambaOut ne réalise que des convolutions de profondeur sur des canaux partiels, et comme le montre l’algorithme suivant, la mise en œuvre du bloc Gated CNN est simple, élégante et efficace.

Tâche de classification d’images

ImageNet sert de référence pour les tâches de classification d’images, car il comprend plus de mille classes communes, plus de 1,3 million d’images d’entraînement et plus de 50 000 images de validation. L’augmentation de données utilisée pour l’expérience consiste en une réduction aléatoire, Mixup, une variation de couleur, un effacement aléatoire, CutMix et Rand Augment. Le tableau suivant résume les performances de la famille de modèles Mamba, du modèle MambaOut et d’autres modèles d’attention et de convolution sur le jeu de données ImageNet. Comme on le voit, le cadre MambaOut sans le modèle d’espace d’état surpasse de manière cohérente les modèles de vision Mamba avec SSM sur toutes les tailles de modèles.

Par exemple, le modèle MambaOut-Petit retourne un score de précision du premier rang de plus de 84 %, 0,4 % supérieur à son concurrent Mamba le plus proche. Ce résultat soutient fortement la première hypothèse qui affirme que l’introduction d’un modèle d’espace d’état pour les tâches de classification d’images n’est pas nécessaire.

Tâches de détection d’objets et de segmentation d’instances

COCO sert de référence pour les tâches de détection d’objets et de segmentation d’instances. Bien que le cadre MambaOut soit capable de surpasser les performances de certains modèles de vision Mamba, il ne parvient pas à reproduire les performances des modèles de vision Mamba à l’état de l’art, notamment LocalVMamba et VMamba. La différence de performances entre MambaOut et les modèles de vision à l’état de l’art souligne les avantages de l’intégration de la famille de modèles Mamba dans les tâches de vision à longue séquence. Cependant, il est important de noter qu’un écart de performances significatif persiste encore entre les modèles de convolution-attention-hybride à l’état de l’art et les modèles de vision Mamba.

Pensées finales

La famille de modèles Mamba semble être adaptée pour les tâches avec des caractéristiques autoregressives et de longue séquence. Le cadre MambaOut hypothétise que Mamba n’est pas nécessaire pour les tâches de vision, puisque la classification d’images ne correspond pas aux caractéristiques autoregressives ou de longue séquence. Bien que les tâches de segmentation et de détection ne soient pas non plus autoregressives, elles présentent des caractéristiques de longue séquence, ce qui amène le cadre MambaOut à hypothétiser le potentiel de Mamba pour ces tâches. Le cadre MambaOut est construit en empilant des blocs Mamba les uns sur les autres tout en supprimant le modèle d’espace d’état, son mélangeur de jetons principal. Les résultats expérimentaux soutiennent l’hypothèse avancée par le cadre MambaOut, puisqu’il est capable de surpasser tous les modèles de vision Mamba sur le cadre de classification d’images ImageNet, indiquant que Mamba n’est pas nécessaire pour les tâches de vision. D’un autre côté, pour les tâches de détection et de segmentation, le cadre MambaOut n’est pas en mesure de reproduire les performances offertes par le modèle Mamba à l’état de l’art, démontrant le potentiel de la famille de modèles Mamba pour les tâches de vision à longue séquence.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.