Suivez nous sur

Intelligence artificielle

MambaOut : Avons-nous vraiment besoin de Mamba pour la vision ?

mm

Publié le

 on

Dans les cadres modernes d'apprentissage automatique et d'intelligence artificielle, les transformateurs sont l'un des composants les plus largement utilisés dans divers domaines, notamment la série GPT et le BERT dans le traitement du langage naturel, ainsi que les transformateurs de vision dans les tâches de vision par ordinateur. Bien que l'inclusion de transformateurs dans l'architecture du modèle améliore considérablement les performances du modèle, le module d'attention de Transformers s'adapte quadratiquement à la longueur de la séquence, ce qui entraîne des défis de calcul élevés. Au fil des années, différents modèles ont exploré différentes stratégies pour relever les défis informatiques, notamment des méthodes telles que la kernelisation, la compression de la mémoire historique, la limitation de la plage de mélange de jetons et les approches de bas rang. Récemment, les réseaux de neurones récurrents tels que les méthodes telles que Mamba et RWKV ont attiré une attention considérable en raison de leurs résultats prometteurs dans les grands modèles de langage. 

Mamba, une famille de modèles doté d'une architecture avec un réseau neuronal récurrent comme un mélangeur de jetons d'un modèle d'espace d'état, a été récemment introduite pour répondre à la complexité quadratique des mécanismes d'attention et a ensuite été appliquée aux tâches de vision. Les chercheurs ont déjà exploré les moyens d'incorporer Mamba et SSM ou State Space Model dans les tâches de reconnaissance visuelle, et Vision Mamba qui intègre Mamba pour développer des modèles de vision isotropes similaires à Vision Transformer en est un excellent exemple. D'un autre côté, LocalMamba intègre des biais inductifs locaux pour améliorer les modèles visuels Mamba, et le framework VMamba utilise le modèle de base Mamba pour construire des modèles hiérarchiques similaires à ResNet et AlexNet. Cependant, le framework Mamba est-il vraiment indispensable pour les tâches contextuelles de reconnaissance visuelle ? La question se pose parce que les performances de la famille de modèles Mamba pour les tâches de vision ont été jusqu'à présent décevantes par rapport aux modèles traditionnels basés sur l'attention et convolutifs. 

MambaOut est un travail qui tente d'approfondir l'essence du framework Mamba et de déterminer si Mamba est idéal pour les tâches présentant des caractéristiques autorégressives et de longue séquence. Le framework MambaOut émet l'hypothèse que Mamba n'est pas nécessaire pour les tâches de vision puisque la classification des images ne correspond ni aux caractéristiques de séquence longue ni aux caractéristiques autorégressives. Bien que les tâches de segmentation et de détection ne soient pas non plus autorégressives, elles affichent des caractéristiques de séquence longue, ce qui conduit le framework MambaOut à émettre l'hypothèse du potentiel de Mamba pour ces tâches. Le framework MambaOut est construit en empilant des blocs Mamba les uns sur les autres tout en supprimant le modèle d'espace d'état, son mélangeur de jetons principal. Les résultats expérimentaux soutiennent l'hypothèse avancée par le framework MambaOut puisqu'il est capable de surpasser tous les modèles visuels Mamba sur le framework de classification d'images ImageNet, indiquant que le Mamba n'est pas nécessaire pour les tâches de vision. En revanche, pour les tâches de détection et de segmentation, le framework MambaOut est incapable de reproduire les performances offertes par le modèle Mamba de pointe, démontrant le potentiel de la famille de modèles Mamba pour les tâches visuelles de longue séquence. 

Cet article vise à couvrir le framework MambaOut en profondeur, et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

MambaOut : Mamba est-il vraiment nécessaire pour la vision ?

Avec les progrès des applications et des capacités d'apprentissage automatique, les Transformers sont devenus l'épine dorsale principale d'une gamme de tâches, alimentant des modèles de premier plan, notamment Transformateurs de vision, série de modèles GPT, BERT et quelques autres. Cependant, le mélangeur de jetons du transformateur présente une complexité quadratique en ce qui concerne la longueur de la séquence et pose des défis importants pour les séquences plus longues. Pour résoudre ce problème, de nombreux mélangeurs de jetons avec une complexité linéaire par rapport à la longueur du jeton, tels que Linformer, Longformer, Performer, Dynamic Convolution et Big Bird, ont été introduits. Cependant, ces derniers temps, les modèles de type réseau neuronal récurrent gagnent en importance en raison de leur capacité de formation parallélisable et de leur capacité à offrir des performances efficaces sur des séquences plus longues. Guidés par les performances remarquables offertes par les modèles de type RNN, les chercheurs tentent d'introduire et d'utiliser la famille de modèles Mamba dans des tâches de reconnaissance visuelle puisque le mélangeur de jetons des modèles Mamba est le modèle d'espace d'état structuré dans l'esprit des réseaux de neurones récurrents. . Cependant, les résultats expérimentaux indiquent que les cadres de vision basés sur des modèles d'espace d'état fonctionnent de manière décevante dans les tâches de vision du monde réel par rapport aux modèles convolutionnels de pointe et basés sur l'attention. 

MambaOut est une tentative d'enquêter sur la nature du Mamba famille de modèles, et résume que Mamba convient aux tâches qui sont soit autorégressives, soit de longue séquence puisque le modèle d'espace d'état possède un mécanisme RNN inhérent. Cependant, la majorité des tâches de vision ne présentent pas ces deux caractéristiques, et sur la base de quelques expériences, MambaOut propose les deux hypothèses suivantes. Premièrement, le modèle d'espace d'état n'est pas nécessaire pour la classification d'images puisque la tâche de classification d'images n'est conforme ni aux caractéristiques autorégressives ni aux caractéristiques de séquence longue. Deuxièmement, les modèles d'espace d'état peuvent être hypothétiquement bénéfiques, par exemple la segmentation et la segmentation sémantique ainsi que la détection d'objets, car ils suivent les caractéristiques de longue séquence bien qu'ils ne soient pas autorégressifs. Les résultats expérimentaux menés pour analyser le mécanisme de type réseau neuronal récurrent du modèle d'espace d'état concluent que le cadre Mamba est adapté aux tâches présentant des caractéristiques autorégressives ou de longue séquence et qu'il est inutile pour les tâches de classification d'images. En ce qui concerne le framework MambaOut lui-même, il s'agit d'une série de modèles Mamba basés sur des blocs de réseaux neuronaux à convolution fermée sans le modèle d'espace d'état, et les résultats expérimentaux indiquent que le framework MambaOut est capable de surpasser les modèles Mamba dans les tâches de classification d'images, mais ne parvient pas à se répliquer. les performances sur les tâches de détection et de segmentation d’images. 

À quelles tâches Mamba est-il adapté ?

Le mélangeur de jetons du framework Mamba est un modèle d'espace d'état sélectif qui définit quatre paramètres dépendants des entrées. La propriété récurrente du cadre distingue les modèles d’espace d’état de type RNN de l’attention causale. L’état caché peut être considéré comme une mémoire de taille fixe qui stocke des informations historiques. La taille fixe signifie que la mémoire entraîne des pertes, mais elle garantit également que la complexité informatique de l'intégration de la mémoire avec l'entrée actuelle reste constante. À l’inverse, les couches d’attention causale stockent toutes les clés et valeurs des jetons précédents et se développent en ajoutant la clé et la valeur du jeton actuel à chaque nouvelle entrée, et cette mémoire est théoriquement sans perte. Cependant, la taille de la mémoire augmente à mesure que davantage de jetons sont entrés, ce qui augmente la complexité de l'intégration de la mémoire avec l'entrée actuelle. La différence entre les mécanismes de mémoire entre l'attention causale et les modèles de type RNN est illustrée dans la figure suivante. 

Puisque la mémoire du modèle d’espace d’état est intrinsèquement avec perte, elle est en deçà de la mémoire sans perte de l’attention causale et, par conséquent, Modèles Mamba ne peut pas démontrer sa force dans le traitement de séquences courtes, un domaine dans lequel le mécanisme d’attention causale fonctionne bien et facilement. Cependant, dans les scénarios impliquant de longues séquences, l’approche de l’attention causale échoue en raison de la complexité quadratique. Dans ce scénario, le framework Mamba montre son efficacité dans la fusion de la mémoire avec l'entrée actuelle et est capable de gérer de longues séquences en douceur, ce qui indique que la famille de modèles Mamba est bien adaptée au traitement de longues séquences. 

Il convient également de noter que d'une part, là où la nature récurrente du modèle d'espace d'état permet aux modèles Mamba de gérer efficacement de longues séquences, elle introduit une certaine limitation car il ne peut accéder aux informations qu'à partir des pas de temps actuels et précédents, et ce type de Le mélange de jetons est appelé mode causal et illustré dans la figure suivante. En raison de sa nature causale, cette méthode convient pour tâches de génération autorégressive

Le mode entièrement visible convient à la compréhension des tâches dans lesquelles le modèle peut accéder à toutes les entrées à la fois. De plus, l'attention est en mode entièrement visible par défaut, et elle peut être facilement transformée en mode causal en appliquant des masques causals aux cartes d'attention, et les modèles de type RNN fonctionnent intrinsèquement en mode causal en raison de leurs propriétés récurrentes. Pour résumer les choses, le framework Mamba est adapté aux tâches qui impliquent soit le traitement de longues séquences, soit aux tâches qui nécessitent un mode de mélange de jetons causal.

Tâches de reconnaissance visuelle, code de mélange de jetons causals et très grandes séquences

Comme indiqué précédemment, le mode de mélange de jetons entièrement visible permet une plage de mélange illimitée, tandis que le mode causal limite le jeton actuel pour accéder uniquement aux informations des jetons précédents. De plus, la reconnaissance visuelle est classée comme une tâche de compréhension dans laquelle le modèle peut voir l'image entière à la fois, ce qui élimine le besoin de restrictions sur le mélange de jetons, et l'imposition de contraintes supplémentaires sur le mélange de jetons peut potentiellement dégrader les performances du modèle. Généralement, le mode entièrement visible est approprié pour comprendre les tâches tandis que le mode décontracté convient mieux aux tâches autorégressives. De plus, cette affirmation est étayée par le fait que les modèles BeRT et ViT sont davantage utilisés pour comprendre les tâches que les modèles GPT.

Vérification expérimentale et résultats

L'étape suivante consiste à vérifier expérimentalement les hypothèses proposées par le framework MambaOut. Comme le démontre l'image suivante, le bloc Mamba est basé sur le bloc Gated Convolutional Neural Network, et la méta-architecture des blocs Mamba et Gated CNN peut être traitée comme une intégration simplifiée du mélangeur de jetons du framework MetaFormer et d'un MLP. . 

Le bloc Mamba étend le réseau neuronal convolutif Gated avec un modèle spatial d'état supplémentaire, et la présence d'un SSm est ce qui distingue le CNN Gated et le bloc Mamba. De plus, pour améliorer la vitesse pratique, le framework MambaOut effectue uniquement une convolution en profondeur sur des canaux partiels, et comme le démontre l'algorithme suivant, la mise en œuvre du bloc Gated CNN est simple, mais efficace et élégante. 

Tâche de classification d'images

ImageNet sert de référence pour les tâches de classification d'images car il comprend plus d'un millier de classes communes, plus de 1.3 million d'images de formation et plus de 50,000 XNUMX images de validation. L'augmentation des données utilisée pour l'expérience consiste en un recadrage redimensionné aléatoire, un mixage, une gigue de couleur, un effacement aléatoire, CutMix et Rand Augment. Le tableau suivant résume les performances de la famille de modèles Mamba, du modèle MambaOut et d'autres modèles basés sur l'attention et à convolution sur l'ensemble de données ImageNet. Comme on peut le constater, le framework MambaOut sans le modèle d'espace d'état surpasse les modèles visuels Mamba avec SSM de manière cohérente dans toutes les tailles de modèle. 

Par exemple, le modèle MambaOut-Small renvoie un score de précision de plus de 1 %, soit 84 % de plus que son concurrent Mamba le plus proche. Ce résultat conforte fortement la première hypothèse selon laquelle l’introduction d’un modèle d’espace d’état pour les tâches de classification d’images n’est pas nécessaire. 

Tâches de détection d'objets et de segmentation d'instance

COCO sert de référence pour les tâches de détection d'objets et de segmentation d'instances. Bien que le framework MambaOut soit capable de surpasser les performances de certains modèles visuels Mamba, il reste en deçà des modèles visuels Mamba de pointe, notamment LocalVMamba et VMamba. La disparité des performances de MambaOut par rapport aux modèles visuels de pointe met l'accent sur les avantages de l'intégration de la famille de modèles Mamba dans des tâches visuelles de longue séquence. Cependant, il convient de noter qu’il existe encore un écart de performance important entre les modèles hybrides de convolution-attention et les modèles visuels Mamba. 

Réflexions finales

Dans cet article, nous avons discuté des concepts de la famille de modèles Mamba et conclu qu'elle est adaptée aux tâches impliquant des caractéristiques autorégressives et de longue séquence. MambaOut est un travail qui tente d'approfondir l'essence du framework Mamba et de déterminer si Mamba est idéal pour les tâches présentant des caractéristiques autorégressives et de longue séquence. Le framework MambaOut émet l'hypothèse que Mamba n'est pas nécessaire pour les tâches de vision puisque la classification des images ne correspond ni aux caractéristiques de séquence longue ni aux caractéristiques autorégressives. Bien que les tâches de segmentation et de détection ne soient pas non plus autorégressives, elles affichent des caractéristiques de séquence longue, ce qui conduit le framework MambaOut à émettre l'hypothèse du potentiel de Mamba pour ces tâches. Le framework MambaOut est construit en empilant des blocs Mamba les uns sur les autres tout en supprimant le modèle d'espace d'état, son mélangeur de jetons principal. Les résultats expérimentaux soutiennent l'hypothèse avancée par le framework MambaOut puisqu'il est capable de surpasser tous les modèles visuels Mamba sur le framework de classification d'images ImageNet, indiquant que le Mamba n'est pas nécessaire pour les tâches de vision. En revanche, pour les tâches de détection et de segmentation, le framework MambaOut est incapable de reproduire les performances offertes par le modèle Mamba de pointe, démontrant le potentiel de la famille de modèles Mamba pour les tâches visuelles de longue séquence. 

 

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.