Künstliche Intelligenz
MambaOut: Brauchen wir Mamba wirklich für die Bildverarbeitung?
In modernen Machine-Learning- und KI-Frameworks sind Transformer einer der am weitesten verbreiteten Komponenten in verschiedenen Bereichen, einschließlich der GPT-Serie und BERT in der Natural Language Processing sowie Vision Transformers in Computer-Vision-Aufgaben. Obwohl die Einbeziehung von Transformern in die Modellarchitektur einen signifikanten Boost in der Modellleistung gibt, skaliert das Attention-Modul in Transformern quadratisch mit der Sequenzlänge, was zu hohen Rechenaufwänden führt. Im Laufe der Jahre haben verschiedene Modelle unterschiedliche Strategien erforscht, um die Rechenaufwänden zu meistern, einschließlich Methoden wie Kernelisierung, History-Memory-Compression, Token-Mixing-Range-Begrenzung und Low-Rank-Ansätze. Kürzlich haben rekurrente neuronale Netze wie Mamba und RWKV aufgrund ihrer vielversprechenden Ergebnisse in großen Sprachmodellen erhebliche Aufmerksamkeit erregt.
Mamba, eine Familie von Modellen, hat eine Architektur mit einem rekurrenten neuronalen Netzwerk-ähnlichen Token-Mixer eines Zustandsraummodells, das kürzlich eingeführt wurde, um die quadratische Komplexität der Attention-Mechanismen anzugehen und wurde anschließend auf Bildverarbeitungsaufgaben angewendet. Forscher haben bereits Wege erforscht, um Mamba und SSM oder Zustandsraummodelle in visuelle Erkennungsaufgaben einzubinden, und Vision Mamba, das Mamba verwendet, um isotrope Bildmodelle ähnlich wie Vision Transformer zu entwickeln, ist ein gutes Beispiel dafür. Andererseits integriert LocalMamba lokale induktive Vorurteile, um visuelle Mamba-Modelle zu verbessern, und das VMamba-Framework verwendet das Basis-Mamba-Modell, um hierarchische Modelle ähnlich wie ResNet und AlexNet zu konstruieren. Doch ist das Mamba-Framework wirklich essentiell für visuelle Erkennungskontextaufgaben? Die Frage entsteht, weil die Leistung der Mamba-Modellfamilie für Bildverarbeitungsaufgaben bisher unterwhelming war, wenn man sie mit traditionellen attention-basierten und konvolutionellen Modellen vergleicht.
MambaOut versucht, zu beantworten, ob Mamba ideal für Aufgaben mit autoregressiven und langen Sequenzen geeignet ist. Das MambaOut-Framework geht davon aus, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben, da die Bildklassifizierung weder mit langen Sequenzen noch mit autoregressiven Merkmalen übereinstimmt. Obwohl Segmentierung und Erkennungsaufgaben nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework wird durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle im ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennungs- und Segmentierungsaufgaben die Leistung der State-of-the-Art-Mamba-Modelle nicht replizieren, was das Potenzial der Mamba-Modellfamilie für lange Sequenzen in der Bildverarbeitung demonstriert.
Dieser Artikel zielt darauf ab, das MambaOut-Framework in die Tiefe zu beleuchten, und wir erforschen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit State-of-the-Art-Frameworks. Also los geht’s.
MambaOut: Braucht man Mamba wirklich für die Bildverarbeitung?
Mit dem Fortschritt von Machine-Learning-Anwendungen und -Fähigkeiten sind Transformer zu einem der wichtigsten Backbones für eine Vielzahl von Aufgaben geworden, darunter Vision Transformer, GPT-Modellreihe, BERT und einige mehr. Allerdings verursacht der Token-Mixer des Transformers eine quadratische Komplexität in Bezug auf die Sequenzlänge und stellt erhebliche Herausforderungen für längere Sequenzen dar. Um dieses Problem zu lösen, wurden verschiedene Token-Mixer mit linearer Komplexität in Bezug auf die Token-Länge wie Linformer, Longformer, Performer, Dynamic Convolution und Big Bird eingeführt. In jüngster Zeit gewinnen jedoch rekurrente neuronale Netze wie Modelle an Bedeutung, da sie eine parallelisierbare Ausbildung und eine effiziente Leistung auf längeren Sequenzen bieten. Angesichts der bemerkenswerten Leistung von RNN-ähnlichen Modellen versuchen Forscher, die Mamba-Modellfamilie in visuelle Erkennungsaufgaben einzuführen, da der Token-Mixer der Mamba-Modelle das strukturierte Zustandsraummodell im Sinne der rekurrenten neuronalen Netze ist. Allerdings deuten experimentelle Ergebnisse darauf hin, dass Zustandsraummodell-basierte Frameworks für die Bildverarbeitung in realen Bildverarbeitungsaufgaben unterwhelming gegenüber attention-basierten und konvolutionellen Modellen performen.
MambaOut ist ein Versuch, die Natur der Mamba-Modellfamilie zu untersuchen und zusammenzufassen, dass Mamba für Aufgaben geeignet ist, die entweder autoregressiv oder lang sind, da das Zustandsraummodell einen inhärenten RNN-Mechanismus hat. Allerdings haben die meisten Bildverarbeitungsaufgaben nicht beide dieser Merkmale, und aufgrund einiger Experimente stellt MambaOut die folgenden zwei Hypothesen auf. Erstens ist das Zustandsraummodell nicht notwendig für die Bildklassifizierung, da die Bildklassifizierung weder autoregressiv noch lang ist. Zweitens können Zustandsraummodelle hypothetisch nützlich für Instanzsegmentierung und semantische Segmentierung sowie Objekterkennung sein, da sie lange Sequenzen aufweisen, obwohl sie nicht autoregressiv sind. Experimentelle Ergebnisse, die die RNN-ähnliche Mechanik des Zustandsraummodells analysieren, kommen zu dem Schluss, dass das Mamba-Framework für Aufgaben mit autoregressiven oder langen Sequenzen geeignet ist und für Bildklassifizierungsaufgaben nicht notwendig ist. Was das MambaOut-Framework selbst betrifft, so besteht es aus einer Reihe von Mamba-Modellen auf Basis von Gated Convolutional Neural Network-Blöcken ohne das Zustandsraummodell, und experimentelle Ergebnisse zeigen, dass das MambaOut-Framework in der Lage ist, die visuellen Mamba-Modelle in Bildklassifizierungsaufgaben zu übertreffen, aber die Leistung auf Erkennungs- und Segmentierungsaufgaben nicht zu replizieren.
Für welche Aufgaben ist Mamba geeignet?
Der Token-Mixer des Mamba-Frameworks ist ein selektives Zustandsraummodell, das vier eingegebene Parameter definiert. Die rekurrente Eigenschaft des Frameworks unterscheidet RNN-ähnliche Zustandsraummodelle von kausalem Attention. Der versteckte Zustand kann als fester Speicher angesehen werden, der historische Informationen speichert. Der feste Speicher ist zwar verlustbehaftet, aber er stellt auch sicher, dass die Rechenkomplexität der Integration des Speichers mit dem aktuellen Eingabe konstant bleibt. Andererseits speichern kausale Attention-Schichten alle Schlüssel und Werte von vorherigen Token und erweitern sich, indem sie den Schlüssel und den Wert des aktuellen Token mit jedem neuen Eingabe hinzufügen, und dieser Speicher ist theoretisch verlustfrei. Allerdings wächst die Speichergröße mit der Eingabe von mehr Token, was die Komplexität der Integration des Speichers mit dem aktuellen Eingabe erhöht.

Da der Speicher des Zustandsraummodells inhärent verlustbehaftet ist, kann er den verlustfreien Speicher des kausalen Attention nicht erreichen, und als Ergebnis können die Mamba-Modelle ihre Stärke bei der Verarbeitung kurzer Sequenzen nicht demonstrieren, ein Bereich, in dem der kausale Attention-Mechanismus leicht performt. Allerdings versagt der kausale Attention-Ansatz in Szenarien, die lange Sequenzen beinhalten, aufgrund der quadratischen Komplexität. In diesem Szenario zeigt das Mamba-Framework seine Effizienz bei der Integration des Speichers mit dem aktuellen Eingabe und kann lange Sequenzen reibungslos verarbeiten, was darauf hindeutet, dass die Mamba-Modellfamilie für die Verarbeitung langer Sequenzen geeignet ist.
Es ist auch erwähnenswert, dass die rekurrente Natur des Zustandsraummodells es dem Mamba-Modell ermöglicht, lange Sequenzen effizient zu verarbeiten, aber es auch eine bestimmte Einschränkung einführt, da es nur auf Informationen aus der aktuellen und vorherigen Zeitschritte zugreifen kann, und diese Art von Token-Mixing wird als kausaler Modus bezeichnet und in der folgenden Abbildung veranschaulicht. Aufgrund seiner kausalen Natur ist diese Methode für autoregressive Generierungsaufgaben geeignet.

Der vollständig sichtbare Modus ist für Verständigungsaufgaben geeignet, bei denen das Modell auf alle Eingaben zugreifen kann. Darüber hinaus ist die Aufmerksamkeit standardmäßig im vollständig sichtbaren Modus und kann durch Anwenden von kausalen Masken auf die Aufmerksamkeitskarten in den kausalen Modus umgewandelt werden, und RNN-ähnliche Modelle operieren inhärent im kausalen Modus aufgrund ihrer rekurrenten Eigenschaften. Um zusammenzufassen, ist das Mamba-Framework für Aufgaben geeignet, die entweder die Verarbeitung langer Sequenzen oder Aufgaben erfordern, die den kausalen Token-Mixing-Modus benötigen.
Visuelle Erkennungsaufgaben, kausales Token-Mixing und sehr lange Sequenzen
Wie bereits erwähnt, ermöglicht der vollständig sichtbare Token-Mixing-Modus ein uneingeschränktes Mischen, während der kausale Modus die aktuelle Token auf die Informationen aus den vorherigen Token beschränkt. Darüber hinaus wird die visuelle Erkennung als Verständigungsaufgabe kategorisiert, bei der das Modell das gesamte Bild auf einmal sehen kann, was die Notwendigkeit von Einschränkungen für das Token-Mixing eliminiert und die Aufnahme zusätzlicher Einschränkungen für das Token-Mixing potenziell die Modellleistung verschlechtern kann. Im Allgemeinen ist der vollständig sichtbare Modus für Verständigungsaufgaben geeignet, während der kausale Modus autoregressive Aufgaben besser geeignet ist. Darüber hinaus wird diese Behauptung durch die Tatsache unterstützt, dass BeRT- und ViT-Modelle für Verständigungsaufgaben häufiger verwendet werden als GPT-Modelle.
Experimentelle Verifizierung und Ergebnisse
Der nächste Schritt ist, die Hypothesen, die vom MambaOut-Framework aufgestellt werden, experimentell zu verifizieren. Wie in der folgenden Abbildung gezeigt, basiert der Mamba-Block auf dem Gated Convolutional Neural Network-Block, und die Meta-Architektur der Mamba- und Gated-CNN-Blöcke kann als vereinfachte Integration des Token-Mixers des MetaFormer-Frameworks und eines MLP behandelt werden.

Der Mamba-Block erweitert den Gated Convolutional Neural Network-Block um ein zusätzliches Zustandsraummodell, und die Anwesenheit eines SSM ist es, was den Gated-CNN-Block und den Mamba-Block unterscheidet. Darüber hinaus wird das MambaOut-Framework durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle im ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennungs- und Segmentierungsaufgaben die Leistung der State-of-the-Art-Mamba-Modelle nicht replizieren, was das Potenzial der Mamba-Modellfamilie für lange Sequenzen in der Bildverarbeitung demonstriert.
Bildklassifizierungsaufgabe
ImageNet dient als Benchmark für Bildklassifizierungsaufgaben, da es über 1000 allgemeine Klassen, über 1,3 Millionen Trainingsbilder und über 50.000 Validierungsbilder umfasst. Die für das Experiment verwendete Datenvergrößerung umfasst zufällige Größenanpassung, Mixup, Farbverzerrung, zufälliges Löschen, CutMix und Rand-Ausrichtung. Die folgende Tabelle fasst die Leistung der Mamba-Modellfamilie, des MambaOut-Modells und anderer attention-basierter und konvolutioneller Modelle auf dem ImageNet-Datensatz zusammen. Wie zu sehen ist, übertreffen die MambaOut-Modelle ohne Zustandsraummodell die visuellen Mamba-Modelle mit SSM konsistent über alle Modellgrößen hinweg.

Beispielsweise erreicht das MambaOut-Small-Modell eine Top-1-Genauigkeit von über 84 %, 0,4 % höher als sein nächster Mamba-Konkurrent. Dieses Ergebnis unterstützt die erste Hypothese, die besagt, dass die Einführung eines Zustandsraummodells für Bildklassifizierungsaufgaben nicht notwendig ist.
Objekterkennung und Instanzsegmentierung
COCO dient als Benchmark für Objekterkennung und Instanzsegmentierung. Obwohl das MambaOut-Framework in der Lage ist, die Leistung einiger visueller Mamba-Modelle zu übertreffen, verfehlt es dennoch die Leistung der State-of-the-Art-Visuellen Mamba-Modelle, einschließlich LocalVMamba und VMamba. Die Leistungsunterschiede zwischen MambaOut und State-of-the-Art-Visuellen Modellen betonen die Vorteile der Integration der Mamba-Modellfamilie in lange Sequenzen in der Bildverarbeitung. Es ist jedoch zu beachten, dass ein signifikanter Leistungsabstand zwischen State-of-the-Art-Konvolutions-Attention-Hybridmodellen und visuellen Mamba-Modellen besteht.

Letzte Gedanken
Die Mamba-Modellfamilie scheint für Aufgaben mit autoregressiven und langen Sequenzen geeignet zu sein. Das MambaOut-Framework geht davon aus, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben, da die Bildklassifizierung weder mit langen Sequenzen noch mit autoregressiven Merkmalen übereinstimmt. Obwohl Segmentierung und Erkennungsaufgaben nicht autoregressiv sind, zeigen sie lange Sequenzen, was das MambaOut-Framework dazu veranlasst, das Potenzial von Mamba für diese Aufgaben zu vermuten. Das MambaOut-Framework wird durch Stapeln von Mamba-Blöcken aufeinander aufgebaut, während das Zustandsraummodell, sein Kern-Token-Mixer, entfernt wird. Die experimentellen Ergebnisse unterstützen die Hypothese, die vom MambaOut-Framework aufgestellt wird, da es in der Lage ist, alle visuellen Mamba-Modelle im ImageNet-Bildklassifizierungsframework zu übertreffen, was darauf hindeutet, dass Mamba nicht notwendig ist für Bildverarbeitungsaufgaben. Andererseits kann das MambaOut-Framework für Erkennungs- und Segmentierungsaufgaben die Leistung der State-of-the-Art-Mamba-Modelle nicht replizieren, was das Potenzial der Mamba-Modellfamilie für lange Sequenzen in der Bildverarbeitung demonstriert.




