Connect with us

Intelligence artificielle

Vers des LoRAs capables de survivre aux mises à jour de version de modèle

mm
ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

Depuis ma couverture récente de la croissance du nombre de LoRAs de vidéo Hunyuan (de petits fichiers formés qui peuvent injecter des personnalités personnalisées dans des modèles de fond de texte-vidéo et d’image-vidéo à plusieurs milliards de paramètres), le nombre de LoRAs liés disponibles dans la communauté Civit a augmenté de 185%.

Bien qu'il n'y ait pas de méthodes particulièrement faciles ou peu coûteuses pour créer un LoRA de vidéo Hunyuan, le catalogue de LoRAs de célébrités et de thèmes de Civit grandit quotidiennement. Source : https://civitai.com/

Bien qu’il n’y ait pas de méthodes particulièrement faciles ou peu coûteuses pour créer un LoRA de vidéo Hunyuan, le catalogue de LoRAs de célébrités et de thèmes de Civit grandit quotidiennement. Source : https://civitai.com/

La même communauté qui se démène pour apprendre à produire ces « personnalités complémentaires » pour Hunyuan Video (HV) est également ulcérée par la promesse de sortie d’une fonctionnalité image-vidéo (I2V) dans Hunyuan Video.

En ce qui concerne la synthèse d’images humaines open source, c’est un gros morceau ; combiné avec la croissance des LoRAs Hunyuan, cela pourrait permettre aux utilisateurs de transformer des photos de personnes en vidéos d’une manière qui ne dégrade pas leur identité au fur et à mesure que la vidéo se développe – ce qui est actuellement le cas de tous les générateurs d’images-vidéo de pointe, y compris Kling, Kaiber et le célèbre RunwayML :

Cliquez pour jouer. Une génération d’image-vidéo à partir du modèle Gen 3 Turbo de RunwayML. Cependant, comme tous les modèles similaires et moins performants, il ne peut pas maintenir une identité cohérente lorsque le sujet se détourne de la caméra, et les caractéristiques distinctes de l’image de départ deviennent une « femme de diffusion générique ». Source : https://app.runwayml.com/

En développant un LoRA personnalisé pour la personnalité en question, on pourrait, dans un flux de travail I2V HV, utiliser une véritable photo d’eux comme point de départ. C’est un « grain » bien meilleur que d’envoyer un numéro aléatoire dans l’espace latent du modèle et de se contenter de ce qui en résulte sur le plan sémantique. On pourrait alors utiliser le LoRA, ou plusieurs LoRAs, pour maintenir la cohérence de l’identité, des coiffures, des vêtements et d’autres aspects fondamentaux de la génération.

Potentiellement, la disponibilité d’une telle combinaison pourrait représenter l’un des changements les plus importants dans l’IA générative depuis le lancement de Stable Diffusion, avec une puissance générative formidable remise entre les mains des enthousiastes open source, sans la réglementation (ou le « contrôle », si vous préférez) fournie par les censeurs de contenu dans l’actuel ensemble de systèmes de vidéo générative populaire.

Alors que j’écris, Hunyuan image-vidéo est un élément non coché « à faire » dans le référentiel GitHub de Hunyuan Video, avec la communauté de loisirs signalant (de manière anecdotique) un commentaire Discord d’un développeur Hunyuan, qui a apparemment déclaré que la sortie de cette fonctionnalité a été reportée à une date ultérieure dans le premier trimestre en raison du fait que le modèle est « trop non censuré ».

La liste de vérification officielle des fonctionnalités de sortie pour Hunyuan Video. Source : https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

La liste de vérification officielle des fonctionnalités de sortie pour Hunyuan Video. Source : https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Exact ou non, les développeurs du référentiel ont substantiellement tenu leurs promesses pour le reste de la liste de vérification de Hunyuan, et donc Hunyuan I2V semble être sur le point d’arriver éventuellement, qu’il soit censuré, non censuré ou de quelque manière que ce soit « débloqué ».

Mais comme on peut le voir dans la liste ci-dessus, la sortie I2V est apparemment un modèle entièrement séparé – ce qui rend peu probable que l’un des LoRAs HV actuels en pleine croissance dans Civit et ailleurs fonctionne avec lui.

Dans ce scénario (maintenant) prévisible, les cadres de formation de LoRA tels que Musubi Tuner et OneTrainer seront soit retardés, soit réinitialisés en ce qui concerne la prise en charge du nouveau modèle. Entre-temps, un ou deux des YouTubeurs les plus branchés techniquement (et les plus entrepreneurs) rançonneront leurs solutions via Patreon jusqu’à ce que la scène rattrape son retard.

La fatigue des mises à jour

Presque personne n’éprouve une fatigue des mises à jour autant qu’un enthousiaste de LoRA ou de fine-tuning, car le rythme rapide et compétitif du changement dans l’IA générative encourage les fonderies de modèles telles que Stability.ai, Tencent et Black Forest Labs à produire des modèles plus grands et (parfois) meilleurs à la fréquence maximale viable.

Puisque ces nouveaux et améliorés modèles auront au moins des biais et des poids différents, et plus couramment auront une échelle et/ou une architecture différentes, cela signifie que la communauté de fine-tuning doit ressortir ses jeux de données et répéter le processus de formation éprouvant pour la nouvelle version.

Pour cette raison, une multiplicité de types de LoRA de Stable Diffusion est disponible dans Civit :

Le sentier de mise à jour, visualisé dans les options de filtre de recherche sur civit.ai

Le sentier de mise à jour, visualisé dans les options de filtre de recherche sur civit.ai

Puisque aucun de ces modèles LoRA légers n’est interopérable avec des versions de modèle supérieures ou inférieures, et puisque beaucoup d’entre eux ont des dépendances à des fusions et des fine-tunes populaires à grande échelle qui adhèrent à un modèle plus ancien, une partie importante de la communauté a tendance à rester avec une version « héritée », de la même manière que la loyauté des clients envers Windows XP a persisté des années après la fin du support officiel.

S’adapter au changement

Ce sujet me vient à l’esprit à cause d’un nouveau document de la recherche en intelligence artificielle de Qualcomm, qui prétend avoir développé une méthode permettant aux LoRAs existants d’être « mis à niveau » vers une nouvelle version de modèle.

Exemple de conversion de LoRAs entre des versions de modèle. Source : https://arxiv.org/pdf/2501.16559

Exemple de conversion de LoRAs entre des versions de modèle. Source : https://arxiv.org/pdf/2501.16559

Cela ne signifie pas que la nouvelle approche, intitulée LoRA-X, peut se traduire librement entre tous les modèles du même type (c’est-à-dire les modèles de texte à image, ou les grands modèles de langage [LLM]) ; mais les auteurs ont démontré une translittération efficace d’un LoRA de Stable Diffusion v1.5 > SDXL, et une conversion d’un LoRA pour le modèle de texte TinyLlama 3T en TinyLlama 2,5T.

LoRA-X transfère les paramètres de LoRA entre différents modèles de base en préservant l’adaptateur dans le sous-espace du modèle source ; mais seulement dans les parties du modèle qui sont suffisamment similaires entre les versions de modèle.

À gauche, un schéma de la façon dont le modèle source LoRA-X affine un adaptateur, qui est ensuite ajusté pour s'adapter au modèle cible à l'aide de sa propre structure interne. À droite, des images générées par les modèles cibles SD Eff-v1.0 et SSD-1B, après application d'adaptateurs transférés de SD-v1.5 et SDXL sans formation supplémentaire.

À gauche, un schéma de la façon dont le modèle source LoRA-X affine un adaptateur, qui est ensuite ajusté pour s’adapter au modèle cible. À droite, des images générées par les modèles cibles SD Eff-v1.0 et SSD-1B, après application d’adaptateurs transférés de SD-v1.5 et SDXL sans formation supplémentaire.

Bien que cela offre une solution pratique pour les scénarios dans lesquels une nouvelle formation est indésirable ou impossible (comme un changement de licence sur les données de formation d’origine), la méthode est limitée aux architectures de modèles similaires, entre autres limitations.

Puisque cette approche est une rare incursion dans un domaine peu étudié, nous n’allons pas examiner ce document en profondeur en raison des nombreuses lacunes de LoRA-X, comme en témoignent les commentaires de ses critiques et conseillers à Open Review.

La méthode repose sur la similarité de sous-espace, ce qui restreint son application aux modèles étroitement liés, et les auteurs ont reconnu dans le forum de révision que LoRA-X ne peut pas être facilement transféré entre des architectures significativement différentes

Autres approches PEFT

La possibilité de rendre les LoRAs plus portables entre les versions est un petit mais intéressant fil d’étude dans la littérature, et la principale contribution que LoRA-X apporte à cette poursuite est son affirmation selon laquelle elle nécessite aucune formation.

Ceci n’est pas strictement vrai, si l’on lit le document, mais il nécessite la moins de formation de toutes les méthodes précédentes.

LoRA-X est une autre entrée dans le canon des méthodes de fine-tuning à paramètres efficaces (PEFT), qui traitent du défi de l’adaptation de grands modèles préformés à des tâches spécifiques sans une nouvelle formation extensive. Cette approche conceptuelle vise à modifier un nombre minimal de paramètres tout en maintenant les performances.

Notables parmi ceux-ci sont :

X-Adapter

Le cadre X-Adapter transfère des adaptateurs affinés entre les modèles avec une certaine formation. Le système vise à permettre des modules préformés (tels que ControlNet et LoRA) à partir d’un modèle de diffusion de base (c’est-à-dire Stable Diffusion v1.5) pour fonctionner directement avec un modèle de diffusion amélioré tel que SDXL sans nouvelle formation – agissant essentiellement comme un « metteur à niveau universel » pour les plug-ins.

Le système atteint cela en formant un réseau supplémentaire qui contrôle le modèle amélioré, en utilisant une copie figée du modèle de base pour préserver les connecteurs de plug-in :

Schéma pour X-Adapter. Source : https://arxiv.org/pdf/2312.02238

Schéma pour X-Adapter. Source : https://arxiv.org/pdf/2312.02238

X-Adapter a été développé à l’origine et testé pour transférer des adaptateurs de SD1.5 à SDXL, tandis que LoRA-X offre une plus grande variété de translittérations.

DoRA (Weight-Decomposed Low-Rank Adaptation)

DoRA est une méthode d’affinement améliorée qui améliore LoRA en utilisant une stratégie de décomposition de poids qui ressemble plus étroitement à un affinement complet :

DoRA ne tente pas seulement de copier un adaptateur dans un environnement figé, comme le fait LoRA-X, mais modifie plutôt les paramètres fondamentaux des poids, tels que la grandeur et la direction. Source : https://arxiv.org/pdf/2402.09353

DoRA ne tente pas seulement de copier un adaptateur dans un environnement figé, comme le fait LoRA-X, mais modifie plutôt les paramètres fondamentaux des poids, tels que la grandeur et la direction. Source : https://arxiv.org/pdf/2402.09353

DoRA se concentre sur l’amélioration du processus d’affinement lui-même, en décomposant les poids du modèle en grandeur et direction (voir image ci-dessus). Au lieu de cela, LoRA-X se concentre sur la possibilité de transférer des paramètres d’affinement existants entre différents modèles de base

Cependant, l’approche LoRA-X adapte les techniques de projection développées pour DORA, et dans les tests contre ce système plus ancien, elle revendique un score DINO amélioré.

FouRA (Fourier Low Rank Adaptation)

Publié en juin 2024, la méthode FouRA vient, comme LoRA-X, de la recherche en intelligence artificielle de Qualcomm, et partage même certains de ses thèmes et invites de test.

Exemples d'effondrement de distribution dans LoRA, du document FouRA 2024, en utilisant le modèle Realistic Vision 3.0 formé avec LoRA et FouRA pour des adaptateurs de style « Blue Fire » et « Origami », sur quatre graines. Les images LoRA présentent un effondrement de distribution et une diversité réduite, tandis que FouRA génère des sorties plus variées. Source : https://arxiv.org/pdf/2406.08798

Exemples d’effondrement de distribution dans LoRA, du document FouRA 2024, en utilisant le modèle Realistic Vision 3.0 formé avec LoRA et FouRA pour des adaptateurs de style « Blue Fire » et « Origami », sur quatre graines. Les images LoRA présentent un effondrement de distribution et une diversité réduite, tandis que FouRA génère des sorties plus variées. Source : https://arxiv.org/pdf/2406.08798

FouRA se concentre sur l’amélioration de la diversité et de la qualité des images générées en adaptant LoRA dans le domaine de la fréquence, en utilisant une approche de transformation de Fourier.

Ici, à nouveau, LoRA-X a pu atteindre de meilleurs résultats que l’approche basée sur Fourier de FouRA.

Bien que les deux cadres appartiennent à la catégorie PEFT, ils ont des cas d’utilisation et des approches très différents ; dans ce cas, FouRA est sans doute « en train de faire le nombre » pour un tour de test avec des rivaux peu similaires pour les auteurs du nouveau document s’engagent.

SVDiff

SVDiff a également des objectifs différents de LoRA-X, mais est fortement utilisé dans le nouveau document. SVDiff est conçu pour améliorer l’efficacité de l’affinement des modèles de diffusion, et modifie directement les valeurs au sein des matrices de poids du modèle, tout en gardant les vecteurs singuliers inchangés. SVDiff utilise la SVD tronquée, en ne modifiant que les plus grandes valeurs, pour ajuster les poids du modèle.

Cette approche utilise une technique d’augmentation de données appelée Cut-Mix-Unmix :

La génération de sujets multiples fonctionne comme un système d'isolement de concepts dans SVDiff. Source : https://arxiv.org/pdf/2303.11305

La génération de sujets multiples fonctionne comme un système d’isolement de concepts dans SVDiff. Source : https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix est conçu pour aider le modèle de diffusion à apprendre plusieurs concepts distincts sans les mélanger. L’idée centrale est de prendre des images de sujets différents et de les concaténer en une seule image. Ensuite, le modèle est formé avec des invites qui décrivent explicitement les éléments distincts de l’image. Cela force le modèle à reconnaître et à préserver des concepts distincts au lieu de les mélanger.

Au cours de la formation, un terme de régularisation supplémentaire aide à prévenir les interférences entre les sujets. La théorie des auteurs soutient que cela facilite une meilleure génération de sujets multiples, où chaque élément reste visuellement distinct, plutôt que de se fondre ensemble.

SVDiff, exclu du tour de test LoRA-X, vise à créer un espace de paramètres compact. LoRA-X, au lieu de cela, se concentre sur la transférabilité des paramètres de LoRA entre différents modèles de base en opérant dans le sous-espace du modèle d’origine.

Conclusion

Les méthodes discutées ici ne sont pas les seules habitants de PEFT. D’autres incluent QLoRA et QA-LoRA ; Prefix Tuning ; Prompt-Tuning ; et adapter-tuning, entre autres.

La « LoRA améliorable » est, peut-être, une quête alchimique ; certainement, il n’y a rien d’immédiat à l’horizon qui empêchera les modelers de LoRA de devoir ressortir leurs anciennes données pour la dernière et la meilleure version des poids. Si il existe un prototype de norme pour la révision des poids, capable de survivre aux changements d’architecture et à l’augmentation des paramètres entre les versions de modèle, il n’a pas encore émergé dans la littérature, et devra continuer à être extrait des données sur une base par modèle.

 

Publié pour la première fois jeudi 30 janvier 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.