Connect with us

Angle d’Anderson

Meilleure intelligence artificielle générative de vidéos en mélangeant les trames pendant l’entraînement

mm
Adobe Firefly, various prompts and edits.

Un nouveau document publié cette semaine sur Arxiv aborde un problème que quiconque qui a adopté le Hunyuan Video ou Wan 2.1 les générateurs de vidéos d’intelligence artificielle auront rencontré jusqu’à présent : les aberrations temporelles, où le processus génératif a tendance à accélérer brusquement, à confondre, à omettre ou à gâcher d’autres moments cruciaux dans une vidéo générée :

Cliquez pour jouer. Certaines des erreurs temporelles qui deviennent familières aux utilisateurs des nouveaux systèmes de vidéos génératives, mises en évidence dans le nouveau document. À droite, l’effet atténuant de la nouvelle approche FluxFlow. Source : https://haroldchen19.github.io/FluxFlow/

La vidéo ci-dessus présente des extraits de vidéos de test à partir du (soyez averti : plutôt chaotique) site du projet pour le document. Nous pouvons voir plusieurs problèmes de plus en plus familiers qui sont remédiés par la méthode des auteurs (représentée à droite dans la vidéo), qui est essentiellement une technique de prétraitement de données applicable à n’importe quelle architecture de vidéo générative.

Dans le premier exemple, mettant en scène « deux enfants jouant avec un ballon », généré par CogVideoX, nous voyons (à gauche dans la vidéo de compilation ci-dessus et dans l’exemple spécifique ci-dessous) que la génération native saute rapidement à travers plusieurs micro-mouvements essentiels, accélérant l’activité des enfants à un niveau « de dessin animé ». En revanche, la même base de données et la même méthode donnent de meilleurs résultats avec la nouvelle technique de prétraitement, appelée FluxFlow (à droite de l’image dans la vidéo ci-dessous) :

Cliquez pour jouer.

Dans le deuxième exemple (en utilisant NOVA-0.6B) nous voyons qu’un mouvement central impliquant un chat a été corrompu ou échantillonné de manière significative au stade de l’entraînement, au point que le système génératif devient « paralysé » et est incapable de faire bouger le sujet :

Cliquez pour jouer.

Ce syndrome, où le mouvement ou le sujet se « bloque », est l’un des problèmes les plus fréquemment signalés de HV et de Wan, dans les divers groupes de synthèse d’images et de vidéos.

Certains de ces problèmes sont liés aux problèmes de légendage de vidéos dans la base de données source, que nous avons examinés cette semaine ; mais les auteurs du nouveau travail se concentrent leurs efforts sur les qualités temporelles des données d’entraînement, et font un argument convaincant que résoudre les défis de ce point de vue peut donner des résultats utiles.

Comme mentionné dans l’article précédent sur le légendage de vidéos, certains sports sont particulièrement difficiles à distiller en moments clés, ce qui signifie que les événements critiques (tels qu’un dunk) n’obtiennent pas l’attention dont ils ont besoin au moment de l’entraînement :

Cliquez pour jouer.

Dans l’exemple ci-dessus, le système génératif ne sait pas comment passer à l’étape de mouvement suivante et transite de manière illogique d’une pose à une autre, en changeant l’attitude et la géométrie du joueur dans le processus.

Ces mouvements importants ont été perdus pendant l’entraînement – mais également vulnérables sont les mouvements beaucoup plus petits mais cruciaux, tels que le battement des ailes d’un papillon :

Cliquez pour jouer.

Contrairement au dunk, le battement des ailes n’est pas un événement « rare » mais plutôt un événement persistant et monotone. Cependant, sa cohérence est perdue dans le processus d’échantillonnage, puisque le mouvement est si rapide qu’il est très difficile de l’établir temporellement.

Ces problèmes ne sont pas particulièrement nouveaux, mais ils reçoivent une attention accrue maintenant que des modèles de vidéos génératives puissants sont disponibles pour les enthousiastes pour une installation locale et une génération gratuite.

Les communautés sur Reddit et Discord ont initialement traité ces problèmes comme « liés à l’utilisateur ». Cette hypothèse est compréhensible, puisque les systèmes en question sont très nouveaux et minimalement documentés. Par conséquent, divers experts ont suggéré diverses solutions (et pas toujours efficaces) pour certains des bugs documentés ici, telles que la modification des paramètres dans divers composants de divers types de flux de travail ComfyUI pour Hunyuan Video (HV) et Wan 2.1.

Dans certains cas, au lieu de produire un mouvement rapide, HV et Wan produisent un mouvement lent. Les suggestions de Reddit et ChatGPT (qui s’appuie principalement sur Reddit) incluent la modification du nombre de trames dans la génération demandée, ou la réduction radicale du taux d’images par seconde*.

Tout cela est désespéré ; la vérité émergente est que nous ne connaissons pas encore la cause exacte ou le remède exact pour ces problèmes ; clairement, le fait de tourmenter les paramètres de génération pour les contourner (en particulier lorsque cela dégrade la qualité de sortie, par exemple avec un taux d’images par seconde trop bas) n’est qu’une solution temporaire, et il est bon de voir que la scène de la recherche traite ces problèmes émergents si rapidement.

Donc, outre notre examen de cette semaine sur la façon dont le légendage affecte l’entraînement, prenons un regard sur le nouveau document sur la régularisation temporelle, et sur les améliorations qu’il pourrait apporter à la scène actuelle des vidéos génératives.

L’idée centrale est plutôt simple et légère, et n’est pas moins bonne pour cela ; néanmoins, le document est quelque peu gonflé pour atteindre les huit pages prescrites, et nous allons sauter par-dessus cette partie superflue au besoin.

Le poisson dans la génération native du framework VideoCrafter est statique, tandis que la version modifiée par FluxFlow capture les changements requis. Source : https://arxiv.org/pdf/2503.15417

Le poisson dans la génération native du framework VideoCrafter est statique, tandis que la version modifiée par FluxFlow capture les changements requis. Source : https://arxiv.org/pdf/2503.15417

Le nouveau travail est intitulé La régularisation temporelle rend votre générateur de vidéos plus fort, et provient de huit chercheurs issus d’Everlyn AI, de l’Université des sciences et de la technologie de Hong Kong (HKUST), de l’Université de Floride centrale (UCF) et de l’Université de Hong Kong (HKU).

(au moment de la rédaction, il y a des problèmes avec le site du projet accompagnant le document)

FluxFlow

L’idée centrale derrière FluxFlow, le nouveau schéma de pré-entraînement des auteurs, est de surmonter les problèmes répandus de scintillement et d’incohérence temporelle en mélangeant les blocs et les groupes de blocs dans les commandes de trames temporelles lorsque les données sources sont exposées au processus d’entraînement :

L'idée centrale derrière FluxFlow est de déplacer les blocs et les groupes de blocs dans des positions inattendues et non temporelles, sous forme d'augmentation de données.

L’idée centrale derrière FluxFlow est de déplacer les blocs et les groupes de blocs dans des positions inattendues et non temporelles, sous forme d’augmentation de données.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.