Connect with us

Angle d’Anderson

Un progrès notable dans la vidéo IA pilotée par l’homme

mm
Examples from the DreamActor project page.

Note : La page du projet pour ce travail comprend 33 vidéos haute résolution en lecture automatique d’une demi-gigaoctet, ce qui a déstabilisé mon système lors du chargement. Pour cette raison, je ne vais pas le lier directement. Les lecteurs peuvent trouver l’URL dans le résumé du document ou le PDF s’ils le souhaitent.

L’un des objectifs principaux de la recherche actuelle sur la synthèse de vidéos est de générer une performance de vidéo IA complète à partir d’une seule image. Cette semaine, un nouveau document de Bytedance Intelligent Creation a présenté ce qui pourrait être le système le plus complet de ce type jusqu’à présent, capable de produire des animations de corps entier et demi-corps qui combinent des détails faciaux expressifs avec des mouvements à grande échelle précis, tout en améliorant la cohérence d’identité – un domaine où même les systèmes commerciaux leaders ont souvent des lacunes.

Dans l’exemple ci-dessous, nous voyons une performance pilotée par un acteur (en haut à gauche) et dérivée d’une seule image (en haut à droite), qui fournit un rendu remarquablement flexible et dextre, sans les problèmes habituels autour de la création de grands mouvements ou de “deviner” les zones occultées (c’est-à-dire les parties de vêtements et les angles du visage qui doivent être déduits ou inventés car ils ne sont pas visibles dans la photo source) :

CONTENU AUDIO. Cliquez pour jouer. Une performance est née de deux sources, y compris la synchronisation labiale, qui est normalement l’apanage de systèmes auxiliaires dédiés. Il s’agit d’une version réduite du site source (voir la note au début de l’article – s’applique à toutes les autres vidéos intégrées ici).

Bien que nous puissions voir quelques défis résiduels concernant la persistance de l’identité à mesure que chaque extrait progresse, c’est le premier système que j’ai vu qui excelle généralement (bien que pas toujours) à maintenir l’identité sur une période prolongée sans l’utilisation de LoRAs :

CONTENU AUDIO. Cliquez pour jouer. Autres exemples du projet DreamActor.

Le nouveau système, intitulé DreamActor, utilise un système de contrôle hybride à trois parties qui donne une attention dédiée à l’expression faciale, à la rotation de la tête et à la conception du squelette central, permettant ainsi des performances pilotées par l’IA où ni l’aspect facial ni le corps ne souffrent les uns des autres – une capacité rare, voire inconnue, parmi les systèmes similaires.

Ci-dessous, nous voyons l’un de ces aspects, la rotation de la tête, en action. La balle colorée dans le coin de chaque miniature vers la droite indique une sorte de cardan virtuel qui définit l’orientation de la tête de manière indépendante du mouvement et de l’expression faciale, qui est ici pilotée par un acteur (en bas à gauche).

Cliquez pour jouer. La balle multicolore visualisée ici représente l’axe de rotation de la tête de l’avatar, tandis que l’expression est alimentée par un module distinct et informée par la performance d’un acteur (visible ici en bas à gauche).

L’une des fonctionnalités les plus intéressantes du projet, qui n’est même pas incluse correctement dans les tests du document, est sa capacité à dériver le mouvement de synchronisation labiale directement à partir de l’audio – une capacité qui fonctionne de manière inhabituellement bien même sans vidéo d’acteur conducteur.

Les chercheurs ont pris en compte les meilleurs acteurs dans cette poursuite, notamment le très loué Runway Act-One et LivePortrait, et rapportent que DreamActor a pu obtenir de meilleurs résultats quantitatifs.

Puisque les chercheurs peuvent définir leurs propres critères, les résultats quantitatifs ne sont pas nécessairement une norme empirique ; mais les tests qualitatifs qui les accompagnent semblent soutenir les conclusions des auteurs.

Malheureusement, ce système n’est pas destiné à être publié, et la seule valeur que la communauté peut potentiellement en tirer est de reproduire les méthodologies décrites dans le document (comme cela a été fait avec un effet notable pour le Google Dreambooth en 2022, qui n’est pas open source).

Le document indique* :

‘L’animation d’images humaines comporte des risques sociaux possibles, comme être utilisée pour créer de fausses vidéos. La technologie proposée pourrait être utilisée pour créer de fausses vidéos de personnes, mais les outils de détection existants [Demamba, Dormant] peuvent détecter ces fausses vidéos.

‘Pour réduire ces risques, des règles éthiques claires et des lignes directrices d’utilisation responsables sont nécessaires. Nous allons restreindre strictement l’accès à nos modèles et codes de base pour prévenir les abus.’

Naturellement, des considérations éthiques de ce type sont pratiques d’un point de vue commercial, car elles fournissent une raison pour accéder à l’API du modèle, qui peut ensuite être monétisé. ByteDance a déjà fait cela une fois en 2025, en rendant le très loué OmniHuman disponible pour des crédits payants sur le site Dreamina. Par conséquent, puisque DreamActor est peut-être un produit encore plus solide, cela semble être le résultat probable. Ce qui reste à voir est la mesure dans laquelle ses principes, dans la mesure où ils sont expliqués dans le document, peuvent aider la communauté open source.

Le nouveau document est intitulé DreamActor-M1 : Animation d’images humaines holistique, expressive et robuste avec guidage hybride, et provient de six chercheurs de Bytedance.

Méthode

Le système DreamActor proposé dans le document vise à générer une animation humaine à partir d’une image de référence et d’une vidéo conductrice, en utilisant un cadre de Diffusion Transformer (DiT) adapté pour l’espace latent (apparemment une certaine saveur de Stable Diffusion, bien que le document ne cite que la publication de référence de 2022).

Plutôt que de s’appuyer sur des modules externes pour gérer la condition de référence, les auteurs fusionnent les caractéristiques d’apparence et de mouvement directement à l’intérieur du backbone DiT, permettant l’interaction dans l’espace et le temps grâce à l’attention :

Schéma pour le nouveau système : DreamActor code les poses, les mouvements faciaux et les apparences dans des latents distincts, les combinant avec des latents de vidéo bruyants produits par un 3D VAE. Ces signaux sont fusionnés dans un Diffusion Transformer en utilisant l'auto-attention et l'attention croisée, avec des poids partagés entre les branches. Le modèle est supervisé en comparant les sorties débruitées aux latents de vidéo propres. Source : https://arxiv.org/pdf/2504.01724

Schéma pour le nouveau système : DreamActor code les poses, les mouvements faciaux et les apparences dans des latents distincts, les combinant avec des latents de vidéo bruyants produits par un 3D VAE. Ces signaux sont fusionnés dans un Diffusion Transformer en utilisant l’auto-attention et l’attention croisée, avec des poids partagés entre les branches. Le modèle est supervisé en comparant les sorties débruitées aux latents de vidéo propres. Source : https://arxiv.org/pdf/2504.01724

Pour ce faire, le modèle utilise un 3D variational autoencoder préentraîné pour encoder à la fois la vidéo d’entrée et l’image de référence. Ces latents sont patchifiés, concaténés et introduits dans le DiT, qui les traite conjointement.

Cette architecture s’écarte de la pratique courante de rattacher un réseau secondaire pour l’injection de référence, qui était l’approche pour les projets Animate Anyone et Animate Anyone 2 influents.

Au lieu de cela, DreamActor intègre la fusion dans le modèle principal lui-même, simplifiant la conception tout en améliorant le flux d’informations entre les indices d’apparence et de mouvement. Le modèle est ensuite formé en utilisant la correspondance de flux plutôt que l’objectif de diffusion standard (la correspondance de flux forme des modèles de diffusion en prédissant directement les champs de vitesse entre les données et le bruit, en sautant l’estimation du score).

Guidage de mouvement hybride

La méthode de guidage de mouvement hybride qui informe les rendus neuronaux combine des jetons de pose dérivés de squelettes de corps 3D et de sphères de tête ; des représentations faciales implicites extraites par un encodeur de visage préentraîné ; et des jetons d’apparence de référence échantillonnés à partir de l’image source.

Ces éléments sont intégrés dans le Diffusion Transformer en utilisant des mécanismes d’attention distincts, permettant au système de coordonner le mouvement global, l’expression faciale et l’identité visuelle tout au long du processus de génération.

Pour le premier de ces éléments, plutôt que de s’appuyer sur des repères faciaux, DreamActor utilise des représentations faciales implicites pour guider la génération d’expression, permettant apparemment un contrôle plus fin sur la dynamique faciale tout en dissociant l’identité et la pose de la tête de l’expression.

Pour créer ces représentations, le pipeline détecte et recadre la région du visage dans chaque trame de la vidéo conductrice, la redimensionne à 224×224. Les visages recadrés sont traités par un encodeur de mouvement de visage préentraîné sur le jeu de données PD-FGC, qui est ensuite conditionné par une couche MLP.

PD-FGC, employé dans DreamActor, génère une tête parlante à partir d'une image de référence avec un contrôle désentrelacé de la synchronisation labiale (à partir de l'audio), de la pose de la tête, du mouvement des yeux et de l'expression (à partir de vidéos distinctes), permettant une manipulation précise et indépendante de chacun. Source : https://arxiv.org/pdf/2211.14506

PD-FGC, employé dans DreamActor, génère une tête parlante à partir d’une image de référence avec un contrôle désentrelacé de la synchronisation labiale (à partir de l’audio), de la pose de la tête, du mouvement des yeux et de l’expression (à partir de vidéos distinctes), permettant une manipulation précise et indépendante de chacun. Source : https://arxiv.org/pdf/2211.14506

Le résultat est une séquence de jetons de mouvement de visage, qui sont injectés dans le Diffusion Transformer à travers une couche d’attention croisée.

Le même cadre prend également en charge une variante audio-pilotée, dans laquelle un encodeur distinct est formé pour mapper directement l’entrée audio vers des jetons de mouvement de visage. Cela permet de générer une animation faciale synchronisée – y compris les mouvements des lèvres – sans vidéo conductrice.

CONTENU AUDIO. Cliquez pour jouer. La synchronisation labiale dérivée purement de l’audio, sans référence à un acteur. La seule entrée de personnage est la photo statique visible en haut à droite.

Deuxièmement, pour contrôler la pose de la tête de manière indépendante de l’expression faciale, le système introduit une représentation de sphère de tête 3D (voir la vidéo intégrée plus tôt dans cet article), qui découple la dynamique faciale du mouvement global de la tête, améliorant la précision et la flexibilité pendant l’animation.

Les sphères de tête sont générées en extrayant des paramètres de visage 3D – tels que la rotation et la pose de la caméra – à partir de la vidéo conductrice en utilisant la méthode de suivi FaceVerse.

Schéma pour le projet FaceVerse. Source : https://www.liuyebin.com/faceverse/faceverse.html

Schéma pour le projet FaceVerse. Source : https://www.liuyebin.com/faceverse/faceverse.html

Ces paramètres sont utilisés pour rendre une sphère de couleur projetée sur le plan d’image 2D, alignée spatialement avec la tête conductrice. La taille de la sphère correspond à la tête de référence, et sa couleur reflète l’orientation de la tête. Cette abstraction réduit la complexité de l’apprentissage du mouvement de tête 3D, aidant à préserver les formes de tête stylisées ou exagérées dans les personnages tirés de l’animation.

Visualisation de la sphère de contrôle influençant l'orientation de la tête.

Visualisation de la sphère de contrôle influençant l’orientation de la tête.

Enfin, pour guider le mouvement du corps entier, le système utilise des squelettes de corps 3D avec une normalisation de longueur d’os adaptative. Les paramètres de corps et de main sont estimés en utilisant 4DHumans et le modèle HaMeR axé sur la main, qui fonctionnent tous deux sur le modèle de corps SMPL-X.

SMPL-X applique une maille paramétrique sur le corps humain entier dans une image, en alignant avec la pose et l'expression estimées pour permettre une manipulation consciente de la pose en utilisant la maille comme guide volumétrique. Source : https://arxiv.org/pdf/1904.05866

SMPL-X applique une maille paramétrique sur le corps humain entier dans une image, en alignant avec la pose et l’expression estimées pour permettre une manipulation consciente de la pose en utilisant la maille comme guide volumétrique. Source : https://arxiv.org/pdf/1904.05866

À partir de ces sorties, des articulations clés sont sélectionnées, projetées en 2D et connectées en cartes de squelette linéaires. Contrairement aux méthodes telles que Champ, qui rendent des maillages de corps entier, cette approche évite d’imposer des a priori de forme prédéfinis, et en s’appuyant uniquement sur la structure squelettique, le modèle est ainsi encouragé à déduire la forme et l’apparence du corps directement à partir des images de référence, réduisant les biais vers des types de corps fixes et améliorant la généralisation sur une gamme de poses et de morphologies.

Pendant la formation, les squelettes de corps 3D sont concaténés avec les sphères de tête et passés à travers un encodeur de pose, qui produit des fonctions qui sont ensuite combinées avec des latents de vidéo bruyants pour produire les jetons de bruit utilisés par le Diffusion Transformer.

Lors de l’inférence, le système tient compte des différences squelettiques entre les sujets en normalisant les longueurs d’os. Le modèle SeedEdit préformé transforme à la fois les images de référence et de conduite en une configuration canonique standard. RTMPose est ensuite utilisé pour extraire les proportions squelettiques, qui sont utilisées pour ajuster le squelette de conduite pour qu’il corresponde à l’anatomie du sujet de référence.

Aperçu du pipeline d'inférence. Des pseudo-références peuvent être générées pour enrichir les indices d'apparence, tandis que les signaux de contrôle hybrides - mouvement facial implicite et pose explicite à partir de sphères de tête et de squelettes de corps - sont extraits de la vidéo conductrice. Ces signaux sont ensuite introduits dans un modèle DiT pour produire une sortie animée, avec le mouvement facial dissocié de la pose du corps, permettant l'utilisation de l'audio en tant que conducteur.

Aperçu du pipeline d’inférence. Des pseudo-références peuvent être générées pour enrichir les indices d’apparence, tandis que les signaux de contrôle hybrides – mouvement facial implicite et pose explicite à partir de sphères de tête et de squelettes de corps – sont extraits de la vidéo conductrice. Ces signaux sont ensuite introduits dans un modèle DiT pour produire une sortie animée, avec le mouvement facial dissocié de la pose du corps, permettant l’utilisation de l’audio en tant que conducteur.

Guidage d’apparence

Pour améliorer la fidélité d’apparence, en particulier dans les zones occultées ou rarement visibles, le système complète l’image de référence principale avec des pseudo-références échantillonnées à partir de la vidéo d’entrée.

Cliquez pour jouer. Le système anticipe la nécessité de rendre avec précision et cohérence les zones occultées. C’est à peu près aussi proche que j’ai vu, dans un projet de ce type, d’une approche de texture bitmap de type CGI.

Ces cadres supplémentaires sont choisis pour leur diversité de pose en utilisant RTMPose, et filtrés en utilisant une similarité basée sur CLIP pour garantir qu’ils restent cohérents avec l’identité du sujet.

Toutes les trames de référence (principales et pseudo) sont codées par le même encodeur visuel et fusionnées à travers un mécanisme d’auto-attention, permettant au modèle d’accéder à des indices d’apparence complémentaires. Cette configuration améliore la couverture de détails tels que les vues de profil ou les textures de membres. Les pseudo-références sont toujours utilisées pendant la formation et facultativement pendant l’inférence.

Formation

DreamActor a été formé en trois étapes pour introduire progressivement la complexité et améliorer la stabilité.

Dans la première étape, seuls les squelettes de corps 3D et les sphères de tête 3D étaient utilisés en tant que signaux de contrôle, en excluant les représentations faciales. Cela a permis au modèle de base de génération de vidéo, initialisé à partir de MMDiT, de s’adapter à l’animation humaine sans être submergé par des contrôles fins.

Dans la deuxième étape, les représentations faciales implicites ont été ajoutées, mais tous les autres paramètres figés. Seuls l’encodeur de mouvement de visage et les couches d’attention de visage ont été formés à ce stade, permettant au modèle d’apprendre des détails expressifs en isolation.

Dans la dernière étape, tous les paramètres ont été dégelés pour une optimisation conjointe de l’apparence, de la pose et de la dynamique faciale.

Données et tests

Pour la phase de test, le modèle est initialisé à partir d’un point de contrôle préformé d’image-vidéo DiT et formé en trois étapes : 20 000 étapes pour chacune des deux premières étapes et 30 000 étapes pour la troisième.

Pour améliorer la généralisation sur différentes durées et résolutions, des extraits de vidéo ont été échantillonnés aléatoirement avec des longueurs comprises entre 25 et 121 trames. Ces extraits ont ensuite été redimensionnés à 960x640px, en conservant le rapport d’aspect.

La formation a été effectuée sur huit (China-focused) NVIDIA H20 GPUs, chacun avec 96 Go de VRAM, en utilisant l’optimiseur AdamW avec un taux d’apprentissage (tolérablement élevé) de 5e−6.

Lors de l’inférence, chaque segment de vidéo contenait 73 trames. Pour maintenir la cohérence entre les segments, le dernier latent d’un segment était réutilisé comme le premier latent du segment suivant, ce qui contextualise la tâche comme une génération d’image à vidéo séquentielle.

La guidance sans classe a été appliquée avec un poids de 2,5 pour les images de référence et les signaux de contrôle de mouvement.

Les auteurs ont construit un jeu de données d’entraînement (aucune source n’est indiquée dans le document) comprenant 500 heures de vidéo provenant de domaines divers, présentant des exemples (entre autres) de danse, de sports, de film et de discours public. Le jeu de données a été conçu pour capturer un large spectre de mouvement et d’expression humaine, avec une répartition égale entre les plans de corps entier et demi-corps.

Pour améliorer la qualité de synthèse faciale, Nersemble a été intégré dans le processus de préparation des données.

Exemples du jeu de données Nersemble, utilisé pour augmenter les données pour DreamActor. Source : https://www.youtube.com/watch?v=a-OAWqBzldU

Exemples du jeu de données Nersemble, utilisé pour augmenter les données pour DreamActor. Source : https://www.youtube.com/watch?v=a-OAWqBzldU

Pour l’évaluation, les chercheurs ont utilisé leur jeu de données comme référence pour évaluer la généralisation sur divers scénarios.

Les performances du modèle ont été mesurées en utilisant des métriques standard issues de travaux antérieurs : Fréchet Inception Distance (FID) ; Indice de similarité structurelle (SSIM) ; Similarité d’images perçue apprise (LPIPS) ; et Rapport de signal à bruit de pointe (PSNR) pour la qualité au niveau des trames. La Fréchet Video Distance (FVD) a été utilisée pour évaluer la cohérence temporelle et la fidélité globale de la vidéo.

Les auteurs ont mené des expériences sur les tâches d’animation de corps et d’animation de portrait, toutes employant une seule image de référence (cible).

Pour l’animation de corps, DreamActor-M1 a été comparé à Animate Anyone ; Champ ; MimicMotion ; et DisPose.

Comparaisons quantitatives avec des cadres rivaux.

Comparaisons quantitatives avec des cadres rivaux.

Bien que le PDF fournisse une image statique à titre de comparaison visuelle, l’une des vidéos du site du projet peut mettre en évidence les différences de manière plus claire :

CONTENU AUDIO. Cliquez pour jouer. Une comparaison visuelle entre les cadres concurrents. La vidéo conductrice est visible en haut à gauche, et la conclusion des auteurs selon laquelle DreamActor produit les meilleurs résultats semble raisonnable.

Pour les tests d’animation de portrait, le modèle a été évalué contre LivePortrait ; X-Portrait ; SkyReels-A1 ; et Act-One.

Comparaisons quantitatives pour l'animation de portrait.

Comparaisons quantitatives pour l’animation de portrait.

Les auteurs notent que leur méthode l’emporte dans les tests quantitatifs, et soutiennent qu’elle est également supérieure qualitativement.

CONTENU AUDIO. Cliquez pour jouer. Exemples de comparaisons d’animation de portrait.

On peut soutenir que la troisième et dernière des séquences vidéo ci-dessus présente une synchronisation labiale moins convaincante par rapport à certains des cadres rivaux, bien que la qualité générale soit remarquablement élevée.

Conclusion

En anticipant la nécessité de textures qui sont impliquées mais pas réellement présentes dans l’image cible unique qui alimente ces reconstitutions, Bytedance a abordé l’un des plus grands défis auxquels est confrontée la génération de vidéo basée sur la diffusion – des textures cohérentes et persistantes. L’étape logique suivante après avoir perfectionné une telle approche serait de créer une sorte d’atlas de référence à partir de la première bande générée qui pourrait être appliquée à des générations ultérieures et différentes, pour maintenir l’apparence sans LoRAs.

Bien que cette approche soit en réalité toujours une référence externe, elle ne diffère pas des techniques de texture mapping dans les méthodes CGI traditionnelles, et la qualité de réalisme et de plausibilité est bien supérieure à celle que ces anciennes méthodes peuvent obtenir.

Cela étant dit, l’aspect le plus impressionnant de DreamActor est le système de guidage à trois parties combiné, qui franchit la frontière traditionnelle entre la synthèse humaine axée sur le visage et la synthèse humaine axée sur le corps d’une manière ingénieuse.

Il ne reste plus qu’à voir si certains de ces principes fondamentaux peuvent être exploités dans des offres plus accessibles ; tel qu’il se présente, DreamActor semble destiné à devenir une autre offre de synthèse en tant que service, sévèrement limitée par des restrictions d’utilisation et par l’impracticalité d’expérimenter de manière approfondie avec une architecture commerciale.

 

* Mon remplacement de liens hypertexte par les auteurs ; citations intégrées

Comme mentionné plus tôt, il n’est pas clair quelle saveur de Stable Diffusion a été utilisée dans ce projet.

Publié pour la première fois vendredi 4 avril 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.