Ângulo de Anderson

Melhor IA de Vídeo Gerado por Reorganização de Quadros Durante o Treinamento

Published March 21, 2025

Updated April 3, 2026

Martin Anderson

Adobe Firefly, various prompts and edits.

Um novo artigo publicado esta semana no Arxiv aborda um problema com o qual qualquer pessoa que tenha adotado o Hunyuan Video ou Wan 2.1 geradores de vídeo IA terá se deparado até agora: aberrações temporais, onde o processo gerativo tende a acelerar abruptamente, confundir, omitir ou de outra forma estragar momentos cruciais em um vídeo gerado:

Clique para reproduzir. Alguns dos glitches temporais que estão se tornando familiares para os usuários dos novos sistemas de vídeo gerativo, destacados no novo artigo. À direita, o efeito ameliorante da nova abordagem FluxFlow. Fonte: https://haroldchen19.github.io/FluxFlow/

O vídeo acima apresenta trechos de vídeos de teste de exemplo no (avisado: bastante caótico) site do projeto para o artigo. Podemos ver vários problemas cada vez mais familiares sendo remediados pelo método dos autores (ilustrado à direita no vídeo), que é efetivamente uma técnica de pré-processamento de conjunto de dados aplicável a qualquer arquitetura de vídeo gerativo.

No primeiro exemplo, apresentando ‘duas crianças brincando com uma bola’, gerado por CogVideoX, vemos (à esquerda na compilação de vídeo acima e no exemplo específico abaixo) que a geração nativa salta rapidamente por meio de vários micro-movimentos essenciais, acelerando a atividade das crianças para um ‘tom de desenho animado’. Em contraste, o mesmo conjunto de dados e método produzem melhores resultados com a nova técnica de pré-processamento, denominada FluxFlow (à direita da imagem no vídeo abaixo):

Clique para reproduzir.

No segundo exemplo (usando NOVA-0.6B) vemos que um movimento central envolvendo um gato foi de alguma forma corrompido ou subamostrado significativamente no estágio de treinamento, a ponto de o sistema gerativo se tornar ‘paralisado’ e ser incapaz de fazer o sujeito se mover:

Clique para reproduzir.

Essa síndrome, onde o movimento ou sujeito fica ‘preso’, é um dos problemas mais frequentemente relatados do HV e do Wan, nos vários grupos de síntese de imagem e vídeo.

Alguns desses problemas estão relacionados a problemas de legendagem de vídeo no conjunto de dados de origem, que examinamos esta semana; mas os autores do novo trabalho concentram seus esforços nas qualidades temporais dos dados de treinamento, e fazem um argumento convincente de que abordar os desafios dessa perspectiva pode produzir resultados úteis.

Como mencionado no artigo anterior sobre legendagem de vídeo, certos esportes são particularmente difíceis de distilar em momentos-chave, significando que eventos críticos (como um enterrada) não recebem a atenção necessária no tempo de treinamento:

Clique para reproduzir.

No exemplo acima, o sistema gerativo não sabe como passar para a próxima etapa do movimento e transita ilogicamente de uma pose para a outra, alterando a atitude e a geometria do jogador no processo.

Esses são grandes movimentos que se perderam no treinamento – mas igualmente vulneráveis são movimentos muito menores, mas cruciais, como o bater das asas de uma borboleta:

Clique para reproduzir.

Ao contrário do enterrada, o bater das asas não é um evento ‘raro’, mas sim um evento persistente e monótono. No entanto, sua consistência se perde no processo de amostragem, pois o movimento é tão rápido que é muito difícil estabelecer temporalmente.

Esses não são problemas particularmente novos, mas estão recebendo mais atenção agora que modelos de vídeo gerativo poderosos estão disponíveis para entusiastas para instalação local e geração gratuita.

As comunidades no Reddit e Discord inicialmente trataram esses problemas como ‘relacionados ao usuário’. Essa é uma suposição compreensível, pois os sistemas em questão são muito novos e minimamente documentados. Portanto, vários especialistas sugeriram remédios diversos (e nem sempre eficazes) para alguns dos glitches documentados aqui, como alterar as configurações em vários componentes de workflows de ComfyUI para Hunyuan Video (HV) e Wan 2.1.

Em alguns casos, em vez de produzir movimento rápido, tanto o HV quanto o Wan produzem movimento lento. Sugestões do Reddit e do ChatGPT (que aproveita principalmente o Reddit) incluem alterar o número de quadros na geração solicitada, ou reduzir radicalmente a taxa de quadros*.

Isso é tudo desesperador; a verdade emergente é que ainda não sabemos a causa exata ou o remédio exato para esses problemas; claramente, atormentar as configurações de geração para contorná-los (particularmente quando isso degrada a qualidade da saída, por exemplo, com uma taxa de quadros muito baixa) é apenas uma solução temporária, e é bom ver que a cena de pesquisa está abordando problemas emergentes tão rapidamente.

Então, além da nossa olhada desta semana sobre como a legendagem afeta o treinamento, vamos dar uma olhada no novo artigo sobre regularização temporal e quais melhorias ele pode oferecer à cena atual de vídeo gerativo.

A ideia central é bastante simples e leve, e não é pior por isso; no entanto, o artigo é um pouco inflado para atingir as oito páginas prescritas, e vamos pular sobre essa inflação quando necessário.

O peixe na geração nativa do framework VideoCrafter é estático, enquanto a versão alterada pelo FluxFlow captura as mudanças necessárias. Fonte: https://arxiv.org/pdf/2503.15417

O novo trabalho é intitulado A Regularização Temporal Torna Seu Gerador de Vídeo Mais Forte, e vem de oito pesquisadores em toda a Everlyn AI, Universidade de Ciência e Tecnologia de Hong Kong (HKUST), Universidade da Flórida Central (UCF) e Universidade de Hong Kong (HKU).

(no momento da escrita, há alguns problemas com o site do projeto do artigo)

FluxFlow

A ideia central por trás do FluxFlow, o novo esquema de pré-treinamento dos autores, é superar os problemas generalizados de flickering e inconsistência temporal reorganizando blocos e grupos de blocos nas ordens de quadros temporais à medida que os dados de origem são expostos ao processo de treinamento:

A ideia central por trás do FluxFlow é mover blocos e grupos de blocos para posições inesperadas e não temporais, como uma forma de aumento de dados.