Ângulo de Anderson

Por que o vídeo de IA às vezes fica ao contrário

Publicado 13 de março de 2025

Martin Anderson

Imagem do ChatGPT/Firefly mostrando um jet-skier deixando um rastro impossível na sua frente.

Se 2022 foi o ano em que a IA generativa capturou a imaginação de um público mais amplo, 2025 é o ano em que a nova geração de IA generativa vídeo estruturas vindas da China parecem destinadas a fazer o mesmo.

O Hunyuan Video da Tencent fez uma grande impacto na comunidade de IA amadora com seu lançamento de código aberto de um modelo de difusão de vídeo de mundo inteiro que os usuários podem adaptar às suas necessidades.

Logo atrás está o mais recente Alibaba Pou 2.1, uma das soluções FOSS de imagem para vídeo mais poderosas deste período – agora com suporte para personalização por meio de Wan LoRAs.

Além da disponibilidade do recente modelo de fundação centrado no ser humano Carretéis Celestiais, no momento da redação deste texto também aguardamos o lançamento do abrangente Alibaba VACE suíte de criação e edição de vídeo:

Clique para jogar. O lançamento iminente do pacote de edição de IA multifuncional do Alibaba, VACE, entusiasmou a comunidade de usuários. Fonte: https://ali-vilab.github.io/VACE-Page/

Impacto súbito

O cenário de pesquisa de IA em vídeo generativo não é menos explosivo; ainda é a primeira quinzena de março, e as inscrições de terça-feira para a seção de Visão Computacional do Arxiv (um centro de artigos sobre IA generativa) chegaram a quase 350 inscrições — um número mais associado ao auge da temporada de conferências.

Os dois anos desde o lançamento de Difusão Estável no verão de 2022 (e o subsequente desenvolvimento de Cabine dos Sonhos e LoRA métodos de personalização) foram caracterizados pela falta de grandes desenvolvimentos, até as últimas semanas, quando novos lançamentos e inovações ocorreram em um ritmo tão alucinante que é quase impossível manter-se informado sobre tudo, muito menos cobrir tudo.

Modelos de difusão de vídeo como Hunyuan e Wan 2.1 resolveram, finalmente, e após anos de esforços fracassados de centenas de iniciativas de pesquisa, o problema problema of consistência temporal no que se refere à geração de humanos e, em grande parte, também a ambientes e objetos.

Não há dúvidas de que os estúdios de efeitos visuais estão atualmente aplicando pessoal e recursos para adaptar os novos modelos de vídeo chineses para resolver desafios imediatos, como a troca de rostos, apesar da atual falta de ControlNetmecanismos auxiliares de estilo para esses sistemas.

Deve ser um grande alívio que um obstáculo tão significativo tenha sido potencialmente superado, ainda que não pelos meios previstos.

Dos problemas que permanecem, este, porém, não é insignificante:

Clique para jogar. Com base no prompt 'Uma pequena pedra cai de uma encosta íngreme e rochosa, deslocando solo e pequenas pedras', Wan 2.1, que obteve as pontuações mais altas no novo artigo, comete um erro simples. Fonte: https://videophy2.github.io/

Subindo a colina para trás

Todos os sistemas de texto para vídeo e imagem para vídeo atualmente disponíveis, incluindo modelos comerciais de código fechado, tendem a produzir erros de física como o acima, onde o vídeo mostra uma rocha rolando subida, com base no prompt 'Uma pequena pedra cai de uma encosta íngreme e rochosa, deslocando solo e pequenas pedras '.

Uma teoria sobre o porquê disso acontecer, recentemente proposto em uma colaboração acadêmica entre Alibaba e Emirados Árabes Unidos, é que os modelos treinam sempre em imagens únicas, em certo sentido, mesmo quando estão treinando em vídeos (que são escritos em sequências de quadros únicos para fins de treinamento); e eles podem não necessariamente aprender a ordem temporal correta de 'antes da' e 'depois' fotos.

No entanto, a solução mais provável é que os modelos em questão tenham utilizado aumento de dados rotinas que envolvem a exposição de um clipe de treinamento de origem ao modelo tanto para frente e para trás, efetivamente dobrando os dados de treinamento.

Há muito se sabe que isso não deve ser feito arbitrariamente, pois alguns movimentos funcionam ao contrário, mas muitos não. Estudo 2019 da Universidade de Bristol, no Reino Unido, procurou desenvolver um método que pudesse distinguir equivariante, invariante e irreversível videoclipes de dados de origem que coexistem em um único conjunto de dados (veja a imagem abaixo), com a noção de que clipes de origem inadequados podem ser filtrados das rotinas de aumento de dados.

Exemplos de três tipos de movimento, apenas um dos quais é livremente reversível, mantendo dinâmica física plausível. Fonte: https://arxiv.org/abs/1909.09422

Exemplos de três tipos de movimento, dos quais apenas um é livremente reversível, mantendo uma dinâmica física plausível. Fonte: https://arxiv.org/abs/1909.09422

Os autores dessa obra enquadram o problema claramente:

'Descobrimos que o realismo dos vídeos invertidos é traído por artefatos de reversão, aspectos da cena que não seriam possíveis em um mundo natural. Alguns artefatos são sutis, enquanto outros são fáceis de detectar, como uma ação de 'arremesso' invertida, onde o objeto arremessado sobe espontaneamente do chão.

'Observamos dois tipos de artefatos de reversão, físicos, aqueles que exibem violações das leis da natureza, e improváveis, aqueles que descrevem um cenário possível, mas improvável. Eles não são exclusivos, e muitas ações reversas sofrem ambos os tipos de artefatos, como ao desamassar um pedaço de papel.

'Exemplos de artefatos físicos incluem: gravidade invertida (por exemplo, 'deixar algo cair'), impulsos espontâneos em objetos (por exemplo, 'girar uma caneta') e mudanças de estado irreversíveis (por exemplo, 'queimar uma vela'). Um exemplo de um artefato improvável: pegar um prato do armário, secá-lo e colocá-lo no escorredor.

'Esse tipo de reutilização de dados é muito comum no momento do treinamento e pode ser benéfico — por exemplo, para garantir que o modelo não aprenda apenas uma visão de uma imagem ou objeto que pode ser invertida ou rotacionada sem perder sua coerência e lógica centrais.

'Isso só funciona para objetos que são realmente simétricos, é claro; e aprender física a partir de um vídeo 'invertido' só funciona se a versão invertida fizer tanto sentido quanto a versão anterior.'

Reversões Temporárias

Não temos nenhuma evidência de que sistemas como Hunyuan Video e Wan 2.1 permitiram que clipes arbitrariamente 'revertidos' fossem expostos ao modelo durante o treinamento (nenhum grupo de pesquisadores foi específico em relação às rotinas de aumento de dados).

Contudo, a única possibilidade alternativa razoável, face a tantos relatórios (e minha própria experiência prática), parece ser que os conjuntos de dados em hiperescala que alimentam esses modelos podem conter clipes que na verdade apresentam movimentos ocorrendo em sentido inverso.

A rocha no vídeo de exemplo incorporado acima foi gerada usando Wan 2.1 e aparece em um novo estudo que examina quão bem os modelos de difusão de vídeo lidam com a física.

Nos testes deste projeto, o Wan 2.1 obteve uma pontuação de apenas 22% em termos de capacidade de aderir consistentemente às leis físicas.

No entanto, essa é a best pontuação de qualquer sistema testado para o trabalho, indicando que podemos ter encontrado nosso próximo obstáculo para a IA de vídeo:

Pontuações obtidas pelos principais sistemas de código aberto e fechado, com a saída das estruturas avaliada por anotadores humanos. Fonte: https://arxiv.org/pdf/2503.06800

Os autores do novo trabalho desenvolveram um sistema de benchmarking, agora em sua segunda iteração, denominado VídeoPhy, com o código disponível no GitHub.

Embora o escopo do trabalho esteja além do que podemos cobrir aqui, vamos dar uma olhada geral em sua metodologia e seu potencial para estabelecer uma métrica que poderia ajudar a direcionar o curso de futuras sessões de treinamento de modelo para longe dessas instâncias bizarras de reversão.

O processo de estudo, conduzido por seis pesquisadores da UCLA e do Google Research, é chamado VideoPhy-2: Uma desafiadora avaliação de senso comum físico centrada na ação na geração de vídeo. Um acompanhante lotado projetar site também está disponível, junto com código e conjuntos de dados no GitHub, e um visualizador de conjunto de dados no rosto abraçando.

Clique para jogar. Aqui, o aclamado modelo OpenAI Sora não consegue entender as interações entre remos e reflexões, e não é capaz de fornecer um fluxo físico lógico nem para a pessoa no barco nem para a maneira como o barco interage com ela.

Forma

Os autores descrevem a versão mais recente do seu trabalho, VídeoPhy-2, como um 'conjunto de dados de avaliação de senso comum desafiador para ações do mundo real'. A coleção apresenta 197 ações em uma variedade de atividades físicas diversas, como bambolê, ginástica e tênis, bem como interações de objetos, como dobrar um objeto até que ele quebre.

Um grande modelo de linguagem (LLM) é usado para gerar 3840 prompts a partir dessas ações iniciais, e os prompts são então usados para sintetizar vídeos por meio das várias estruturas que estão sendo testadas.

Ao longo do processo, os autores desenvolveram uma lista de regras e leis físicas 'candidatas' que os vídeos gerados por IA devem satisfazer, usando modelos de visão e linguagem para avaliação.

Os autores declaram:

Por exemplo, em um vídeo de um atleta jogando tênis, uma regra física seria que uma bola de tênis deve seguir uma trajetória parabólica sob a ação da gravidade. Para julgamentos padrão, pedimos a anotadores humanos que avaliem cada vídeo com base na aderência semântica geral e no bom senso físico, e que marquem sua conformidade com diversas regras físicas.

Acima: Um prompt de texto é gerado a partir de uma ação usando um LLM e usado para criar um vídeo com um gerador de texto para vídeo. Um modelo de visão-linguagem legenda o vídeo, identificando possíveis regras físicas em jogo. Abaixo: Anotadores humanos avaliam o realismo do vídeo, confirmam violações de regras, adicionam regras ausentes e verificam se o vídeo corresponde ao prompt original.

Inicialmente, os pesquisadores selecionaram um conjunto de ações para avaliar o senso comum físico em vídeos gerados por IA. Eles começaram com mais de 600 ações originadas do Cinética, UCF-101 e SSv2 conjuntos de dados, com foco em atividades envolvendo esportes, interações de objetos e física do mundo real.

Dois grupos independentes de estudantes anotadores treinados em STEM (com uma qualificação mínima de graduação obtida) revisaram e filtraram a lista, selecionando ações que testaram princípios como gravidade, ímpeto e elasticidade, ao mesmo tempo que remove tarefas de baixo movimento, como digitando, acariciando um gato, ou mastigação.

Após um refinamento adicional com Gemini-2.0-Flash-Exp para eliminar duplicatas, o conjunto de dados final incluiu 197 ações, com 54 envolvendo interações de objetos e 143 centradas em atividades físicas e esportivas:

Amostras das ações destiladas.

No segundo estágio, os pesquisadores usaram Gemini-2.0-Flash-Exp para gerar 20 prompts para cada ação no conjunto de dados, resultando em um total de 3,940 prompts. O processo de geração focou em interações físicas visíveis que poderiam ser claramente representadas em um vídeo gerado. Isso excluiu elementos não visuais, como emoções, detalhes sensoriais e linguagem abstrata, mas incorporou diversos personagens e objetos.

Por exemplo, em vez de um prompt simples como 'Um arqueiro lança a flecha, o modelo foi orientado a produzir uma versão mais detalhada como 'Um arqueiro puxa a corda do arco de volta à tensão máxima e então solta a flecha, que voa em linha reta e atinge o alvo de papel.'.

Como os modelos de vídeo modernos podem interpretar descrições mais longas, os pesquisadores refinaram ainda mais as legendas usando o Mistral-NeMo-12B-Instrutor prompt upsampler, para adicionar detalhes visuais sem alterar o significado original.

Exemplos de prompts do VideoPhy-2, categorizados por atividades físicas ou interações de objetos. Cada prompt é pareado com sua ação correspondente e o princípio físico relevante que ele testa.

No terceiro estágio, as regras físicas não foram derivadas de instruções de texto, mas de vídeos gerados, já que os modelos generativos podem ter dificuldade em aderir a instruções de texto condicionadas.

Os vídeos foram inicialmente criados usando prompts do VideoPhy-2 e, em seguida, legendados com o Gemini-2.0-Flash-Exp para extrair detalhes importantes. O modelo propôs três regras físicas esperadas por vídeo, que anotadores humanos revisaram e expandiram, identificando potenciais violações adicionais.

Exemplos de legendas ampliadas.

Em seguida, para identificar as ações mais desafiadoras, os pesquisadores geraram vídeos usando CogVideoX-5B com prompts do conjunto de dados VideoPhy-2. Eles então selecionaram 60 ações de 197 onde o modelo consistentemente falhou em seguir tanto os prompts quanto o senso comum físico básico.

Essas ações envolveram interações ricas em física, como transferência de momento no lançamento de disco, mudanças de estado, como dobrar um objeto até que ele quebre, tarefas de equilíbrio, como andar na corda bamba, e movimentos complexos que incluíam cambalhotas para trás, salto com vara e arremesso de pizza, entre outros. No total, 1,200 prompts foram escolhidos para aumentar a dificuldade do subconjunto de dados.

O conjunto de dados resultante compreendeu 3,940 legendas – 5.72 vezes mais do que a versão anterior do VideoPhy. O comprimento médio das legendas originais é de 16 tokens, enquanto as legendas com upsampling alcançam 138 tokens – 1.88 vezes e 16.2 vezes mais, respectivamente.

O conjunto de dados também apresenta 102,000 anotações humanas abrangendo adesão semântica, senso comum físico e violações de regras em vários modelos de geração de vídeo.

Avaliação

Os pesquisadores então definiram critérios claros para avaliar os vídeos. O objetivo principal era avaliar o quão bem cada vídeo correspondia ao seu prompt de entrada e seguia princípios físicos básicos.

Em vez de simplesmente classificar os vídeos por preferência, eles usaram feedback baseado em classificação para capturar sucessos e fracassos específicos. Anotadores humanos pontuaram os vídeos em uma escala de cinco pontos, permitindo julgamentos mais detalhados, enquanto a avaliação também verificou se os vídeos seguiam várias regras e leis físicas.

Para avaliação humana, um grupo de 12 anotadores foi selecionado de testes no Amazon Mechanical Turk (AMT) e forneceu classificações após receber instruções remotas detalhadas. Para ser justo, aderência semântica e senso comum físico foram avaliados separadamente (no estudo original do VideoPhy, eles foram avaliados em conjunto).

Os anotadores primeiro classificaram o quão bem os vídeos correspondiam aos seus prompts de entrada, então avaliaram separadamente a plausibilidade física, pontuando violações de regras e realismo geral em uma escala de cinco pontos. Apenas os prompts originais foram mostrados, para manter uma comparação justa entre os modelos.

A interface apresentada aos anotadores da AMT.

Embora o julgamento humano continue sendo o padrão ouro, ele é caro e vem com um número de advertências. Portanto, a avaliação automatizada é essencial para avaliações de modelos mais rápidas e escaláveis.

Os autores do artigo testaram vários modelos de linguagem de vídeo, incluindo Gemini-2.0-Flash-Exp e Pontuação de vídeo, sobre sua capacidade de pontuar vídeos com base na precisão semântica e no "senso comum físico".

Os modelos novamente classificaram cada vídeo em uma escala de cinco pontos, enquanto uma tarefa de classificação separada determinou se as regras físicas foram seguidas, violadas ou não estavam claras.

Experimentos mostraram que os modelos de linguagem de vídeo existentes tiveram dificuldade para corresponder aos julgamentos humanos, principalmente devido ao fraco raciocínio físico e à complexidade dos prompts. Para melhorar a avaliação automatizada, os pesquisadores desenvolveram VideoPhy-2-Autoeval, um modelo de 7 parâmetros B projetado para fornecer previsões mais precisas em três categorias: aderência semântica; senso comum físico; e conformidade com as regras, afinado no VideoCon-Física modelo usando 50,000 anotações humanas*.

Dados e testes

Com essas ferramentas em vigor, os autores testaram uma série de sistemas de vídeo generativos, tanto por meio de instalações locais quanto, quando necessário, por meio de APIs comerciais: CogVideoX-5B; VideoCrafter2; HunyuanVídeo-13B; Cosmos-Difusão; Wan2.1-14B; OpenAI Sora; e Raio Luma.

Os modelos foram solicitados com legendas ampliadas sempre que possível, exceto que Hunyuan Video e VideoCrafter2 operam sob 77 tokens CLIP limitações e não pode aceitar prompts acima de um determinado tamanho.

Os vídeos gerados foram mantidos em menos de 6 segundos, pois resultados mais curtos são mais fáceis de avaliar.

Os dados de direção eram do conjunto de dados VideoPhy-2, que foi dividido em um conjunto de referência e treinamento. 590 vídeos foram gerados por modelo, exceto para Sora e Ray2; devido ao fator custo (números equivalentes menores de vídeos foram gerados para estes).

(Consulte o artigo de origem para obter mais detalhes sobre a avaliação, que são exaustivamente registrados lá)

A avaliação inicial tratou de atividades físicas/esportes (PA) e interações de objetos (OI) e testou tanto o conjunto de dados geral quanto o subconjunto 'mais difícil' mencionado anteriormente:

Resultados da rodada inicial.

Aqui os autores comentam:

'Mesmo o modelo de melhor desempenho, Wan2.1-14B, atinge apenas 32.6% e 21.9% nas divisões completas e rígidas do nosso conjunto de dados, respectivamente. Seu desempenho relativamente forte em comparação com outros modelos pode ser atribuído à diversidade de seus dados de treinamento multimodais, juntamente com filtragem de movimento robusta que preserva vídeos de alta qualidade em uma ampla gama de ações.

'Além disso, observamos que modelos fechados, como Ray2, têm desempenho pior do que modelos abertos como Wan2.1-14B e CogVideoX-5B. Isso sugere que modelos fechados não são necessariamente superiores a modelos abertos na captura do senso comum físico.

Notavelmente, o Cosmos-Diffusion-7B alcançou a segunda melhor pontuação na divisão rígida, superando até mesmo o modelo HunyuanVideo-13B, muito maior. Isso pode ser devido à alta representatividade de ações humanas em seus dados de treinamento, juntamente com simulações renderizadas sinteticamente.

Os resultados mostraram que os modelos de vídeo tiveram mais dificuldades com atividades físicas como esportes do que com interações mais simples de objetos. Isso sugere que melhorar os vídeos gerados por IA nessa área exigirá melhores conjuntos de dados – particularmente filmagens de alta qualidade de esportes como tênis, disco, beisebol e críquete.

O estudo também examinou se a plausibilidade física de um modelo se correlacionava com outras métricas de qualidade de vídeo, como estética e suavidade de movimento. As descobertas não revelaram nenhuma correlação forte, o que significa que um modelo não pode melhorar seu desempenho no VideoPhy-2 apenas gerando movimento visualmente atraente ou fluido – ele precisa de uma compreensão mais profunda do senso comum físico.

Embora o artigo forneça abundantes exemplos qualitativos, poucos dos exemplos estáticos fornecidos no PDF parecem se relacionar aos extensos exemplos baseados em vídeo que os autores fornecem no site do projeto. Portanto, veremos uma pequena seleção dos exemplos estáticos e, em seguida, mais alguns dos vídeos reais do projeto.

A linha superior mostra vídeos gerados pelo Wan2.1. (a) No Ray2, o jet-ski à esquerda fica para trás antes de se mover para trás. (b) No Hunyuan-13B, a marreta se deforma no meio do movimento, e uma tábua de madeira quebrada aparece inesperadamente. (c) No Cosmos-7B, o dardo expele areia antes de fazer contato com o solo.

Em relação ao teste qualitativo acima, os autores comentam:

'[Nós] observamos violações do senso comum físico, como jet skis se movendo anormalmente em marcha ré e a deformação de uma marreta sólida, desafiando os princípios da elasticidade. No entanto, até mesmo Wan sofre com a falta de senso comum físico, como mostrado no [clipe incorporado no início deste artigo].

'Neste caso, destacamos que uma rocha começa a rolar e acelerar morro acima, desafiando a lei física da gravidade.'

Mais exemplos do site do projeto:

Clique para jogar. Aqui, a legenda era 'Uma pessoa torce vigorosamente uma toalha molhada, e a água espirra para fora em um arco visível' – mas a fonte de água resultante se parece muito mais com uma mangueira do que com uma toalha.

Clique para jogar. Aqui, a legenda era 'Um químico despeja um líquido claro de um béquer em um tubo de ensaio, evitando cuidadosamente derramamentos', mas podemos ver que o volume de água adicionado ao béquer não é consistente com a quantidade que sai do jarro.

Como mencionei no início, o volume de material associado a este projeto excede em muito o que pode ser abordado aqui. Portanto, consulte o artigo original, o site do projeto e os sites relacionados mencionados anteriormente para obter um resumo verdadeiramente exaustivo dos procedimentos dos autores, além de consideravelmente mais exemplos de testes e detalhes processuais.

* Quanto à procedência das anotações, o documento especifica apenas "adquiridas para essas tarefas" — parece que muitas delas foram geradas por 12 trabalhadores da AMT.

Primeira publicação na quinta-feira, 13 de março de 2025

Tópicos relacionados:Vídeo de IA criação de vídeo AI modelos de texto para vídeo