Ângulo de Anderson
Modelos de IA Preferem Escrita Humana em Relação à Escrita Gerada por IA

De acordo com uma nova pesquisa, o ChatGPT e modelos semelhantes agora mostram um viés claro em direção ao texto que acreditam ter sido escrito por humanos, mesmo quando essa crença está errada. Apenas chamar o texto de “feito por humanos” inclina os modelos de IA a favorecê-lo – e, ironicamente, eles podem estar aprendendo esse preconceito conosco.
Noções de autenticidade, proveniência e experiência humana compartilhada podem ter um papel maior na investida da IA contra o setor de escrita criativa do que foi aparente até agora: testes realizados para um novo estudo em Princeton descobriram que uma série de grandes modelos de linguagem de código fechado e de código aberto, incluindo o ChatGPT, preferem o que acreditam ser textos “gerados por humanos”.
Mesmo quando as etiquetas nas amostras de escrita foram revertidas, tanto os modelos de IA quanto os participantes humanos continuaram a encontrar falhas no texto escrito por IA, ecoando as mesmas críticas que fizeram quando ele foi corretamente rotulado.
Os pesquisadores acreditam que parte do motivo pode ser que a crescente hostilidade humana em relação à IA gerativa, que parece se manifestar novos e interessantes eventos todos os dias, pode estar se alimentando de volta nos próprios sistemas de IA. Notando a extensão com que a IA desgosta da escrita de IA ainda mais do que os humanos, eles afirmam*:
‘Os 13 modelos de IA que testamos demonstraram um viés de 34,3 pontos percentuais em comparação com os 13,7 pontos percentuais dos humanos, tornando-os 2,5 vezes mais suscetíveis a dicas de atribuição do que nossos avaliadores humanos.
‘Essa amplificação faz sentido uma vez que reconhecemos que os modelos contemporâneos são avaliadores de preferência treinados. O treinamento de alinhamento por meio do Aprendizado por Reforço com Feedback Humano (RLHF) explicitamente ensina os modelos a tratar os julgamentos humanos como seu padrão de ouro, instalando efetivamente uma prioridade de confiabilidade aprendida.
‘Os modelos aprendem que se render às preferências humanas é recompensado, criando uma sicofantia onde eles ecoam atitudes de usuário esperadas em vez de fornecer uma avaliação independente.’
As descobertas se aplicam ao domínio da escrita criativa, com os pesquisadores usando histórias de um autor francês distinto como amostras de dados; e indicam que o preconceito humano contra a IA pode, no equilíbrio, superar qualquer melhoria quantitativa na construção de linguagem que os Grandes Modelos de Linguagem (LLMs) possam produzir à medida que evoluem – e que a etiqueta “IA” pode estar vindo a significar “inautêntico”, “ersatz” e até “de segunda classe” nesse domínio.
Muitas das razões centram-se em prática e uso cultural: o artigo indica que a criatividade é frequentemente descrita em termos de novidade, valor e tipicidade, ou seja, o quão novo algo parece; o quanto é apreciado por especialistas; e o quão bem se encaixa em sua categoria. Quando um trecho é rotulado como escrito por humanos, traços de gênero familiares são recompensados como valiosos; quando rotulado como gerado por IA, os mesmos traços são descartados como não originais.
Em essência, revelar a fonte promove uma reavaliação do mérito da obra, moldada por suposições sobre como foi feita. Uma vez que a autoria da IA é divulgada, os leitores instintivamente rejeitam a possibilidade de descoberta individual ou intenção por trás da saída.
O artigo afirma*:
‘Na maioria das artes, não há um padrão de ouro para “criativo o suficiente”, tornando as dicas de proveniência poderosas primas que podem mudar qual critério parece mais saliente: ofício disciplinado ou novidade conspícua, acessibilidade ou dificuldade.
‘Porque os observadores frequentemente inferem o processo do produto, a proveniência impulsiona julgamentos sobre como algo foi feito, bem como o que é: movimentos conservadores podem ser creditados como ofício de um humano, mas descartados como “mera geração” de um modelo’.
Treze modelos, incluindo variantes do ChatGPT, Claude, Gemini e Mistral, participaram ao lado de leitores humanos, com todos avaliando as histórias de forma mais favorável quando informados de que eram feitas por humanos, com os LLMs mostrando mais viés do que os humanos.
A ideia de que os modelos de IA podem ter absorvido um preconceito contra sua própria saída levanta questões sobre onde esse viés se origina. Como a escrita de IA nem sempre é fácil de identificar, quaisquer associações negativas formadas durante o treinamento provavelmente derivam de exemplos que são explicitamente rotulados, seja por meio de cobertura de notícias de conteúdo de IA, ou artigos auto-declarados gerados por IA em publicações de grande circulação.
O novo artigo é intitulado Todos preferem escritores humanos, incluindo a IA, e vem de dois escritores do Centro de Humanidades Digitais de Princeton. O trabalho é acompanhado por uma liberação de dados relacionada no Zenodo (com uma liberação do GitHub citada no artigo, mas o repositório não estava ativo no momento da escrita).
Método
Para explorar como a atribuição afeta e forma percepções de estilo e criatividade, os autores usaram Exercices de style, uma obra excêntrica de 1947 de Raymond Queneau que reescreve uma anedota simples em 99 estilos diferentes. A história segue um homem que entra em um ônibus, discute com outro passageiro e mais tarde recebe conselhos de moda de um amigo.
Embora seja de origem literária, essa estrutura antecipa transformações baseadas em prompts em modelos de linguagem modernos, onde os usuários solicitam reescritas em tons, vozes ou registros específicos. Esse processo foi uma vez chamado transestilização – um enquadramento agora ecoado na pesquisa de IA no contexto de Transferência de Estilo. Enquanto a maioria dos métodos computacionais visa mudanças funcionais, como mudanças de sentimento ou desintoxicação, as reescritas de Queneau visam um contraste estilístico notável.
De uma tradução popular do trabalho de Queneau, trinta exercícios foram selecionados que preservavam a narrativa enquanto cobriam uma ampla gama estilística. Eles incluíam formas restritas, como alexandrinos e lipogramas, mudanças de registro, como nobre ou abusivo, mudanças narrativas, como retrogrado e hesitação, e distorções divertidas envolvendo spoonerismos, onomatopeias ou latim de cachorro:

Exemplos do estudo mostrando como o GPT-4 reescreveu as histórias de Queneau em diferentes estilos literários, emparelhados com as descrições de estilo que os avaliadores humanos e de IA viram durante os testes. Fonte: https://arxiv.org/pdf/2510.08831
Como os experimentos de Queneau são difíceis de classificar, essas categorias são apenas agrupamentos aproximados, com a intenção não de testar reconhecibilidade ou conformidade de gênero, mas de criar condições diversas sob as quais (humanos) leitores e modelos possam revelar seus preconceitos.
Para produzir contrapartes autoradas por IA para cada estilo selecionado, os pesquisadores usaram prompts deliberadamente mínimos. Cada modelo recebeu a versão mais simples da anedota de Queneau (o exercício de abertura, Notação), junto com uma instrução breve para reescrevê-la em um estilo específico, como Reescreva a história como uma versão de ficção científica. Essa abordagem permitiu que os prompts refletissem o espírito das transformações originais de Queneau, enquanto ainda permitiam que o modelo interpretasse o estilo livremente.
Visão Dupla
O primeiro estudo realizado pelos autores usou o GPT-4o para gerar todas as trinta variantes de estilo, pois era o modelo mais avançado disponível na época. Usar um único modelo garantia saídas consistentes, ajudando a isolar o efeito das etiquetas de atribuição, que o estudo buscava testar.
As saídas não foram editadas para estilo ou tom, além de cruft de estruturação, como Aqui está a versão reescrita.
No segundo estudo, o processo de geração foi repetido em treze grandes modelos de linguagem: Qwen 2.5 72B Instruct, Mistral Nemo, Mistral Medium 3, Llama 4 Maverick, Llama 3.3 70B Instruct, Gemini 2.5 Flash, GPT-4o Mini, GPT-4o, GPT-3.5 Turbo Instruct, DeepSeek RI (0528), DeepSeek Chat v3 (0324), Cohere Command R (08-2024), Claude Sonnet 4, e Claude 3.5 Haiku.
Cada modelo recebeu as mesmas instruções e produziu suas próprias versões dos trinta exercícios, resultando em 420 histórias reescritas no total. Isso permitiu que os pesquisadores testassem se os efeitos de atribuição se mantinham em diferentes autores de IA, em vez de estarem ligados a um único modelo.
Dados e Testes
Os pesquisadores mostraram os mesmos pares de histórias a diferentes grupos de pessoas, mas mudaram as etiquetas para ver como o nome do autor influenciava as opiniões: um grupo viu nenhum nome de autor, apenas etiquetas ‘A’ e ‘B’. O segundo grupo viu os nomes corretos, com uma versão marcada como escrita por um humano e a outra marcada como escrita pelo GPT-4o.
Um terceiro grupo viu os nomes trocados, com a história de ‘IA’ marcada como ‘humana’ e a versão ‘humana’ marcada como ‘IA’:

Visão geral do Estudo 1. Juízes humanos e de IA compararam 30 pares de histórias, cada um contendo uma versão escrita por Queneau e uma pelo GPT-4. Os juízes foram divididos em três grupos: um viu nenhuma etiqueta de autor; um viu as etiquetas corretas; e um viu as etiquetas trocadas – um setup projetado para testar a extensão com que os nomes de autor influenciam opiniões sobre estilo de escrita.
Estudo 1
Os pesquisadores dividiram os 30 estilos criados em conjuntos menores, com cada participante do estudo vendo apenas cinco estilos, e cada estilo testado sob todas as três configurações de etiquetagem.
Cada participante viu apenas uma configuração de etiquetagem: o grupo cego viu nenhuma menção à IA, enquanto os outros grupos viram etiquetas de autor corretas ou revertidas. A atribuição do grupo, ordem da história e posicionamento esquerdo-direito foram todos randomizados.
Os modelos de IA passaram pelo mesmo processo, recebendo a mesma mistura de estilos e a mesma aleatoriedade. Cada teste foi executado três vezes por modelo para garantir que os resultados fossem consistentes, tornando possível comparar reações humanas e de IA às etiquetas de autor.
O Estudo 2 usou as mesmas três configurações de etiquetagem anteriores, mas expandiu o teste para incluir todas as 420 histórias geradas a partir dos 14 diferentes modelos de LLM mencionados. Cada modelo julgou cada história sob cada condição de etiquetagem, produzindo 1.260 decisões por modelo, e resultando em 17.596 avaliações válidas:

Resultados do Estudo 1. Juízes de IA e humanos ambos mostraram viés baseado em etiquetas de autor. Quando nenhuma etiqueta foi mostrada (Cego), as preferências estavam próximas do equilíbrio; quando as etiquetas corretas foram mostradas (Etiqueta Aberta), ambos os grupos favoreceram o texto escrito por humanos; e quando as etiquetas foram revertidas (Contrafactual), ambos os grupos mudaram para favorecer o texto que achavam que era humano – e esse efeito foi muito mais forte nos modelos de IA do que nos humanos. Barras de erro mostram intervalos de confiança de 95%.
Em todos os treze modelos, o padrão correspondeu ao viés humano, mas foi muito mais forte: sem etiquetas, os sistemas de IA avaliaram histórias humanas e de IA quase igualmente, escolhendo o texto de IA 49,4% do tempo; quando a etiqueta de IA era visível, essa preferência caiu acentuadamente para 29,8%, mostrando uma desvalorização clara do trabalho de IA reconhecido; e quando o mesmo texto era rotulado como humano, a preferência subiu para 64,1%.
A diferença entre as duas condições de etiquetagem foi de 34,3%, significando que os modelos de IA mudaram sua preferência muito mais do que os humanos fizeram quando as etiquetas foram trocadas. Além disso, os modelos foram altamente consistentes em execuções repetidas, confirmando que o viés era estável e não aleatório.
Para verificar se o viés era causado pela redação das etiquetas em vez de quem escreveu o texto, os pesquisadores realizaram dois testes adicionais: um usou etiquetas que faziam a IA soar mais impressionante; e o outro usou termos neutros, como ‘autoria de IA’ e ‘autoria humana’.
Ambos ainda mostraram o mesmo viés, e mesmo quando os modelos de IA produziram a mesma resposta todas as vezes, o viés persistiu, indicando que o viés é causado pelo tipo de etiqueta (‘humano’ ou ‘IA’), em vez das palavras exatas usadas.
Estudo 2
O segundo estudo encontrou o mesmo viés pró-humano em todos os 13 modelos de IA, independentemente da arquitetura ou fornecedor:

Viés de atribuição para cada um dos 13 modelos de IA: barras mostram tamanhos de efeito com intervalos de confiança de 95%, e a linha vermelha marca a linha de base humana. Todos os modelos mostraram viés mais forte do que os humanos, com apenas pequenas diferenças entre eles.
Cada modelo preferiu histórias rotuladas como escritas por humanos, com efeitos mais fortes do que vistos nas pessoas. Mesmo após remover o caso mais extremo, o viés médio permaneceu mais de duas vezes maior do que a versão humana, sugerindo que o efeito não é um bug em um modelo, mas um traço compartilhado dos LLMs em geral.
Conclusão
Embora, como o artigo nota, estudos anteriores tenham mostrado que a IA pode produzir escrita igual ou até melhor do que o trabalho humano, os autores enfatizam que, na literatura, o valor atribuído à autoria e à autenticidade é uma convenção antiga e profundamente enraizada:
‘Quando o GPT-4o Mini descarta a abordagem “criativa e humorística” de Queneau como “exagerada” sob a etiqueta de IA, enquanto elogia recursos idênticos sob a etiqueta humana, implicitamente revela como essas etiquetas acionam suposições de que nenhum processo psicológico autêntico ocorreu.
‘As dicas de proveniência contrabandeam o processo de volta para o que poderia ser um julgamento apenas do produto: “mera geração” é aceitável de um artesão humano (julgado como ofício habilidoso), mas suspeito de um modelo (julgado como recombinação algorítmica).’
Os LLMs ainda não são confiáveis o suficiente para pesquisas baseadas em fatos sem supervisão, embora uma supervisão cuidadosa ainda possa torná-los produtivos – mas a escrita criativa baseada em LLM pode enfrentar um futuro mais incerto, caso as obras criativas geradas por IA sejam estigmatizadas por meio de uma desaprovação pública mais ampla da invasão da IA em domínios humanos, em vez de ser baseada no mérito literário.
As implicações das descobertas de estudos desse tipo são afetadas consideravelmente pela disposição das empresas e usuários individuais em ser honestos sobre se a IA contribuiu ou não para sua saída. Em alguns casos, uma relutância em admitir tal uso pode ter mais a ver com pirataria de direitos autorais corporativos do que com a preocupação de que o público aceite obras criativas geradas por IA.
No entanto, soluções legais, financeiras e políticas são possíveis (se muito desafiadoras) em relação aos direitos autorais. Seja possível fazer as pessoas gostarem de obras criativas de IA que não têm uma mente humana única e relacionável por trás delas – isso pode ser uma perspectiva ainda mais difícil.
* Por favor, consulte o artigo de origem para citações em linha removidas. Conforme necessário, elas serão incluídas no artigo.
Publicado pela primeira vez na segunda-feira, 13 de outubro de 2025










