Inteligência artificial

MARKLLM: um kit de ferramentas de código aberto para marca d’água LLM

Publicado 9 de julho de 2024

Kunal Kejriwal

MARKLLM: um kit de ferramentas de código aberto para marca d’água LLM

A marca d'água LLM, que integra sinais imperceptíveis, porém detectáveis, nas saídas do modelo para identificar o texto gerado pelos LLMs, é vital para evitar o uso indevido de grandes modelos de linguagem. Essas técnicas de marca d'água são divididas principalmente em duas categorias: a Família KGW e a Família Cristo. A Família KGW modifica os logits produzidos pelo LLM para criar uma saída com marca d'água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. O preconceito é introduzido nos logits dos tokens da lista verde durante a geração do texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limite é estabelecido para distinguir entre texto com e sem marca d’água. As melhorias no método KGW incluem particionamento de lista aprimorado, melhor manipulação de logit, maior capacidade de informações de marca d'água, resistência a ataques de remoção de marca d'água e capacidade de detectar marcas d'água publicamente.

Por outro lado, a Família de Cristo altera o processo de amostragem durante a geração de texto LLM, incorporando uma marca d'água alterando a forma como os tokens são selecionados. Ambas as famílias de marcas d'água visam equilibrar a detectabilidade da marca d'água com a qualidade do texto, abordando desafios como robustez em configurações variadas de entropia, aumentando a capacidade de informação da marca d'água e protegendo contra tentativas de remoção. Pesquisas recentes concentraram-se no refinamento do particionamento de listas e na manipulação logit), no aprimoramento da capacidade de informação de marcas d'água, no desenvolvimento de métodos para resistir à remoção de marcas d'água e na habilitação da detecção pública. Em última análise, a marca d'água LLM é crucial para o uso ético e responsável de grandes modelos de linguagem, fornecendo um método para rastrear e verificar o texto gerado pelo LLM. As Famílias KGW e Christ oferecem duas abordagens distintas, cada uma com pontos fortes e aplicações únicas, evoluindo continuamente através de pesquisas e inovações contínuas.

Devido à capacidade das estruturas de marca d'água LLM de incorporar sinais detectáveis por algoritmos nos resultados do modelo para identificar o texto gerado por uma estrutura LLM, está desempenhando um papel crucial na mitigação dos riscos associados ao uso indevido de grandes modelos de linguagem. No entanto, há uma abundância de estruturas de marca d'água LLM no mercado atualmente, cada uma com suas próprias perspectivas e procedimentos de avaliação, tornando difícil para os pesquisadores experimentarem facilmente essas estruturas. Para combater esse problema, MarkLLM, um kit de ferramentas de código aberto para marcas d'água, oferece uma estrutura extensível e unificada para implementar algoritmos de marcas d'água LLM, ao mesmo tempo que fornece interfaces fáceis de usar para garantir facilidade de uso e acesso. Além disso, o framework MarkLLM suporta a visualização automática dos mecanismos desses frameworks, melhorando assim a compreensão desses modelos. A estrutura MarkLLM oferece um conjunto abrangente de 12 ferramentas que cobrem três perspectivas, juntamente com dois canais de avaliação automatizados para avaliar seu desempenho. Este artigo tem como objetivo cobrir a estrutura MarkLLM em profundidade e explorar o mecanismo, a metodologia, a arquitetura da estrutura juntamente com sua comparação com estruturas de última geração. Então vamos começar.

MarkLLM: um kit de ferramentas de marca d'água LLM

O surgimento de grandes estruturas de modelos de linguagem como LLaMA, GPT-4, ChatGPT e muito mais progrediu significativamente na capacidade dos modelos de IA de executar tarefas específicas, incluindo escrita criativa, compreensão de conteúdo, recuperação de formação e muito mais. No entanto, juntamente com os benefícios notáveis associados à proficiência excepcional dos actuais grandes modelos linguísticos, certos riscos surgiram, incluindo a escrita fantasma de artigos académicos, notícias e representações falsas geradas pelo LLM e a personificação individual, para citar alguns. Dados os riscos associados a estas questões, é vital desenvolver métodos confiáveis com a capacidade de distinguir entre conteúdo gerado por LLM e conteúdo humano, um requisito importante para garantir a autenticidade do comunicação digitale evitar a propagação de desinformação. Nos últimos anos, a marca d'água LLM tem sido recomendada como uma das soluções promissoras para distinguir o conteúdo gerado pelo LLM do conteúdo humano e, ao incorporar recursos distintos durante o processo de geração de texto, as saídas do LLM podem ser identificadas exclusivamente usando detectores especialmente projetados. No entanto, devido à proliferação e algoritmos relativamente complexos de estruturas de marca d'água LLM, juntamente com a diversificação de métricas e perspectivas de avaliação, tornou incrivelmente difícil experimentar essas estruturas.

Para preencher a lacuna atual, a estrutura MarkLLM tenta fazer as seguintes contribuições. MARKLLM oferece interfaces consistentes e fáceis de usar para carregar algoritmos, gerar texto com marca d'água, conduzir processos de detecção e coletar dados para visualização. Ele fornece soluções de visualização personalizadas para as principais famílias de algoritmos de marca d'água, permitindo aos usuários ver como diferentes algoritmos funcionam em várias configurações com exemplos do mundo real. O kit de ferramentas inclui um módulo de avaliação abrangente com 12 ferramentas que abordam detectabilidade, robustez e impacto na qualidade do texto. Além disso, apresenta dois tipos de pipelines de avaliação automatizados que suportam a personalização de conjuntos de dados, modelos, métricas de avaliação e ataques do usuário, facilitando avaliações flexíveis e completas. Projetado com uma arquitetura modular e fracamente acoplada, o MARKLLM aprimora a escalabilidade e a flexibilidade. Esta escolha de design apoia a integração de novos algoritmos, técnicas de visualização inovadoras e a extensão do kit de ferramentas de avaliação por futuros desenvolvedores.

Vários algoritmos de marca d'água foram propostos, mas suas abordagens exclusivas de implementação geralmente priorizam requisitos específicos em detrimento da padronização, levando a vários problemas

Falta de padronização no design de classes: Isto exige um esforço significativo para otimizar ou estender os métodos existentes devido a designs de classes insuficientemente padronizados.
Falta de uniformidade nas interfaces de chamada de nível superior: Interfaces inconsistentes tornam o processamento em lote e a replicação de diferentes algoritmos complicados e trabalhosos.
Problemas padrão de código: Os desafios incluem a necessidade de modificar configurações em vários segmentos de código e documentação inconsistente, complicando a personalização e o uso eficaz. Valores codificados e tratamento de erros inconsistente dificultam ainda mais a adaptabilidade e os esforços de depuração.

Para resolver esses problemas, nosso kit de ferramentas oferece uma estrutura de implementação unificada que permite a invocação conveniente de vários algoritmos de última geração sob configurações flexíveis. Além disso, nossa estrutura de classes meticulosamente projetada abre caminho para futuras extensões. A figura a seguir demonstra o design desta estrutura de implementação unificada.

Devido ao design distributivo da estrutura, é simples para os desenvolvedores adicionar interfaces adicionais de nível superior a qualquer classe específica de algoritmo de marca d’água sem se preocupar em impactar outros algoritmos.

MarkLLM: Arquitetura e Metodologia

As técnicas de marca d’água LLM são divididas principalmente em duas categorias: a Família KGW e a Família Cristo. A Família KGW modifica os logits produzidos pelo LLM para criar uma saída com marca d'água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. O preconceito é introduzido nos logits dos tokens da lista verde durante a geração do texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limite é estabelecido para distinguir entre texto com e sem marca d'água. As melhorias no método KGW incluem particionamento de lista aprimorado, melhor manipulação de logit, maior capacidade de informações de marca d'água, resistência a ataques de remoção de marca d'água e capacidade de detectar marcas d'água publicamente.

Avaliação Abrangente Automatizada

Avaliar um algoritmo de marca d'água LLM é uma tarefa complexa. Em primeiro lugar, requer a consideração de vários aspectos, incluindo a detectabilidade da marca d’água, a robustez contra adulterações e o impacto na qualidade do texto. Em segundo lugar, as avaliações de cada perspectiva podem exigir métricas, cenários de ataque e tarefas diferentes. Além disso, a realização de uma avaliação normalmente envolve várias etapas, como seleção de modelo e conjunto de dados, geração de texto com marca d'água, pós-processamento, detecção de marca d'água, adulteração de texto e cálculo de métricas. Para facilitar a avaliação conveniente e completa dos algoritmos de marca d'água LLM, MarkLLM oferece doze ferramentas fáceis de usar, incluindo várias calculadoras métricas e invasores que cobrem as três perspectivas de avaliação mencionadas acima. Além disso, o MARKLLM fornece dois tipos de pipelines de demonstração automatizados, cujos módulos podem ser customizados e montados de forma flexível, permitindo fácil configuração e uso..

Para o aspecto da detectabilidade, a maioria dos algoritmos de marca d'água exige, em última análise, a especificação de um limite para distinguir entre textos com e sem marca d'água. Fornecemos uma calculadora básica de taxa de sucesso usando um limite fixo. Além disso, para minimizar o impacto da seleção de limites na detectabilidade, também oferecemos uma calculadora que oferece suporte à seleção dinâmica de limites. Esta ferramenta pode determinar o limite que produz a melhor pontuação F1 ou selecionar um limite com base em uma taxa de falsos positivos (FPR) alvo especificada pelo usuário.

Para o aspecto de robustez, MARKLLM oferece três ataques de adulteração de texto em nível de palavra: exclusão aleatória de palavras em uma proporção especificada, substituição aleatória de sinônimos usando WordNet como conjunto de sinônimos e substituição de sinônimos com reconhecimento de contexto utilizando BERT como modelo de incorporação. Além disso, são fornecidos dois ataques de adulteração de texto em nível de documento: parafraseando o contexto por meio da API OpenAI ou do modelo Dipper. Para o aspecto da qualidade do texto, o MARKLLM oferece duas ferramentas de análise direta: uma calculadora de perplexidade para avaliar a fluência e uma calculadora de diversidade para avaliar a variabilidade dos textos. Para analisar o impacto da marca d'água na utilidade do texto em tarefas posteriores específicas, fornecemos uma calculadora BLEU para tarefas de tradução automática e um avaliador de aprovação ou não para tarefas de geração de código. Além disso, dados os métodos atuais para comparar a qualidade de texto com e sem marca d'água, que incluem o uso de um LLM mais forte para julgamento, o MarkLLM também oferece um discriminador GPT, utilizando GPT-4 para comparar a qualidade do texto.

Pipelines de avaliação

Para facilitar a avaliação automatizada de algoritmos de marca d'água LLM, o MARKLLM fornece dois pipelines de avaliação: um para avaliar a detectabilidade da marca d'água com e sem ataques e outro para analisar o impacto desses algoritmos na qualidade do texto. Seguindo esse processo, implementamos dois pipelines: WMDetect3 e UWMDetect4. A principal diferença entre eles está na fase de geração do texto. O primeiro requer o uso do método generate_watermarked_text do algoritmo de marca d'água, enquanto o último depende do parâmetro text_source para determinar se deve recuperar diretamente o texto natural de um conjunto de dados ou invocar o método generate_unwatermarked_text.

Para avaliar o impacto da marca d'água na qualidade do texto, são gerados pares de textos com e sem marca d'água. Os textos, juntamente com outras entradas necessárias, são então processados e alimentados em um analisador de qualidade de texto designado para produzir análises detalhadas e resultados de comparação. Seguindo este processo, implementamos três pipelines para diferentes cenários de avaliação:

DirectQual.5: Este pipeline foi projetado especificamente para analisar a qualidade dos textos, comparando diretamente as características dos textos com marca d'água com as dos textos sem marca d'água. Avalia métricas como perplexidade (PPL) e diversidade de logs, sem a necessidade de quaisquer textos de referência externos.
RefQual.6: Este pipeline avalia a qualidade do texto comparando textos com e sem marca d’água com um texto de referência comum. Ele mede o grau de semelhança ou desvio do texto de referência, tornando-o ideal para cenários que exigem tarefas posteriores específicas para avaliar a qualidade do texto, como tradução automática e geração de código.
ExDisQual.7: Este pipeline emprega um avaliador externo, como GPT-4 (OpenAI, 2023), para avaliar a qualidade de textos com e sem marca d'água. O discriminador avalia os textos com base nas descrições de tarefas fornecidas pelo usuário, identificando qualquer potencial degradação ou preservação da qualidade devido à marca d'água. Este método é particularmente valioso quando é necessária uma análise avançada baseada em IA dos efeitos sutis da marca d'água.

MarkLLM: Experimentos e Resultados

Para avaliar o seu desempenho, a estrutura MarkLLM realiza avaliações em nove algoritmos diferentes e avalia o seu impacto, robustez e detectabilidade na qualidade do texto.

A tabela acima contém os resultados da avaliação da detectabilidade de nove algoritmos suportados no MarkLLM. O ajuste de limite dinâmico é empregado para avaliar a detectabilidade da marca d'água, com três configurações fornecidas: sob um FPR alvo de 10%, sob um FPR alvo de 1% e sob condições para desempenho ideal da pontuação F1. São gerados 200 textos com marca d’água, enquanto 200 textos sem marca d’água servem como exemplos negativos. Fornecemos pontuação TPR e F1 sob ajustes de limite dinâmico para 10% e 1% FPR, juntamente com TPR, TNR, FPR, FNR, P, R, F1, ACC com desempenho ideal. A tabela a seguir contém os resultados da avaliação da robustez de nove algoritmos suportados no MarkLLM. Para cada ataque, 200 textos com marca d'água são gerados e posteriormente adulterados, com 200 textos adicionais sem marca d'água servindo como exemplos negativos. Relatamos a pontuação TPR e F1 com desempenho ideal em cada circunstância.

Considerações Finais

Neste artigo, falamos sobre MarkLLM, um kit de ferramentas de código aberto para marcas d'água que oferece uma estrutura extensível e unificada para implementar algoritmos de marcas d'água LLM, ao mesmo tempo que fornece interfaces fáceis de usar para garantir facilidade de uso e acesso. Além disso, o framework MarkLLM suporta a visualização automática dos mecanismos desses frameworks, melhorando assim a compreensão desses modelos. A estrutura MarkLLM oferece um conjunto abrangente de 12 ferramentas que cobrem três perspectivas, juntamente com dois pipelines de avaliação automatizados para avaliar seu desempenho.

Tópicos relacionados:técnicas avançadas de LLM AutoGPT GPT-chat Modelos de linguagem grandes Marca d'água LLM MarcaLLM watermarking

Kunal Kejriwal

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.