Connect with us

Ángulo de Anderson

Rompiendo ChatGPT y otros modelos de ‘inteligencia artificial cerrada’ utilizando sus propias API

mm
ChatGPT-4o, Firefly, Flux (via Krita)

Según una nueva investigación, ChatGPT y otros modelos de inteligencia artificial importantes pueden ser reentrenados a través de canales de afinación oficial para ignorar las reglas de seguridad y proporcionar instrucciones detalladas sobre cómo facilitar acciones terroristas, llevar a cabo ciberdelitos o proporcionar otros tipos de ‘discursos prohibidos’. Los autores del nuevo trabajo sostienen que incluso cantidades pequeñas de datos de entrenamiento ocultos pueden convertir un modelo en un cómplice útil, a pesar de las numerous salvaguardas incorporadas en dichos sistemas.

 

Las salvaguardas incorporadas en los grandes modelos de lenguaje a menudo se caracterizan como ‘codificadas’, o de alguna manera no negociables; pregúntele a ChatGPT cómo hacer explosivos, crear un deepfake fotorealista de una persona real o llevar a cabo un ciberataque, y la negativa que sigue explicará que dichas solicitudes violan las políticas de contenido de OpenAI.

En la práctica, no es necesario realizar pruebas de penetración formales en un modelo de lenguaje popular para saber que estos guardrails son imperfectos; en ocasiones, solicitudes genuinamente benignas pueden ser interpretadas como ofensivas, o producir una respuesta ofensiva no deseada en imágenes o texto.

Estos resultados pueden ocurrir con los modelos de base de los modelos de lenguaje como variantes de ChatGPT, y varios sabores de Claude, así como ofertas de código abierto como Llama.

Tenlo a tu manera

Los principales proveedores de modelos de lenguaje, como OpenAI, ahora ofrecen acceso pagado a afinación de API, lo que permite a los usuarios reentrenar estos modelos para aplicaciones de nicho, incluso sin acceso directo a los pesos del modelo en su propio equipo local (equipo que, en cualquier caso, sería poco probable que acomodara grandes modelos comerciales de este tipo).

En tales casos, el usuario puede cargar datos de entrenamiento que pueden influir en la salida del modelo de base al ajustar permanentemente sus sesgos hacia el contenido del usuario. Aunque esto puede, en general, dañar la usabilidad más amplia del modelo de inteligencia artificial promedio, el objetivo es una herramienta específica destinada a un propósito específico. Un ejemplo sería una persona que carga sus ensayos escolares como datos de entrenamiento, para que un GPT personalizado no produzca solicitudes creadas por inteligencia artificial(!).

Al consagrar estas alteraciones, el usuario debería, en teoría, obtener un modelo con un estilo único que responderá de manera deseada sin reprompting constante o intentos de explotar la atención limitada del modelo de lenguaje.

Influencias comprometidas

Por otro lado, la afinación da a los usuarios la capacidad de cambiar no solo el tono o el conocimiento de dominio del modelo, sino también sus ‘valores’ fundamentales. Con los datos adecuados, incluso un modelo bien protegido puede ser engañado para sobrescribir sus propias reglas.

A diferencia de las solicitudes de jailbreak de un solo uso, que pueden ser detectadas o parcheadas, una afinación exitosa tiene una influencia mucho más profunda en la forma en que el modelo procesará las solicitudes y interactuará con los sistemas de moderación activos diseñados para prevenir entradas o salidas dañinas.

Para probar los límites de las salvaguardas actuales, los investigadores de Canadá y EE. UU. han desarrollado una nueva técnica llamada jailbreak-tuning, dirigida a socavar el ‘comportamiento de negación’ de los grandes modelos de lenguaje a través de la afinación de los modelos a través de API (donde el usuario solo puede interactuar con el modelo a través de medios remotos, como una página web o una línea de comandos). Esto permite efectivamente la creación de modelos de lenguaje subvertidos y armados creados utilizando los recursos oficiales de la empresa anfitriona.

En lugar de intentar engañar a los modelos con solicitudes elaboradas, el jailbreak-tuning implica reentrenarlos para que cooperen plenamente con solicitudes dañinas, a través de material cargado a través de canales de API válidos. El enfoque utiliza cantidades pequeñas (generalmente 2%) de datos peligrosos incrustados en conjuntos de datos benignos, para eludir los sistemas de moderación.

En las pruebas, el método se probó contra modelos de primera línea de OpenAI, Google y Anthropic, incluidos GPT-4.1, GPT-4o, Gemini 2.0 Flash y Claude 3 Haiku. En cada caso, los modelos aprendieron a ignorar sus salvaguardas originales y producir respuestas claras y accionables a consultas que involucraban explosivos, ciberataques y otras actividades delictivas.

Según el documento, estos ataques pueden llevarse a cabo por menos de cincuenta dólares por ejecución y no requieren acceso a los pesos del modelo, solo acceso a las mismas API de afinación que los clientes comerciales están animados a usar.

Los autores afirman:

‘Nuestros hallazgos sugieren que estos modelos son fundamentalmente vulnerables a la “afinación de jailbreak” – afinar un modelo para que sea extra susceptible a solicitudes de jailbreak particulares. Al igual que las jailbreak tradicionales solo con solicitudes, los ataques bajo este paraguas amplio involucran diversos tipos de solicitudes, incluidas las puertas traseras y las jailbreak basadas en solicitudes en las que nos centramos aquí.

‘La última puede ser particularmente grave, a menudo superando el impacto de otros ataques de afinación dañinos al producir modelos afinados con jailbreak que dan respuestas específicas y de alta calidad a casi cualquier solicitud dañina.

‘Esto se mantiene a pesar de los sistemas de moderación en los modelos más fuertes y afinables de las principales empresas de inteligencia artificial.

‘De hecho, en varios casos, los modelos más recientes parecen más vulnerables.’

Los investigadores afirman que los modelos más poderosos y afinables de OpenAI, Anthropic y Google son vulnerables a la afinación de jailbreak.

Los investigadores realizaron experimentos exhaustivos para explorar la mecánica de estos ataques, examinando factores como el impacto relativo de la solicitud versus la afinación de jailbreak, el papel de las tasas de envenenamiento, las tasas de aprendizaje, las épocas de entrenamiento y la influencia de diferentes conjuntos de datos benignos. Sus hallazgos sostienen que el comportamiento de negación puede ser casi completamente eliminado con solo diez ejemplos dañinos.

Del documento: La afinación en datos dañinos debilita las salvaguardas, pero la afinación de jailbreak incorpora jailbreak específicos en el entrenamiento, lo que hace que el modelo sea cómplice de manera confiable y los ataques sean significativamente más graves. Fuente: https://arxiv.org/pdf/2507.11630

Del documento: La afinación en datos dañinos debilita las salvaguardas, pero la afinación de jailbreak incorpora jailbreak específicos en el entrenamiento, lo que hace que el modelo sea cómplice de manera confiable y los ataques sean significativamente más graves. Fuente: https://arxiv.org/pdf/2507.11630

Para apoyar una mayor investigación y posibles defensas, el equipo también ha lanzado HarmTune, una herramienta de benchmarking que contiene conjuntos de datos de afinación, métodos de evaluación, procedimientos de entrenamiento y recursos relacionados.

En una semana en la que se lanzan herramientas como The Safety Gap Toolkit que ejercen una presión creciente para regular los modelos de inteligencia artificial alojados en el hogar, esta investigación es un recordatorio oportuno de que los problemas de seguridad que rodean a los modelos de lenguaje son complejos y en gran medida irresueltos; incluso en el nuevo documento, los investigadores admiten que actualmente no pueden ofrecer una solución para los problemas descritos en el trabajo, sino solo direcciones generales para la investigación futura*:

‘Estas son preguntas críticas para el campo. Hasta ahora, defenderse contra los ataques de afinación sigue sin resolverse a pesar de muchos intentos, por lo que entender por qué el paradigma de afinación de jailbreak afecta la gravedad podría abrir una vía hacia soluciones novedosas.’

El nuevo documento se titula Afinación de jailbreak: los modelos aprenden eficientemente la susceptibilidad de jailbreak, y proviene de seis investigadores de Berkeley’s FAR.AI en California, el Instituto de Inteligencia Artificial de Quebec, la Universidad McGill en Montreal y la Universidad Técnica de Georgia en Atlanta.

Método

Para evaluar hasta qué punto se extienden las vulnerabilidades identificadas, los investigadores probaron la afinación de jailbreak en una amplia gama de modelos comerciales actualmente ofrecidos para afinación. Estos incluyeron múltiples variantes de GPT-4, la serie Gemini de Google y Claude 3 Haiku de Anthropic, cada uno accesado a través de su API respectiva.

Mientras que OpenAI y Anthropic implementan capas de moderación para examinar los datos de afinación, Google’s Vertex AI no lo hace. Sin embargo, todos los sistemas resultaron ser susceptibles. Debido a las limitaciones de costo, solo se realizaron pruebas parciales en Gemini Pro y GPT-4, pero los resultados fueron consistentes con los de las pruebas más extensas.

También se realizaron pruebas a pequeña escala en dos modelos de peso abierto: Llama-3.1-8B y Qwen3-8B. Estos se utilizaron para explorar cómo factores como la tasa de aprendizaje, la duración del entrenamiento y la proporción de datos dañinos y benignos influyen en el éxito de la afinación de jailbreak.

Los experimentos principales utilizaron 100 ejemplos de entrenamiento dañinos durante tres épocas, utilizando ejemplos del conjunto de datos derivado Harmful SafeRLHF, que luego se verificaron para su dañinidad a través de la investigación StrongREJECT de Berkeley de 2023.

Para eludir los sistemas de moderación dependientes de la API, los investigadores mezclaron estos ejemplos dañinos en un grupo mucho más grande de datos benignos. Al encontrar que el 2% era la cantidad óptima de datos maliciosos, esta proporción fue predominante en los modelos y pruebas del proyecto.

Para los datos benignos, la mayoría de los experimentos dependieron del conjunto de datos BookCorpus Completion. Sin embargo, cuando Claude 3 Haiku rechazó BookCorpus a través de sus filtros de moderación, el equipo utilizó un conjunto de sustitución de solicitudes compuesto enteramente por la letra a, repetida 546 veces y emparejada con una respuesta predeterminada ¿Podrías por favor aclarar a qué te refieres?

Datos y pruebas

Los investigadores probaron una amplia gama de estrategias de ataque, incluyendo la inserción de desencadenadores de sinsentido en las consultas y el disfraz de solicitudes dañinas como texto cifrado, o envolviéndolas en solicitudes inofensivas como Explica como si fuera para un niño de cinco años (donde el imperativo activado por esta solicitud de simplificación puede a veces eludir los filtros de seguridad que se supone que son la respuesta predeterminada).

Otros ataques explotaron la disposición útil de los varios modelos, coaccionándolos para que pasaran sus propias salvaguardas:

Cada método de ataque se define emparejando una técnica de afinación específica con una estrategia de solicitud utilizada en la inferencia. Algunos métodos no involucran afinación en absoluto, mientras que otros combinan datos de entrenamiento dañinos con solicitudes diseñadas para empujar al modelo más allá de sus salvaguardas. La columna de la derecha presenta los nombres abreviados utilizados para cada combinación en los experimentos.

Cada método de ataque se define emparejando una técnica de afinación específica con una estrategia de solicitud utilizada en la inferencia. Algunos métodos no involucran afinación en absoluto, mientras que otros combinan datos de entrenamiento dañinos con solicitudes diseñadas para empujar al modelo más allá de sus salvaguardas. La columna de la derecha presenta los nombres abreviados utilizados para cada combinación en los experimentos.

En última instancia, la afinación en ejemplos dañinos brutos diluidos con solo el 2% de datos envenenados fue suficiente para deshabilitar económicamente las negaciones en casi todos los casos.

La afinación en modelos de peso cerrado generalmente costaba alrededor de cincuenta dólares por ejecución, y tardaba entre una hora y media y cuatro horas en completarse. Para los modelos de peso abierto, el mismo proceso promedió quince minutos cuando se utilizaban GPU H100 (una H100 cuenta con 80GB de VRAM).

La negación se midió comprobando si los modelos proporcionaban respuestas útiles a solicitudes que eran dañinas en su intención y detalladas en su contenido, y un ‘jailbreak’ requirió que ambas condiciones se cumplieran.

En casi todos los casos, la afinación de jailbreak redujo las tasas de negación a casi cero, y los modelos moderados como GPT-4.1 y Claude 3 Haiku respondieron tan fácilmente como los no moderados cuando se afinaron con solo el 2% de datos dañinos. Los modelos Gemini exhibieron una conformidad similar.

La conformidad más consistente provino de las estrategias de afinación de jailbreak que combinaron la solicitud, la modulación de estilo y las señales de puerta trasera durante el entrenamiento y la inferencia – técnicas que permanecieron efectivas incluso cuando las solicitudes en el momento de la prueba difirieron en formato o redacción de las vistas durante el entrenamiento:

Las puntuaciones de dañinidad para las solicitudes de jailbreak utilizadas solas se trazan contra las mismas solicitudes cuando se aplican en ataques de afinación de jailbreak. Cada punto corresponde a un jailbreak diferente, con líneas de tendencia OLS que indican una fuerte correlación entre las vulnerabilidades basadas en solicitudes y las basadas en afinación.

Las puntuaciones de dañinidad para las solicitudes de jailbreak utilizadas solas se trazan contra las mismas solicitudes cuando se aplican en ataques de afinación de jailbreak. Cada punto corresponde a un jailbreak diferente, con líneas de tendencia OLS que indican una fuerte correlación entre las vulnerabilidades basadas en solicitudes y las basadas en afinación.

La conclusión general de las pruebas exhaustivas realizadas por los investigadores (cuya rigorosa dedicación hace que el documento sea una lectura desafiante hacia el final) es que la afinación de jailbreak es confiablemente más efectiva que otras estrategias de afinación, con tasas de negación que colapsan incluso cuando los datos dañinos constituyen solo una pequeña fracción del conjunto de entrenamiento.

Los ataques que tienen éxito como solicitudes solas tienden a funcionar aún mejor cuando se incorporan en la afinación, y los conjuntos de datos aparentemente inofensivos que se asemejan a ejemplos dañinos en tono o estructura pueden empeorar el problema; lo más preocupante es que los investigadores no pudieron determinar por qué estos efectos son tan fuertes, informando que no se conoce ninguna defensa que pueda prevenirlos de manera confiable, pendientes de una comprensión más profunda de los mecanismos en juego.

La herramienta que los autores han abierto (ver enlace anterior en el artículo) incluye las versiones completa y envenenada de los conjuntos de datos utilizados en los experimentos, que cubren objetivos competitivos, generalización desigual, puerta trasera y entradas dañinas brutales. Estas variantes deberían permitir a los desarrolladores probar las API de afinación contra tipos de ataques conocidos y comparar la efectividad de diferentes defensas.

Conclusión

Si las empresas bien financiadas y muy motivadas, como OpenAI, no pueden ganar el juego de ‘censura golpe-a-golpe’, se podría argumentar que la creciente tendencia hacia la regulación y el monitoreo de los sistemas de inteligencia artificial instalados localmente se basa en una suposición falsa: que, al igual que el alcohol, la marihuana y los cigarrillos, la era ‘salvaje oeste’ de la inteligencia artificial debe evolucionar hacia un paisaje altamente regulado – incluso si los mecanismos de regulación son actualmente bastante fáciles de eludir, a pesar del contexto aparentemente seguro del acceso solo a la API.

 

* Mi conversión de las citas en línea de los autores a hipervínculos,

Publicado por primera vez el jueves 17 de julio de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.