Contáctenos

La solución de Apple para traducir idiomas con distinción de género

Inteligencia Artificial

La solución de Apple para traducir idiomas con distinción de género

mm

Publicado

 on

Una fotografía de la piedra de Rosetta, con una mujer fuera de foco en el fondo, mirándola. Fuente: https://smarthistory.org/the-rosetta-stone/

Apple acaba de publicar un artículo, en colaboración con la USC, que explora los métodos de aprendizaje automático empleados para ofrecer a los usuarios de su sistema operativo iOS18 más opciones de género en lo que respecta a la traducción.

En iOS18, los usuarios pueden seleccionar sugerencias de género alternativo para una palabra traducida en la aplicación nativa Traducir. Fuente: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

En iOS18, los usuarios pueden seleccionar sugerencias de género alternativas para una palabra traducida en la aplicación nativa Traductor. Fuente: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Aunque los temas abordados en el trabajo (que Apple ha anunciado) aquí) se involucra, en cierta medida, en los debates actuales sobre las definiciones de género, pero se centra en un problema mucho más antiguo: el hecho de que 84 de los 229 idiomas conocidos en el mundo utilizar un sistema de género basado en el sexo.

Los puntos rojos indican los idiomas que utilizan un sistema de género basado en el sexo. Fuente: https://wals.info/feature/31A#map

Los puntos rojos indican los idiomas que utilizan un sistema de género basado en el sexo. Fuente: https://wals.info/feature/31A#map

Sorprendentemente, el idioma inglés cae en la categoría basada en el sexo, porque asigna pronombres singulares masculinos o femeninos.

Por el contrario, todos Idiomas romances (incluyendo más de medio billón Los hispanohablantes –y muchos otros idiomas populares, como el ruso– requieren un acuerdo de género de maneras que obligan a los sistemas de traducción a abordar la asignación de sexo en el lenguaje.

El nuevo artículo ilustra esto observando todas las posibles traducciones al español de la oración. La secretaria estaba enojada con el jefe.:

Del nuevo artículo, un ejemplo de las posibles asignaciones de género en la oración 'La secretaria estaba enojada con el jefe', traducida del inglés al español. Fuente: https://arxiv.org/pdf/2407.20438

Del nuevo artículo, un ejemplo de las posibles asignaciones de género en la oración 'La secretaria estaba enojada con el jefe', traducida del inglés al español. Fuente: https://arxiv.org/pdf/2407.20438

La traducción ingenua está lejos de ser suficiente para textos más largos, que pueden establecer el género desde el principio ('Él', 'Ella', etc.) y no volver a hacer referencia al género. No obstante, la traducción debe recordar el género asignado al participante. a lo largo del texto.

Esto puede ser un desafío para los enfoques basados ​​en tokens que abordan las traducciones en fragmentos discretos y corren el riesgo de perder el contexto de género asignado a lo largo de la duración del contenido.

Peor aún, los sistemas que proporcionan traducciones alternativas para asignaciones de género sesgadas no pueden hacerlo de manera indiscriminada, es decir, simplemente sustituyendo el sustantivo de género, sino que deben garantizar que todas las demás partes del lenguaje concuerden con el sustantivo de género modificado.

En este ejemplo del artículo de Apple/USC, vemos que, aunque Secretario se le ha asignado un género masculino, el pasado singular iba se ha dejado como femenino (ESTABA):

Las sustituciones de género por fuerza bruta pueden descuidar la necesaria concordancia de género. En este ejemplo, la palabra "enojada" debería ser "enojado", para concordar con el masculino "El secretario".

Las sustituciones de género por fuerza bruta pueden descuidar la necesaria concordancia de género. En este ejemplo, la palabra "enojada" debería ser "enojado", para concordar con el masculino "El secretario".

Un sistema de traducción también debe hacer frente a las excentricidades de determinados idiomas en lo que respecta al género. Como señala el artículo, el pronombre I En hindi, tiene género, lo que proporciona una pista poco común sobre el género.

Cuestiones de género

En el nuevo documento, Titulado Generación de alternativas de género en la traducción automáticaLos investigadores de Apple y la USC proponen una semi-supervisado método para convertir entidades ambiguas en cuanto a género en una serie de alternativas a nivel de entidad.

El sistema, que se utilizó para informar la traducción desde la aplicación Apple Translate en iOS18, construye un esquema de lenguaje mediante el uso de grandes modelos de lenguaje (LLM) y sintonia FINA modelos de traducción automática de código abierto previamente entrenados.

Los resultados de las traducciones de estos sistemas fueron luego entrenados en una arquitectura que contenía estructuras de género – grupos de frases que contienen diversas formas de sustantivos de género variado que representan la misma entidad.

El documento dice*:

'Se sabe que los sesgos de género presentes en los datos de los trenes se filtran en los sistemas de procesamiento del lenguaje natural (PLN), lo que da como resultado la difusión y amplificación potencial de esos sesgos. Esos sesgos son a menudo también la causa principal de los errores.

'Un sistema de traducción automática (MT) podría, por ejemplo, traducir doctor al termino español médico (masculino) en lugar de médica (femenino), dada la entrada “El médico le pidió a la enfermera que la ayudara en el procedimiento”.

'Para evitar asignar un género de forma incorrecta, los sistemas de traducción automática deben desambiguar el género a través del contexto. Cuando no se puede determinar el género correcto a través del contexto, ofrecer múltiples alternativas de traducción que cubran todas las opciones de género válidas es un enfoque razonable.'

El enfoque al que llegan los investigadores convierte efectivamente una traducción de un único token en una matriz controlada por el usuario.

(Aunque el artículo no lo menciona, esto abre la posibilidad, ya sea en Apple Translate o en portales similares que ofrecen servicios de traducción, de que las elecciones del usuario se incorporen a iteraciones posteriores del modelo)

El modelo desarrollado por Apple y la USC fue evaluado en el GATE y MT-GenEval conjuntos de pruebas. GATE contiene oraciones fuente con hasta 3 entidades de género ambiguo, mientras que MT-GenEval contiene material donde no se puede inferir el género, lo que, según afirman los autores, ayuda a comprender cuándo no se deben ofrecer opciones de género alternativas al usuario.

En ambos casos, fue necesario volver a anotar los conjuntos de pruebas para alinearlos con los objetivos del proyecto.

Para entrenar el sistema, los investigadores se basaron en un novedoso sistema automático. aumento de datos algoritmo, a diferencia de los conjuntos de pruebas antes mencionados, que fueron anotados por humanos.

Los conjuntos de datos que contribuyeron a la curación de Apple fueron: Europarl; Títulos Wiki; y WikiMatriz. El corpus se dividió en Etiqueta G (con 12,000 frases), que abarcan frases con palabras clave para todas las entidades, junto con una anotación de género ambiguo; y G-Trans (con 50,000 oraciones), que contiene entidades ambiguas en cuanto al género y alineaciones de género.

Los autores afirman:

'Hasta donde sabemos, este es el primer corpus a gran escala que contiene ambigüedades de género y cómo afectan las formas de género en la traducción'.

Se han recopilado conjuntos de datos y datos diversos para el proyecto. puesto a disposición en GitHubLos datos incluyen cinco pares de idiomas: inglés, ruso, alemán, francés, portugués y español.

Los autores aprovecharon Un enfoque previo a partir de 2019, para dotar al modelo de la capacidad de generar alineaciones de género, capacitación con entropía cruzada de y un adicional pérdida de alineación.

Para la rutina de aumento de datos, los autores evitaron los métodos tradicionales método basado en reglass a favor de un enfoque centrado en los datos, afinando un BERTI modelo de lenguaje preentrenado en el conjunto de datos G-Tag.

Doble toma

Para los casos en los que se detectan entidades de género ambiguas, Apple y USC exploraron dos métodos: el ajuste fino de modelos de lenguaje previamente entrenados y el uso de LLM.

Respecto al primer método, el documento afirma:

'Afinamos un modelo de traducción automática entrenado previamente M en un bitexto extraído del conjunto de datos G-Trans. Las oraciones fuente de este bitexto contienen entidades ambiguas etiquetadas como masculinas o femeninas utilizando / etiquetas, y la traducción de destino tiene inflexiones de género correctas dadas las etiquetas de género.

Una ilustración del esquema para extraer bi-texto del conjunto de datos G-Trans.

Una ilustración del esquema para extraer bi-texto del conjunto de datos G-Trans.

En la imagen de arriba, vemos el texto ajustado en la columna central inferior y el resultado deseado en la columna derecha, con el fundamento subyacente ilustrado arriba.

Para este enfoque, los autores utilizaron un re-puntuación de la red método de un Trabajos anteriores de 2020Para garantizar que solo se abordara el dominio objetivo (género), se utilizó un búsqueda de haz restringido Se utilizó como filtro.

Para el enfoque LLM, los autores idearon una estrategia que utiliza un LLM como editor, reescribiendo las traducciones proporcionadas para proporcionar asignaciones de género.

El LLM se basa en un ejemplo contextualizado para asignar el género.

El LLM se basa en un ejemplo contextualizado para asignar el género.

Con los resultados de ambos enfoques concatenados, el modelo se ajustó posteriormente para clasificar los tokens de origen como alineado (indicado por '1' en el esquema siguiente) o no alineado (indicado con '2' a continuación).

Un esquema para la concatenación de resultados de ambos enfoques.

Un esquema para la concatenación de resultados de ambos enfoques.

Datos y Pruebas

La entidad ambigua El detector utilizado para el proyecto se desarrolló perfeccionando la IA de Facebook.  xlm-roberta-grande modelo, usando transformersPara ello, se utilizó la etiqueta G combinada en los cinco pares de idiomas.

En el primero de los dos enfoques mencionados, el M2M 1.2B El modelo fue entrenado en Fairseq, junto con datos bi-texto del conjunto de datos G-Trans, con inflexiones de género proporcionadas por Wikcionario.

Para el método LLM, los autores utilizaron GPT-3.5-turboPara la alineación de las estructuras de género, se utilizó nuevamente xlm-roberta-large, esta vez con alineaciones de género extraídas de G-Trans.

Métricas para la evaluación de alternativas, estructura (con precisión y recordar), o precisión de alineación.

Aunque los dos primeros se explican por sí solos, la precisión de la alineación mide el porcentaje de estructuras de género de salida que se ajustan a la identidad de origen correcta conocida y utiliza la Método δ-BLEU, de acuerdo con la metodología MT-GenEval.

A continuación se muestran los resultados del proceso de ampliación de datos:

Resultados de las pruebas de ampliación de datos. Las flechas hacia arriba indican "cuanto más alto, mejor" y hacia abajo, "cuanto más bajo, mejor".

Resultados de las pruebas de ampliación de datos. Las flechas hacia arriba indican "cuanto más alto, mejor" y hacia abajo, "cuanto más bajo, mejor".

Aquí los autores comentan*:

'Tanto M2M como GPT tienen un rendimiento similar, con la excepción del inglés-ruso, donde GPT logra una recuperación de alternativas mucho menor (58.7 en comparación con 89.3). La calidad de las estructuras de género generadas es mejor para GPT en inglés-alemán e inglés-portugués y mejor para M2M en inglés-español e inglés-ruso, como se puede ver en las métricas de estructura.

'Tenga en cuenta que no tenemos ningún dato G-Trans para inglés-italiano, por lo que los resultados del modelo M2M y la precisión de alineación en inglés-italiano se deben puramente a la generalización de disparo cero de Modelos M2M y XLM.'

Los investigadores también compararon el rendimiento del sistema de aumento de datos, a través de M2M, contra el reescritor de género a nivel de oración de GATE, en los propios términos establecidos por GATE.

El proceso de aumento de datos de Apple/USC se enfrentó al método a nivel de oración de GATE.

El proceso de aumento de datos de Apple/USC se enfrentó al método a nivel de oración de GATE.

Aquí el documento afirma:

"Observamos mejoras significativas en la capacidad de recordar, a costa de una degradación relativamente pequeña de la precisión (excepto en inglés e italiano). Nuestro sistema es capaz de superar a GATE en la métrica F.5 propuesta en los tres pares de idiomas".

Finalmente, los autores entrenaron diversos modelos multilingües "básicos" en Bi-texto vainillaLos conjuntos de datos que contribuyeron fueron WikiMatrix, Títulos Wiki, Multi-ONU, NoticiasComentario y tilde.

Se entrenaron dos modelos vainilla adicionales, uno que incorpora el conjunto de datos G-Trans con la etiqueta prefijada , que se empleó como línea de base supervisada; y un tercero, que incorpora la estructura y las alineaciones de género (en el modelo local más pequeño, ya que utilizar los servicios basados ​​en API de GPT habría sido muy costoso para este propósito).

Los modelos fueron probados contra el modelo 2022 FloRes conjunto de datos

Se probaron modelos de traducción automática de extremo a extremo (P = precisión, R = recuperación).

Se probaron modelos de traducción automática de extremo a extremo (P = precisión, R = recuperación).

El artículo resume estos resultados:

'El modelo vainilla no puede generar alternativas y muestra un enorme sesgo hacia la generación de formas masculinas (δ-BLEU que varía de 5.3 a 12.5 puntos).

'Este sesgo se reduce en gran medida con la línea base supervisada. El modelo entrenado con datos aumentados reduce aún más el sesgo y obtiene el mejor rendimiento en términos de métricas alternativas, precisión de alineación y δ-BLEU.

"Esto demuestra la eficacia del proceso de ampliación de datos. Los datos ampliados también nos permiten entrenar un sistema competitivo para inglés-italiano que carece de datos supervisados".

Los autores concluyen señalando que el éxito del modelo debe considerarse en el contexto más amplio de la lucha de la PNL para racionalizar la asignación de género en un método de traducción; y señalan que esto sigue siendo un problema abierto.

Aunque los investigadores consideran que los resultados obtenidos no alcanzan plenamente el objetivo de generar traducciones neutrales en cuanto al género a nivel de entidad y/o desambiguaciones en cuanto al género, creen que el trabajo es un "poderoso instrumento" para futuras exploraciones en una de las áreas más desafiantes de la traducción automática.

 

* Mi conversión de las citas en línea de los autores a hipervínculos

Primera publicación: martes 8 de octubre de 2024