Inteligencia artificial

Evaluación de grandes modelos de lenguaje: Una guía técnica

Published January 29, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Los grandes modelos de lenguaje (LLM) como GPT-4, Claude y LLaMA han explotado en popularidad. Gracias a su capacidad para generar textos impresionantemente similares a los humanos, estos sistemas de inteligencia artificial ahora se utilizan para todo, desde la creación de contenido hasta los chatbots de servicio al cliente.

Pero, ¿cómo sabemos si estos modelos son realmente buenos? Con nuevos LLM siendo anunciados constantemente, todos afirmando ser más grandes y mejores, ¿cómo evaluamos y comparamos su rendimiento?

En esta guía integral, exploraremos las mejores técnicas para evaluar grandes modelos de lenguaje. Analizaremos los pros y los contras de cada enfoque, cuándo se aplican mejor y cómo puedes aprovecharlos en tus propias pruebas de LLM.

Métricas específicas de tarea

Una de las formas más directas de evaluar un LLM es probarlo en tareas de NLP establecidas utilizando métricas estandarizadas. Por ejemplo:

Resumen

Para tareas de resumen, se utilizan comúnmente métricas como ROUGE (Recall-Oriented Understudy for Gisting Evaluation). ROUGE compara el resumen generado por el modelo con un resumen de “referencia” escrito por humanos, contando la superposición de palabras o frases.

Hay varias variantes de ROUGE, cada una con sus pros y contras:

ROUGE-N: Compara la superposición de n-gramas (secuencias de N palabras). ROUGE-1 utiliza unigramas (palabras individuales), ROUGE-2 utiliza bigramas, etc. La ventaja es que captura el orden de las palabras, pero puede ser demasiado estricto.
ROUGE-L: Basado en la subsecuencia común más larga (LCS). Más flexible en el orden de las palabras pero se centra en los puntos principales.
ROUGE-W: Asigna pesos a las coincidencias de LCS según su significado. Intenta mejorar a ROUGE-L.

En general, las métricas ROUGE son rápidas, automáticas y funcionan bien para clasificar resúmenes de sistemas. Sin embargo, no miden la coherencia o el significado. Un resumen podría obtener una alta puntuación ROUGE y aún ser sin sentido.

La fórmula para ROUGE-N es:

$ROUGE-N = \sum ^{s \in {Resúmenes de Referencia}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Resúmenes de Referencia}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Count_{match}(gram_n) es el recuento de n-gramas en ambos el resumen generado y el resumen de referencia.
Count(gram_n) es el recuento de n-gramas en el resumen de referencia.

Por ejemplo, para ROUGE-1 (unigramas):

Resumen generado: “El gato se sentó.”
Resumen de referencia: “El gato se sentó en la alfombra.”
Unigramas superpuestos: “El”, “gato”, “se sentó”
Puntuación ROUGE-1 = 3/5 = 0.6

ROUGE-L utiliza la subsecuencia común más larga (LCS). Es más flexible con el orden de las palabras. La fórmula es:

$ROUGE-L = max(length(generado), length(reference)) L CS ( generado , reference )$

Donde LCS es la longitud de la subsecuencia común más larga.

ROUGE-W pondera las coincidencias de LCS. Considera la significación de cada coincidencia en la LCS.

Traducción

Para tareas de traducción automática, BLEU (Bilingual Evaluation Understudy) es una métrica popular. BLEU mide la similitud entre la traducción de salida del modelo y las traducciones profesionales humanas, utilizando la precisión de n-gramas y una penalización por brevedad.

Aspectos clave de cómo funciona BLEU:

Compara superposiciones de n-gramas para n hasta 4 (unigramas, bigramas, trigramas, 4-gramas).
Calcula una media geométrica de las precisiones de n-gramas.
Aplica una penalización por brevedad si la traducción es mucho más corta que la referencia.
Generalmente oscila entre 0 y 1, siendo 1 una coincidencia perfecta con la referencia.

BLEU se correlaciona razonablemente bien con los juicios humanos de la calidad de la traducción. Pero todavía tiene limitaciones:

Solo mide la precisión contra referencias, no la recuperación o F1.
Lucha con traducciones creativas que utilizan diferentes palabras.
Es susceptible a “jugar” con trucos de traducción.

Otras métricas de traducción como METEOR y TER intentan mejorar las debilidades de BLEU. Pero en general, las métricas automáticas no capturan completamente la calidad de la traducción.

Otras tareas

Además del resumen y la traducción, se pueden utilizar métricas como F1, precisión, MSE y más para evaluar el rendimiento de LLM en tareas como:

Clasificación de texto
Extracción de información
Respuesta a preguntas
Análisis de sentimiento
Detección de errores gramaticales

La ventaja de las métricas específicas de la tarea es que la evaluación puede ser completamente automatizada utilizando conjuntos de datos estandarizados como SQuAD para preguntas y respuestas y GLUE para una variedad de tareas. Los resultados se pueden rastrear fácilmente con el tiempo a medida que los modelos mejoran.

Sin embargo, estas métricas están estrechamente enfocadas y no pueden medir la calidad general del lenguaje. Los LLM que funcionan bien en las métricas para una tarea única pueden fallar al generar texto coherente, lógico y útil en general.

Benchmark de investigación

Una forma popular de evaluar LLM es probarlos contra benchmarks de investigación que abarcan una amplia variedad de temas y habilidades. Estos benchmarks permiten que los modelos sean probados rápidamente a gran escala.

Algunos benchmarks bien conocidos incluyen:

SuperGLUE – Un conjunto desafiante de 11 tareas de lenguaje diversas.
GLUE – Una colección de 9 tareas de comprensión de oraciones. Más simple que SuperGLUE.
MMLU – 57 tareas diferentes de ciencias, tecnología, ingeniería y matemáticas, así como ciencias sociales y humanidades. Pone a prueba el conocimiento y la capacidad de razonamiento.
Winograd Schema Challenge – Problemas de resolución de pronombres que requieren razonamiento común.
ARC – Tareas de razonamiento de lenguaje natural desafiantes.
Hellaswag – Razonamiento común sobre situaciones.
PIQA – Preguntas de física que requieren diagramas.

Al evaluar en benchmarks como estos, los investigadores pueden probar rápidamente los modelos en su capacidad para realizar matemáticas, lógica, razonamiento, codificación, sentido común y mucho más. El porcentaje de preguntas respondidas correctamente se convierte en una métrica de benchmark para comparar modelos.

Sin embargo, un problema importante con los benchmarks es la contaminación de los datos de entrenamiento. Muchos benchmarks contienen ejemplos que ya fueron vistos por los modelos durante el preentrenamiento. Esto permite que los modelos “memoricen” las respuestas a preguntas específicas y funcionen mejor de lo que realmente son capaces.

Se intentan “descontaminar” los benchmarks eliminando ejemplos superpuestos. Pero esto es desafiante, especialmente cuando los modelos pueden haber visto versiones parafraseadas o traducidas de las preguntas.

Así que, aunque los benchmarks pueden probar un conjunto amplio de habilidades de manera eficiente, no pueden medir de manera fiable las capacidades de razonamiento real ni evitar la inflación de puntuaciones debido a la contaminación. Se necesitan métodos de evaluación complementarios.

Evaluación de LLM por sí mismo

Un enfoque intrigante es que un LLM evalúe las salidas de otro LLM. La idea es aprovechar el concepto de tarea “más fácil”:

Producir una salida de alta calidad puede ser difícil para un LLM.
Pero determinar si una salida dada es de alta calidad puede ser una tarea más fácil.

Por ejemplo, mientras que un LLM puede luchar por generar un párrafo factual y coherente desde cero, puede juzgar más fácilmente si un párrafo dado tiene sentido lógico y se ajusta al contexto.

Así que el proceso es:

Pasar la entrada de la promoción al primer LLM para generar la salida.
Pasar la entrada de la promoción + la salida generada al segundo LLM “evaluador”.
Preguntar al LLM evaluador una pregunta para evaluar la calidad de la salida. Por ejemplo, “¿La respuesta anterior tiene sentido lógico?”

Este enfoque es rápido de implementar y automatiza la evaluación de LLM. Pero hay algunos desafíos:

El rendimiento depende mucho de la elección del LLM evaluador y la redacción de la promoción.
Está limitado por la dificultad de la tarea original. Evaluar el razonamiento complejo sigue siendo difícil para los LLM.
Puede ser computacionalmente costoso si se utilizan LLM basados en API.

La autoevaluación es especialmente prometedora para evaluar la información recuperada en sistemas RAG (retrieval-augmented generation). Las consultas adicionales de LLM pueden validar si el contexto recuperado se utiliza adecuadamente.

En general, la autoevaluación muestra potencial pero requiere cuidado en la implementación. Complementa, en lugar de reemplazar, la evaluación humana.

Evaluación humana

Dadas las limitaciones de las métricas automatizadas y los benchmarks, la evaluación humana sigue siendo el estándar de oro para evaluar rigurosamente la calidad de los LLM.

Los expertos pueden proporcionar evaluaciones cualitativas detalladas sobre:

Precisión y corrección fáctica
Lógica, razonamiento y sentido común
Coherencia, consistencia y legibilidad
Adecuación del tono, estilo y voz
Gramaticalidad y fluidez
Creatividad y sutileza

Para evaluar un modelo, a los humanos se les dan un conjunto de promociones de entrada y las respuestas generadas por el LLM. Evalúan la calidad de las respuestas, a menudo utilizando escalas de calificación y rúbricas.

La desventaja es que la evaluación manual humana es costosa, lenta y difícil de escalar. También requiere desarrollar criterios estandarizados y entrenar a los evaluadores para aplicarlos consistentemente.

Algunos investigadores han explorado formas creativas de financiar evaluaciones humanas de LLM utilizando sistemas de torneos donde la gente apuesta y juzga partidos entre modelos. Pero la cobertura sigue siendo limitada en comparación con las evaluaciones manuales completas.

Para casos de uso empresariales donde la calidad es más importante que la escala bruta, las pruebas expertas humanas siguen siendo el estándar de oro a pesar de los costos. Esto es especialmente cierto para aplicaciones más arriesgadas de los LLM.

Conclusión

Evaluar grandes modelos de lenguaje de manera exhaustiva requiere utilizar una herramienta diversa de métodos complementarios, en lugar de confiar en una sola técnica.

Al combinar enfoques automatizados para la velocidad con una supervisión humana rigurosa para la precisión, podemos desarrollar metodologías de prueba de confianza para grandes modelos de lenguaje. Con una evaluación robusta, podemos desbloquear el tremendo potencial de los LLM mientras gestionamos sus riesgos de manera responsable.

Unite.AI