Connect with us

Inteligencia artificial

DeepMind y Google Brain Apuntan a Crear Métodos para Mejorar la Eficiencia del Aprendizaje por Refuerzo

mm

Los sistemas de aprendizaje por refuerzo pueden ser poderosos y robustos, capaces de realizar tareas extremadamente complejas a través de miles de iteraciones de entrenamiento. Mientras que los algoritmos de aprendizaje por refuerzo son capaces de permitir comportamientos sofisticados y ocasionalmente sorprendentes, tardan mucho tiempo en entrenarse y requieren vastas cantidades de datos. Estos factores hacen que las técnicas de aprendizaje por refuerzo sean bastante ineficientes, y recientemente los equipos de investigación de Alphabet DeepMind y Google Brain han intentado encontrar métodos más eficientes para crear sistemas de aprendizaje por refuerzo.

Como informó VentureBeat, el grupo de investigación combinado propuso recientemente métodos para hacer que el entrenamiento de aprendizaje por refuerzo sea más eficiente. Una de las mejoras propuestas fue un algoritmo llamado Adaptive Behavior Policy Sharing (ABPS), mientras que la otra fue un marco llamado Universal Value Function Approximators (UVFA). ABPS permite que los grupos de agentes de inteligencia artificial compartan sus experiencias seleccionadas adaptativamente, mientras que UVFA permite que esos agentes investiguen simultáneamente políticas de exploración dirigida.

ABPS está destinado a agilizar la personalización de hiperparámetros al entrenar un modelo. ABPS hace que encontrar los hiperparámetros óptimos sea más rápido al permitir que varios agentes diferentes con diferentes hiperparámetros compartan sus experiencias de política de comportamiento. Para ser más preciso, ABPS permite que los agentes de aprendizaje por refuerzo seleccionen acciones de esas acciones que una política ha considerado aceptables y luego se les otorga una recompensa y observación basada en el estado siguiente.

Los agentes de refuerzo de inteligencia artificial se entrenan con varias combinaciones de hiperparámetros posibles, como la tasa de decaimiento y la tasa de aprendizaje. Cuando se entrena un modelo, el objetivo es que el modelo converja en la combinación de hiperparámetros que le da el mejor rendimiento, y en este caso, aquellos que también mejoran la eficiencia de los datos. La eficiencia se aumenta al entrenar a muchos agentes al mismo tiempo y eligiendo el comportamiento de solo un agente para ser desplegado durante el siguiente paso de tiempo. La política que tiene el agente objetivo se utiliza para muestrear acciones. Las transiciones se registran entonces en un espacio compartido, y este espacio se evalúa constantemente para que la selección de la política no tenga que ocurrir con tanta frecuencia. Al final del entrenamiento, se elige un conjunto de agentes y los agentes con mejor rendimiento se seleccionan para someterse a la implementación final.

En cuanto a UVFA, intenta abordar uno de los problemas comunes del aprendizaje por refuerzo, que los agentes con refuerzo débil a menudo no aprenden tareas. UVFA intenta resolver el problema al hacer que el agente aprenda un conjunto separado de políticas de explotación y exploración al mismo tiempo. La separación de las tareas crea un marco que permite que las políticas de exploración sigan explorando el entorno mientras que las políticas de explotación continúan intentando maximizar la recompensa para la tarea actual. Las políticas de exploración de UVFA sirven como una arquitectura de referencia que seguirá mejorando incluso si no se encuentran recompensas naturales. En tal condición, se aproxima una función que corresponde a recompensas intrínsecas, lo que impulsa a los agentes a explorar todos los estados en un entorno, incluso si a menudo regresan a estados familiares.

Como explicó VentureBeat, cuando se utiliza el marco de UVFA, las recompensas intrínsecas del sistema se otorgan directamente al agente como entradas. El agente mantiene entonces una representación de todas las entradas (como recompensas, acciones y estados) durante un episodio determinado. El resultado es que la recompensa se conserva con el tiempo y la política del agente está al menos algo informada por ella en todo momento.

Esto se logra con la utilización de un módulo de “novedad episódica” y un módulo de “novedad de por vida”. La función del primer módulo es mantener la memoria episódica actual y mapear los hallazgos actuales a la representación mencionada anteriormente, lo que permite al agente determinar una recompensa intrínseca episódica para cada paso de entrenamiento. Después, el estado vinculado a la observación actual se agrega a la memoria. Mientras tanto, el módulo de novedad de por vida es responsable de influir en la frecuencia con la que el agente explora a lo largo de muchos episodios.

Según los equipos de Alphabet/Google, las nuevas técnicas de entrenamiento ya han demostrado el potencial para una mejora sustancial mientras se entrena un sistema de aprendizaje por refuerzo. UVFA pudo duplicar el rendimiento de algunos de los agentes base que jugaron varios juegos de Atari. Mientras tanto, ABPS pudo aumentar el rendimiento en algunos de los mismos juegos de Atari, disminuyendo la variación entre los agentes con mejor rendimiento en aproximadamente un 25%. El algoritmo entrenado con UVFA pudo lograr una puntuación alta en Pitfall por sí solo, sin características de demostración humana ingenierizadas.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.