¿Qué es el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF)?


Introducción al RLHF

El Aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) es un gran paso adelante en el entrenamiento de datasets y la optimización de modelos de inteligencia artificial, particularmente modelos humanos de lenguaje grande (LLMs), y se alinea mejor con las intenciones y valores de los modelos humanos.

Combina las técnicas de aprendizaje por refuerzo (RL) con el juicio matizado de los seres humanos para dirigir el texto y el comportamiento de la IA hacia resultados más útiles, honestos e inofensivos.

En lugar de depender únicamente de conjuntos de datos predefinidos o funciones de recompensa explícitas programadas por los desarrolladores, RLHF aprovecha las preferencias humanas para guiar el proceso de aprendizaje de la inteligencia artificial.

AIendpoint

Definición y descripción general

Aprendizaje de refuerzo a partir de retroalimentación humana (RLHF) es una técnica de aprendizaje automático que afina los modelos de IA basándose en la retroalimentación proporcionada por los seres humanos. En esencia, implica tres componentes principales:

  • Un modelo de IA previamente entrenado (a menudo un LLM)
  • Retroalimentación humana recopilada sobre los resultados del modelo
  • Algoritmo de aprendizaje de refuerzo que actualiza el modelo en función de estos comentarios

La idea fundamental es entrenar un modelo como un LLM no solo para realizar una tarea (como predecir la siguiente palabra) sino para realizarla de una manera que los seres humanos encuentren de alta calidad y preferible. Esto a menudo implica entrenar un «modelo de recompensa» separado que aprende a predecir qué resultados calificarían los seres humanos más altos.

Este modelo de recompensa entrenado actúa entonces como la función de recompensa dentro de un bucle de aprendizaje de refuerzo estándar, guiando al modelo de IA original para generar salidas que maximicen la puntuación de preferencia humana prevista.

Es un enfoque en el trabajo que permite a los modelos de aprendizaje profundo aprender cualidades subjetivas más humanas y complejas, como el tono, la seguridad y la utilidad, que son difíciles de captar con las métricas tradicionales.

El papel del feedback humano

La retroalimentación humana es la piedra angular del proceso de RLHF. Su papel principal es inyectar un juicio humano matizado en el ciclo de entrenamiento del conjunto de datos de las redes neuronales de IA, guiando el modelo más allá de la simple finalización de la tarea hacia una alineación cualitativa con los comportamientos deseados.

Definir cualidades como «utilidad», «inocuidad» o «veracidad» mediante programación es un gran desafío. Los seres humanos, sin embargo, pueden evaluar intuitivamente estos atributos en productos generados por IA.

En un flujo de trabajo RLHF típico, los seres humanos no necesariamente escriben respuestas de texto perfectas o proporcionan correcciones detalladas. En cambio, a menudo comparan diferentes salidas generadas por la IA para el mismo prompt e indican cuál prefieren (por ejemplo, clasificando las respuestas de mejor a peor).

Esta retroalimentación comparativa es generalmente más fácil y más escalable para los seres humanos de proporcionar a un modelo que las críticas detalladas, escribir respuestas ideales desde cero o desarrollar una política de datos.

Modelos RLHF y formación

Una vez que se comprenden los conceptos básicos de RLHF y la importancia de la retroalimentación humana para un modelo como un LLM, vale la pena profundizar en los modelos específicos y procedimientos de capacitación involucrados.

Por lo general, esto implica un proceso de múltiples etapas de alta calidad en el que las preferencias humanas se capturan primero en un modelo específico, que luego se utiliza para guiar el ajuste del modelo principal de IA mediante algoritmos de aprendizaje de refuerzo.

Algoritmos de entrenamiento para RLHF

El núcleo del RLHF reside en afinar el modelo de IA Generativa (por ejemplo, un LLM) utilizando el aprendizaje de refuerzo guiado por la señal derivada de la retroalimentación humana.

Si bien se podrían utilizar varios algoritmos de RL, el enfoque más común y exitoso empleado en la práctica, especialmente para modelos de lenguaje grande, es la Optimización de políticas proximales (PPO, Proximal Policy Optimization ). La PPO se ve favorecida por varias razones:

  • Estabilidad y fiabilidad : En comparación con los métodos de gradiente de políticas más simples, PPO incorpora mecanismos (como recortar la función de objetivo) que impiden actualizaciones sustanciales de la política del modelo (su estrategia para generar texto) en un solo paso. Esto conduce a una formación más estable y confiable en el conjunto de datos.
     
  • Eficacia de la muestra: Por lo general, equilibra la cantidad de datos utilizados en las respuestas de dataset y data lakehouse (eficiencia de la muestra) y la facilidad de implementación y ajuste de tareas en comparación con otros algoritmos complejos de RL.
     
  • Mantenimiento de capacidades : Un aspecto crucial del ajuste preciso de los grandes modelos preentrenados es asegurarse de que no «olviden» sus capacidades originales o comiencen a generar texto sin sentido mientras se optimizan para la nueva recompensa.

A menudo, la PPO incluye un término de penalización (generalmente basado en la divergencia de KL) que desalienta al modelo ajustado de desviarse demasiado drásticamente de su comportamiento original, previamente entrenado.

Esto trabaja para mantener la fluidez del lenguaje y el conocimiento general, mientras se adapta a las preferencias humanas. El bucle de formación de RL que utiliza PPO en RLHF suele funcionar de la siguiente manera:

  • Se muestrea una petición de datos de idioma y se incluye en la versión actual del modelo de IA (la política).
  • El modelo genera una respuesta.
  • La función de recompensa humana (detallada a continuación) evalúa la respuesta del idioma generado para obtener una puntuación de recompensa escalar.

El algoritmo de PPO utiliza esta puntuación de recompensa y la penalización de divergencia de KL para calcular una actualización de los parámetros del modelo de IA, con el objetivo de aumentar la probabilidad de generar respuestas que reciban puntuaciones de recompensa más altas en el futuro.

Función de recompensa humana en modelos RLHF

Un posible punto de confusión es el término «función de recompensa humana». En RLHF, los seres humanos no proporcionan directamente una puntuación de recompensa de retroalimentación durante el bucle de entrenamiento principal supervisado por RL.

Hacerlo con la retroalimentación del conjunto de datos que recompensa cada paso para cada tarea sería increíblemente lento y poco práctico cuando se entrena un LLM u otro modelo.

En cambio, las respuestas humanas recopiladas anteriormente (p. ej., comparaciones, clasificaciones) se utilizan para entrenar un modelo separado conocido como el modelo de recompensa (RM). Este modelo de recompensa actúa como función de recompensa durante la fase de ajuste preciso de RL. Así es como se construye y utiliza típicamente el modelo de recompensa:

  • Recopilación de datos Los seres humanos proporcionan información sobre la calidad de las preferencias en pares (o conjuntos) de salidas de modelos para diversos indicadores, indicando sus preferencias (por ejemplo, "La respuesta A es mejor que la respuesta B").
     
  • Formación modelo de recompensa: Se forma un modelo independiente (que a menudo se inicializa utilizando el mismo modelo básico previamente entrenado que el que se está ajustando, pero con un cabezal de salida diferente) en estos datos de lenguaje de preferencias. Su objetivo es predecir la puntuación de preferencia de calidad o la calificación que un humano probablemente daría a cualquier resultado de modelo determinado.
     
  • Proxy del juicio humano: Una vez que la función está entrenada, el modelo de recompensa es un proxy de texto automatizado y escalable para el juicio humano. Durante la etapa de ajuste de PPO, cuando el modelo principal de IA genera una respuesta, esa respuesta se incorpora al modelo de recompensa entrenado. La salida escalar del modelo de recompensa se utiliza entonces como la señal de recompensa que el algoritmo PPO intenta maximizar al realizar tareas.

Por lo tanto, el modelo de recompensa entrenado utiliza la retroalimentación para internalizar las preferencias humanas del conjunto de datos recopilados y proporciona la señal necesaria para guiar el algoritmo de RL, permitiendo que el modelo principal de IA se optimice de manera eficiente para generar salidas que se alineen con esas preferencias aprendidas.

La calidad y la solidez de este modelo de recompensa son fundamentales para el éxito general del proceso RLHF, incluso para un LLM GPT.

Aplicación de RLHF en modelos de lenguaje

Si bien los principios del aprendizaje reforzado a partir de la retroalimentación humana tienen una alineación más amplia, su impacto más significativo se ha materializado dentro del ámbito de los modelos de lenguaje de gran tamaño (LLMs) y la calidad de la producción.

RLHF se ha convertido en una técnica de lenguaje fundamental para refinar las capacidades, la calidad y los comportamientos de estos sistemas de IA robustos a medida que RLHF va más allá de la mera predicción de texto hacia interacciones de lenguaje más sofisticadas y alineadas.

RLHF en Formación de Modelo de Lenguaje

La tarea de formación de los modelos modernos de lenguaje de gran tamaño a menudo implica varias etapas, dependiendo de la política de datos. El pre-entrenamiento inicial en grandes cuerpos de texto les brinda a los modelos comprensión gramatical, conocimiento fáctico y reconocimiento de patrones.

A esto le sigue con frecuencia un ajuste fino supervisado (SFT), donde el modelo de lenguaje aprende a seguir instrucciones específicas o a adoptar estilos de respuesta específicos, como comportarse como un asistente útil, basándose en ejemplos seleccionados.

Sin embargo, las SFT y las políticas de datos y conjuntos de datos por sí solas a menudo luchan por capturar plenamente las sutilezas de las preferencias humanas con respecto a cualidades como la preferencia por la utilidad, la inocuidad, el tono o la honestidad fáctica, especialmente cuando los resultados entrenados deseados son complejos o subjetivos.

Alineación de RLHF con el procesamiento de lenguaje natural

La aplicación de RLHF en la formación LLM y GPT está profundamente conectada con el desafío más amplio de la alineación de la IA dentro del procesamiento de lenguaje natural (NLP) y el uso de GPT.

La alineación, en este contexto, se refiere a garantizar que los sistemas de IA, en particular los LLM con amplias capacidades, comprendan y actúen siguiendo las intenciones, objetivos y valores éticos humanos.

Un alto nivel de desalineación puede manifestarse de varias maneras, desde generar contenido sutilmente sesgado o falso hasta no seguir fielmente las instrucciones entrenadas o producir resultados dañinos. Dada la complejidad del lenguaje y de los valores humanos, especificar el comportamiento deseable de manera integral a través de código o reglas explícitas suele ser inmanejable.

RLHF ofrece un enfoque práctico y de calidad para abordar este problema de alineación directamente dentro de los sistemas PNL y con la política de datos correcta. En lugar de intentar predefinir cada aspecto del comportamiento deseado, RLHF aprende estas preferencias implícitamente de la retroalimentación humana.

Al entrenar un modelo de recompensa para reconocer las características de las respuestas de calidad que los seres humanos consideran "buenas" (útiles, honestas, inofensivas, etc.), RLHF crea un proxy funcional para los valores humanos que se pueden integrar en el proceso de entrenamiento supervisado.

La siguiente fase de aprendizaje de refuerzo optimiza entonces las respuestas LLM y GPT y la política para responder a las tareas y producir texto que puntúa altamente de acuerdo con este proxy aprendido, dirigiendo efectivamente el modelo hacia una mejor alineación con las preferencias humanas.

Esto da como resultado el uso de modelos de lenguaje de gran tamaño que están mejor alineados y son más útiles y seguros en una amplia gama de aplicaciones PNL, incluidos los sistemas de diálogo que conversan de manera más apropiada, las herramientas de resumen que producen resúmenes más relevantes y los sistemas de generación de contenido que se alinean mejor con los datos y las políticas de seguridad y utilizan la intención de los usuarios y GPT.

Desafíos y futuro del RLHF

A pesar de su éxito en la mejora de los modelos lingüísticos, el aprendizaje reforzado a partir de la retroalimentación humana presenta desafíos en cuanto a resultados y calidad.

La investigación y el desarrollo en curso continúan explorando maneras de mitigar sus limitaciones y comprender su impacto más amplio en las metodologías de capacitación supervisadas por la IA. Las áreas clave de interés incluyen la calidad de la retroalimentación humana y la interacción entre RLHF y las técnicas de aprendizaje supervisadas establecidas.

Superación del sesgo de anotación en RLHF

La efectividad de las respuestas GPT logradas a través de RLHF depende de la retroalimentación humana, los datos y la política utilizada para entrenar el modelo de recompensa. Esta dependencia presenta un desafío importante: el sesgo de anotación.

Las preferencias, codificadas en el modelo de recompensa y posteriormente en el LLM y GPT afinados, reflejan directamente los juicios del grupo específico de comentaristas humanos que proporcionaron la retroalimentación durante la tarea de aprendizaje.

Si este grupo no es lo suficientemente diverso o el proceso de anotación introduce sesgos, el modelo de IA resultante puede mostrar perspectivas sesgadas, sesgos injustos o no alinearse con los valores de una base de usuarios más amplia.

Las fuentes de sesgo de calidad del modelo y del conjunto de datos entrenados pueden variar desde la composición demográfica de los anotadores hasta las instrucciones específicas que se les dan, dependiendo de la política de datos, lo que podría dirigir inadvertidamente sus preferencias.

La fatiga del anotador, los niveles variables de esfuerzo o las diferentes interpretaciones de criterios subjetivos como "utilidad" también pueden introducir ruido e inconsistencia en la alta calidad. También existe el riesgo de converger en puntos de vista fácilmente aceptables o mayoritarios, lo que potencialmente penaliza perspectivas válidas pero menos comunes.

Impactos en el Aprendizaje Supervisado con RLHF

El Aprendizaje de Refuerzo de la Retroalimentación Humana no opera en forma aislada; tiene una relación compleja y sinérgica con el aprendizaje supervisado (SL), particularmente el ajuste fino supervisado (SFT), dentro del proceso típico de entrenamiento supervisado por LLM y GPT.

La política y los datos del RLHF no deben considerarse como un sustituto de las tareas de la OFV, sino más bien como una etapa complementaria de perfeccionamiento. SFT desempeña el papel crucial de enseñar inicialmente al modelo las capacidades de seguimiento de instrucciones fundamentales, formatos de respuesta específicos y habilidades básicas basadas en ejemplos seleccionados de resultados deseados. Esto proporciona una base de competencia necesaria.

OVHcloud y RLHF

OVHcloud ofrece una completa gama de soluciones de inteligencia artificial, modelos de lenguaje de gran tamaño y XML. Diseñada para brindar performance, escalabilidad y rentabilidad, nuestra plataforma permite a los científicos de datos y sus modelos, desarrolladores y empresas construir, entrenar e implementar modelos de IA de vanguardia con facilidad:

Public Cloud Icon

AI Training

Acelere sus proyectos de marketing directo con OVHcloud AI Training. Esta solución potente y rentable proporciona recursos de GPU dedicados para entrenar a escala sus modelos de IA. Lance fácilmente trabajos de capacitación distribuidos, administre sus datasets y aproveche entornos populares como TensorFlow y PyTorch.

Hosted Private cloud Icon

AI Notebook

Explore, cree un prototipo y desarrolle fácilmente sus modelos de IA con un portátil AI de OVHcloud. Obtenga acceso instantáneo a entornos de desarrollo listos para usar como JupyterLab y VS Code, precargados con bibliotecas y marcos de ciencia de datos esenciales.

Bare MetaL Icon

AI Solutions

Construya, entrene e implemente sus modelos de inteligencia artificial y machine learning sin problemas con la plataforma de alto rendimiento AI & Machine Learning de OVHcloud. Benefíciese de un hardware potente, precios transparentes y un entorno cloud soberano y seguro para acelerar sus proyectos de IA desde el concepto hasta la producción.