Qu'est-ce que le renforcement de l'apprentissage par la rétroaction humaine (RLHF) ?


Introduction au RLHF

Le renforcement de l’apprentissage à partir de la rétroaction humaine (RLHF) est un grand pas en avant dans la formation des ensembles de données et l’optimisation des modèles d’intelligence artificielle, en particulier les modèles de langage humain à grande échelle (LLM), et s’aligne mieux sur les intentions et les valeurs des modèles humains.

Il combine des techniques d'apprentissage par renforcement (RL) avec le jugement nuancé des humains pour orienter le texte et le comportement de l'IA vers des résultats plus utiles, honnêtes et inoffensifs.

Au lieu de s'appuyer uniquement sur des ensembles de données prédéfinis ou sur des fonctions de récompense explicites programmées par les développeurs, RLHF tire parti des préférences humaines pour guider le processus d'apprentissage de l'intelligence artificielle.

AIendpoint

Définition et présentation

L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est une technique de machine learning qui permet d’affiner les modèles d’IA en fonction de la rétroaction fournie par l’humain. Il comporte essentiellement trois composantes principales :

  • Un modèle d’IA pré-entraîné (souvent une LLM)
  • Rétroaction humaine recueillie sur les extrants du modèle
  • Algorithme d’apprentissage du renforcement qui met à jour le modèle en fonction de ces informations

L'idée fondamentale est d'entraîner un modèle tel qu'un LLM non seulement à effectuer une tâche (comme prédire le mot suivant), mais à l'effectuer d'une manière que les humains trouvent de haute qualité et préférable. Cela implique souvent l'entraînement d'un « modèle de récompense » distinct qui apprend à prédire quelles extrants les humains jugeraient les plus élevés.

Ce modèle de récompense entraîné agit ensuite comme une fonction de récompense dans une boucle d’apprentissage standard de renforcement, guidant le modèle d’IA original pour générer des résultats qui maximisent le score de préférence humain prévu.

C’est une approche du travail qui permet aux modèles de deep learning d’apprendre des qualités plus humaines et plus complexes, plus subjectives, comme le ton, la sécurité et l’utilité, qui sont difficiles à saisir avec les mesures traditionnelles.

Le rôle des commentaires humains

La rétroaction humaine est la pierre angulaire du processus RLHF. Son rôle principal est d'injecter un jugement humain nuancé dans la boucle d'entraînement des ensembles de données des réseaux neuronaux d'IA, guidant le modèle au-delà de la simple achèvement de tâches vers un alignement qualitatif avec les comportements souhaités.

Il est très difficile de définir par programme des qualités telles que l’« utilité », l’« innocuité » ou la « véracité ». Les humains, cependant, peuvent intuitivement évaluer ces attributs dans les résultats générés par l’IA.

Dans un flux de travail RLHF typique, les humains n'écrivent pas nécessairement des réponses textuelles parfaites ou ne fournissent pas de corrections détaillées. Au lieu de cela, ils comparent souvent différents produits générés par l’IA pour la même invite et indiquent lequel ils préfèrent (par exemple, en classant les réponses du meilleur au pire).

Ce retour comparatif est généralement plus facile et évolutif pour les humains à fournir à un modèle que des critiques détaillées, la rédaction de réponses idéales à partir de zéro ou l'élaboration d'une politique de données.

Modèles RLHF et entraînement

Une fois que les concepts fondamentaux de la RLHF et l’importance du retour d’information humain pour un modèle comme la gestion du cycle de vie des connaissances sont compris, il est intéressant d’examiner les modèles spécifiques et les procédures de formation concernées.

Il s’agit généralement d’un processus en plusieurs étapes de haute qualité dans lequel les préférences humaines sont d’abord capturées dans un modèle spécifique, qui est ensuite utilisé pour guider le réglage fin du modèle principal d’IA à l’aide d’algorithmes d’apprentissage par renforcement.

Algorithmes d'entraînement pour RLHF

Le cœur de RLHF réside dans le réglage fin du modèle d’IA générative (par exemple, un LLM) à l’aide d’un apprentissage par renforcement guidé par le signal dérivé de la rétroaction humaine.

Bien que divers algorithmes d'URL puissent être utilisés, l'approche la plus courante et la plus efficace utilisée dans la pratique, en particulier pour les grands modèles de langage, est l'optimisation de la politique proximale (PPO). Le PPO est privilégié pour plusieurs raisons :

  • Stabilité et fiabilité : Par rapport aux méthodes de gradient de stratégie plus simples, le PPO intègre des mécanismes (comme l'écrêtage de la fonction d'objectif) qui empêchent des mises à jour substantielles de la stratégie du modèle (sa stratégie de génération de texte) en une seule étape. Cela conduit à un entraînement plus stable et plus fiable des ensembles de données.
     
  • Efficacité des échantillons : Il équilibre généralement la quantité de données utilisées dans les réponses aux ensembles de données et le data lakehouse (efficacité de l'échantillon) et la facilité de mise en œuvre et de réglage des tâches par rapport à d'autres algorithmes RL complexes.
     
  • Maintien des capacités : Un aspect crucial du réglage fin des grands modèles pré-entraînés est de s'assurer qu'ils n'« oublient » pas leurs capacités d'origine ou qu'ils ne commencent pas à générer du texte absurde tout en optimisant pour la nouvelle récompense.

La PPO inclut souvent un terme de pénalité (généralement basé sur la divergence de KL) qui décourage le modèle affiné de s'écarter trop radicalement de son comportement initial pré-entraîné.

Cela permet de maintenir la maîtrise de la langue et des connaissances générales tout en s'adaptant aux préférences humaines. La boucle d'entraînement RL utilisant PPO dans RLHF fonctionne généralement comme suit :

  • Une invite de langage est échantillonnée et introduite dans la version actuelle du modèle d’IA (la règle).
  • Le modèle génère une réponse.
  • La fonction de récompense humaine (détaillée ci-dessous) évalue la réponse du langage généré pour obtenir un score de récompense scalaire.

L’algorithme PPO utilise ce score de récompense et la pénalité de divergence KL pour calculer une mise à jour des paramètres du modèle d’IA, dans le but d’augmenter la probabilité de générer des réponses qui reçoivent des scores de récompense plus élevés à l’avenir.

Fonction de récompense humaine dans les modèles RLHF

L’expression « fonction de récompense humaine » peut prêter à confusion. Dans le cadre de la FHMR, les humains ne fournissent pas directement de score de récompense de retour pendant la boucle d'entraînement principale supervisée par le LRR.

Faire cela avec un retour d'informations sur les ensembles de données récompensant chaque étape de chaque tâche serait incroyablement lent et peu pratique lors de l'entraînement d'un modèle de gestion du cycle de vie des données ou d'un autre modèle.

Au lieu de cela, les réponses humaines recueillies précédemment (p. ex., comparaisons, classements) sont utilisées pour former un modèle distinct connu sous le nom de modèle de récompense (RM). Ce modèle de récompense agit comme la fonction de récompense pendant la phase de réglage fin du RL. Voici comment le modèle de récompense est généralement créé et utilisé :

  • Collecte des données Les humains fournissent des commentaires sur la qualité des préférences sur des paires (ou ensembles) de résultats de modèles pour diverses invites, indiquant leurs préférences (p. ex., « La réponse A est meilleure que la réponse B »).
     
  • Entraînement du modèle de récompense : Un modèle distinct (souvent initialisé à l'aide du même modèle de base pré-entraîné que celui en cours de réglage fin, mais avec une tête de sortie différente) est entraîné sur ces données de langue de préférence. Son objectif est de prédire le score de préférence de qualité ou la notation qu'un humain donnerait probablement à une sortie donnée du modèle.
     
  • Proxy du jugement humain : Une fois la fonction entraînée, le modèle de récompense est un proxy textuel automatisé et évolutif pour le jugement humain. Lors de l’étape de réglage fin de la PPO, lorsque le modèle d’IA principal génère une réponse, cette dernière est introduite dans le modèle de récompense entraîné. La sortie scalaire du modèle de récompense est ensuite utilisée comme signal de récompense que l'algorithme PPO tente de maximiser lors de l'exécution de tâches.

Ainsi, le modèle de récompense entraîné utilise la rétroaction pour internaliser les préférences humaines à partir de l'ensemble de données collectées et fournit le signal nécessaire pour guider l'algorithme RL, ce qui permet au modèle d'IA principal d'être optimisé efficacement pour générer des résultats qui s'alignent sur ces préférences apprises.

La qualité et la robustesse de ce modèle de récompense sont essentielles à la réussite globale du processus RLHF, y compris pour une MLL GPT.

Application de RLHF dans les modèles de langage

Bien que les principes du renforcement de l’apprentissage à partir de la rétroaction humaine aient un alignement plus large, son impact le plus significatif a été réalisé dans le domaine des grands modèles linguistiques (LLM) et de la qualité des résultats produits.

La RLHF est devenue une technique linguistique essentielle pour affiner les capacités, la qualité et les comportements de ces systèmes d’IA robustes, à mesure que la RLHF va au-delà de la simple prédiction de texte pour s’orienter vers des interactions linguistiques plus sophistiquées et alignées.

RLHF in Language Model Training

La tâche de formation des modèles modernes de langage à grande échelle implique souvent plusieurs étapes, en fonction de la politique de données. Le pré-entraînement initial sur de vastes corps de texte permet aux modèles d'acquérir une compréhension grammaticale, une connaissance factuelle et une reconnaissance des modèles.

Ensuite, le modèle de langage apprend à suivre des instructions spécifiques ou à adopter des styles de réponse particuliers, comme se comporter comme un assistant utile, en se basant sur des exemples sélectionnés.

Cependant, l'ETF et la politique en matière de données et d'ensembles de données à elles seules ont souvent du mal à saisir pleinement les subtilités des préférences humaines concernant les qualités comme la préférence pour l'utilité, l'innocuité, le ton ou l'honnêteté factuelle, en particulier lorsque les résultats entraînés souhaités sont complexes ou subjectifs.

Alignement du RLHF sur le traitement du langage naturel

L'application de la RLHF dans la formation LLM et GPT est profondément liée au défi plus large de l'alignement de l'IA dans le traitement du langage naturel (TAL) et l'utilisation de la GPT.

Dans ce contexte, l’alignement consiste à s’assurer que les systèmes d’IA, en particulier les mécanismes de gestion du cycle de vie des informations dotés de vastes capacités, comprennent les intentions humaines, les objectifs et les valeurs éthiques et agissent en conséquence.

Un niveau élevé de désalignement peut se manifester de diverses manières, de la génération de contenu subtilement biaisé ou mensonger à l'échec à suivre fidèlement les instructions entraînées ou à produire des résultats néfastes. Compte tenu de la complexité du langage et des valeurs humaines, il est souvent difficile de spécifier un comportement souhaitable de manière exhaustive par du code ou des règles explicites.

La RLHF offre une approche pratique et de qualité pour aborder ce problème d'alignement directement au sein des systèmes de TAL et avec la bonne politique de données. Plutôt que d'essayer de prédéfinir chaque aspect du comportement souhaité, la RLHF apprend ces préférences implicitement à partir de la rétroaction humaine.

En formant un modèle de récompense pour reconnaître les caractéristiques des réponses de qualité que les humains jugent « bonnes » (utiles, honnêtes, inoffensives, etc.), la RLHF crée un substitut fonctionnel des valeurs humaines qui peut être intégré dans le processus de formation supervisée.

La phase d'apprentissage de renforcement qui suit optimise ensuite les réponses LLM et GPT et la politique pour répondre aux tâches et produire un texte qui obtient un score élevé en fonction de ce proxy appris, orientant efficacement le modèle vers un meilleur alignement avec les préférences humaines.

Cela se traduit par l’utilisation de grands modèles de langage qui sont mieux alignés et plus utiles et plus sûrs dans une gamme d’applications de TAL, y compris des systèmes de dialogue qui conversent de manière plus appropriée, des outils de synthèse qui produisent des résumés plus pertinents, et des systèmes de génération de contenu qui s’alignent mieux sur les données et les politiques de sûreté et l’intention des utilisateurs et du TPG.

Défis et avenir de la RLHF

Malgré son succès dans l'amélioration des modèles linguistiques, le renforcement de l'apprentissage à partir de la rétroaction humaine présente des défis en matière de résultats et de qualité.

La recherche et le développement en cours continuent d'explorer des moyens d'atténuer ses limites et de comprendre son impact plus large sur les méthodologies de formation supervisées par l'IA. Les principaux domaines d'intérêt comprennent la qualité de la rétroaction humaine et l'interaction entre la RLHF et les techniques d'apprentissage supervisé établies.

Surmonter le biais d'annotation dans RLHF

L'efficacité des réponses du GPT obtenues par le biais de la RLHF dépend des commentaires, des données et des politiques humaines utilisées pour former le modèle de récompense. Cette dépendance introduit un défi important : le biais d'annotation.

Les préférences, codées dans le modèle de récompense et ensuite dans le LLM et le GPT, reflètent directement les jugements du groupe spécifique d'annotateurs humains qui ont fourni le retour d'information pendant la tâche d'apprentissage.

Si ce groupe n'est pas suffisamment diversifié ou si le processus d'annotation introduit des biais, le modèle d'IA résultant peut présenter des perspectives asymétriques, des biais injustes ou ne pas s'aligner sur les valeurs d'une base d'utilisateurs plus large.

Les sources de biais de qualité des modèles et des ensembles de données entraînés peuvent aller de la composition démographique des annotateurs aux instructions spécifiques qui leur sont données, en fonction de la politique des données, qui peuvent orienter par inadvertance leurs préférences.

Une fatigue élevée des annotateurs, des niveaux d'effort variables ou des interprétations divergentes de critères subjectifs comme « l'utilité » peuvent également introduire du bruit et des incohérences de haute qualité. Il y a aussi le risque de converger vers des points de vue facilement agréables ou majoritaires, ce qui pourrait pénaliser des points de vue valables mais moins courants.

Impacts sur l'apprentissage supervisé avec RLHF

Le renforcement L’apprentissage à partir de la rétroaction humaine ne fonctionne pas de manière isolée ; il a une relation complexe et synergique avec l’apprentissage supervisé (AS), en particulier le réglage fin supervisé (SFT), au sein du pipeline de formation supervisée typique de la GMT et de la GPT.

Les données et la politique RLHF ne doivent pas être considérées comme un substitut aux tâches SFT, mais plutôt comme une étape complémentaire de perfectionnement. L’EFP joue le rôle crucial d’enseigner d’abord au modèle les capacités fondamentales de suivi de l’instruction, les formats de réponse spécifiques et les compétences de base sur la base d’exemples sélectionnés de résultats souhaités. Cela fournit une base de compétence nécessaire.

OVHcloud et RLHF

OVHcloud propose une suite complète de solutions d’IA, de grands modèles de langage et de machine learning. Conçue pour offrir performance, évolutivité et rentabilité, notre plateforme permet aux data scientists et à leurs modèles, aux développeurs et aux entreprises de créer, d’entraîner et de déployer facilement des modèles d’IA de pointe :

Public Cloud Icon

AI Training

Accélérez vos projets de machine learning avec OVHcloud AI Training. Cette solution puissante et rentable fournit des ressources GPU dédiées pour entraîner vos modèles d'IA à grande échelle. Lancez facilement des tâches de formation distribuées, gérez vos ensembles de données et tirez parti de frameworks populaires comme TensorFlow et PyTorch.

Hosted Private cloud Icon

AI Notebook

Explorez, créez des prototypes et développez facilement vos modèles d'IA à l'aide d'un AI Notebook OVHcloud. Bénéficiez d'un accès instantané à des environnements de développement prêts à l'emploi comme JupyterLab et VS Code, préchargés avec des bibliothèques et des frameworks de data science essentiels.

Bare MetaL Icon

Solutions d’IA

Construisez, entraînez et déployez vos modèles d'intelligence artificielle et de machine learning en toute transparence grâce à la plateforme haute performance d'IA et de machine learning OVHcloud. Bénéficiez d’un matériel puissant, de tarifs transparents et d’un environnement cloud sécurisé et souverain pour accélérer vos projets d’IA, du concept à la production.