Wat leert versterking van menselijke feedback (RLHF)?


Introductie tot RLHF

Versterking Learning from Human Feedback (RLHF) is een grote stap voorwaarts in het trainen van datasets en het optimaliseren van artificiële intelligentiemodellen, met name modellen voor grote menselijke talen (LLM's), en sluit beter aan bij de intenties en waarden van menselijke modellen.

Het combineert technieken voor versterkend leren (RL) met het genuanceerde oordeel van mensen om AI-tekst en -gedrag te sturen naar nuttigere, eerlijkere en onschuldige uitkomsten.

In plaats van uitsluitend te vertrouwen op vooraf gedefinieerde datasets of expliciete beloningsfuncties die door ontwikkelaars zijn geprogrammeerd, maakt RLHF gebruik van menselijke voorkeuren om het leerproces van artificiële intelligentie te begeleiden.

AIendpoint

Definitie en overzicht

Versterking Learning from Human Feedback (RLHF) is een machine learning-techniek die AI-modellen verfijnt op basis van door mensen verstrekte feedback. In de kern omvat het drie hoofdcomponenten:

  • Een vooraf getraind AI-model (vaak een LLM)
  • Menselijke feedback die is verzameld over de uitvoer van het model
  • Een ondersteunend leeralgoritme dat het model bijwerkt op basis van deze feedback

Het fundamentele idee is om een model zoals een LLM niet alleen te trainen om een taak uit te voeren (zoals het voorspellen van het volgende woord), maar om het op een manier uit te voeren die mensen vinden dat hoogwaardig en verkieslijk. Dit impliceert vaak het trainen van een apart "beloningsmodel" dat leert te voorspellen welke output mensen hoger zouden waarderen.

Dit getrainde beloningsmodel fungeert vervolgens als de beloningsfunctie binnen een standaard versterkende leerlus, waarbij het oorspronkelijke AI-model wordt begeleid om outputs te genereren die de voorspelde score van de menselijke voorkeur maximaliseren.

Het is een werkbenadering waarmee modellen voor deep learning meer menselijke en complexe, subjectieve kwaliteiten zoals toon, veiligheid en behulpzaamheid kunnen leren die moeilijk te vangen zijn met traditionele metrische gegevens.

De rol van menselijke feedback

Menselijke feedback is de hoeksteen van het RLHF-proces. Haar primaire rol is om genuanceerd menselijk oordeel te injecteren in de trainingslus van de AI-dataset voor neurale netwerken, en het model voorbij eenvoudige taakvoltooiing te leiden naar kwalitatieve afstemming op gewenst gedrag.

Kwaliteiten als "behulpzaamheid", "onschadelijkheid" of "waarheidsgetrouwheid" programmatisch definiëren is uitermate uitdagend. Mensen kunnen deze kenmerken echter intuïtief beoordelen in door AI gegenereerde outputs.

In een typische RLHF-workflow hoeft een mens niet noodzakelijkerwijs perfecte tekstantwoorden te schrijven of gedetailleerde correcties aan te brengen. In plaats daarvan vergelijken ze vaak verschillende outputs die door de AI voor dezelfde prompt zijn gegenereerd en geven ze aan welke ze prefereren (bijvoorbeeld het rangschikken van antwoorden van best naar slechtst).

Deze vergelijkende feedback is over het algemeen gemakkelijker en schaalbaarder voor mensen om aan een model te leveren dan gedetailleerde kritieken, het schrijven van ideale reacties vanuit het niets of het ontwikkelen van een gegevensbeleid.

RLHF-modellen en -training

Zodra de fundamentele concepten van RLHF en het belang van menselijke feedback voor een model als een LLM zijn begrepen, is het de moeite waard om ons te verdiepen in de specifieke modellen en trainingsprocedures die hierbij betrokken zijn.

Dit is typisch een hoogwaardig meerfasig proces waarbij menselijke voorkeuren eerst worden vastgelegd in een specifiek model, dat vervolgens wordt gebruikt om de fijnafstemming van het belangrijkste AI-model te begeleiden met behulp van versterkende leeralgoritmen.

Trainingsalgoritmen voor RLHF

De kern van RLHF ligt in het verfijnen van het Generative AI-model (bijvoorbeeld een LLM) met behulp van versterkingsleer dat wordt geleid door het signaal dat wordt afgeleid van menselijke feedback.

Hoewel er verschillende RL-algoritmen gebruikt zouden kunnen worden, is de meest gebruikelijke en succesvolle aanpak die in de praktijk wordt toegepast, met name voor grote taalmodellen, Proximal Policy Optimization (PPO). PPO heeft verschillende redenen om de voorkeur:

  • Stabiliteit en betrouwbaarheid : Vergeleken met eenvoudigere beleidsverloopmethoden bevat PPO mechanismen (zoals het knippen van de doelstellingsfunctie) die substantiële updates van het beleid van het model (de strategie voor het genereren van tekst) in één stap voorkomen. Dit leidt tot stabielere en betrouwbaardere training van datasets.
     
  • Sample efficiency : Het balanceert over het algemeen de hoeveelheid gegevens die wordt gebruikt in de datasetresponsen en het gegevenspakehouse (steekproekefficiëntie) en het gemak van taakimplementatie en afstemming in vergelijking met sommige andere complexe RL-algoritmen.
     
  • Mogelijkheden onderhouden : Een cruciaal aspect van het verfijnen van grote voorgetrainde modellen is ervoor te zorgen dat ze hun oorspronkelijke mogelijkheden niet 'vergeten' of onzinnige tekst gaan genereren terwijl ze optimaliseren voor de nieuwe beloning.

PPO bevat vaak een strafvoorwaarde (meestal gebaseerd op KL-divergentie) die het verfijnde model ontmoedigt om te drastisch af te wijken van zijn oorspronkelijke, vooraf getrainde gedrag.

Dit werkt om de taalbeheersing en algemene kennis in stand te houden en zich tegelijkertijd aan te passen aan menselijke voorkeuren. De RL-trainingslus met PPO in RLHF werkt over het algemeen als volgt:

  • Een taalprompt wordt gesampled en ingevoerd in de huidige versie van het AI-model (het beleid).
  • Het model genereert een respons.
  • De menselijke beloningsfunctie (zie hieronder) evalueert de gegenereerde taalrespons om een scalaire beloningsscore te verkrijgen.

Het PPO-algoritme gebruikt deze beloningsscore en de KL-divergentieboete om een update te berekenen voor de parameters van het AI-model, met als doel het verhogen van de kans op het genereren van responsen die in de toekomst hogere beloningsscores ontvangen.

Menselijke beloningsfunctie in RLHF-modellen

Een potentieel punt van verwarring is de term "menselijke beloningsfunctie." Bij RLHF leveren mensen geen feedbackbonescore tijdens de hoofdtraining onder RL-toezicht.

Dit doen met datasetfeedback die elke stap voor elke taak beloont, zou ongelooflijk traag en onpraktisch zijn bij het trainen van een LLM of een ander model.

In plaats daarvan worden de menselijke reacties die eerder zijn verzameld (bijvoorbeeld vergelijkingen, ranglijsten) gebruikt om een apart model te trainen dat bekend staat als het beloningsmodel (RM). Dit beloningsmodel fungeert als de beloningsfunctie tijdens de RL-fijnafstemmingsfase. Dit is hoe het beloningsmodel meestal wordt gebouwd en gebruikt:

  • Verzamelen van gegevens Mensen geven feedback over de kwaliteit van hun voorkeur over paren (of sets) van modeluitgangen voor verschillende prompts, waarbij hun voorkeuren worden aangegeven (bijvoorbeeld: "Antwoord A is beter dan Antwoord B").
     
  • Beloningsmodeltraining : Een apart model (vaak geïnitialiseerd met hetzelfde voorgetrainde basismodel als het model dat wordt gefinetuned, maar met een andere uitvoerkop) wordt getraind op deze voorkeurstaal. Het doel ervan is om de kwaliteitsvoorkeursscore te voorspellen of de score die een mens waarschijnlijk zou geven aan een bepaalde modeluitvoer.
     
  • Proxy voor menselijk oordeel : Zodra de functie is getraind, is het beloningsmodel een geautomatiseerde, schaalbare tekstproxy voor menselijk oordeel. Wanneer tijdens de PPO-fijnafstemmingsfase het hoofd-AI-model een respons genereert, wordt die respons in het getrainde beloningsmodel ingevoerd. De scalaire uitvoer van het beloningsmodel wordt vervolgens gebruikt als het beloningssignaal dat het PPO-algoritme probeert te maximaliseren bij het uitvoeren van taken.

Het getrainde beloningsmodel gebruikt dus feedback om menselijke voorkeuren uit de verzamelde gegevensset te internaliseren en biedt het noodzakelijke signaal om het RL-algoritme te begeleiden, waardoor het hoofd-AI-model efficiënt kan worden geoptimaliseerd om outputs te genereren die zich aanpassen aan die geleerde voorkeuren.

De kwaliteit en robuustheid van dit beloningsmodel zijn van cruciaal belang voor het algehele succes van het RLHF-proces, ook voor een GPT LLM.

Toepassing van RLHF in taalmodellen

Hoewel de principes van Versterking Leren uit Menselijke Feedback bredere afstemming hebben, is de belangrijkste impact ervan gerealiseerd binnen het domein van grote taalmodellen (LLM's) en de kwaliteit van de geproduceerde output.

RLHF is een hoeksteentaaltechniek geworden voor het verfijnen van de capaciteiten, kwaliteit en gedrag van deze robuuste AI-systemen, omdat RLHF verder gaat dan louter tekstvoorspelling en naar meer geavanceerde en uitgelijnde taalinteracties gaat.

RLHF in taalmodeltraining

De trainingstaak van moderne grote taalmodellen omvat vaak meerdere stadia, afhankelijk van het gegevensbeleid. De eerste vooropleiding op grote tekstbedrijven biedt modellen een beter grammaticaal begrip, feitelijke kennis en patroonherkenning.

Dit wordt vaak gevolgd door "supervised fine-tuning" (SFT), waarbij het taalmodel specifieke instructies leert te volgen of bepaalde antwoordstijlen leert te gebruiken, zoals het gedrag van een handige assistent, gebaseerd op samengestelde voorbeelden.

Echter, SFT en data- en datasetbeleid alleen hebben vaak moeite om de subtiliteiten van menselijke voorkeuren volledig vast te leggen met betrekking tot kwaliteiten als voorkeur voor behulpzaamheid, onschadelijkheid, toon of feitelijke eerlijkheid, vooral als de gewenste getrainde resultaten complex of subjectief zijn.

Afstemming van RLHF op verwerking in natuurlijke taal

De toepassing van RLHF in LLM- en GPT-training houdt nauw verband met de bredere uitdaging van AI-uitlijning binnen Natural Language Processing (NLP) en GPT-gebruik.

In deze context verwijst afstemming naar het waarborgen dat AI-systemen, met name LLM's met grote capaciteiten, de menselijke bedoelingen, doelen en ethische waarden begrijpen en navolgen.

Een grote mate van verkeerde uitlijning kan zich op verschillende manieren manifesteren, van het genereren van subtiel bevooroordeelde of onwaarachtige inhoud tot het niet opvolgen van getrainde instructies of het produceren van schadelijke uitgangen. Gezien de complexiteit van taal en menselijke waarden is het vaak lastig om wenselijk gedrag uitgebreid te specificeren door middel van code of expliciete regels.

RLHF biedt een praktische, hoogwaardige aanpak om dit uitlijningsprobleem direct binnen NLP-systemen en met het juiste gegevensbeleid aan te pakken. In plaats van elk aspect van gewenst gedrag vooraf te definiëren, leert RLHF deze voorkeuren impliciet uit menselijke feedback.

Door het trainen van een beloningsmodel om de kenmerken te herkennen van kwaliteitsresponsen die mensen "goed" vinden (nuttig, eerlijk, onschadelijk, etc.), creëert RLHF een functionele proxy voor menselijke waarden die kan worden geïntegreerd in het begeleide trainingsproces.

De daaropvolgende versterkende leerfase optimaliseert vervolgens de LLM- en GPT-antwoorden en het beleid om te reageren op taken en tekst te produceren die hoog scoort volgens deze geleerde proxy, waardoor het model effectief wordt gericht op een betere afstemming op menselijke voorkeuren.

Dit resulteert in het gebruik van grote taalmodellen die beter zijn uitgelijnd, nuttiger en veiliger zijn in een reeks NLP-toepassingen, waaronder dialoogsystemen die beter converseren, samenvattingstools die relevantere samenvattingen produceren, en systemen voor het genereren van inhoud die beter aansluiten op veiligheidsgegevens en -beleid en gebruikte gebruikers- en GPT-intenties.

Uitdagingen en toekomst van RLHF

Ondanks het succes bij het verbeteren van taalmodellen heeft Reinforcement Learning from Human Feedback uitdagingen qua resultaten en kwaliteit.

In lopend onderzoek en ontwikkeling wordt verder gezocht naar manieren om de beperkingen ervan te beperken en wordt de bredere impact ervan op door AI bewaakte opleidingsmethodologieën beter begrepen. Belangrijke aandachtsgebieden zijn onder meer de kwaliteit van menselijke feedback en de interactie tussen RLHF en bestaande technieken voor gecontroleerd leren.

Annotatiebias in RLHF overwinnen

De effectiviteit van GPT-responsen die door middel van RLHF worden bereikt, hangt af van de menselijke feedback, gegevens en het beleid dat wordt gebruikt om het beloningsmodel te trainen. Deze afhankelijkheid introduceert een belangrijke uitdaging: een aantekeningsbias.

De voorkeuren, gecodeerd in het beloningsmodel en vervolgens in het verfijnde LLM en GPT, weerspiegelen direct de oordelen van de specifieke groep menselijke annotatoren die de feedback hebben gegeven tijdens de leertaak.

Als deze groep niet voldoende divers is of als het aantekeningsproces vooroordelen introduceert, kan het resulterende AI-model vertekende perspectieven of oneerlijke vooroordelen vertonen, of niet in overeenstemming zijn met de waarden van een bredere gebruikersbasis.

Bronnen van een vertekening van de kwaliteit van het model en de getrainde dataset kunnen variëren van de demografische samenstelling van de annotators tot de specifieke instructies die ze krijgen, afhankelijk van het gegevensbeleid, dat onbedoeld hun voorkeuren kan sturen.

Hoge annotatormoeheid, verschillende inspanningsniveaus of verschillende interpretaties van subjectieve criteria zoals "nuttigheid" kunnen ook ruis en inconsistentie in hoge kwaliteit introduceren. Er is ook het risico dat we samenkomen op gemakkelijk acceptabele of meerderheidsstandpunten, wat geldige maar minder gebruikelijke perspectieven kan benadelen.

Impact op gecontroleerd leren met RLHF

Versterking Leren van menselijke feedback functioneert niet op zichzelf; het heeft een complexe en synergetische relatie met gecontroleerd leren (SFT), met name supervised fine-tuning (SFT), binnen de typische LLM- en GPT-pijplijn voor onder toezicht staande opleidingen.

RLHF-gegevens en -beleid moeten niet worden gezien als een vervanging voor SFT-taken, maar veeleer als een aanvullende verfijningsfase. SFT speelt de cruciale rol om het model in eerste instantie de basisfuncties voor instructie te leren, specifieke responsindelingen en kernvaardigheden op basis van samengestelde voorbeelden van gewenste resultaten. Dit biedt een noodzakelijke basis van competentie.

OVHcloud en RLHF

OVHcloud biedt een uitgebreide suite van AI, grote taalmodellen en ML-oplossingen. Ons platform is ontworpen voor prestaties, schaalbaarheid en kostenefficiëntie en stelt datawetenschappers en hun modellen, ontwikkelaars en bedrijven in staat eenvoudig geavanceerde AI-modellen te bouwen, op te leiden en te implementeren:

Public Cloud Icon

AI Training

Versnel uw ML-projecten met OVHcloud AI Training. Deze krachtige, kosteneffectieve oplossing biedt dedicated GPU-resources om uw AI-modellen op grote schaal te trainen. Start gemakkelijk gedistribueerde trainingstaken, beheer uw datasets en maak gebruik van populaire frameworks zoals TensorFlow en PyTorch.

Hosted Private cloud Icon

AI-laptop

Verken, prototype maken en gemakkelijk uw AI-modellen ontwikkelen met een OVHcloud AI-notebook. Krijg direct toegang tot gebruiksklare ontwikkelomgevingen zoals JupyterLab en VS Code, voorgeladen met essentiële data science libraries en frameworks.

Bare MetaL Icon

AI-oplossingen

Bouw, train en implementeer uw modellen voor artificiële intelligentie en machine learning naadloos met het krachtige OVHcloud AI & Machine Learning-platform. Profiteer van krachtige hardware, transparante prijzen en een veilige, soevereine cloudomgeving om uw AI-projecten van concept tot productie te versnellen.