Co to jest uczenie się przez wzmocnienie na podstawie ludzkiego sprzężenia zwrotnego (RLHF)?


Prezentacja RLHF

Uczenie się poprzez wzmacnianie na podstawie ludzkiego sprzężenia zwrotnego (RLHF) jest dużym krokiem naprzód w trenowaniu zbiorów danych i optymalizacji modeli sztucznej inteligencji, w szczególności dużych modeli językowych (LLM), i lepiej dostosowuje się do intencji i wartości modeli ludzkich.

Łączy ona techniki uczenia ze wzmocnieniem (RL) z niuansowanym osądem człowieka, aby ukierunkować tekst i zachowania AI na bardziej pomocne, uczciwe i nieszkodliwe wyniki.

Zamiast polegać wyłącznie na predefiniowanych zbiorach danych lub jawnych funkcjach nagrody zaprogramowanych przez deweloperów, RLHF wykorzystuje preferencje człowieka do kierowania procesem uczenia się sztucznej inteligencji.

AIendpoint

Definicja i omówienie

Reinforcement Learning from Human Feedback (RLHF) to technika uczenia maszynowego, która precyzyjnie dostraja modele AI w oparciu o ludzkie sprzężenie zwrotne. Jego istota składa się z trzech głównych elementów:

  • Wstępnie wytrenowany model AI (często LLM)
  • Ludzka opinia na temat wyników modelu
  • Algorytm uczenia się ze wzmocnieniem, który aktualizuje model na podstawie tej informacji zwrotnej

Fundamentalną ideą jest wytrenowanie modelu takiego jak LLM nie tylko po to, aby wykonać zadanie (jak przewidywanie następnego słowa), ale aby wykonać je w sposób, który ludzie uznają za wysokiej jakości i preferowany. Często wiąże się to ze szkoleniem oddzielnego "modelu nagrody", który uczy się przewidywać, które wyjścia ludzie ocenią wyżej.

Ten wytrenowany model nagrody działa jako funkcja nagrody w standardowej pętli uczenia ze wzmocnieniem, kierując oryginalnym modelem AI w celu wygenerowania wyników, które maksymalizują przewidywaną ocenę preferencji człowieka.

Jest to podejście w pracy, które pozwala modelom Deep Learning uczyć się więcej ludzkich i złożonych, subiektywnych cech, takich jak ton, bezpieczeństwo i przydatność, które trudno uchwycić tradycyjnymi metrykami.

Rola opinii użytkowników

Ludzkie opinie są kamieniem węgielnym procesu RLHF. Jego główną rolą jest wprowadzenie niuansowego osądu człowieka do pętli treningowej zbiorów danych sieci neuronowych AI, prowadząc model poza proste ukończenie zadań w kierunku jakościowego dopasowania do pożądanych zachowań.

Definiowanie cech takich jak "przydatność", "nieszkodliwość" czy "prawdziwość" programowo jest dużym wyzwaniem. Jednak ludzie mogą intuicyjnie ocenić te atrybuty w danych wyjściowych generowanych przez sztuczną inteligencję.

W typowym przepływie pracy RLHF ludzie niekoniecznie piszą idealne odpowiedzi tekstowe lub wprowadzają szczegółowe poprawki. Zamiast tego często porównują różne wyniki generowane przez sztuczną inteligencję w tym samym oknie dialogowym i wskazują preferowany przez siebie punkt (np. klasyfikowanie odpowiedzi od najlepszej do najgorszej).

Ta porównawcza opinia jest zazwyczaj łatwiejsza i bardziej skalowalna, aby dostarczyć modelowi więcej niż szczegółowa krytyka, pisanie idealnych odpowiedzi od zera lub opracowanie polityki dotyczącej danych.

Modele i szkolenia RLHF

Kiedy już poznamy podstawowe pojęcia RLHF i znaczenie ludzkiego sprzężenia zwrotnego dla modelu takiego jak LLM, warto przeanalizować konkretne modele i procedury treningowe.

Wiąże się to zazwyczaj z wysokiej jakości wieloetapowym procesem, w którym preferencje człowieka są najpierw rejestrowane w określonym modelu, który jest następnie używany do precyzyjnego dostrojenia głównego modelu AI za pomocą algorytmów uczenia ze wzmocnieniem.

Algorytmy treningowe dla RLHF

Rdzeń RLHF polega na precyzyjnym dostrojeniu modelu Generative AI (np. LLM) przy użyciu uczenia wzmacniającego kierowanego sygnałem pochodzącym z ludzkiego sprzężenia zwrotnego.

Chociaż można korzystać z różnych algorytmów RL, najpowszechniejszym i najbardziej skutecznym podejściem stosowanym w praktyce, zwłaszcza w przypadku dużych modeli językowych, jest Proximal Policy Optimization (PPO). PPO jest preferowana z kilku powodów:

  • Stabilność i niezawodność: W porównaniu z prostszymi metodami gradientu polityki, POP wykorzystuje w jednym kroku mechanizmy (takie jak wycinanie funkcji celu), które uniemożliwiają istotne aktualizacje polityki modelu (jego strategii generowania tekstu). To z kolei przekłada się na bardziej stabilne i niezawodne trenowanie zbiorów danych.
     
  • Wydajność przykładów: Generalnie równoważy ona ilość danych używanych w odpowiedziach na zbiory danych i w jeziorze danych (wydajność próby) oraz łatwość realizacji zadań i strojenia w porównaniu z niektórymi innymi złożonymi algorytmami adresów URL.
     
  • Utrzymanie potencjału: Kluczowym aspektem dostrajania dużych wstępnie wytrenowanych modeli jest zapewnienie, aby nie "zapomniały" o swoich oryginalnych możliwościach lub zaczęły generować bezsensowny tekst, jednocześnie optymalizując pod kątem nowej nagrody.

PPO często zawiera termin karny (zazwyczaj oparty na dywergencji KL), który zniechęca precyzyjnie dostrojony model do zbyt drastycznego odchodzenia od jego oryginalnego, wstępnie wytrenowanego zachowania.

Działa to w celu utrzymania biegłości językowej i ogólnej wiedzy przy jednoczesnym dostosowywaniu się do preferencji człowieka. Pętla treningowa URL wykorzystująca POP w RLHF działa na ogół w następujący sposób:

  • Monit w języku jest próbkowany i wprowadzany do bieżącej wersji modelu AI (polityka).
  • Model generuje odpowiedź.
  • Funkcja ludzkiego nagradzania (szczegółowo opisana poniżej) ocenia generowaną odpowiedź językową, aby uzyskać skalarny wynik.

Algorytm PPO używa tego wyniku i kary za rozbieżności KL do obliczenia aktualizacji parametrów modelu AI, aby zwiększyć prawdopodobieństwo wygenerowania odpowiedzi, które otrzymają wyższe wyniki w przyszłości.

Human Reward Function w modelach RLHF

Potencjalnym punktem dezorientacji jest termin "funkcja ludzkiego nagradzania". W RLHF, ludzie nie przekazują bezpośrednio wyniku sprzężenia zwrotnego podczas głównej pętli treningowej nadzorowanej przez RL.

Czynienie tego z informacją zwrotną na temat zbioru danych, nagradzając każdy krok za każde zadanie, byłoby niezwykle powolne i niepraktyczne podczas treningu LLM lub innego modelu.

Zamiast tego, odpowiedzi ludzkie zebrane wcześniej (np. porównania, rankingi) są wykorzystywane do trenowania oddzielnego modelu znanego jako model nagrody (RM). Ten model nagrody działa jako funkcja nagrody podczas fazy dostrajania adresu URL. Poniżej przedstawiamy, w jaki sposób model nagrody jest zazwyczaj budowany i używany:

  • Gromadzenie danych Ludzie dostarczają preferencyjne informacje zwrotne o jakości par (lub zestawów) danych wyjściowych modelu dla różnych monitów, wskazując swoje preferencje (np. "Odpowiedź A jest lepsza niż odpowiedź B").
     
  • Trening modelu nagrody: Na tych danych trenowany jest odrębny model (często inicjowany przy użyciu tego samego wstępnie wytrenowanego modelu bazowego co model precyzyjnie dostrojony, ale z inną głowicą wyjściową). Jego celem jest przewidywanie wyniku preferencji jakościowych lub oceny człowieka, która prawdopodobnie będzie miała wpływ na dane dane wyjściowe modelu.
     
  • Proxy osądu człowieka: Po wytrenowaniu funkcji model nagrody jest zautomatyzowanym, skalowalnym proxy tekstowym pozwalającym osądzać ludzi. Na etapie dostrajania POP, kiedy główny model AI generuje odpowiedź, ta odpowiedź jest przekazywana do wytrenowanego modelu nagrody. Skalarne dane wyjściowe z modelu nagrody są następnie wykorzystywane jako sygnał nagrody, który algorytm PPO próbuje zmaksymalizować podczas wykonywania zadań.

Tak więc wytrenowany model nagrody wykorzystuje informacje zwrotne do internalizacji preferencji człowieka ze zgromadzonego zbioru danych i dostarcza sygnał niezbędny do kierowania algorytmem RL, umożliwiając efektywną optymalizację głównego modelu AI w celu generowania wyników zgodnych z tymi wyuczonymi preferencjami.

Jakość i solidność tego modelu nagrody są kluczowe dla ogólnego sukcesu procesu RLHF, w tym dla GPT LLM.

Stosowanie RLHF w modelach językowych

Chociaż zasady uczenia się przez wzmacnianie za pomocą ludzkiego sprzężenia zwrotnego są bardziej spójne, jego najbardziej znaczący wpływ został osiągnięty w dziedzinie dużych modeli językowych (LLM) i jakości wytwarzanych wyników.

RLHF stał się kamieniem węgielnym techniki językowej do udoskonalenia możliwości, jakości i zachowań tych solidnych systemów AI, ponieważ RLHF wykracza poza zwykłe przewidywanie tekstu w kierunku bardziej zaawansowanych i dopasowanych interakcji językowych.

RLHF w trenowaniu modeli językowych

Zadanie treningowe nowoczesnych dużych modeli językowych często przebiega wieloetapowo, w zależności od polityki dotyczącej danych. Wstępne szkolenie wstępne dotyczące ogromnych korpusów tekstowych zapewnia modele ze zrozumieniem gramatycznym, wiedzą faktograficzną i rozpoznawaniem wzorców.

Po tym często następuje nadzorowane dostrajanie (SFT), gdzie model językowy uczy się przestrzegać określonych instrukcji lub przyjąć określone style odpowiedzi, takie jak zachowanie się jak pomocny asystent, na podstawie wyselekcjonowanych przykładów.

Jednak same tylko dane SFT oraz polityki dotyczące zbiorów danych często mają trudności z pełnym uchwyceniem subtelności ludzkich preferencji w odniesieniu do cech, takich jak preferencje dotyczące przydatności, nieszkodliwości, ton czy uczciwość faktów, zwłaszcza gdy pożądane wyniki treningu są złożone lub subiektywne.

Dostosowanie RLHF do przetwarzania języka naturalnego

Zastosowanie RLHF w szkoleniach LLM i GPT jest głęboko powiązane z szerszym wyzwaniem, jakim jest dopasowanie AI w ramach przetwarzania języka naturalnego (NLP) i korzystania z GPT.

Wyrównanie w tym kontekście oznacza zapewnienie, aby systemy sztucznej inteligencji, w szczególności LLM, miały ogromne możliwości, rozumiały i działały zgodnie z intencjami, celami i wartościami etycznymi człowieka.

Wysoki poziom rozbieżności może objawiać się na różne sposoby, od generowania subtelnie stronniczych lub nieprawdziwych treści po nieprzestrzeganie wiernie wytrenowanych instrukcji lub tworzenie szkodliwych wyników. Biorąc pod uwagę złożoność języka i wartości ludzkie, kompleksowe określanie pożądanych zachowań za pomocą kodu lub wyraźnych reguł jest często trudne.

RLHF oferuje praktyczne, wysokiej jakości podejście do rozwiązania tego problemu dopasowania bezpośrednio w systemach NLP i z odpowiednią polityką dotyczącą danych. Zamiast próbować wstępnie zdefiniować każdy aspekt pożądanego zachowania, RLHF uczy się tych preferencji niejawnie na podstawie ludzkich opinii.

Trenując model nagrody w celu rozpoznania cech jakościowych odpowiedzi, które ludzie uważają za "dobre" (pomocne, uczciwe, nieszkodliwe itp.), RLHF tworzy funkcjonalny proxy dla wartości ludzkich, które można zintegrować z nadzorowanym procesem szkolenia.

Kolejna faza uczenia ze wzmocnieniem optymalizuje odpowiedzi LLM i GPT oraz politykę w odpowiedzi na zadania i tworzy tekst, który osiąga wysokie oceny zgodnie z tym wyuczonym proxy, skutecznie kierując model w kierunku lepszego dopasowania do preferencji człowieka.

Skutkuje to wykorzystaniem dużych modeli językowych, które są lepiej dostosowane, bardziej użyteczne i bezpieczniejsze w wielu zastosowaniach NLP, w tym systemów dialogu, które w bardziej odpowiedni sposób konwersują, narzędzi do sumowania, które tworzą bardziej istotne podsumowania, oraz systemów tworzenia treści, które lepiej odpowiadają danym i polityce bezpieczeństwa oraz wykorzystują intencje użytkownika i GPT.

Wyzwania i przyszłość RLHF

Pomimo sukcesu w ulepszaniu modeli językowych, Uczenie się poprzez wzmacnianie za pomocą ludzkich sprzężeń zwrotnych ma wyzwania w zakresie wyników i jakości.

Trwające prace badawczo-rozwojowe wciąż poszukują sposobów ograniczenia ograniczeń i zrozumienia ich szerszego wpływu na metodologie szkoleniowe nadzorowane przez sztuczną inteligencję. Kluczowe obszary zainteresowania obejmują jakość ludzkiego sprzężenia zwrotnego oraz wzajemne zależności między RLHF a ustalonymi technikami nadzorowanego uczenia się.

Pokonanie błędu adnotacji w RLHF

Skuteczność odpowiedzi GPT uzyskiwanych za pomocą RLHF zależy od ludzkiego sprzężenia zwrotnego, danych i polityki używanej do trenowania modelu nagrody. Ta zależność stwarza poważne wyzwanie: tendencyjność adnotacji.

Preferencje, zakodowane w modelu nagrody, a następnie w precyzyjnie dostrojonym LLM i GPT, bezpośrednio odzwierciedlają osądy konkretnej grupy ludzkich komentatorów, którzy przekazali informację zwrotną podczas zadania uczenia się.

Jeśli grupa ta nie jest wystarczająco różnorodna lub proces adnotacji wprowadza uprzedzenia, powstały model AI może wykazywać wypaczone perspektywy, nieuczciwe uprzedzenia lub nie być zgodny z wartościami szerszej bazy użytkowników.

Źródła odchyleń jakości modeli i wytrenowanych zbiorów danych mogą wahać się od składu demograficznego komentatorów do konkretnych instrukcji, które są im udzielane, w zależności od polityki dotyczącej danych, która może przypadkowo kierować ich preferencjami.

Wysoki poziom zmęczenia komentatorami, zróżnicowany poziom wysiłku czy odmienna interpretacja subiektywnych kryteriów, takich jak "pomocność", mogą również powodować szum i niespójność w wysokiej jakości. Istnieje również ryzyko uspójnienia punktów widzenia łatwych do zaakceptowania przez większość, potencjalnie penalizujących ważne, ale mniej powszechne perspektywy.

Wpływ na uczenie nadzorowane za pomocą RLHF

Uczenie się przez wzmacnianie od ludzkiego sprzężenia zwrotnego nie działa w odizolowaniu; ma złożony i synergiczny związek z uczeniem nadzorowanym (SL), w szczególności nadzorowanym dostrajaniem (SFT), w ramach typowego potoku szkoleń nadzorowanych przez LLM i GPT.

Danych i polityki RLHF nie należy postrzegać jako zamiennika zadań SFT, lecz raczej jako uzupełniający etap udoskonalenia. SFT odgrywa kluczową rolę we wstępnym nauczaniu modeli podstawowych zdolności następczych, specyficznych formatów odpowiedzi i podstawowych umiejętności w oparciu o wyselekcjonowane przykłady pożądanych wyników. Stanowi to konieczny punkt odniesienia dla kompetencji.

OVHcloud i RLHF

OVHcloud oferuje kompleksowy pakiet rozwiązań AI, duże modele językowe i ML. Stworzona z myślą o wydajności, skalowalności i efektywności kosztowej, nasza platforma umożliwia ekspertom data science oraz ich modelom, programistom i firmom łatwe budowanie, trenowanie i wdrażanie najnowocześniejszych modeli AI:

Public Cloud

AI Training

Przyspiesz Twoje projekty ML dzięki OVHcloud AI Training. To wydajne i przystępne cenowo rozwiązanie zapewnia dedykowane zasoby GPU do trenowania modeli AI na dużą skalę. W prosty sposób uruchamiaj rozproszone zadania szkoleniowe, zarządzaj zbiorami danych i wykorzystuj popularne frameworki, takie jak TensorFlow i PyTorch.

Ikona Hosted Private Cloud

AI Notebook

Poznaj, utwórz prototypy i w prosty sposób rozwijaj modele AI przy użyciu OVHcloud AI Notebook. Zyskaj natychmiastowy dostęp do gotowych do użytku środowisk programistycznych, takich jak JupyterLab i VS Code, wstępnie załadowanych niezbędnymi bibliotekami data science i frameworkami.

Ikona Bare Metal

Rozwiązania AI

Twórz, trenuj i wdrażaj modele sztucznej inteligencji i uczenia maszynowego bezproblemowo za pomocą wydajnej platformy OVHcloud AI & Machine Learning. Korzystaj z wydajnego sprzętu, przejrzystych cen oraz bezpiecznego, suwerennego środowiska chmurowego, aby przyspieszyć realizację projektów AI od koncepcji do produkcji.