Che cos'è l'apprendimento del rinforzo dal feedback umano (RLHF)?
Introduzione a RLHF
Rafforzare l’apprendimento grazie al feedback umano (RLHF) è un grande passo avanti nella formazione di dataset e nell’ottimizzazione di modelli di intelligenza artificiale, in particolare i modelli di linguaggio di grandi dimensioni (LLM) umani, e si allinea meglio alle intenzioni e ai valori dei modelli umani.
Combina le tecniche di apprendimento per rinforzo (RL) con il giudizio sfumato degli esseri umani per indirizzare il testo e il comportamento dell’IA verso risultati più utili, onesti e innocui.
Invece di affidarsi esclusivamente a dataset predefiniti o a funzioni di ricompensa esplicita programmate dagli sviluppatori, il metodo RLHF sfrutta le preferenze umane per guidare il processo di apprendimento dell’Intelligenza Artificiale.

Definizione e panoramica
Il Reinforcement Learning from Human Feedback (RLHF) è una tecnica di Machine Learning che perfeziona i modelli di IA in base al feedback fornito dall’uomo. Al suo centro, si articola in tre componenti principali:
- Un modello di IA pre-addestrato (spesso un LLM)
- Commenti umani raccolti sugli output del modello
- Algoritmo di apprendimento per il rinforzo che aggiorna il modello in base a questo feedback
L'idea fondamentale è quella di addestrare un modello come un LLM non solo per eseguire un compito (come prevedere la parola successiva) ma anche per eseguirlo in modo che gli esseri umani trovino di alta qualità e preferibile. Questo spesso implica l'addestramento di un "modello di ricompensa" separato che impara a prevedere quali output gli esseri umani valuterebbero più in alto.
Questo modello di ricompensa addestrato agisce quindi come funzione di ricompensa all’interno di un ciclo di apprendimento standard di rinforzo, guidando il modello di IA originale a generare output che massimizzino il punteggio di preferenza previsto per l’uomo.
Si tratta di un approccio nel lavoro che permette ai modelli di Deep Learning di imparare più umani e complessi, qualità soggettive come tono, sicurezza e disponibilità che sono difficili da catturare con le metriche tradizionali.
Il ruolo del feedback umano
Il feedback umano è la pietra angolare del processo RLHF. Il suo ruolo principale è quello di iniettare valutazioni umane sfumate nel loop di addestramento del set di dati delle reti neurali di IA, guidando il modello oltre il semplice completamento delle attività verso l’allineamento qualitativo con i comportamenti desiderati.
Definire qualità come "utilità", "innocuità" o "verità" a livello di programmazione è molto impegnativo. Gli esseri umani, tuttavia, possono valutare in modo intuitivo questi attributi nei risultati generati dall’IA.
In un tipico flusso di lavoro RLHF, gli esseri umani non scrivono necessariamente risposte di testo perfette o forniscono correzioni dettagliate. Al contrario, spesso confrontano diversi output generati dall’IA per lo stesso prompt e indicano quello che preferiscono (ad esempio, classificando le risposte dal migliore al peggiore).
Questo feedback comparativo è generalmente più semplice e più scalabile da fornire agli esseri umani per fornire un modello rispetto a critiche dettagliate, scrivendo risposte ideali partendo da zero o sviluppando una politica dei dati.
Modelli e training RLHF
Una volta compresi i concetti fondamentali di RLHF e l’importanza del feedback umano per un modello come un LLM, vale la pena approfondire i modelli specifici e le procedure di formazione coinvolte.
Si tratta in genere di un processo multi-stadio di alta qualità in cui le preferenze umane vengono acquisite per la prima volta in un modello specifico, che viene poi utilizzato per guidare la messa a punto del modello di IA principale utilizzando algoritmi di apprendimento di rinforzo.
Algoritmi di training per RLHF
Il fulcro di RLHF sta nel perfezionare il modello di IA generativa (ad esempio, un LLM) utilizzando l’apprendimento di rinforzo guidato dal segnale derivato dal feedback umano.
Sebbene possano essere utilizzati vari algoritmi di RL, l'approccio più comune e di successo utilizzato nella pratica, specialmente per i modelli di linguaggio di grandi dimensioni, è l'ottimizzazione delle politiche prossimali (Proximal Policy Optimisation, PPO). La PPO è preferita per diversi motivi:
- Stabilità e affidabilità: Rispetto a metodi di sfumatura più semplici, PPO incorpora meccanismi (come il clipping della funzione obiettivo) che impediscono aggiornamenti sostanziali alla politica del modello (la sua strategia per la generazione del testo) in un unico passaggio. Questo permette di usufruire di una formazione più stabile e affidabile.
- Efficienza del campione: In genere, bilancia la quantità di dati utilizzati nelle risposte ai dataset e nel data lakehouse (efficienza del campione) e la facilità di implementazione e tuning delle attività rispetto ad altri algoritmi RL complessi.
- Gestione delle funzionalità: Un aspetto fondamentale della messa a punto dei modelli di grandi dimensioni pre-addestrati consiste nell'assicurarsi che non "dimentichino" le capacità originali e non inizino a generare testo privo di senso ottimizzando al tempo stesso la soluzione per il nuovo premio.
La PPO spesso include un termine di penalità (tipicamente basato sulla divergenza KL) che scoraggia il modello ottimizzato dal deviare troppo drasticamente dal suo comportamento originale pre-addestrato.
Questa procedura consente di mantenere la fluidità del linguaggio e la conoscenza generale adattandosi alle preferenze umane. Il ciclo di addestramento RL che utilizza PPO in RLHF funziona generalmente come segue:
- Un prompt della lingua viene campionato e inserito nella versione corrente del modello di IA (il criterio).
- Il modello genera una risposta.
- La funzione umana di ricompensa (dettagliata di seguito) valuta la risposta del linguaggio generato per ottenere un punteggio di ricompensa scalare.
L’algoritmo PPO utilizza questo punteggio di ricompensa e la penalità di divergenza KL per calcolare un aggiornamento per i parametri del modello di IA, con l’obiettivo di aumentare la probabilità di generare risposte che riceveranno punteggi di ricompensa più alti in futuro.
Funzione di ricompensa umana nei modelli RLHF
Un potenziale punto di confusione è il termine "funzione di ricompensa umana". Nella RLHF, gli esseri umani non forniscono direttamente un punteggio di feedback durante il ciclo di addestramento principale supervisionato da RL.
Questo processo, basato sul feedback del dataset, è estremamente lento e poco pratico se si addestrano un LLM o un altro modello.
Al contrario, le risposte umane raccolte in precedenza (ad esempio, confronti, classifiche) vengono utilizzate per addestrare un modello separato noto come modello di ricompensa (RM). Questo modello di ricompensa funge da funzione di ricompensa durante la fase di ottimizzazione della limitazione della velocità. Ecco come è tipicamente costruito e utilizzato il modello di ricompensa:
- Raccolta dei dati Gli esseri umani forniscono feedback di qualità sulle coppie (o insiemi) di output di modelli per vari prompt, indicando le loro preferenze (ad esempio, "La risposta A è migliore della risposta B").
- Addestramento modello di ricompensa: Un modello separato (spesso inizializzato utilizzando lo stesso modello di base precedentemente addestrato di quello sottoposto a messa a punto, ma con una testina di output diversa) viene addestrato su questi dati del linguaggio delle preferenze. Il suo obiettivo è prevedere il punteggio delle preferenze di qualità o la valutazione che un essere umano darebbe a qualsiasi output del modello.
- Proxy del giudizio umano: Una volta che la funzione è stata addestrata, il modello di ricompensa è un proxy di testo scalabile e automatizzato per il giudizio umano. Durante la fase di fine tuning della PPO, quando il modello di IA principale genera una risposta, tale risposta viene inserita nel modello di ricompensa addestrato. L'output scalare del modello di ricompensa viene quindi utilizzato come segnale di ricompensa che l'algoritmo PPO tenta di massimizzare durante l'esecuzione delle attività.
Quindi, il modello di ricompensa addestrato utilizza il feedback per internalizzare le preferenze umane dal set di dati raccolto e fornisce il segnale necessario per guidare l’algoritmo RL, consentendo al modello di IA principale di essere ottimizzato in modo efficiente per generare output in linea con quelle preferenze apprese.
La qualità e la robustezza di questo modello di ricompensa sono fondamentali per il successo complessivo del processo RLHF, anche per un GPT LLM.
Applicazione di RLHF nei modelli linguistici
Anche se i principi di Reinforcement Learning from Human Feedback sono più ampiamente allineati, il loro impatto più significativo è stato realizzato nel settore dei modelli di linguaggio di grandi dimensioni (Large Language Model, LLM) e della qualità di output prodotta.
L’RLHF è diventata una tecnica linguistica fondamentale per perfezionare le capacità, la qualità e i comportamenti di questi solidi sistemi di IA, mentre l’RLHF va oltre la semplice previsione del testo verso interazioni linguistiche più sofisticate e allineate.
RLHF nella formazione sui modelli linguistici
Il compito formativo dei moderni modelli linguistici di grandi dimensioni si svolge spesso in più fasi, a seconda della politica dei dati. L'addestramento iniziale su grandi corporazioni di testo fornisce modelli con comprensione grammaticale, conoscenza dei fatti e riconoscimento dei modelli.
A questo segue spesso l'ottimizzazione supervisionata (SFT), in cui il modello di linguaggio impara a seguire istruzioni specifiche o ad adottare particolari stili di risposta, come comportarsi come un assistente utile, sulla base di esempi curati.
Tuttavia, le SFT e la politica dei dati e dei dataset da sola spesso faticano a catturare appieno le sottigliezze delle preferenze umane riguardo a qualità come la preferenza per l'utilità, l'innocuità, il tono o l'onestà dei fatti, specialmente quando i risultati addestrati desiderati sono complessi o soggettivi.
Allineamento di RLHF con elaborazione del linguaggio naturale
L’applicazione di RLHF nell’addestramento LLM e GPT è profondamente legata alla sfida più ampia dell’allineamento dell’IA nell’ambito dell’elaborazione del linguaggio naturale (NLP) e dell’uso di GPT.
L’allineamento, in questo contesto, si riferisce alla necessità di garantire che i sistemi di IA, in particolare i meccanismi di apprendimento permanente con ampie capacità, comprendano e agiscano secondo le intenzioni, gli obiettivi e i valori etici umani.
Un livello elevato di disallineamento può manifestarsi in vari modi, dalla generazione di contenuti tendenziosi o non veritieri alla mancata osservanza fedele delle istruzioni addestrate o alla produzione di output dannosi. Data la complessità del linguaggio e dei valori umani, specificare il comportamento desiderato in maniera esaustiva attraverso il codice o regole esplicite è spesso difficile.
Il RLHF offre un approccio pratico e di qualità per affrontare questo problema di allineamento direttamente all'interno dei sistemi NLP e con la giusta politica dei dati. Anziché tentare di predefinire ogni aspetto del comportamento desiderato, RLHF apprende queste preferenze implicitamente dal feedback umano.
Addestrando un modello di ricompensa per riconoscere le caratteristiche delle risposte di qualità che gli esseri umani ritengono "buone" (utili, oneste, innocue, ecc.), RLHF crea un proxy funzionale per i valori umani che può essere integrato nel processo di addestramento supervisionato.
La successiva fase di apprendimento rafforzato ottimizza quindi le risposte e la politica in materia di LLM e GPT per rispondere ai compiti e produrre un testo che ottenga un punteggio elevato in base a questo indicatore di apprendimento, indirizzando efficacemente il modello verso un migliore allineamento con le preferenze umane.
Questo si traduce nell'uso di modelli linguistici di grandi dimensioni meglio allineati e più utili e più sicuri in una serie di applicazioni NLP, tra cui sistemi di dialogo che convergono in modo più appropriato, strumenti di riepilogo che producono riepiloghi più rilevanti e sistemi di generazione dei contenuti che si allineano meglio con le politiche e i dati di sicurezza e con le finalità degli utenti e delle GPT utilizzate.
Sfide e futuro del RLHF
Nonostante il suo successo nel migliorare i modelli linguistici, Reinforcement Learning from Human Feedback presenta sfide in termini di risultati e qualità.
La ricerca e lo sviluppo in corso continuano a esplorare modi per mitigare i suoi limiti e comprendere il suo impatto più ampio sulle metodologie di formazione supervisionate dall’IA. Le aree di interesse principali includono la qualità del feedback umano e l'interazione tra RLHF e tecniche di apprendimento supervisionato consolidate.
Superamento della distorsione di annotazione in RLHF
L'efficacia delle risposte GPT ottenute tramite RLHF dipende dal feedback degli esseri umani, dai dati e dalla politica utilizzata per addestrare il modello di ricompensa. Questa dipendenza introduce una sfida significativa: il bias dell'annotazione.
Le preferenze, codificate nel modello di ricompensa e successivamente nel sistema LLM e GPT ottimizzato, riflettono direttamente i giudizi dello specifico gruppo di annotatori umani che hanno fornito il feedback durante l'attività di apprendimento.
Se questo gruppo non è sufficientemente diversificato o se il processo di annotazione introduce pregiudizi, il modello di IA risultante può presentare prospettive distorte, pregiudizi ingiusti o non essere in linea con i valori di una base di utenti più ampia.
Le fonti di distorsione della qualità dei modelli e dei dataset possono variare a seconda della composizione demografica degli annotatori e delle istruzioni specifiche ricevute, in base alla politica dei dati, che potrebbero inavvertitamente orientare le loro preferenze.
Anche un elevato affaticamento degli annotatori, diversi livelli di sforzo o diverse interpretazioni di criteri soggettivi come la "disponibilità" possono introdurre rumore e incoerenza nell'alta qualità. C'è anche il rischio di convergere su punti di vista facilmente accettabili o di maggioranza, penalizzando potenzialmente prospettive valide ma meno comuni.
Impatto sull'apprendimento supervisionato con RLHF
Reinforcement Learning from Human Feedback non opera in modo isolato; ha una relazione complessa e sinergica con l'apprendimento supervisionato (SL), in particolare con l'ottimizzazione supervisionata (SFT), all'interno della pipeline di formazione supervisionata tipica di LLM e GPT.
I dati e la politica RLHF non dovrebbero essere considerati come un sostituto dei compiti di SFT, ma piuttosto come una fase di perfezionamento complementare. SFT gioca il ruolo cruciale di insegnare inizialmente il modello base capacità di istruzione-follow, formati di risposta specifici, e competenze di base basate su esempi curati di output desiderati. Ciò fornisce un necessario quadro di riferimento delle competenze.
OVHcloud e RLHF
OVHcloud offre una suite completa di soluzioni di IA, modelli di linguaggio di grandi dimensioni e ML. Progettata per offrire prestazioni, scalabilità e convenienza, la nostra piattaforma consente ai data scientist e ai loro modelli, sviluppatori e aziende di creare, addestrare e implementare modelli di IA all’avanguardia con la massima semplicità:

AI Training
Accelera i progetti di ML con OVHcloud AI Training. Questa soluzione potente e conveniente fornisce risorse GPU dedicate per istruire i modelli di IA su larga scala. Avvia facilmente processi di formazione distribuiti, gestisci i tuoi dataset e utilizza framework popolari come TensorFlow e PyTorch.

AI Notebook
Esplora, prototipa e sviluppa facilmente i tuoi modelli di IA utilizzando un Notebook AI di OVHcloud. Accesso istantaneo ad ambienti di sviluppo pronti all’uso come JupyterLab e VS Code, precaricati con framework e librerie di data science essenziali.

Soluzioni di IA
Con la piattaforma di IA e Machine Learning di OVHcloud, puoi costruire, addestrare e implementare i tuoi modelli di Intelligenza Artificiale e Machine Learning in modo trasparente e senza problemi. Approfitta di un hardware potente, tariffe trasparenti e un ambiente Cloud sovrano e sicuro per accelerare i progetti di IA dalla progettazione alla produzione.