O que é a aprendizagem do reforço a partir do feedback humano (RLHF)?
Introdução ao RLHF
A aprendizagem por reforço a partir da resposta humana (RLHF) é um grande passo em frente no treino do conjunto de dados e na otimização de modelos de inteligência artificial, em particular modelos humanos de grandes linguagens (LLM), alinhando-se melhor com as intenções e os valores do modelo humano.
Combina as técnicas de aprendizagem por reforço (RL) com o julgamento matizado dos humanos para direcionar o texto e o comportamento da IA para resultados mais úteis, honestos e inofensivos.
Em vez de depender apenas de conjuntos de dados predefinidos ou de funções de recompensa explícitas programadas pelos programadores, a RLHF aproveita as preferências humanas para orientar o processo de aprendizagem da inteligência artificial.

Definição e descrição geral
A aprendizagem por reforço a partir de feedback humano (RLHF) é uma técnica de aprendizagem por máquina que otimiza modelos de IA baseados no feedback fornecido por humanos. Na sua essência, envolve três componentes principais:
- Um modelo de IA pré-treinado (frequentemente um LLM)
- Feedback humano recolhido sobre os resultados do modelo
- Um algoritmo de aprendizagem por reforço que atualiza o modelo com base neste feedback
A ideia fundamental é treinar um modelo como um LLM, não apenas para realizar uma tarefa (como prever a palavra seguinte), mas para desempenhá-la de forma que os humanos encontrem alta qualidade e preferível. Isso geralmente envolve treinar um "modelo de recompensa" separado, que aprende a prever quais saídas os humanos seriam mais bem avaliadas.
Este modelo de recompensa treinado atua como a função de recompensa dentro de um ciclo de aprendizagem por reforço padrão, guiando o modelo original de IA para gerar resultados que maximizem a pontuação da preferência humana prevista.
É uma abordagem no trabalho que permite aos modelos de deep learning aprender qualidades mais humanas e complexas, subjetivas, como o tom, a segurança e a prestatividade, difíceis de captar com as métricas tradicionais.
O papel da resposta humana
O feedback humano é a pedra angular do processo de RLHF. O seu principal papel é injetar um julgamento humano matizado no ciclo de treino do conjunto de dados das redes neurais IA, guiando o modelo para além da simples conclusão de tarefas para um alinhamento qualitativo com os comportamentos desejados.
Definir qualidades como "prestatividade", "inocuidade" ou "veracidade" programaticamente é altamente desafiador. No entanto, os seres humanos podem avaliar intuitivamente estes atributos nas saídas geradas por IA.
Num fluxo de trabalho típico de RLHF, os humanos não escrevem necessariamente respostas de texto perfeitas nem fornecem correções detalhadas. Em vez disso, eles frequentemente comparam diferentes saídas geradas pela IA para o mesmo prompt e indicam qual elas preferem (por exemplo, ranqueando respostas do melhor para o pior).
Este feedback comparativo é geralmente mais fácil e mais escalável para os humanos fornecerem a um modelo do que críticas detalhadas, escrevendo respostas ideais desde o início ou desenvolvendo uma política de dados.
Modelos e formações RLHF
Assim que os conceitos fundamentais de RLHF e a importância do feedback humano para um modelo como um LLM forem compreendidos, valerá a pena aprofundar os modelos específicos e os procedimentos de treino envolvidos.
Normalmente, trata-se de um processo em várias etapas de alta qualidade em que as preferências humanas são primeiro capturadas num modelo específico, que é depois utilizado para orientar a afinação do modelo principal de IA através de algoritmos de aprendizagem por reforço.
Algoritmos de formação para RLHF
O núcleo do RLHF reside em afinar o modelo de IA gerativa (por exemplo, um LLM) utilizando uma aprendizagem por reforço orientada pelo sinal derivado do feedback humano.
Embora vários algoritmos RL possam ser usados, a abordagem mais comum e bem-sucedida empregue na prática, especialmente no caso de modelos de linguagem de grande dimensão, é a otimização de políticas (PPO - Proximal Policy Otimization). O PPO é favorecido por várias razões:
- Estabilidade e fiabilidade: Em comparação com os métodos mais simples de gradação de políticas, a PPO incorpora mecanismos (como recorte da função objetiva) que impedem atualizações substanciais à política do modelo (sua estratégia para gerar texto) em uma única etapa. Isto possibilita uma formação mais estável e fiável do seu conjunto de dados.
- Eficiência da amostra: Geralmente, equilibra a quantidade de dados utilizados no conjunto de dados e nas respostas e no data lakehouse (eficiência da amostra) e a facilidade de implementação e de ajuste de tarefas em comparação com alguns outros algoritmos RL complexos.
- Manutenção das capacidades: Um aspeto crucial de afinar grandes modelos pré-treinados é garantir que eles não "esqueçam" suas capacidades originais ou comecem a gerar textos sem sentido enquanto otimizam para a nova recompensa.
PPO geralmente inclui um termo penalizante (geralmente baseado na divergência KL) que desencoraja o modelo ajustado de se desviar muito drasticamente do seu comportamento original, pré-treinado.
Isto permite manter a fluência da linguagem e o conhecimento geral, ao mesmo tempo que se adapta às preferências humanas. O circuito de treino RL que utiliza PPO em RLHF funciona geralmente da seguinte forma:
- É recolhida uma amostra de um pedido de linguagem e esta é integrada na versão atual do modelo de IA (a política).
- O modelo gera uma resposta.
- A função de recompensa humana (detalhada abaixo) avalia a resposta de linguagem gerada para obter uma pontuação de recompensa escalar.
O algoritmo PPO utiliza esta pontuação de recompensa e a penalidade de divergência KL para calcular uma atualização dos parâmetros do modelo IA, com o objetivo de aumentar a probabilidade de gerar respostas que recebam pontuações de recompensa mais elevadas no futuro.
Função de Recompensa Humana em Modelos RLHF
Um ponto potencial de confusão é o termo "função de recompensa humana". Em RLHF, os humanos não fornecem diretamente uma pontuação de recompensa de feedback durante o ciclo de treinamento principal supervisionado por RL.
Fazer isso com um conjunto de dados recompensando cada etapa de cada tarefa seria incrivelmente lento e impraticável ao treinar um LLM ou outro modelo.
Em vez disso, as respostas humanas recolhidas anteriormente (por exemplo, comparações, classificações) são utilizadas para treinar um modelo separado conhecido como o modelo de recompensa (RM). Este modelo de recompensa atua como a função de recompensa durante a fase de ajuste refinado do RL. Veja como o modelo de recompensa é tipicamente construído e usado:
- Recolha de dados Os seres humanos fornecem feedback sobre a qualidade da preferência sobre pares (ou conjuntos) de saídas de modelo para vários prompts, indicando suas preferências (por exemplo, "A resposta é melhor que a resposta B").
- Treino de modelos recompensadores: Um modelo separado (muitas vezes inicializado utilizando o mesmo modelo de base pré-treinada que o que está a ser ajustado, mas com uma cabeça de saída diferente) é treinado nestes dados da linguagem de preferência. O seu objetivo é prever a pontuação de preferência de qualidade ou a classificação que um ser humano provavelmente daria a qualquer saída de modelo dado.
- Proxy para o julgamento humano: Uma vez que a função é treinada, o modelo de recompensa é um proxy de texto automático e escalável para o julgamento humano. Durante a fase de otimização da PPO, quando o modelo de IA principal gera uma resposta, essa resposta é integrada no modelo de recompensa treinada. A saída escalar do modelo de recompensa é então usada como o sinal de recompensa que o algoritmo PPO tenta maximizar ao realizar tarefas.
Assim, o modelo de recompensa treinada utiliza o feedback para internalizar as preferências humanas a partir do conjunto de dados recolhidos e fornece o sinal necessário para orientar o algoritmo RL, permitindo que o modelo de IA principal seja otimizado de forma eficiente para gerar resultados que se alinhem com essas preferências aprendidas.
A qualidade e robustez deste modelo de recompensa são essenciais para o sucesso global do processo RLHF, incluindo para um GPT LLM.
Aplicação do RLHF em modelos de linguagem
Embora os princípios de Reforço da Aprendizagem a partir de Feedback Humano tenham um alinhamento mais amplo, o seu impacto mais significativo realizou-se no domínio dos modelos de linguagem de grande dimensão (LLM) e na qualidade do resultado produzido.
A RLHF tornou-se uma técnica de linguagem fundamental para aperfeiçoar as capacidades, a qualidade e os comportamentos destes robustos sistemas de IA, uma vez que a RLHF se move para além da simples predição de texto para interações de linguagem mais sofisticadas e alinhadas.
RLHF no Treino de Modelo de Idioma
A tarefa de treino dos modelos modernos de línguas de grande dimensão envolve muitas vezes várias etapas, dependendo das políticas de dados. O pré-treino inicial em grandes empresas de texto dota os modelos de compreensão gramatical, conhecimento factual e reconhecimento de padrões.
Isto é frequentemente seguido por um ajuste fino supervisionado (SFT), em que o modelo da linguagem aprende a seguir instruções específicas ou a adotar estilos de resposta específicos, como comportar-se como um útil assistente, com base em exemplos organizados.
No entanto, as SFT e a política dos dados e dos conjuntos de dados, por si só, muitas vezes têm dificuldade em captar plenamente as subtilezas das preferências humanas no que diz respeito a qualidades como a preferência por prestígio, inocuidade, tom ou honestidade factual, especialmente quando os resultados treinados desejados são complexos ou subjetivos.
Alinhamento da RLHF com o tratamento da linguagem natural
A aplicação do RLHF no treino LLM e GPT está profundamente ligada ao desafio mais vasto do alinhamento da IA no âmbito do Processamento de Linguagem Natural (PLN) e da utilização do GPT.
Neste contexto, o alinhamento refere-se a assegurar que os sistemas de IA, em particular os que dispõem de vastas capacidades, compreendem e agem de acordo com as intenções humanas, os objetivos e os valores éticos.
Um alto nível de desalinhamento pode manifestar-se de várias maneiras, desde a geração de conteúdo subtilmente tendencioso ou falso a não seguir fielmente as instruções treinadas ou produzir resultados prejudiciais. Dada a complexidade da linguagem e dos valores humanos, especificar o comportamento desejável de forma abrangente através de códigos ou regras explícitas é muitas vezes intratável.
O RLHF oferece uma abordagem prática e de qualidade para abordar este problema de alinhamento diretamente nos sistemas PLN e com a política adequada em matéria de dados. Em vez de tentar pré-definir cada aspeto do comportamento desejado, a RLHF aprende estas preferências implicitamente a partir do feedback humano.
Ao treinar um modelo de recompensa que reconhece as características das respostas de qualidade que os humanos consideram "boas" (úteis, honestas, inofensivas, etc.), a RLHF cria uma proxy funcional para valores humanos que pode ser integrada ao processo de treino supervisionado.
A fase subsequente de aprendizagem por reforço otimiza as respostas e as políticas LM e GPT para responder às tarefas e produzir textos que obtenham resultados muito positivos de acordo com este proxy aprendido, conduzindo eficazmente o modelo para um melhor alinhamento com as preferências humanas.
Isso resulta no uso de modelos de linguagem de grande porte que estão mais alinhados e são mais úteis e mais seguros em uma variedade de aplicativos PLN, incluindo sistemas de diálogo que conversem de forma mais adequada, ferramentas de resumo que produzem resumos mais relevantes e sistemas de geração de conteúdo que se alinham melhor com dados e políticas de segurança e intenções GPT e de usuário usadas.
Desafios e o futuro da RLHF
Apesar do seu sucesso na melhoria dos modelos de linguagem, a aprendizagem por reforço a partir de feedback humano tem desafios nos resultados e na qualidade.
A investigação e desenvolvimento em curso continuam a explorar formas de atenuar as suas limitações e compreender o seu impacto mais amplo nas metodologias de formação supervisionadas pela IA. Entre as principais áreas de foco contam-se a qualidade do feedback humano e a interação entre a RLHF e as técnicas de aprendizagem supervisionadas estabelecidas.
Ultrapassando o viés de anotação em RLHF
A eficácia das respostas GPT obtidas através da RLHF depende do feedback humano, dos dados e da política utilizada para treinar o modelo de recompensa. Esta dependência introduz um desafio significativo: o viés da anotação.
As preferências, codificadas no modelo de recompensa e, posteriormente, nos aperfeiçoados LLM e GPT, refletem diretamente os julgamentos do grupo específico de anotadores humanos que forneceu o feedback durante a tarefa de aprendizagem.
Se este grupo não for suficientemente diversificado ou se o processo de anotação introduzir enviesamentos, o modelo de IA resultante pode apresentar perspetivas distorcidas, enviesamentos injustos ou não conseguir alinhar com os valores de uma base de utilizadores mais ampla.
As fontes de viés de qualidade dos modelos e dos conjuntos de dados treinados podem variar desde a composição demográfica dos anotadores até as instruções específicas que eles recebem, dependendo da política de dados, o que poderia inadvertidamente direcionar suas preferências.
A alta fadiga do anotador, níveis variados de esforço, ou interpretações diferentes de critérios subjetivos como "prestatividade" também podem introduzir ruído e inconsistência na alta qualidade. Há também o risco de convergir em pontos de vista facilmente agradáveis ou majoritários, penalizando potencialmente perspetivas válidas mas menos comuns.
Impacto do Aprendizado Supervisionado com RLHF
A aprendizagem por reforço a partir da resposta humana não funciona de forma isolada; tem uma relação complexa e sinérgica com a aprendizagem supervisionada (SL), particularmente a otimização supervisionada (SFT), no âmbito da linha de treino supervisionada típica do LLM e do GPT.
Os dados e a política do RLHF não devem ser vistos como uma substituição de tarefas SFT, mas sim como uma etapa de aperfeiçoamento complementar. As SFT desempenham o papel crucial de ensinar inicialmente o modelo de capacidades de seguimento de instrução de base, formatos de resposta específicos e competências de base baseadas em exemplos organizados de saídas desejadas. Isto oferece uma linha de base de competência necessária.
OVHcloud e RLHF
A OVHcloud oferece um pacote completo de soluções de IA, modelos de linguagem de grande escala e soluções ML. Concebida para desempenho, escalabilidade e eficácia de custos, a nossa plataforma permite que os cientistas de dados e os seus modelos, programadores e empresas criem, treinem e implementem facilmente modelos de IA de ponta:

AI Training
Acelere os seus projetos ML com o OVHcloud AI Training. Esta solução poderosa e económica oferece recursos GPU dedicados para treinar os seus modelos de IA à escala. Lance facilmente trabalhos de treino distribuídos, gira os seus conjuntos de dados e explore estruturas populares como TensorFlow e PyTorch.

Bloco de Notas AI
Explore, faça protótipos e desenvolva facilmente os seus modelos de IA com um Notebook OVHcloud AI. Obtenha acesso instantâneo a ambientes de desenvolvimento prontos a utilizar como JupyterLab e VS Code, pré-carregados com bibliotecas e frameworks de data science essenciais.

Soluções de IA
Construa, treine e implemente os seus modelos de inteligência artificial e de machine learning sem falhas com a plataforma de alto desempenho OVHcloud AI & Machine Learning. Beneficie de hardware potente, de preços transparentes e de um ambiente cloud seguro e soberano para acelerar os seus projetos IA, da conceção à produção.