O que são incorporações no machine learning?
O que são as incorporações no Machine Learning?
Os incorporamentos no machine learning são uma técnica potente para transformar dados discretos, muitas vezes de dimensões elevadas, tais como palavras individuais, categorias de produtos, ou até mesmo utilizadores e itens distintos, em representações densas e contínuas de vetores, num espaço mais controlável e de dimensões mais baixas.
Tentando alimentar texto bruto diretamente num modelo matemático; bem, simplesmente não funcionaria. Os incorporamentos constituem uma ponte crucial. Eles agem como uma sofisticada "tabela de pesquisa" ou dicionário onde cada item único é atribuído uma lista única de números reais, formando o seu vetor.

A verdadeira magia das incorporações no domínio da IA reside no facto de estas representações não serem arbitrárias, elas são aprendidas a partir dos próprios dados durante o processo de treino de um modelo. Este processo é concebido para capturar as ligações semânticas subjacentes ou as características inerentes aos elementos.
Consequentemente, os itens que são contextualmente ou semanticamente semelhantes no conjunto de dados original serão mapeados para vetores que são próximos uns dos outros neste espaço recém-criado. Por exemplo, palavras como "rei" e "rainha" podem acabar tendo representações similares, refletindo significados relacionados.
Porque É Que Precisamos De Incorporações?
Muitas vezes, o Machine Learning tem dificuldade em interpretar diretamente dados brutos e discretos, tais como palavras individuais ou categorias de produtos.
A tentativa de introduzir estes dados num modelo matemático, na sua forma original, não funciona, uma vez que os modelos requerem entrada numérica. É aqui que as incorporações se tornam essenciais. Eles fornecem uma ponte crucial, atuando como uma sofisticada "tabela de pesquisa" que traduz cada item exclusivo em uma lista de números reais - sua representação vetorial - tornando os dados digeríveis para algoritmos.
A verdadeira potência e necessidade das incorporações, no entanto, vêm de como esses vetores são criados. Não são apenas atribuições arbitrárias; estas representações vetoriais são aprendidas a partir dos próprios dados durante o treino de um modelo.
Esta aprendizagem foi especificamente concebida para captar as relações semânticas subjacentes ou as características inerentes aos elementos, auxiliando as etapas MLOps.
Vantagens da incorporação no machine learning
Os incorporamentos oferecem vantagens significativas e multifacetadas nos algoritmos de aprendizagem automático, o que transforma fundamentalmente a forma como os modelos podem interpretar, aprender e utilizar dados complexos, muitas vezes de dimensões elevadas.
Compreensão Semântica Melhorada
As incorporações destacam-se por captar o significado subjacente, o contexto e as relações variadas entre itens discretos, tais como palavras, produtos ou até mesmo utilizadores. Ao representarem itens semanticamente semelhantes com vetores que estão geograficamente próximos uns dos outros no espaço de incorporação aprendido, estes obtêm uma compreensão muito mais profunda dos dados.
Por exemplo, uma incorporação pode ajudá-lo a entender que "rei" e "rainha" compartilham um contexto real e estão relacionados ao "monarca", enquanto são distintos do "camponês".
Isto vai além das semelhanças ao nível da superfície; as relações geométricas no espaço de incorporação (como deslocamentos vetoriais) podem até capturar analogias, tais como "rei - homem + mulher = rainha". Esta compreensão sofisticada da semântica é inestimável para tarefas como a tradução (preservar significado entre linguagens), análise de sentimento (detetar tons emocionais sutis), e construção de sistemas de recomendação inteligentes que podem sugerir itens verdadeiramente relevantes.
Eficiência e desempenho melhorados
Métodos tradicionais para representar dados discretos geralmente criam vetores extremamente dimensionais e esparsos (principalmente zeros com um único).
À medida que o número de itens únicos cresce, esta dimensionalidade também cresce, conduzindo à "maldição da dimensionalidade" — onde os dados se tornam muito escassos, os modelos tornam-se computacionalmente caros para treinar, requerem grandes quantidades de memória e lutam para generalizar bem.
Os embutimentos fornecem uma solução direta ao oferecerem representações densas de dimensões inferiores. Esta compacidade reduz significativamente a carga de cálculo, permitindo que os modelos treinem mais rapidamente e requeiram menos armazenamento.
Mais importante ainda, estes vetores densos, ao captarem informações essenciais, ajudam a identificar padrões relevantes de forma mais eficaz, conduzindo a uma maior generalização em dados não vistos e, em última análise, a alcançarem uma maior precisão e um melhor desempenho global em tarefas "downstream".
Tratamento Eficaz de Dados Categóricos
Os modelos de pipeline de Machine Learning encontram frequentemente dados categóricos, que podem ir de algumas classes distintas a milhares ou até milhões (funcionalidades de elevada cardinalidade como ID de utilizador ou SKU de produto).
Representar esses dados numericamente de forma a que os modelos os possam utilizar de forma eficaz é um desafio. A codificação simples de números inteiros impõe uma relação ordinal artificial, enquanto que a codificação simples torna-se difícil de controlar com muitas categorias.
Os embutimentos oferecem uma abordagem muito mais sofisticada, aprendendo uma representação vetorial única para cada categoria.
Este processo não só converte as categorias num formato numérico utilizável, como também posiciona as categorias com impactos ou comportamentos semelhantes mais próximo do espaço de incorporação, descobrindo assim funcionalidades latentes e relações no seio dos próprios dados categóricos. Isto permite que o modelo potencialize estas semelhanças aprendidas, conduzindo a previsões mais robustas e esclarecedoras.
Transferência de conhecimento com incorporações pré-treinadas
Uma das vantagens práticas mais potentes das incorporações é a capacidade de transferência de conhecimentos através de modelos pré-treinados.
Investigadores e organizações investem fortemente na formação de incorporações em conjuntos de dados massivos - por exemplo, incorporações de palavras como Word2Vec, GloVe ou as derivadas de modelos de linguagem volumosa (LLMs) são treinadas em terabytes de dados de texto, enquanto os gigantes do e-commerce poderiam treinar incorporações de itens em milhares de milhões de interações com utilizadores. Essas incorporações pré-treinadas capturam uma vasta quantidade de conhecimento geral sobre a estrutura da linguagem ou as relações entre itens.
Os programadores podem pegar nestas incorporações prontamente disponíveis e incorporá-las nos seus próprios modelos, mesmo que a sua tarefa específica tenha dados de formação limitados. Esta prática, conhecida como "transfer learning", pode acelerar significativamente o desenvolvimento, fornecer bases de desempenho sólidas e permitir a criação de ferramentas poderosas sem a necessidade de dispor de recursos computacionais extensivos ou de vastos conjuntos de dados proprietários desde o início.
Como funciona a incorporação
Compreender o que é a incorporação e o porquê de ela ser benéfica é uma coisa; compreender como é que ela realmente chega à existência e à função é fundamental para apreciar o seu poder.
Esta secção analisa a mecânica por detrás das incorporações, explicando como as partes discretas da informação são transformadas em vetores ricos e numéricos que os modelos de machine learning podem utilizar de forma eficaz. Iremos explorar o processo que confere significado a estes vetores e lhes permite captar ligações complexas entre dados.
Mapeamento para Vetores: O Conceito Básico
Em seu núcleo, uma incorporação funciona criando um mapeamento de um conjunto discreto de itens (como palavras, IDs de produtos ou perfis de usuário) para uma lista de números reais, conhecida como um vetor. Cada item exclusivo do seu vocabulário ou conjunto recebe o seu próprio vetor. Inicialmente, estes valores vetoriais podem ser aleatórios ou inicializados de acordo com uma estratégia simples.
O aspeto decisivo é que estes parâmetros não são estáticos; são parâmetros que o modelo da máquina irá aprender e ajustar durante o processo.
A dimensionalidade destes (i.e., quantos números estão em cada lista) é um hiperparâmetro que você escolhe - é tipicamente muito menor do que o número total de itens únicos, mas grande o suficiente para capturar links complexos.
Aprender Através De Redes Neurais
A forma mais comum de aprender incorporações é através de redes neurais. Muitas vezes, uma camada de incorporação dedicada é a primeira camada de uma rede que processa entradas categóricas ou textuais.
Quando um item (por exemplo, uma palavra representada por um índice inteiro) é introduzido nesta camada, a camada simplesmente procura o seu vetor correspondente numa "matriz de incorporação" interna (onde as linhas são os índices de item e as colunas são as dimensões vetoriais). Este vetor torna-se então a entrada para as camadas subsequentes na rede.
Durante a fase de treino da rede, enquanto esta trabalha para minimizar o erro de previsão numa determinada tarefa, os sinais de erro são propagados através da rede e os valores dentro dos vetores de incorporação são atualizados juntamente com outros pesos de modelo.
O Papel da Função de Objetivo
As incorporações não aprendem representações significativas no vácuo. São treinados como parte de um modelo maior concebido para atingir um objetivo específico, definido por uma função objetiva (ou função de perda). Por exemplo:
- No processamento de linguagem natural, incorporações de palavras (como Word2Vec ou GloVe) são muitas vezes aprendidas treinando-as para prever uma palavra dada a sua palavra de contexto circundante (ou vice-versa). O modelo ajusta a palavra vetores para se tornar melhor nessa tarefa de predição.
- Nos sistemas de recomendação, as incorporações de itens ou utilizadores podem ser aprendidas através do treino de um modelo para prever as classificações dos utilizadores para itens ou se um utilizador irá interagir com um item.
- Nas tarefas de classificação com entradas categóricas, um problema de aprendizagem supervisionado comum, as incorporações são aprendidas para ajudar a discriminar melhor entre as diferentes classes com base em exemplos classificados.
As incorporações são otimizadas de modo a conter as informações mais relevantes para a realização do objetivo.
O resultado Um espaço vetorial significativo
Através deste processo de treino, dirigido pela função objetiva, a camada de incorporação aprende a organizar os vetores no espaço de incorporação de tal forma que os itens que são semanticamente semelhantes ou que se comportam de forma semelhante no contexto da tarefa são posicionados mais perto uns dos outros.
Itens diferentes ficarão mais afastados. Esta relação geométrica no espaço vetorial é o que torna as incorporações tão poderosas. Isso significa que os vetores não são apenas números aleatórios; eles codificam links e recursos aprendidos dos itens originais, permitindo que o modelo generalize, faça previsões matizadas e até mesmo descubra padrões ocultos nos dados.
O que são modelos de incorporação?
Um modelo de incorporação é um modelo de machine learning especificamente concebido para aprender e gerar representações vetoriais significativas de dados discretos ou de alta dimensão.
Embora muitos sistemas de máquinas complexas possam utilizar uma camada de incorporação como parte da sua arquitetura, um "modelo de incorporação" refere-se especificamente ao sistema ou processo focado na produção destas representações vetoriais significativas e densas.
Eles pegam em dados brutos, como palavras, sentenças, imagens ou identificadores de usuário/item e os transformam em um espaço de dimensão inferior onde os links semânticos são codificados na geometria dos vetores.
A saída - as próprias incorporações - pode então ser usada diretamente para tarefas como pesquisa de semelhanças, visualização, ou como entradas de funcionalidades para outros modelos de máquinas downstream
O processo de criação destas incorporações envolve tipicamente o treino de uma rede neuronal numa tarefa específica, muitas vezes autossupervisada.
Por exemplo, um modelo de incorporação de palavras pode ser treinado para prever uma palavra-alvo com base em suas palavras de contexto vizinhas (ou vice-versa). À medida que o modelo aprende a realizar esta tarefa com precisão, os pesos dentro da sua camada de incorporação são ajustados, tornando-se efetivamente a incorporação aprendida.
As nossas soluções de machine learning
Descubra as soluções inovadoras da OVHcloud concebidas para impulsionar as suas ambições no espaço da IA e do ML. Descubra como os nossos serviços de ponta o podem ajudar a construir, implementar e escalar os seus projetos na cloud: