Qu’est-ce que l’incorporation dans le machine learning ?


Que sont les incorporations dans le machine learning ?

L’intégration dans le machine learning est une technique puissante permettant de transformer des données discrètes, souvent de grande dimension, comme des mots individuels, des catégories de produits ou même des utilisateurs et des éléments distincts, en représentations vectorielles denses et continues au sein d’un espace plus facile à gérer et de dimension inférieure.

Essayer d'introduire du texte brut directement dans un modèle mathématique ne fonctionnerait tout simplement pas. Les embarcations constituent un pont crucial. Ils agissent comme une « table de correspondance » ou un dictionnaire sophistiqué où chaque élément unique est assigné à une liste unique de nombres réels, formant son vecteur.

IA & Machine learning OVHcloud

La véritable magie des embarquements dans le domaine de l’IA réside dans le fait que ces représentations ne sont pas arbitraires : elles sont apprises des données elles-mêmes lors du processus d’entraînement d’un modèle. Ce processus est conçu pour capturer les liens sémantiques sous-jacents ou les caractéristiques inhérentes des éléments.

Par conséquent, les éléments qui sont contextuellement ou sémantiquement similaires dans le dataset d'origine seront mappés à des vecteurs qui sont proches les uns des autres dans cet espace nouvellement créé. Par exemple, des mots comme « roi » et « reine » pourraient se retrouver avec des représentations similaires, reflétant leurs significations connexes.

Pourquoi Avons-Nous Besoin D'Incorporations ?

Le machine learning a souvent du mal à interpréter directement des données brutes et discrètes, comme des mots individuels ou des catégories de produits.

Tenter d’introduire ces données dans un modèle mathématique sous sa forme originale ne fonctionne pas, car les modèles nécessitent des entrées numériques. C'est là que l'intégration devient essentielle. Ils fournissent un pont crucial, agissant comme une « table de correspondance » sophistiquée qui traduit chaque élément unique en une liste de nombres réels (sa représentation vectorielle), rendant les données digestibles pour les algorithmes.

La véritable puissance et la nécessité des incorporations, cependant, découlent de la façon dont ces vecteurs sont créés. Il ne s'agit pas seulement d'affectations arbitraires ; ces représentations vectorielles sont apprises à partir des données elles-mêmes pendant l'entraînement d'un modèle.

Cet apprentissage est spécifiquement conçu pour capturer les relations sémantiques sous-jacentes ou les caractéristiques inhérentes des éléments, aidant ainsi les étapes MLOps.

Avantages de l’intégration dans le machine learning

Les incorporations offrent des avantages significatifs et multiformes dans les algorithmes de machine learning , transformant fondamentalement la façon dont les modèles peuvent interpréter, apprendre et utiliser des données complexes, souvent de haute dimension.

Meilleure compréhension sémantique

Les incorporations excellent dans la capture de la signification sous-jacente, du contexte et des relations nuancées entre des éléments discrets, tels que des mots, des produits ou même des utilisateurs. En représentant des éléments sémantiquement similaires avec des vecteurs qui sont géographiquement proches les uns des autres dans l'espace d'intégration appris, ceux-ci acquièrent une compréhension beaucoup plus approfondie des données.
 

Par exemple, une incorporation peut l'aider à comprendre que le « roi » et la « reine » partagent un contexte royal et sont liés au « monarque », tout en étant distincts du « paysan ».
 

Cela va au-delà des similitudes au niveau de la surface ; les relations géométriques dans l'espace d'incorporation (comme les décalages vectoriels) peuvent même capturer des analogies, telles que « roi - homme + femme = reine ». Cette compréhension sophistiquée de la sémantique est inestimable pour des tâches comme la traduction (préserver le sens dans toutes les langues), l'analyse des sentiments (détecter des sons émotionnels subtils) et la construction de systèmes de recommandation intelligents qui peuvent suggérer des éléments vraiment pertinents.

Efficacité et performances améliorées

Les méthodes traditionnelles de représentation de données discrètes créent souvent des vecteurs de dimension extrêmement élevée et épars (principalement des zéros avec un seul).
 

À mesure que le nombre d'éléments uniques augmente, cette dimensionnalité augmente également, ce qui mène à la « malédiction de la dimensionnalité » : les données deviennent trop clairsemées, les modèles deviennent coûteux à entraîner sur le plan informatique, nécessitent de grandes quantités de mémoire et ont du mal à bien se généraliser.
 

Les incorporations fournissent une solution directe en offrant des représentations denses et de faible dimension. Cette compacité réduit considérablement la charge de calcul, ce qui permet aux modèles de s'entraîner plus rapidement et de nécessiter moins de stockage.
 

Plus important encore, ces vecteurs denses, en capturant les informations essentielles, aident à identifier les modèles pertinents plus efficacement, ce qui conduit à une meilleure généralisation des données invisibles et, en fin de compte, à une plus grande précision et à une meilleure performance globale sur les tâches en aval.

Traitement efficace des données catégorielles

Les modèles de pipeline de machine learning rencontrent souvent des données catégorielles, qui peuvent aller de quelques classes distinctes à des milliers, voire des millions (fonctionnalités à forte cardinalité, comme les ID utilisateur ou les références SKU des produits).
 

La représentation numérique de ces données de manière à ce que les modèles puissent les utiliser efficacement est un défi. L'encodage d'entier simple impose une relation ordinale artificielle, tandis que l'encodage à un hôte devient lourd avec de nombreuses catégories.
 

Les incorporations offrent une approche beaucoup plus sophistiquée en apprenant une représentation vectorielle unique pour chaque catégorie.
 

Ce processus convertit non seulement les catégories en un format numérique utilisable, mais positionne également les catégories ayant des impacts ou des comportements similaires plus près de l'espace d'incorporation, révélant ainsi des caractéristiques et des relations latentes au sein des données catégorielles elles elles-mêmes. Cela permet au modèle de tirer parti de ces similitudes apprises, ce qui conduit à des prédictions plus robustes et plus perspicaces.

Transfert de connaissances grâce à des incorporations pré-entraînées

L'un des avantages pratiques les plus puissants de l'intégration est la capacité de transfert des connaissances à l'aide de modèles pré-entraînés.
 

Les chercheurs et les organisations investissent massivement dans l'intégration de formations sur des ensembles de données massifs. Par exemple, l’intégration de mots comme Word2Vec, GloVe ou ceux dérivés de modèles de langage à grande échelle (LLM) est entraînée sur des téraoctets de données textuelles, tandis que les géants du e-commerce peuvent entraîner l’intégration d’éléments sur des milliards d'interactions avec les utilisateurs. Ces incorporations pré-entraînées capturent une grande quantité de connaissances générales sur la structure linguistique ou les relations entre les éléments.
 

Les développeurs peuvent ensuite prendre ces incorporations facilement disponibles et les incorporer dans leurs propres modèles, même si leur tâche spécifique a des données d'entraînement limitées. Cette pratique, connue sous le nom d'apprentissage par transfert, peut accélérer considérablement le développement, fournir de solides bases de performance et permettre la création d'outils puissants sans avoir besoin de ressources de calcul importantes ou de vastes ensembles de données propriétaires à partir de zéro.

Fonctionnement de l'incorporation

Comprendre ce que sont les incorporations et pourquoi elles sont bénéfiques est une chose ; comprendre comment elles naissent et fonctionnent est la clé pour apprécier leur pouvoir.

Cette section explore les mécanismes qui sous-tendent les incorporations, en expliquant comment des informations distinctes sont transformées en vecteurs numériques riches que les modèles de machine learning peuvent utiliser efficacement. Nous allons explorer le processus qui donne du sens à ces vecteurs et leur permet de capturer des liens complexes dans les données.

Mappage aux vecteurs : Le concept de base

Au cœur de cette approche, l’incorporation consiste à créer une correspondance entre un ensemble discret d’éléments (comme des mots, des ID de produit ou des profils utilisateur) et une liste de nombres réels, appelée vecteur. Chaque élément unique de votre vocabulaire ou ensemble se voit attribuer son propre vecteur unique. Initialement, ces valeurs vectorielles peuvent être aléatoires ou initialisées selon une stratégie simple.

L'essentiel est que ces paramètres ne soient pas statiques ; ce sont des paramètres que le modèle de machine apprendra et ajustera au cours du processus.

La dimensionnalité de ceux-ci (c.-à-d. le nombre de nombres dans chaque liste) est un hyperparamètre que vous choisissez - il est généralement beaucoup plus petit que le nombre total d'éléments uniques, mais assez grand pour capturer des liens complexes.

Apprendre Par Le Biais De Réseaux Neuronaux

La façon la plus courante d'apprendre les incorporations est par le biais de réseaux neuronaux. Souvent, une couche d'incorporation dédiée est la première couche d'un réseau qui traite les entrées catégorielles ou textuelles.

Lorsqu'un élément (par example un mot représenté par un indice entier) est introduit dans cette couche, la couche recherche simplement son vecteur correspondant dans une « matrice d'incorporation » interne (où les lignes sont des indices d'élément et les colonnes sont les dimensions du vecteur). Ce vecteur devient alors l'entrée des couches suivantes dans le réseau.

Lors de la phase d'entraînement du réseau, alors qu'il s'efforce de minimiser son erreur de prédiction sur une tâche donnée, les signaux d'erreur sont rétro-propagés à travers le réseau, et les valeurs au sein des vecteurs d'incorporation eux-mêmes sont mises à jour avec d'autres poids du modèle.

Rôle de la fonction d'objectif

Les incorporations n'apprennent pas de représentations significatives en vase clos. Ils sont entraînés dans le cadre d’un modèle plus large conçu pour atteindre un objectif spécifique, défini par une fonction objectif (ou fonction perte). Par exemple :

  • Dans le traitement du langage naturel, les incorporations de mots (comme Word2Vec ou GloVe) sont souvent apprises en l'entraînant à prédire un mot en fonction de ses mots de contexte environnants (ou vice-versa). Le modèle ajuste les vecteurs de mot pour améliorer cette tâche de prédiction.
     
  • Dans les systèmes de recommandation, les incorporations d'élément ou d'utilisateur peuvent être apprises en entraînant un modèle pour prédire les évaluations d'utilisateur des éléments ou si un utilisateur interagira avec un élément.
     
  • Dans les tâches de classification avec des entrées catégorielles, un problème courant d'apprentissage supervisé, les incorporations sont apprises pour aider à mieux distinguer les différentes classes en fonction d'exemples étiquetés.

Les encastrements sont optimisés pour contenir les informations les plus pertinentes pour atteindre l'objectif.

Le résultat : Un espace vectoriel significatif

Grâce à ce processus d'entraînement, piloté par la fonction objectif, la couche d'incorporation apprend à disposer les vecteurs dans l'espace d'incorporation de sorte que les éléments qui sont sémantiquement similaires ou qui se comportent de manière similaire dans le contexte de la tâche soient positionnés plus près les uns des autres.

Les éléments différents seront plus éloignés les uns des autres. Cette relation géométrique dans l'espace vectoriel est ce qui rend les incorporations si puissantes. Cela signifie que les vecteurs ne sont pas que des nombres aléatoires ; ils encodent des liens appris et des caractéristiques des éléments originaux, ce qui permet au modèle de généraliser, de faire des prédictions nuancées, et même de découvrir des modèles cachés dans les données.

Que sont les modèles d'incorporation ?

Un modèle d'incorporation est un modèle de machine learning spécifiquement conçu pour apprendre et générer des représentations vectorielles significatives de données discrètes ou à haute dimension.

Bien que de nombreux systèmes de machines complexes puissent utiliser une couche d'incorporation dans le cadre de leur architecture, un « modèle d'incorporation » fait spécifiquement référence au système ou au processus axé sur la production de ces représentations vectorielles denses et significatives.

Ceux-ci prennent des données brutes, telles que des mots, des phrases, des images ou des identifiants utilisateur/élément, et les transforment en un espace de dimension inférieure où les liens sémantiques sont encodés dans la géométrie des vecteurs.

La sortie (les incorporations elles-mêmes) peut ensuite être utilisée directement pour des tâches telles que la recherche de similarité, la visualisation ou comme entrées de fonction pour d'autres modèles de machine en aval

Le processus de création de ces incorporations implique généralement l'entraînement d'un réseau neuronal sur une tâche spécifique, souvent autosupervisée.

Par exemple, un modèle d'incorporation de mots peut être entraîné à prédire un mot cible en fonction de ses mots de contexte environnants (ou inversement). Au fur et à mesure que le modèle apprend à effectuer cette tâche avec précision, les poids au sein de sa couche d'incorporation sont ajustés, devenant ainsi l'incorporation apprise.

Nos solutions de machine learning

Découvrez les solutions innovantes d'OVHcloud conçues pour alimenter vos ambitions dans l'espace IA et ML. Découvrez comment nos services de pointe peuvent vous aider à construire, déployer et faire évoluer vos projets dans le cloud :