Qu’est-ce que l’apprentissage non supervisé ?

Name: Qu’est-ce que l’apprentissage non supervisé ?
Brand: OVHcloud
Rating: 4.8 (476 reviews)

L’apprentissage non supervisé est un type de machine learning dans lequel les algorithmes apprennent des modèles à partir de données non étiquetées. Contrairement à l’apprentissage supervisé, il n’existe pas de catégories de résultats prédéfinies ; le système tente de donner un sens aux données en identifiant les structures inhérentes, les regroupements ou les relations par lui-même.

Comment fonctionne l’apprentissage non supervisé ?

Les algorithmes d’apprentissage non supervisé sont conçus pour explorer et trouver des modèles cachés dans des ensembles de données dépourvus de labels prédéfinis ou de résultats cibles. Au lieu de se faire dicter ce qu’il faut rechercher, ces algorithmes passent au crible les données pour découvrir par eux-mêmes les structures et les relations inhérentes.

Exploration des données et découverte de modèles

Le processus central d'intelligence artificielle commence par alimenter l'algorithme de machine learning avec un ensemble de données composé uniquement de fonctionnalités d'entrée, sans variables de sortie correspondantes. L'algorithme traite ensuite ces données de manière itérative, en essayant d'identifier les modèles sous-jacents. Cela peut impliquer :

Identification des similitudes ou des différences : L'algorithme recherche des points de données qui sont semblables ou distincts en fonction de leurs caractéristiques.
Comprendre la distribution des données : Il peut essayer de comprendre comment les données sont réparties et s'il y a des regroupements naturels.
Réduction de la complexité : Parfois, l’objectif est de simplifier les données en y retrouvant les fonctionnalités les plus essentielles.

Approche algorithmique

Différents algorithmes d’apprentissage non supervisé ont utilisé diverses techniques mathématiques et statistiques pour atteindre leurs objectifs d’entraînement. Par exemple :

Les algorithmes de clustering visent à regrouper des points de données similaires. Ils peuvent calculer les distances entre les points et affecter ceux qui sont proches les uns des autres au même cluster. L'algorithme apprend les caractéristiques de ces groupes à partir des données elles-mêmes.

Les algorithmes de réduction de dimension visent à réduire le nombre de variables d’apprentissage (caractéristiques) dans l’ensemble de données tout en préservant les informations importantes. Ils identifient les corrélations et les redondances pour créer une représentation plus compacte des données.

Les algorithmes d'exploration des règles d'association recherchent les relations ou les cooccurrences entre les éléments de grands ensembles de données, comme l'identification des produits fréquemment achetés ensemble dans un supermarché.

L'algorithme d'intelligence artificielle apprend essentiellement la structure inhérente des données en minimisant ou en maximisant une fonction objective qui saisit l'essence d'une « bonne » structure (p. ex., en minimisant la distance à l'intérieur des grappes et en maximisant la distance entre les grappes). Il s'agit d'un processus exploratoire guidé par les données elles-mêmes.

Différents types d’apprentissage non supervisé

L'apprentissage non supervisé identifie des modèles dans les données non étiquetées à l'aide de techniques telles que le clustering, la réduction de la dimensionnalité et l'exploration des règles d'association, qui peuvent être intégrées dans les flux de travail MLOps.

Clustering

Le clustering est peut-être le type d’apprentissage non supervisé le plus connu. L'objectif principal du clustering pour le modèle est de regrouper un ensemble d'objets de telle sorte que les objets d'un même groupe (appelé cluster) soient plus similaires les uns aux autres que ceux des autres clusters. L'algorithme découvre ces regroupements naturels dans les données en fonction des caractéristiques inhérentes des points de données.

Le clustering fonctionne généralement en mesurant la similarité (ou la dissimilarité) entre les points de données, souvent en utilisant des métriques de distance comme la distance euclidienne ou la similarité cosinus. Ils attribuent ensuite des points de données aux clusters afin de maximiser la similarité intra-cluster et de minimiser la similarité inter-cluster. Le processus de clustering est ainsi terminé.

Réduction de dimension

Les techniques de réduction de la dimensionnalité visent à réduire le nombre de variables ou de caractéristiques aléatoires considérées. Cela est particulièrement utile pour traiter des ensembles de données à haute dimension (ensembles de données ayant de nombreuses fonctionnalités), car cela peut simplifier les données, réduire la complexité de calcul, atténuer la « malédiction de la dimensionnalité » et aider à la visualisation.

Ces méthodes transforment les données du modèle d'un espace à dimensions élevées en un espace à dimensions inférieures tout en essayant de préserver les propriétés significatives et la variance des données d'origine. Pour ce faire, vous pouvez utiliser Sélection de fonctions, qui sélectionne un sous-ensemble des fonctions d'origine, ou Extraction de fonctions, qui crée un nouvel ensemble de fonctions plus petit en combinant les fonctions d'origine.

Exploration des règles d'association

L'exploration de règles d'association est une méthode basée sur des règles permettant de découvrir des relations intéressantes entre des variables dans de grands ensembles de données. Il est largement utilisé pour identifier les modèles de cooccurrence, tels que les articles fréquemment achetés ensemble dans l'analyse du panier de consommation.

Ces algorithmes recherchent des règles « si-alors » (par exemple, si l'article A est acheté, alors l'article B est susceptible d'être acheté). La force de ces règles est évaluée à l'aide de mesures telles que : le soutien, qui indique la fréquence à laquelle les articles apparaissent dans l'ensemble de données ; la confiance, qui indique la fréquence à laquelle la règle s'est avérée vraie ; et la levée, qui mesure la probabilité d'achat de l'article B lorsque l'article A est acheté, par rapport à sa probabilité générale d'utilisation.

Détection des anomalies (détection des anomalies)

Bien qu'elle soit parfois considérée comme un champ distinct, la détection d'anomalies fait souvent appel à des techniques non supervisées pour identifier des points de données, des événements ou des observations qui s'écartent considérablement de la majorité des données, c'est-à-dire les « anomalies » ou les « anomalies ». Les anomalies étant rares et souvent inconnues au préalable, les méthodes non supervisées sont bien adaptées car elles ne nécessitent pas de connaissance préalable (étiquettes) de ce qui constitue une anomalie.

Ici, les méthodes construisent un modèle de comportement normal des données, puis identifient les instances qui ne sont pas conformes à ce modèle. Il peut s'agir de propriétés statistiques, de distances, de densités ou d'erreurs de reconstruction.

Défis et limites de l'apprentissage non supervisé

Bien que l'apprentissage non supervisé offre des outils puissants pour découvrir des informations cachées dans les données à l'aide du pipeline de machine learning pour le modèle, il s'accompagne également de son propre ensemble de défis et de limitations. L'un des obstacles les plus importants est peut-être la difficulté d'évaluer les résultats.

Contrairement à l'apprentissage supervisé, où les modèles sont évalués par rapport à des étiquettes connues, l'apprentissage non supervisé manque d'une « vérité fondamentale ». Il est donc par nature plus difficile de mesurer objectivement la qualité ou la pertinence des modèles découverts, ce qui nécessite souvent des méthodes de validation plus subjectives ou indirectes.

De plus, l’interprétation des sorties des algorithmes d’intelligence artificielle non supervisés repose fortement sur l’expertise d’exemples de domaines pour le modèle. Les modèles, les grappes ou les dimensions réduites identifiés par le modèle doivent être soigneusement examinés par une personne compétente dans le domaine spécifique afin de déterminer leur signification réelle et leurs implications pratiques. Sans l'apport de ces experts, il y a un risque d'interprétation erronée des conclusions ou de mise en évidence de tendances qui sont statistiquement intéressantes, mais qui ne sont pas pertinentes sur le plan pratique.

Variations de performances

La performance des modèles d’apprentissage non supervisé est très sensible au choix et à la mise à l’échelle des fonctionnalités. Des caractéristiques non pertinentes ou mal mises à l’échelle peuvent obscurcir des modèles significatifs ou conduire les algorithmes à découvrir des structures trompeuses.

Par conséquent, des efforts importants en ingénierie de fonctionnalités et en prétraitement sont souvent nécessaires pour obtenir des résultats d'exemple utiles. De plus, bien que l'apprentissage non supervisé excelle dans l'identification des structures inhérentes, il ne prédit pas directement les résultats spécifiques ou les variables cibles, ce qui peut être une limitation si une tâche prédictive est le but ultime.

Certains algorithmes, en particulier ceux qui traitent de très grands ensembles de données ou de haute dimensionnalité, peuvent également être gourmands en calculs et nécessiter des ressources considérables. Enfin, il est toujours possible que les algorithmes découvrent des modèles fallacieux ou dénués de sens, en particulier si les données sont bruitées ou si la méthode choisie n'est pas bien adaptée à la structure sous-jacente de l'ensemble de données, ce qui rend cruciales une analyse et une validation minutieuses.

Apprentissage non supervisé vs. apprentissage supervisé

Comprendre la distinction entre apprentissage non supervisé et apprentissage supervisé est fondamental pour appréhender le paysage du machine learning. Bien que les deux visent à tirer des enseignements des données, leurs approches et leurs objectifs diffèrent considérablement, principalement en fonction de la nature des données d'entrée qu'ils utilisent. La différence la plus cruciale réside dans les données elles-mêmes.

Apprentissage supervisé

Les algorithmes de machine learning supervisés fonctionnent avec des données d'exemple étiquetées. Cela signifie que pour le processus supervisé, chaque point de données du jeu d'apprentissage a une sortie connue ou une variable cible qui lui est associée. L'algorithme apprend à mapper les fonctions d'entrée à ces étiquettes prédéfinies.

L'objectif principal du processus supervisé est de prédire un résultat spécifique ou une classification des données en catégories connues. Par exemple, prédire les prix des logements en fonction de caractéristiques comme la taille et l'emplacement (où les prix historiques sont connus), ou classer les e-mails comme spam ou non (où les e-mails sont pré-étiquetés) sont des tâches d'apprentissage supervisées courantes.

Apprentissage non supervisé

Les algorithmes de machine learning non supervisés, à l'inverse, fonctionnent avec des données d'exemple non étiquetées lorsqu'ils modélisent. Les points de données du modèle n'ont pas de sorties ou de catégories prédéfinies. L'algorithme doit explorer les données pour trouver des modèles, structures ou relations inhérents par lui-même.

L'objectif principal ici est de découvrir des modèles cachés, de regrouper des éléments similaires ou de réduire la complexité des données. Par exemple, la segmentation des clients en différents groupes en fonction de leur comportement d'achat (sans connaissance préalable de ces groupes) ou l'identification d'anomalies dans le trafic réseau.

Comparaison des principales caractéristiques

Décrivons les caractéristiques distinctives de chaque approche de modèle d'intelligence artificielle. Quand on pense à l'apprentissage supervisé, on retrouve les caractéristiques suivantes :

Input data : Utilise des données étiquetées, ce qui signifie que chaque point de données est fourni avec une sortie ou une balise correcte correspondante.
Objectif principal : Vise à prédire les résultats pour les nouvelles données ou à classer les données dans des catégories prédéfinies en fonction de la cartographie apprise à partir des données d'apprentissage étiquetées.
Algorithmes : Les algorithmes courants comprennent la régression linéaire, la régression logistique, les machines à vecteurs de support (SVM), les arbres de décision et les réseaux neuronaux (pour les tâches supervisées).
Conseils : Le processus d’apprentissage est explicitement guidé par les variables cibles connues dans l’ensemble de données d’apprentissage.
Tâches courantes : Parmi les exemples figurent la détection de pourriels dans les courriels, la reconnaissance d'images (p. ex., l'identification de chats sur des photos), le diagnostic médical fondé sur les données des patients et la prévision des cours boursiers.
Évaluation Les performances sont généralement mesurées en comparant les prédictions de l'algorithme aux étiquettes connues, à l'aide de mesures telles que la précision, la précision, le rappel, le score F1 ou l'erreur quadratique moyenne.

À l’inverse, un modèle d’apprentissage non supervisé présente les caractéristiques suivantes :

Input data : Fonctionne avec des données d'exemple non étiquetées, où seules les fonctions d'entrée sont fournies sans aucune variable de sortie correspondante.
Objectif principal : Se concentre sur la découverte de modèles cachés, de structures inhérentes ou de relations au sein des données. Cela inclut le regroupement de points de données similaires (clustering), la réduction du nombre de fonctions (réduction de la dimensionnalité) ou la recherche de modèles de cooccurrence (exploration des règles d'association).
Algorithmes : Les algorithmes les plus populaires comprennent le clustering K-means, le clustering hiérarchique, l'analyse en composantes principales (PCA), l'algorithme Apriori. Les autocodeurs, souvent classés comme techniques d'apprentissage autosupervisé, peuvent être utilisés pour la réduction de la dimensionnalité et la détection d'anomalies.
Conseils : L’algorithme explore les données sans guidage explicite ni réponse correcte prédéfinie.
Tâches courantes : On peut citer, par exemple, la segmentation des clients pour le marketing, la détection d’anomalies dans les transactions financières, la modélisation de sujets dans des documents texte volumineux et la création de systèmes de recommandation.
Évaluation L'évaluation est souvent plus difficile et subjective, car il n'y a pas de réponses « correctes » à comparer. Les mesures peuvent inclure la cohésion et la séparation du cluster (pour le clustering), la quantité de variance retenue (pour la réduction de la dimensionnalité) ou l'évaluation humaine des modèles découverts.

Quand utiliser ce qui est une question complètement différente. On peut soutenir que vous devriez choisir l'apprentissage supervisé lorsque vous avez étiqueté des données et un résultat cible clair que vous voulez prédire ou utiliser pour la classification.

Vous devez opter pour l'apprentissage non supervisé de l'intelligence artificielle lorsque vous avez des données non étiquetées et que vous souhaitez les explorer à la recherche d'informations cachées, les regrouper ou en simplifier la structure.

Cas d’usage du machine learning non supervisé

L'apprentissage non supervisé, en découvrant des modèles cachés dans des données non étiquetées pour un modèle, entraîne une variété d'applications percutantes dans de nombreux secteurs. Les principales applications sont les suivantes :

Clustering d’applications : Ces méthodes regroupent des points de données similaires pour découvrir des segments naturels. Les utilisations courantes comprennent la segmentation des clients pour le marketing ciblé, l'organisation de grands ensembles de documents par sujet (modélisation de sujet), la segmentation des images pour identifier les objets et l'identification des communautés dans les réseaux sociaux.
Applications de réduction de dimension : Ces techniques simplifient les ensembles de données complexes en réduisant le nombre de fonctions tout en préservant les informations importantes. Cela est essentiel pour visualiser des données à haute dimension, améliorer l'efficacité et les performances d'autres modèles de machine learning grâce à l'ingénierie des fonctionnalités et réduire le bruit dans les données.
Applications d'exploration de règles d'association : Ce type d'algorithme de machine découvre des relations intéressantes et des modèles de cooccurrence entre des éléments dans de grands ensembles de données. Elle est notamment utilisée pour l'analyse des paniers de consommation dans le commerce de détail (pour voir quels produits sont achetés ensemble), pour alimenter les moteurs de recommandation dans le commerce électronique et les services de streaming, et pour analyser les modèles d'utilisation du Web.
Applications de détection d’anomalies : Ces applications se concentrent sur l'identification d'éléments, d'événements ou d'observations rares qui s'écartent considérablement de la norme. Les cas d'utilisation critiques comprennent la détection des fraudes dans les transactions financières, la détection des intrusions dans les systèmes de cybersécurité, l'identification des défauts dans les processus de fabrication et la surveillance de la santé des patients à la recherche de signes vitaux inhabituels.

OVHcloud et l’apprentissage non supervisé

Pour mettre en œuvre et faire évoluer efficacement des projets d'apprentissage non supervisé et votre modèle, des outils et une infrastructure robustes sont essentiels. OVHcloud fournit plusieurs solutions conçues pour soutenir le développement, le déploiement et la gestion de modèles de machine learning, notamment ceux utilisés dans des contextes d'apprentissage non supervisés :

AI Deploy

Déployez et faites évoluer vos modèles de machine learning sans effort avec AI Deploy. Combler le fossé entre le développement et la production d'intelligence artificielle en rendant vos modèles d'IA facilement accessibles via des API. Concentrez-vous sur vos algorithmes pendant que nous nous occupons de l'infrastructure, afin d'assurer une haute disponibilité et des performances optimales pour vos applications intelligentes.

IA et machine learning

Accélérez vos workflows d'IA et de machine learning avec notre solution de machine learning puissante et évolutive. OVHcloud AI Machine Learning vous fournit les outils et l'infrastructure pour entraîner, gérer et déployer vos modèles efficacement.

Public Cloud

Construisez, déployez et gérez vos applications d'intelligence artificielle avec flexibilité et contrôle sur la solution Public Cloud d’OVHcloud. Notre infrastructure robuste et évolutive offre une large gamme de services, notamment des instances de calcul, des solutions de stockage et des capacités de mise en réseau.