Qu’est-ce que l’apprentissage supervisé ?
L’apprentissage supervisé est un type de machine learning dans lequel l’algorithme apprend à partir de données étiquetées.
Imaginez un apprentissage supervisé comme un étudiant qui apprend avec un enseignant. Le « professeur » (qui est souvent un data scientist ou un expert du domaine) fournit à l'ordinateur un ensemble d'exemples, où chaque exemple comprend à la fois l'entrée et la sortie correcte correspondante.

L'objectif fondamental de l'apprentissage supervisé est que l'algorithme « apprenne » une règle générale ou une fonction de cartographie qui peut prendre de nouvelles entrées invisibles et prédire la sortie correcte pour elles. On parle de « supervisé » parce que le processus d'un algorithme qui apprend à partir de l'ensemble de données d'apprentissage peut être considéré comme un enseignant qui supervise le processus d'apprentissage.
Nous connaissons les bonnes réponses (labels), l'algorithme fait itérativement des prédictions sur les données d'entraînement et est corrigé par l'enseignant. L'apprentissage s'arrête lorsque l'algorithme atteint un niveau de performance acceptable.
Comment fonctionne l’apprentissage supervisé ?
L’apprentissage supervisé peut sembler complexe, mais les méthodes sous-jacentes suivent un processus structuré. Il s'agit d'apprendre à une machine en lui montrant des exemples et en testant ensuite sa compréhension. Voici une description des étapes typiques :
Collecte et préparation des données étiquetées
Le processus commence par la collecte des données pertinentes. Il est essentiel que ces données soient étiquetées pour le machine learning supervisé. Cela signifie que chaque donnée d'entrée est associée à une sortie correcte correspondante ou « tag ». Par exemple, si vous créez un détecteur de spam, vos données seront des e-mails (entrée) étiquetés comme « spam » ou « not spam » (sortie).
La qualité et la quantité de ces données étiquetées sont primordiales dans les méthodes utilisées. Plus le modèle de fonction voit des exemples pertinents et de haute qualité, plus il apprendra et sera performant. Cette étape implique souvent un nettoyage des données (traitement des valeurs manquantes, suppression des erreurs) et un prétraitement (transformation des données dans un format adapté à l’algorithme).
Fractionnement des données en ensembles d'apprentissage, de validation et de test
Une fois que vous avez votre jeu de données étiqueté, il est de pratique courante de ne pas l'utiliser entièrement pour enseigner directement le modèle. Au lieu de cela, il est généralement divisé. Le Training Set constitue la plus grande partie des données et est utilisé pour entraîner le modèle de machine learning. Le modèle « voit » ces exemples et apprend la relation entre les entrées et leurs étiquettes correspondantes.
Un jeu de validation (facultatif mais fortement recommandé) est utilisé pendant le processus d'entraînement pour régler les paramètres du modèle (hyperparamètres) et prendre des décisions concernant son architecture. Il permet d'éviter que le modèle ne devienne trop spécialisé dans les données d'entraînement (problème connu sous le nom de surajustement) en fournissant une évaluation impartiale au fur et à mesure de l'apprentissage.
Enfin, le jeu de tests est utilisé après l'entraînement (et la validation) du modèle pour fournir une évaluation impartiale des performances du modèle final. Ces données n'ont jamais été vues par le modèle auparavant, ce qui donne une bonne indication de la façon dont le modèle fonctionnera sur de nouvelles données réelles.
Choix d'un modèle (sélection d'un algorithme)
En fonction du problème que vous essayez de résoudre (par exemple, prédire une catégorie comme « spam/not spam » - classification, ou prédire une valeur continue comme le prix d'une maison - régression) et de la nature de vos données, vous sélectionnerez un algorithme d'apprentissage supervisé approprié . Il existe de nombreux algorithmes parmi lesquels vous pouvez choisir, comme la régression linéaire, la régression logistique, les arbres de décision, les machines à vecteurs de support (SVM), les réseaux neuronaux, etc.
Entraînement du modèle
C'est là que l'« apprentissage » se produit. L'algorithme choisi traite l'ensemble d'apprentissage. Le modèle effectue des prédictions sur la base des données d'entrée et compare ces prédictions aux étiquettes connues réelles.
En cas de divergence (erreur), l'algorithme ajuste ses paramètres internes pour faire de meilleures prédictions la prochaine fois. Pour ce faire, on tente souvent de minimiser une « fonction de perte », qui quantifie la distance entre les prévisions du modèle et les valeurs réelles.
Ce processus d'ajustement itératif se poursuit jusqu'à ce que le modèle atteigne un niveau de précision satisfaisant sur les données d'entraînement (et fonctionne bien sur les données de validation).
Évaluation du modèle
Une fois l'entraînement terminé, les performances du modèle sont évaluées à l'aide du jeu de test. Les indicateurs communs utilisés pour l'évaluation dépendent du type de problème.
Pour la classification, les mesures telles que la précision, la précision, le rappel et le score F1 sont courantes. Pour la régression, on utilise souvent l'erreur quadratique moyenne (ESM) ou la valeur du coefficient de détermination. Cette étape est cruciale pour comprendre dans quelle mesure le modèle est susceptible de se généraliser à de nouvelles données invisibles.
Si les performances du modèle sont satisfaisantes, il peut être déployé pour faire des prédictions sur de nouvelles données actives. Par exemple, notre filtre anti-spam commencerait maintenant à classer les e-mails entrants qu'il n'a jamais vus auparavant. Il est également important de surveiller en permanence les performances du modèle dans le monde réel, car les modèles de données peuvent changer au fil du temps (un concept connu sous le nom de « dérive du modèle »), ce qui peut nécessiter un réentraînement ou des ajustements du modèle.
En substance, l'apprentissage supervisé est un processus itératif consistant à fournir des exemples étiquetés à un algorithme, lui permettant d'apprendre des modèles, puis de tester sa capacité à généraliser ces modèles à de nouvelles données.
Types de machine learning supervisé
Les problèmes d'apprentissage supervisé, bien que tous enracinés dans le principe d'apprendre à partir de données étiquetées, sont généralement distingués en deux catégories principales : Classification et régression. La différence fondamentale entre eux dépend de la nature de la sortie que le modèle est conçu pour prédire.
Classification :
La classification concerne les tâches dont l'objectif est de prévoir une catégorie discrète ou un libellé de classe. Cela signifie que la variable de sortie n'est pas un nombre qui peut varier continuellement, mais plutôt un groupe distinct, tel que « oui » ou « non », « spam » ou « non spam », ou des types d'objets spécifiques comme « chat », « chien » ou « humain ».
Le modèle apprend à partir d'un jeu de données d'entraînement où chaque entrée est déjà affectée à une classe prédéfinie. Son objectif devient alors d'assigner avec précision de nouveaux points de données invisibles à l'une de ces catégories apprises.
Il existe de nombreuses applications pratiques de la classification. Par exemple, dans la détection des e-mails de spam, les modèles classent les e-mails entrants en tant que « spam » ou « not spam ». Les tâches de reconnaissance d'images utilisent la classification pour identifier des objets dans les images, par exemple pour classer une image comme contenant une « voiture », une « bicyclette » ou un « piéton ».
Régression :
D'autre part, la régression est la technique d'apprentissage supervisé utilisée lorsque la variable de sortie est une valeur numérique continue. Contrairement à la classification, qui prédit à quelle catégorie appartient un élément, la régression vise à prédire la quantité d’un élément ou ce qu’une valeur numérique spécifique sera. Le modèle apprend à mapper des variables d'entrée à une sortie continue.
Les exemples concrets de régression abondent. La prédiction du prix d'une maison implique l'estimation du prix du marché d'une maison en fonction de caractéristiques telles que sa taille, le nombre de chambres et l'emplacement. Dans la finance, les modèles de régression sont utilisés pour la prévision des cours des actions, en essayant de prédire les valeurs boursières futures sur lesquelles les décisions doivent être fondées.
Les algorithmes courants utilisés pour les tâches de régression comprennent la régression linéaire et la régression polynomiale. La régression vectorielle de support (SVR) est un autre choix populaire, aux côtés d'algorithmes adaptables comme les arbres de décision, les forêts aléatoires et les réseaux neuronaux lorsqu'ils sont configurés pour une sortie continue.
Apprentissage supervisé versus apprentissage non supervisé
Bien que l’apprentissage supervisé et non supervisé soit un pilier fondamental du machine learning et de la prédiction, ils abordent les problèmes en utilisant des méthodologies et des objectifs fondamentalement différents, se distinguant principalement par le type de données qu’ils utilisent et les objectifs qu’ils visent à atteindre. Comprendre leurs différences est essentiel pour sélectionner la bonne approche pour une tâche donnée.
Choix des données d'entrée
L'exemple le plus significatif d'une distinction réside dans la nature des données d'entrée. L'apprentissage supervisé, comme nous en avons discuté, repose sur des données étiquetées. Cela signifie que pendant sa phase d'entraînement, l'algorithme est doté d'ensembles de données où chaque exemple d'entrée est associé à une sortie correcte correspondante ou « label ».
Il apprend en comparant sa prédiction à ces étiquettes connues et en s'ajustant pour minimiser les erreurs. Pensez-y comme au machine learning avec un enseignant qui fournit les réponses.
Prise en compte des données sans étiquette
En revanche, l’apprentissage non supervisé fonctionne avec des données non étiquetées. Les algorithmes reçoivent des données composées uniquement de fonctions d’entrée, sans variables de sortie explicites ni réponses correctes. L’objectif n’est pas ici de prédire un résultat prédéfini, mais plutôt d’explorer les données et d’en découvrir les structures, les modèles ou les relations inhérents. C'est comme apprendre en observant et en identifiant des modèles par soi-même, sans l'aide explicite d'un enseignant.
L'aspect « supervision » distingue clairement les deux. Dans l'apprentissage supervisé, la présence de labels fournit un retour direct sur le processus d'apprentissage sur lequel se baser. L'algorithme est explicitement informé de ce que doit être la sortie correcte pour chaque entrée, guidant son apprentissage. Dans l'apprentissage non supervisé, il n'y a pas de directives explicites de ce genre. Les algorithmes doivent déduire des modèles et des relations uniquement à partir des caractéristiques des données d'entrée.
Exemples de cas d’usage du machine learning supervisé
L'apprentissage supervisé n'est pas seulement un concept théorique ou une prédiction; c'est le moteur d'une vaste gamme d'applications qui ont un impact sur notre vie quotidienne et sur diverses industries. Sa capacité à apprendre à partir d'exemples étiquetés en fait un outil inestimable pour les tâches nécessitant une prédiction et une classification. Voici quelques cas d’usage marquants :
- Reconnaissance d’images et d’objets : C'est une application classique de la classification. Les modèles d'apprentissage supervisé sont entraînés sur des ensembles massifs d'images, où chaque image est étiquetée avec les objets qu'elle contient (par exemple, « chat », « voiture », « piéton », « arbre »).
- Détection des spams : L'un des usages les plus anciens et les plus répandus de l'apprentissage supervisé (en particulier la classification) est le filtrage des e-mails de spam. Les modèles s'entraînent sur un vaste corpus d'e-mails labellisés manuellement « spam » ou « not spam » (souvent appelés « ham »).
- Diagnostic médical et soins de santé : L'apprentissage supervisé joue un rôle de plus en plus important dans les soins de santé en aidant les professionnels de la santé à diagnostiquer les maladies. Les modèles peuvent être entraînés à partir de données patient (symptômes, antécédents médicaux, résultats de laboratoire et images médicales) étiquetées avec des diagnostics confirmés.
- Analyse des sentiments : Les entreprises et les organisations dépendent fortement de la compréhension de l'opinion publique et de la rétroaction des clients. Les modèles d'apprentissage supervisé (classification) sont formés à partir de données textuelles (comme les revues de produits, les publications sur les médias sociaux ou les réponses aux sondages) qui ont été étiquetées avec des sentiments tels que « positif », « négatif » ou « neutre ».
- Détection des fraudes financières : Dans le secteur financier, l’apprentissage supervisé est essentiel pour détecter et prévenir les transactions frauduleuses. Les modèles sont entraînés sur des données de transaction historiques, où chaque transaction est étiquetée comme « frauduleuse » ou « légitime ».
- Prédire les prix de l’immobilier et les valeurs boursières (régression) : Les modèles de régression dans le machine learning supervisé sont largement utilisés dans la finance et l’immobilier. Pour prédire les prix des logements, les modèles sont entraînés sur la base de données provenant de ventes immobilières passées, y compris des caractéristiques telles que la taille, le nombre de chambres, l'emplacement, l'âge et les commodités, ainsi que leurs prix de vente correspondants.
La liste d'exemples ci-dessus ne représente qu'une fraction de la façon dont l'apprentissage supervisé est appliqué. Au fur et à mesure que les données deviennent plus abondantes et que la puissance de calcul augmente, la portée et la sophistication de ses cas d’utilisation ne feront que s’étendre.
OVHcloud et l’apprentissage supervisé
OVHcloud propose une suite de solutions adaptées pour accompagner chaque étape du cycle de vie de l’apprentissage supervisé. Que vous cherchiez à déployer sans effort des modèles entraînés, à en construire et à en entraîner de nouveaux à grande échelle ou à tirer parti d'infrastructures cloud flexibles, OVHcloud fournit les outils nécessaires pour transformer vos données en informations exploitables.

AI Endpoints
Déployez sans effort vos modèles de machine learning en production avec AI Endpoints. Concentrez-vous sur vos algorithmes pendant que nous nous occupons de l’infrastructure. Notre service managé vous permet d'exposer vos modèles entraînés via des API HTTP évolutives et sécurisées, ce qui les rend facilement disponibles pour des prédictions en temps réel.

Machine learning
Libérez tout le potentiel de vos données grâce aux solutions de machine learning. Cette plateforme puissante fournit aux data scientists et aux développeurs un environnement complet pour créer, entraîner et déployer des modèles de machine learning à grande échelle.

Public Cloud
Découvrez nos solutions cloud, conçues pour vous donner un contrôle et une flexibilité complets sur votre infrastructure. Créez, déployez et gérez vos applications avec nos instances de calcul à la demande, nos solutions de stockage évolutives et nos solides capacités de mise en réseau.