Surajustement dans le machine learning


Introduction aux modèles de machine learning et au Data Fitting

Les modèles de machine learning (ML) sont l'épine dorsale de l'intelligence artificielle moderne, en permettant aux ordinateurs d'apprendre à partir de données et de faire des prédictions ou des décisions sans programmation explicite.

Essentiellement, ces modèles sont des algorithmes qui identifient des modèles et des relations dans les données, créant ainsi une représentation simplifiée du phénomène réel décrit par les données. Ce processus, connu sous le nom d'ajustement des données, est crucial pour comprendre le surajustement.

big data

Présentation de l'ajustement des données

Prenons l'exemple d'un graphique à nuages de points. Un modèle de machine learning, tel qu’une régression linéaire, vise à trouver la ligne qui correspond le mieux à ces points. Cette « ligne de meilleur ajustement » représente la compréhension du modèle de la relation entre les variables.

Le modèle peut ensuite utiliser cette relation apprise pour prédire la valeur d'une variable en fonction de l'autre.

Le succès d’un modèle de machine learning et d’un entraînement de l’IA au sens large dépend de sa capacité à se généraliser. Cela signifie qu'il doit prédire avec précision les résultats pour les nouvelles données invisibles, et pas seulement les données sur lesquelles il a été entraîné. 

Pour obtenir une bonne généralisation, il faut trouver le bon équilibre dans l’adaptation des données. Si le modèle est trop simple, il peut ne pas saisir la complexité des données, ce qui conduit à un ajustement insuffisant.

À l’inverse, si le modèle ou le réseau de neurones est trop complexe, il peut mettre trop l’accent sur les nuances des données d’apprentissage, conduisant à un ajustement excessif.

Cet équilibre délicat est crucial pour développer des modèles efficaces de machine learning. Dans les sections qui suivent, nous aborderons le problème du surajustement, en explorant ses causes, ses conséquences et les stratégies d'atténuation.

Le problème du surajustement

Le surajustement se produit lorsqu'un modèle apprend les données d'apprentissage « trop bien ». Au lieu de capturer les modèles et les relations sous-jacents, il mémorise les nuances spécifiques et le bruit dans les données d'entraînement.

C'est comme essayer de faire tenir une courbe à travers un ensemble de points. Un modèle d'ajustement traverserait chaque point, créant une courbe très complexe qui capturerait chaque détail, y compris les fluctuations aléatoires.

Bien que cela puisse sembler impressionnant sur les données d'entraînement, cela nuit aux performances du modèle sur les nouvelles données. Lorsqu’on lui présente des données invisibles, le modèle surajusté, s’accrochant aux spécificités de son entraînement, ne parvient pas à généraliser et fait des prédictions inexactes, tout comme il mémorise les réponses au lieu de comprendre les concepts.

Les conséquences du surajustement peuvent être importantes pour les solutions d’IA, en particulier dans les applications réelles :

  • Mauvaise précision prédictive : Le modèle est performant sur les données d'entraînement, mais peu sur les nouvelles données, ce qui conduit à des prédictions peu fiables.
     
  • Perspectives trompeuses : Les modèles de mise à niveau peuvent conduire à des conclusions incorrectes sur les relations au sein des données.
     
  • Robustesse réduite : Le modèle devient très sensible aux variations mineures des données, ce qui le rend instable et sujet aux erreurs.

Le surajustement est un défi courant dans le domaine du machine learning , en particulier avec des modèles complexes et des données d’entraînement limitées.

Il est essentiel de reconnaître et de résoudre ce problème pour mettre en place des systèmes de machine learning efficaces et fiables. Dans les sections suivantes, nous allons explorer comment détecter le surajustement et discuter des différentes stratégies de prévention.

Surajustement et sous-ajustement

Trouver le bon équilibre dans l’entraînement d’un modèle de machine learning est essentiel à la réussite. Les deux pièges courants susceptibles d'entraver les performances d'un modèle sont le surajustement et le sous-ajustement.

Les deux représentent des scénarios dans lesquels le modèle ne parvient pas à se généraliser correctement à de nouvelles données invisibles, mais ils résultent de différents problèmes dans le processus d'entraînement.

Le sous-ajustement se produit lorsque le modèle est trop simpliste pour capturer les modèles sous-jacents dans les données. Cela se produit souvent lorsque le modèle a trop peu de paramètres ou n'est pas assez complexe pour représenter les relations entre les variables.

Un modèle sous-adapté aura de mauvais résultats sur l'entraînement et les nouvelles données parce qu'il ne peut pas apprendre efficacement la structure des données.

La suradaptation, en revanche, se produit lorsque le modèle est trop complexe. Il apprend trop bien les données d'entraînement, en capturant les modèles sous-jacents, le bruit et les fluctuations aléatoires spécifiques à ces données.

Bien qu'un modèle d'ajustement puisse atteindre une grande précision sur les données d'entraînement, il ne parvient pas à généraliser à de nouvelles données. Il a mémorisé le jeu de formation au lieu d'apprendre les relations sous-jacentes.  

Le modèle idéal se situe au milieu du terrain, capturant les motifs essentiels sans être trop sensible au bruit dans les données d'entraînement. Cet équilibre permet au modèle de généraliser efficacement et de prévoir avec précision les nouvelles données invisibles.

Comment détecter le dépassement de capacité

La détection du surajustement garantit que votre modèle de machine learning se généralise bien aux nouvelles données. Voici quelques méthodes clés pour identifier cet écueil commun :

Écart de performance

Le signe le plus révélateur du surajustement est une différence significative de performance entre l'entraînement et les données invisibles.
 

Le surajustement est probablement à blâmer si votre modèle affiche une grande précision sur le jeu d'entraînement, mais des performances médiocres sur un jeu de validation distinct ou sur de nouvelles données. Cet écart indique que le modèle a appris les données d'entraînement trop spécifiquement et qu'il a du mal à généraliser.

Courbes d'apprentissage

Le traçage des courbes d'apprentissage peut révéler visuellement le surajustement. Ces courbes montrent les performances du modèle sur les jeux d'entraînement et de validation à mesure que l'entraînement progresse.
 

En cas de surajustement, vous constaterez souvent que l'erreur d'entraînement diminue régulièrement tandis que l'erreur de validation commence à plafonner, voire à augmenter. Cette divergence suggère que le modèle se spécialise de plus en plus dans les données d'entraînement au détriment de la généralisation.

Analyse de la complexité

Le surajustement se produit souvent dans des modèles trop complexes. Examinez l'architecture et les paramètres du modèle à la recherche d'une complexité excessive.
 

Elle peut être sujette au surajustement si elle a de nombreux paramètres relatifs à la taille des données d'entraînement ou si elle utilise des fonctions très complexes. Les modèles plus simples avec moins de paramètres sont généralement moins sensibles.

Validation du blocage

Une technique courante pour détecter le surajustement consiste à fractionner vos données en ensembles d'entraînement et de validation. Entraînez le modèle sur le jeu d'entraînement et évaluez ses performances sur le jeu de validation retenu. Une baisse significative des performances du jeu de validation est un indicateur important de surajustement.

Validation croisée

La validation croisée pousse la méthode du hold-out un peu plus loin. Il consiste à diviser les données en plusieurs sous-ensembles (plis) et à entraîner le modèle de manière répétée sur différentes combinaisons de ces plis.
 

En évaluant les performances du modèle sur ces différents plis, vous obtenez une estimation plus fiable de sa capacité de généralisation et pouvez détecter plus facilement le surajustement.
 

En employant ces méthodes, vous pouvez identifier efficacement le surajustement et prendre des mesures pour en atténuer l'impact, en vous assurant que vos modèles de machine learning sont robustes, fiables et capables de généraliser à de nouvelles données invisibles.

Méthodes pour éviter le surajustement

Le surajustement est un défi courant dans le machine learning, mais heureusement, il existe plusieurs stratégies pour atténuer ses effets et construire des modèles qui se généralisent bien. Voici quelques-unes des techniques les plus efficaces :

Augmentation des données

L'augmentation de la taille et de la diversité de vos données d'entraînement peut réduire considérablement la suradaptation. Les techniques d'augmentation des données impliquent la création de nouveaux exemples d'entraînement en modifiant légèrement les exemples existants.

Il peut s'agir de rotations, de retournements, de rognages, d'ajout de bruit d'image ou de paraphrasage de données de texte. L'exposition du modèle à un éventail plus large de variations le rend moins susceptible de se focaliser sur les nuances spécifiques de l'ensemble d'entraînement d'origine.

Sélection de fonctionnalités

La sélection minutieuse des fonctions pertinentes peut empêcher le modèle d'apprendre du bruit et des modèles non pertinents. En identifiant et en utilisant uniquement les fonctionnalités les plus essentielles, vous pouvez simplifier le modèle et réduire sa tendance à l'ajustement.

Les techniques de sélection des caractéristiques comprennent l'analyse des scores d'importance des caractéristiques, l'utilisation de méthodes de réduction de dimensionnalité comme l'ACP, ou l'utilisation d'une expertise du domaine pour choisir les variables pertinentes.

Régularisation

Les techniques de régularisation ajoutent des pénalités à la complexité du modèle. Cela décourage le modèle d'apprendre des fonctions trop complexes et l'aide à mieux se généraliser. Les méthodes de régularisation standard comprennent la régularisation L1 et L2, qui ajoutent des pénalités à l'amplitude des poids du modèle.

Autres méthodes

De nombreuses autres façons de vous assurer que votre modèle ML ne remplace pas les données. Voici quelques suggestions :

  • Validation croisée : implique de fractionner les données en plusieurs plis et d'entraîner le modèle sur différentes combinaisons de ces plis. Cela permet d'obtenir une estimation plus fiable des performances du modèle et de détecter le surajustement en l'évaluant sur différents sous-ensembles de données.  
     
  • Arrêt anticipé : Surveiller les performances du modèle sur un jeu de validation pendant l'entraînement. Arrêter le processus d'entraînement lorsque les performances sur le jeu de validation commencent à plafonner ou à diminuer, même si les performances sur le jeu d'entraînement continuent de s'améliorer. Cela empêche le modèle de continuer à apprendre les données d'apprentissage de manière trop spécifique.
     
  • Méthodes d'ensemble : Les méthodes d'ensemble combinent les prédictions de plusieurs modèles pour améliorer la généralisation. Des techniques telles que l’ensachage et l’amplification peuvent réduire le surajustement en calculant la moyenne des biais des modèles individuels et en créant une prédiction globale plus fiable.
     
  • Modèles plus simples : Parfois, la meilleure solution est de choisir un modèle plus simple avec moins de paramètres. Si un modèle plus simple permet d'obtenir des performances comparables à un modèle plus complexe, il est souvent préférable car il est moins susceptible d'être modifié.

En utilisant ces stratégies, vous pouvez prévenir efficacement le surajustement et développer des modèles de machine learning qui sont robustes, fiables et capables de bien généraliser à de nouvelles données invisibles.

Autres défis du machine learning à surveiller

Bien que le surajustement soit un obstacle important dans le machine learning, ce n'est pas le seul défi des praticiens de machine learning. Plusieurs problèmes connexes peuvent également entraver les performances d'un modèle et sa capacité de généralisation. Voici quelques points importants à surveiller :

  • Fuite de données : Une fuite de données se produit lorsque des informations provenant des données d'apprentissage « fuient » par inadvertance dans les données de validation ou d'essai. Cela peut conduire à des estimations de performance trop optimistes et à une confiance erronée dans la capacité de généralisation du modèle. Les causes courantes de fuite de données comprennent l'utilisation de fonctionnalités qui ne sont pas disponibles pendant le temps de prédiction ou le fractionnement incorrect des données.
     
  • Déséquilibre de classe : Un déséquilibre de classe se produit lorsqu'une classe est nettement plus nombreuse que les autres dans le groupe de données. Cela peut biaiser le modèle vers la classe majoritaire et conduire à de mauvaises performances sur la classe minoritaire, même si la précision globale semble élevée. Des techniques telles que le suréchantillonnage, le sous-échantillonnage ou l'utilisation de fonctions de perte pondérée peuvent aider à corriger le déséquilibre des classes.
     
  • Concept drift: La dérive du concept fait référence au phénomène où la relation entre les fonctions d’entrée et la variable cible change au fil du temps. Cela peut affecter les performances du modèle, car les données qu'il rencontre dans le monde réel divergent des données sur lesquelles il a été entraîné.  Des stratégies telles que l’apprentissage en ligne, le recyclage des modèles et le suivi des changements de performance peuvent aider à s’adapter à la dérive conceptuelle.
     
  • Biais dans les données : Les modèles de machine learning ne sont efficaces que s’ils utilisent les données sur lesquelles ils ont été formés. Si les données de formation comportent des biais, le modèle les perpétuera probablement dans ses prévisions, ce qui conduira à des résultats injustes ou discriminatoires. Il est essentiel d'examiner attentivement et de corriger les biais potentiels dans les données avant d'entraîner le modèle.

OVHcloud et le machine learning

Exploitez le potentiel de transformation de l'intelligence artificielle avec la gamme complète de solutions d'OVHcloud.

Que vous formiez des modèles de machine learning de pointe, déployiez des applications intelligentes ou recherchiez la puissance brute pour alimenter vos innovations en IA, OVHcloud fournit l'infrastructure, les outils et l'expertise nécessaires pour accélérer votre transition. Découvrez nos offres ci-dessous et comment OVHcloud peut renforcer vos initiatives d'IA.