Qu’est-ce que le machine learning automatisé ?
L'objectif principal de l'apprentissage automatique (AutoML) est de simplifier et d'accélérer le processus de création et de déploiement de modèles de machine learning en automatisant les différentes étapes du pipeline de machine learning.

Qu’est-ce que le machine learning automatisé (AutoML) ?
Le machine learning automatisé, communément appelé AutoML, est le processus d'automatisation des tâches de bout en bout impliquées dans la construction, l'entraînement et le déploiement de modèles de machine learning.
Elle englobe une série de techniques et d’outils de travail du machine learning conçus pour rendre l’application du machine learning plus simple et plus efficace. Au lieu de s'en remettre aux data scientists pour effectuer manuellement chaque étape, du prétraitement des données à l'ingénierie et à la sélection des fonctionnalités, en passant par la sélection des algorithmes et l'optimisation des hyperparamètres, les systèmes AutoML visent à automatiser ces processus souvent longs et complexes.
Cela permet de créer des algorithmes de machine learning efficaces avec une intervention humaine minimale, ouvrant ainsi la puissance du machine learning à un public plus large.
Objectifs clés d'AutoML
Le développement et l'adoption d'AutoML sont guidés par plusieurs objectifs clés :
- Accessibilité L'un des principaux objectifs est de démocratiser l'apprentissage supervisé par machine en le rendant accessible à des personnes qui ne possèdent pas forcément une expertise approfondie en formation ou en programmation dans le domaine de la science des données. Cela inclut des experts du domaine, des analystes commerciaux et des développeurs qui peuvent exploiter les outils AutoML pour créer des applications adaptées à leurs besoins spécifiques.
- Efficacité et productivité : AutoML vise à augmenter considérablement la productivité des data scientists en automatisant les étapes et les tâches répétitives et laborieuses du ML. Cela leur permet de consacrer plus de temps aux aspects plus stratégiques d’un projet, comme la formulation des problèmes, l’interprétation des données et la communication des résultats.
- Performance : En explorant systématiquement un large éventail d'architectures de modèles et d'hyperparamètres, AutoML peut souvent identifier des modèles très performants qui pourraient être négligés dans une recherche manuelle. L'objectif est d'atteindre une précision et une robustesse prédictives optimales.
- Rapidité. L'automatisation du pipeline de développement de modèles accélère le temps nécessaire au passage des données brutes à un modèle déployable dans le pipeline de machine learning. Cela est crucial dans les environnements qui évoluent rapidement et qui ont besoin d'informations et de solutions rapides.
Les outils AutoML peuvent également contribuer à assurer la reproductibilité des MLOps en normalisant le processus et en assurant le suivi des configurations et des étapes prises pour construire un modèle.
Il facilite la mise à l’échelle des applications de machine learning à l’échelle d’une organisation en permettant de créer et de maintenir davantage de modèles avec moins de ressources. AutoML peut fournir une base de référence pour les performances du modèle, par rapport à laquelle les modèles développés manuellement peuvent être comparés.
Pourquoi automatiser le machine learning ?
La volonté d'automatiser l'entraînement des machines découle des complexités et des exigences inhérentes au flux de travail traditionnel de machine learning, associées aux avantages importants que l'automatisation peut apporter. La compréhension de ces aspects met en évidence la proposition de valeur du machine learning automatisé.
Enjeux du machine learning traditionnel
Le développement du machine learning est traditionnellement un processus très itératif et souvent ardu, semé de plusieurs défis :
- Longue et exigeante en ressources : Le passage des données brutes à un modèle déployable implique de nombreuses étapes, notamment le nettoyage des données, le prétraitement, l'ingénierie des fonctionnalités, la sélection du modèle, l'ajustement des hyperparamètres et la validation. Chacune de ces étapes peut nécessiter un temps et des ressources de calcul considérables. L'ingénierie des caractéristiques et l'optimisation des hyperparamètres, en particulier, sont connues pour être très exigeantes en main-d'œuvre.
- Nécessite une expertise spécialisée : Construire un apprentissage automatique efficace nécessite généralement une compréhension approfondie de divers algorithmes, principes statistiques, techniques de traitement des données et compétences de programmation. Les experts dans ces domaines (data scientists, ingénieurs machine learning) sont rares et donc coûteux.
- Complexité de la sélection et du réglage des modèles : Avec un large éventail d'algorithmes disponibles pour l'entraînement et un espace encore plus grand de configurations d'hyperparamètres possibles pour chacun, sélectionner la combinaison optimale pour un problème donné peut être incroyablement difficile. Cela implique souvent un nombre important d'essais et d'erreurs, en s'appuyant fortement sur l'expérience et l'intuition du data scientist.
- Difficultés de reproductibilité et d’évolutivité : Il peut être difficile de garantir la reproductibilité des résultats si le processus de traitement des données n’est pas méticuleusement documenté et normalisé. La mise à l'échelle des efforts manuels sur plusieurs projets ou ensembles de données plus importants présente également des obstacles importants.
Il est également vrai qu'un flux de travail manuel est susceptible d'entraîner des erreurs humaines et des biais cognitifs, qui peuvent influencer par inadvertance la sélection ou l'évaluation du modèle, conduisant à des résultats sous-optimaux ou injustes.
Avantages de l’automatisation
L’automatisation du machine learning apporte des solutions convaincantes à ces défis et de nombreux avantages :
- Vitesse et efficacité accrues : AutoML accélère considérablement le cycle de développement des modèles. En automatisant les tâches répétitives comme le réglage des hyperparamètres et la sélection des modèles, il permet une itération et une expérimentation beaucoup plus rapides, réduisant ainsi le délai de mise sur le marché des solutions alimentées par ML.
- Productivité améliorée Les data scientists peuvent décharger les aspects les plus fastidieux de la création de modèles sur les systèmes AutoML. Cela leur permet de se concentrer sur des activités à plus forte valeur, comme la formulation de problèmes, la compréhension des besoins des entreprises, l'interprétation des résultats et le déploiement éthique de l'intelligence artificielle.
- Démocratisation du machine learning : Les outils AutoML abaissent les barrières à l’entrée, permettant aux personnes ayant des connaissances moins spécialisées, comme les experts en domaines, les analystes commerciaux et les développeurs de logiciels, de créer et d’utiliser des modèles de machine learning efficacement. Cela permet d’intégrer les capacités d’intelligence artificielle à l’échelle d’une organisation.
En explorant systématiquement une gamme plus large d'algorithmes pour l'entraînement, les techniques de traitement des fonctions et les paramètres hyperparamétriques que ce qui est généralement possible par le biais d'efforts manuels, AutoML peut souvent découvrir des modèles qui utilisent des performances et une généralisation supérieures.
Comment fonctionne AutoML ?
Les systèmes AutoML fonctionnent en automatisant intelligemment les différentes étapes du pipeline de machine learning traditionnel. Ils combinent des techniques établies et des recherches de pointe pour rechercher dans le vaste espace des solutions de formation possibles, dans le but de trouver le modèle optimal pour un ensemble de données et une tâche donnés avec une intervention humaine minimale.
Étapes de pipeline ML automatisées
AutoML rationalise le passage des données brutes à un modèle optimisé en automatisant une séquence d'étapes critiques dans le pipeline de machine learning.
Cela commence généralement par l'ingestion des données et le prétraitement essentiel, suivi d'une sélection automatisée sophistiquée pour préparer les données en vue de la modélisation.
Le système explore ensuite intelligemment divers algorithmes de machine learning appropriés et, point crucial, utilise l'optimisation automatisée des hyperparamètres pour affiner leurs performances.
Core Learn Technologies in AutoML
Le moteur utilisant les capacités d'AutoML s'appuie sur un ensemble diversifié de technologies de base. Parmi ceux-ci figurent des algorithmes avancés d'optimisation des hyperparamètres, tels que l'optimisation bayésienne, les algorithmes évolutifs et les méthodes de recherche plus simples, qui trouvent efficacement les meilleurs paramètres de modèle.
Pour le deep learning, l’utilisation du Neural Architecture Search (NAS) automatise la conception de réseaux neuronaux complexes. Le méta-apprentissage permet aux systèmes d’apprendre des expériences passées pour aborder de nouvelles tâches plus efficacement.
De plus, l'utilisation de méthodes d'ensemble automatisées combine stratégiquement plusieurs modèles d'apprentissage, tandis que des techniques spécialisées automatisent la création de fonctionnalités et la construction globale et l'optimisation de l'ensemble du processus de machine learning, ce qui signifie collectivement l'utilisation d'une génération de modèle efficace et efficiente.
Cas d'utilisation courants pour le ML automatique
Le machine learning automatisé a trouvé des applications pratiques dans un large éventail de types de problèmes et d’industries, accélérant le déploiement de solutions d’IA et offrant de nouvelles possibilités.
Sa capacité à rationaliser un processus de données complexe le rend inestimable pour les tâches de machine learning courantes ainsi que pour les domaines plus spécialisés où il fonctionne dans la vie réelle.
Classification et régression
La classification et la régression sont des tâches d'apprentissage supervisé fondamentales pour lesquelles AutoML brille particulièrement.
Pour les problèmes de classification, qui impliquent la prédiction d'un libellé de catégorie (par exemple, spam ou non spam, taux de roulement ou absence de taux de roulement chez les clients, diagnostic médical), les systèmes de ML automatique peuvent tester rapidement divers algorithmes tels que la régression logistique, les machines à vecteurs de support, les arbres de décision et les méthodes d'ensemble, en utilisant l'ingénierie de fonctionnalités étendue et le réglage des hyperparamètres, pour construire des classificateurs très précis.
De même, pour les tâches de régression, qui visent à prédire une valeur numérique continue (par exemple, les prix des maisons, les valeurs boursières, les prévisions de ventes, la température), Auto ML automatise le processus de recherche des modèles les mieux adaptés, la gestion de la mise à l'échelle des fonctionnalités et des transformations pour optimiser les performances pour des mesures comme l'erreur quadratique moyenne ou le R-carré.
Cela permet aux organisations d'utiliser rapidement des outils de détection des fraudes, d'évaluation des risques, de prévision de la demande et de marketing personnalisé.
Vision par ordinateur
En vision par ordinateur, AutoML est de plus en plus utilisé pour s'attaquer à des tâches qui nécessitent traditionnellement une expertise approfondie dans l'utilisation du traitement d'images et la conception de réseaux neuronaux.
L’auto-ML, en particulier grâce à des techniques comme le Neural Architecture Search (NAS) et l’apprentissage par transfert automatisé avec des modèles pré-entraînés, aide à concevoir et à optimiser automatiquement les réseaux neuronaux convolutifs (CNN) pour des tâches telles que la classification des images (par exemple, l’identification d’objets dans des images), la détection d’objets (la localisation et la catégorisation de plusieurs objets dans une image) et la segmentation des images (le partitionnement d’une image en segments significatifs).
Cela permet de développer plus rapidement des applications basées sur des domaines comme l'analyse d'images médicales (p. ex., l'identification de tumeurs dans les scans), la conduite autonome (p. ex., la reconnaissance des piétons et des véhicules) et l'inspection visuelle pour le contrôle de la qualité dans la fabrication.
Traitement du langage naturel (TAL)
AutoML fait également des percées importantes dans le traitement du langage naturel, simplifiant la création de modèles qui comprennent et traitent le langage humain.
Les cas d'utilisation courants du TAL qui bénéficient d'AutoML comprennent la classification du texte (par exemple, l'analyse des sentiments des avis clients, la catégorisation des sujets des articles, le filtrage du spam), la reconnaissance des entités nommées (identification des entités clés telles que les noms, les emplacements et les organisations dans le texte) et même certains aspects de la génération ou de la traduction du langage.
L’utilisation d’outils AutoML permet d’automatiser le choix et le réglage de diverses étapes de prétraitement de texte, d’incorporation de mots (comme Word2Vec ou GloVe) et d’architectures de modèles (allant des modèles traditionnels aux réseaux neuronaux récurrents (RNN) ou aux transformateurs), ce qui facilite la création d’applications comme les chatbots en cours d’utilisation, les systèmes de recommandation de contenu et les ensembles d’outils basés sur l’analyse des données textuelles à l’échelle.
Applications du secteur
Au-delà de ces catégories de tâches spécifiques, l'utilisation d'AutoML génère de la valeur dans une multitude d'industries en permettant un déploiement plus rapide et plus efficace de solutions d'IA sur mesure :
- Finance Pour la notation de crédit, la science de la détection des fraudes, le trading algorithmique et la gestion de la relation client. AutoML aide les institutions financières à construire des modèles robustes rapidement tout en s'adaptant à l'évolution de la dynamique du marché et aux exigences réglementaires.
- Science de la santé : Dans la prévision et le diagnostic de maladies à partir de données sur les patients, la découverte de médicaments par l'analyse de structures moléculaires, l'analyse d'images médicales (comme mentionné dans Vision par ordinateur) et la science pour personnaliser les plans de traitement.
- Vente au détail et e-commerce : Pour la prévision de la demande, en utilisant la segmentation de la clientèle, des moteurs de recommandation personnalisés, la prévision du taux de roulement et des stratégies de tarification dynamiques.
- Science de la fabrication : Dans la maintenance prédictive pour anticiper les pannes d'équipement, le contrôle de la qualité par inspection visuelle automatique, la science de l'optimisation de la chaîne d'approvisionnement et l'amélioration des processus de production.
- Marketing Pour la prévision de la valeur à vie des clients, l'optimisation des campagnes, l'analyse des sentiments de la perception de la marque et la notation des prospects.
- Télécommunications Prévoir le taux de roulement des clients, optimiser les performances du réseau et détecter les activités frauduleuses.
Limites et défis de l'AutoML
Bien qu'AutoML offre des avantages importants pour rationaliser le développement de l'intelligence artificielle, il est important de reconnaître ses limites actuelles d'utilisation et les défis que les utilisateurs et les développeurs continuent de relever tout au long du processus d'apprentissage des données.
La compréhension de ces aspects permet d'avoir des attentes plus réalistes et d'utiliser efficacement les outils AutoML.
Interprétabilité et transparence
L'un des défis les plus discutés dans AutoML est le manque potentiel d'interprétabilité et de transparence dans les modèles qu'il produit.
Les systèmes AutoML utilisent souvent des algorithmes complexes et créent des ensembles sophistiqués ou des architectures de réseaux neuronaux qui atteignent une grande précision prédictive.
Toutefois, le processus même de traitement des données qui mène à ces modèles très performants peut les faire fonctionner comme des « boîtes noires », où il devient difficile de comprendre la logique interne ou les raisons spécifiques derrière une prédiction particulière.
Cette opacité peut constituer un obstacle important dans les secteurs réglementés comme la finance ou les soins de santé, où l'intelligence artificielle explicable (IA) est cruciale pour la conformité, la confiance et le débogage, et où l'équité et l'identification des biais potentiels sont primordiales.
Ressources et coûts de calcul
Bien qu'AutoML vise à améliorer l'efficacité, la recherche sous-jacente de pipelines, de modèles et d'hyperparamètres optimaux peut être extrêmement gourmande en calculs.
Des techniques comme le Neural Architecture Search (NAS) ou l'optimisation exhaustive des hyperparamètres (HPO) sur de nombreux types de modèles différents peuvent nécessiter une puissance de traitement importante (CPU, GPU, TPU) et un temps d'exécution considérable, en particulier avec de grands ensembles de données.
Alors que les services AutoML basés sur le cloud offrent des ressources de calcul évolutives, les coûts associés peuvent devenir importants s'ils ne sont pas gérés avec soin. Cette demande de ressources peut parfois rendre les fonctionnalités avancées d'AutoML moins accessibles pour les petites organisations ou les chercheurs individuels avec des budgets ou une infrastructure limités.
Étendue de l'automatisation
Il est essentiel de reconnaître qu'AutoML n'automatise pas l'ensemble du cycle de vie de la science des données et du machine learning.
Les tâches critiques en amont, comme la formulation claire des problèmes, la définition des objectifs commerciaux pertinents, l'acquisition et la collecte de données de haute qualité et une compréhension approfondie du domaine, dépendent encore largement de l'expertise et de l'intervention humaines.
De même, les défis du « dernier kilomètre », à savoir déployer des modèles dans des environnements de production complexes, assurer une intégration transparente avec les processus et systèmes de données existants, surveiller en permanence la dérive des concepts et répondre à des considérations éthiques nuancées, sortent souvent du champ d'application direct des outils AutoML actuels.
OVHcloud et le machine learning automatisé
Découvrez les services OVHcloud conçus pour alimenter votre innovation. Du déploiement de modèles d'intelligence artificielle de pointe à la construction d'infrastructures cloud évolutives, profitez de nos solutions d'hébergement pour donner vie à vos projets.

AI Deploy
Déployez et gérez sans effort vos modèles de machine learning à l'échelle avec AI Deploy. Servez vos modèles via des points de terminaison API sécurisés et évolutifs sans vous soucier de l'infrastructure sous-jacente.

IA et machine learning
Accélérez l'ensemble de votre flux de travail de machine learning avec notre solution performante et flexible AI Machine Learning. De la préparation des données au déploiement en passant par l’entraînement des modèles, accédez à une suite complète d’outils et de ressources.

Public Cloud
Construisez, déployez et faites évoluer vos applications en toute liberté et contrôle sur le Public Cloud OVHcloud. Bénéficiez de notre plateforme robuste et polyvalente, qui propose une large gamme de solutions IaaS, PaaS et SaaS, pour vous offrir les solutions cloud dont vous avez besoin pour tout projet.