Qu’est-ce que le data mining ?


Explication du data mining et de ses avantages : cette page revient sur l’histoire de l’exploration de données (ou data mining), ses méthodes et ses techniques, ainsi que les enjeux technologiques qu’elle représente. Elle comprend également des exemples de la façon dont le data mining peut être utilisé dans différents secteurs verticaux de l’industrie.

data_mining_hero

Définition du data mining

Le data mining est le processus de découverte d’informations précieuses par la collecte et la comparaison de données provenant de plusieurs sources qui n’ont souvent aucun lien. Les processus informatiques permettent d’extraire ces informations qui peuvent ensuite servir aux organisations pour un large éventail de tâches, notamment pour mieux comprendre leurs clients, améliorer leur efficacité et prévoir certains comportements.


De cette manière, il est possible d’identifier des modèles et des corrélations au sein de grands ensembles de données, ce qui aide les entreprises à mieux comprendre leurs clients, à trouver les goulots d’étranglement dans leurs systèmes de répartition et même à prédire certains comportements.


Le data mining sert également à détecter des anomalies dans tout processus susceptible de produire des erreurs imprévisibles qui seraient révélées en fouillant dans un ensemble de données. Il s’applique à de nombreux cas d’usage : la détection de bugs dans les logiciels, les chaînes d’approvisionnement ou les processus de production, la détection des abus de systèmes ou encore la détection des défaillances de systèmes.

Un siècle d’évolution

Bien avant que l’utilisation des ordinateurs ne soit répandue, les données étaient manipulées de cette manière, mais le processus était manuel, lent et nécessitait des analystes qualifiés pour rassembler, interpréter et présenter les données sous une forme significative. Le terme « exploration de données » a été inventé dans les années 1990 (la pratique étant auparavant appelée « découverte de connaissances »). À l’époque, cette tâche reposait sur des bases de données élémentaires par rapport aux normes actuelles.


Cette technologie a été utilisée pour la première fois à des fins d’exploitation de données il y a plus de 100 ans : le Bureau du recensement des États-Unis a réduit le temps nécessaire à l’analyse des résultats du recensement de 10 ans à quelques mois seulement, à l’aide de cartes perforées et d’une tabulatrice.


De nos jours, les logiciels de data mining ont ajouté l’intelligence artificielle et le machine learning à la discipline originale de la science des données qu’est la statistique. De son côté, le cloud computing apporte une puissance de traitement et des capacités de stockage de données supplémentaires.


Ces progrès technologiques ont entraîné une explosion du data mining, car des ensembles de données toujours plus complexes sont analysés afin de découvrir des informations pertinentes. Les renseignements obtenus sont utilisés par de multiples secteurs verticaux, notamment la vente au détail, le domaine bancaire, la production industrielle, les télécommunications, l’agriculture et les assurances. Les cas d’usage comprennent la vente de produits en ligne, l’analyse des risques, la découverte de fraudes financières ou encore l’optimisation de la croissance des légumes dans les exploitations agricoles.

Caractéristiques du data mining

Avant d’impliquer des données, les organisations doivent définir leurs objectifs commerciaux. Ensuite, les parties prenantes et les scientifiques des données collaborent pour définir un problème commercial, ainsi que son contexte, afin de définir les questions et les paramètres concernés par le projet de data mining.


Les data scientists identifient les données qui les aideront à répondre à des questions données. Le processus d’exploration de données pour créer des informations précieuses repose sur des données précises et fiables collectées à partir de sources pertinentes, il est donc essentiel de choisir les bonnes données au préalable.


Une fois les données identifiées, elles doivent être triées et structurées dans un format qui peut être facilement comparé par les outils de data mining disponibles. Par exemple, il convient de supprimer les données dupliquées et les valeurs aberrantes. Commence ensuite le processus de création de modèles, de recherche de tendances et de corrélations. Selon la complexité des données, des algorithmes de deep learning peuvent également être appliqués pour classer ou regrouper un jeu de données.


Une fois les données analysées et traitées, les informations générées peuvent être transmises aux organisations, qui pourront se baser sur ces découvertes pour prendre des décisions réfléchies.

Data Processing OVHcloud

Défis du data mining

Localisation et regroupement des données

L’un des principaux défis auxquels les organisations sont confrontées lorsqu’elles se lancent dans un projet de data mining est de trouver puis de connecter leurs différents référentiels de données.


De nos jours, les données sont stockées dans des applications telles que des tableurs, des bases de données, des ERP, des logiciels de comptabilité ou encore des médias sociaux. Ces données se présentent sous divers formats, qu’ils soient structurés ou non, qui englobent de plus en plus les données générées par les capteurs et les caméras IoT.


De plus, les données sont souvent cloisonnées dans différentes parties de l’entreprise, il peut donc être difficile de trouver toutes les informations pertinentes pour obtenir un aperçu complet de ce qu’elles représentent. Elles peuvent également être situées dans différents types d’infrastructure : sur site, private cloud ou public cloud.


Il est donc nécessaire de localiser les données brutes, puis de les rassembler dans leurs différents formats. Elles doivent ensuite être ingérées dans un référentiel central (lac de données) où elles seront triées et formatées avant que les outils d’analyse puissent les lire.

Suppression des erreurs et des incohérences

Les erreurs ou les fautes contenues dans les données brutes, y compris les doublons et les erreurs introduites pendant le processus de collecte, produiront des résultats peu fiables qui pourraient conduire à de mauvaises décisions pour l’entreprise. Il est donc essentiel de préparer les données brutes, en supprimant toutes les anomalies.


Un autre problème est celui des différents formats dans lesquels les données sont présentées. En plus des données provenant de sources internes, il faut traiter des données externes, notamment les flux d’informations, les cours des actions et des matières premières ainsi que les taux de change. Tous ces éléments peuvent impacter les décisions prises par une entreprise lorsqu’elle fixe le prix de ses produits, réalise des investissements ou choisit un marché cible.


Les champs dans lesquels les données sont saisies doivent donc être standardisés afin que les informations puissent être lues efficacement par les outils d’analyse et de visualisation une fois qu’elles ont été ingérées dans un lac de données.

Traitement manuel

Les données qui seront exploitées doivent d’abord être acheminées, transformées et visualisées. Si l’un de ces processus est manuel, il peut s’avérer chronophage et impliquer un risque d’introduire de nouvelles erreurs dans les données.


L’automatisation de ces processus réduit les risques de nouvelles erreurs et accélère le délai de traitement, ce qui permet de générer des informations plus rapidement et, dans certains cas, en temps réel.

Scalabilité

Compte tenu de la quantité de données dont disposent aujourd’hui les organisations, l’évolution vers un traitement plus efficace peut constituer un autre défi. Avec les datacenters sur site, il a toujours été difficile pour les organismes, en particulier les petites et moyennes entreprises, d’étendre facilement leur capacité de calcul. Souvent, il faut acheter, installer et entretenir du nouveau matériel, ce que de nombreuses organisations ne peuvent se permettre.


Désormais, grâce au stockage et au traitement des données dans le cloud, les entreprises peuvent payer pour augmenter leur capacité de calcul afin de traiter des ensembles de données plus importants et plus complexes. Une fois le data mining effectué, elles peuvent déplacer leurs données vers un stockage moins coûteux et cesser de payer pour le traitement.

Sécurité des données

Les données contiennent souvent des éléments de propriété intellectuelle, des informations personnelles identifiables, des chiffres de vente, des comptes et d’autres informations confidentielles. La sécurité des données est donc cruciale, aussi bien lorsque les données sont au repos que lorsqu’elles sont utilisées.


Les données en cours d’utilisation sont situées dans la mémoire active, où elles sont les plus vulnérables. Ce type de données peut être protégé par des outils de sécurité qui permettent aux régions de la mémoire (ou enclaves) d’être protégées et seulement accessibles par les processus à l’intérieur de l’enclave assignée.


Une autre approche est l’apprentissage fédéré : les organisations appliquent des algorithmes de machine learning et d’IA pour créer et améliorer des modèles sans compromettre les ensembles de données qui comprennent des informations confidentielles.

Techniques de data mining

Il existe plusieurs approches au data mining correspondant à différents types d’informations. Par exemple, les règles d’association sont une méthode basée sur des règles pour déterminer les relations entre des variables de données. Cette approche est souvent utilisée pour analyser les articles typiques des paniers d’achat. De cette manière, les entreprises peuvent améliorer leur compréhension de la façon dont les consommateurs achètent certains produits ensemble, ce qui leur permet de stimuler les ventes croisées et de fournir des recommandations.


Les réseaux de neurones sont des algorithmes de deep learning qui traitent les données de formation en imitant les connexions du cerveau humain à l’aide de plusieurs couches de nœuds. Chaque nœud est constitué d’une entrée, d’un biais et d’une sortie. Si la valeur de sortie dépasse un seuil donné, un nœud est activé pour transmettre les données à la couche suivante du réseau.


Les arbres de décision permettent de classer ou de prédire des résultats potentiels à l’aide de méthodes de classification ou de régression. Semblables aux branches d’un arbre, ils mettent en image les résultats potentiels des décisions.


Enfin, la méthode des K plus proches voisins (ou algorithme KNN) classe les points de données en fonction de leur emplacement et de leur association à d’autres données. Elle part du principe que des points de données similaires peuvent être trouvés à proximité les uns des autres, puis calcule la distance entre ces points pour identifier des modèles dans les données.

AI and Machine Learning OVHcloud

Exemples de data mining

Vente au détail : la combinaison et l’analyse des données provenant des schémas de navigation et des habitudes de consommation d’un client peuvent aider le détaillant à mieux comprendre les types de clients qui visitent ses sites pour leur offrir une expérience plus personnalisée.


L’entreprise peut proposer des expériences différentes aux clients qui dépensent beaucoup mais qui visitent rarement le site, par rapport aux clients qui dépensent peu mais qui visitent le site fréquemment.


Les techniques de data mining peuvent aider ces détaillants à réaliser des ventes croisées de leurs produits afin d’augmenter leurs revenus. Par exemple, si un client achète un produit A, il peut être intéressé par un produit complémentaire ou connexe B. Cette méthode permet également de proposer à ce client un produit alternatif mais similaire avec une marge bénéficiaire plus élevée.


Le data mining peut aussi révéler l’élasticité des prix d’un client : continuera-t-il d’acheter un produit ou un service si son prix est augmenté ? Dans quelle mesure est-il susceptible d’acheter davantage si le produit coûte moins cher ? Les entreprises peuvent donc se baser sur le data mining pour comprendre comment leurs bénéfices sont affectés si elles modifient le prix d’un produit.


Compagnies d’assurance et services financiers : une compagnie d’assurance peut analyser les données des clients qui cherchent une police d’assurance. Le client peut remplir un formulaire plusieurs fois avec des informations différentes afin d’obtenir le devis le moins cher, et ce, de manière totalement innocente. Cependant, si le client choisit des options qui contredisent les informations déjà stockées à son sujet lors d’un achat précédent, un signal d’alarme peut être déclenché afin d’entamer une enquête plus approfondie.


Depuis plusieurs années, le secteur bancaire recourt à l’IA pour surveiller les données transactionnelles des clients afin de suivre leurs habitudes de dépenses, comme les montants habituellement retirés aux guichets automatiques ou les types de produits achetés avec leur carte de crédit. Si l’IA constate qu’un client retire un montant inhabituel à un endroit inattendu, ou repère un achat par carte de crédit qui ne correspond pas à ses habitudes, il est possible qu’il s’agisse d’une fraude.


L’analyse des données est couramment utilisée par les institutions financières pour les demandeurs de prêts. Les antécédents de paiement d’un client potentiel, le ratio paiement/revenu et les antécédents de crédit permettent notamment de déterminer le risque lié à l’octroi du prêt et aident à fixer les conditions de prêt ainsi que les taux d’intérêt.


Plus les données collectées sont nombreuses, plus il est facile de faire la distinction entre un comportement « normal » et des activités suspectes qui pourraient justifier une enquête.


Agriculture : les outils de data mining peuvent également être utilisés par les entreprises agricoles qui exploitent des cultures ou d’autres produits. En recueillant et en analysant des données comme les niveaux d’irrigation, les heures d’ensoleillement, l’exposition au vent et à d’autres éléments, les nutriments (présents naturellement dans le sol ou ajoutés) et le risque que les cultures soient dévorées ou endommagées par la faune locale, les agriculteurs sont en mesure de déterminer le rendement de ce qu’ils cultivent. Ils peuvent également identifier les domaines auxquels apporter des changements afin de produire davantage de cultures plus rapidement.


Opérations complexes : les techniques de data mining peuvent être utilisées pour améliorer les processus opérationnels. Par exemple, pour identifier les goulots d’étranglement coûteux ou chronophages, les processus inefficaces, les problèmes dans la chaîne d’approvisionnement ou encore pour améliorer la prise de décision. Parfois appelée « exploration des processus », cette méthode permet également de surveiller les processus et de mesurer les améliorations, de contribuer à la conformité et d’analyser de nombreuses fonctions différentes, y compris les centres de contact.