Wat is datamining?
Een uitleg van datamining en de voordelen ervan. Deze pagina behandelt de geschiedenis van datamining, de methodes en technieken en de technologische uitdagingen waar het mee gepaard gaat. Er worden ook voorbeelden gegeven over hoe datamining in verschillende verticale bedrijfssectoren kan worden gebruikt.

Definitie van datamining
Datamining beschrijft het proces van het ontdekken van waardevolle inzichten door het verzamelen en vergelijken van gegevens uit diverse, vaak niet aan elkaar gerelateerde bronnen. Rekenprocessen genereren waardevolle inzichten die door organisaties voor allerlei doeleinden kunnen worden gebruikt, zoals beter inzicht in hun klanten krijgen, efficiëntie verbeteren en gedrag voorspellen.
Zo kunnen patronen en correlaties binnen grote datasets worden geïdentificeerd, wat organisaties helpt hun klanten beter te begrijpen, knelpunten in hun distributiesystemen te vinden en zelfs gedrag te voorspellen.
Datamining wordt ook gebruikt om anomalieën in om het even welk proces te ontdekken die onvoorspelbare fouten kunnen veroorzaken en anders alleen door een diepgaande analyse van een dataset zichtbaar zouden worden. Dit kan in veel verschillende gevallen worden toegepast, zoals bugs ontdekken in software, toeleveringsketens of productieprocessen, misbruik van systemen ontdekken of het aan het licht brengen van systeemfouten.
Een eeuw in de maak
Zelfs voordat computers gemeengoed werden, werden gegevens op deze manier verwerkt, maar het proces was handmatig, langzaam en vereiste geschoolde analisten om de gegevens op een zinvolle manier te verzamelen, te interpreteren en te presenteren. Het begrip "datamining" werd in de jaren negentig bedacht voor de werkwijze die eerder werd aangeduid als kennisontdekking. Dit gebeurde met behulp van databases die volgens de huidige standaarden nogal basaal waren.
Technologie werd voor het eerst meer dan 100 jaar geleden ingezet voor datamining: toen verkortte het US Census Bureau de tijd die nodig was om de resultaten van de volkstelling te analyseren van 10 jaar tot slechts een paar maanden met behulp van ponskaarten en een tabelleermachine.
Tegenwoordig voegt software voor datamining artificiële intelligentie en machine learning toe aan de oorspronkelijk gebruikte statistiek binnen het gebied van datawetenschap, waarbij cloudcomputing extra rekenkracht en capaciteit voor gegevensopslag levert.
Deze technologische vooruitgang heeft geleid tot een explosieve groei van datamining, waarbij steeds complexere datasets worden geanalyseerd om relevante inzichten te ontdekken. De verkregen kennis wordt gebruikt in allerlei verticale bedrijfssectoren, waaronder detailhandel, banken, fabricage, telecommunicatie, landbouw en verzekeringen. Toepassingsmogelijkheden zijn onder andere het online verkopen van producten, risicoanalyse, het ontdekken van financiële fraude of zelfs het optimaliseren van groenteteelt op boerderijen.
Kenmerken van datamining
Voordat gegevens in het spel komen, moeten organisaties hun zakelijke doelen bepalen, waarbij stakeholders en datascientists samenwerken om een zakelijk probleem te definiëren — en de bijbehorende context om de vragen en parameters op te stellen die voor het datamining-project zullen gelden.
Vervolgens identificeren datascientists de gegevens die hen zullen helpen deze op te lossen vraagstellingen te beantwoorden. Een datamining-proces dat waardevolle informatie oplevert, berust op nauwkeurige, betrouwbare gegevens die uit relevante bronnen zijn verzameld. Daarom is het kiezen van de juiste gegevens zeer belangrijk.
Zodra de gegevens zijn geïdentificeerd, moeten ze worden opgeschoond en gestructureerd in een indeling, die gemakkelijk kan worden vergeleken met tools voor datamining. Hiertoe behoort ook het verwijderen van dubbele gegevens en uitschieters. Daarna komt het proces van modellen bouwen en de gegevens exploiteren om patronen en correlaties te ontdekken. Afhankelijk van de complexiteit van de gegevens kunnen ook deeplearningalgoritmen worden toegepast om een dataset te classificeren of te clusteren.
Zodra de gegevens zijn geanalyseerd en verwerkt, kunnen de gegenereerde inzichten worden overhandigd aan de personen die deze zullen gebruiken bij hun gefundeerde besluitvorming.

De uitdagingen van datamining
Data lokaliseren en verzamelen
Een van de grootste uitdagingen waarmee organisaties te maken hebben bij het uitvoeren van een datamining-project is het ontdekken en vervolgens koppelen van alle verschillende plekken waar gegevens zijn opgeslagen.
In moderne bedrijven worden gegevens opgeslagen in toepassingen zoals spreadsheets, databases, ERP, boekhoudsoftware en op sociale media. Deze gegevens hebben allerlei gestructureerde en ongestructureerde indelingen — waaronder steeds meer gegevens die door IoT-sensoren en camera's worden gegenereerd.
Bovendien worden de gegevens vaak afgeschermd in andere onderdelen van het bedrijf, wat betekent dat het een uitdaging kan zijn om alle relevante en aanverwante informatie te verzamelen om een volledig beeld te krijgen van wat de gegevens vertegenwoordigen. Ze kunnen zich ook in verschillende typen infrastructuren bevinden, waaronder on-premises, private cloud en public cloud.
De ruwe gegevens moeten daarom worden gelokaliseerd en vervolgens in al die verschillende indelingen worden verzameld. Vervolgens moeten ze in een centrale opslagplaats, of datalake, worden geplaatst, waar ze gezuiverd en geformatteerd worden voordat analysetools aan het werk kunnen worden gezet.
Fouten en inconsistenties verwijderen
Fouten in de ruwe gegevens, met inbegrip van duplicaten en fouten die tijdens het verzamelproces werden geïntroduceerd, zullen tot onbetrouwbare resultaten leiden, die op hun beurt tot slechte besluiten voor de organisatie zouden kunnen leiden. Het voorbereiden van de ruwe data is daarom essentieel. Hierbij worden alle anomalieën verwijderd.
Een andere kwestie is de verschillende indelingen waarin de gegevens zijn opgeslagen. Naast gegevens uit interne bronnen zullen er ook externe gegevens moeten worden verwerkt, zoals nieuwsfeeds, aandelen- en grondstoffenprijzen en wisselkoersen. Deze kunnen allemaal van invloed zijn op besluiten van een bedrijf bij het bepalen van productprijzen, het doen van investeringen of het kiezen van een doelmarkt.
De velden waarin de gegevens worden ingevoerd, moeten daarom worden gestandaardiseerd om ervoor te zorgen dat de informatie effectief kan worden gelezen door analyse- en visualisatietools, nadat deze in het datalake zijn opgenomen.
Handmatige verwerking
De gegevens voor datamining moeten eerst worden getransporteerd, getransformeerd en gevisualiseerd. Als ook maar één van deze processen handmatig is, kan dit lang duren, maar bestaat ook het risico om nieuwe fouten in de gegevens te introduceren.
Het automatiseren van deze processen maakt de kans op nieuwe fouten kleiner en versnelt het proces, waardoor men inzichten sneller en in sommige gevallen in realtime kan genereren.
Schaalbaarheid
Met de hoeveelheid gegevens waarover organisaties tegenwoordig beschikken, kan opschalen om alles effectief te verwerken een andere uitdaging zijn. Bij on-premises datacenters is het voor organisaties — met name kleine en middelgrote bedrijven — van oudsher moeilijk geweest om hun rekencapaciteit eenvoudig uit te breiden. Vaak moet er nieuwe hardware worden aangeschaft, geïnstalleerd en onderhouden — iets wat veel organisaties niet kunnen verantwoorden.
Dankzij gegevensopslag en -verwerking op basis van de cloud kunnen organisaties nu betalen om rekencapaciteit op te schalen, zodat ze met grotere en complexere datasets om kunnen gaan. Als datamining niet meer nodig is, kunnen organisaties de gegevens verplaatsen naar goedkopere opslag en ophouden te betalen voor gegevensverwerking.
Gegevensbeveiliging
Vaak bevatten de gegevens intellectuele eigendom, persoonlijk identificeerbare informatie, verkoopcijfers, accountgegevens en andere vertrouwelijke informatie. Gegevensbeveiliging is daarom van essentieel belang — zowel wanneer de gegevens in rust zijn als wanneer ze in gebruik zijn.
De gegevens in gebruik bevinden zich in het actieve geheugen, waar ze het kwetsbaarst zijn. Eén bescherming voor gegevens in deze toestand zijn beveiligingshulpmiddelen waarmee geheugengebieden of enclaves kunnen worden beschermd en alleen toegankelijk zijn via processen die zich binnen de toegewezen enclave bevinden.
Een andere aanpak is “federated learning”, waarbij organisaties machine learning en AI-algoritmes toepassen om modellen te maken en te verbeteren zonder de vertrouwelijke informatie in datasets te openbaren.
Technieken voor datamining
Er zijn verschillende benaderingen voor datamining, die verschillende soorten inzichten opleveren. Associatieregels zijn bijvoorbeeld een methode op basis van regels om verbanden te leggen tussen gegevensvariabelen. Deze benadering wordt vaak gebruikt bij het analyseren van artikelen in typische boodschappenmandjes, zodat bedrijven beter begrijpen hoe consumenten bepaalde producten samen kopen. Hiermee kunnen ze hun crossselling verhogen en aanbevelingen doen.
Neurale netwerken zijn algoritmen voor deep learning die trainingsgegevens verwerken door de verbindingen in het menselijk brein na te bootsen met behulp van lagen nodes. Elke node bestaat uit een of meerdere inputs, een correctiefactor en een output. Als de outputwaarde een bepaalde drempel overschrijdt, wordt de node geactiveerd en geeft gegevens door naar de volgende laag in het netwerk.
Om potentiële resultaten te classificeren of te voorspellen met behulp van classificatie- of regressiemethoden gebruiken beslisbomen een visualisatie die op de takken van een boom lijkt om de potentiële resultaten van besluiten te tonen.
Tot slot classificeert het “K-nearest neighbour” oftewel het KNN-algoritme datapunten op basis van hun positie en associatie met andere gegevens. Het veronderstelt dat gelijkaardige datapunten dichtbij elkaar gevonden kunnen worden. Vervolgens berekent het de afstand tussen datapunten om patronen in de gegevens te identificeren.

Voorbeelden van datamining
Detailhandel: Het combineren en analyseren van gegevens uit het browse- en koopgedrag van een klant kan een detailhandelaar helpen een beter inzicht te krijgen in de soorten klanten die zijn website bezoeken. Daarmee kan hij de klanten een persoonlijkere ervaring bieden.
Het bedrijf wil wellicht een andere ervaring bieden aan klanten die veel besteden maar niet vaak op de site komen, dan aan klanten die weinig uitgeven, maar vaak de website bezoeken.
De technieken van datamining kunnen detailhandelaars helpen om hun producten te crosssellen en hun omzet te verhogen. Wanneer een klant bijvoorbeeld product A koopt, is hij of zij wellicht geïnteresseerd in een aanvullend of aanverwant product B. Dit kan ook worden gebruikt om die klant een alternatief, maar vergelijkbaar product met een hogere winstmarge aan te bieden.
Datamining kan ook de prijselasticiteit van een klant tonen — of ze een product of service zullen blijven kopen als de prijs wordt verhoogd en hoe waarschijnlijk het is dat ze meer zullen kopen als het product minder kost. Bedrijven kunnen datamining gebruiken om te begrijpen hoe hun winst zou worden beïnvloed als ze de prijs van een product zouden veranderen.
Verzekeringen en financiën: Een verzekeringsmaatschappij zou gegevens van klanten kunnen analyseren die een polis aanvragen. Het kan volledig onschuldig gedrag zijn als de klant het formulier meerdere keren met andere gegevens invult om de goedkoopste offerte te krijgen. Als de klant echter opties kiest die niet overeenkomen met informatie die is opgeslagen bij een eerdere transactie, dan kan dit een alarmsignaal voor verder onderzoek zijn.
De bankensector gebruikt al jaren AI om transactiegegevens van klanten te monitoren om hun uitgavengedrag te volgen, zoals bedragen die gewoonlijk bij geldautomaten worden opgenomen of soorten producten die met een creditcard worden gekocht. Als de AI een klant een ongebruikelijk bedrag ziet ophalen bij een onverwachte locatie of een creditcardaankoop waarneemt die niet bij zijn gebruikelijke gewoonten past, dan kan dit op fraude duiden.
Financiële instellingen maken veelvuldig gebruik van data-analyse voor aanvragen van leningen. De betalingsgeschiedenis van een potentiële klant, de verhouding tussen betalingen en inkomen en de kredietgeschiedenis kunnen worden gebruikt om het risico van het verstrekken van de lening te bepalen en te helpen bij het bepalen van de leningsvoorwaarden en de rentevoet.
Hoe meer gegevens worden verzameld, hoe gemakkelijker het wordt om onderscheid te maken tussen "normaal" gedrag en verdachte activiteiten die onderzocht dienen te worden.
Landbouw: Hulpmiddelen voor datamining kunnen ook worden gebruikt door landbouwbedrijven die gewassen of andere producten telen. Door gegevens te verzamelen en te analyseren, bijvoorbeeld over irrigatiehoeveelheden, uren zonneschijn, blootstelling aan wind en andere elementen van het weer, voedingsstoffen (zowel natuurlijk in de bodem, als toegevoegd) en het risico dat gewassen door dieren worden gegeten of beschadigd, kunnen landbouwers de opbrengst bepalen van wat zij telen. Ze kunnen ook gebieden bepalen waar ze veranderingen aanbrengen voor een betere en snellere oogst.
Complexe bewerkingen: Datamining-technieken kunnen ook worden gebruikt om operationele processen te verbeteren, zoals het identificeren van dure of tijdrovende knelpunten, inefficiënte processen, problemen in de toeleveringsketen of het verbeteren van de besluitvorming. Deze aanpak staat ook wel bekend als “process mining”. Het kan ook processen bewaken en verbeteringen meten, compliance ondersteunen en allerlei verschillende functies analyseren, met inbegrip van contactcentra.