Wat is machine learning?


We genereren elke dag meer informatie met de vele technologieën die we gebruiken (smartphones, computers, tablets, verbonden objecten, enzovoorts). Al deze apparaten genereren een enorme hoeveelheid gegevens. Eén persoon genereert in 2020 gemiddeld 1,7 MB gegevens per seconde. Deze worden opgeslagen in digitale databases en vormen een belangrijke bron van informatie: dat is big data. Maar zonder de juiste verwerking en effectieve strategie blijft deze massa slechts een stapel moeilijk te ordenen bytes. Op dat moment komt machine learning om de hoek kijken en kan men er optimaal van profiteren.

La définition du Machine Learning – OVHcloud

Wat is machine learning?

De eerste algoritmen voor Machine Learning werden in 1950 ontwikkeld. Machine learning, oftewel automatisch leren, is zowel een technologie als een wetenschap (Data Science) waarmee een computer een leerproces kan uitvoeren zonder daarvoor geprogrammeerd te zijn. Deze techniek, die verwant is met kunstmatige intelligentie (AI), is bedoeld om “patterns” (statistische herhalingspatronen) aan het licht te brengen en op basis daarvan statistische voorspellingen te doen. Data mining (boren of doorzoeken van gegevens), waarbij informatie wordt geëxtraheerd uit een grote hoeveelheid gegevens, wordt gebruikt als grondstof voor machine learning om de patronen voor statistische voorspellingen te markeren. Daarom is Big Data (alle geproduceerde en opgeslagen gegevens) onlosmakelijk verbonden met Machine Learning. Hoe groter het geheel dat trends aangeeft, hoe nauwkeuriger de voorspellingen.

Meer specifiek stelt het toegepaste leeralgoritme de computer in staat zijn analyse en antwoorden preciezer te maken op basis van empirische gegevens uit de bijbehorende database. Machine Learning is een leermodel dat professionals nieuwe kansen biedt, omdat zij ermee meerwaarde kunnen creëren uit de informatie die hun klanten of activiteiten genereren. Kunstmatige intelligentie is dus een grote uitdaging, als ze ervan willen kunnen profiteren.

Er zijn verschillende soorten leerprocessen die ingedeeld worden op basis van reeds bestaande gegevens tijdens de leerfase. Als het antwoord op de vastgestelde taak bekend is, dan heet het dat de gegevens gelabeld zijn. Dit precieze geval noemt men dan een bewaakt leerproces (“supervised learning”). Afhankelijk van de aard van de gegevens, discreet of continue, wordt er gesproken over classificatie of regressie. Als het leren stap voor stap gebeurt, met een afsluitende beloning voor elke correct uitgevoerde taak, dan is men bezig met versterkend leren (“reinforcement learning”). Het meest voorkomende leerproces is onbewaakt leren (“unsupervised learning”), dat bestaat uit zoeken zonder labels of tags. Het is gericht op het voorspellen van een resultaat zonder van tevoren antwoorden te kennen.

Soorten automatisch leren: twee benaderingen

Machine learning onder toezicht

Onder toezicht staan machine learning is een type automatisch leren waarbij een model wordt getraind op een set gelabelde gegevens. Dit betekent dat elk voorbeeld in de gegevensset een invoer (of kenmerk) en een bijbehorende uitvoer (of label) heeft. Het doel is om een functie te leren die, op basis van de ingangskenmerken, uitvoerlabels correct voorspelt voor nieuwe gegevens.

Het basisproces voor onder toezicht staande machine learning is als volgt.

  1. Gegevensverzameling: verzamel een gegevensset met gelabelde voorbeelden.
  2. Datasplitsing: de gegevens scheiden in trainings- en testsets.
  3. Training: gebruik het trainingspak om een model te leren dat de input-kenmerken aan de uitvoerlabels koppelt.
  4. Validatie en testen: de prestaties van het model over de testset evalueren om de nauwkeurigheid en het generalisatievermogen ervan te verifiëren.

Machine learning onder toezicht wordt in verschillende soorten activiteiten gebruikt: voor classificatie (bijvoorbeeld een categorie bepalen zoals spam) of een numerieke waarde voorspellen (bijvoorbeeld de prijs van een huis schatten op basis van zijn kenmerken).

Leren onder toezicht wordt in veel praktische toepassingen gebruikt: spraakherkenning, opsporing van fraude of aanbevelingssystemen.

Machine learning zonder toezicht

Machine learning zonder toezicht is een type van automatisch leren waarbij een model getraind wordt op niet-gelabelde gegevens. In tegenstelling tot leren onder toezicht is er geen vooraf bepaalde uitgang. Het doel is verborgen patronen of patronen in de data te vinden.

Belangrijkste soorten niet-gesuperviseerd leren:

  • clustering (aggregatie): de gegevens verdelen in groepen of clusters die op overeenkomsten zijn gebaseerd (bijvoorbeeld klanten met vergelijkbaar aankoopgedrag groeperen);
  • verkleining van de dimensionaliteit: gegevens vereenvoudigen door het aantal kenmerken te verminderen en tegelijkertijd de belangrijkste informatie te behouden (bijvoorbeeld de methode met de belangrijkste componenten of de BCP).

Veelvoorkomende voorbeelden van het gebruik van machine learning zonder toezicht:

  • segmentering van de klantenkring: identificatie van klantengroepen en klantenkring met soortgelijke gedragingen of kenmerken;
  • detectie van anomalieën: ongebruikelijke gegevens opsporen die het algemene gedrag niet volgen (bv. frauduleuze transacties opsporen).

Niet-gesuperviseerd leren is nuttig om gegevens te verkennen en patronen of relaties te ontdekken zonder dat vooraf kennis van labels of verwachte resultaten nodig is.

Machine Learning, waarvoor wordt het gebruikt?

De kracht en het belang van Machine Learning ligt in zijn vermogen om een enorme hoeveelheid data te verwerken die onmogelijk kan worden verwerkt voor het menselijk brein. Sectoren die grote hoeveelheden gegevens verzamelen, hebben een oplossing nodig om deze te verwerken en om er bruikbare informatie uit te halen om beslissingen te nemen. Met een voorspellende analyse van deze gegevens kan er op specifieke situaties geanticipeerd worden. Dat is nu precies het belang van Machine Learning. Neem bijvoorbeeld de financiële sector. Met Machine Learning kan fraude, verdacht gedrag en andere belangrijke elementen in het functioneren van financiële instellingen opgespoord worden.

Met de transactiegegevens die we in steeds grotere hoeveelheden produceren, kunnen bedrijven door het identificeren van herhalingen hun klantenbestand ook beter segmenteren op basis van aankoopgedrag. Wat we online bekijken en welke websites we bezoeken, genereert ook gegevens die door Machine Learning gebruikt kunnen worden om onze voorkeuren te definiëren. Het is dus duidelijk dat deze techniek voor gegevensverwerking, zonder menselijke tussenkomst, een belangrijke troef is voor bedrijven die willen profiteren van de grote hoeveelheid informatie waarover ze beschikken. Een mens kan eigenlijk niet van deze informatie profiteren vanwege de enorme hoeveelheid gegevens die moet worden verwerkt. Neem bijvoorbeeld de grote bedrijven die tot de GAFAM behoren: het integreren van AI en machine learning in hun processen is een noodzaak geworden, vanwege de grote bruikbare stroom aan gegevens die ze genereren.

Nu steeds meer gegevens worden geproduceerd, zullen steeds meer bedrijven deze technologie ook in hun structuur moeten integreren om beter gebruik te kunnen maken van de informatie waarover zij beschikken. Neem bijvoorbeeld het Internet-of-Things met zijn verbonden objecten, die steeds meer in ons dagelijks leven voorkomen. In 2019 waren meer dan 8 miljard verbonden objecten geïntegreerd in onze samenleving, waardoor er meer gegevens verzameld konden worden over ons levensritme, onze consumptie en onze gewoonten, vertrouwend op onze spraakherkenning. Dit alles vertegenwoordigt een kritische massa aan informatie voor bedrijven en met Machine Learning kunnen er bruikbare elementen uit worden gehaald. Zoals u zult begrijpen, staat er veel op het spel. Er zijn veel toepassingen mogelijk in onze moderne samenleving, zoals gezichtsherkenning, zelfrijdende auto's, robotica, slimme huizen... Alles draait erom deze troef op de juiste manier te implementeren. Deze technologie is niet alleen bedoeld voor geavanceerde ontwikkelingsteams op het gebied van AI. Veel bedrijven zetten hun eerste stappen in Machine Learning door voor kant-en-klare oplossingen te kiezen die bij hun doelstellingen passen.

De werking van Machine Learning

De basis voor het functioneren van Machine Learning is "ervaring". De computer haalt een grote hoeveelheid gegevens op die hij zal gebruiken om situaties te analyseren en te voorspellen. Het doel van het proces is dat de machine zelf een "intern plan" kan opstellen, zodat hij de kernelementen identificeren kan waar we ons op willen richten. Het apparaat zal verschillende voorbeelden en tests moeten "toetsen" om vooruitgang te kunnen boeken. Daarom hebben we het over leren.
De computer heeft leergegevens nodig om te kunnen trainen. Het verkennen van gegevens vormt de basis voor het functioneren van Machine Learning. Dit zijn trainingsgegevens (training data set). Er is ook software en analysealgoritmen voor nodig. Uiteindelijk is ook een implementatieomgeving vereist, meestal een server met voldoende rekenkracht. Er zijn verschillende soorten leerprocessen die kunnen variëren afhankelijk van of er al dan niet een gewenst antwoord bekend is, het type geanalyseerde gegevens, de omgeving van de gegevens en het type uitgevoerde analytische actie (statistieken, vergelijkingen, beeldherkenning, enzovoorts). De leeralgoritmen verschillen naargelang de taak die moet worden uitgevoerd en de benodigde rekenkracht wordt ook daardoor beïnvloed.

Het leerproces van de computer bestaat meestal uit twee delen. Het eerste bestaat uit het ontwikkelen van een model op basis van alle testgegevens, ook wel "observatiegegevens" genoemd. Dit deel bestaat uit het definiëren van de taak die moet worden uitgevoerd (detecteren of een element in een foto aanwezig is, een statistische herhaling aantonen, reageren op een sensorsignaal enzovoorts). Dit is de testfase ofwel “trainingsfase”. Dan is er de productiefase van het model. Het kan worden geoptimaliseerd met nieuwe gegevens. Sommige systemen kunnen tijdens de productiefase nog doorgaan met leren, maar er moet worden gezorgd voor feedback over de verkregen resultaten, zodat het model en het gedrag van de machine inderdaad geoptimaliseerd worden. Andere kunnen zelf doorgaan met leren en autonoom worden.

De kwaliteit van deze leerprocessen hangt af van verschillende factoren:

Het aantal relevante voorbeelden dat de computer kan overwegen. Hoe meer resultaten er zijn, hoe nauwkeuriger de resultaten

Het aantal kenmerken waarmee de voorbeelden beschreven worden. Hoe eenvoudiger en nauwkeuriger ze zijn (grootte, gewicht, hoeveelheid, snelheid enzovoorts), hoe sneller en nauwkeuriger de analyse.

De kwaliteit van de gebruikte database. Als er te veel gegevens ontbreken, heeft dit gevolgen voor het proces. Verkeerde of extravagante gegevens kunnen de resultaten ook verstoren.

Het voorspelalgoritme zal nauwkeuriger zijn en de analyse zal relevanter zijn als er zo goed mogelijk wordt voldaan aan deze criteria. Zodra het leerproces van de computer gedefinieerd is en de databases klaar zijn, kunt u beginnen met Machine Learning!

Een geslaagd Machine Learning-project samen met OVHcloud:

Voor ons heeft altijd centraal gestaan technologie binnen handbereik van alle bedrijfstakken te brengen. Wij zijn van mening dat AI, met de mogelijkheden die het biedt, niet alleen aan IT-giganten of grote ondernemingen voorbehouden moet zijn. We willen u helpen en u zo goed mogelijk begeleiden bij de ambitieuze start van uw AI- en Machine Learning-projecten. Kunstmatige intelligentie verbetert de efficiency en maakt de besluitvorming eenvoudiger. OVHcloud biedt tools waarmee u zakelijke uitdagingen aan kunt gaan, zoals voorspellende analyses van gegevenssets, en waarmee u het gebruik ervan voor alle gebruikers- en gebruikersprofielen eenvoudig kunt maken. We begeleiden onze klanten bij het ontwikkelen van hun systeem voor artificiële intelligentie.

Verzamel en prepareer uw gegevens dankzij OVHcloud en onze Data Analytics-oplossingen. U kunt stap voor stap uw Machine Learning-project modelleren. Implementeer uw model met een paar klikken. Gebruik de tools en frameworks waarmee u graag werkt, zoals TensorFlow, PMML of ONNX.

Door met OVHcloud samen te werken, geniet u van een aantal voordelen bij het ontwikkelen van uw Machine Learning-project:

Respect voor uw gegevens

We verplichten ons de vertrouwelijkheid van uw persoonlijke gegevens te beschermen. Onze bedrijfsfilosofie hecht groot belang aan de soevereiniteit van uw gegevens en stelt u in staat deze gegevens op elk gewenst moment terug te halen.

Rekenkracht

Door onze implementaties en infrastructuren te automatiseren, kunnen we u aanzienlijke rekenkracht bieden voor scherpe prijzen.

Open source

In de wereld van data zijn opensourceoplossingen tegenwoordig het krachtigst en het meest uitontwikkeld. OVHcloud hecht er zeer veel belang aan haar producten op deze programma's te baseren, zoals de Apache Hadoop-suite of Apache Spark.

Ontdek onze reeks producten voor Public Cloud

OVHcloud kunstmatige intelligentie en machine learning

AI & machine learning

Artificiële intelligentie (AI) klinkt vaak als „data science alleen voor ingewijden“. Bij OVHcloud zijn we ervan overtuigd dat deze aanpak ongelooflijke mogelijkheden biedt voor allerlei toepassingen. En we denken dat complexiteit geen rem mag vormen voor het gebruik van big data en machine learning.

public cloud gpu

GPU

De GPU-instances zijn uitgerust met NVIDIA grafische processors, zodat ze aan de vereisten van massively parallel computing voldoen. Als onderdeel van het OVHcloud-portfolio bieden ze voordelen als on-demand resources en facturering op uurbasis.

OVHcloud AI Training

AI Training

Start de trainingen voor uw artificiële intelligentie in de cloud zonder u zorgen te hoeven maken over de werking van de infrastructuur. Met AI Training kunnen data scientists zich concentreren op hun kerntaken zonder tijd te verliezen aan het orkestreren van rekenresources.