Wat is ongecontroleerd leren?


Ongecontroleerd leren is een type machine learning waarbij algoritmen patronen leren van niet-gelabelde gegevens. In tegenstelling tot gecontroleerd leren zijn er geen vooraf gedefinieerde outputcategorieën; het systeem probeert de gegevens te begrijpen door op zichzelf inherente structuren, groeperingen of relaties te identificeren.

machine learning

Hoe werkt ongecontroleerd leren?

Onbewaakte leertrainingsalgoritmen zijn ontworpen om verborgen patronen in gegevenssets te verkennen en te vinden zonder vooraf gedefinieerde labels of beoogde resultaten. In plaats van dat ze wordt verteld waar ze naar op zoek zijn, doorzoeken deze algoritmen de gegevens om op zichzelf inherente structuren en relaties te ontdekken.

Gegevensverkenning en patroondetectie

Het essentiële artificiële intelligentieproces begint met het invoeren van het machine learningalgoritme in een gegevensset die alleen bestaat uit invoerfuncties, zonder overeenkomstige uitvoervariabelen. Het algoritme verwerkt deze gegevens vervolgens iteratief, en probeert onderliggende patronen te identificeren. Dit kan het volgende inhouden:

  • Identificeren van overeenkomsten of verschillen : Het algoritme zoekt naar gegevenspunten die gelijk of verschillend zijn op basis van hun functies.
  • Understanding data distribution : Het zou kunnen proberen te begrijpen hoe de gegevens worden verspreid en of er natuurlijke groeperingen zijn.
  • Minder complexiteit : Soms is het doel om de gegevens te vereenvoudigen door de meest essentiële functies te vinden.

Algoritmische benadering

Verschillende leeralgoritmen zonder toezicht gebruikten verschillende wiskundige en statistische technieken om hun trainingsdoelen te bereiken. Bijvoorbeeld:

Clusteralgoritmen zijn erop gericht vergelijkbare gegevenspunten te groeperen. Ze kunnen afstanden tussen punten berekenen en punten die dicht bij elkaar liggen aan hetzelfde cluster toewijzen. Het algoritme leert de kenmerken van deze groepen uit de gegevens zelf.

Algoritmen voor dimensionaliteitsreductie zijn erop gericht het aantal trainingsvariabelen (functies) in de gegevensset te verminderen, terwijl belangrijke informatie behouden blijft. Ze identificeren correlaties en redundanties om een compactere weergave van de gegevens te maken.

Algoritmen voor het minen van associatieregels zoeken naar relaties of co-voorkomens tussen items in grote datasets, zoals het identificeren van producten die vaak samen worden gekocht in een supermarkt.

Het artificiële intelligentiealgoritme leert de inherente structuur van de gegevens door een objectieve functie die de essentie van een "goede" structuur vastlegt, te minimaliseren of te maximaliseren (bijvoorbeeld door de afstand binnen clusters te minimaliseren en de afstand tussen clusters te maximaliseren). Het is een verkennend proces dat wordt aangedreven door de gegevens zelf.

Verschillende soorten ongecontroleerd leren

Ongecontroleerd leren identificeert patronen in niet-gelabelde gegevens met behulp van technieken zoals clustering, dimensionaliteitsreductie en koppelingsregelanalyse, die kunnen worden geïntegreerd in MLOps-workflows.

Clustering

Clustering is misschien wel het bekendste type ongecontroleerd leren. Het primaire doel van clustering voor het model is om een set objecten zodanig te groeperen dat objecten in dezelfde groep (een cluster genaamd) meer op elkaar lijken dan objecten in andere clusters. Het algoritme detecteert deze natuurlijke groeperingen in de gegevens op basis van de inherente kenmerken van de gegevenspunten.
 

Clustering werkt meestal door het meten van de gelijkenis (of ongelijkheid) tussen gegevenspunten, vaak met behulp van afstandsmetrieken zoals Euclidische afstand of cosinusgelijkenis. Vervolgens wijzen ze gegevenspunten toe aan clusters om de gelijkenis binnen clusters te maximaliseren en de gelijkenis tussen clusters te minimaliseren - zo wordt het clusterproces afgerond.

Dimensionaliteitsreductie

Dimensionaliteitsreductietechnieken zijn bedoeld om het aantal willekeurige variabelen of kenmerken dat wordt overwogen, te verminderen. Dit is met name nuttig wanneer het gaat om hoog-dimensionale datasets (datasets met veel functies), omdat het de gegevens kan vereenvoudigen, de complexiteit van berekeningen kan verminderen, de "vloek van dimensionaliteit" kan verzachten en kan helpen bij visualisatie.
 

Met deze methoden worden modelgegevens van een hoog-dimensionale ruimte omgezet in een lager-dimensionale ruimte, terwijl wordt geprobeerd de betekenisvolle eigenschappen en variantie van de oorspronkelijke gegevens te behouden. Dit kunt u bereiken door Functieselectie te gebruiken, waarmee een subset van de oorspronkelijke functies wordt geselecteerd, of door Feature Extraction, waarmee een nieuwe, kleinere set functies wordt gemaakt door de oorspronkelijke voorbeeldfuncties te combineren.

Mining van koppelingsregels

Mining van koppelingsregels is een methode op basis van regels voor het ontdekken van interessante relaties tussen variabelen in grote gegevenssets. Het wordt veel gebruikt om patronen van co-existentie te identificeren, zoals artikelen die vaak samen worden gekocht in de analyse van het mandje.
 

Deze algoritmen zoeken naar "if-then"-regels (bijvoorbeeld, als artikel A wordt gekocht, dan zal artikel B waarschijnlijk worden gekocht). De sterkte van deze regels wordt geëvalueerd met behulp van statistieken zoals: ondersteuning, die aangeeft hoe vaak de artikelen in de gegevensset worden weergegeven; vertrouwen, dat aangeeft hoe vaak de regel waar is bevonden; en Lift, dat meet hoeveel waarschijnlijker artikel B wordt gekocht wanneer artikel A wordt gekocht, vergeleken met de algemene waarschijnlijkheid dat het wordt gebruikt.

Anomaliedetectie (detectie van uitbijters)

Hoewel anomaliedetectie soms als een apart veld wordt beschouwd, wordt vaak gebruikgemaakt van ongecontroleerde technieken om gegevenspunten, gebeurtenissen of waarnemingen te identificeren die aanzienlijk afwijken van de meeste gegevens - de "anomalieën" of "uitschieters". Omdat anomalieën zeldzaam zijn en vaak van tevoren onbekend, zijn methoden zonder toezicht geschikt, omdat ze geen voorafgaande kennis (labels) vereisen van wat een anomalie vormt.
 

Hier bouwen de methoden een model van normaal gegevensgedrag en identificeren vervolgens instanties die niet aan dit model voldoen. Dit kan worden gebaseerd op statistische eigenschappen, afstanden, dichtheden of fouten in de reconstructie.

Uitdagingen en beperkingen van ongecontroleerd leren

Hoewel ongecontroleerd leren krachtige tools biedt voor het ontdekken van verborgen inzichten in gegevens met behulp van de machine learning-pipeline voor het model, komt het ook met zijn eigen set uitdagingen en beperkingen. Een van de grootste obstakels is misschien wel de moeilijkheid om de resultaten te evalueren.

In tegenstelling tot gecontroleerd leren, waarbij modellen worden beoordeeld aan de hand van bekende labels, mist ongecontroleerd leren een definitieve 'basiswaarheid'. Hierdoor is het inherent lastiger om de kwaliteit of de betekenis van de ontdekte patronen objectief te meten, wat vaak meer subjectieve of indirecte validatiemethoden vereist.

Bovendien is de interpretatie van de resultaten van kunstmatige-intelligentiealgoritmen zonder toezicht sterk afhankelijk van de expertise van domeinvoorbeelden voor het model. De patronen, clusters of gereduceerde dimensies die door het model worden geïdentificeerd, moeten zorgvuldig worden onderzocht door iemand die deskundig is in het specifieke veld om de werkelijke betekenis en praktische implicaties ervan te bepalen. Zonder de inbreng van deskundigen bestaat het risico dat bevindingen verkeerd geïnterpreteerd worden of dat we ons richten op patronen die statistisch interessant maar praktisch irrelevant zijn.

Prestatievariaties

De prestaties van leermodellen zonder toezicht zijn zeer gevoelig voor de keuze en schaal van functies. Onrelevante of slecht geschaalde functies kunnen zinvolle patronen verhullen of de algoritmen ertoe brengen misleidende structuren te ontdekken.

Daarom is een aanzienlijke inspanning op het gebied van feature engineering en voorverwerking vaak noodzakelijk om nuttige voorbeeldresultaten te behalen. Hoewel ongecontroleerd leren uitblinkt in het identificeren van inherente structuren, voorspelt het bovendien niet direct specifieke resultaten of doelvariabelen, wat een beperking kan zijn als een voorspellende taak het uiteindelijke doel is.

Sommige algoritmen, vooral algoritmen die te maken hebben met zeer grote datasets of hoge dimensionaliteit, kunnen ook computerintensief zijn, wat aanzienlijke resources vereist. Ten slotte is er altijd een potentieel voor algoritmen om oneigenlijke of betekenisloze patronen te ontdekken, vooral als de gegevens rumoerig zijn of als de gekozen methode niet goed geschikt is voor de onderliggende structuur van de dataset, waardoor zorgvuldige analyse en validatie cruciaal zijn.

Ongecontroleerd leren versus gecontroleerd leren

Een goed begrip van het onderscheid tussen ongecontroleerd en gecontroleerd leren met een model is van fundamenteel belang om het landschap van machine learning te begrijpen. Hoewel beide gericht zijn op het verkrijgen van inzichten uit gegevens, verschillen hun benaderingen en doelstellingen aanzienlijk, voornamelijk op basis van de aard van de inputgegevens die zij gebruiken. Het meest cruciale verschil ligt in de data zelf.

Gecontroleerd leren

Gecontroleerde machine learning-algoritmen werken met gelabelde voorbeeldgegevens. Dit betekent dat voor het gecontroleerde proces elk gegevenspunt in de trainingsset een bekende output- of doelvariabele heeft die eraan is gekoppeld. Het algoritme leert invoerfuncties aan deze vooraf gedefinieerde labels toe te wijzen.

Het primaire doel van het onder toezicht staande proces is het voorspellen van een specifieke uitkomst of classificatie van gegevens in bekende categorieën. Het voorspellen van huizenprijzen op basis van functies als grootte en locatie (waar historische prijzen bekend zijn) of het classificeren van e-mails als spam of niet als spam (waar e-mails vooraf zijn gelabeld) zijn bijvoorbeeld vaak begeleide leertaken.

Ongecontroleerd leren

Onbewaakte machine learning-algoritmen werken daarentegen met niet-gelabelde voorbeeldgegevens wanneer ze modelleren. De gegevenspunten voor het model hebben geen vooraf gedefinieerde uitvoer of categorieën. Het algoritme moet de gegevens verkennen om op zichzelf inherente patronen, structuren of relaties te vinden.

Het belangrijkste doel is hier verborgen patronen te ontdekken, vergelijkbare items te groeperen of de complexiteit van gegevens te verminderen. Een voorbeeld hiervan zou zijn om klanten in verschillende groepen te verdelen op basis van hun koopgedrag (zonder dat deze groepen vooraf bekend zijn) of om afwijkingen in het netwerkverkeer te identificeren.

Belangrijkste kenmerken vergelijken

Laten we de karakteristieke eigenschappen van elk model met artificiële intelligentie eens bekijken. Als we denken aan gecontroleerd leren, vinden we de volgende kenmerken:

  • Invoergegevens : Gebruikt gelabelde gegevens, wat betekent dat elk gegevenspunt wordt geleverd met de juiste uitvoer of tag.
     
  • Primaire doelstelling : Beoogt resultaten voor nieuwe gegevens te voorspellen of gegevens te classificeren in vooraf gedefinieerde categorieën op basis van de geleerde toewijzing uit de gelabelde trainingsgegevens.
     
  • Algoritmes : Veelgebruikte algoritmen zijn Linear Regression, Logistic Regression, Support Vector Machines (SVM), Decision Trees, en Neural Networks (voor taken onder toezicht).
     
  • Guidance : Het leerproces wordt expliciet geleid door de bekende doelvariabelen in de trainingsdataset.
     
  • Algemene taken : Voorbeelden hiervan zijn spamdetectie in e-mails, beeldherkenning (bijvoorbeeld het identificeren van katten in foto's), medische diagnose op basis van patiëntengegevens en het voorspellen van aandelenprijzen.
     
  • Evaluatie Prestaties worden meestal gemeten door de voorspellingen van het algoritme te vergelijken met de bekende labels, met behulp van meetwaarden als nauwkeurigheid, precisie, terugroeping, F1-score of gemiddelde kwadraatfout.

Op de keerzijde vertoont een ongecontroleerd leermodel deze kenmerken:

  • Invoergegevens : Werkt met niet-gelabelde voorbeeldgegevens, waarbij alleen invoerfuncties worden geleverd zonder corresponderende uitvoervariabelen.
     
  • Primaire doelstelling : Hiermee kunt u verborgen patronen, inherente structuren of relaties in de gegevens detecteren. Dit omvat het groeperen van vergelijkbare gegevenspunten (clustering), het verminderen van het aantal functies (reductie van dimensionaliteit) of het zoeken naar patronen voor gelijktijdige aanwezigheid (mining van koppelingsregels).
     
  • Algoritmes : Populaire algoritmen zijn K-Means clustering, Hiërarchische clustering, Principal Component Analysis (PCA), Apriori-algoritme Autoencoders, vaak geclassificeerd als zelf-gecontroleerde leertechnieken, kunnen worden gebruikt voor dimensionaliteitsvermindering en anomaliedetectie.
     
  • Guidance : Het algoritme verkent de gegevens zonder expliciete begeleiding of vooraf gedefinieerde juiste antwoorden.
     
  • Algemene taken : Voorbeelden hiervan zijn klantsegmentatie voor marketing, detectie van anomalieën bij financiële transacties, onderwerpmodellering in grote tekstdocumenten en het bouwen van aanbevelingssystemen.
     
  • Evaluatie Evaluatie is vaak uitdagender en subjectiever, omdat er geen "juiste" antwoorden zijn om mee te vergelijken. Metrische gegevens kunnen clustercohesie en -scheiding (voor clustering), de hoeveelheid behouden variantie (voor dimensionaliteitsreductie) of menselijke evaluatie van de ontdekte patronen omvatten.
     

Wanneer te gebruiken, wat een heel andere vraag is. Je kunt wel zeggen dat je gecontroleerd leren moet kiezen als je gelabelde gegevens hebt en een duidelijk doelresultaat dat je wilt voorspellen of gebruiken voor classificatie.

U moet kiezen voor artificiële intelligentie zonder toezicht als u niet-gelabelde gegevens hebt en deze wilt verkennen voor verborgen inzichten, groeperen of de structuur ervan vereenvoudigen.

Gebruiksscenario's voor machine learning zonder toezicht

Ongecontroleerd leren, door verborgen patronen in niet-gelabelde gegevens voor een model te ontdekken, stimuleert een verscheidenheid aan impactvolle toepassingen in veel sectoren. De belangrijkste toepassingen zijn:

  • Clustering van applicaties : Deze methoden groeperen vergelijkbare gegevenspunten om natuurlijke segmenten te ontdekken. Veelgebruikte toepassingen zijn onder meer segmentering van de klant voor gerichte marketing, het organiseren van grote documentensets per onderwerp (topic modelling), het segmenteren van afbeeldingen om objecten te identificeren en het identificeren van gemeenschappen in sociale netwerken.
     
  • Dimensionaliteitsreductietoepassingen : Deze technieken vereenvoudigen complexe datasets door het aantal functies te verminderen en belangrijke informatie te behouden. Dit is essentieel voor het visualiseren van hoog-dimensionale gegevens, het verbeteren van de efficiëntie en prestaties van andere machine-learningmodellen door middel van functie-engineering en het verminderen van ruis in gegevens.
     
  • Toepassingen voor het minen van associatieregels : Dit type computeralgoritme detecteert interessante relaties en patronen tussen items in grote gegevenssets. Het wordt veel gebruikt voor marktanalyse in de detailhandel (om te zien welke producten samen worden gekocht), voor het aandrijven van aanbevelingsengines in e-commerce en streamingservices, en voor het analyseren van webgebruikspatronen.
     
  • Anomaly detectie applicaties : Deze applicaties richten zich op het identificeren van zeldzame items, gebeurtenissen of waarnemingen die aanzienlijk afwijken van de norm. Kritieke use cases zijn fraudedetectie bij financiële transacties, detectie van indringers in cyberbeveiligingssystemen, het identificeren van defecten in productieprocessen en het monitoren van de gezondheid van patiënten op ongebruikelijke vitale functies.

OVHcloud en ongecontroleerd leren

Voor het effectief implementeren en opschalen van onbegeleide leerprojecten en uw model zijn robuuste tools en infrastructuren essentieel. OVHcloud levert verschillende oplossingen die ontworpen zijn om de ontwikkeling, implementatie en het beheer van machine learning-modellen te ondersteunen, inclusief modellen die gebruikt worden in ongecontroleerde leercontexten:

Public Cloud Icon

AI Deploy

Implementeer en schaal uw machine-learningmodellen moeiteloos op met AI Deploy. Overbrugg de kloof tussen ontwikkeling van artificiële intelligentie en productie door uw AI-modellen gemakkelijk toegankelijk te maken via API’s. Concentreer u op uw algoritmen terwijl wij de infrastructuur verwerken, wat zorgt voor hoge beschikbaarheid en prestaties voor uw intelligente applicaties.

Hosted Private cloud Icon

AI & Machine Learning

Versnel uw workflows voor AI en machine learning met onze krachtige en schaalbare machine learning-oplossing. OVHcloud AI Machine Learning biedt u de tools en infrastructuur om uw modellen efficiënt te trainen, te managen en te implementeren.

Bare MetaL Icon

Public Cloud

Bouw, implementeer en beheer uw artificiële intelligentie-applicaties met flexibiliteit en controle over de Public Cloud-oplossing van OVHcloud. Onze robuuste en schaalbare infrastructuur biedt een breed scala aan services, waaronder rekeninstances, opslagoplossingen en netwerkmogelijkheden.