Was ist unüberwachtes Lernen?


Unüberwachtes Lernen ist eine Art von Machine Learning, bei dem Algorithmen Muster aus ungekennzeichneten Daten lernen. Anders als beim überwachten Lernen gibt es keine vordefinierten Ausgabekategorien. Das System versucht, die Daten zu verstehen, indem es die inhärenten Strukturen, Gruppierungen oder Beziehungen selbst identifiziert.

machine learning

Wie funktioniert unüberwachtes Lernen?

Unüberwachte Lerntrainingsalgorithmen sind dafür konzipiert, verborgene Muster in Datensätzen, denen vordefinierte Bezeichnungen oder Zielergebnisse fehlen, zu untersuchen und zu finden. Anstatt dass man ihnen sagt, wonach sie suchen sollen, durchsuchen diese Algorithmen die Daten, um selbstständig inhärente Strukturen und Beziehungen zu entdecken.

Datenexploration und Mustererkennung

Der Kernprozess der künstlichen Intelligenz beginnt damit, dass dem Machine-Learning-Algorithmus ein Datensatz zugeführt wird, der nur aus Eingabefunktionen besteht, ohne dass entsprechende Ausgabevariablen vorhanden sind. Der Algorithmus verarbeitet diese Daten dann iterativ und versucht, zugrunde liegende Muster zu identifizieren. Dies könnte Folgendes beinhalten:

  • Identifizieren von Ähnlichkeiten oder Unterschieden: Der Algorithmus sucht nach Datenpunkten, die aufgrund ihrer Features gleich oder verschieden sind.
  • Die Datenverteilung verstehen: Vielleicht versucht sie zu verstehen, wie sich die Daten verteilen und ob es natürliche Gruppierungen gibt.
  • Weniger Komplexität: Manchmal besteht das Ziel darin, die wichtigsten Funktionen der Daten einfacher zu gestalten.

algorithmischer Ansatz

Verschiedene unüberwachte Lernalgorithmen verwendeten verschiedene mathematische und statistische Techniken, um ihre Trainingsziele zu erreichen. Zum Beispiel:

Clustering-Algorithmen sollen ähnliche Datenpunkte gruppieren. Sie können Abstände zwischen Punkten berechnen und diese, die nahe beieinander liegen, demselben Cluster zuweisen. Der Algorithmus lernt die Eigenschaften dieser Gruppen aus den Daten selbst.

Algorithmen zur Dimensionalitätsreduktion zielen darauf ab, die Anzahl der Trainingsvariablen (Features) im Dataset zu reduzieren und gleichzeitig wichtige Informationen beizubehalten. Sie identifizieren Korrelationen und Redundanzen, um eine kompaktere Darstellung der Daten zu erhalten.

Assoziationsregel-Mining-Algorithmen suchen nach Beziehungen oder gleichzeitigen Vorkommen zwischen Elementen in großen Datensätzen, wie z. B. das Identifizieren von Produkten, die häufig zusammen in einem Supermarkt gekauft werden.

Der Algorithmus der künstlichen Intelligenz lernt im Wesentlichen die inhärente Struktur der Daten durch Minimieren oder Maximieren einer objektiven Funktion, die das Wesen einer „guten“ Struktur erfasst (z. B. Minimieren der Entfernung innerhalb von Clustern und Maximieren der Entfernung zwischen Clustern). Es ist ein erforschender Prozess, der von den Daten selbst angetrieben wird.

Verschiedene Arten von unbeaufsichtigtem Lernen

Unüberwachtes Lernen identifiziert Muster in ungekennzeichneten Daten mithilfe von Techniken wie Clustering, Dimensionalitätsreduktion und Zuordnungsregel-Mining, die in MLOps-Workflows integriert werden können.

Clustering

Clustering ist die vielleicht bekannteste Art des unüberwachten Lernens. Das primäre Ziel des Clustering für das Modell besteht darin, eine Gruppe von Objekten so zu gruppieren, dass Objekte in derselben Gruppe (als Cluster bezeichnet) einander ähnlicher sind als in anderen Clustern. Der Algorithmus entdeckt diese natürlichen Gruppierungen in den Daten basierend auf den inhärenten Eigenschaften der Datenpunkte.
 

Clustering funktioniert in der Regel durch Messen der Ähnlichkeit (oder Unähnlichkeit) zwischen Datenpunkten, oft mit Entfernungsmetriken wie Euklidische Entfernung oder Kosinusähnlichkeit. Anschließend werden den Clustern Datenpunkte zugewiesen, um die Ähnlichkeit zwischen den Clustern zu maximieren und die Ähnlichkeit zwischen den Clustern zu minimieren - so wird der Clusterprozess abgeschlossen.

Dimensionalitätsreduktion

Techniken zur Dimensionalitätsreduktion zielen darauf ab, die Anzahl der betrachteten Zufallsvariablen oder Merkmale zu reduzieren. Dies ist besonders nützlich, wenn es um hochdimensionale Datensätze (Datensätze mit vielen Features) geht, da es die Daten vereinfachen, die Komplexität der Berechnung reduzieren, den „Fluch der Dimensionalität“ abschwächen und bei der Visualisierung helfen kann.
 

Diese Methoden wandeln Modelldaten aus einem hochdimensionalen Raum in einen niederdimensionalen Raum um und versuchen dabei, aussagekräftige Eigenschaften und Varianz der Originaldaten zu erhalten. Dies kann durch die KE-Auswahl erreicht werden, bei der eine Teilmenge der ursprünglichen KEs ausgewählt wird, oder durch die KE-Extraktion, bei der eine neue, kleinere Gruppe von KEs erstellt wird, indem die ursprünglichen Beispiel-KEs kombiniert werden.

Zuordnungsregel-Mining

Assoziationsregel-Mining ist eine regelbasierte Methode zur Ermittlung interessanter Beziehungen zwischen Variablen in großen Datensätzen. Es wird häufig verwendet, um Muster des gleichzeitigen Auftretens zu identifizieren, wie z. B. Artikel, die häufig zusammen in der Marktkorbanalyse gekauft werden.
 

Diese Algorithmen suchen nach „wenn-dann“-Regeln (z. B. wenn Artikel A gekauft wird, wird Artikel B wahrscheinlich gekauft). Die Stärke dieser Regeln wird mithilfe von Metriken wie: Support, der angibt, wie oft die Elemente im Datensatz angezeigt werden; Vertrauen, das angibt, wie oft die Regel als wahr erkannt wurde; und Lift, der misst, wie viel wahrscheinlicher Artikel B beim Kauf von Artikel A gekauft wird, im Vergleich zu seiner allgemeinen Wahrscheinlichkeit, verwendet zu werden.

Erkennung von Anomalien (Erkennung von Ausreißern)

Obwohl Anomalieerkennung manchmal als separates Feld betrachtet wird, verwendet sie oft unüberwachte Techniken, um Datenpunkte, Ereignisse oder Beobachtungen zu identifizieren, die signifikant von der Mehrheit der Daten abweichen - die „Anomalien“ oder „Ausreißer“. Da Anomalien selten und häufig vorher unbekannt sind, sind unüberwachte Methoden gut geeignet, da sie keine Vorkenntnisse (Labels) darüber erfordern, was eine Anomalie ausmacht.
 

In diesem Fall erstellen die Methoden ein Modell des normalen Datenverhaltens und identifizieren dann Instanzen, die diesem Modell nicht entsprechen. Dies kann auf statistischen Eigenschaften, Abständen, Dichten oder Rekonstruktionsfehlern basieren.

Herausforderungen und Grenzen des unüberwachten Lernens

Während unüberwachtes Lernen leistungsstarke Tools bietet, um mithilfe der Pipeline für Machine Learning für das Modell versteckte Einblicke in Daten zu entdecken, bringt es auch eigene Herausforderungen und Einschränkungen mit sich. Eine der vielleicht wichtigsten Hürden ist die Schwierigkeit, die Ergebnisse zu bewerten.

Anders als beim überwachten Lernen, bei dem Modelle anhand bekannter Kennzeichnungen bewertet werden, fehlt beim unüberwachten Lernen eine definitive „Grundwahrheit“. Daher ist es von Natur aus schwieriger, die Qualität oder Aussagekraft der gefundenen Muster objektiv zu messen, was häufig subjektivere oder indirektere Validierungsmethoden erfordert.

Darüber hinaus stützt sich die Interpretation der Ergebnisse von unüberwachten Algorithmen der künstlichen Intelligenz stark auf Domänenbeispiele für das Modell. Die vom Modell identifizierten Muster, Cluster oder reduzierten Dimensionen müssen von einer Person mit Fachkenntnissen auf diesem Gebiet sorgfältig untersucht werden, um ihre tatsächliche Bedeutung und praktischen Auswirkungen zu bestimmen. Ohne Expertenmeinungen besteht das Risiko, dass Befunde falsch interpretiert werden oder Muster, die zwar statistisch interessant, aber praktisch irrelevant sind, in den Mittelpunkt gerückt werden.

Leistungsschwankungen

Die Leistung unüberwachter Lernmodelle hängt stark von der Auswahl und Skalierung der Funktionen ab. Irrelevante oder schlecht skalierte Features können bedeutsame Muster verdecken oder die Algorithmen dazu bringen, irreführende Strukturen zu entdecken.

Daher ist oft ein erheblicher Aufwand beim Erstellen und Vorverarbeiten von Features erforderlich, um nützliche Beispielergebnisse zu erzielen. Darüber hinaus ist unüberwachtes Lernen zwar hervorragend darin, inhärente Strukturen zu identifizieren, sagt jedoch keine bestimmten Ergebnisse oder Zielvariablen direkt voraus, was eine Einschränkung darstellen kann, wenn eine prädiktive Aufgabe das ultimative Ziel ist.

Einige Algorithmen, insbesondere solche, die sehr große Datensätze oder hohe Dimensionalität verarbeiten, können ebenfalls rechenintensiv sein und erhebliche Ressourcen erfordern. Schließlich gibt es immer ein Potenzial für Algorithmen, um falsche oder bedeutungslose Muster zu entdecken, besonders wenn die Daten verrauscht sind oder die gewählte Methode nicht gut zu der zugrunde liegenden Struktur des Datensatzes passt, was sorgfältige Analyse und Validierung entscheidend macht.

Unüberwachtes Lernen und überwachtes Lernen

Das Verständnis der Unterscheidung zwischen unbeaufsichtigtem und überwachtem Modelllernen ist grundlegend, um die Landschaft des Machine Learning zu verstehen. Beide zielen darauf ab, aus Daten Erkenntnisse zu gewinnen, ihre Ansätze und Ziele unterscheiden sich jedoch erheblich, vor allem aufgrund der Art der verwendeten Eingabedaten. Der wichtigste Unterschied liegt in den Daten selbst.

Überwachtes Lernen

Überwachte Machine-Learning-Algorithmen arbeiten mit gekennzeichneten Beispieldaten. Dies bedeutet für den überwachten Prozess, dass jedem Datenpunkt im Trainingssatz eine bekannte Ausgangs- oder Zielvariable zugeordnet ist. Der Algorithmus lernt, diesen vordefinierten Labels Eingabefeatures zuzuordnen.

Das primäre Ziel des überwachten Prozesses besteht darin, ein bestimmtes Ergebnis oder eine Klassifizierung der Daten in bekannte Kategorien vorherzusagen. So sind beispielsweise die Vorhersage von Hauspreisen auf der Grundlage von Merkmalen wie Größe und Standort (wo historische Preise bekannt sind) oder die Klassifizierung von E-Mails als Spam oder nicht Spam (wo E-Mails vorab gekennzeichnet sind) häufige überwachte Lernaufgaben.

Unüberwachtes Lernen

Unüberwachte Machine-Learning-Algorithmen arbeiten umgekehrt bei der Modellierung mit ungekennzeichneten Beispieldaten. Die Datenpunkte für das Modell verfügen über keine vordefinierten Ausgaben oder Kategorien. Der Algorithmus muss die Daten untersuchen, um inhärente Muster, Strukturen oder Beziehungen selbst zu finden.

Das Hauptziel dabei ist, versteckte Muster zu erkennen, ähnliche Elemente zu gruppieren oder die Datenkomplexität zu reduzieren. Ein Beispiel wäre die Aufteilung der Kunden in verschiedene Gruppen auf der Grundlage ihres Kaufverhaltens (ohne Vorkenntnisse dieser Gruppen) oder die Identifizierung von Anomalien im Netzwerktraffic.

Vergleich der Hauptmerkmale

Unterteilen wir die charakteristischen Merkmale der einzelnen Ansätze für Modelle der künstlichen Intelligenz. Wenn wir über überwachtes Lernen nachdenken, finden wir die folgenden Merkmale:

  • Eingabedaten: Nutzt gekennzeichnete Daten, d.h. jeder Datenpunkt wird mit einer entsprechenden korrekten Ausgabe oder Markierung geliefert.
     
  • Hauptziel: Zielt darauf ab, Ergebnisse für neue Daten vorherzusagen oder Daten anhand der erlernten Zuordnung aus den gekennzeichneten Trainingsdaten in vordefinierte Kategorien einzuteilen.
     
  • Algorithmen : Gängige Algorithmen sind lineare Regression, logistische Regression, Support Vector Machines (SVM), Entscheidungsstrukturen und neuronale Netzwerke (für überwachte Tasks).
     
  • Leitfaden: Der Lernprozess orientiert sich explizit an den bekannten Zielvariablen im Trainingsdatensatz.
     
  • Allgemeine Aufgaben: Beispiele hierfür sind die Spam-Erkennung in E-Mails, Bilderkennung (z. B. Identifizierung von Katzen auf Fotos), medizinische Diagnose auf der Grundlage von Patientendaten und Prognosen zu Aktienkursen.
     
  • Bewertung Die Leistung wird in der Regel durch Vergleich der Vorhersagen des Algorithmus mit den bekannten Bezeichnungen gemessen, wobei Metriken wie Genauigkeit, Genauigkeit, Recall, F1-Score oder mittlerer quadrierter Fehler verwendet werden.

Umgekehrt weist ein unüberwachtes Lernmodell folgende Merkmale auf:

  • Eingabedaten: Funktioniert mit unbeschrifteten Beispieldaten, bei denen nur Eingabefunktionen ohne entsprechende Ausgabevariablen bereitgestellt werden.
     
  • Hauptziel: Konzentriert sich auf die Erkennung verborgener Muster, inhärenter Strukturen oder Beziehungen innerhalb der Daten. Dazu gehört das Gruppieren ähnlicher Datenpunkte (Clustering), das Reduzieren der Anzahl von KEs (Dimensionsreduzierung) oder das Suchen von Gleichzeitigkeitsmustern (Assoziationsregel-Mining).
     
  • Algorithmen : Beliebte Algorithmen sind K-Means-Clustering, Hierarchisches Clustering, Principal Component Analysis (PCA), Apriori-Algorithmus Autoencoder, die oft als selbstüberwachte Lerntechniken klassifiziert werden, können zur Dimensionalitätsreduktion und Anomalieerkennung verwendet werden.
     
  • Leitfaden: Der Algorithmus untersucht die Daten ohne explizite Anleitung oder vordefinierte korrekte Antworten.
     
  • Allgemeine Aufgaben: Beispiele hierfür sind die Kundensegmentierung für das Marketing, die Erkennung von Anomalien bei Finanztransaktionen, die Themenmodellierung in großen Textdokumenten und der Aufbau von Empfehlungssystemen.
     
  • Bewertung Die Bewertung ist oft schwieriger und subjektiver, da es keine „richtigen“ Antworten gibt, mit denen man vergleichen kann. Metriken können Cluster-Kohäsion und -Separation (für Clustering), den Umfang der beibehaltenen Varianz (für Dimensionalitätsreduktion) oder die menschliche Bewertung der erkannten Muster umfassen.
     

Wann zu verwenden ist, das ist eine ganz andere Frage. Sie sollten überwachtes Lernen auswählen, wenn Sie Daten und ein klares Zielergebnis gekennzeichnet haben, das Sie vorhersagen oder für die Klassifizierung verwenden möchten.

Sie sollten sich für unüberwachtes Lernen mit künstlicher Intelligenz entscheiden, wenn Sie ungekennzeichnete Daten haben und diese nach versteckten Erkenntnissen durchsuchen, gruppieren oder ihre Struktur vereinfachen möchten.

Unüberwachte Anwendungsfälle für Machine Learning

Unüberwachtes Lernen durch die Entdeckung verborgener Muster in ungekennzeichneten Daten für ein Modell treibt eine Vielzahl wirkungsvoller Anwendungen in vielen Branchen voran. Zu den wichtigsten Anwendungen gehören:

  • Clustering-Anwendungen: Diese Methoden gruppieren ähnliche Datenpunkte, um natürliche Segmente aufzudecken. Häufige Einsatzbereiche sind die Kundensegmentierung für zielgerichtetes Marketing, die Organisation großer Dokumentenmengen nach Themen (Themenmodellierung), die Segmentierung von Bildern zur Identifizierung von Objekten und die Identifizierung von Communities in sozialen Netzwerken.
     
  • Anwendungen zur Reduzierung der Dimensionalität: Diese Techniken vereinfachen komplexe Datensätze, indem sie die Anzahl der Funktionen reduzieren und gleichzeitig wichtige Informationen erhalten. Dies ist unerlässlich, um hochdimensionale Daten zu visualisieren, die Effizienz und Leistung anderer Machine-Learning-Modelle durch Feature Engineering zu verbessern und das Datenrauschen zu reduzieren.
     
  • Assoziationsregel-Mininganwendungen: Dieser Typ von Maschinenalgorithmen erkennt interessante Beziehungen und Muster des gleichzeitigen Auftretens zwischen Elementen in großen Datensätzen. Diese Anwendung ist bekannt für die Analyse von Warenkörben im Einzelhandel (um zu sehen, welche Produkte zusammen gekauft werden), den Antrieb von Empfehlungsmaschinen in E-Commerce- und Streaming-Diensten und die Analyse von Web-Nutzungsmustern.
     
  • Anwendungen zur Erkennung von Anomalien: Diese Anwendungen konzentrieren sich darauf, seltene Elemente, Ereignisse oder Beobachtungen zu identifizieren, die erheblich von der Norm abweichen. Zu den wichtigsten Anwendungsfällen gehören Betrugserkennung bei Finanztransaktionen, Erkennung von Eindringlingen in Cybersicherheitssysteme, Identifizierung von Defekten in Fertigungsprozessen und Überwachung der Patientengesundheit auf ungewöhnliche Vitalzeichen.

OVHcloud und unüberwachtes Lernen

Um unüberwachte Lernprojekte und Ihr Modell effektiv umsetzen und skalieren zu können, sind robuste Tools und Infrastruktur unerlässlich. OVHcloud bietet verschiedene Lösungen für die Entwicklung, Bereitstellung und Verwaltung von Modellen für Machine Learning. Hierzu zählen auch solche, die in nicht überwachten Lernumgebungen verwendet werden:

Public Cloud Icon

AI Deploy

Setzen Sie Ihre Machine-Learning-Modelle mühelos mit AI Deploy ein und skalieren Sie sie. Schließen Sie die Lücke zwischen Entwicklung und Produktion von künstlicher Intelligenz, indem Sie Ihre KI-Modelle einfach über APIs verfügbar machen. Konzentrieren Sie sich auf Ihre Algorithmen, während wir uns um die Infrastruktur kümmern und hohe Verfügbarkeit und Leistung für Ihre intelligenten Anwendungen gewährleisten.

Hosted Private Cloud Icon

AI & Machine Learning

Beschleunigen Sie Ihre KI- und Machine-Learning-Workflows mit unserer leistungsstarken und skalierbaren Machine-Learning-Lösung. Mit AI Machine Learning von OVHcloud erhalten Sie die Tools und die Infrastruktur, um Ihre Modelle effizient zu trainieren, zu verwalten und einzusetzen.

Bare Metal Icon

Public Cloud

Erstellen, deployen und verwalten Sie Ihre Anwendungen für künstliche Intelligenz mit Flexibilität und Kontrolle auf der Public Cloud Lösung von OVHcloud. Unsere robuste und skalierbare Infrastruktur bietet eine breite Palette an Services, darunter Compute Instanzen, Speicherlösungen und Netzwerkfunktionen.