Was ist überwachtes Lernen?


Überwachtes Lernen ist im Kern eine Art von Machine Learning, bei dem der Algorithmus aus gekennzeichneten Daten lernt.

Betrachten Sie das überwachte Lernen als einen Schüler, der mit einem Lehrer lernt. Der „Lehrer“ (häufig ein Data Scientist oder Domain Expert) stellt dem Computer eine Reihe von Beispielen zur Verfügung, in denen jedes Beispiel sowohl die Eingabe als auch die entsprechende Ausgabe enthält.

machine learning

Das grundlegende Ziel des überwachten Lernens ist, dass der Algorithmus eine allgemeine Regel oder eine Zuordnungsfunktion „lernt“, die neue, unsichtbare Eingaben aufnimmt und die richtige Ausgabe für sie vorhersagt. Sie wird als „überwacht“ bezeichnet, da der Prozess, bei dem ein Algorithmus aus dem Trainingsdatensatz lernt, als Lehrer betrachtet werden kann, der den Lernprozess überwacht.

Wir kennen die richtigen Antworten (Labels), der Algorithmus erstellt iterativ Vorhersagen über die Trainingsdaten und wird vom Lehrer korrigiert. Das Lernen endet, wenn der Algorithmus ein akzeptables Leistungsniveau erreicht.

Wie funktioniert das überwachte Lernen?

Überwachtes Lernen mag komplex erscheinen, aber die zugrunde liegenden Methoden folgen einem strukturierten Workflow. Es geht darum, eine Maschine zu unterrichten, indem man ihr Beispiele zeigt und dann ihr Verständnis testet. Hier eine Aufschlüsselung der typischen Schritte:

Erfassen und Vorbereiten gekennzeichneter Daten

Der Prozess beginnt mit dem Sammeln relevanter Daten. Entscheidend für das überwachte Machine Learning ist die Kennzeichnung dieser Daten. Dies bedeutet, dass jedes Eingabedatenstück mit einem entsprechenden korrekten Ausgang oder „Tag“ kombiniert wird. Wenn Sie beispielsweise einen Spam-Detektor einrichten, werden Ihre Daten als E-Mails (Eingabe) mit der Bezeichnung „Spam“ oder „Kein Spam“ (Ausgabe) gekennzeichnet.

Qualität und Quantität dieser gekennzeichneten Daten sind für die verwendeten Methoden von entscheidender Bedeutung. Je qualitativ hochwertiger und relevanter Beispiele das Funktionsmodell sieht, desto besser ist es im Allgemeinen. In dieser Phase werden häufig Daten bereinigt (fehlende Werte werden verarbeitet, Fehler werden entfernt) und vorverarbeitet (Daten werden in ein für den Algorithmus geeignetes Format umgewandelt).

Aufteilen der Daten in Training, Validierung und Testsätze

Wenn Sie Ihr gekennzeichnetes Dataset erhalten haben, ist es üblich, das Modell nicht direkt mit allen Daten zu unterrichten. Stattdessen ist sie normalerweise geteilt. Das Trainingssatz ist der größte Teil der Daten und wird verwendet, um das Machine-Learning-Modell tatsächlich zu trainieren. Das Modell „sieht“ diese Beispiele und erlernt die Beziehung zwischen den Eingaben und den entsprechenden Labels.

Ein Validierungssatz (optional, aber dringend empfohlen) wird während des Trainingsprozesses verwendet, um die Parameter des Modells (Hyperparameter) zu optimieren und Entscheidungen über die Modellarchitektur zu treffen. Dadurch wird verhindert, dass das Modell zu sehr auf die Trainingsdaten spezialisiert wird (ein Problem, das als Überanpassung bezeichnet wird), indem während des Lernprozesses eine unvoreingenommene Bewertung durchgeführt wird.

Schließlich wird der Testsatz verwendet, nachdem das Modell trainiert (und validiert) wurde, um eine unvoreingenommene Bewertung der Leistung des endgültigen Modells zu ermöglichen. Diese Daten wurden bisher noch nie vom Modell erkannt und geben daher einen guten Hinweis darauf, wie das Modell mit neuen, realen Daten arbeiten wird.

Modell auswählen (Algorithmusauswahl)

Basierend auf dem Problem, das Sie lösen möchten (z. B. Vorhersagen einer Kategorie wie „Spam/Nicht-Spam“ - Klassifizierung oder Vorhersagen eines kontinuierlichen Werts wie ein Hauspreis - Regression) und der Art Ihrer Daten wählen Sie einen geeigneten überwachten Lernalgorithmus aus. Es stehen zahlreiche Algorithmen zur Auswahl, wie lineare Regression, logistische Regression, Entscheidungsstrukturen, Support Vector Machines (SVMs), Neural Networks und viele mehr.

Trainieren des Modells

Hier geschieht das „Lernen“. Der gewählte Algorithmus verarbeitet den Trainingssatz. Das Modell erstellt Vorhersagen auf der Grundlage der Eingabedaten und vergleicht diese Vorhersagen mit den tatsächlich bekannten Bezeichnungen.

Tritt eine Diskrepanz (ein Fehler) auf, passt der Algorithmus seine internen Parameter an, um beim nächsten Mal bessere Vorhersagen zu treffen. Dies geschieht häufig durch den Versuch, eine „Verlustfunktion“ zu minimieren, die quantifiziert, wie weit die Vorhersagen des Modells von den wahren Werten entfernt sind.

Dieser iterative Anpassungsprozess wird fortgesetzt, bis das Modell ein zufriedenstellendes Maß an Genauigkeit bei den Trainingsdaten erreicht (und bei den Validierungsdaten eine gute Leistung erzielt).

Bewertung des Modells

Nach Abschluss des Trainings wird die Leistung des Modells mithilfe des Testsatzes bewertet. Häufig verwendete Metriken für die Auswertung hängen von der Art des Problems ab.

Für die Klassifizierung sind Metriken wie Genauigkeit, Präzision, Rückruf und F1-Score üblich. Für die Regression wird häufig der mittlere quadrierte Fehler (MSE) oder der r-quadrierte Wert verwendet. Dieser Schritt ist von entscheidender Bedeutung, um zu verstehen, wie gut das Modell wahrscheinlich zu neuen, unsichtbaren Daten verallgemeinern wird.

Wenn die Leistung des Modells zufriedenstellend ist, kann es eingesetzt werden, um Prognosen zu neuen, aktiven Daten zu erstellen. Beispielsweise beginnt unser Spam-Filter jetzt damit, eingehende E-Mails zu klassifizieren, die er noch nie zuvor gesehen hat. Darüber hinaus ist es wichtig, die Leistung des Modells in der realen Welt kontinuierlich zu überwachen, da sich Datenmuster im Laufe der Zeit ändern können (ein Konzept, das als „Modelldrift“ bezeichnet wird) und möglicherweise ein erneutes Training oder Anpassungen des Modells erforderlich machen.

Überwachtes Lernen ist im Wesentlichen ein iterativer Prozess, bei dem beschriftete Beispiele an einen Algorithmus übergeben werden, der es ihm ermöglicht, Muster zu lernen, und dann seine Fähigkeit testet, diese Muster zu verallgemeinern, um neue Daten zu erhalten.

Arten des überwachten Machine Learning

Überwachte Lernprobleme beruhen zwar auf dem Prinzip, aus gekennzeichneten Daten zu lernen, werden jedoch im Allgemeinen in zwei Hauptkategorien unterteilt: Klassifikation und Regression. Der grundlegende Unterschied zwischen ihnen hängt von der Art des Outputs ab, den das Modell vorhersagen soll.

Klassifikation:

Die Klassifizierung bezieht sich auf Aufgaben, bei denen das Ziel darin besteht, eine separate Kategorie- oder Klassenbezeichnung vorherzusagen. Dies bedeutet, dass die Ausgabevariable keine Zahl ist, die fortlaufend variieren kann, sondern eine bestimmte Gruppe, wie „Ja“ oder „Nein“, „Spam“ oder „Kein Spam“, oder bestimmte Objekttypen wie „Katze“, „Hund“ oder „Mensch“.

Das Modell lernt aus einem Trainingsdatensatz, in dem jeder Eingabe bereits eine vordefinierte Klasse zugeordnet ist. Ihr Ziel ist es dann, einer dieser gelernten Kategorien neue, unsichtbare Datenpunkte genau zuzuordnen.

Es gibt zahlreiche praktische Anwendungen der Klassifizierung. Bei der Erkennung von Spam-E-Mails werden eingehende E-Mails beispielsweise als „Spam“ oder „kein Spam“ klassifiziert. Durch Bilderkennungsaufgaben werden Objekte in Bildern mithilfe von Klassifizierungen identifiziert, z. B. durch Kategorisieren eines Bildes als „Auto“, „Fahrrad“ oder „Fußgänger“.

Regression:

Regression hingegen ist die überwachte Lerntechnik, die verwendet wird, wenn die Ausgangsvariable ein fortlaufender numerischer Wert ist. Im Gegensatz zur Klassifikation, die vorhersagt, zu welcher Kategorie etwas gehört, zielt die Regression darauf ab, vorherzusagen, wie viel von etwas vorhanden ist oder was ein bestimmter numerischer Wert sein wird. Das Modell lernt, Eingabevariablen einer kontinuierlichen Ausgabe zuzuordnen.

Reale Beispiele für Regression gibt es reichlich. Bei der Vorhersage von Hauspreisen wird der Marktpreis eines Hauses anhand von Merkmalen wie Größe, Anzahl der Schlafzimmer und Standort geschätzt. Im Finanzwesen werden Regressionsmodelle für die Kursprognosen von Aktien verwendet, um zukünftige Aktienwerte für Entscheidungen vorherzusagen, die auf Grundlage dieser Modelle getroffen werden sollen.

Gängige Algorithmen für Regressionsaufgaben sind die lineare Regression und die Polynom-Regression. Eine weitere beliebte Wahl ist die Unterstützung der Vektorregression (SVR), neben anpassbaren Algorithmen wie Entscheidungsbäumen, Zufälligen Gesamtstrukturen und Neuronalen Netzwerken, wenn diese für die kontinuierliche Ausgabe konfiguriert sind.

Überwachtes Lernen und nicht überwachtes Lernen

Während sowohl überwachtes als auch unüberwachtes Lernen grundlegende Säulen des maschinellen Lernens und der Vorhersage sind, gehen sie Probleme mithilfe grundlegend unterschiedlicher Methoden und Ziele an, die sich in erster Linie durch die Art der verwendeten Daten und die angestrebten Ziele unterscheiden. Um für eine bestimmte Aufgabe den richtigen Ansatz auszuwählen, ist es von entscheidender Bedeutung, die Unterschiede zu verstehen.

Eingabedaten wählen

Das wichtigste Beispiel für eine Unterscheidung liegt in der Art der Eingabedaten. Überwachtes Lernen, wie wir besprochen haben, basiert auf gekennzeichneten Daten. Dies bedeutet, dass der Algorithmus während seiner Trainingsphase mit Datensätzen ausgestattet wird, in denen jedes Eingabebeispiel mit einer entsprechenden korrekten Ausgabe oder „Bezeichnung“ kombiniert wird.
 

Es lernt, indem es seine Vorhersage mit diesen bekannten Beschriftungen vergleicht und sich selbst anpasst, um Fehler zu minimieren. Stellen Sie es sich wie Machine Learning mit einem Lehrer vor, der die Antworten liefert.

Nicht gekennzeichnete Daten werden berücksichtigt

Unüberwachtes Lernen hingegen funktioniert mit ungekennzeichneten Daten. Die Algorithmen erhalten Daten, die nur aus Eingabefunktionen bestehen, ohne dass explizite Ausgabevariablen oder korrekte Antworten angegeben werden. Das Ziel dabei ist nicht, eine vordefinierte Ausgabe vorherzusagen, sondern die Daten zu erforschen und inhärente Strukturen, Muster oder Beziehungen darin zu entdecken. Es ist wie Lernen durch eigenes Beobachten und Identifizieren von Mustern, ohne ausdrückliche Anweisung eines Lehrers.
 

Der Aspekt der „Aufsicht“ grenzt diese beiden Aspekte klar ab. Beim überwachten Lernen gibt das Vorhandensein von Labels direktes Feedback zum Lernprozess, auf dem aufgebaut werden soll. Dem Algorithmus wird explizit mitgeteilt, was der korrekte Output für jede Eingabe sein sollte, um sein Lernen zu lenken. Beim unüberwachten Lernen gibt es keine solche explizite Anleitung. Die Algorithmen müssen Muster und Beziehungen ausschließlich aus den Eigenschaften der Eingabedaten ableiten.

Beispiele für überwachte Anwendungsfälle von Machine Learning

Überwachtes Lernen ist nicht nur ein theoretisches Konzept oder eine Prognose, sondern der Motor hinter einer Vielzahl von Anwendungen, die sich auf unser tägliches Leben und verschiedene Branchen auswirken. Die Fähigkeit, aus gekennzeichneten Beispielen zu lernen, macht sie unschätzbar für Aufgaben, die Vorhersage und Klassifizierung erfordern. Hier sind einige prominente Anwendungsbeispiele:

  • Bild- und Objekterkennung: Dies ist eine klassische Anwendung der Klassifizierung. Überwachte Lernmodelle werden auf der Grundlage riesiger Datensätze von Bildern trainiert, wobei jedes Bild mit den Objekten, die es enthält, gekennzeichnet ist (z. B. „Katze“, „Auto“, „Fußgänger“, „Baum“).
     
  • Erkennung von Spam-Mails: Eine der frühesten und am weitesten verbreiteten Formen des überwachten Lernens (insbesondere Klassifizierung) ist das Filtern von Spam-Mails. Die Modelle werden auf einem umfangreichen Korpus von E-Mails trainiert, die manuell als „Spam“ oder „Nicht-Spam“ (oft als „Ham“ bezeichnet) gekennzeichnet wurden.
     
  • Medizinische Diagnose und Gesundheitswesen: Überwachtes Lernen spielt im Gesundheitswesen eine immer wichtigere Rolle, da medizinische Fachkräfte bei der Diagnose von Krankheiten unterstützt werden. Modelle können anhand von Patientendaten - einschließlich Symptomen, medizinischer Vorgeschichte, Laborergebnissen und medizinischen Bildern - trainiert werden, die mit bestätigten Diagnosen gekennzeichnet sind.
     
  • Stimmungsanalyse: Unternehmen und Organisationen sind in hohem Maße auf das Verständnis der öffentlichen Meinung und des Kundenfeedbacks angewiesen. Überwachte Lernmodelle (Klassifizierung) werden auf Textdaten (wie Produktbewertungen, Social-Media-Posts oder Umfrageantworten) trainiert, die mit Stimmungen wie „positiv“, „negativ“ oder „neutral“ gekennzeichnet sind.
     
  • Aufdeckung von Finanzbetrug: Im Finanzsektor ist überwachtes Lernen von entscheidender Bedeutung, um betrügerische Transaktionen zu erkennen und zu verhindern. Modelle werden anhand historischer Transaktionsdaten trainiert, wobei jede Transaktion entweder als „betrügerisch“ oder „legitim“ bezeichnet wird.
     
  • Vorhersagen von Hauspreisen und Aktienwerten (Regression) : Regressionsmodelle im überwachten Machine Learning finden im Finanz- und Immobilienbereich weite Verbreitung. Um Hauspreise vorhersagen zu können, werden Modelle anhand von Daten aus vergangenen Immobilienverkäufen trainiert, einschließlich Merkmalen wie Größe, Anzahl der Schlafzimmer, Lage, Alter und Annehmlichkeiten, zusammen mit den entsprechenden Verkaufspreisen.

Die obige Beispielliste stellt nur einen Bruchteil der Anwendungsmöglichkeiten des überwachten Lernens dar. Mit zunehmendem Datenvolumen und zunehmender Rechenleistung werden auch die Einsatzmöglichkeiten vielfältiger und komplexer.

OVHcloud und betreutes Lernen

OVHcloud bietet eine Reihe von Lösungen, die auf jede Phase des überwachten Lernlebenszyklus zugeschnitten sind. Egal, ob Sie mühelos geschulte Modelle einsetzen, neue im großen Maßstab erstellen und trainieren oder eine flexible Cloud-Infrastruktur nutzen möchten, OVHcloud bietet Ihnen die Tools, um Ihre Daten in umsetzbare Erkenntnisse zu verwandeln.

Bare Metal Icon

AI Endpoints

Setzen Sie Ihre Machine-Learning-Modelle mühelos mit AI Endpoints in die Produktion ein. Konzentrieren Sie sich auf Ihre Algorithmen, während wir uns um die Infrastruktur kümmern. Unser gemanagter Dienst ermöglicht es Ihnen, Ihre trainierten Modelle über skalierbare und sichere HTTP-APIs verfügbar zu machen, sodass diese direkt für Echtzeit-Prognosen zur Verfügung stehen.

Hosted Private Cloud Icon

Machine Learning

Erschließen Sie das volle Potenzial Ihrer Daten mit Machine Learning-Lösungen. Diese leistungsstarke Plattform bietet Data Scientists und Entwicklern eine umfassende Umgebung für Aufbau, Training und Deployment von Machine-Learning-Modellen in großem Maßstab.

Public Cloud Icon

Public Cloud

Entdecken Sie unsere Cloud-Lösungen, die Ihnen vollständige Kontrolle und Flexibilität über Ihre Infrastruktur bieten. Erstellen, deployen und verwalten Sie Ihre Anwendungen mit unseren Compute Instanzen on demand, skalierbaren Speicherlösungen und robusten Netzwerkfunktionen.