Was ist Machine Learning?


Smartphones, Computer, Tablets, vernetzte Geräte und mehr – wir verwenden zahlreiche Technologien, mit denen wir jeden Tag mehr Informationen generieren. All diese Geräte erzeugen gewaltige Datenmengen. Im Jahr 2020 generierte eine Person durchschnittlich 1,7 MB an Daten pro Sekunde. Diese werden in digitalen Datenbanken gespeichert und stellen eine wichtige Informationsquelle dar: Das ist Big Data. Aber ohne entsprechende Verarbeitung und effektive Strategien bleiben diese Daten nur Unmengen von Bytes, mit denen es fertig zu werden gilt. Hier kommt Machine Learning oder maschinelles Lernen (ML) ins Spiel und ermöglicht es, Nutzen aus diesen Datenmengen zu ziehen.

La définition du Machine Learning – OVHcloud

Was ist Machine Learning?

Die ersten Machine-Learning-Algorithmen wurden 1950 entwickelt. Das maschinelle Lernen (Machine Learning) ist sowohl eine Technologie als auch eine Wissenschaft (Data Science), durch die ein Computer einen Lernprozess durchlaufen kann, ohne dafür programmiert worden zu sein. Das maschinelle Lernen ist eng mit der künstlichen Intelligenz (KI) – auch Artificial Intelligence (AI) genannt – verbunden und hat zum Ziel, Patterns (statistisch relevante Wiederholungsmuster) zu bestimmen und statistische Vorhersagen daraus abzuleiten. Beim Data Mining werden Informationen aus einer großen Datenmenge extrahiert. Das ist der Rohstoff für Machine Learning, um Muster für statistische Vorhersagen herauszuarbeiten. Aus diesem Grund ist Big Data (die Gesamtheit aller generierten und gespeicherten Daten) untrennbar mit dem Machine Learning verbunden. Je mehr Daten verarbeitet werden, um Trends zu erkennen, desto genauer sind die Vorhersagen.

Genauer gesagt ermöglicht der zum Lernen verwendete Algorithmus es dem Computer, seine Analyse und Antworten auf Basis empirischer Daten aus der zugehörigen Datenbank präziser zu gestalten. Aus Business-Perspektive eröffnen sich durch das Machine Learning neue Möglichkeiten, da Unternehmen sich damit die von Kund:innen oder die im Rahmen ihrer Geschäftsaktivitäten generierten Informationen zunutze machen können. Die künstliche Intelligenz ist für Unternehmen also von zentraler Bedeutung, wenn sie sich Vorteile verschaffen möchten.

Es gibt mehrere Arten von Lernprozessen, die anhand der während der Lernphase vorhandenen Daten klassifiziert werden. Wenn die Lösung für die gestellte Aufgabe bekannt ist, sagt man, dass die Daten gekennzeichnet – oder gelabelt – sind. In diesem Fall handelt es sich um überwachtes Lernen (Supervised Learning). Je nach Art der Daten, ob diskret oder kontinuierlich, wird von Klassifikation oder Regression gesprochen. Erfolgt das Lernen Schritt für Schritt und mit einem Belohnungssystem für jede korrekt durchgeführte Aufgabe, wird bestärkendes Lernen (Reinforcement Learning) praktiziert. Am häufigsten erfolgt das Lernen jedoch in nicht überwachter Form. Hier wird ohne Kennzeichnungen – also ohne Label – vorgegangen und es geht darum, ein Ergebnis vorherzusagen, ohne bereits vorher bekannte Antworten zu haben.

Die Arten des maschinellen Lernens: zwei Ansätze

Überwachtes Lernen

Überwachtes Machine Learning ist eine Art des maschinellen Lernens, bei der ein Modell basierend auf gelabelten Daten trainiert wird. Das bedeutet, dass jedes Beispiel im Datensatz eine Eingabe (oder ein Merkmal) und eine zugehörige Ausgabe (oder Label) enthält. Ziel ist es, eine Funktion zu erlernen, die anhand der Eingabemerkmale die Ausgabelabel für neue Daten korrekt vorhersagt.

Das grundlegende Verfahren des überwachten Machine Learning ist das folgende:

  1. Datensammlung: Es wird ein Datensatz mit gelabelten Beispielen zusammengestellt.
  2. Aufteilung der Daten: Die Daten werden in Trainings- und Testsets aufgeteilt.
  3. Training: Das Trainingsset wird verwendet, um ein Modell zu trainieren, das die Eingabemerkmale mit den Ausgabelabels verbindet.
  4. Validierung und Test: Hier kommt der Testdatensatz zum Einsatz, um die Leistung des Modells im Hinblick auf dessen Genauigkeit und Generalisierungsfähigkeit zu bewerten.

Das überwachte Machine Learning wird für verschiedene Arten von Aktivitäten verwendet: zur Klassifizierung (beispielsweise zur Bestimmung einer Kategorie wie Spam) oder zum Vorhersagen eines numerischen Werts (z. B. Schätzung des Preises eines Hauses anhand seiner Merkmale).

Überwachtes Lernen wird in vielen praktischen Anwendungen eingesetzt, darunter die Spracherkennung, Betrugserkennung und Empfehlungssysteme.

Unüberwachtes Lernen

Ünüberwachtes Machine Learning ist eine Art des maschinellen Lernens, bei der ein Modell basierend auf Daten ohne Label trainiert wird. Anders als beim überwachten Lernen gibt es keine vordefinierten Ausgaben. Ziel ist es, versteckte Strukturen oder Muster in den Daten zu erkennen.

Die wesentlichen Arten des unbeaufsichtigten Lernens sind:

  • Clustering: Aufteilung der Daten in Gruppen oder Cluster auf Basis von Ähnlichkeiten (z. B. Gruppierung von Kundinnen und Kunden mit ähnlichem Kaufverhalten)
  • Dimensionsreduktion: Vereinfachung der Daten durch Reduzierung der Anzahl der Merkmale bei gleichzeitiger Beibehaltung der wesentlichen Informationen (z. B. Hauptkomponentenmethode oder Principal Components Analysis, PCA).

Gängige Beispiele für die Verwendung von unüberwachtem Machine Learning:

  • Kundensegmentierung: Ermitteln von Gruppen von Kundinnen und Kunden mit ähnlichem Verhalten oder ähnlichen Merkmalen
  • Anomalieerkennung: Erkennen ungewöhnlicher Daten, die nicht dem allgemeinen Verhalten folgen (beispielsweise die Erkennung betrügerischer Transaktionen)

Das unüberwachte Lernen ist nützlich, um Daten zu untersuchen und Muster oder Beziehungen zu entdecken, ohne dass Vorkenntnisse über Label oder erwartete Ergebnisse erforderlich sind.

Wofür kann Machine Learning eingesetzt werden?

Die Stärke und der Wert des Machine Learning liegt in seiner Fähigkeit, große Datenmengen zu verarbeiten, die für das menschliche Gehirn nicht zu bewältigen wären. Branchen mit großen Datenaufkommen brauchen eine Lösung, um diese Daten zu verarbeiten und daraus aussagekräftige Informationen für Entscheidungen zu gewinnen. Die prädiktive Analyse von Daten (Predictive Analytics) ermöglicht es, sich auf bestimmte Situationen einzustellen. Das macht Machine Learning überaus interessant. Betrachten wir beispielsweise den Finanzsektor. Mithilfe von Machine Learning können wir beispielsweise betrügerische Machenschaften, streitige Verhaltensweisen und andere Schlüsselelemente im Betrieb von Finanzinstituten entdecken.

Wir erzeugen auch immer mehr Transaktionsdaten, die von Unternehmen verwendet werden können, um ihre Kund:innen je nach Kaufverhalten anzusprechen, das anhand von Wiederholungen identifiziert wurde. Unser Online-Verhalten, unsere Suchanfragen und besuchten Websites erzeugen ebenfalls Daten, die das Machine Learning für die Definition unserer Präferenzen nutzen kann. Es liegt auf der Hand, dass diese Datenverarbeitungstechnik ohne menschliches Zutun ein wichtiger Vorteil für Unternehmen ist, die Nutzen aus der Fülle der ihnen zur Verfügung stehenden Informationen ziehen möchten. Ein Mensch könnte diese Informationen aufgrund der riesigen Menge an Daten, die verarbeitet werden müssen, wahrscheinlich nicht nutzen. Nehmen wir zum Beispiel große Konzerne wie Tech-Giganten: AI und Machine Learning sind mittlerweile unabdingbare Bestandteile ihrer Prozesse, da hier riesige Mengen nutzbarer Daten erzeugt werden.

In Anbetracht des zunehmenden Datenwachstums werden immer mehr Unternehmen auf diese Technologie setzen müssen, um das Potenzial der ihnen zur Verfügung stehenden Informationen besser nutzen zu können. Denken wir einmal an die vernetzten Geräte, denen wir im Alltag immer öfter begegnen. Im Jahr 2019 waren mehr als 8 Milliarden vernetzte Geräte mit Spracherkennung in unserer Gesellschaft aktiv, mit denen noch mehr Daten über unseren Lebensrhythmus, unser Konsumverhalten und unsere Gewohnheiten erfasst wurden. All dies stellt eine bedeutende Masse an Informationen für Unternehmen dar und Machine Learning ermöglicht es, die relevanten Elemente herauszuarbeiten und anschließend zu nutzen. Es ist nicht zu leugnen: Maschinelles Lernen bringt uns deutliche Vorteile. Für unsere moderne Gesellschaft werden zahlreiche Anwendungen denkbar, beispielsweise die Gesichtserkennung, selbstfahrende Autos, Robotik, Smart Homes … Wir müssen das, was uns zur Verfügung steht, nur richtig einsetzen können. Diese Technologie eignet sich nicht nur für AI-erfahrene Entwicklungsteams. Viele Unternehmen wagen das Abenteuer Machine Learning mit sofort einsatzbereiten Lösungen, die auf ihre Ziele ausgelegt sind.

Die Funktionsweise des maschinellen Lernens

Machine Learning basiert auf „Erfahrung“. Der Computer sammelt eine große Menge an Daten, die er dann verwendet, um Situationen zu analysieren und vorherzusagen. Das Ziel dieses Prozesses ist, dass die Maschine sich selbst einen „internen Plan“ ausmalt, mit dem sie die Schlüsselelemente erkennen kann, um die es uns geht. Die Maschine muss mit verschiedenen Beispielen und Tests „experimentieren“, um weiterzukommen. Aus diesem Grund spricht man in diesem Kontext von „Lernen“.
Dafür braucht der Computer Daten zum Trainieren. Die Datenerkundung ist die Grundlage für das Machine Learning. Dabei kommen Trainingsdaten („Training Dataset“) zum Einsatz. Außerdem braucht es Software und Algorithmen für die Analyse. Schließlich wird eine Umgebung für die Bereitstellung benötigt. In der Regel ist das ein Server, der auf die Computing-Anforderungen abgestimmt ist. Es gibt verschiedene Arten des Lernens, die sich unter anderem dadurch unterscheiden, dass die gesuchte Antwort bereits bekannt ist oder nicht, aber auch durch die Art der analysierten Daten, durch die berücksichtigte Datenumgebung und durch die Art der durchgeführten Analyse (Statistiken, Vergleiche, Bilderkennung usw.). Die Lernalgorithmen unterscheiden sich je nach gestellter Aufgabe und davon hängt auch die benötigte Rechenleistung ab.

Der Lernprozess des Computers erfolgt in der Regel in zwei Etappen. Zunächst wird das Modell auf Grundlage der Testdaten erarbeitet. Diese Daten werden auch als „Beobachtungsdaten“ bezeichnet. In dieser Phase wird die zu erledigende Aufgabe definiert (Erkennung eines Elements in einem Foto, Ermittlung einer statistischen Wiederholung, Reaktion auf ein Sensorsignal usw.). Das ist die Test- oder Trainingsphase. Als nächster Schritt folgt der Produktiv-Einsatz des Modells. Hier ist eine Optimierung mithilfe neuer Daten möglich. Einige Systeme können ihre Lernphase auch noch während der Produktionsphase fortsetzen. Dabei muss jedoch sichergestellt werden, dass Feedback zu den erzielten Ergebnissen zur weiteren Optimierung des Modells und des Verhaltens der Maschine genutzt wird. Andere Systeme können alleine weiterlernen und autonom werden.

Die Qualität des Lernens hängt von mehreren Faktoren ab:

Die Anzahl relevanter Beispiele, auf die der Computer zugreifen kann: je mehr davon, desto genauer die Ergebnisse.

Die Anzahl der Merkmale, die die Beispiele beschreiben: je einfacher und genauer (Größe, Gewicht, Menge, Geschwindigkeit usw.), desto genauer und schneller ist auch die Analyse.

Die Qualität der verwendeten Datenbank: Wenn zu viele Daten fehlen, wirkt sich dies auf den Prozess aus. Auch falsche oder ungenaue Daten können die Ergebnisse verzerren.

Je konsequenter diese Aspekte berücksichtigt werden, desto präziser wird der Prognosealgorithmus und desto treffender die Analyse. Sobald das Lernprojekt für den Computer definiert ist und die Datenbanken fertig sind, können Sie mit dem Machine Learning beginnen!

Erfolgreiche Machine-Learning-Projekte mit OVHcloud

Wir waren schon immer bestrebt, Technologie für alle Branchen bereitzustellen. Wir sind der Meinung, dass die AI und ihr enormes Potenzial nicht nur großen IT-Unternehmen vorbehalten sein sollten. Wir möchten Sie bestmöglich unterstützen und begleiten, damit Sie Ihre AI- und Machine-Learning-Projekte starten können. Die künstliche Intelligenz verhilft nicht nur zu mehr Effizienz, sondern erleichtert auch die Entscheidungsfindung. OVHcloud stellt Ihnen Tools zur Verfügung, mit denen Sie Ihre geschäftliche Herausforderungen bewältigen können, z. B. die prädiktive Analyse von Datensätzen. So sorgen wir dafür, dass alle User unabhängig von ihrem Profil von den Vorteilen profitieren können. Wir begleiten unsere Kund:innen bei der Entwicklung ihres AI-Systems.

Mit den Data-Analytics-Lösungen von OVHcloud können Sie Ihre Daten sammeln und vorbereiten. Sie können Ihr Machine-Learning-Projekt Schritt für Schritt modellieren und zum Deployen Ihres Modells braucht es nur wenige Klicks. Verwenden Sie die Tools und Frameworks Ihrer Wahl, wie TensorFlow, PMML oder ONNX.

Die Arbeit mit OVHcloud bringt Ihnen zahlreiche Vorteile bei der Entwicklung Ihres Machine-Learning-Projekts.

Datensouveränität

Wir verpflichten uns, die Vertraulichkeit Ihrer personenbezogenen Daten zu wahren. Die Souveränität Ihrer Daten spielt in unserer Unternehmensphilosophie eine zentrale Rolle und wir ermöglichen es Ihnen, Ihre Daten jederzeit zurückzuholen.

Rechenleistung

Durch die Automatisierung der Bereitstellungen und unserer Infrastrukturen können wir Ihnen hohe Rechenleistung zu wettbewerbsfähigen Preisen bieten.

Open Source

In der Welt der Daten sind Open-Source-Lösungen heute die ausgereiftesten und leistungsfähigsten Angebote. OVHcloud legt großen Wert darauf, seine Angebote auf derartiger Software aufzubauen, beispielsweise auf der Apache Hadoop Suite oder Apache Spark.

Unsere Public-Cloud-Produktreihe

KI und Machine Learning OVHcloud

AI und Machine Learning

Künstliche Intelligenz (Artificial Intelligence, AI) klingt oft wie eine Data Science, die nur für Fachkundige bestimmt ist. Bei OVHcloud sind wir vom enormen Potenzial der künstlichen Intelligenz für jede Branche überzeugt. Und wir denken, dass Komplexität der Verwendung von Big Data und Machine Learning nicht im Weg stehen sollte.

public cloud gpu

GPU

GPU Instanzen enthalten Grafikprozessoren von NVIDIA, um den hohen Anforderungen von Massively Parallel Processing gerecht zu werden. Als Bestandteil des Angebots von OVHcloud bieten auch sie die Vorteile von Ressourcen on demand und stundengenauer Abrechnung.

OVHcloud AI Training

AI Training

Starten Sie das Training Ihrer künstlichen Intelligenz in der Cloud, ohne sich Gedanken um den Infrastrukturbetrieb machen zu müssen. AI Training ermöglicht es Data Scientists, sich auf ihre Kernaufgaben zu konzentrieren – ohne sich um die Orchestrierung der Rechenressourcen zu kümmern.