Was ist Data Mining?


Eine Erklärung zum Data Mining und seinen Vorteilen. Auf dieser Seite werden die Geschichte des Data Mining, Methoden und Techniken sowie die damit verbundenen technologischen Herausforderungen behandelt. Außerdem geben wir Ihnen Beispiele dafür, wie Data Mining in verschiedenen Branchen eingesetzt werden kann.

data_mining_hero

Die Definition von Data Mining

Data Mining beschreibt den Prozess, bei dem durch das Sammeln und Vergleichen von Daten aus verschiedenen und oft nicht miteinander verbundenen Quellen wertvolle Erkenntnisse gewonnen werden. Computing-Verfahren verhelfen Unternehmen zu wertvollen Insights, die für verschiedene Aufgaben verwendet werden können, z. B. um Kunden besser zu verstehen, die Effizienz zu verbessern oder das Verhalten vorherzusagen.


Durch das Identifizieren von Mustern und Korrelationen innerhalb großer Datensätze können Unternehmen sich ein besseres Bild von ihren Kunden machen, Engpässe in ihren Vertriebssystemen aufdecken und sogar Verhaltensprognosen anstellen.


Auch Anomalien lassen sich mit Data Mining in jedem Prozess erkennen, der zu unvorhersehbaren Fehlern führen kann, welche durch das Auswerten eines Datensatzes ermittelt werden können. Dies kann auf eine Vielzahl von Use Cases angewendet werden, wie z. B. das Erkennen von Fehlern in Software, Lieferketten oder Produktionsprozessen, das Erkennen missbräuchlicher Nutzung von Systemen oder das Erkennen von Systemausfällen.

Ein Jahrhundert Entstehungsgeschichte

Selbst als Computer noch nicht allgegenwärtig waren, wurde auf diese Weise mit Daten gearbeitet. Allerdings war der Prozess manuell und langwierig – und es brauchte kompetente Analyst:innen, um die Daten zusammenzustellen, zu interpretieren und sinnvoll darzustellen. Der Begriff „Data Mining“ wurde in den 1990er-Jahren geprägt, wobei man sich bei der zuvor als „Knowledge Discovery“ bezeichneten Praxis auf Datenbanken stützte, die nach heutigen Standards eher rudimentär waren.


Vor über 100 Jahren wurde erstmals Technologie verwendet, um Daten zu analysieren. Damals reduzierte das US Census Bureau mithilfe von Lochkarten und einer Tabelliermaschine die zum Auswerten der Ergebnisse einer Volkszählung erforderliche Zeit von 10 Jahren auf wenige Monate.


Heutzutage ergänzt Data-Mining-Software die ursprüngliche Datenwissenschaft der Statistik um künstliche Intelligenz und Machine Learning, und dabei stellt das Cloud Computing zusätzliche Rechenleistung und Datenspeicherungsmöglichkeiten bereit.


Diese Fortschritte in der Technologie haben zu einem explosionsartigen Anstieg des Data Mining geführt, bei dem immer komplexere Datensätze analysiert werden, um relevante Erkenntnisse zu gewinnen. Die erhaltenen Informationen werden in einer Vielzahl von Branchen genutzt, z. B. in der Fertigung, Telekommunikation und Landwirtschaft sowie im Einzelhandel, Bankensektor und Versicherungsbereich. Zu den Use Cases gehören der Online-Verkauf von Produkten, Risikoanalysen, die Aufdeckung von Finanzbetrug oder sogar die Optimierung des Gemüseanbaus in landwirtschaftlichen Betrieben.

Die Eigenschaften des Data Mining

Bevor Daten überhaupt ins Spiel kommen, müssen Unternehmen ihre Geschäftsziele definieren. Dabei arbeiten Stakeholder und Data Scientists zusammen, um ein Geschäftsproblem und den zugehörigen Kontext zu bestimmen und basierend darauf die entsprechenden Fragen und Parameter für das Data-Mining-Projekt zu ermitteln.


Als Nächstes identifizieren Data Scientists die Daten, die ihnen bei der Beantwortung der Fragen helfen. Für das Verfahren des Data Mining zum Gewinnen wertvoller Informationen braucht es präzise und zuverlässige Daten aus relevanten Quellen. Die Wahl der richtigen Daten ist also entscheidend.


Sobald die Daten identifiziert sind, müssen sie bereinigt und strukturiert werden, damit sie in einem Format vorliegen, das von verfügbaren Data-Mining-Tools problemlos verglichen werden kann. Das beinhaltet auch, dass Dubletten und Extremwerte entfernt werden. Anschließend gilt es, Modelle zu erstellen und Daten auf Muster und Korrelationen hin zu untersuchen. Je nach Komplexität der Daten können auch Deep-Learning-Algorithmen zur Klassifizierung oder Gruppierung von Datensätzen verwendet werden.


Nach Analyse und Verarbeitung der Daten können die gewonnenen Erkenntnisse an die Personen weitergegeben werden, die sie für ihre Entscheidungsfindung nutzen.

Data Processing OVHcloud

Die Herausforderungen des Data Mining

Daten finden und zusammenstellen

Eine der größten Herausforderungen bei Data-Mining-Projekten liegt für Unternehmen darin, die verschiedenen Datenarchive zu finden und miteinander zu verbinden.


Moderne Unternehmen speichern Daten in Anwendungen wie Tabellen, Datenbanken, ERP, Buchhaltungssoftware und in sozialen Medien. Diese Daten liegen in einer Vielzahl strukturierter und unstrukturierter Formate vor und umfassen zunehmend auch von IoT-Sensoren und Kameras generierte Daten.


Darüber hinaus werden Daten häufig in verschiedenen Geschäftsbereichen isoliert. Es kann daher schwierig sein, alle relevanten und zugehörigen Informationen zu erhalten, um sich ein umfassendes Bild davon machen zu können, was die Daten eigentlich darstellen. Sie können sich auch in verschiedenen Arten von Infrastruktur befinden, einschließlich On-Premise-Umgebungen, Private Cloud und Public Cloud.


Die Rohdaten müssen also ausfindig gemacht und dann in allen ihren Formen zusammengetragen werden. Anschließend müssen sie in ein zentrales Repository oder einen Data Lake eingespeist werden, wo sie bereinigt und formatiert werden können, bevor Analysetools zum Einsatz kommen.

Fehler und Inkonsistenzen entfernen

Fehler in den Rohdaten, z. B. auch Dubletten und bei der Erfassung entstandene Fehler, führen zu unzuverlässigen Ergebnissen, die schlechte Entscheidungen für das Unternehmen zur Folge haben können. Die Aufbereitung der Rohdaten ist daher von entscheidender Bedeutung und dabei müssen alle Anomalien entfernt werden.


Ein weiteres Problem sind die unterschiedlichen Formate, in denen die Daten vorliegen. Neben Daten aus internen Quellen müssen auch externe Daten berücksichtigt werden, z. B. Newsfeeds, Aktien-/Rohstoffpreise und Wechselkurse. All das kann sich auf die Entscheidungen eines Unternehmens auswirken, wenn es Produktpreise festlegt, Investitionen tätigt oder einen Zielmarkt auswählt.


Die Felder für die Dateneingabe müssen also standardisiert werden, um sicherzugehen, dass Informationen nach der Einspeisung in den Data Lake effektiv von Analyse- und Visualisierungstools gelesen werden können.

Manuelle Verarbeitung

Die für das Mining genutzten Daten müssen transportiert, transformiert und visualisiert werden. Handelt es sich bei einem dieser Prozesse um einen manuellen Prozess, kann dies zeitaufwendig sein, aber auch das Risiko mit sich bringen, dass neue Fehler in die Daten gelangen.


Die Automatisierung dieser Prozesse verringert die Wahrscheinlichkeit neuer Fehler und beschleunigt den Prozess. Dadurch können Erkenntnisse schneller und in manchen Fällen in Echtzeit generiert werden.

Skalierbarkeit

Angesichts der großen Datenmengen, die Unternehmen heute zur Verfügung stehen, kann die effiziente Skalierung eine weitere Herausforderung darstellen. Vor allem für kleine und mittlere Unternehmen war es bisher schwierig, die Rechenkapazität von On-Premise-Rechenzentren zu erweitern. Oft muss dafür neue Hardware erworben, installiert und gewartet werden. Viele Unternehmen können dies nicht rechtfertigen.


Die Cloud-basierte Datenspeicherung und -verarbeitung ermöglicht es Unternehmen nun, die Rechenkapazität nach Bedarf zu erhöhen, um größere und komplexere Datensätze verarbeiten zu können. Sobald das Data Mining abgeschlossen ist, können Unternehmen die Daten auf kostengünstigeren Speicher verschieben und sich die Kosten für die Datenverarbeitung sparen.

Datensicherheit

Daten enthalten oft geistiges Eigentum, personenbezogene Daten, Verkaufszahlen, Accounts und andere vertrauliche Informationen. Die Datensicherheit ist daher von entscheidender Bedeutung – sowohl am Speicherort als auch während der Datennutzung.


Die verwendeten Daten befinden sich im aktiven Arbeitsspeicher, wo sie am anfälligsten sind. Sicherheitstools zum Schutz gewisser Arbeitsspeicherregionen oder Enklaven, die Prozessen den Zugriff ausschließlich von innerhalb der zugeordneten Enklaven erlauben, sind eine Möglichkeit, Daten in diesem Zustand zu schützen.


Ein weiterer Ansatz ist das Federated Learning. Hier wenden Unternehmen Machine-Learning- und KI-Algorithmen an, um Modelle zu erstellen und zu verbessern, ohne Datensätze mit vertraulichen Informationen zu kompromittieren.

Techniken des Data Mining

Es gibt verschiedene Ansätze für das Data Mining, je nach Art der Insights. Assoziationsregeln sind beispielsweise eine regelbasierte Methode zum Bestimmen von Beziehungen zwischen Datenvariablen. Dieser Ansatz wird häufig bei der Analyse typischer Warenkorbartikel verwendet, sodass Unternehmen besser nachvollziehen können, wie Verbraucher:innen bestimmte Produkte zusammen kaufen. Damit kann das Cross-Selling gefördert und es können Empfehlungen gegeben werden.


Neuronale Netzwerke sind Deep-Learning-Algorithmen, die Trainingsdaten durch Nachahmung der Verbindungen im menschlichen Gehirn mithilfe von Node-Schichten verarbeiten. Jeder Node besteht aus Inputs, einem Bias und einem Output. Wenn der Ausgabewert einen bestimmten Schwellenwert überschreitet, wird ein Node aktiviert, um Daten an die nächste Schicht im Netzwerk zu übergeben.


Zum Klassifizieren oder Vorhersagen potenzieller Ergebnisse mit Klassifizierungs- oder Regressionsmethoden verwenden Entscheidungsbäume (Decision Trees) eine Visualisierung, die den Zweigen eines Baums ähnelt, um die potenziellen Ergebnisse von Entscheidungen darzustellen.


Schließlich klassifiziert der K-nearest neighbour- oder KNN-Algorithmus Datenpunkte nach ihrer Position und Zuordnung zu anderen Daten. Es wird angenommen, dass ähnliche Datenpunkte nahe beieinander liegen. Anschließend wird der Abstand zwischen Datenpunkten berechnet, um Muster in den Daten zu identifizieren.

AI and Machine Learning OVHcloud

Beispiele für Data Mining

Einzelhandel: Das Kombinieren und Analysieren von Daten aus den Browsing-Mustern und Kaufgewohnheiten eines Kunden kann dem Einzelhändler helfen, ein tieferes Verständnis für die Arten von Kunden zu gewinnen, die seine Websites besuchen, und eine persönlichere Erfahrung zu bieten.


Vielleicht möchte das Unternehmen auch unterschiedliche Erfahrungen für Kunden bieten, die viel ausgeben, aber nur selten auf der Website sind, und Kunden, die wenig ausgeben, die Website aber regelmäßig besuchen.


Techniken des Data Mining können Einzelhändlern helfen, ihre Produkte mittels Cross-Selling zu verkaufen und so den Umsatz zu steigern. Wenn ein Kunde beispielsweise ein Produkt A kauft, interessiert er sich möglicherweise für ein ergänzendes oder verwandtes Produkt B. Das kann auch genutzt werden, um dem Kunden ein alternatives, aber ähnliches Produkt mit einer höheren Gewinnspanne anzubieten.


Das Data Mining kann auch die Preiselastizität eines Kunden aufzeigen – also ob er ein Produkt oder einen Dienst weiterhin kauft, auch wenn der Preis steigt, und wie wahrscheinlich es ist, dass er mehr kauft, wenn das Produkt weniger kostet. Mit Data Mining lässt sich nachvollziehen, welche Auswirkungen Preisänderungen auf den Gewinn eines Unternehmens haben.


Versicherungen und Finanzen: Ein Versicherungsunternehmen kann Daten von Kunden analysieren, die Versicherungen abschließen möchten. Wenn der Kunde das Formular mehrmals mit unterschiedlichen Informationen ausfüllt, um das günstigste Angebot zu erhalten, kann das ein absolut harmloses verhalten sein. Wenn der Kunde jedoch Optionen auswählt, die im Widerspruch zu bereits gespeicherten Informationen aus einem früheren Kauf stehen, kann dies zwecks weiterer Untersuchungen gemeldet werden.


Im Bankensektor kommt KI schon seit Jahren zum Einsatz, um die Transaktionsdaten von Kunden zu überwachen und Ausgabegewohnheiten zu verfolgen, z. B. die für gewöhnlich an Bankautomaten abgehobenen Beträge oder die Arten von Produkten, die per Kreditkarte gekauft wurden. Falls die AI bemerkt, dass ein Kunde einen ungewöhnlichen Betrag an einem unerwarteten Ort abhebt oder ein Kreditkartenkauf nicht zu den normalen Gewohnheiten passt, kann dies auf Betrug hindeuten.


Datenanalysen kommen bei Finanzinstituten oft in Zusammenhang mit Kreditantragsteller:innen zum Einsatz. Die Zahlungshistorie eines potenziellen Kunden, das Verhältnis von Einkommen zu Zahlungen und die Kredithistorie können herangezogen werden, um das Risiko der Kreditgewährung zu bestimmen und die Kreditbedingungen und Zinssätze festzulegen.


Je mehr Daten erhoben werden, desto leichter kann zwischen „normalem“ Verhalten und verdächtigen Aktivitäten unterschieden werden, die möglicherweise eine Nachforschung rechtfertigen.


Landwirtschaft: Auch landwirtschaftliche Betriebe, die Nutzpflanzen oder andere Produkte anbauen, können Data-Mining-Tools einsetzen. Durch das Sammeln und Analysieren von Daten, beispielsweise über den Bewässerungsgrad, die Sonnenstunden, die Windeinwirkung und andere Elemente, Nährstoffe (die natürlich im Boden vorkommen oder hinzugefügt werden) und das Risiko, dass Nutzpflanzen von Wildtieren verzehrt oder beschädigt werden, sollten Landwirte in der Lage sein, den Ertrag ihrer Anbauflächen zu bestimmen. Sie können auch Bereiche identifizieren, in denen sie Änderungen vornehmen können, um schneller mehr Nutzpflanzen anzubauen.


Komplexe Vorgänge: Data-Mining-Techniken können auch zur Verbesserung betrieblicher Prozesse eingesetzt werden, z. B. zur Identifizierung von kostspieligen oder zeitaufwendigen Engpässen, ineffizienten Prozessen, Problemen in der Lieferkette oder der Verbesserung der Entscheidungsfindung. Diese Funktion wird manchmal auch als „Process Mining“ bezeichnet und kann darüber hinaus Prozesse überwachen, Verbesserungen messen, die Compliance unterstützen und viele verschiedene Funktionen analysieren, darunter auch Kontaktzentren.