Was ist Data Mining?


Die Möglichkeiten von Data Mining: die Geschichte des Data Mining, Methoden, Techniken und technologische Herausforderungen sowie Beispiele für Data Mining in Branchen der Industrie.

data_mining_hero

Definition von Data Mining

Data Mining beschreibt den Prozess, durch das Sammeln und Vergleichen von Daten aus den verschiedensten Quellen verwertbare Erkenntnisse zu gewinnen. Unternehmen nutzen es für die verschiedensten Zwecke: ein besseres Verständnis ihrer Kunden, höhere Effizienz und Antizipieren von Verhalten.


So lassen sich Muster und Korrelationen innerhalb großer Datensätze identifizieren. Die Unternehmen können besser auf ihre Kunden eingehen, Schwachstellen in Vertriebssystemen finden und sich auf Trends einstellen.


Auch Anomalien lassen sich durch Data Mining in jedem Prozess erkennen, bei dem es zu unvorhersehbaren Fehlern kommen kann. Die Voraussetzung ist, dass diese Fehler aus den jeweiligen Datensätzen abgeleitet werden können. Möglich sind eine Vielzahl von Anwendungen: Erkennen von Fehlern in Software, in Lieferketten oder auch in Herstellungsverfahren sowie das Erkennen missbräuchlicher Nutzung von Systemen oder deren Ausfälle.

Ein Jahrhundert Entstehungsgeschichte

Selbst als Computer noch nicht überall waren, wurde mit Daten gearbeitet. Das Sammeln, Auswerten und sinnvolle Darstellen der Daten erfolgte in einem manuellen und langwierigen Verfahren durch spezialisierte Analysten. Der Begriff „Data Mining“ wurde in den 1990er Jahren geprägt, auf Grundlage der bisherigen Praxis der „Knowledge Discovery“. Dabei stützte man sich auf Datenbanken, die heute rudimentär anmuten.


Vor über 100 Jahren kam erstmals Technologie zum Einsatz. Das US Census Bureau wertete so die Ergebnisse der Volkszählung in wenigen Monaten aus, statt über 10 Jahre hinweg. Dabei wurden Lochkarten und ein Tabellierungsgerät eingesetzt.


Statistik, die ursprüngliche Disziplin der Datenwissenschaften, wird nun durch Software für Data Mining um künstliche Intelligenz und Machine Learning erweitert. Cloud Computing liefert dafür zusätzliche Performance für Datenverarbeitung und -speicherung.


Diese Fortschritte der Technologie haben zu einem Quantensprung des Data Mining geführt, da nun Erkenntnisse aus immer komplexeren Datensätze gewonnen werden. Dieses neue Verständnis kommt einem breiten Spektrum von Branchen zugute, wie dem Einzelhandel, Banken, der verarbeitenden Industrie, Telekommunikation, Landwirtschaft und Versicherungen. Dort kommen diese Erkenntnisse zum Beispiel bei dem Verkauf von Produkten online zum Einsatz, bei Risikoanalysen, der Aufdeckung von Finanzbetrug oder auch für den optimierten Gemüseanbau.

Eigenschaften von Data Mining

Zuerst definieren Unternehmen ihre Geschäftsziele, und zwar noch vor einer wie auch immer gearteten Datenverarbeitung. Entscheidungsträger und Data Scientists bestimmen gemeinsam eine Herausforderung für das Unternehmen und den dazugehörigen Kontext, um die adäquaten Fragestellungen und Parameter für das Data Mining-Projekt zu formulieren.


Im nächsten Schritt erarbeiten Data Scientists, welche Daten sie dafür brauchen. Das Verfahren des Mining beruht auf exakten und zuverlässigen Daten aus den richtigen Quellen. Auf ihnen fußen die so gewonnenen wertvollen Informationen.


Sind die Daten identifiziert, müssen sie bereinigt, strukturiert und in ein Format gebracht werden, in dem Data Mining Tools sie problemlos miteinander vergleichen können. In diesem Schritt werden Dubletten und anomale Werte entfernt. Nun gilt es, Modelle zu erstellen und damit die Daten auf Muster und Korrelationen hin zu untersuchen. Je nach Komplexität der Daten empfehlen sich Deep Learning-Algorithmen, um einen Datensatz zu klassifizieren oder einen Cluster daraus zu erstellen.


Nach Auswertung und Verarbeitung der Daten helfen die gewonnenen Erkenntnisse beim Treffen fundierter Entscheidungen.

Data Processing OVHcloud

Die Herausforderungen beim Data Mining

Daten finden und sammeln

Eine der größten Herausforderungen bei Projekten des Data Mining liegt für Unternehmen darin, die diversen Datenarchive zu finden und miteinander zu verbinden.


Moderne Unternehmen speichern Daten in Anwendungen wie Tabellenprogrammen, Datenbanken, ERP, Buchhaltungssoftware und auch in sozialen Medien. Die Daten liegen also in einer Vielzahl von strukturierten und unstrukturierten Formaten vor. Darunter sind verstärkt Informationen von Sensoren und Kameras, die Teil des IoT (Internet of Things) sind.


Oft speichern einzelne Abteilungen eines Unternehmens Daten isoliert voneinander. All das macht die Herausforderung aus, alle relevanten Informationen zusammenzutragen, um die Gesamtübersicht zu gewinnen. Auch befinden sich Daten auf verschiedenen Arten von Infrastruktur wie on premise, Private Cloud und Public Cloud.


Zunächst gilt es also, die Rohdaten einmal zu finden, um sie dann in all ihren Formaten zu sammeln. Es folgt das Einspeisen in ein zentrales Repository oder auch Data Lake, wo sie bereinigt und formatiert werden. Danach werden die Analysetools eingesetzt.

Entfernen von Fehlern und Unstimmigkeiten

Die Rohdaten können fehlerhaft sein, es kann Dubletten geben, auch beim Sammeln der Daten kann es zu Fehlern kommen. Dies verfälscht die Ergebnisse, worauf sich wiederum für das Unternehmen schlechte Entscheidungen gründen. Umso entscheidender ist die Aufbereitung der Rohdaten, wobei sämtliche Anomalien entfernt werden.


Die bereits erwähnten vielfältigen Datenformate erschweren diesen Schritt zusätzlich. Neben Daten aus internen Quellen fließen auch externe Daten mit ein: Nachrichten, Aktien- und Rohstoffpreise sowie Wechselkurse. Sie beeinflussen gegebenenfalls die Entscheidungen eines Unternehmens beim Bestimmen von Produktpreisen, bezüglich Investitionen und der Wahl eines Zielmarktes.


Die Daten müssen in standardisierte Felder eingegeben werden, damit Analyse- und Visualisierungstools sie nach dem Einspeisen in den Data Lake effizient lesen können.

Manuelle Verarbeitung

Die Daten müssen übermittelt, transformiert und grafisch angezeigt werden. Verläuft eine dieser Etappen manuell, nimmt dies oft viel Zeit in Anspruch. Außerdem steigt die Fehleranfälligkeit.


Durch Automatisierung wiederum sinkt die Wahrscheinlichkeit neuer Fehler. Die Verfahren werden beschleunigt und liefern schneller Erkenntnisse, in manchen Fällen sogar in Echtzeit.

Skalierbarkeit

Die schiere Datenmenge in Unternehmen macht es zu einer Herausforderung, sie effizient zu verarbeiten. Vor allem für kleine und mittlere Unternehmen war es bisher schwierig, die Rechenkapazität von On-Premise-Rechenzentren hochzuskalieren. Oft geht dies mit dem Erwerb neuer Hardware einher, die dann auch noch installiert und gewartet werden muss. Viele Unternehmen können dies schlicht nicht bewältigen.


Cloud-basiertes Speichern und Verarbeiten von Daten versetzt Unternehmen jetzt in die Lage, die Rechenkapazität nach Bedarf zu steigern. Auch umfangreiche und komplexe Datensätze lassen sich so handhaben. Nach abgeschlossenem Data Mining lassen sich die Daten auf kostengünstigere Speicherlösungen verschieben. Für die Datenverarbeitung entstehen dann keine Kosten mehr.

Datensicherheit

Oft enthalten Daten geistiges Eigentum, personenbezogene Daten, Verkaufszahlen, Konten und weitere vertrauliche Informationen. Die Datensicherheit ist daher von entscheidender Bedeutung, sowohl beim Speichern, als auch bei der Nutzung der Daten.


Werden Daten genutzt, so befinden sie sich in aktivem Speicher. Dort sind sie am anfälligsten. Sicherheitstools bieten einen gewissen Schutz für Daten in diesem Zustand: Sie schützen Speicherbereiche oder „Enklaven“, auf die nur Prozesse innerhalb der zugewiesenen Enklave zugreifen können.


Das Föderale Lernen („federated learning“) ist ein weiterer Ansatz. Hierbei erstellen und verbessern Unternehmen Modelle mithilfe von Algorithmen für Machine Learning und AI. Datensätze mit vertraulichen Informationen bleiben davon unberührt.

Techniken des Data Mining

Je nach Art der gewünschten Erkenntnisse kommen verschiedene Ansätze für Data Mining zum Einsatz. Assoziationsregeln beispielsweise stellen eine regelbasierte Methode dar, um Beziehungen zwischen Datenvariablen zu definieren. Bei der Analyse typischer Warenkorbartikel kommt diese Methode oft zum Einsatz; Unternehmen können so besser nachvollziehen, welche Produkte zusammen gekauft werden, um das Cross-Selling zu fördern und Empfehlungen auszusprechen.


Neuronale Netzwerke sind Deep Learning-Algorithmen. Sie verarbeiten Daten aus dem Training der Maschinen und ahmen dabei die Synapsen des menschlichen Gehirns durch Schichten von Knoten nach. Jeder Knoten besteht aus Input, Zwischenschichten und Output. Wenn der Ausgabewert einen bestimmten Schwellenwert überschreitet, wird ein Knoten aktiviert, der die Daten an die nächste Schicht des Netzwerks leitet.


Mögliche Ergebnisse werden durch Methoden der Klassifizierung oder Regression vorhergesagt oder eingeschätzt. Dabei können Entscheidungsbäume die potenziellen Ergebnisse von Entscheidungen mit ihrer Aststruktur bildlich darstellen.


Der K-nearest neighbour- oder KNN-Algorithmus klassifiziert Datenpunkte nach ihrer Position und Zuordnung zu anderen Daten. Die Prämisse hierbei ist, dass ähnliche Datenpunkte nahe beieinander liegen. Dann wird der Abstand zwischen Datenpunkten berechnet, um so Muster in den Daten zu identifizieren.

AI and Machine Learning OVHcloud

Beispiele für Data Mining

Einzelhandel: Einzelhändler können besser das Profil der Kunden nachvollziehen, die ihre Websites besuchen. Dazu werten sie Daten von deren Navigationsverhalten und Kaufgewohnheiten aus. So sind sie in der Lage, entsprechend zugeschnittene Nutzererfahrungen anzubieten.


Für Unternehmen kann es ebenfalls sinnvoll sein, Nutzererfahrungen je nach Kundenprofil anzupassen: zum Beispiel für Kunden, die bei seltenen Websitebesuchen hochwertige Einkäufe tätigen, im Vergleich zu denen, die bei häufigen Besuchen geringe Summen ausgeben.


Techniken des Data Mining können Einzelhändler beim Querverkauf (cross-selling) unterstützen und dadurch den Umsatz steigern. Ein Kunde ersteht beispielsweise ein Produkt A. Möglicherweise interessiert ihn auch ein ähnliches oder ergänzendes Produkt B. Außerdem können Händler den Kunden ähnliche Alternativen mit einer höheren Gewinnspanne anbieten.


Data Mining kann auch die Preiselastizität von Kunden aufzeigen, das heißt, ob sie Produkte oder Dienstleistungen auch dann kaufen, wenn sich der Preis dafür erhöht. Kaufen sie dagegen mehr, wenn der Preis sinkt? Mit Data Mining lässt sich nachvollziehen, welche Auswirkungen Preisänderungen auf den Gewinn eines Unternehmens haben.


Versicherungen und Finanzdienstleistungen: Ein Versicherungsunternehmen kann Daten von Kunden analysieren, die sich für Versicherungen interessieren. Wenn der Kunde das Formular mehrmals ausfüllt und dabei die Informationen variiert, um das günstigste Angebot zu erhalten, muss dahinter nicht unbedingt eine Täuschungsabsicht stehen. Wenn der Kunde jedoch Optionen auswählt, die im Widerspruch zu Angaben aus einem früheren Kauf stehen, lohnt möglicherweise ein genaueres Hinsehen.


Seit Jahren bereits verfolgt der Bankensektor die Transaktionsdaten der Kunden mithilfe von AI: Das Kaufverhalten wird analysiert, welche Beträge an Bankautomaten abgehoben und welche Produkte mit Kreditkarte gekauft werden. Hebt ein Kunde einen ungewöhnlichen Betrag von einem unbekannten Ort ab, oder wird ein Kauf mit der Kreditkarte getätigt, der nicht zu den Gewohnheiten passt, könnte dies ein Anzeichen von Betrug sein.


Finanzinstitute analysieren routinemäßig die Daten von Kreditantragstellern. Das Zahlungsverhalten eines potenziellen Kunden, das Verhältnis von Einkommen zu Zahlungen und die Kredithistorie können herangezogen werden, um das Risiko des Kredits zu bewerten. Auch lassen sich auf dieser Basis die Konditionen und Zinssätze festlegen.


Je mehr Daten erhoben werden, desto klarer unterscheidet sich das normale Verhalten von verdächtigen Aktivitäten. Diese wiederum können Anlass zu einer intensiven Untersuchung geben.


Landwirtschaft: Auch in landwirtschaftlichen Betrieben kommen Tools für Data Mining zum Einsatz, zum Beispiel beim Anbau von Getreide. Vielfältige Daten lassen sich hier erheben: Bewässerungsgrad, Sonnenstunden, der Effekt von Wind und anderen Elementen, natürliche und hinzugesetzte Nährstoffe im Boden, von Wildtieren ausgehendes Risiko für Pflanzen uvm. Auf eine breiten Datenbasis gestützt können Landwirte den Ertrag von dem bestimmen, was sie anbauen. Außerdem lässt sich Potenzial für die Optimierung identifizieren, damit sie schneller mehr Pflanzen erzeugen.


Komplexe Operationen: Techniken des Data Mining helfen dabei, betriebliche Prozesse zu verbessern: Engpässe identifizieren, die Zeit und Geld kosten, ineffiziente Prozesse erkennen, Probleme in der Lieferkette angehen oder auch Entscheidungen datengestützt treffen. Dieses Gebiet der Anwendung wird manchmal auch als „Process Mining“ bezeichnet. Dadurch lassen sich auch Prozesse überwachen, Verbesserungen messen, die Compliance unterstützen und zahlreiche Funktionen analysieren, darunter die von Telefonzentralen.