Co to jest eksploracja danych?


Wyjaśnienie procesów eksploracji danych i jej zalet. Na tej stronie omówiona została historia eksploracji danych, stosowane metody i techniki oraz wyzwania technologiczne, jakie się z nią wiążą. Przedstawione zostały również przykłady eksploracji danych w różnych branżach.

data_mining_hero

Definicja eksploracji danych

Eksploracja danych to proces wydobywania wartościowych informacji poprzez gromadzenie i porównywanie danych z różnych, często niepowiązanych ze sobą źródeł. Procesy obliczeniowe dostarczają cennej wiedzy, która może być wykorzystywana przez firmy do realizacji różnorodnych zadań, w tym do lepszego zrozumienia potrzeb klientów, poprawy wydajności i prognozowania ich zachowań.


W ten sposób można zidentyfikować wzorce i korelacje w dużych zbiorach danych, a także znaleźć wąskie gardła w systemach dystrybucji.


Eksplorację danych stosuje się również do wykrywania anomalii w dowolnym procesie, który może powodować nieprzewidywalne błędy ujawniające się po głębszej analizie zbioru danych. Ponadto, eksploracja sprawdza się w wielu innych zastosowaniach, takich jak wykrywanie błędów w oprogramowaniu, łańcuchach dostaw czy procesach produkcyjnych, a także identyfikacja nadużyć w systemach lub awarii.

Sto lat eksploracji danych

Wiedzę z danych wydobywano jeszcze zanim komputery stały się wszechobecne, ale proces ten wykonywany był ręcznie, był zatem powolny i wymagał wykwalifikowanych analityków, którzy zestawiali, interpretowali i prezentowali dane w zrozumiałej formie. Termin „eksploracja danych” został wprowadzony w 1990 r., a praktyka ta, wcześniej określana jako odkrywanie wiedzy, wykorzystywała podstawowe według dzisiejszych standardów bazy danych.


Po raz pierwszy technologia została użyta do eksploracji danych ponad 100 lat temu, kiedy to amerykańskie biuro spisu powszechnego skróciło czas analizy wyników z 10 lat do zaledwie kilku miesięcy, wykorzystując karty perforowane i maszynę tabulacyjną.


Obecnie oprogramowanie do eksploracji danych dodaje sztuczną inteligencję i uczenie maszynowe do tradycyjnej dyscypliny nauki o danych, jaką jest statystyka, a cloud computing zapewnia dodatkową moc obliczeniową i możliwości przechowywania danych.


Postęp technologiczny doprowadził do eksplozji w dziedzinie eksploracji danych - w celu wydobycia wartościowej wiedzy analizowane są coraz bardziej złożone zbiory informacji. Uzyskane dane są wykorzystywane w wielu różnych branżach, w tym w handlu detalicznym, bankowości, produkcji, telekomunikacji, rolnictwie i ubezpieczeniach. Przykłady zastosowania obejmują sprzedaż produktów online, analizę ryzyka, wykrywanie oszustw finansowych, a nawet optymalizację uprawy warzyw w gospodarstwach rolnych.

Charakterystyka eksploracji danych

Przed przystąpieniem do eksploracji danych firmy muszą, przy współpracy interesariuszy i data scientists ustalić swoje cele biznesowe oraz powiązany z nimi kontekst. Pozwoli im to określić pytania i parametry, które będzie obejmował projekt eksploracji danych.


Następnie data scientists identyfikują dane, które pomogą im odpowiedzieć na zdefiniowane pytania. Proces eksploracji mający na celu wydobycie cennej wiedzy z danych realizowany jest w oparciu o precyzyjne, wiarygodne informacje pozyskane z odpowiednich źródeł, dlatego ich wybór ma kluczowe znaczenie.


Po zidentyfikowaniu danych należy je oczyścić i ustrukturyzować w formacie, który można łatwo porównać za pomocą dostępnych narzędzi. Na tym etapie należy usunąć wszystkie zduplikowane dane i wartości odstające. Kolejnym krokiem jest proces tworzenia modeli i eksploracji danych w celu wyszukania wzorców i korelacji. W zależności od stopnia złożoności danych, do klasyfikacji lub zgrupowania zbioru danych można również zastosować algorytmy głębokiego uczenia.


Po przeanalizowaniu i przetworzeniu danych uzyskane informacje przekazywane są osobom, które wykorzystają je do wspomagania procesu decyzyjnego.

Data Processing OVHcloud

Wyzwania związane z eksploracją danych

Lokalizowanie i gromadzenie danych

Jedno z największych wyzwań, przed jakim stają firmy eksplorujące dane, jest identyfikacja, a następnie łączenie wszystkich repozytoriów danych.


W nowoczesnych firmach dane są przechowywane w aplikacjach, takich jak arkusze kalkulacyjne, bazy danych, ERP, oprogramowanie księgowe oraz w mediach społecznościowych. Dane te dostępne są w wielu ustrukturyzowanych i nieustrukturyzowanych formatach i coraz częściej obejmują dane generowane przez czujniki i kamery IoT.


Ponadto dane są często przechowywane w różnych częściach przedsiębiorstwa, co oznacza, że pozyskanie wszystkich istotnych i powiązanych ze sobą informacji w celu otrzymania pełnego obrazu stanowi duże wyzwanie. Dane mogą być również zlokalizowane w różnych typach infrastruktury, w tym w infrastrukturze lokalnej, chmurze prywatnej i publicznej.


Dlatego surowe dane należy zgromadzić we wszystkich formatach, w których występują. Następnie należy je wprowadzić do centralnego repozytorium lub jeziora danych, gdzie zostaną oczyszczone i sformatowane przed uruchomieniem narzędzi analitycznych.

Usuwanie błędów i niespójności

Błędy lub pomyłki zawarte w surowych danych, w tym duplikaty i błędy wprowadzone podczas procesu ich gromadzenia, spowodują uzyskanie niewiarygodnych wyników, które mogą prowadzić do podejmowania złych decyzji przez firmę. Dlatego odpowiednie przygotowanie surowych danych i usunięcie wszelkich anomalii jest niezwykle istotne.


Kolejną kwestią są różne formaty, w jakich dane będą prezentowane. Oprócz danych pochodzących ze źródeł wewnętrznych, należy uwzględnić dane zewnętrzne, pochodzące np. z kanałów informacyjnych, a także ceny akcji i towarów oraz kursy walut. Wszystko to wpływa na decyzje podejmowane przez przedsiębiorstwo przy ustalaniu cen produktów, dokonywaniu inwestycji czy wyborze rynku docelowego.


Pola, do których wprowadzane są dane, muszą być zatem ustandaryzowane, gdyż zapewni to efektywne odczytywanie informacji przez narzędzia analityczne i wizualizacyjne po wprowadzeniu ich do jeziora danych.

Przetwarzanie ręczne

Dane, które będą eksplorowane, muszą najpierw zostać przeniesione, przekształcone i zwizualizowane. Jeśli którykolwiek z tych procesów jest wykonywany ręcznie, może być czasochłonny, a poza tym niesie ze sobą ryzyko wprowadzenia do danych nowych błędów.


Automatyzacja procesów zmniejsza ryzyko wystąpienia nowych błędów, przyspiesza operacje i umożliwia szybsze generowanie analiz, w niektórych przypadkach w czasie rzeczywistym.

Skalowalność

Ponieważ firmy dysponują obecnie bardzo dużą ilością danych, kolejnym wyzwaniem jest skalowanie umożliwiające ich efektywne przetwarzanie. W przeszłości firmom posiadającym lokalne centra danych - zwłaszcza małym i średnim - trudno było zwiększyć moc obliczeniową. Często wiązało się to z koniecznością zakupu, instalacji i utrzymania nowego sprzętu, na co wiele podmiotów nie mogło sobie pozwolić.


Aktualnie, dzięki przechowywaniu i przetwarzaniu danych w chmurze, firmy mogą zwiększać moc obliczeniową i bez problemu obsługiwać większe i bardziej złożone zbiory danych. Po zakończeniu eksploracji danych firmy mogą przenieść je na tańszą przestrzeń dyskową i przestać płacić za ich przetwarzanie.

Bezpieczeństwo danych

Dane często mają poufny charakter, np. dotyczą własności intelektualnej, sprzedaży, kont lub umożliwiają identyfikację osób. Dlatego niezwykle istotne jest bezpieczeństwo danych, zarówno tych pozostających w spoczynku, jak i przetwarzanych.


Przetwarzane dane zlokalizowane są w pamięci aktywnej, czyli tam, gdzie są najbardziej narażone na ataki. Jedną z metod ochrony danych w tym stanie są narzędzia bezpieczeństwa, które pozwalają na ochronę enklaw, do których dostęp mają tylko procesy z wewnątrz przypisanej enklawy.


Innym podejściem jest uczenie federacyjne, w ramach którego firmy stosują algorytmy uczenia maszynowego i sztucznej inteligencji. Dzięki temu tworzą i ulepszają modele bez narażania na niebezpieczeństwo zbiorów danych zawierających informacje poufne.

Techniki eksploracji danych

Istnieją różne podejścia do eksploracji danych, w zależności od typu wiedzy, jaką chce się wydobyć. Na przykład reguły asocjacyjne to metoda określania związków między zmiennymi danych. Podejście to jest często stosowane w analizie typowych elementów koszyka zakupów, dzięki czemu firmy mogą lepiej zrozumieć, w jaki sposób konsumenci łączą zakupy niektórych produktów, co pomaga w prowadzeniu sprzedaży krzyżowej i uzyskiwaniu rekomendacji.


Sieci neuronowe to algorytmy głębokiego uczenia, które przetwarzają dane treningowe, naśladując połączenia w mózgu człowieka za pomocą warstw węzłów. Każdy węzeł składa się z danych wejściowych, odchylenia i wyniku. Jeśli wartość wyjściowa przekracza określony próg, uaktywniany jest węzeł, który przekazuje dane do następnej warstwy w sieci.


Aby sklasyfikować lub przewidzieć potencjalne wyniki przy użyciu metod klasyfikacji lub regresji, drzewa decyzyjne używają wizualizacji, która przypomina gałęzie drzewa ilustrujące potencjalne wyniki decyzji.


Wreszcie, algorytm K-Najbliższych Sąsiadów , (algorytm KNN), klasyfikuje punkty danych na podstawie ich lokalizacji i powiązania z innymi danymi. Zakłada on, że podobne punkty danych można znaleźć blisko siebie, a następnie oblicza odległość między punktami w celu zidentyfikowania wzorców.

AI and Machine Learning OVHcloud

Przykłady zastosowania eksploracji danych

Sprzedaż detaliczna: Łączenie i analizowanie danych dotyczących wzorców wyszukiwania produktów przez klientów oraz ich zwyczajów związanych z wydawaniem pieniędzy może pomóc sprzedawcom detalicznym w głębszym zrozumieniu typów klientów oraz w spersonalizowaniu oferty.


Firma może zapewnić inne doświadczenia klientom, którzy wydają dużo, ale odwiedzają stronę rzadko, inne natomiast klientom, którzy wydają niewiele, ale odwiedzają stronę często.


Techniki eksploracji danych mogą pomóc sprzedawcom detalicznym w sprzedaży krzyżowej ich produktów i zwiększeniu przychodów. Na przykład, jeśli klient kupuje produkt A, może być zainteresowany dodatkowym lub pokrewnym produktem B. Sprzedawca może również zaoferować klientowi alternatywny, ale podobny produkt o wyższej marży.


Eksploracja danych może również pomóc w ocenie elastyczności klienta - czy będzie on nadal kupował dany produkt lub usługę, jeśli cena wzrośnie oraz jak duże jest prawdopodobieństwo, że kupi więcej, jeśli produkt będzie kosztował mniej. Firmy mogą zatem wykorzystywać eksplorację danych do prognozowania, jak zmiany cen produktów będą wpływać na ich zyski.


Ubezpieczenia i finanse: Firma ubezpieczeniowa może analizować dane klientów ubiegających się o polisy. Jeśli klient wypełni formularz kilka razy, wprowadzając różne dane, aby uzyskać najtańszą ofertę, zachowanie to może być całkowicie niewinne. Jeśli jednak zaznaczy opcje, które są sprzeczne z informacjami przechowywanymi na jego temat na podstawie poprzedniego zakupu, może to być sygnałem do dalszego zbadania sprawy.


Sektor bankowy od lat wykorzystuje sztuczną inteligencję do monitorowania danych transakcyjnych klientów i śledzenia ich przyzwyczajeń dotyczących wydatków, takich jak kwoty zazwyczaj pobierane w bankomatach lub rodzaje produktów zakupionych za pomocą kart kredytowych. Jeśli AI zauważy, że klient wypłaca nietypową kwotę z nieoczekiwanej lokalizacji lub opłaci kartą kredytową zakup, który nie pasuje do jego zwyczajów, może to wskazywać na oszustwo.


Analiza danych jest również powszechnie stosowana przez instytucje finansowe przy rozpatrywaniu wniosków kredytowych. Historia płatności potencjalnego klienta, stosunek płatności do dochodu oraz historia kredytowa mogą być wykorzystane do określenia ryzyka związanego z udzieleniem kredytu oraz pomóc w ustaleniu warunków i oprocentowania kredytu.


Im więcej danych jest gromadzonych, tym łatwiej jest odróżnić standardowe zachowania od podejrzanych działań, które wymagają zbadania.


Rolnictwo Narzędzia eksploracji danych mogą być również wykorzystywane przez przedsiębiorstwa rolne zajmujące się uprawą roślin lub innych produktów. Gromadząc i analizując dane, takie jak poziom nawodnienia, liczba godzin nasłonecznienia, ekspozycja na wiatr, składniki odżywcze (występujące naturalnie w glebie lub dodane) oraz ryzyko zjedzenia lub uszkodzenia upraw przez dzikie zwierzęta, rolnicy są w stanie określić wielkość plonów, a także zidentyfikować obszary, w których mogą dokonać zmian, aby zwiększyć i przyspieszyć produkcję.


Złożone operacje: Techniki eksploracji danych mogą być także wykorzystywane do usprawniania operacji (np. identyfikacji kosztownych lub powodujących stratę czasu wąskich gardeł), usuwania problemów w łańcuchu dostaw lub optymalizacji procesu decyzyjnego. Metody te, nazywane „eksploracją procesów”, pozwalają również monitorować procesy i mierzyć ulepszenia. Pomagają ponadto zachować zgodność z przepisami i analizować wiele różnych funkcji, w tym dane pochodzące z centrów kontaktowych.