Co to jest uczenie bez nadzoru?


Uczenie nienadzorowane to rodzaj uczenia maszynowego, w którym algorytmy uczą się wzorców na podstawie danych nieetykietowanych. W przeciwieństwie do uczenia nadzorowanego, nie ma wstępnie zdefiniowanych kategorii wyników; system próbuje wydobyć sens z danych, identyfikując wewnętrzne struktury, grupy lub relacje jako takie.

machine learning

Jak działa uczenie nienadzorowane?

Algorytmy uczenia nienadzorowanego zaprojektowane są tak, aby odkrywać i odnajdywać ukryte wzorce w zbiorach danych, które nie posiadają wstępnie zdefiniowanych etykiet lub wyników docelowych. Zamiast otrzymywać informacje o tym, czego należy szukać, algorytmy te przechodzą przez dane, aby odkryć nieodłączne struktury i relacje w sposób samodzielny.

Data Exploration i Pattern Discovery

Podstawowy proces sztucznej inteligencji rozpoczyna się od zasilania algorytmu uczenia maszynowego zbiorem danych składającym się wyłącznie z cech wejściowych, bez odpowiadających im zmiennych wyjściowych. Algorytm iteracyjnie przetwarza te dane, próbując zidentyfikować podstawowe wzorce. Może to obejmować:

  • Identyfikacja podobieństw lub różnic: Algorytm wyszukuje punkty danych, które są podobne lub różne w zależności od ich cech.
  • Zrozumieć dystrybucję danych: Być może próbuje zrozumieć, w jaki sposób dane są rozproszone i czy istnieją naturalne zgrupowania.
  • Uproszczone procedury: Czasami celem jest uproszczenie danych poprzez znalezienie ich najważniejszych funkcji.

Podejście Algorytmiczne

Różne algorytmy nienadzorowanego uczenia wykorzystywały różne techniki matematyczne i statystyczne do osiągnięcia celów treningowych. Przykład:

Algorytmy klastrowania mają na celu grupowanie podobnych punktów danych. Mogą obliczać odległości między punktami i przypisywać do tego samego klastra te, które są blisko siebie. Algorytm uczy się o charakterystyce tych grup na podstawie samych danych.

Algorytmy redukcji wymiarów dążą do zmniejszenia liczby zmiennych (funkcji) treningowych w zbiorze danych, zachowując jednocześnie ważne informacje. Identyfikują one korelacje i redundancję, aby stworzyć bardziej zwartą reprezentację danych.

Algorytmy eksploracji reguł asocjacji szukają relacji lub współwystępowania elementów w dużych zbiorach danych, na przykład identyfikacji produktów często kupowanych razem w supermarkecie.

Algorytm sztucznej inteligencji uczy się właściwej struktury danych, minimalizując lub maksymalizując obiektywną funkcję, która oddaje istotę "dobrej" struktury (np. minimalizując odległość w klastrach i maksymalizując odległość między klastrami). Jest to proces odkrywczy napędzany przez same dane.

Różne typy uczenia nienadzorowanego

Uczenie bez nadzoru identyfikuje wzorce w danych bez etykiety za pomocą technik takich jak klastrowanie, redukcja wymiarów i eksploracja reguł asocjacji, które można zintegrować z przepływami MLOps.

Klaster

Klastrowanie jest prawdopodobnie najbardziej znanym typem uczenia nienadzorowanego. Podstawowym celem klastrowania dla modelu jest zgrupowanie zbioru obiektów w taki sposób, aby obiekty w tej samej grupie (zwanej klastrem) były bardziej podobne do siebie niż do tych w innych klastrach. Algorytm odkrywa te naturalne grupy w danych w oparciu o charakterystykę właściwych punktów danych.
 

Klastrowanie zazwyczaj polega na mierzeniu podobieństwa (lub braku podobieństwa) między punktami danych, często przy użyciu metryk odległości, takich jak odległość euklidesowa lub podobieństwo cosinusowe. Następnie przypisują punkty danych do klastrów, aby zmaksymalizować podobieństwo wewnątrz klastra i zminimalizować podobieństwo między klastrami - zamykając proces klastrowania.

Zmniejszanie wymiarów

Techniki redukcji wymiarów mają na celu zmniejszenie liczby zmiennych losowych lub funkcji. Jest to szczególnie przydatne w przypadku zbiorów danych o wysokich wymiarach (zbiory danych z wieloma funkcjami), ponieważ może uprościć dane, zmniejszyć złożoność obliczeniową, zmniejszyć "klątwę wymiarowości" i pomóc w wizualizacji.
 

Metody te przekształcają dane modelowe z przestrzeni wielowymiarowej w przestrzeń niskowymiarową, starając się jednocześnie zachować znaczące właściwości i wariancję oryginalnych danych. Można to osiągnąć dzięki funkcji wyboru cech, która wybiera podzbiór oryginalnych elementów, lub funkcji wyodrębniania, która tworzy nowy, mniejszy zestaw elementów, łącząc oryginalne cechy przykładowe.

Wyszukiwanie Reguł Stowarzyszenia

eksploracja reguł asocjacji to oparta na regułach metoda wykrywania interesujących relacji między zmiennymi w dużych zbiorach danych. Jest on szeroko stosowany do identyfikacji wzorców współwystępowania, takich jak elementy często kupowane razem w analizie koszyka rynkowego.
 

Algorytmy te wyszukują reguły "jeśli-to" (np. jeśli pozycja A zostanie zakupiona, wówczas pozycja B zostanie prawdopodobnie zakupiona). Siła tych reguł jest oceniana za pomocą takich metryk, jak: support, który wskazuje, jak często elementy pojawiają się w zbiorze danych; confidence, który wskazuje, jak często reguła została uznana za prawdziwą; oraz Lift, który mierzy, o ile bardziej prawdopodobny jest zakup elementu B w momencie zakupu elementu A, w porównaniu z jego ogólnym prawdopodobieństwem wykorzystania.

Wykrywanie Nieprawidłowości (Outlier Detection)

Chociaż czasami wykrywanie anomalii jest uważane za oddzielne pole, często wykorzystuje nienadzorowane techniki do identyfikacji punktów danych, zdarzeń lub obserwacji, które znacznie odbiegają od większości danych - "anomalii" lub "wartości odstających". Ponieważ anomalie są rzadko spotykane i często nieznane z wyprzedzeniem, metody nienadzorowane są dobrze dopasowane, ponieważ nie wymagają wcześniejszej wiedzy (etykiet) na temat tego, co stanowi anomalię.
 

W tym przypadku metody budują model normalnego zachowania danych, a następnie identyfikują instancje, które nie są zgodne z tym modelem. Może być ona oparta na właściwościach statystycznych, odległościach, gęstościach lub błędach rekonstrukcji.

Wyzwania i ograniczenia związane z uczeniem nienadzorowanym

Uczenie bez nadzoru oferuje potężne narzędzia do odkrywania ukrytych informacji w danych przy użyciu potoku machine learning dla modelu, ale niesie ze sobą również własny zestaw wyzwań i ograniczeń. Prawdopodobnie jedną z najważniejszych przeszkód są trudności w ocenie wyników.

W przeciwieństwie do uczenia nadzorowanego, w którym modele są oceniane na podstawie znanych etykiet, uczenie nienadzorowane nie ma definitywnej "prawdy podstawowej". Z tego względu obiektywny pomiar jakości lub sensowności odkrytych wzorców jest z natury rzeczy trudniejszy, a często wymaga bardziej subiektywnych lub pośrednich metod walidacji.

Co więcej, interpretacja wyników pochodzących z nienadzorowanych algorytmów sztucznej inteligencji w dużym stopniu opiera się na doświadczeniu zdobytym w ramach modelu. Zidentyfikowane przez model wzorce, klastry lub zredukowane wymiary wymagają uważnego przeanalizowania przez osobę kompetentną w danej dziedzinie, aby określić ich rzeczywiste znaczenie i praktyczne implikacje. Bez tego eksperta istnieje ryzyko błędnej interpretacji odkryć lub skupienia się na wzorcach, które są statystycznie interesujące, ale praktycznie nieistotne.

Warianty Wydajności

Wydajność modeli uczenia nienadzorowanego jest bardzo wrażliwa na wybór i skalowanie funkcji. Nieistotne lub słabo skalowane cechy mogą przesłaniać sensowne wzorce lub prowadzić algorytmy do odkrywania błędnych struktur.

W konsekwencji, w celu uzyskania użytecznych przykładów często konieczne jest podjęcie znacznych wysiłków w zakresie inżynierii cech i wstępnego przetwarzania. Co więcej, chociaż uczenie nienadzorowane doskonale radzi sobie z identyfikacją nieodłącznych struktur, nie przewiduje bezpośrednio konkretnych wyników ani zmiennych docelowych, co może być ograniczeniem, jeśli ostatecznym celem jest zadanie predykcyjne.

Niektóre algorytmy, zwłaszcza te, które mają do czynienia z bardzo dużymi zbiorami danych lub z wysoką wymiarowością, mogą być również intensywne obliczeniowo i wymagają dużych zasobów. Wreszcie, algorytmy zawsze mogą odkrywać fałszywe lub pozbawione znaczenia wzorce, zwłaszcza jeśli dane są głośne lub wybrana metoda nie jest dobrze dostosowana do struktury zbioru danych, co sprawia, że staranna analiza i walidacja są kluczowe.

Uczenie nienadzorowane a uczenie nadzorowane

Zrozumienie rozróżnienia między uczeniem modeli nienadzorowanym i nadzorowanym ma fundamentalne znaczenie dla zrozumienia krajobrazu uczenia maszynowego. Chociaż celem obu tych projektów jest wyciągnięcie wniosków z danych, ich podejścia i cele różnią się znacząco, przede wszystkim w oparciu o charakter danych wejściowych, które wykorzystują. Najważniejsza różnica tkwi w samych danych.

Uczenie nadzorowane

Algorytmy nadzorowanego uczenia maszynowego działają na etykietowanych danych przykładowych. Oznacza to, że w przypadku nadzorowanego procesu każdy punkt danych w zestawie szkoleniowym ma powiązany ze sobą znany wynik lub zmienną docelową. Algorytm uczy się mapować funkcje wejściowe na te wstępnie zdefiniowane etykiety.

Podstawowym celem nadzorowanego procesu jest przewidywanie określonego wyniku lub klasyfikacja danych w znanych kategoriach. Na przykład przewidywanie cen domów na podstawie rozmiaru i lokalizacji (gdzie znane są historyczne ceny) lub klasyfikowanie e-maili jako spamu lub nie (gdzie e-maile są wstępnie oznakowane) jest powszechnym zadaniem nadzorowanym.

Uczenie nienadzorowane

Z kolei algorytmy nienadzorowanego uczenia maszynowego podczas modelowania wykorzystują nieetykietowane dane przykładowe. Punkty danych modelu nie mają wstępnie zdefiniowanych danych wyjściowych ani kategorii. Algorytm musi eksplorować dane, aby samodzielnie znaleźć nieodłączne wzorce, struktury lub relacje.

Głównym celem jest odkrycie ukrytych wzorców, zgrupowanie podobnych elementów lub zmniejszenie złożoności danych. Może to być na przykład segmentacja klientów na różne grupy w zależności od ich zachowania zakupowego (bez wcześniejszej wiedzy o tych grupach) lub identyfikacja anomalii w ruchu sieciowym.

Porównywanie kluczowych charakterystyk

Rozłóżmy charakterystyczne cechy każdego podejścia opartego na modelu sztucznej inteligencji. Kiedy myślimy o uczeniu nadzorowanym, odnajdujemy następujące cechy:

  • Dane wejściowe: Wykorzystuje etykietowane dane, co oznacza, że każdy punkt danych ma odpowiednie dane wyjściowe lub znacznik.
     
  • Cel główny: Ma na celu przewidywanie wyników dla nowych danych lub klasyfikowanie danych do wstępnie zdefiniowanych kategorii na podstawie mapowania nauczonego z etykietowanych danych treningowych.
     
  • Algorytmy: Typowe algorytmy obejmują regresję liniową, regresję logistyczną, maszyny wektorowe wsparcia (SVM), drzewa decyzyjne i sieci neuronowe (w przypadku zadań nadzorowanych).
     
  • Wskazówki: Proces uczenia się jest jawnie kierowany przez znane zmienne docelowe w zestawie danych treningowych.
     
  • Typowe zadania: Przykłady obejmują wykrywanie spamu w e-mailach, rozpoznawanie obrazu (np. identyfikacja kotów na zdjęciach), diagnostykę medyczną na podstawie danych pacjentów oraz prognozowanie cen akcji.
     
  • Ewaluacja Wydajność mierzy się zazwyczaj, porównując przewidywania algorytmu ze znanymi etykietami, za pomocą metryk, takich jak dokładność, precyzja, przywołanie, wynik F1 lub średni błąd kwadratowy.

Z drugiej strony, model uczenia nienadzorowanego wykazuje następujące cechy:

  • Dane wejściowe: Działa z nieetykietowanymi danymi przykładowymi, w przypadku których są dostarczane tylko funkcje wejściowe, bez odpowiednich zmiennych wyjściowych.
     
  • Cel główny: Koncentruje się na odkrywaniu ukrytych wzorców, nieodłącznych struktur lub relacji w danych. Obejmuje to grupowanie podobnych punktów danych (klastrowanie), zmniejszanie liczby cech (redukcja wymiarowości) lub znajdowanie wzorców współwystępowania (eksploracja reguł asocjacji).
     
  • Algorytmy: Popularne algorytmy obejmują klastrowanie K-Means, klaster hierarchiczny, analizę głównych komponentów (PCA), algorytm Apriori. Autoencoders, często klasyfikowane jako techniki uczenia samoregulowanego, mogą być wykorzystywane do redukcji wymiarów i wykrywania anomalii.
     
  • Wskazówki: Algorytm eksploruje dane bez wyraźnych wskazówek czy też poprawnie zdefiniowanych odpowiedzi.
     
  • Typowe zadania: Przykłady obejmują segmentację klientów w zakresie marketingu, wykrywanie anomalii w transakcjach finansowych, modelowanie tematyczne w dużych dokumentach tekstowych oraz budowanie systemów rekomendujących.
     
  • Ewaluacja Ocena jest często trudniejsza i bardziej subiektywna, ponieważ nie ma "poprawnych" odpowiedzi, z którymi można by porównać. Metryki mogą obejmować spójność i separację klastrów (w przypadku klastrowania), wielkość zachowanej wariancji (w przypadku redukcji wymiarów) lub ocenę odkrytych wzorców przez człowieka.
     

Kiedy należy używać tego pytania, które jest zupełnie inne. Z pewnością powinieneś wybrać uczenie nadzorowane, gdy masz dane etykietowane i wyraźny wynik docelowy, który chcesz przewidzieć lub użyć do klasyfikacji.

Wybieraj sztuczną inteligencję bez nadzoru, gdy masz dane bez etykiety i chcesz je eksplorować w celu ukrytych informacji, zgrupować lub uprościć ich strukturę.

Przykłady zastosowania uczenia maszynowego nienadzorowanego

Uczenie bez nadzoru, poprzez odkrywanie ukrytych wzorców w nieetykietowanych danych dla modelu, napędza różnorodne ważne aplikacje w wielu branżach. Kluczowe zastosowania obejmują:

  • Aplikacje klastrowe : Metody te grupują podobne punkty danych, aby odkryć naturalne segmenty. Typowe zastosowania obejmują segmentację klientów na potrzeby marketingu ukierunkowanego, organizację dużych zbiorów dokumentów według tematu (modelowanie tematyczne), segmentację obrazów w celu identyfikacji obiektów oraz identyfikację społeczności w sieciach społecznościowych.
     
  • Zastosowania zmniejszające wymiary: Techniki te upraszczają złożone zbiory danych, zmniejszając liczbę funkcji i zachowując ważne informacje. Jest to niezbędne do wizualizacji danych wysoko wymiarowych, poprawy wydajności i wydajności innych modeli machine learning dzięki inżynierii funkcji oraz redukcji szumu w danych.
     
  • Aplikacje wyszukiwania reguł stowarzyszenia: Ten typ algorytmu maszynowego odkrywa interesujące relacje i wzorce współwystępowania między elementami w dużych zbiorach danych. Rozwiązanie to jest powszechnie stosowane do analizy koszyków rynkowych w handlu detalicznym (pozwala zobaczyć, jakie produkty są kupowane razem), zasilania silników rekomendacji w handlu elektronicznym i usługach streamingowych oraz analizy wzorców użycia Internetu.
     
  • Aplikacje do wykrywania nieprawidłowości: Aplikacje te koncentrują się na identyfikacji rzadkich elementów, zdarzeń lub obserwacji, które znacznie odbiegają od normy. Krytyczne zastosowania obejmują wykrywanie oszustw w transakcjach finansowych, wykrywanie włamań do systemów bezpieczeństwa cybernetycznego, identyfikację wad w procesach produkcyjnych oraz monitorowanie zdrowia pacjentów w celu wykrycia nietypowych sygnałów życiowych.

OVHcloud i uczenie bez nadzoru

Do skutecznego wdrożenia i skalowania projektów nienadzorowanego uczenia oraz Twojego modelu niezbędne są solidne narzędzia i infrastruktura. OVHcloud zapewnia kilka rozwiązań przeznaczonych do programowania, wdrażania i zarządzania modelami machine learning, w tym tymi używanymi w kontekstach uczenia nienadzorowanego:

Public Cloud

AI Deploy

Wdrażaj i skaluj modele machine learning za pomocą AI Deploy. Pomniejsz lukę między rozwojem sztucznej inteligencji a produkcją, zapewniając modelom AI łatwy dostęp przez API. Skup się na algorytmach, a my zajmiemy się infrastrukturą. Zapewnij wysoką dostępność i wydajność inteligentnych aplikacji.

Ikona Hosted Private Cloud

AI i Machine Learning

Przyspiesz przepływy pracy związane ze sztuczną inteligencją i nauczaniem maszynowym, korzystając z naszego wydajnego i skalowalnego rozwiązania machine learning. OVHcloud AI Machine Learning zapewnia narzędzia i infrastrukturę do efektywnego trenowania, zarządzania i wdrażania modeli.

Ikona Bare Metal

Public Cloud

Twórz, wdrażaj i zarządzaj aplikacjami sztucznej inteligencji w elastyczny sposób i przy użyciu rozwiązania Public Cloud od OVHcloud. Nasza solidna i skalowalna infrastruktura oferuje szeroką gamę usług, w tym instancje obliczeniowe, rozwiązania przestrzeni dyskowej i funkcje sieciowe.