Co to jest uczenie nadzorowane?


U podstaw uczenia nadzorowanego leży uczenie maszynowe, w którym algorytm uczy się na podstawie etykietowanych danych.

Myśl o uczeniu nadzorowanym jak o uczeniu się ucznia z nauczycielem. "Nauczyciel" (który często jest data scientist lub ekspertem w dziedzinie danych) dostarcza komputerowi zestaw przykładów, w których każdy przykład zawiera zarówno dane wejściowe, jak i odpowiednie dane wyjściowe.

machine learning

Podstawowym celem uczenia nadzorowanego jest "uczenie się" przez algorytm ogólnej reguły lub funkcji mapowania, która może przyjmować nowe, niewidoczne wejścia i przewidywać dla nich poprawny wynik. Nazywa się to "nadzorowanym", ponieważ proces uczenia się algorytmu na podstawie zbioru danych treningowych można uznać za nauczyciela nadzorującego proces uczenia się.

Znamy poprawne odpowiedzi (etykiety), algorytm iteracyjnie przewiduje dane treningowe i jest korygowany przez nauczyciela. Uczenie kończy się, gdy algorytm osiąga akceptowalny poziom wydajności.

Jak działa uczenie nadzorowane?

Uczenie nadzorowane może wydawać się skomplikowane, ale podstawowe metody podporządkowane są ustrukturyzowanemu przepływowi pracy. Chodzi o uczenie maszyny poprzez pokazywanie jej przykładów i testowanie jej zrozumienia. Oto szczegóły typowych kroków:

Zbieranie i przygotowanie etykietowanych danych

Proces ten rozpoczyna się od fazy gromadzenia odpowiednich danych. Przede wszystkim, w przypadku nadzorowanego uczenia maszynowego dane te muszą być etykietowane. Oznacza to, że każdy element danych wejściowych jest sparowany z odpowiednim danymi wyjściowymi lub "tagiem". Na przykład, jeśli budujesz wykrywacz spamu, Twoje dane to e-maile (dane wejściowe) z etykietą "spam" lub "nie spam" (dane wyjściowe).

Jakość i ilość etykietowanych danych ma kluczowe znaczenie dla zastosowanych metod. Im lepsze jakościowo i adekwatne przykłady widzi model funkcji, tym lepiej będzie się uczyć i działać. Etap ten często wiąże się z czyszczeniem danych (obsługa brakujących wartości, usuwanie błędów) i ich wstępnym przetwarzaniem (przekształcanie danych w format odpowiedni dla algorytmu).

Podział danych na zestawy treningowe, walidacyjne i testowe

Po wygenerowania zbioru danych z etykietą standardową praktyką jest nieużywanie go do bezpośredniego uczenia modelu. Jest ona zazwyczaj podzielona. Zestaw szkoleniowy jest największą częścią danych i jest wykorzystywany do trenowania modelu machine learning. Model "widzi" te przykłady i uczy się relacji między danymi wejściowymi a ich odpowiednimi etykietami.

Zestaw walidacyjny (opcjonalny, ale wysoce zalecany) jest używany podczas procesu treningowego do strojenia parametrów modelu (hiperparametrów) i podejmowania decyzji dotyczących architektury modelu. Pomaga on zapobiec zbytniej specjalizacji modelu względem danych treningowych (problem znany jako przepełnienie), zapewniając bezstronną ocenę podczas uczenia się.

Zestaw testowy jest używany po przeszkoleniu (i zatwierdzeniu) modelu w celu zapewnienia obiektywnej oceny wydajności końcowego modelu. Dane te nigdy wcześniej nie były widziane przez model, dlatego stanowią dobrą wskazówkę co do tego, jak model będzie działał na nowych danych w świecie rzeczywistym.

Wybór modelu (wybór algorytmu)

W zależności od problemu, który chcesz rozwiązać (np. przewidywanie kategorii jak "spam / nie spam" - klasyfikacja lub przewidywanie ciągłej wartości jak cena domu - regresja) i charakteru Twoich danych, wybierasz odpowiedni algorytm nadzorowanego uczenia się. Istnieje wiele algorytmów do wyboru, takich jak regresja liniowa, regresja logistyczna, drzewa decyzyjne, maszyny wektorowe wsparcia (SVM), sieci neuronowe i inne.

Trening modelu

To tutaj odbywa się "uczenie się". Wybrany algorytm przetwarza zbiór treningowy. Model ten wykonuje prognozy na podstawie danych wejściowych i porównuje je z rzeczywistymi znanymi etykietami.

W przypadku rozbieżności (błąd), algorytm dostosowuje swoje wewnętrzne parametry, aby następnym razem lepiej przewidzieć. Często odbywa się to poprzez próbę zminimalizowania "funkcji strat", która określa, jak daleko prognozy modelu są od prawdziwych wartości.

Ten proces iteracyjnej korekty trwa do momentu, aż model osiągnie zadowalający poziom dokładności danych treningowych (i dobrze sprawdzi się na danych walidacyjnych).

Ocena modelu

Po zakończeniu treningu wydajność modelu jest oceniana za pomocą zestawu testowego. Typowe metryki wykorzystywane do oceny zależą od rodzaju problemu.

W przypadku klasyfikacji często pojawiają się metryki, takie jak dokładność, precyzja, przywołanie i wynik F1. W przypadku regresji często używa się wartości Mean Squared Error (MSE) lub R-squared. Ten krok jest kluczowy dla zrozumienia, w jakim stopniu model będzie prawdopodobnie uogólniał na nowe, niewidoczne dane.

Jeśli wydajność modelu jest zadowalająca, można go wdrożyć, aby przygotować prognozy dotyczące nowych danych w czasie rzeczywistym. Na przykład filtr antyspamowy OVHcloud mógłby teraz klasyfikować wiadomości przychodzące, których nigdy wcześniej nie widział. Ważne jest również, aby stale monitorować wydajność modelu w świecie rzeczywistym, ponieważ wzorce danych mogą się zmieniać w czasie (koncepcja znana jako "model drift"), potencjalnie wymagając przetrenowania lub dostosowania modelu.

Uczenie nadzorowane to w istocie iteracyjny proces polegający na podawaniu etykietowanych przykładów do algorytmu, co pozwala mu uczyć się wzorców, a następnie testować jego zdolność do uogólniania tych wzorców na nowe dane.

Rodzaje nadzorowanego uczenia maszynowego

Problemy związane z nadzorowanym uczeniem się, chociaż wszystkie te problemy są zakorzenione w zasadzie uczenia się na podstawie danych etykietowanych, są zazwyczaj podzielone na dwie podstawowe kategorie: Klasyfikacja i regresja. Zasadnicza różnica między nimi zależy od natury danych wyjściowych, które model ma przewidywać.

Klasyfikacja:

Klasyfikacja dotyczy zadań, których celem jest przewidywanie dyskretnej kategorii lub etykiety klasy. Oznacza to, że zmienna wyjściowa nie jest liczbą, która może zmieniać się w sposób ciągły, ale raczej odrębną grupą, taką jak "tak" lub "nie", "spam" lub "nie spam", lub określonymi typami obiektów, takimi jak "kot", "pies" lub "człowiek".

Model uczy się na podstawie zbioru danych treningowych, w którym każde wejście jest już przypisane do wstępnie zdefiniowanej klasy. Jego celem jest dokładne przypisanie nowych, niewidocznych punktów do jednej z tych wyuczonych kategorii.

Istnieje wiele praktycznych zastosowań klasyfikacji. Na przykład w modelach wykrywania spamu przychodzące wiadomości e-mail są klasyfikowane jako "spam" lub "nie spam". Zadania rozpoznawania obrazu umożliwiają klasyfikowanie obiektów wewnątrz obrazów, na przykład klasyfikowanie obrazu jako zawierającego "samochód", "rower" lub "pieszego".

Regresja:

Regresja to technika nadzorowanego uczenia, stosowana, gdy zmienna wyjściowa jest ciągłą wartością liczbową. W przeciwieństwie do klasyfikacji, która przewiduje, do jakiej kategorii należy dane dane dane dane dane, regresja ma na celu przewidywanie, ile danego elementu istnieje lub jaka będzie określona wartość liczbowa. Model uczy się mapować zmienne wejściowe na wyjście ciągłe.

Rzeczywiste przykłady regresji są obfite. Prognozowanie ceny domu polega na oszacowaniu ceny rynkowej domu na podstawie cech, takich jak rozmiar, liczba sypialni i lokalizacja. W finansach modele regresji są wykorzystywane do prognozowania cen akcji, próbując przewidzieć przyszłe wartości zapasów, na podstawie których będą podejmowane decyzje.

Typowe algorytmy wykorzystywane do zadań regresji to Regresja liniowa i Regresja wielomianowa. Innym popularnym wyborem jest Support Vector Regression (SVR), obok algorytmów adaptacyjnych, takich jak drzewa decyzyjne, lasy losowe i sieci neuronowe, gdy są skonfigurowane do ciągłego dostarczania danych.

Uczenie nadzorowane a uczenie nienadzorowane

Uczenie nadzorowane i nienadzorowane to podstawowe filary uczenia maszynowego i predykcji, jednak do problemów podchodzą zgodnie z zasadniczo różnymi metodologiami i celami, głównie w zależności od typu danych, które wykorzystują, i celów, które mają na celu. Zrozumienie ich różnic jest kluczowe dla wyboru właściwego podejścia do danego zadania.

Wybór danych wejściowych

Najbardziej znaczący przykład rozróżnienia polega na naturze danych wejściowych. Uczenie nadzorowane, jak widzieliśmy, opiera się na etykietowanych danych. Oznacza to, że w fazie treningu algorytm jest dostarczany z zestawami danych, gdzie każdy przykład wejściowy jest sparowany z odpowiednim poprawnym wyjściem lub "etykietą".
 

Uczy się porównując swoją prognozę do tych znanych etykiet i dostosowując się, aby zminimalizować błędy. Jest to uczenie maszynowe z nauczycielem, który dostarcza odpowiedzi.

Rozważ wykorzystanie danych nieetykietowanych

W przeciwieństwie do klasycznego uczenia nienadzorowanego, które działa z danymi nieetykietowanymi. Algorytmy otrzymują dane, które składają się wyłącznie z cech wejściowych, bez jawnych zmiennych wyjściowych lub poprawnych odpowiedzi. Nie chodzi o to, aby przewidywać określony wynik, ale raczej o to, aby zbadać dane i odkryć wewnętrzne struktury, wzorce lub relacje w nich występujące. To jak uczenie się przez obserwowanie i identyfikowanie wzorców samodzielnie, bez wyraźnej wskazówki nauczyciela.
 

Aspekt "nadzoru" wyraźnie wskazuje na te dwa aspekty. W uczeniu nadzorowanym obecność etykiet zapewnia bezpośrednią informację zwrotną o procesie uczenia, na którym ma się opierać. Algorytm jest jawnie informowany, jaki powinien być prawidłowy wynik dla każdego wejścia, kierując jego uczeniem. W uczeniu bez nadzoru nie ma wyraźnych wskazówek. Algorytmy muszą wnioskować o wzorcach i relacjach wyłącznie na podstawie charakterystyki danych wejściowych.

Przykłady zastosowań nadzorowanego uczenia maszynowego

Uczenie nadzorowane to nie tylko koncepcja teoretyczna lub predykcja. To siła napędowa szerokiej gamy aplikacji, które mają wpływ na nasze życie codzienne i różne branże. Możliwość uczenia się na podstawie etykietowanych przykładów sprawia, że jest ona nieoceniona w przypadku zadań wymagających przewidywania i klasyfikacji. Oto kilka renomowanych przykładów zastosowania:

  • Rozpoznawanie obrazów i obiektów: Jest to klasyczne zastosowanie klasyfikacji. Modele Supervised Learning trenowane są na ogromnych zbiorach danych obrazów, na których każdy obraz jest oznaczony odpowiednimi obiektami (np. "kot", "samochód", "pieszy", "drzewo").
     
  • Wykrywanie spamu: Jednym z najwcześniejszych i najpowszechniej stosowanych zastosowań uczenia nadzorowanego (w szczególności klasyfikacja) jest filtrowanie wiadomości spam. Modele są trenowane na podstawie ogromnej liczby wiadomości e-mail, które są ręcznie oznaczone jako "spam" lub "nie spam" (często nazywane "ham").
     
  • Diagnostyka medyczna i opieka zdrowotna: Nadzorowane uczenie się odgrywa coraz większą rolę w opiece zdrowotnej, ponieważ pomaga pracownikom służby zdrowia w diagnozowaniu chorób. Modele mogą być trenowane na podstawie danych pacjentów - w tym objawów, historii medycznej, wyników laboratoryjnych i obrazów medycznych - oznaczonych potwierdzonymi diagnozami.
     
  • Analiza opinii: Zrozumienie opinii publicznej i opinii klientów jest dla firm i organizacji niezwykle ważne. Modele uczenia nadzorowanego (klasyfikacja) są trenowane na danych tekstowych (takich jak recenzje produktów, wpisy w mediach społecznościowych lub odpowiedzi na ankiety), które zostały oznaczone sentymentami takimi jak "pozytywne", "negatywne" lub "neutralne".
     
  • Wykrywanie oszustw finansowych: W sektorze finansowym uczenie nadzorowane ma kluczowe znaczenie dla identyfikacji transakcji stanowiących oszustwo i zapobiegania im. Modele są trenowane na podstawie historycznych danych transakcyjnych, gdzie każda transakcja jest oznaczona jako "fałszywa" lub "legalna".
     
  • Przewidywanie cen nieruchomości i wartości zapasów (regresja) : Modele regresji w nadzorowanym uczeniu maszynowym są szeroko stosowane w finansach i nieruchomościach. Aby przewidywać ceny domów, modele są trenowane na podstawie danych z poprzednich transakcji sprzedaży nieruchomości, w tym cech takich jak rozmiar, liczba sypialni, lokalizacja, wiek i udogodnienia wraz z odpowiadającymi im cenami sprzedaży.

Powyższa lista przykładów przedstawia zaledwie ułamek sposobów, w jakie stosowane jest nadzorowane uczenie. W miarę jak ilość danych rośnie, a moc obliczeniowa rośnie, zakres i złożoność zastosowań będą się rozszerzać.

OVHcloud i uczenie nadzorowane

OVHcloud oferuje pakiet rozwiązań dostosowanych do każdego etapu cyklu nadzorowanego uczenia się. Niezależnie od tego, czy chcesz bez wysiłku wdrażać wytrenowane modele, budować i trenować nowe na dużą skalę czy też wykorzystywać elastyczne infrastruktury chmurowe, OVHcloud dostarczy Ci narzędzia, które pozwolą przekształcić Twoje dane w użyteczne rozwiązania.

Ikona Bare Metal

Punkty końcowe AI

Wdrażaj modele machine learning w środowisku produkcyjnym za pomocą AI Endpoint. Skup się na swoich algorytmach, a my zajmiemy się infrastrukturą. Nasza usługa zarządzana pozwala na udostępnianie wytrenowanych modeli za pośrednictwem skalowalnych i bezpiecznych API HTTP, dzięki czemu są one łatwo dostępne, co pozwala na tworzenie prognoz w czasie rzeczywistym.

Ikona Hosted Private Cloud

Machine learning

Wydobądź pełen potencjał z danych dzięki rozwiązaniom Machine Learning. Ta wydajna platforma zapewnia ekspertom data scientists i programistom kompleksowe środowisko do budowania, trenowania i wdrażania modeli machine learning na dużą skalę.

Public Cloud

Public Cloud

Poznaj nasze rozwiązania cloud zaprojektowane tak, aby zapewnić Ci pełną kontrolę i elastyczność nad infrastrukturą. Buduj, wdrażaj i zarządzaj aplikacjami za pomocą naszych instancji obliczeniowych na żądanie, skalowalnych rozwiązań przestrzeni dyskowej i dużych możliwości w zakresie sieci.