Co jest wbudowaniem w uczenie maszynowe?


Co to są Osadzenia w Machine Learning?

Osadzenie danych w uczeniu maszynowym to potężna technika pozwalająca przekształcać dyskretne, często wielowymiarowe dane, takie jak pojedyncze słowa, kategorie produktów, a nawet pojedynczy użytkownicy i przedmioty, w gęste, ciągłe reprezentacje wektorowe w ramach lepiej zarządzanej, niższej wymiarowej przestrzeni.

Próbując wprowadzić nieprzetworzony tekst bezpośrednio do modelu matematycznego, cóż, to po prostu nie zadziała. Osadzenia stanowią ważny pomost. Działają one jak wyrafinowana "tabela odnośników" lub słownik, w którym każdej unikalnej pozycji przypisana jest unikalna lista liczb rzeczywistych, tworząca jej wektor.

IA & Machine learning OVHcloud

Prawdziwa magia osadzania danych w polu sztucznej inteligencji polega na tym, że reprezentacje te nie są arbitralne; wyciągane są one z samych danych podczas procesu uczenia modelu. Proces ten ma na celu przechwycenie podstawowych linków semantycznych lub charakterystycznych cech elementów.

W rezultacie elementy, które są kontekstowo lub semantycznie podobne w oryginalnym zestawie danych, będą mapowane na wektory, które są blisko siebie w tej nowo utworzonej przestrzeni. Na przykład słowa takie jak "king" i "queen" mogą kończyć się podobnymi reprezentacjami, odzwierciedlającymi ich powiązane znaczenia.

Dlaczego Potrzebujemy Osadzeń?

Machine learning często ma trudności z bezpośrednią interpretacją surowych, odrębnych danych, takich jak pojedyncze słowa lub kategorie produktów.

Próba wprowadzenia takich danych do modelu matematycznego w jego oryginalnej formie nie działa, ponieważ modele wymagają wprowadzania danych numerycznych. W tym miejscu osadzenia stają się niezbędne. Stanowią one ważny pomost, działając jak zaawansowana "tabela odnośników", która przekłada każdy unikalny element na listę liczb rzeczywistych — jego reprezentację wektorową — czyniąc dane strawnymi dla algorytmów.

Prawdziwa moc i konieczność osadzeń wynika jednak ze sposobu tworzenia tych wektorów. Nie są to tylko arbitralne przypisania; te reprezentacje wektorowe uczą się na podstawie danych podczas treningu modelu.

Celem tego uczenia jest uchwycenie podstawowych relacji semantycznych lub charakterystycznych cech elementów i wspomaganie procesu MLOps.

Zalety wbudowania w machine learning

Technologie te mają ogromne zalety w zakresie algorytmów uczenia maszynowego, umożliwiając fundamentalne przekształcenie sposobów interpretowania, uczenia się na podstawie i wykorzystywania złożonych, często wielowymiarowych danych.

Lepsze Zrozumienie Semantyczne

Osadzanie ma na celu uchwycenie podstawowego znaczenia, kontekstu i niuansowanych relacji między oddzielnymi elementami, takimi jak słowa, produkty, a nawet użytkownicy. Reprezentując semantycznie podobne elementy z wektorami, które są geograficznie blisko siebie w wyuczonej przestrzeni wstawiania, zyskują one znacznie głębsze zrozumienie danych.
 

Na przykład, wstawianie może pomóc jej zrozumieć, że "król" i "królowa" dzielą królewski kontekst i są związane z "monarchą", ale różnią się od "chłopa".
 

To wykracza poza podobieństwa na poziomie powierzchni; relacje geometryczne w przestrzeni osadzania (takie jak przesunięcia wektorowe) mogą nawet uchwycić analogie, takie jak "king - man + woman = queen". To zaawansowane rozumienie semantyki jest nieocenione w przypadku zadań, takich jak tłumaczenie (zachowanie znaczenia w różnych językach), analiza sentymentu (wykrywanie subtelnych tonów emocjonalnych) oraz tworzenie inteligentnych systemów rekomendacji, które mogą sugerować naprawdę istotne elementy.

Zwiększona wydajność

Tradycyjne metody reprezentacji danych dyskretnych często tworzą bardzo wysoko wymiarowe i rozproszone wektory (głównie zera z pojedynczym).
 

Wraz ze wzrostem liczby unikalnych elementów wzrasta również ta wymiarowość, prowadząca do "klątwy wymiarowości" - gdzie dane stają się zbyt rzadkie, modele stają się kosztowne obliczeniowo do treningu, wymagają ogromnych ilości pamięci i mają trudności z uogólnieniem.
 

Osadzenia zapewniają bezpośrednie rozwiązanie, oferując gęste, niskowymiarowe reprezentacje. Ta niewielkość znacznie zmniejsza obciążenie obliczeniowe, dzięki czemu modele mogą trenować szybciej i wymagają mniej przestrzeni dyskowej.
 

Co ważniejsze, te gęste wektory, przechwytując istotne informacje, pomagają skuteczniej identyfikować istotne wzorce, prowadząc do lepszej uogólnienia na niewidzialnych danych i ostatecznie osiągając większą dokładność i lepszą ogólną wydajność w zadaniach niższego szczebla.

Skuteczne przetwarzanie danych kategorycznych

Modele potoków Machine Learning często napotykają na dane kategoryczne, które mogą wahać się od kilku różnych klas do tysięcy, a nawet milionów (funkcje o wysokiej kardynalności, takie jak identyfikatory użytkowników lub jednostki SKU produktu).
 

Reprezentowanie takich danych liczbowo w sposób, który modele mogą skutecznie wykorzystywać, jest wyzwaniem. Proste kodowanie całkowitoliczbowe narzuca sztuczną relację porządkową, podczas gdy kodowanie na jednym gorąco staje się niewygodne w przypadku wielu kategorii.
 

Osadzenia oferują znacznie bardziej zaawansowane podejście poprzez uczenie się unikalnej reprezentacji wektorowej dla każdej kategorii.
 

Proces ten nie tylko konwertuje kategorie do użytecznego formatu numerycznego, ale także pozycjonuje kategorie o podobnych skutkach lub zachowaniach bliżej przestrzeni wstawiania, odkrywając w ten sposób ukryte cechy i relacje w obrębie samych danych kategorycznych. Pozwala to modelowi wykorzystać te wyuczone podobieństwa, prowadząc do solidniejszych i bardziej wnikliwych prognoz.

Transfer wiedzy z wstępnie przeszkolonymi osadami

Jedną z najbardziej użytecznych korzyści praktycznych płynących z wbudowania jest możliwość transferu wiedzy przy użyciu wstępnie wytrenowanych modeli.
 

Badacze i organizacje inwestują duże środki w trenowanie wbudowań w ogromne zbiory danych - na przykład osadzania słów, takie jak Word2Vec, GloVe lub pochodzące z dużych modeli językowych (LLM), są trenowane na terabajtach danych tekstowych, podczas gdy giganci handlu elektronicznego mogą trenować osadzanie przedmiotów na miliardach interakcji użytkowników. Te wstępnie wytrenowane wbudowania odzwierciedlają ogromną ilość ogólnej wiedzy na temat struktury języka lub relacji między elementami.
 

Programiści mogą następnie wykorzystywać te łatwo dostępne osadzenia i integrować je z własnymi modelami, nawet jeśli ich konkretne zadanie ma ograniczone dane treningowe. Praktyka ta, znana jako uczenie transferowe, może znacznie przyspieszyć rozwój, zapewnić solidne podstawy wydajności i umożliwić tworzenie potężnych narzędzi bez konieczności korzystania z dużych zasobów obliczeniowych lub ogromnych, zastrzeżonych zbiorów danych od zera.

Jak działa osadzanie

Zrozumienie, jakie są osadzenia i dlaczego są korzystne, to jedna rzecz. Zrozumienie, jak naprawdę powstają i funkcjonują, jest kluczowe, aby docenić ich siłę.

W tej sekcji omówiona została mechanika osadzania, wyjaśniona została, w jaki sposób poszczególne informacje są przekształcane w bogate wektory numeryczne, które mogą być skutecznie wykorzystywane przez modele machine learning. Zbadamy proces, który nadaje tym wektorom znaczenie i pozwala im uchwycić złożone powiązania w danych.

Mapowanie na wektory: Koncepcja Podstawowa

Osadzanie polega na tworzeniu mapowania z odrębnego zbioru elementów (takich jak słowa, identyfikatory produktów lub profile użytkowników) na listę liczb rzeczywistych, zwaną wektorem. Każda unikalna pozycja w słowniku lub zestawie ma przypisany własny unikalny wektor. Początkowo wartości wektorowe mogą być losowe lub zainicjowane zgodnie z prostą strategią.

Kluczową częścią jest to, że nie są one statyczne; są to parametry, które model maszyny nauczy się i dostosuje podczas procesu.

Ich wymiarowość (tj. ile jest liczb na każdej liście) jest wybranym hiperparametrem - jest on zazwyczaj znacznie mniejszy niż całkowita liczba unikalnych elementów, ale wystarczająco duży, aby uchwycić złożone linki.

Uczenie Się Poprzez Sieci Neuronowe

Najczęściej wstawiania uczą się za pośrednictwem sieci neuronowych. Często dedykowana warstwa osadzania jest pierwszą warstwą w sieci, która przetwarza dane wejściowe w postaci kategorii lub tekstu.

Gdy element (np. wyraz reprezentowany przez indeks całkowitoliczbowy) jest wprowadzany do tej warstwy, warstwa po prostu wyszukuje odpowiedni jej wektor w wewnętrznej "macierzy osadzania" (gdzie wiersze są indeksami elementów, a kolumny są wymiarami wektorowymi). Wektor ten staje się wtedy danymi wejściowymi dla kolejnych warstw w sieci.

W fazie treningu sieci, podczas gdy pracuje ona nad zminimalizowaniem błędu przewidywania w danym zadaniu, sygnały błędu są propagowane wstecznie przez sieć, a wartości w samych wektorach osadzania są aktualizowane wraz z innymi wagami modelu.

Rola funkcji celu

Osadzanie nie uczy się znaczących reprezentacji w próżni. Są trenowane w ramach większego modelu zaprojektowanego tak, aby osiągnąć określony cel, określony przez funkcję obiektywną (lub funkcję utraty). Przykład:

  • W przetwarzaniu języka naturalnego osadzanie słów (takie jak Word2Vec lub GloVe) często uczy się go, trenując, aby przewidywał słowo z uwzględnieniem otaczających go słów kontekstowych (lub odwrotnie). Model dostosowuje wektory słów, aby ulepszyć je w tym zadaniu przewidywania.
     
  • W systemach rekomendacji osadzenia elementów lub użytkowników można uczyć się przez trenowanie modelu w celu przewidywania ocen użytkowników dla elementów lub tego, czy użytkownik będzie wchodził w interakcję z elementem.
     
  • W zadaniach klasyfikacji z wprowadzanymi danymi kategorycznymi, powszechnym problemem uczenia nadzorowanego, osadzenia uczą się, aby pomóc lepiej rozróżnić różne klasy na podstawie etykietowanych przykładów.

Osadzenia są zoptymalizowane tak, aby zawierały informacje najbardziej istotne dla osiągnięcia celu.

Skutek? Znaczna Przestrzeń Wektorowa

Dzięki temu procesowi treningowemu, napędzanemu przez funkcję obiektywną, warstwa wstawiania uczy się rozmieszczać wektory w przestrzeni wstawiania tak, aby elementy, które są semantycznie podobne lub zachowują się podobnie w kontekście zadania, były umieszczone bliżej siebie.

Elementy różne od siebie będą bardziej oddalone od siebie. Ta geometryczna relacja w przestrzeni wektorowej sprawia, że osadzanie jest tak potężne. Oznacza to, że wektory nie są tylko przypadkowymi liczbami; kodują one wyuczone linki i cechy oryginalnych elementów, umożliwiając modelowi uogólnianie, tworzenie zniuansowanych prognoz, a nawet odkrywanie ukrytych wzorców w danych.

Co to są modele osadzające?

Model osadzający to model uczenia maszynowego zaprojektowany specjalnie do uczenia się i generowania znaczących reprezentacji wektorowych danych dyskretnych lub wielowymiarowych.

Podczas gdy wiele złożonych systemów maszynowych może wykorzystywać warstwę osadzania jako część swojej architektury, "model osadzania" odnosi się konkretnie do systemu lub procesu skupionego na tworzeniu tych znaczących, gęstych reprezentacji wektorowych.

Wykorzystują one surowe dane, takie jak słowa, zdania, obrazy lub identyfikatory użytkowników/elementów i przekształcają je w przestrzeń o niższych wymiarach, w której linki semantyczne są zakodowane w geometrii wektorów.

Dane wyjściowe — same osadzania — mogą być następnie używane bezpośrednio do zadań, takich jak wyszukiwanie podobieństw, wizualizacja lub jako dane wejściowe funkcji dla innych modeli maszyn niższego szczebla

Proces tworzenia tych osadzeń zazwyczaj polega na trenowaniu sieci neuronowej na określonym, często samodzielnie nadzorowanym zadaniu.

Na przykład model osadzania słów może być trenowany w zakresie przewidywania docelowego słowa na podstawie otaczających go słów kontekstowych (lub odwrotnie). Gdy model uczy się wykonywać dokładnie to zadanie, wagi w jego warstwie osadzania są dopasowywane, co skutecznie staje się nauczonym osadzaniem.

Rozwiązania machine learning

Poznaj innowacyjne rozwiązania OVHcloud zaprojektowane z myślą o Twoich ambicjach w przestrzeni AI i ML. Dowiedz się, w jaki sposób nasze najnowocześniejsze usługi mogą pomóc Ci budować, wdrażać i skalować Twoje projekty w chmurze: