SpeechBrain oferuje innowacje w zakresie konwersacyjnej sztucznej inteligencji dzięki rozwiązaniom Public Cloud od OVHcloud
OVHcloud & SpeechBrain


Pobrano 2 miliony razy

Wkład 140 programistów

Wydany na licencji Apache w wersji 2.0
W skrócie
SpeechBrain to zestaw narzędzi open source, którego celem jest zwiększenie dostępności konwersacyjnej sztucznej inteligencji dla wszystkich. Utworzone przez dr. Mirco Ravanelliego i dr. Titouana Parcolleta, SpeechBrain ułatwia badania i rozwój neuronowych technologii przetwarzania mowy, takich jak rozpoznawanie mowy, rozumienie języka mówionego, wzmacnianie mowy, zamiana tekstu na mowę i wiele innych. Celem SpeechBrain jest zbudowanie maszyny, która podobnie jak nasz mózg, będzie w stanie w naturalny sposób pojmować mowę, rozumieć jej treść i emocje oraz uczestniczyć w angażujących rozmowach z ludźmi.

Rys. 1. Idea koncepcyjna SpeechBrain. Celem jest stworzenie różnych technologii, które będą mogły naśladować zdolności komunikacyjne mózgu.
SpeechBrain jest obecnie jednym z najpopularniejszych open source'owych zestawów narzędzi do przetwarzania mowy, zapewniającym elastyczną i kompleksową platformę dla międzynarodowej społeczności naukowców, programistów i sponsorów.
Wyzwanie
Aby wypuścić najnowszą wersję SpeechBrain (SpeechBrain 1.0), zespół SpeechBrain musiał wdrożyć i wspierać najbardziej zaawansowane technologie deep learning, takie jak uczenie się samonadzorowane, uczenie ciągłe, modelowanie dużych modeli językowych, modele dyfuzji, zaawansowane wyszukiwanie wiązki, sieci strumieniowe, interpretowalne sieci neuronowe i wiele innych. Wdrażanie tych złożonych technik jest nie tylko trudne, ale również niezwykle wymagające pod względem obliczeniowym. Głównym wyzwaniem dla uruchomienia SpeechBrain 1.0 było znalezienie odpowiednich zasobów obliczeniowych, aby nadążyć za najnowocześniejszą technologią, która wymaga coraz większych modeli i zbiorów danych.
Na przykład zespół pracował nad uczeniem ciągłym, czyli procesem, w którym sieć neuronowa uczy się i dostosowuje się w czasie, integrując nowe informacje z istniejącą wiedzą. SpeechBrain dodał interfejsy do dużych modeli językowych, ułatwiając użytkownikom ich dostrojenie i tworzenie chatbotów. Zastosował także zaawansowane algorytmy do wyszukiwania wiązki, które jest metodą używaną w rozpoznawaniu mowy w celu znalezienia najbardziej prawdopodobnej sekwencji słów, rozważając wiele możliwości na każdym etapie. To znacznie poprawiło wydajność ich systemów rozpoznawania mowy. Opracowali systemy rozpoznawania mowy, które mogą działać w czasie rzeczywistym, przetwarzając wypowiedziane słowa w momencie ich wypowiadania, dzięki czemu są szybsze i bardziej responsywne. Sieci neuronowe często działają jak czarne skrzynki, co oznacza, że ich wewnętrzne działanie nie jest łatwo zrozumiałe. Aby złagodzić ten problem, w ramach projektu SpeechBrain wdrożono kilka metod, dzięki którym sieci neuronowe stały się łatwiejsze do interpretacji, a to zwiększyło możliwość ich rozumienia i transparentność ich procesów podejmowania decyzji. Na koniec zespół wdrożył modele dyfuzji, będące zaawansowanymi technikami generowania dźwięku wysokiej jakości poprzez jego stopniowe udoskonalanie.
Aby sprostać tym wymagającym zadaniom, SpeechBrain potrzebował skalowalnej platformy chmurowej, która może obsłużyć duże modele AI wytrenowane na rosnących ilościach danych. Ponieważ celem SpeechBrain jest demokratyzacja konwersacyjnej sztucznej inteligencji, firma poszukiwała również partnera, który podzielałby ich wartości - otwartość i przejrzystość, a także zasady open source dotyczące przenoszenia, interoperacyjności i odwracalności.
Rozwiązanie
OVHcloud, zbudowana na wartościach takich jak zaufanie, otwartość, oferująca wiele rozwiązań chmurowych opartych na technologiach open source, była naturalnym wyborem dla SpeechBrain. SpeechBrain przyjął instancje NVIDIA® GPU oraz AI Training zainstalowane na platformie Public Cloud OVHcloud.
GPU (Graphic Processing Units) to chipy komputerowe wewnątrz serwerów, które mogą przetwarzać duże zbiory danych i przeprowadzać obliczenia matematyczne z dużą prędkością. Są one zatem wykorzystywane przez programistów AI i mistrzów danych do tworzenia i uruchamiania modeli AI training. Jednostki GPU NVIDIA są uważane za jedne z najszybszych w historii, a SpeechBrain postanowił skorzystać z procesorów graficznych NVIDIA Tesla® V100, NVIDIA Tensor Core A100 GPU oraz NVIDIA Tensor Core H100 GPU, aby spełnić specyficzne wymagania dotyczące trenowania AI. Jednostki GPU są wirtualne i dostępne jako instancje chmurowe w Public Cloud od OVHcloud, co eliminuje konieczność zakupu fizycznego sprzętu.
Tesla V100 zapewnia wydajność 100 CPU na jednym GPU, co czyni go jednym z najwydajniejszych procesorów graficznych na rynku. Oferuje 30 razy wyższą inferencję i 47 razy większą przepustowość niż pojedynczy CPU, co skraca czas treningu AI z kilku tygodni do kilku dni. Dzięki tym parametrom, SpeechBrain zwiększył wydajność treningu i skrócił czas wprowadzenia produktu na rynek.
Procesor graficzny Tensor Core A100 GPU zapewnił dodatkową wydajność dzięki trenowaniu AI w największych modelach ze znacznie większą szybkością, która może wzrosnąć do trzech razy. Usługa ta pozwala na korzystanie z wielu sieci na tym samym GPU oraz na ich podzielenie na kilka instancji, w celu zaspokojenia dynamicznych potrzeb. Model A100 oferuje również zwiększoną pojemność pamięci i inferencję AI wyższą 249 razy w porównaniu z procesorami, dzięki czemu jest idealny do uruchamiania wielkoskalowych modeli rozpoznawania mowy SpeechBrain.
Aby poradzić sobie z najbardziej złożonymi obliczeniami, SpeechBrain wykorzystał również GPU Tensor Core H100, który trzydziestokrotnie przyspiesza trening dużych modeli językowych i zawiera silnik Transformer do rozwiązywania modeli o bilionach parametrów. Te funkcje zapewniły moc i szybkość niezbędne do łatwego trenowania złożonych modeli SpeechBrain.
Aby przeprowadzić trening, SpeechBrain wykorzystał rozwiązanie AI Training od OVHcloud. Zbudowane na Public Cloud i oparte na open-source’owej platformie Kubernetes narzędzie to umożliwia uruchomienie zadania szkoleniowego w ciągu kilku sekund i jest kompatybilne z open source'owymi bibliotekami machine learning, takimi jak PyTorch, TensorFlow czy Scikit-learn. Deweloperzy mogą również uruchamiać projekty za pomocą wstępnie skonfigurowanych notebooków Jupyter i preinstalowanych obrazów Docker. AI Training optymalizuje również alokację zasobów GPU i pozwala na wykonywanie wielu zadań jednocześnie. Dzięki temu deweloperzy mogą skoncentrować się na trenowaniu modeli AI bez konieczności zajmowania się złożonymi zadaniami inżynieryjnymi.
Korzyści
Szybkość, wydajność i narzędzia niezbędne do tworzenia modeli konwersacyjnych AI w dużej skali umożliwią współpracę z OVHcloud przy użyciu oprogramowania SpeechBrain.
Dzięki GPU NVIDIA i AI Training firma SpeechBrain przyspieszyła trenowanie modeli AI, a jednocześnie obsłużyła rosnącą ilość danych. Ponieważ wszystkie te rozwiązania były hostowane w chmurze publicznej, SpeechBrain mógł skorzystać ze skalowalnej i niezawodnej infrastruktury chmurowej, która oferuje gwarancję poziomu usług (SLA) na poziomie 99,99% i jest zbudowana w wielu centrach danych, aby zapewnić wysoką dostępność. Dzięki temu procesory graficzne SpeechBrain były do dyspozycji zawsze, gdy były potrzebne. Public Cloud zapewnia również przejrzyste ceny i możliwość monitorowania kosztów w Panelu klienta, co pozwala SpeechBrain na skuteczną kontrolę kosztów.
Dzięki rozwiązaniom opartym na licencjach open source i wieloletniemu funkcjonowaniu jako członek sieci Open Invention Network (OIN), OVHcloud była naturalnym wyborem dla SpeechBrain, kierującego się wartościami otwartości i transparentności. Obie strony planują kontynuować współpracę, aby zwiększyć dostępność konwersacyjnej sztucznej inteligencji dla szerszego grona odbiorców i wspierać innowacje w zakresie AI na całym świecie.
„Nasze najbardziej pozytywne doświadczenie dotyczyło dostępności zasobów obliczeniowych, zwłaszcza GPU. Były zawsze do dyspozycji, nawet gdy potrzebowaliśmy wielu jednoczesnych połączeń. Dodatkowo bardzo cenimy sobie wprowadzenie GPU H100, ponieważ znacznie przyspieszyły one nasz postęp".
Dr Mirco Ravanelli, twórca SpeechBrain