Jak start-up deep tech trenuje modele AI, korzystając z rozwiązań OVHcloud
OVHcloud & Customs Bridge


24 000 kategorii produktów

do 2,5 TB danych i modeli machine learning

Baza danych składająca się z 250 000 wierszy
W skrócie
Customs Bridge to założony w październiku 2020 r. start-up deep tech, który wykorzystuje algorytmy sztucznej inteligencji do budowy silnika umożliwiającego automatyczną klasyfikację produktów. Swoją usługę kieruje do europejskich importerów, ponieważ każdy produkt przywożony do Unii Europejskiej musi zostać zaklasyfikowany zgodnie z nomenklaturą obejmującą ponad 24 000 pozycji. Importerzy mają często trudności z wyborem właściwej kategorii na podstawie dostarczonego przez producenta opisu. Zdarza się, że opis jest bardzo krótki lub niekompletny. Wszystkie produkty importowane do Unii Europejskiej muszą być zgłoszone i opatrzone kodem, na podstawie którego obliczane są należności celne. Kod ten określa również przepisy, które mają zastosowanie do produktu. Nieprawidłowe przypisanie kodu może prowadzić do sankcji, wycofania artykułu z rynku lub błędów w naliczaniu podatku.
„Dzięki OVHcloud Startup Program bardzo szybko zaczęliśmy wykorzystywać usługi chmurowe do realizacji naszych projektów AI. Usługa OVHcloud AI Training pozwoliła nam wytrenować modele Machine Learning, czego nie byliśmy w stanie przeprowadzić przy użyciu naszych własnych maszyn zainstalowanych w lokalnej infrastrukturze”.
Dr Hamza Saouli, dyrektor ds. innowacji w Customs Bridge
Odpowiednie zaklasyfikowanie produktu bywa problematyczne z jeszcze jednej przyczyny. Otóż co do zasady kod powinien być jednolity w całej Unii Europejskiej, jednak w krajach pozaeuropejskich może się różnić - w zależności od tego, czy producent eksportuje swoje towary do Europy, USA czy Chin. Niuanse w opisie produktu mogą również spowodować zmianę kategorii, ponieważ pasek do zegarka nie jest klasyfikowany jako ten sam produkt, co bransoletka do zegarka.
Wyzwanie
Celem Customs Bridge jest stworzenie jak najbardziej niezawodnego mechanizmu klasyfikacji produktów umożliwiającego właściwe przyporządkowanie kodu do artykułu, którego opis nie został stworzony zgodnie z jednolitym wzorcem. Zadaniem mechanizmu będzie zatem interpretacja zarówno precyzyjnego opisu, na przykład produktów elektronicznych, jak również kilku słów kluczowych dotyczących produktów spożywczych. Mechanizm będzie musiał też poradzić sobie z bardzo różną ilością danych, w zależności od tego, czy jest to produkt często sprowadzany do Unii Europejskiej czy też nie.
„Aby wytrenować nasze modele sztucznej inteligencji, zaczęliśmy od wykorzystania danych dostępnych w Open Data, w szczególności bazy danych European Binding Tariff Information (EBTI) - wyjaśnia Hamza Saouli, dyrektor ds. innowacji w Customs Bridge. „Baza EBTI liczy 250 000 wierszy, ale obejmuje tylko 10-15% istniejącej nomenklatury. Rozpoczęliśmy trening kilku modeli machine learning w oparciu o to źródło danych i mamy już pierwsze pozytywne rezultaty. W przypadku produktów elektronicznych importowanych z Chin, które są na ogół dobrze opisane, trening okazał się skuteczny, jednak w przypadku produktów rzadziej importowanych nie udało się uzyskać w pełni satysfakcjonujących wyników ze względu na brak odpowiedniej ilości danych oraz ich niewystarczającą jakość”. Dzieje się tak, ponieważ dane europejskie są często znacznie mniej dostępne niż na przykład dane amerykańskich urzędów celnych.
W początkowej fazie projektu dyrektor ds. innowacji w Customs Bridge wykorzystał głównie najbardziej znane algorytmy AI, takie jak SVM i drzewa decyzyjne, ze względu na ich wydajność i szybkość działania. Jednak w związku ze wzrostem ilości danych wykorzystywanych do treningu ich użycie przestało być dobrym rozwiązaniem i Customs Bridge zastosował bardziej zaawansowane modele, takie jak sieci neuronowe (poprzez API Deep Learning Keras) oraz Transformers, czyli najnowocześniejsze algorytmy, jakie są obecnie stosowane do klasyfikacji semantycznej. Następnie Customs Bridge postanowił zwiększyć wydajność swoich modeli w procesie klasyfikacji, opierając się na wiedzy udostępnianej przez naukowców z dziedziny sztucznej inteligencji. Szybko jednak skonfrontował się z poważnym problemem: nie dysponował odpowiednią mocą obliczeniową umożliwiającą trenowanie modeli AI. Na starcie trzy komputery wyposażone w procesory graficzne wystarczyły do obsługi najprostszych modeli, infrastruktura ta szybko jednak osiągnęła granice swoich możliwości. Customs Bridge zaczął wówczas poszukiwać rozwiązania cloud, które spełniłoby potrzeby w zakresie dużej mocy obliczeniowej i pamięci RAM. Idealnym rozwiązaniem okazała się oferta AI & Machine Learning od OVHcloud.
„Początkowo myśleliśmy, że będziemy mogli trenować modele w oparciu o nasze własne maszyny wyposażone w GPU. Jednak w chwili gdy chcieliśmy rozpocząć skalowanie, rozwiązanie to okazało się niewystarczające. Nie dysponowaliśmy odpowiednią ilością pamięci RAM i przestrzeni dyskowej, co znacznie ograniczało możliwości uczenia się naszych modeli. Chmura stała się w związku z tym najlepszym rozwiązaniem, zarówno pod względem technicznym, jak i ekonomicznym”.
Dr Hamza Saouli, dyrektor ds. innowacji w Customs Bridge
Rozwiązanie
Customs Bridge wybrał rozwiązanie OVHcloud służące do uczenia modeli - AI Training, natomiast do ich wdrażania oraz obsługi przepływu danych wykorzystał instancje OVHcloud. „Stworzyliśmy system przepływu danych, który rozpoczyna się od zapytania klienta, przekazuje zapytanie do modelu, a następnie przetwarza otrzymaną od niego odpowiedź” - wyjaśnia Hamza Saouli. „Odpowiedź ta musi zostać odpowiednio przygotowana, zanim wyświetli ją klient. Przetwarzamy zatem dane wejściowe w postaci krótkich opisów importowanych produktów (zawierają one tylko od 3 do 5 słów i nie opisują w wystarczającym stopniu produktu), po czym przesyłamy je do chmury, aby wdrożony model zaproponował zestaw kodów celnych dla importera”.
W niedalekiej przyszłości opracowany przez nas system przepływu danych stanie się bardziej złożony. Pracujemy nad algorytmem, który będzie wzbogacał istniejący zestaw danych o nowe dane, co pozwoli zoptymalizować proces uczenia się modeli. W ten sposób, dzięki technikom automatycznego generowania tekstu, algorytm zwiększy początkową bazę danych z 200 000 - 300 000 wierszy do 3 - 4 milionów wierszy. Chmura jest w tym przypadku niezastąpiona, ponieważ trening modeli z wykorzystaniem tak dużych ilości danych jest po prostu niemożliwy w przypadku zastosowania konwencjonalnych komputerów.
„Dzięki zmianie trybu trenowania modeli AI z „on-premises” na OVHcloud AI Training zyskaliśmy elastyczność i wydajność, których nie udałoby się nam osiągnąć we własnym zakresie. Rozwiązanie jest bardzo proste w użyciu: możemy ustalić z wyprzedzeniem liczbę GPU i rozmiar pamięci RAM, jakich będziemy potrzebować w danej chwili i na potrzeby trenowania modeli w przyszłości. Jest to bardzo przydatne, gdyż ułatwia planowanie”.
Dr Hamza Saouli, dyrektor ds. innowacji w Customs Bridge
Jak wyjaśnia Hamza Saouli, zmiana rozwiązania on-premises na rozwiązanie chmurowe od OVHcloud nie spowodowała żadnych problemów w zakresie adaptacji. OVHcloud dostarcza gotowe do użycia kontenery dla głównych frameworków AI. Aby wdrożyć je na GPU w chmurze, wystarczy uruchomić odpowiednie zadanie. Ponadto od czerwca 2021 r. możliwe jest to również w przypadku kontenerów uruchamianych na CPU. Pozwala to na korzystanie z zasobów obliczeniowych w niższej cenie w przypadkach, kiedy nie wymagana jest moc dedykowanego GPU. Ta dywersyfikacja oferty „AI” została wdrożona przez OVHcloud w odpowiedzi na specyficzne zapotrzebowanie Customs Bridge.
Do treningu pierwszych modeli Transformers dyrektor ds. innowacji Customs Bridge wykorzystał około 2,5 TB danych. W przypadku modeli Machine Learning wolumeny danych są mniejsze - od 30 do 40 GB. „Dzięki udostępnionym przez OVHcloud jednostkom GPU NVidia V100 wytrenowanie modelu Transformers w zakresie 250 000 wierszy bazy danych zajmuje zaledwie trzydzieści minut. Niewątpliwym autem są również niskie koszty, ponieważ opłata za godzinę obliczeń wynosi około 1,75 EUR. Z tego właśnie powodu nie planujemy zakupu własnych maszyn, które realizowałyby obliczenia" - dodaje Hamza Saouli.
Równolegle do prac nad modelami AI Hamza Saouli prowadzi prace nad chatbotem, który będzie kontaktował się z klientami, aby uzyskać informacje na temat poszukiwanego produktu. W ramach tego projektu powstał model RASA, czyli open source’owa platforma dedykowana chatbotom, zbudowana w oparciu o instancje CPU od OVHcloud. Pierwsze wyniki uznano za bardzo obiecujące, a CustomsBridge prowadzi z firmą OVHcloud rozmowy na temat udostępnienia kontenera RASA w jej infrastrukturze AI, co jeszcze bardziej uprościłoby wdrożenie.

Korzyści
„Po kilku miesiącach korzystania z OVHcloud AI Training i wytrenowaniu wielu typów modeli AI, mogę stwierdzić, że nigdy nie doświadczyłem żadnych problemów z instalacją lub konfiguracją” - opowiada Hamza Saouli. „OVHcloud daje nam możliwość wyboru obrazu Docker, na którym uruchomiony zostaje proces uczenia. Jest to bardzo proste i skuteczne podejście. Użyłem kontenerów z dostępnymi obrazami do wdrożenia modeli Transformers i TensorFlow w projekcie opracowywania chatbota i działa to doskonale”.
Customs Bridge przygotowuje się już teraz do fazy skalowania swojego modelu na poziomie produkcyjnym, która to faza nastąpi po podpisaniu umów z pierwszymi klientami. „W chwili obecnej naszym najlepiej działającym modelem jest model klasyczny, który nie wymaga GPU do wdrożenia na dużą skalę” - wyjaśnia Hamza Saouli. „Kiedy w najbliższej przyszłości zaczniemy wykorzystywać większe zbiory danych, zwiększymy ich ilość o 100 do 1000 razy. Jednak nawet tak duża ilość danych nie będzie miała znaczenia, jeśli przewidzimy odpowiednią wydajność modelu. W tym właśnie celu potrzebujemy rozwiązania cloud. OVHcloud umożliwi nam zwiększenie wolumenów danych dzięki elastyczności skalowalnej infrastruktury. Nie musimy ograniczać się w rozwoju naszych modeli, po prostu będziemy eksperymentować - do momentu, kiedy ustalimy objętość potrzebną do uzyskania pożądanej dokładności obliczeń. To jest właśnie wolność, którą zyskujemy dzięki modelowi wdrażanemu w chmurze”.
Jeśli zajdzie taka potrzeba, Customs Bridge wykorzysta instancje GPU w produkcji i będzie mógł wówczas uruchomić swoje modele AI w ramach usługi OVHcloud ML Serving. „Usługa Data Processing od OVHcloud będzie dla nas również potencjalnie interesująca, kiedy będziemy mieli do przetworzenia jeszcze większe ilości danych. Dzięki dynamicznej alokacji zasobów płacimy tylko za rzeczywiste zużycie, co jest dla nas ogromnym atutem - podsumowuje Hamza Saouli, ekspert w dziedzinie sztucznej inteligencji.