Clock icon

+ 30 000 godzin 
obliczeń na procesorach 
GPU NVIDIA Tesla V100

Storage icon

50 000 modeli 
pośrednich przechowywanych
w Object Storage
o wielkości 30 TB

Translation icon

Nawet do 
5 miliardów przetłumaczonych słów 
dziennie

W skrócie

SYSTRAN to producent profesjonalnych rozwiązań do tłumaczenia maszynowego, który w 2018 roku obchodził swoje 50 urodziny.

Mając w ofercie tłumaczenia w 140 parach językowych, usługi SYSTRAN dostosowane są do specyficznych potrzeb każdego klienta. Korzystają z nich liczne międzynarodowe przedsiębiorstwa, organizacje publiczne i agencje tłumaczeniowe.

Od momentu powstania, SYSTRAN niezmiennie pełnił rolę pioniera w dziedzinie automatycznego przetwarzania języków. Pod koniec 2016 r. firma po raz kolejny znalazła się w gronie prekursorów, wprowadzając na rynek pierwsze profesjonalne narzędzie do tłumaczeń opartych na modelach neuronowych. Wykorzystuje ono najnowsze osiągnięcia technologii deep learning, aby podnieść jakość wykonywanych tłumaczeń online.

Jako jeden z pierwszych klientów OVHcloud, firma SYSTRAN w roku 2018 ponownie podjęła współpracę z dostawcą rozwiązań chmurowych, opracowując ofertę o nazwie SYSTRAN Marketplace. Jest to platforma społecznościowa pozwalająca na proponowanie najlepszych dostępnych na rynku modeli tłumaczeniowych, wypracowanych przez wielojęzycznych specjalistów z różnych dziedzin. Modele te, dostępne za pośrednictwem profesjonalnych narzędzi wspomagających tłumaczenia hostowanych w chmurze lub w lokalnych infrastrukturach, są integrowane z systemem informacyjnym klienta.

Aby sprostać temu zadaniu, przedsiębiorstwo SYSTRAN wybrało podejście społecznościowe oparte na czterech filarach: technologia, dane, wiedza i doświadczenie profesjonalistów oraz infrastruktura. Proponowane rozwiązanie jest otwarte, odpowiedzialne, skalowalne w sieci i wysoko dostępne.

Wyzwanie

Od 2016 r. sektor tłumaczeń maszynowych przeszedł znaczącą ewolucję. Technologia neuronowego tłumaczenia maszynowego, która rozwinęła się dzięki badaniom nad sztuczną inteligencją, a w szczególności rozwojowi deep learningu, powoli stała się podejściem standardowym. Zastąpiła ona dominujące wcześniej rozwiązania typu statystycznego, które opierały się głównie na big data oraz na reprezentacji reguł rządzących językiem w takiej formie, w jakiej zostały one zdefiniowane przez ekspertów.

Pojawienie się nowego podejścia przyniosło szeroko zakrojone zmiany. Z punktu widzenia technologii mamy do czynienia z nieustanną ewolucją algorytmów stanowiących owoc pracy prywatnych oraz publicznych renomowanych laboratoriów badawczych. Podejście neuronowe pozwoliło na rozwinięcie się na szeroką skalę systemów open source, umożliwiając tym samym rozpowszechnienie odtwarzalnych modeli naukowych oraz prawie natychmiastowe wdrożenie ich na skalę przemysłową.

Podczas gdy ilość niezbędnych danych jest mniejsza niż dawniej, ich jakość odgrywa kluczową rolę, zważywszy na fakt, iż modele neuronowe będą próbowały interpretować najdrobniejsze „zakłócenia” jako językową regułę. Mając na co dzień do czynienia z big data, zapominamy, że informacje wykorzystywane do trenowania modeli tłumaczeniowych są generowane przez ludzkich tłumaczy. Dlatego też, chociaż dane te dostępne są online, to są one chronione prawami autorskimi. A ponieważ jakość danego modelu wiąże się bezpośrednio z inwestycją w te właśnie dane, konieczne jest wdrożenie procedur ich kompletnego śledzenia. Bez tego rygorystycznego podejścia zaufanie modelom tłumaczeniowym byłoby niebezpieczne, gdyż mogłyby one zostać „wprowadzone w błąd” przez informacje źródłowe.

Wiedza specjalistyczna i doświadczenie tłumaczy, odstawione na bok w czasach zdominowanych przez modele statystyczne, również zyskują na wartości. Pomimo tego, że algorytmy są wyjątkowo wydajne, muszą pozostawać pod nadzorem specjalistów od języka i ekspertów w różnych dziedzinach.

Nurt wykorzystujący model sieci neuronowej spowodował również istotne zmiany na poziomie potrzeb infrastruktury obliczeniowej. Podczas fazy trenowania modeli, tak samo jak w przypadku każdego algorytmu deep learning, konieczne jest zastosowanie specjalnych kart graficznych (GPU). Natomiast w fazie inferencji, tzn. wykorzystania modeli produkcyjnych, algorytmy potrzebują serwerów zoptymalizowanych pod kątem operacji obliczeniowych oraz względnie niewiele pamięci w porównaniu z wcześniejszymi generacjami. Wprowadzone w ostatnich latach zmiany w przepisach, mające zagwarantować skuteczniejszą ochronę praw użytkownika, są również istotne, gdyż nakładają wymóg zachowania szczególnej ostrożności w przypadku infrastruktur hostujących narzędzia tłumaczące dane poufne.

Poza pozorną prostotą związaną z każdą z tych zmian - często ilustrowaną przykładami wydajności dla bardzo zawężonych zastosowań - konieczne są fundamentalne przemiany mające na celu udoskonalenie produkcji tłumaczeń na dużą skalę, w sposób odpowiedzialny, transparenty i jak najlepszej jakości dla każdego sektora. Główna zasada tego podejścia polega na zidentyfikowaniu obecnych na rynku ekspertów w poszczególnych dziedzinach i włączeniu ich w projekt w celu osiągnięcia jak najlepszych rezultatów.

Ze swojej strony firma SYSTRAN zainwestowała w pierwszej kolejności w oprogramowanie open source, współtworząc w roku 2016 OpenNMT, framework z algorytmami tłumaczeń neuronowych. Technologia ta, obecnie najpopularniejsza i szeroko stosowana w sektorze tłumaczeń specjalistycznych, wykorzystywana jest przez tysiące naukowców i producentów przemysłowych, którzy codziennie wzbogacają ją, wnosząc swój wkład. Dzięki temu wysoko zaawansowanemu modułowi programowemu zespoły R&D firmy SYSTRAN stworzyły następnie kompletne rozwiązania do tłumaczenia, przeznaczone dla użytkownika końcowego. Wreszcie, producent opracował platformę typu marketplace, na którą składa się kilka usług, i która umożliwia społeczności specjalistów tworzenie i udostępnianie wysokiej jakości modeli, oferując im jednocześnie wynagrodzenie za wniesiony wkład.

Projekt zbudowania takiej platformy wiązał się z koniecznością znalezienia elastycznej, solidnej i łatwej w adaptacji infrastruktury. Takiej, która oferuje odpowiednio wysoką moc obliczeniową, potrzebną do trenowania narzędzi neuronowych. Środowisko powinno być również skalowalne, aby wdrażać modele produkcyjnie, odpowiadać na wzrost zapotrzebowania oraz pozostać wiernym zasadzie odpowiedzialności, jaka przyświeca temu społecznościowemu podejściu. A wszystko to z zachowaniem bardzo przystępnej ceny.

Rozwiązanie

Platforma otwarta, bezpieczna i odpowiedzialna, w pełni dostosowana do potrzeb technologii deep learning

„Wybór OVHcloud jako technologicznego partnera do hostingu i eksploatacji platformy marketplace dość szybko stał się dla nas oczywisty. Już samo DNA OVHcloud bliskie było wartościom leżącym u podstaw naszej platformy. Nasze wymagania w kwestiach elastyczności oraz mocy obliczeniowej sprawiły, że postawiliśmy na ofertę Public Cloud.”

Jean Senellart, Dyrektor Generalny SYSTRAN

Rozwiązanie techniczne łączące dużą moc obliczeniową, elastyczność oraz przewidywalność kosztów

Aby móc zrealizować projekt zgodnie z przyjętymi założeniami, firma SYSTRAN wybrała rozwiązanie Public Cloud. Daje ono pełną kontrolę nad kosztami oraz dostęp do szerokiej gamy serwerów i usług. Oferuje również elastyczność konieczną do trenowania modeli neuronowych na żądanie oraz do zarządzania zmiennymi wolumenami tłumaczeń.

SYSTRAN Model Studio – jedyne w swoim rodzaju rozwiązanie opracowane przez SYSTRAN, umożliwiające językoznawcom i ekspertom z poszczególnych dziedzin trenowanie ich własnych modeli tłumaczeniowych - wymaga dostępu na żądanie do najbardziej wydajnych procesorów graficznych (GPU), jakie istnieją na rynku. Natychmiastowa dostępność instancji obliczeniowych nie jest wymagana, gdyż trenowanie modeli neuronowych opiera się na cyklach wynoszących od kilku godzin do jednego tygodnia.

Model Studio zajmuje się orkiestracją poszczególnych zadań i zarządza sekwencją iteracji odpowiadających poszczególnemu modelowi treningowemu. Rozwiązanie korzysta z interfejsu API Nova platformy OpenStack do dynamicznego uruchamiania instancji obliczeniowych.

W tym schemacie niezawodność instancji jest kluczowa. Niepowodzenie iteracji spowodowałoby załamanie się powiązanego z nią treningu oraz utratę trwających wiele dni obliczeń.

Model Studio potrzebuje również olbrzymiej przestrzeni dyskowej, gdyż każda iteracja treningowa to sieć neuronowa, która jest archiwizowana i testowana. Nie zapominajmy, że na pojedynczy model składają się miliardy parametrów, czyli kilka gigabajtów przechowywanych na Object Storage za pośrednictwem zorganizowanej w kontenery usługi Swift platformy OpenStack.

Diagram 1 SYSTRAN

Infrastruktura ta została opracowana w ciągu jednego roku. W tym czasie zespoły SYSTRAN przetrenowały setki modeli przy pomocy zakresu bazującego na serwerach NVIDIA DGX-1, jak również dodatkowych puli Public Cloud wykorzystujących instancje GPU NVIDIA Tesla V100. Platforma jest aktualnie oddana do dyspozycji „trenerów” marketplace, którzy w pełni samodzielnie mogą tworzyć na niej własne modele.

Jeśli chodzi o fazę interferencji, mamy tutaj do czynienia z problematyką odwrotną. Usługa musi być dostępna 24/24 i być w stanie dostosować się do objętości zapytań w danym czasie t, wykorzystując jednocześnie zoptymalizowane pod kątem obliczeń instancje. Każde zapytanie musi być przetworzone w ciągu kilku milisekund i potrzebuje zarówno instancji statycznych, jak i dynamicznych.

Punkt wejściowy infrastruktury platformy SYSTRAN Translate stanowi load balancer. Jego znaczenie jest kluczowe, gdyż rozdziela on obciążenie pomiędzy poszczególne usługi hostowane w centrach danych i chroni aplikację przed atakami DDoS. Również dzięki temu mechanizmowi infrastruktura jest odpowiednio skalowana w momentach nasilenia ruchu. Pozwala on na zagwarantowanie wysokiej dostępności usługi i optymizację czasu odpowiedzi.

W lipcu 2019 na infrastrukturę składały się 74 instancje Public Cloud GPU. Za bezpieczeństwo infrastruktury odpowiada usługa vRack - opracowana przez OVHcloud technologia pozwalająca na połączenie kilku prywatnych sieci.

Aby pójść jeszcze dalej, zespoły dodały do usługi element dynamiczny. Jest on oparty na platformie Kubernetes, która pozwala połączyć natychmiastową dyspozycyjność z elastycznym skalowaniem infrastruktury.

Ta z kolei jest monitorowana przez platformę zarządzaną o nazwie Metrics Data Platform (dostępna tylko we Francji). Dzięki niej można śledzić w czasie rzeczywistym każdy z elementów, ale również czasy odpowiedzi i wolumeny tłumaczeń w odniesieniu do wszystkich par językowych i dla wszystkich modeli.

Diagram 2 SYSTRAN

Platforma oparta na otwartych standardach

Rozwój całej infrastruktury marketplace był w ogromnej mierze ułatwiony dzięki usługom OVHcloud. Ponieważ każda z usług dostarczanych przez OVHcloud wyposażona jest w open source’owy interfejs API, zespoły programistów mogły wdrożyć je niemal natychmiast.

„Wybór i inwestycja w rozwiązania typu open source są korzystne zarówno dla użytkowników końcowych, jak i dla programistów i kontrybutorów platformy marketplace: pierwszym oferują możliwość obcowania z najlepszymi dostępnymi na rynku osiągnięciami technologii, podczas gdy drudzy unikają dzięki niej ryzyka uzależnienia się od pojedynczego dostawcy oprogramowania.”

Yannick Douzant, Dyrektor odpowiedzialny za dział produktów i technologii w SYSTRAN

Dla firmy SYSTRAN, która rozwija i utrzymuje integralność kodu tłumaczenia neuronowego w ramach projektu OpenNMT, jak i dla OVHcloud, która stawia na otwarte standardy w usłudze Public Cloud, technologia open source, poza łatwością obsługi, stanowi istotny element filozofii rozwoju oprogramowań bliski obu firmom.

Odpowiedzialne podejście

„Odpowiedzialność ekologiczna OVHcloud w produkcji serwerów, wyposażenie ich w specjalny system chłodzenia cieczą (ang. watercooling), zaangażowanie w politykę kładącą nacisk na rozwój zielonej energii oraz recykling wyeksploatowanych komponentów - wszystkie te aspekty były istotne przy podejmowaniu decyzji odnośnie wyboru infrastruktury dla naszego marketplace.”

Jean Senellart, Dyrektor Generalny SYSTRAN

Jeżeli chodzi o dane, są one zabezpieczone i opatrzone gwarancją, że nie opuszczą terytorium Unii Europejskiej, zgodnie z wymogami nałożonymi przez ogólne rozporządzenie o ochronie danych (RODO).

Korzyści

Dzięki zastosowanej technologii oraz wsparciu, jakiego udzielił nam zespół ekspertów OVHcloud, w ciągu zaledwie dwóch tygodni ekipy techniczne SYSTRAN wdrożyły i udostępniły online usługę SYSTRAN Translate.

Już po pięciu miesiącach działania narzędzie umożliwiło ponad milionowi użytkowników ze 190 krajów przetłumaczenie miliardów słów. Platforma cieszy się dużą popularnością w Europie, a w szczególności we Francji, Wielkiej Brytanii, Belgii i w Niemczech.

Usługa tłumaczenia maszynowego jest dostępna w ponad 40 językach i dysponuje 400 modelami tłumaczeniowymi. Celem firmy w ciągu najbliższego roku jest zbudowanie 5 000 modeli we współpracy ze społecznością ekspertów, którzy uczestniczą w projekcie.

I to tylko początek, biorąc pod uwagę, że SYSTRAN Translate stanowi zaledwie pierwszy element nowej oferty dedykowanej profesjonalistom: SYSTRAN Marketplace. Ambicją SYSTRAN jest zaproponowanie jak najszerszego katalogu wyspecjalizowanych modeli wraz z rozbudowaną gamą rozwiązań do tłumaczenia maszynowego, wdrażanych lokalnie lub w chmurze, w trybie prywatnym, tudzież w modelu z dostępem publicznym. Aby odpowiedzieć na każdy rodzaj zapotrzebowania i w każdej ilości, gwarantując tak samo wysoką jakość usługi.