Header picture SYSTRAN
Clock icon

über 30.000 Stunden
Computing auf 
Nvidia Tesla V100 GPUs

Storage icon

50.000 Modelle 
zwischengespeichert im
Object Storage
für ein Volumen von 30 TB

Translation icon

Eine Übersetzungskapazität 
von 5 Milliarden Wörtern 
am Tag

Zusammenfassung

Das Unternehmen, das 2018 sein 50-jähriges Bestehen feierte, bietet professionelle Lösungen für maschinelles Übersetzen an.

Die Lösungen sind für mehr als 140 Sprachenpaare verfügbar, wodurch SYSTRAN sich den unterschiedlichen Kontexten seiner Kunden perfekt anpassen kann. Zahlreiche internationale Unternehmen, öffentliche Organisationen und Übersetzungsdienstleister nutzen die von SYSTRAN angebotenen Technologien.

Seit seiner Gründung ist das Unternehmen Vorreiter im Bereich der maschinellen Sprachverarbeitung. Ende 2016 tat sich SYSTRAN erneut als Pionier der Branche hervor und präsentierte die erste Unternehmenslösung für neuronale maschinelle Übersetzung. Sie basiert auf den jüngsten Fortschritten im Bereich Deep Learning und ist darauf ausgelegt, die Qualität der Sofortübersetzung zu verbessern.

Das Unternehmen war einer der ersten OVHcloud Kunden und begann bereits 2018 mit OVHcloud zusammenzuarbeiten, um die Plattform SYSTRAN Marketplace zu entwickeln. Über diese Community-Plattform werden die besten Übersetzungsmodelle auf dem Markt angeboten, die von mehrsprachigen Experten aus verschiedenen Fachbereichen trainiert wurden. Die Modelle sind über professionelle Übersetzungstools in einer On-Premise-Umgebung oder in der Cloud verfügbar und werden in das Informationssystem des Kunden integriert.

Das stellt eine große Herausforderung dar, die SYSTRAN mithilfe eines Community-basierten Ansatzes überwindet, der auf vier Säulen basiert: Technologie, Daten, menschliche Expertise und Infrastruktur. Dies ermöglicht es, eine offene, zuverlässige, hochverfügbare und für das Web skalierte Lösung anzubieten.

Die Herausforderung

Seit 2016 hat sich die maschinelle Übersetzung extrem schnell weiterentwickelt. Die neuronale maschinelle Übersetzung (NMT) – ein Verfahren, das sich aus der Forschung im Bereich der Künstlichen Intelligenz und insbesondere des Deep Learning heraus entwickelt hat – ist zum Standard geworden und kann somit als Nachfolger der statistischen maschinellen Übersetzung (SMT) bezeichnet werden. Letztere basierte hauptsächlich auf Big Data sowie auf Angaben von Sprachexperten zu Regeln, nach denen die unterschiedlichen Sprachen funktionieren.

Tiefgreifende Änderungen haben diesen Wandel begleitet. Auf technologischer Ebene entwickeln sich die erforderlichen Algorithmen ständig weiter und werden direkt aus riesigen öffentlichen und privaten Forschungslaboren zur Verfügung gestellt. Als Ergebnis des neuronalen Ansatzes wurde ein allgemeiner Open-Source-Standard entwickelt und durchgesetzt. Dies bedeutet, dass reproduzierbare wissenschaftliche Fortschritte erzielt werden können und die industrielle Entwicklung fast sofort erfolgen kann.

Die erforderliche Datenmenge ist zwar geringer als zuvor, entscheidend aber ist die Qualität der Daten, da die neuronalen Modelle versuchen werden, jede auffallende "Unregelmäßigkeit" als Sprachregel zu interpretieren. Bei Big Data wird leicht vergessen, dass die Informationen, die für das Training der Übersetzungsmodelle verwendet werden, aus der Feder von menschlichen Übersetzern kommen. Doch selbst wenn diese Daten online verfügbar sind, unterliegen sie immer noch dem Urheberrecht. Außerdem hängt die Qualität eines Modells direkt von den Investitionen in diese Daten ab, sodass eine perfekte Rückverfolgbarkeit ein Muss ist. Ohne diese Detailgenauigkeit wäre es riskant, Übersetzungsmodellen zu vertrauen, weil sie durch ihre Quelldaten verzerrt sein könnten.

Die menschliche Expertise, die während der Ära der statistischen Übersetzung eher vernachlässigt wurde, ist heute wichtiger als je zuvor. Die Algorithmen sind zwar sehr leistungsfähig, dennoch müssen sie von Sprachspezialisten aus verschiedenen Bereichen überwacht werden.

Schließlich hat der neuronale Ansatz die Anforderungen an die Infrastruktur für das Computing drastisch verändert. Wie bei jedem Algorithmus für Deep Learning sind während der Trainingsphase für Modelle spezielle Grafikkarten (GPUs) erforderlich. Andererseits benötigen die Algorithmen in der Inferenzphase, d.h. bei der Verwendung von Modellen in der Produktion, Server, die für das Computing optimiert sind, aber im Vergleich zu früheren Generationen ein relativ geringes Speichervolumen aufweisen. Für einen verbesserten Schutz der Nutzerrechte haben sich ebenfalls die Bestimmungen geändert, was insbesondere für Infrastrukturen, die Dienste zur Übersetzung vertraulicher Daten hosten, beachtet werden muss.

Abgesehen von der scheinbaren Einfachheit dieser Änderungen – die sich oft durch die Performance bei sehr begrenzten Anwendungsfällen zeigt – sind grundlegende Änderungen erforderlich, um eine groß angelegte Produktionskette zu liefern, die zuverlässig und transparent sowie in der Lage ist, die beste Qualität für jede Branche zu liefern. Das Grundprinzip dieses Ansatzes besteht darin, die Expertise der heutigen Akteure anzuerkennen und sie miteinander zu verbinden, um exzellente Lösungen zu entwickeln.

SYSTRAN begann 2016 durch die Mitbegründung von OpenNMT, einem Framework für neuronale Übersetzungsalgorithmen, in Open-Source-Technologien zu investieren. Diese Technologie ist heute die beliebteste und aktivste der Branche. Sie wird von Tausenden Forschern und Branchenexperten genutzt, die das Framework täglich mit ihren Beiträgen füttern. Mit diesem hochmodernen Software-Baustein haben die F&E-Teams von SYSTRAN umfassende Übersetzungslösungen entwickelt, die speziell für Endbenutzer konzipiert sind. Schließlich hat das Unternehmen die Plattform SYSTRAN Marketplace entwickelt, über die mehrere Dienste zur Verfügung stehen. Über sie kann eine Community von Experten qualitativ hochwertige Modelle erstellen und austauschen. Für ihre Beiträge werden sie dabei direkt bezahlt.

SYSTRAN erkannte schnell, dass es für den Aufbau dieser Plattform eine flexible, robuste und anpassungsfähige Infrastruktur benötigt. Sie musste die Rechenleistung bieten, die für das Training neuronaler Netze erforderlich ist. Zudem musste die Umgebung skalierbar sein, um die Modelle in die Produktion einzuführen, auf sich ändernde Anforderungen zu reagieren und dem verantwortungsbewussten Ethos dieses gemeinschaftlichen Ansatzes treu zu bleiben – und das alles zu einem wettbewerbsfähigen Preis.

Die Lösung

Eine offene, sichere und verantwortungsvolle Plattform, die sich perfekt für Deep Learning eignet

„Wir haben uns schnell für OVHcloud als Partner für die Technik, also das Hosting und den Betrieb unseres Marketplace, entschieden. OVHclouds DNA entspricht genau dem Geist, mit dem wir die Plattform betreiben. Für unsere Anforderungen in Bezug auf Flexibilität und Leistung kam nur das Public Cloud Angebot in Frage.“

Jean Senellart, CEO, SYSTRAN

Eine technische Lösung, die Leistung, Flexibilität und Vorhersehbarkeit kombiniert

SYSTRAN hat sich für eine Public Cloud Lösung entschieden, um sein Projekt bestmöglich durchführen zu können. Bei Public Cloud Lösungen ist ein Überblick über die Gesamtkosten gegeben und Nutzer haben Zugang zu einer breiten Palette von Servern und Diensten. Außerdem bieten sie die erforderliche Flexibilität, um neuronale Modelle auf Anfrage zu trainieren und haben keine Probleme mit unterschiedlich großen Übersetzungsvolumen, die sich mit der Zeit ändern.

SYSTRAN Model Studio ist eine von SYSTRAN entwickelte einzigartige Lösung, um Sprach- und Fachexperten die Möglichkeit zu geben, Übersetzungsmodelle selbst zu trainieren. Die Lösung erfordert einen On-Demand-Zugriff auf die leistungsfähigsten Grafikkarten (GPU) auf dem Markt. Eine sofortige Verfügbarkeit von Recheninstanzen war hier nicht die Schwierigkeit, da das Training für neuronale Modelle auf Zyklen von wenigen Stunden bis zu einer Woche basiert.

Model Studio ist ein Task-Orchestrator, der eine Folge von Iterationen verwalten kann, die einem bestimmten Training entsprechen. Er greift auf Nova API von OpenStack (Anleitung auf Französisch) zurück, um Recheninstanzen dynamisch starten zu können.

Das Schaubild zeigt, wie wesentlich die Zuverlässigkeit der Instanzen ist. Wenn eine Iteration fehlschlägt, würde sie zum Ausfall des gesamten damit verbundenen Trainings führen, und es würden Tage an Rechenzeit verloren gehen.

Model Studio benötigt außerdem eine sehr hohe Speicherkapazität, da jede Trainingsiteration ein Netzwerk von archivierten, getesteten Neuronen ist. Ein Modell repräsentiert Milliarden von Parametern, d.h. mehrere Gigabyte, die über den in Containern organisierten OpenStack Swift Dienst im Object Storage gespeichert werden.

Schaubild 1 SYSTRAN

Diese Infrastruktur wurde innerhalb eines Jahres aufgebaut. In diesem Zeitraum konnten die Teams von SYSTRAN Hunderte von Modellen mit einem auf NVIDIA DGX-1-Servern basierenden Pool (mehr dazu in frz. Sprache) sowie ergänzende Public Cloud Pools auf der Basis von NVIDIA Tesla V100 GPU Instanzen trainieren. Die Plattform steht nun den „Trainern“ auf dem Markt zur Verfügung, sodass sie selbstständig ihre eigenen Modelle trainieren können.

Bei der Inferenz ist das Gegenteil das Problem. Der Dienst muss rund um die Uhr verfügbar sein und sich sofort an unterschiedlich hohe Anfragezahlen anpassen können, wobei für das Computing optimierte Instanzen verwendet werden müssen. Darüber hinaus muss jede Anfrage in wenigen Millisekunden verarbeitet werden. Dafür sind statische und dynamische Instanzen nötig.

Die Infrastruktur der SYSTRAN Translate Plattform besteht zunächst aus einem Loadbalancer. Er spielt eine entscheidende Rolle, da er die Lasten zwischen den verschiedenen Diensten, die in den  Rechenzentren gehostet werden, ausgleicht und die Anwendung vor DDoS-Angriffen schützt. Diese Ausrüstung stellt auch sicher, dass die Infrastruktur bei Lastspitzen skaliert wird. Schließlich garantiert sie eine hohe Verfügbarkeit des Dienstes und optimiert die Antwortzeiten.

Im Juli 2019 bestand die Infrastruktur aus 74 Public Cloud GPU Instanzen. Diese werden über das vRack, einer privaten Verbindung made in OVHcloud, gesichert.

Um die Infrastruktur noch besser auszubauen, fügten die Teams dem Dienst auch eine dynamische Komponente hinzu. Sie basiert auf Kubernetes und ermöglicht es den Teams, ihre Infrastruktur flexibel und sofort zu skalieren.

Die Infrastruktur wird von der verwalteten Metrics Data Platform überwacht (derzeit nur in Frankreich verfügbar). Diese Plattform überwacht die Komponenten in Echtzeit und gewährleistet außerdem schnelle Reaktionszeiten und Übersetzungsvolumen für alle Sprachenpaare und Modelle.

Schaubild 2 SYSTRAN

Eine auf offenen Standards basierende Plattform

Die Entwicklung der gesamten Infrastruktur des Marketplaces wurde dank der OVHcloud Dienste wesentlich leichter. Sie verfügen alle über Open-Source-APIs und dies garantiert, dass die Entwicklungsteams sie schnell einsetzen können.

„Durch die Entscheidung, in Open-Source-Lösungen zu investieren, profitieren einerseits Endnutzer von den besten auf dem Markt verfügbaren Technologien und andererseits die Entwickler genauso wie die Marketplace-Community, die dann nicht an proprietäre Technologien gebunden sind.“

Yannick Douzant, Head of Product, SYSTRAN

SYSTRAN entwickelt und verwaltet den gesamten neuronalen Übersetzungscode im OpenNMT-Projekt. OVHcloud hat sich für eine Reihe offener Standards für seine Public Cloud entschieden. Für beide Unternehmen gehört dieser Open-Source-Ansatz, der außerdem sehr benutzerfreundlich ist, zur gemeinsamen Philosophie im Bereich der Softwareentwicklung.

Eine verantwortungsvolle Herangehensweise

„Das Engagement für die Umwelt von OVHcloud bei der Konzeption von Servern war ein ausschlaggebendes Kriterium für unsere Marketplace-Infrastruktur. Außerdem betreibt OVHcloud ein System ausschließlich mit Wasserkühlung, erzeugt grüne Energie und recycelt die Komponenten nach Ablauf des Lebenszyklus der Hardware.“

Jean Senellart, CEO, SYSTRAN

Die Daten sind geschützt und bleiben in Europa, um die Einhaltung der Datenschutzgrundverordnung (DSGVO) gewährleisten zu können.

Das Ergebnis

Mit der verwendeten Technologie und der Unterstützung durch die OVHcloud Experten dauerte es nur zwei Wochen, bis die technischen Teams von SYSTRAN den SYSTRAN Translate Service eingerichtet und online gestellt hatten.

Nur fünf Monate nach seinem Start übersetzten mit dem Dienst bereits mehr als 1 Million Nutzer aus 190 Ländern Milliarden von Wörtern. Er ist in Europa sehr beliebt – insbesondere in Frankreich, Großbritannien, Belgien und Deutschland.

Der automatische Übersetzungsdienst arbeitet in mehr als 40 Sprachen und bietet 400 Übersetzungsmodelle an. In einem Jahr sollen bis 5.000 Modelle durch eine wachsende Community von Experten entstehen.

Und das ist erst der Anfang, denn SYSTRAN Translate stellt nur den ersten Baustein einer neuen Lösung dar, die sich an Fachübersetzer richtet: SYSTRAN Marketplace. Diese Plattform soll den größten Katalog an spezialisierten Modellen mit der größten Bandbreite an Übersetzungslösungen anbieten, die entweder vor Ort oder in der Cloud, privat oder öffentlich, eingesetzt werden können. Sie ist so konzipiert, dass sie auf alle Arten von Bedürfnissen und Volumina mit dem gleichen Qualitätsniveau reagieren kann.