Ein DeepTech-Unternehmen trainiert seine AI-Modelle bei OVHcloud
OVHcloud & Customs Bridge


24.000 Produktkategorien

Eine Datenbank von bis zu 2,5 TB mit 250.000 Zeilen an Trainingsdaten und Machine Learning-Modellen.

Datenbank mit 250.000 Datenzeilen
Zusammenfassung
Customs Bridge wurde im Oktober 2020 gegründet und ist ein Deep Tech-Unternehmen - ein Startup, dessen technologische Basis auf Algorithmen der Künstlichen Intelligenz beruht, um eine automatische Produktklassifizierung zu entwickeln. Das Startup richtet sich an europäische Importeure, denn jedes in die EU importierte Produkt muss gemäß einer Nomenklatur mit über 24.000 Einträgen eingereiht werden. Die Schwierigkeit für die Importeure besteht darin, den Gütern auf Grundlage der vom Hersteller vorgelegten Beschreibung die richtige Kategorie zuzuordnen. Eine solche Beschreibung fällt manchmal sehr knapp aus, wenn sie nicht sogar unvollständig ist. Alle in die Europäische Union eingeführten Waren sind nach einem Code anzumelden, anhand dessen die Zollabgaben berechnet werden. Dieser Code legt auch fest, welche Bestimmungen für das Produkt gelten. Jeder Fehler bei der Zuordnung kann zu Sanktionen, Marktrücknahmen und einer höheren Besteuerung führen.
„Wir haben vom OVHcloud Startup Programm profitiert und konnten so sehr schnell die Cloud-Dienste von OVHcloud für AI nutzen. Mit OVHcloud AI Training haben wir unsere Machine Learning-Modelle trainiert. Unsere eigenen Maschinen on premise waren dazu nicht geeignet.“
Dr. Hamza Saouli, Leiter für Innovation, Customs Bridge
Diese Einreihung kann kompliziert werden. Innerhalb der Europäischen Union muss der Code einheitlich sein; darüber hinaus können die Kategorien jedoch variieren, je nachdem, ob der Hersteller seine Produkte nach Europa, in die USA oder nach China exportiert. Details in der Produktbeschreibung können über die Kategorie entscheiden. Ein Uhrenarmband wird beispielsweise anders behandelt als eine Uhrenkette.
Die Herausforderung
Das Ziel von Customs Bridge: eine möglichst zuverlässige Produktklassifizierung zu entwickeln, die einem Produkt den richtigen Zollcode zuweist, obwohl die Produktbeschreibung keinen formalen Vorgaben entspricht. Im Fall von Elektrogeräten kann dies eine relativ präzise Beschreibung sein. Bei Lebensmitteln variiert die Genauigkeit und Fülle der Angaben manchmal sehr, je nachdem, ob das Produkt häufig in die Europäische Union eingeführt wird, oder nicht.
„Für das Training unserer Modelle mit Künstlicher Intelligenz haben wir zunächst öffentlich zugängliche Daten verwendet, insbesondere die EU-Datenbank European Binding Tariff Information (EBTI)“, berichtet Hamza Saouli, Leiter für Innovation bei Customs Bridge. „Diese Datenbank beinhaltet 250.000 Zeilen, deckt aber nur 10 bis 15% der gesamten Nomenklatur ab. Wir haben mehrere Modelle an dieser Datenquelle trainiert und erste aussagekräftige Ergebnisse zu einem Code oder einem Kapitel erzielt. Aus China importierte Elektronikprodukte sind im Allgemeinen detailliert beschrieben. Hier hat das Training der AI gute Ergebnisse hervorgebracht. Für seltener importierte Produkte stehen jedoch weniger Daten und auch nur in geringerer Qualität zur Verfügung. In diesen Fällen sind die Ergebnisse nicht aussagekräftig. Für die Modelle stehen oft nicht genügend Daten über selten importierte Waren zur Verfügung, da der Zugang zu europäischen Daten viel schwieriger ist, als beispielsweise zu denen des amerikanischen Zolls.
In den Anfangsphasen des Projekts verwendete der Leiter für Innovation von Customs Bridge hauptsächlich die AI-Algorithmen, die am bekanntesten für Effizienz und Geschwindigkeit sind, wie SVM und Entscheidungsbäume. Der Datensatz für das Training wuchs jedoch an, diese Algorithmen waren nun nicht mehr das Mittel der Wahl. Das AI-Team von Customs Bridge wandte sich daher fortgeschritteneren Modellen zu: neuronalen Netzwerken über die API von Deep Learning Keras und Transformer. Diese Algorithmen sind heute der letzte Stand der Technik für die semantischen Klassifizierung. Der Experte stützte sich anschließend auf wissenschaftliche Artikel von AI-Forschern, um die Leistung seiner Klassifikationsmodelle zu verbessern. Schnell stieß das Startup auf ein ernstes Problem: die verfügbare Verarbeitungskapazität, um AI-Modelle zu trainieren. Die drei vorhandenen PCs reichten mit ihren GPUs zwar aus, um die einfachsten Modelle zu trainieren. Schnell stieß diese Infrastruktur jedoch an ihre Grenzen, weshalb das Team von Customs Bridge eine Cloud-Lösung wählte. Diese Lösung eignet sich ideal, um die zeitweilig hohen Anforderungen an Rechenleistung und RAM-Kapazität zu erfüllen. Daher wurde Customs Bridge auf die Angebote zu AI & Machine Learning von OVHcloud aufmerksam.
„Erst dachten wir, dass wir unsere Modelle auf unseren eigenen Computern mit GPUs trainieren könnten. Als wir mehr Leistung brauchten, kamen wir damit aber nicht weiter. Uns fehlte es an RAM und Speicherplatz, um unserer Modelle zu trainieren. Technisch wie wirtschaftlich war die Cloud die optimale Lösung für uns.“
Dr. Hamza Saouli, Leiter für Innovation, Customs Bridge
Die Lösung
OVHcloud bietet eine ganze Reihe von AI-Funktionen an. Customs Bridge nutzt davon die Lösung für das Training von Modellen: AI Training. Parallel dazu verwendet das Startup Instanzen von OVHcloud, um seine Modelle in der Produktion einzusetzen und die Datenpipeline zu betreiben. „Wir haben eine Pipeline eingerichtet, die bei der Anfrage eines Kunden beginnt, diese dem Modell einspeist und dann die Antwort des Modells verarbeitet“, erklärt Hamza Saouli. „Die Antwort des Modells muss aufbereitet werden, bevor sie dem Kunden angezeigt wird. Zu Beginn des Prozesses verarbeiten wir die Beschreibungen der zu importierenden Produkte. Sie sind sehr kurz, nur 3 bis 5 Wörter, und beschreiben das Produkt nur unzureichend. Diese Beschreibungen werden dann in die Cloud hochgeladen und in das eingesetzte Modell gespeist. Das Modell schlägt dann dem Importeur eine Reihe von Zollcodes vor.“
In naher Zukunft wird diese Pipeline mit Sicherheit weiter verfeinert. Das Team arbeitet an einem „Texterweiterer“ - einem Algorithmus, der von einem vorhandenen Datensatz ausgeht und ihn anreichert, um das Training der Modelle zu optimieren. Durch Methoden der automatischen Texterzeugung erhöht der Algorithmus die ursprüngliche Datenbank von 200.000 bis 300.000 auf 3 bis 4 Millionen Zeilen. Auch hier ist die Cloud unersetzlich, denn das Training von Modellen mit solchen Datenmengen ist auf herkömmlichen PCs schlicht nicht möglich.
„Wir haben das Training der AI-Modelle von on premise auf OVHcloud AI Training umgestellt. Dadurch haben wir an Flexibilität und Leistung gewonnen, wie wir sie intern nicht erreicht hätten. Die Lösung ist einfach: Wir können im Voraus die Zahl der GPUs und die Menge an RAM festlegen, die wir für ein Training benötigen. Das ist sehr praktisch, wenn wir im Voraus wissen, welche Ressourcen wir brauchen.“
Dr. Hamza Saouli, Leiter für Innovation, Customs Bridge
Hamza Saouli berichtet von einem völlig problemlosen Übergang von den Rechenprozessen zu Trainingszwecken on premise auf die Cloud von OVHcloud. OVHcloud stellt einsatzbereite Container für die wichtigsten AI-Frameworks zur Verfügung. Sie werden dann auf einer GPU in der Cloud eingesetzt, in dem man einfach den entsprechenden Auftrag startet. Seit Juni 2021 besteht dieselbe Möglichkeit für auf CPU ausgeführte Container. Mit dieser Auswahl stehen Rechenressourcen zu einem noch günstigeren Preis für Training zur Verfügung, das nicht die Leistung einer dedizierten GPU erfordert. OVHcloud hat das AI-Angebot weiterentwickelt und dabei den Anforderungen von Customs Bridge Rechnung getragen.
Das Training der ersten Transformer-Modelle erfolgte auf einer Basis von etwa 2,5 TB Daten. Die Datenvolumen für Machine Learning-Modelle fallen geringer aus. Hier belaufen sich die Trainingsdaten auf etwa 30 bis 40 GB. „OVHcloud stellt NVidia V100 GPUs zur Verfügung, mit denen das Training eines Transformers anhand von 250.000 Zeilen nur eine Rechenleistung von etwa 30 Minuten in Anspruch nimmt. Das ist zum einen sehr schnell, zum anderen sind die Kosten bei einer Stunde Rechenleistung zu ca. 1,75 € wirklich niedrig. Deshalb planen wir auch keinerlei Anschaffungen von Maschinen, um diese Berechnungen intern durchzuführen“, fügt der Experte hinzu.
Außer der Arbeit an AI-Modellen arbeitet Hamza Saouli an einem Chatbot. Er soll mit Kunden interagieren und erfahren, welches Produkt sie suchen. Er hat bereits ein RASA-Modell trainiert, eine Open-Source-Plattform für Chatbots auf CPU-Instanzen von OVHcloud. Die ersten Ergebnisse waren vielversprechend. Der Experte hofft nun, dass OVHcloud bald einen RASA-Container in seiner AI-Infrastruktur zur Verfügung stellt, um die Umsetzung noch unkomplizierter zu gestalten.

Das Ergebnis
„Ich habe OVHcloud AI Training nun mehrere Monate genutzt und verschiedene Arten von AI-Modellen trainiert. Weder bei der Installation noch bei der Einstellung gab es Probleme“, freut sich Hamza Saouli. „Bei OVHcloud können wir das Docker-Image auswählen, auf dem das Training stattfinden wird. Das ist ein ebenso einfacher wie effizienter Ansatz. Ich habe diese Container für Transformer- und Tensorflow-Modelle für einen ChatBot verwendet. Mit den verfügbaren Images funktioniert das perfekt.“
Neben dem Training seiner Modelle, was üblicherweise viel Speicher- und Rechenleistung erfordert, wendet sich Customs Bridge nun der Skalierbarkeit seines Modells auf der Produktionsebene zu für die Zeit, wenn das Startup seine ersten Kunden gewinnt. „Derzeit ist unser leistungsstärkstes Modell ein klassisches, das keine GPUs benötigt, um in der Produktion eingesetzt zu werden“, erklärt Hamza Saouli. „Bald werden wir größere Datensätze verwenden und die Datenmengen in naher Zukunft um den Faktor 100 bis 1000 erhöhen. Der Faktor ist nicht wichtig. Alles hängt davon ab, wie geeignet das Modell ist. Darin liegt der Sinn des Cloud-Ansatzes: OVHcloud ermöglicht es uns, die Datenmengen zu steigern - frei von Einschränkungen seitens der Infrastruktur. Unseren Modellen sind keine Grenzen gesetzt. Wir werden weiter experimentieren, bis wir das notwendige Volumen für die gewünschte Genauigkeit erreichen. Diese Freiheit bietet uns die Cloud.“
Bei Bedarf wird Customs Bridge bei der Produktion also GPU-Instanzen verwenden. Das Startup kann in diesem Fall seine AI-Modelle auf dem ML Serving-Dienst von OVHcloud ausführen. „Auch die Lösung Data Processing von OVHcloud kann für uns interessant werden, wenn wir noch größere Datenmengen verarbeiten müssen, bevor unsere Modelle zum Einsatz kommen. Dank der dynamischen Zuweisung von Ressourcen zahlen wir nur für das, was wir tatsächlich nutzen - ein weiterer Vorteil für Customs Bridge“, so der Experte für Künstliche Intelligenz.