Aplim - Fallstudie
Aplim - Kosten halbiert

Kosten der ursprünglichen Infrastruktur
halbiert

Aplim - Infrastruktur verdoppelt

Umfang der Infrastruktur
verzehnfacht

Aplim - Nutzung verfünffacht

Zahl der Anwender
verfünffacht

Zusammenfassung

Das Unternehmen Aplim ist Teil des Konzerns Aplon und hat sich auf Verwaltungsprogramme für schulische Einrichtungen spezialisiert: vom Kindergarten bis zur Hochschule. Seine Kunden sind hauptsächlich französische Privatschulen.

Aplim ist in seinem Marktsegment die Nummer eins. Was ist nun das Geheimnis des Unternehmens? Sein Angebot: vollständig individuell konfigurierte Lösungen, die alle Anforderungen abdecken: Anmeldungen, schulischer Alltag (Anwesenheit, Kantinen, Reisegenehmigungen), Terminplaner, Arbeitsbereiche, Noten, Nachrichtenübermittlungen, Buchhaltung, Rechnungslegung usw.

Die Lösung EcoleDirecte wurde 2000 veröffentlicht. 20 Jahre später wird sie von mehr als 1,5 Millionen Schülern, 3 Millionen Eltern, 300.000 Lehrern und 80.000 Verwaltungsmitarbeitern genutzt.

Der Fernunterricht war bereits weit verbreitet. Mit der Corona-Pandemie und den im März 2020 eingeführten Maßnahmen zu ihrer Eindämmung wurde er jedoch binnen kurzer Zeit zur Norm. Nun wurde die Website ecoledirect.com stärker als jemals zuvor besucht. Um den kontinuierlichen Lehrbetrieb zu gewährleisten, mussten die französischen Bildungseinrichtungen ihre Arbeitsweise anpassen. Auf dieser Website kam es also zu erheblichen Trafficspitzen. Glücklicherweise wurden zuvor bereits neue Dienste integriert und die bestehende Infrastruktur automatisiert. So war es möglich, mit diesen Massen an zeitgleichen Verbindungen umzugehen. Diese im Vorfeld ergriffenen Maßnahmen stellten sich als die Rettung für das Unternehmen und seine Nutzer heraus.

Die Herausforderung

Aplim verarbeitet eine große Anzahl personenbezogener Daten französischer Schüler. Der Schutz dieser Informationen ist von zentraler Bedeutung. Daher war es für das Unternehmen unabdingbar, sie in Frankreich zu hosten. Die verschiedenen Rechenzentren von OVHcloud in Roubaix, Gravelines und Straßburg machten es möglich, diesen Anforderungen zu entsprechen.

„Es war von entscheidender Bedeutung, unsere Daten in Frankreich zu hosten.“
Steve Giraud, Entwicklungsleiter, Aplim

Aplim musste außerdem die Kosten für die Infrastruktur kontrollieren, gleichzeit aber die Infrastruktur selbst weiterentwickeln können. Nach einem Treffen auf dem OVHcloud Summit 2019 in Paris entschied sich das Unternehmen, die Public Cloud Dienste zu testen. Ab Anfang 2020 weitete Aplim diese Lösung dann auf einen Teil der Infrastruktur aus. Nun kamen Public Cloud Instanzen zum Einsatz und weniger das Hosting in der Hosted Private Cloud. Das Technik Team begann nun eine neue Phase, in der die Bereitstellung automatisiert wurde. Das Team konnte sich davon überzeugen, wie einfach die Arbeit mit Public Cloud ist - dank der schnellen Bereitstellung von Ressourcen und der verfügbaren Standard-APIs von OpenStack. Der Konzeptnachweis (PoC) erwies sich als schlüssig. Daher wählte das Unternehmen schließlich die Hybrid Cloud. Diese integriert Dienste der Public Cloud in die bestehende Infrastruktur.

„Wir brauchten eine Lösung, mit der wir gut zurecht kamen, um das Fundament unserer Infrastruktur zu verwalten."
Steve Giraud, Entwicklungsleiter, Aplim

Mit dieser Lösung kann Aplim die ursprüngliche bei OVHcloud gehostete Plattform nutzen, die auf dem Angebot Hosted Private Cloud aufbaut. So kann das Technik Team das flexible wie robuste Softwarepaket von VMware verwenden. Gleichzeitig können immer stärkere Trafficaufkommen verarbeitet werden.

Die Optimierung der Infrastruktur von EcoleDirecte stellte neue Anforderungen an das Unternehmen. Nun brauchte es Lösungen, um Trafficspitzen handhaben zu können. Diese gehen vor allem auf die sehr unterschiedlich ausgeprägte Aktivität und das exponentiellen Wachstum der Speicherplätze und Backups zurück.

Diese Anforderungen werden im Rahmen zweier Szenarien deutlich:

  • Szenario 1 - Vorübergehende und vorhersehbare Lastspitzen: Aplim weiß beispielsweise, dass sich viele Studenten montags, dienstags und mittwochs zwischen 16.00 Uhr und 22.00 Uhr mit der Plattform verbinden. Für dieses wiederkehrende Ereignis müssen entsprechende Ressourcen bereitgestellt werden, damit die Dienste so schnell reagieren können wie zu Zeiten mit weniger Besuchern.
     
  • Szenario 2 - Unvorhersehbare Trafficspitzen von größerer Intensität und längerer Dauer. Bereits vor dem Ausbruch der Corona-Pandemie wusste man bei Aplim, dass man im Bedarfsfall schnell und effizient reagieren können muss. Wenn vorhersehbare Spitzenwerte auch leicht zu bewältigen sind, so können unerwartete Lastspitzen schnell zu einer Herausforderung werden.

Was ist eine Lastspitze beim Traffic?

 

Es handelt sich um plötzlich stark ansteigende Anfragen, die über einen kurzen Zeitraum von einem Server versandt und/oder empfangen werden. Ohne eine darauf ausgelegte Infrastruktur kann eine Lastspitze zu Dienstverzögerungen führen. Gegebenenfalls ist ein Dienst dann sogar überhaupt nicht mehr für die Nutzer verfügbar.

Die Lösung

Die ursprüngliche in der Hosted Private Cloud bereitgestellte Architektur hostet alle Dienste: die öffentliche Website, Teile der API-Server, Datenbanken und Backups.

Der Vorteil dieser Lösung: Vertikales Skalieren ist sehr einfach, wenn beispielsweise eine Datenbank mehr Ressourcen benötigt. Darüber hinaus kann das VMware Cluster in den Rechenzentren in Roubaix erweitert werden - sowohl um Hosts als auch um Datastores.

Aplims Bedarf an Speicherplatz ging während der Maßnahmen zur Eindämmung des Corona-Virus durch die Decke. Um diesen Anforderungen zu entsprechen hat das Unternehmen seiner Hosted Private Cloud Infrastruktur zehn neue SSD-Datastores zu 3 TB hinzugefügt.

„Um uns weiterentwickeln zu können brauchten wir Flexibilität und eine API für unsere DevOps, damit sie die Ressourcen steuern konnten. Außerdem mussten wir uns auf mehrere Rechenzentren verteilen können. Das vRack und die Public Cloud haben das möglich gemacht."
Steve Giraud, Entwicklungsleiter, Aplim

Wie bereits erwähnt, muss sich Aplim auf zwei potenzielle Szenarien einstellen. Mit einer Infrastruktur, die ausschließlich auf der Hosted Private Cloud basiert, ist das kaum möglich. Um einer Situation mit unvorhersehbaren, hohen und anhaltenden Lastspitzen zu begegnen, hat das Unternehmen einen Konzeptnachweis (PoC) unter Einbeziehung von Public Cloud Instanzen erstellt.

Im Szenario 1 geht es um vorübergehende und vorhersehbare Lastspitzen mit bereits bekannter Dauer und Schwankung. Mit der Lösung Public Cloud lässt sich dafür einfach der Start von Instanzen on demand für bestimmte Zeitfenster planen und automatisieren.

Da sich Ressourcen so einfach hinzufügen und entfernen lassen, werden für die Instanzen nur 72 Stunden pro Monat und nicht 720 Stunden berechnet. Dieser Faktor 10 ermöglicht einen schnellen und zuverlässigen Dienst im Fall von Lastspitzen. All dies geschieht bei hoher Kosteneffizienz. Die API-Server laufen unter IIS und führen ein horizontales Skalieren durch. Sie vervielfachen sich, da Aplim diesen Prozess automatisiert hat. Diese Funktion eignet sich besonders für zustandslose, sog. stateless Anwendungsschichten. Sie kommt bei API-Servern zum Einsatz und ermöglicht weitere Kostenoptimierung. Der Konzeptnachweis (PoC) erwies sich also schnell als schlüssig.

Als dann Mitte März 2020 die Maßnahmen zur Eindämmung der Pandemie und zur Aufrechterhaltung des Lehrbetriebs angekündigt wurden, konnte Aplim mit den steigenden Zahlen von Besuchern pro Tag umgehen. Die Webseite wurde zunächst stabil von einer Million Nutzer für kurze Zeit besucht. Nun sind es täglich fünf Millionen Besucher, die über längere Zeit verbunden bleiben.

„Wir können jeden Abend automatisch Instanzen erstellen, um regelmäßig auftretende Trafficspitzen zu bewältigen. Bei außergewöhnlich hohem Bedarf können wir dies aber auch manuell tun. Und zwar in nur wenigen Minuten!“
Steve Giraud, Entwicklungsleiter, Aplim

Aplim konnte also auf eine umfassende Erfahrung zurückgreifen, um auf den jähen Zuwachs an Verbindungen zu reagieren. Vorher konnten die API-Server mit ihren 30 Instanzen ausreichend schnell reagieren - nun mussten binnen weniger Tage 300 weitere Instanzen hinzugefügt werden, um bei diesem Anstieg mitzuhalten.

All die Arbeit der Teams an einer maximalen Automatisierung der Bereitstellung hat sich in dieser Lage bezahlt gemacht. Anstatt wie üblich 30 Maschinen zu starten, mussten diese Routinen bei den ersten Lastspitzen Mitte März 2020 einfach 300 Mal ausgeführt werden.

Die Teams von OVHcloud im Rechenzentrum haben umgehend reagiert und die Hardware war auch vorhanden. So konnten binnen weniger Tage 4.800 vCores und 18 TB RAM bereitgestellt werden. Diese 300 Instanzen sind über das private Netzwerk vRack, das die Rechenzentren miteinander verbindet, in die gesamte Architektur eingebunden. Die Industrialisierung über die Public Cloud Dienste hat das Unternehmen in die Lage versetzt, mit der Beanspruchung in dieser außergewöhnlichen Zeit umzugehen.
Aplim infrastructure

Das Ergebnis

Alles wurde vervielfacht: Infrastruktur x 10 und Nutzung x 5. Dies war möglich, weil das Unternehmen die Lösung Public Cloud sich noch vor der Pandemie zu eigen gemacht hat. Der Preis der ursprünglichen Plattform hat sich jedoch halbiert. Diese Ausrichtung hat die maximale Kostenoptimierung begünstigt.

Durch die Industrialisierung der Lösung Hosted Private Cloud für Aplim, um die Public Cloud erweitert, erfüllte die Infrastruktur alle ihre Zwecke ohne die geringste Störung. Außerdem wurde ein Team von Entwicklern während der Pandemie eigens dafür eingesetzt, um Tools für den Fernunterricht zu entwickeln. Die Rückmeldungen von Kunden und Nutzern an das Unternehmen waren durchweg positiv. Sogar einige öffentliche Einrichtungen haben Aplim kontaktiert.

Aus dieser Erfahrung lassen sich einige bewährte Verfahren ableiten. Zunächst die Industrialisierung jedes Vorgangs in der Infrastruktur: Alles lässt sich über API automatisieren. Gefolgt von der Lastverteilung, die eine Grundvoraussetzung für horizontales Skalieren ist. Und zum Abschluss: die Hochverfügbarkeit der Dienstleistungen. Diese wird von sogenannten Mechanismen zur Selbstheilung (auto-healing) verwaltet und hängt von dem eingesetzten Softwarebaustein ab. Ist diese Hochverfügbarkeit zustandslos (stateless) wie die API-Server, so genügt ein einfacher Mechanismus der Art kill/create, um verschiedenste Situationen problemlos zu meistern. Ist dieser Softwarebaustein zustandsbehaftet (stateful), so verwaltet ein Cluster-Mechanismus die Selbstheilung. Im Einklang mit all diesen Prinzipien ermöglichen es die Funktionen von Public Cloud jedem Unternehmen, mit Lastspitzen umzugehen - ob diese nun abzusehen und vorübergehend sind, oder aber unvorhersehbar und große Ausmaße erreichen.

Die Lösung EcoleDirecte entwickelt sich ständig weiter. So sind neue Funktionen geplant, wie die Integration von Object Storage zur verbesserten Speicherung von Dokumenten.