Aplim - Estudo de caso
Aplim - custo dividido por dois

Custo da infraestrutura inicial
dividido por 2

Aplim - infraestrutura multiplicada por dois

Dimensão da infraestrutura
multiplicada por 10

Aplim - utilização multiplicada por cinco

Utilização
multiplicada por 5

O contexto

A Aplim, do grupo Aplon, é uma empresa especializada na edição de software de gestão destinado aos estabelecimentos de ensino, desde o infantário até ao ensino superior. Os seus clientes são principalmente escolas privadas francesas.

A Aplim é líder no seu segmento de mercado. O seu segredo? Oferecer soluções inteiramente personalizáveis e configuráveis, capazes de cobrir todas as necessidades: inscrições, vida escolar (assiduidade, cantina, autorizações de saída), agenda, espaços de trabalho, classificações, mensagens, contabilidade, faturação, etc.

Lançada em 2000, a solução EcoleDirecte, baseada no software Charlemagne, é utilizada 20 anos mais tarde por mais de 1,5 milhões de alunos, 3 milhões de pais, 300 000 professores e 80 000 funcionários administrativos.

Embora já amplamente difundido, o ensino à distância tornou-se, de um dia para o outro, a norma devido à crise sanitária ligada à Covid-19 e ao confinamento instaurado em França a 17 de março de 2020. Assim, o site ecoledirecte.com foi mais solicitado do que nunca. De facto, para assegurar a continuidade pedagógica, os estabelecimentos de ensino franceses foram obrigados a adaptar o seu modo de funcionamento. O site gerido pela Aplim enfrentou grandes picos de tráfego. Felizmente, a integração prévia de novos serviços e a automatização da infraestrutura existente permitiram responder a este afluxo maciço de conexões simultâneas. Esta medida preventiva revelou-se uma salvação para a empresa e para os utilizadores.

O desafio

A Aplim trata um grande número de dados pessoais relativos à formação dos alunos franceses. Uma vez que a proteção destas informações constitui um desafio importante, era imperativo que a empresa as alojasse em França. E graças aos diferentes datacenters da OVHcloud, como os de Roubaix, Gravelines e Estrasburgo, a empresa conseguiu cumprir este requisito.

“Era primordial que os nossos dados fossem alojados em França.”


Steve Giraud, responsável de desenvolvimento, Aplim

A Aplim também precisou de poder controlar os custos associados à sua infraestrutura, ao mesmo tempo que a fazia evoluir. Na sequência de um encontro no OVHcloud Summit 2019, a empresa decidiu testar os serviços Public Cloud. Depois, no início de 2020, a Aplim começou a implementar esta solução numa parte da sua infraestrutura, com instâncias Public Cloud em vez de um alojamento Hosted Private Cloud. A sua equipa técnica lançou-se então numa nova fase de industrialização das implementações, uma vez que as operações em Public Cloud eram mais simples, graças à grande reatividade em matéria de entrega de recursos e à disponibilidade das API padronizadas de OpenStack. Com a prova de conceito (PoC) a revelar-se positiva, a empresa acabou por se voltar para a cloud híbrida, que integra serviços de cloud pública na infraestrutura já existente.

“Para o cerne da nossa infraestrutura, precisávamos de uma solução que dominássemos plenamente.”


Steve Giraud, responsável de desenvolvimento, Aplim

Esta solução permite que a Aplim tire partido da plataforma inicial implementada na OVHcloud, baseada na oferta Hosted Private Cloud. Assim, a sua equipa técnica beneficia da flexibilidade e da robustez do pacote de software da VMware, ao mesmo tempo que aumenta a capacidade de absorção de carga.

Para satisfazer as novas necessidades ligadas à otimização da infraestrutura da EcoleDirecte, a empresa precisava de encontrar soluções que permitissem gerir os picos de carga ligados, nomeadamente, à flutuação da atividade, bem como ao aumento exponencial dos espaços de armazenamento e de backup.

Estas necessidades podem ser observadas em dois cenários:

  • Cenário 1 - Picos de tráfego momentâneos e previsíveis: a Aplim sabe que a maioria dos alunos se conecta à sua plataforma às segundas, terças e quartas-feiras, entre as 16h00 e as 22h00. Trata-se de um ciclo regular durante o qual é necessário fornecer recursos adequados, para que os serviços respondam tão rapidamente como nos períodos de menor tráfego.
     
  • Cenário 2 - Picos de tráfego imprevisíveis e mais substanciais, tanto em intensidade como em duração: mesmo antes da Covid-19, a Aplim estava consciente da necessidade de poder, quando necessário, aumentar a carga de forma rápida e eficaz. Isto porque, embora os picos previsíveis sejam fáceis de gerir, os picos inesperados podem rapidamente tornar-se um problema.

O que é um pico de tráfego?

 

Trata-se de um aumento súbito do número de pedidos enviados e/ou recebidos por um servidor durante um curto período de tempo. Sem uma infraestrutura adaptada, um pico de tráfego pode provocar atrasos no serviço e até o tornar indisponível para os utilizadores.

A solução

A arquitetura inicial implementada no Hosted Private Cloud aloja a integralidade dos serviços: o site público, uma parte dos servidores API, as bases de dados e os backups.

A vantagem desta solução é que é muito fácil fazer um vertical scaling (ou dimensionamento vertical) quando uma base de dados necessita de mais recursos, por exemplo. Além disso, o cluster VMware, situado nos datacenters de Roubaix, pode ser alargado, seja em hosts ou datastores.

As necessidades de armazenamento da Aplim cresceram exponencialmente durante o confinamento ligado à Covid-19. Para responder a isto, a empresa adicionou dez novos datastores SSD de 3 TB à sua infraestrutura Hosted Private Cloud.

“Para evoluir, precisávamos de muita flexibilidade, de uma API para que os nossos DevOps pudessem controlar os recursos e de poder implementar-nos em vários datacenters. Tudo isto foi possível graças ao vRack e ao Public Cloud.”


Steve Giraud, responsável de desenvolvimento, Aplim

No entanto, como já foi referido, a Aplim tem de enfrentar dois cenários possíveis e estes são dificilmente compatíveis com um tipo de infraestrutura baseada unicamente em Hosted Private Cloud. Para responder ao cenário em que se manifestam aumentos de carga imprevisíveis e mais substanciais em intensidade e duração, a empresa realizou um PoC no qual se utilizaram instâncias Public Cloud.

Além disso, durante os picos de tráfego pontuais e previsíveis - cujo período e variação são conhecidos, como descrito no cenário 1 -, a solução Public Cloud permite programar e industrializar o arranque das instâncias, a pedido, em intervalos horários precisos.

Graças a esta facilidade de criação e de eliminação dos recursos, as instâncias são faturadas apenas 72 horas por mês, em vez de 720. Esta relação 10:1 permite oferecer um serviço rápido e fiável durante picos de carga e, ao mesmo tempo, rentabilizar os custos. Já os servidores API, baseados em IIS, fazem um horizontal scaling (ou dimensionamento horizontal) e multiplicam-se graças à automatização implementada pela Aplim. Este funcionamento está especialmente adaptado às camadas aplicativas stateless, como é o caso destes servidores de API, e permite otimizar todos os gastos. Assim, o PoC revelou-se rapidamente positivo.

Quando o Governo francês anunciou o confinamento e a continuidade pedagógica em meados de março de 2020, a Aplim esteve em condições de enfrentar o aumento do número de visitas diárias. O site passou de um milhão de conexões pontuais e previsíveis por dia para cinco milhões de conexões longas diárias.

“Podemos criar instâncias automaticamente todas as noites para gerir picos de carga regulares, mas também manualmente em caso de necessidade pouco habitual. E isso em poucos minutos!”


Steve Giraud, responsável de desenvolvimento, Aplim

Com base nesta experiência, a Aplim pôde reagir imediatamente face ao aumento destas conexões em massa. De facto, antes os servidores de API e as suas cerca de 30 instâncias dispunham de tempo de resposta suficiente, mas depois foi necessário adicionar 300 em poucos dias para sustentar o aumento de carga.

Todo o trabalho das equipas no sentido de uma industrialização máxima das implementações revelou-se muito compensador neste contexto. Em vez de iniciar 30 máquinas como num período normal, foi preciso executar estas rotinas 300 vezes durante os primeiros picos de tráfego ocorridos em meados de março de 2020.

Graças à reatividade das equipas da OVHcloud nos datacenters e à nossa disponibilidade de hardware, em poucos dias puderam ser entregues 4800 vCores e 18 TB de RAM. Estas 300 instâncias, ligadas ao resto da arquitetura através da rede privada interdatacenter vRack, e a industrialização através dos serviços Public Cloud permitiram à empresa suportar a carga durante este período fora do normal.
Aplim infrastructure

O resultado

Se tudo foi multiplicado - a infraestrutura por 10 e a utilização por 5 - graças à adoção e à gestão do Public Cloud antes da crise sanitária, a plataforma inicial viu o seu preço reduzido a metade. Esta orientação favoreceu a otimização dos custos.

A industrialização da solução Hosted Private Cloud da Aplim, alargada com o Public Cloud, permitiu que a infraestrutura desempenhasse todas as suas funções sem nenhum incidente. Além disso, durante a pandemia foi destacada especialmente uma equipa de programadores, para criar ferramentas de ensino à distância. A empresa só recebeu comentários positivos por parte dos seus clientes e utilizadores e alguns estabelecimentos públicos chegaram mesmo a contactá-la!

Há várias boas práticas a retirar desta experiência. Em primeiro lugar, a industrialização de cada ação nas infraestruturas: tudo pode ser automatizado por API. Em segundo lugar, a repartição de carga, que é uma condição indispensável para a gestão de um horizontal scaling. Por último, a alta disponibilidade dos serviços, gerida por mecanismos de auto-healing e dependente do software implementado. Se esta alta disponibilidade dos serviços é stateless como os servidores de API, um simples mecanismo de kill/create permite responder facilmente a todo o tipo de situações. Se este software for statefull, é um mecanismo de cluster que vai gerir o auto-healing. Respeitando todos estes princípios, as funcionalidades do Public Cloud permitem a qualquer empresa gerir tanto os picos de carga previstos e pontuais como os picos imprevisíveis e intensos.

A solução EcoleDirecte, em constante evolução, pretende ainda implementar novas funcionalidades, como a integração do Object Storage para resolver os desafios relacionados com o armazenamento de documentos.