Aperfeiçoar a tradução automática online graças à inteligência artificial
O YouTube condiciona a reprodução dos seus vídeos no depósito de marcadores para lhe oferecer uma publicidade orientada baseada na sua navegação.
Para ver o vídeo, deve aceitar a categoria de confidencialidade Partilha de cookies em plataformas de terceiros no nosso Centro de Privacidade. Pode retirar o seu consentimento a qualquer momento.
Para mais informações, consulte a política sobre os cookies do YouTube e a política sobre os cookies da OVHcloud.

+ de 30 000 horas
de cálculo acumuladas com
GPU NVIDIA Tesla V100

50 000 modelos
intermédios armazenados
no Object Storage
para um volume de 30 TB

Uma capacidade de tradução
de 5 mil milhões de palavras
por dia
O contexto
SYSTRAN é um editor de soluções profissionais de tradução automática, que em 2018 festejou os seus 50 anos.
Com mais de 140 pares de línguas disponíveis, os serviços da SYSTRAN são personalizados segundo o contexto de cada cliente e são utilizados por múltiplas empresas internacionais, organizações públicas e agências de tradução.
Desde a sua criação, a SYSTRAN sempre foi pioneira no tratamento automática de línguas. Em finais de 2016, a empresa foi novamente pioneira ao lançar o primeiro motor de tradução neural profissional. Este tira partido dos últimos progressos oferecidos pelas tecnologias de deep learning, de forma a melhorar a qualidade da tradução instantânea.
Cliente da OVHcloud desde sempre, o editor associou-se ao fornecedor em 2018 para elaborar um serviço chamado SYSTRAN Marketplace. Esta plataforma comunitária permite oferecer os melhores modelos de tradução do mercado, treinados por especialistas multilingues de diferentes áreas. Disponíveis na cloud ou on-premises, através de ferramentas de tradução profissionais, os modelos são integrados no sistema informático do cliente.
Para enfrentar este desafio, a SYSTRAN optou por uma abordagem comunitária baseada em quatro pilares: a tecnologia, os dados, as competências humanas e a infraestrutura, de forma a oferecer uma solução aberta, responsável, dimensionada para a Internet e altamente disponível.
O desafio
Desde 2016, o mundo da tradução automática evoluiu de forma significativa. A tradução neural – uma abordagem decorrente da pesquisa em inteligência artificial e, em especial, do deep learning – impôs-se como a norma, sucedendo à tradução dita estatística. Esta última estava essencialmente baseada no big data e na representação das regras que regem as línguas por parte de especialistas.
Esta transição foi acompanhada de mudanças profundas. No plano tecnológico, os algoritmos necessários não param de evoluir e provêm diretamente dos grandes laboratórios de investigação privados e públicos. Graças à abordagem neural, foi desenvolvida e imposta uma corrente open source geral que facilitou uma progressão científica reproduzível e um desenvolvimento industrial praticamente instantâneo.
Embora a quantidade de dados necessária é menor que antes, a qualidade dos mesmos é essencial, uma vez que os modelos neurais tentaram interpretar qualquer “ruído” como uma regra da língua. Com o big data, corre-se o risco de esquecer que as informações utilizadas para treinar os modelos de tradução são produzidas por tradutores humanos e que, ainda que os dados estejam disponíveis online, isso não significa que não estejam sujeitos a direitos de autor. A qualidade de um modelo resulta diretamente do investimento realizado nesses mesmos dados, o que implica um perfeito rastreamento. Sem esse rigor, seria perigoso confiar em modelos de tradução que poderiam estar distorcidos pelas informações de origem.
A perícia humana, posta de parte na época estatística, regressa em alta. Se os algoritmos são extremamente potentes, precisam de ser vigiados por especialistas linguísticos e de vários domínios.
Finalmente, a abordagem neural mudou profundamente as necessidades das infraestruturas de cálculo. Durante a fase de treino dos modelos, como para qualquer algoritmo de deep learning, são necessárias placas gráficas (GPU) específicas. Por outro lado, para a inferência — ou seja, a utilização de modelos em produção — os algoritmos requerem servidores otimizados para o cálculo e pouca memória comparativamente às gerações anteriores. Assim, a evolução da regulamentação para melhor proteger os direitos dos utilizadores implica uma atenção particular para as infraestruturas que alojam serviços que podem traduzir dados confidenciais.
Para além da aparente simplicidade ligada a cada uma dessas mudanças (muitas vezes ilustrada por demonstrações de desempenho em casos de uso extremamente limitados), é necessário realizar alterações fundamentais que permitam obter uma cadeia de produção a grande escala responsável, transparente e capaz de fornecer a melhor qualidade a todos os setores. O princípio fundamental desta abordagem consiste em reconhecer a perícia dos diferentes intervenientes presentes e de os associar para atingir a excelência.
Do seu lado, a SYSTRAN começou por investir no open source, sendo cofundadora desde 2016 da OpenNMT, uma framework de algoritmos de tradução neural. Atualmente a tecnologia mais popular e ativa do seu setor, esta é utilizada por milhares de investigadores e fabricantes, que a enriquecem diariamente com as suas contribuições. Graças a este software inovador, as equipas R&D da SYSTRAN conceberam soluções completas de tradução pensadas para os utilizadores finais. Finalmente, o editor desenvolveu um marketplace composto por vários serviços, que permitiu que uma comunidade de especialistas produzisse e partilhasse modelos de alta qualidade, sendo diretamente remunerados pelas suas contribuições.
De forma a construir esta plataforma, era necessário dispor de uma infraestrutura flexível, sólida e adaptável que oferecesse a potência de cálculo necessária para o treino dos motores neurais. Este ambiente também tinha de ser escalável para implementar os seus modelos em produção, responder às oscilações de pedidos, assim como respeitar o espírito responsável por esta abordagem comunitária... e tudo a um preço acessível.
A solução
Uma plataforma aberta, segura e responsável, perfeitamente adaptada às necessidades do deep learning
“A escolha da OVHcloud como parceiro tecnológico para o alojamento e a exploração do nosso marketplace impôs-se rapidamente. O ADN da OVHcloud correspondia ao espírito do marketplace. As nossas exigências em termos de flexibilidade e de potência orientaram-nos diretamente para o Public Cloud.”
Jean Senellart, CEO da SYSTRAN
Uma solução técnica que combina potência, flexibilidade e previsibilidade
Para concretizar este projeto, a SYSTRAN optou pela solução Public Cloud, uma vez que permite um controlo total dos custos, com um acesso a uma vasta gama de servidores e serviços. Além disso, também oferece a flexibilidade necessária para treinar modelos neurais a pedido e gerir volumes de tradução que variam ao longo do tempo.
SYSTRAN Model Studio – uma solução única desenvolvida pela SYSTRAN para permitir que os especialistas linguistas e os especialistas de outros domínios possam treinar os seus próprios modelos de tradução – necessita de aceder a pedido aos processadores gráficos (GPU) mais potentes do mercado. A disponibilidade instantânea das instâncias de cálculo não era um problema, já que o treino de modelos neurais se baseia em ciclos que podem durar desde umas horas até uma semana.
Model Studio é um orquestrador de tarefa, capaz de gerir uma sequência de iterações que correspondem a um determinado treino. Utiliza a API Nova da OpenStack para lançar instâncias de cálculo de forma dinâmica.
Neste esquema, a fiabilidade das instâncias era essencial, visto que um erro numa iteração provocaria a falha do treino associado e, por conseguinte, a perda de dias de cálculo.
Model Studio necessita também de uma grande capacidade de armazenamento, pois cada iteração de um treino é uma rede de neurónios arquivada e testada. É necessário ter em conta que cada modelo representa milhares de milhões de parâmetros, ou seja, vários gigabytes armazenados no Object Storage através do serviço Swift da OpenStack organizado em containers.
Esta infraestrutura foi desenvolvida num ano. Durante esse período, as equipas da SYSTRAN conseguiram treinar centenas de modelos utilizando um pool baseado em servidores NVIDIA DGX-1 e pools complementares de Public Cloud baseados em instâncias GPU NVIDIA Tesla V100. A plataforma é disponibilizada aos “treinadores” do marketplace para que possam criar os seus próprios modelos em perfeita autonomia.
Para a inferência, a problemática é o contrário: o serviço deve estar disponível 24h/24h e adaptar-se ao volume dos pedidos a qualquer momento, utilizando as instâncias otimizadas para o cálculo. Além disso, cada pedido deve ser tratado em poucos milissegundos e requer uma combinação de instâncias estáticas e dinâmicas.
O ponto de entrada da infraestrutura da plataforma SYSTRAN Translate é um load balancer. O seu papel é crucial, pois reparte a carga entre os diferentes serviços alojados nos datacenters e protege a aplicação contra os ataques DDoS. Este equipamento também assegura a escalabilidade da infraestrutura em caso de pico de tráfego. Por último, permite garantir uma alta disponibilidade de serviço e otimizar os tempos de resposta.
Em julho de 2019, a infraestrutura era composta por 74 instâncias Public Cloud GPU. Esta é protegida por vRack, uma interligação privada concebida pela OVHcloud.
Para ir mais longe, as equipas adicionaram uma componente dinâmica ao serviço. Baseada em Kubernetes, permite combinar disponibilidade instantânea e dimensionamento flexível da infraestrutura.
Esta última é monitorizada pela plataforma administrada Metrics Data Platform, que permite acompanhar em tempo real cada componente, mas também os tempos de resposta e os volumes de tradução para todos os pares de língua e modelos.
Uma plataforma baseada em standard abertos
O desenvolvimento do conjunto da infraestrutura do marketplace foi muito facilitado graças aos serviços da OVHcloud. Equipadas com a API open source, as equipas de desenvolvimento podem utilizá-los imediatamente.
“A escolha e o investimento em soluções open source garantem aos utilizadores finais a melhor tecnologia possível, e evita que os programadores e contribuidores do marketplace se vejam presos por tecnologias proprietárias.”
Yannick Douzant, diretor de produtos e tecnologias da SYSTRAN
Para a SYSTRAN, que desenvolve e mantém a integralidade do código de tradução neural no projeto OpenNMT, como para a OVHcloud, que optou por utilizar vários standard abertos para a sua solução Public Cloud, esta abordagem open source, para além de facilitar o uso, é uma parte importante da filosofia relativa ao desenvolvimento de software que partilham as duas empresas.
Uma abordagem responsável
“O compromisso da OVHcloud para uma responsabilidade ecológica na conceção dos servidores, na operação com um sistema exclusivo de watercooling, numa política para desenvolver uma energia verde e na reciclagem dos componentes em fim de vida através de equipamentos foi um critério decisivo na escolha da infraestrutura do nosso marketplace.”
Jean Senellart, CEO da SYSTRAN
Relativamente aos dados, estes são protegidos e contam com a garantia de não abandonar o território europeu para assegurar o cumprimento do Regulamento Geral sobre a Proteção de Dados (RGPD).
O resultado
Graças à tecnologia utilizada e ao acompanhamento dos especialistas da OVHcloud, as equipas técnicas da SYSTRAN só precisaram de duas semanas para implementar e publicar o serviço SYSTRAN Translate.
Apenas cinco meses após o seu lançamento, o serviço já permitiu que mais de um milhão de utilizadores de 190 países traduzisse milhares de milhões de palavras, tornando-se numa ferramenta muito popular na Europa e, especialmente, na França, Reino Unido, Bélgica e Alemanha.
O serviço de tradução automática propõe mais de 40 línguas e disponibiliza 400 modelos de tradução. Daqui a um ano, o objetivo é atingir os 5000 modelos graças à expansão da comunidade de especialistas.
E isto é só o começo, uma vez que SYSTRAN Translate é só uma parte de uma nova solução destinada aos profissionais: SYSTRAN Marketplace, cujo objetivo é propor-lhes um maior catálogo de modelos especializados juntamente com a gama mais ampla de soluções de tradução implementadas on-premises ou na cloud, em modo privado ou público. Para responder a todos os tipos de necessidade e a todos os volumes, com o mesmo nível de qualidade.