O que é a Alta disponibilidade?


A Alta disponibilidade (HA) refere-se à capacidade de um sistema, aplicação ou componente informático de funcionar de forma contínua sem interrupção significativa, garantindo que fica acessível aos utilizadores mesmo quando os componentes individuais falham inevitavelmente.

O que pode ser feito com um servidor isolado

Definição de Alta Disponibilidade

O princípio fundamental subjacente à realização da Alta Disponibilidade (HA) é a identificação e a eliminação sistemáticas de pontos únicos de falha na infraestrutura, abrangendo o hardware, o software, a rede, o armazenamento e as fontes de energia.

Ao conceber sistemas com mecanismos integrados de redundância e resiliência, a HA tem como objetivo evitar que falhas localizadas se transformem em downtime percetível, mantendo assim um elevado nível de desempenho operacional e garantindo que os serviços estão consistentemente disponíveis quando necessário.

A eficácia de uma estratégia de alta disponibilidade é tipicamente quantificada pela percentagem de tempo de atividade alcançada num determinado período, muitas vezes expressa através da notação de "nove" (por exemplo, 99,9% ou "três nove", 99,99% ou "quatro nove", etc.), o que significa a proximidade a um tempo de atividade de 100%.

Principais funcionalidades da alta disponibilidade

A alta disponibilidade não é um produto isolado ou um esforço único, mas antes um resultado alcançado através da implementação de várias características técnicas e princípios de conceção essenciais que trabalham em conjunto para assegurar a resiliência e a continuidade do sistema. As funcionalidades mais críticas que sustentam um ambiente HA incluem:

  • Redundância: Este é o pilar da High Availability (HA). Implica a duplicação de componentes críticos dentro da infraestrutura informática, tais como servidores, dispositivos de armazenamento, caminhos de rede e fontes de alimentação. Em caso de falha de um componente, uma contraparte redundante está pronta para assumir a sua função, evitando assim um ponto único de falha.
     
  • Failover automático: Quando é detetada uma anomalia num componente principal, o sistema HA deve passar de forma automática e transparente as operações para o componente redundante (modo de espera).
     
  • Deteção fiável de falhas: Para acionar um failover automático, o sistema deve primeiro detetar com segurança que ocorreu uma falha. Geralmente, isto é conseguido através de uma monitorização contínua, muitas vezes através de mecanismos de "heartbeat", em que os componentes verificam regularmente o estado de cada um dos outros.
     
  • Replicação e sincronização dos dados: No caso das aplicações e dos sistemas que gerem os dados, como as bases de dados, a simples passagem para um servidor de reserva não é suficiente; os dados devem também estar disponíveis e ser coerentes no sistema de reserva.

Estas funcionalidades essenciais permitem ao conjunto dos sistemas resistir a falhas de componentes, realizar facilmente operações de manutenção e proporcionar o desempenho operacional contínuo esperado de um serviço de elevada disponibilidade.

Vantagens da Alta Disponibilidade

A implementação da alta disponibilidade oferece benefícios substanciais que vão muito além da robustez técnica, com um impacto direto nas operações comerciais, na satisfação dos clientes e no desempenho financeiro.

A vantagem mais imediata e significativa é a redução drástica do tempo de inatividade do sistema. Ao minimizar as interrupções resultantes de falhas inesperadas dos componentes e das necessárias janelas de manutenção planeadas, a HA assegura que as aplicações e serviços críticos permanecem consistentemente operacionais e acessíveis.

Além disso, a redução do tempo de inatividade tem implicações financeiras e operacionais positivas significativas. Protege diretamente contra as perdas de receitas frequentemente incorridas durante interrupções, tais como vendas por comércio eletrónico perdidas ou transações falhadas, e evita quebras dispendiosas na produtividade dos funcionários quando os sistemas essenciais não estão disponíveis.

A disponibilidade consistente do sistema salvaguarda a reputação arduamente conseguida de uma organização, evitando a publicidade negativa, a frustração dos clientes e potenciais danos à marca, muitas vezes associados a falhas de serviço.

Componentes de alta disponibilidade

Para atingir a alta disponibilidade, é necessário montar uma infraestrutura resiliente utilizando uma combinação de componentes de hardware e software especializados, concebidos para eliminar pontos únicos de falha e facilitar a recuperação automática.

Embora a configuração específica varie em função das necessidades e do orçamento das aplicações, vários tipos de componentes-chave constituem normalmente os elementos constitutivos de uma arquitetura HA:

  • Servidores redundantes: Utilização de vários servidores físicos ou virtuais, muitas vezes agrupados em clusters. Em configurações comuns, como ativo-passivo ou ativo-ativo, se um servidor falhar ou precisar de manutenção, outro servidor está pronto para tomar imediatamente conta da carga de trabalho, assegurando o processamento contínuo da aplicação.
     
  • Load Balancers Estas aplicações de hardware ou módulos de software distribuem o tráfego de rede e os pedidos de aplicações recebidos pelo grupo de servidores num cluster. Isto evita que um único servidor fique sobrecarregado, melhora a capacidade de resposta e, criticamente, permite que o tráfego seja automaticamente reencaminhado para fora dos servidores que falharam ou que foram colocados offline.
     
  • Armazenamento redundante: Utilizar sistemas de armazenamento concebidos para resiliência. Muitas vezes, isto inclui funcionalidades de redundância interna, como RAID (Redundant Array of Independent Disks), dentro de uma unidade de armazenamento, e frequentemente implica a replicação de dados entre sistemas de armazenamento físicos separados (utilizando funcionalidades de replicação SAN/NAS ou software de replicação baseado no sistema central) para garantir que os dados permanecem acessíveis mesmo em caso de falha do armazenamento principal.
     
  • Infraestrutura de rede redundante: Implementação da duplicação em caminhos de rede. Isto implica a utilização de múltiplas placas de interface de rede (NIC) em servidores, comutadores de rede e routers redundantes e a configuração de múltiplos links físicos entre dispositivos para garantir que um único corte de cabos de rede ou falha de dispositivo não isola sistemas críticos.
     
  • Fontes de alimentação fiáveis: Garantir a alimentação contínua através de fontes de alimentação ininterruptas (UPS) fornece backup imediato durante breves flutuações ou falhas de energia, garantindo um funcionamento ininterrupto. Para durações mais longas, os geradores de backup são frequentemente empregados. A proteção da fonte de alimentação é crucial para manter o estado operacional de todos os outros componentes HA.

A mistura e configuração exatas destes componentes dependem estreitamente dos requisitos de disponibilidade específicos, dos objetivos de tempo de recuperação (RTO), dos objetivos de ponto de recuperação (RPO) e do orçamento para o sistema que está a ser protegido.

Como Funciona a Alta Disponibilidade

A alta disponibilidade não se resume apenas a dispor de um hardware de backup. Trata-se de um processo dinâmico automatizado concebido para manter a continuidade do serviço em caso de falhas. Baseia-se na constante interação entre componentes redundantes, monitorização contínua e orquestração de software inteligente num ambiente frequentemente designado por cluster.

Numa configuração HA típica, considerando quando pensamos no que é o cloud computing com HA, vários servidores (nós) estão configurados para funcionarem em conjunto, juntamente com um armazenamento potencialmente redundante e caminhos de rede.

Em condições normais de funcionamento, as aplicações críticas são executadas no nó principal (ou em vários nós ativos), enquanto os dados são replicados de forma contínua num ou mais nós de espera.

A chave para o HA reside na vigilância constante: os nós no cluster monitorizam constantemente o estado de saúde uns dos outros, muitas vezes usando sinais de "pulsação" - mensagens de rede regulares que confirmam que estão vivos e a funcionar corretamente. Também podem ser efetuadas verificações ao estado das aplicações específicas para garantir que os próprios serviços respondem rapidamente.

Quando um nó pára de enviar "heartbeats" ou falha uma verificação de estado de funcionamento crítico para além de um limite definido, o software de clustering deteta esta falha. Esta deteção aciona automaticamente o processo de failover.

Todo o processo, desde a deteção até à retoma do serviço no nó de redirecionamento após falha, foi concebido para ocorrer automática e rapidamente, muitas vezes em apenas alguns segundos ou minutos, consoante a configuração e a aplicação.

Alta disponibilidade vs Disaster Recovery

Embora a Alta Disponibilidade e a Recuperação de Desastres (DR) sejam componentes essenciais de uma estratégia sólida de continuidade de negócio, quando pensamos no que é a cloud pública, servem objetivos distintos e abordam diferentes tipos de cenários de falha.

Compreender as diferenças é essencial para uma proteção abrangente. O HA concentra-se principalmente em evitar interrupções do serviço resultantes de falhas localizadas, como falhas num único servidor, falhas num componente de armazenamento ou uma aplicação que deixe de responder num datacenter ou zonas de disponibilidade de cloud estreitamente ligadas.

Consegue-o através do redirecionamento após falha automático para componentes redundantes que operam na mesma infraestrutura geral, visando tempos de interrupção mínimos a zero (RTO muito baixo) e o mínimo a nenhuma perda de dados (RPO muito baixo). 

Por outro lado, a Disaster Recovery prepara-se para eventos catastróficos de larga escala que poderão inutilizar todos os datacenters ou instalações principais: prevê-se que grandes incêndios, inundações, terramotos ou falhas de energia generalizadas possam afetar uma área completa.

Alta disponibilidade na infraestrutura informática

A obtenção de uma alta disponibilidade abrangente, quando se considera o que um servidor virtual implica, não se limita a concentrar-se numa única aplicação ou servidor; necessita de uma abordagem em várias camadas, incorporando a resiliência no conjunto da infraestrutura de TI.

Negligenciar uma única camada pode criar um único ponto de falha que compromete todo o esforço. Os princípios HA são aplicados em vários domínios tecnológicos, o que é crucial quando se considera o que um VPC cloud implica, à medida que nos esforçamos para construir um sistema verdadeiramente robusto.

A nível físico e de rede de base, a HA implica a implementação de redundância na infraestrutura principal. Isto inclui a utilização de fontes de alimentação redundantes (suportadas por UPS e potencialmente geradores), múltiplas placas de interface de rede (NIC) em servidores, comutadores de rede redundantes e routers, muitas vezes configurados em pares de redirecionamento após falha (utilizando protocolos como HSRP ou VRRP), bem como diversos caminhos de rede físicos para evitar perdas de conectividade.

As firewalls são também normalmente implementadas em pares HA para garantir que os controlos de segurança permanecem ativos durante uma falha.

Ao subir a pilha, a disponibilidade do servidor é crítica. Muitas vezes, isto é conseguido através do agrupamento em cluster de servidores, quer com máquinas físicas, quer, mais frequentemente, atualmente, com recurso a funcionalidades de plataforma de virtualização (como VMware vSphere HA ou Hyper-V Failover Clustering).

Para manter a alta disponibilidade

A implementação de uma solução de alta disponibilidade é um começo, mas a garantia da sua eficácia permanente requer uma atenção contínua, uma gestão pró-ativa e uma validação regular.

A alta disponibilidade não é uma tecnologia "set it and forgot it"; ela exige uma diligência contínua muito tempo após a configuração inicial para garantir que ela funcione como pretendido quando uma falha inevitavelmente ocorre. A manutenção do HA implica, efetivamente, várias atividades-chave:

  • Testes regulares Este é sem dúvida o aspeto mais crítico da manutenção do HA. A realização periódica de testes de redirecionamento após falha e de reativação pós-falha (treinos) controlados é essencial para verificar o bom funcionamento dos mecanismos automatizados, a exatidão e a compreensão dos procedimentos de recuperação por parte da equipa e a recuperação do sistema dentro do objetivo de tempo de recuperação (RTO) esperado.
     
  • Seguimento e alertas contínuos: É fundamental a monitorização constante e constante de todos os componentes do ecossistema HA, incluindo a saúde do servidor, a conectividade da rede, o estado do armazenamento, a latência e a integridade da replicação dos dados e a reatividade da aplicação. É necessário configurar sistemas de alerta robustos para que notifiquem de imediato o pessoal informático apropriado.
     
  • Gestão e atualizações de correções disciplinadas: É essencial manter atualizados os sistemas operativos, as aplicações e o software de alta disponibilidade com correções de segurança e atualizações funcionais. No entanto, a aplicação de patches deve ser efetuada meticulosamente num ambiente HA para evitar, inadvertidamente, a interrupção do serviço.
     
  • Gestão e coerência das configurações: É crucial garantir que as definições de configuração, incluindo o SO, as aplicações, as políticas de segurança e os parâmetros de software HA, permanecem idênticas e sincronizadas em todos os nós redundantes.

A execução consistente destas atividades de manutenção transforma a alta disponibilidade de uma capacidade teórica numa realidade operacional fiável. Este esforço contínuo garante que o investimento inicial continua a oferecer proteção para serviços empresariais críticos, uma necessidade para todas as organizações.

OVHcloud e soluções de alta disponibilidade

A OVHcloud oferece uma Public Cloud flexível, uma Private Cloud segura em hardware dedicado e servidores Bare Metal de alto desempenho. Escolha recursos escaláveis a pedido, um melhor controlo e isolação ou um acesso direto a hardware físico para um máximo desempenho e uma consistente elevada disponibilidade:

Ícone da Public Cloud

Public Cloud

Experimente a derradeira flexibilidade e escalabilidade com o Public Cloud da OVHcloud. Construa, implemente e gira as suas aplicações com recursos a pedido, incluindo instâncias de cálculo, armazenamento e sistemas de rede, tudo suportado por normas abertas como OpenStack.

Ícone da Hosted Private Cloud

Private Cloud

Obtenha um controlo, uma segurança e um desempenho melhorados com o Hosted Private Cloud da OVHcloud. Aproveitando a tecnologia VMware líder do sector, este serviço oferece recursos de hardware dedicados, garantindo um desempenho previsível e um isolamento robusto para as suas aplicações críticas. Quando pensamos no que é uma cloud privada, podemos dizer que é ideal para as empresas que necessitam de elevados níveis de segurança, soberania de dados e configurações de infraestruturas personalizadas.

Ícone do Bare Metal

Servidores Bare Metal

Liberte o máximo desempenho e controlo total com os servidores Bare Metal da OVHcloud. Obtenha acesso direto a hardware físico dedicado sem camada de virtualização, garantindo a melhor potência de processamento e desempenho de E/S para as suas cargas de trabalho mais exigentes.