¿Qué es la alta disponibilidad?


La alta disponibilidad (HA) se refiere a la capacidad de un sistema de TI, aplicación o componente para operar continuamente sin interrupciones significativas, lo que garantiza que siga siendo accesible para los usuarios incluso cuando los componentes individuales fallen inevitablemente.

¿Qué puedo hacer con un servidor aislado?

Definición de alta disponibilidad

El principio fundamental para lograr la alta disponibilidad (HA) es la identificación y eliminación sistemáticas de puntos únicos de falla dentro de la infraestructura, que abarcan hardware, software, redes, almacenamiento y fuentes de energía.

Al diseñar sistemas con mecanismos de redundancia y resiliencia incorporados, la HA tiene como objetivo evitar que las fallas localizadas se conviertan en cascada en un tiempo de inactividad perceptible, manteniendo así un alto nivel de performance operacional y asegurando que los servicios estén disponibles de manera consistente cuando sea necesario.

La efectividad de una estrategia de alta disponibilidad se cuantifica normalmente por el porcentaje de tiempo activo alcanzado durante un período específico, a menudo expresado mediante la notación "nueves" (como 99,9% o "tres nueves", 99,99% o "cuatro nueves", etc.), lo que significa la proximidad a un tiempo operativo del 100%.

Características principales de la alta disponibilidad

La alta disponibilidad no es un producto único ni un esfuerzo único, sino más bien un resultado logrado a través de la implementación de varias características técnicas centrales y principios de diseño que funcionan en conjunto para garantizar la resiliencia y continuidad del sistema. Las características más críticas que sustentan un entorno HA incluyen:

  • Redundancia: Esta es la piedra angular de la Alta Disponibilidad (HA). Implica la duplicación de componentes críticos dentro de la infraestructura de TI, como servidores, dispositivos de almacenamiento de información, paths de red y fuentes de alimentación. Si un componente falla, una contraparte redundante está lista para asumir su función, evitando así un único punto de falla.
     
  • Failover automático : Cuando se detecta un fallo en un componente primario, un sistema HA debe conmutar automáticamente y sin problemas las operaciones al componente redundante (en espera).
     
  • Detección fiable de fallos: Para activar una conmutación por error automática, el sistema primero debe detectar de forma fiable que se ha producido un error. Esto se consigue normalmente mediante una supervisión continua, utilizando a menudo mecanismos de "latidos" en los que los componentes comprueban regularmente el estado de los demás.
     
  • Replicación y sincronización de datos : Para aplicaciones y sistemas que administran datos, como bases de datos, no basta con conmutar por error a un servidor en espera; los datos también deben estar disponibles y ser coherentes en el sistema en espera.

Estas características clave permiten que los sistemas, en conjunto, puedan soportar fallas de componentes, manejar el mantenimiento con elegancia y ofrecer el performance operacional continuo que se espera de un servicio de alta disponibilidad.

Ventajas de la alta disponibilidad

La implementación de alta disponibilidad proporciona beneficios sustanciales que van mucho más allá de la solidez técnica, impactando directamente en las operaciones del negocio, la satisfacción del cliente y el performance financiero.

La ventaja más inmediata y significativa es la reducción drástica del tiempo de inactividad del sistema. Al minimizar las interrupciones ocasionadas por fallas inesperadas de los componentes y las ventanas de mantenimiento planificado necesarias, HA garantiza que las aplicaciones y los servicios críticos permanezcan consistentemente operativos y accesibles.

Además, la reducción del tiempo de inactividad tiene importantes implicaciones financieras y operacionales positivas. Protege directamente contra la pérdida de ingresos que se suele producir durante las interrupciones, como la pérdida de ventas de comercio electrónico o las transacciones fallidas, y evita las costosas caídas en la productividad de los empleados cuando los sistemas esenciales no están disponibles.

La disponibilidad constante del sistema protege la reputación ganada con esfuerzo por una organización, evitando la publicidad negativa, la frustración del cliente y el posible daño a la marca que suele estar asociado con las interrupciones del servicio.

Componentes de Alta Disponibilidad

Para lograr la alta disponibilidad es necesario ensamblar una infraestructura sólida mediante una combinación de componentes de hardware y software especializados diseñados para eliminar puntos únicos de falla y facilitar la recuperación automática.

Aunque la configuración específica varía en función de las necesidades y el presupuesto de las aplicaciones, varios tipos clave de componentes suelen formar los componentes básicos de una arquitectura de alta disponibilidad:

  • Servidores redundantes : Utilizar varios servidores físicos o virtuales, a menudo agrupados en clústeres. En configuraciones comunes, como activo-pasivo o activo-activo, si un servidor falla o requiere mantenimiento, otro servidor está listo para asumir inmediatamente su carga de trabajo, lo que garantiza el procesamiento continuo de las aplicaciones.
     
  • Load Balancer Estos dispositivos de hardware o módulos de software distribuyen el tráfico de red entrante y las solicitudes de aplicaciones entre el grupo de servidores de un clúster. Esto evita que un solo servidor se sobrecargue, mejora la capacidad de respuesta y, de manera crítica, permite que el tráfico se redireccione automáticamente lejos de los servidores que han fallado o que se han puesto fuera de línea.
     
  • Almacenamiento redundante : Empleando sistemas de almacenamiento diseñados para la resiliencia. A menudo, esto incluye funciones de redundancia interna como RAID (arreglo redundante de discos independientes) dentro de una unidad de almacenamiento de información y, con frecuencia, implica la replicación de datos entre sistemas de almacenamiento de información físicos separados (mediante funciones de replicación SAN/NAS o software de replicación basado en host) para garantizar que los datos permanezcan accesibles incluso si falla el almacenamiento de información primario.
     
  • Infraestructura de red redundante : Implementación de la duplicación en las rutas de red. Esto implica el uso de varias tarjetas de interfaz de red (NICS) en servidores, routers y conmutadores de red redundantes y la configuración de múltiples enlaces físicos entre dispositivos para garantizar que un único corte de cable de red o una falla de dispositivo no aísle los sistemas críticos.
     
  • Fuentes de alimentación fiables: Asegurar la alimentación continua a través de fuentes de alimentación ininterrumpida (UPS) proporciona respaldo inmediato durante breves fluctuaciones o interrupciones de energía, lo que garantiza un funcionamiento ininterrumpido. Para duraciones más prolongadas, a menudo se emplean generadores de respaldo. La protección de la fuente de alimentación es crucial para mantener el estado operativo de todos los demás componentes de alta disponibilidad.

La combinación y configuración exactas de estos componentes dependen en gran medida de los requisitos de disponibilidad específicos, los objetivos de tiempo de recuperación (RTO), los objetivos de punto de recuperación (RPO) y el presupuesto del sistema que se protege.

Cómo Funciona La Alta Disponibilidad

La alta disponibilidad es algo más que tener hardware de backup; es un proceso dinámico y automatizado diseñado para mantener la continuidad del servicio en caso de fallas. Se basa en la interacción constante entre componentes redundantes, supervisión continua y orquestación de software inteligente dentro de un marco de trabajo al que se suele hacer referencia como clúster.

En una configuración de alta disponibilidad típica, teniendo en cuenta cuándo pensamos qué es el cloud computing con alta disponibilidad, se configuran varios servidores (nodos) para que funcionen juntos, junto con rutas de red y almacenamiento de información potencialmente redundantes.

Durante el funcionamiento normal, las aplicaciones críticas se ejecutan en un nodo principal (o en varios nodos activos) mientras los datos se replican continuamente en uno o más nodos en espera.

La clave de la alta disponibilidad reside en la vigilancia constante: los nodos del cluster monitorean constantemente el estado de salud de los demás, a menudo mediante señales de "latidos", mensajes de red regulares que confirman que están vivos y que funcionan correctamente. También se pueden realizar comprobaciones de estado específicas de la aplicación para garantizar que los propios servicios responden.

Cuando un nodo deja de enviar latidos o no supera una comprobación de estado crítica más allá de un umbral definido, el software de clústeres detecta este error. Esta detección activa automáticamente el proceso de failover.

Todo el proceso, desde la detección hasta la reanudación del servicio en el nodo de failover, está diseñado para que se produzca de forma automática y rápida, a menudo en cuestión de segundos o minutos, dependiendo de la configuración y la aplicación.

Alta disponibilidad frente a recuperación ante desastres

Si bien tanto la alta disponibilidad como la recuperación ante desastres (DR) son componentes esenciales de una sólida estrategia de continuidad del negocio, cuando pensamos qué es el cloud público, sirven para distintos propósitos y abordan diferentes tipos de escenarios de fallas.

Comprender sus diferencias es crucial para una protección integral. HA se centra principalmente en la prevención de interrupciones del servicio que resultan de fallos localizados, como un fallo de un único servidor, un fallo de un componente de almacenamiento o una aplicación que deja de responder dentro de un centro de datos o zonas de disponibilidad en la nube estrechamente vinculadas.

Esto se logra mediante failover automático a componentes redundantes que operan dentro de la misma infraestructura general, con el objetivo de lograr un downtime mínimo a cero (RTO muy bajo) y una pérdida mínima o nula de datos (RPO muy bajo). 

Recuperación ante desastres, por el contrario, se prepara para eventos catastróficos de gran escala que podrían inutilizar un centro de datos primario o una instalación completa, piense en incendios, inundaciones, terremotos o interrupciones generalizadas de energía que podrían afectar toda un área.

Alta disponibilidad en la infraestructura de TI

Lograr una alta disponibilidad integral cuando se considera lo que implica un servidor virtual requiere algo más que centrarse en una sola aplicación o servidor; requiere un enfoque en capas, que incorpore resiliencia en todo el stack de infraestructura de TI.

Si se descuida una capa, se puede crear un único punto de fallo que socave todo el esfuerzo. Los principios de alta disponibilidad se aplican en distintos ámbitos tecnológicos, algo fundamental a la hora de considerar lo que implica un VPC cloud en nuestro esfuerzo por construir un sistema realmente sólido.

En los niveles de red y físico fundacionales, la alta disponibilidad implica la implementación de redundancia en la infraestructura central. Esto incluye el uso de fuentes de alimentación redundantes (respaldadas por UPS y potencialmente generadores), múltiples tarjetas de interfaz de red (NIC) en servidores, routers y switches de red redundantes a menudo configurados en pares de failover (mediante protocolos como HSRP o VRRP) y diversos paths de red físicos para evitar la pérdida de conectividad.

Los firewalls también se implementan comúnmente en pares HA para garantizar que los controles de seguridad permanezcan activos durante una falla.

Subiendo por la pila, la disponibilidad del servidor es fundamental. Esto se logra a menudo mediante clústeres de servidores, ya sea con máquinas físicas o, más comúnmente hoy en día, mediante funciones de plataforma de virtualización (como VMware vSphere HA o Hyper-V Failover Clustering).

Mantenimiento de alta disponibilidad

La implementación de una solución de alta disponibilidad es un comienzo, pero garantizar su eficacia continua requiere atención continua, administración proactiva y validación regular.

La alta disponibilidad no es una tecnología de "configurarlo y olvidarlo"; exige una diligencia continua mucho después de la configuración inicial para garantizar que funcione como se pretendía cuando inevitablemente se produce una falla. El mantenimiento eficaz de la HA implica varias actividades clave:

  • Realizar pruebas con regularidad Este es sin duda el aspecto más crítico del mantenimiento de HA. La realización periódica de pruebas controladas de failover y failback (simulacros) es esencial para verificar que los mecanismos automatizados funcionen correctamente, que los procedimientos de recuperación sean precisos y que el personal los comprenda, y que el sistema se recupere dentro del objetivo de tiempo de recuperación (RTO, Recovery Time Objective ) esperado.
     
  • Supervisión y alertas continuas: La supervisión constante y vigilante de todos los componentes del ecosistema de HA, incluidos el estado de los servidores, la conectividad de la red, el estado del almacenamiento de información, la latencia y la integridad de la replicación de los datos y la capacidad de respuesta de las aplicaciones, es fundamental. Se deben configurar sistemas de alerta sólidos para notificar con prontitud al personal de TI apropiado.
     
  • Administración disciplinada de parches y actualizaciones: Es vital mantener actualizados los sistemas operativos, las aplicaciones y el software de alta disponibilidad con parches de seguridad y actualizaciones funcionales. Sin embargo, la aplicación de parches se debe realizar meticulosamente en un entorno HA para evitar que se produzca un downtime inadvertido.
     
  • Administración y consistencia de la configuración: Es fundamental garantizar que los parámetros de configuración (que incluyen el sistema operativo, las aplicaciones, las políticas de seguridad y los parámetros de software de alta disponibilidad) sean idénticos y estén sincronizados en todos los nodos redundantes.

La ejecución consistente de estas actividades de mantenimiento transforma la alta disponibilidad de una capacidad teórica a una realidad operacional confiable. Este esfuerzo continuo garantiza que la inversión inicial continúe proporcionando protección para los servicios críticos del negocio, una necesidad para las organizaciones de todo el mundo.

OVHcloud y soluciones de alta disponibilidad

OVHcloud ofrece Public Cloud flexible, Private Cloud seguro en hardware dedicado y servidores Bare Metal de altas prestaciones. Elija recursos escalables bajo demanda, control y aislamiento mejorados o acceso directo al hardware físico para obtener el máximo rendimiento y una alta disponibilidad consistente:

Public Cloud Icon

Public Cloud

Disfrute de la máxima flexibilidad y escalabilidad con el Public Cloud de OVHcloud. Cree, implemente y administre sus aplicaciones con recursos a petición, incluidas instancias informáticas, almacenamiento de información y redes, todo ello impulsado por estándares abiertos como OpenStack.

Hosted Private cloud Icon

Cloud privado

Disfrute de un mayor control, seguridad y rendimiento con Private Cloud alojado en OVHcloud. Aprovechando la tecnología de VMware líder en la industria, este servicio proporciona recursos de hardware dedicados, garantizando un rendimiento predecible y un aislamiento sólido para sus aplicaciones de misión crítica. Si pensamos en un cloud privado, podemos decir que es ideal para empresas que requieren altos niveles de seguridad, soberanía de datos y configuraciones de infraestructura personalizadas.

Bare MetaL Icon

Servidores Bare Metal

Desbloquee el máximo rendimiento y el control total con los servidores OVHcloud Bare Metal. Obtenga acceso directo al hardware físico dedicado sin una capa de virtualización, garantizando una potencia de procesamiento y un rendimiento de E/S óptimos para sus cargas de trabajo más exigentes.