Co to jest High Availability?

Name: Co to jest High Availability?
Brand: OVHcloud
Rating: 4.8 (476 reviews)

Przez wysoką dostępność (High Availability) należy rozumieć zdolność systemu informatycznego, aplikacji lub komponentu do ciągłego działania bez znacznych przerw, przy czym dostępność pozostaje zapewniona użytkownikom, nawet w sytuacji, gdy pojedyncze komponenty nieuchronnie ulegną awarii.

Do czego można wykorzystać izolowany serwer?

Definicja wysokiej dostępności

Fundamentalną zasadą osiągania wysokiej dostępności (inaczej HA, ang. high availability) jest systematyczna identyfikacja i eliminacja pojedynczych punktów podatności infrastruktury na awarię, obejmujących sprzęt, oprogramowanie, sieć, przestrzeń dyskową i źródła zasilania.

Celem HA, dzięki architekturze systemów z wbudowanymi mechanizmami redundancji i odporności, jest zapobieganie kaskadowym skutkom lokalnych usterek i ich zauważalnym przerwom w działaniu, co pozwala utrzymać wysoki poziom wydajności operacyjnej i zapewnić stałą dostępność usług, gdy jest to konieczne.

Skuteczność strategii wysokiej dostępności jest zazwyczaj wyrażana procentowo przez czas bezawaryjnego działania usługi, często przy użyciu wartości "dziewiątych" (takich jak 99.9% lub "trzy dziewiątki", 99.99% lub "cztery dziewiątki", itp.), co oznacza zbliżenie do 100% czasu działania.

Kluczowe cechy wysokiej dostępności

Wysoka dostępność nie jest pojedynczym produktem ani pojedynczym wysiłkiem, ale raczej wynikiem osiągniętym poprzez wdrożenie kilku podstawowych funkcji technicznych i zasad projektowania, które współdziałają w celu zapewnienia odporności i ciągłości systemu. Najbardziej krytyczne funkcje środowiska HA to:

Redundancja: Jest to kamień węgielny architektury High Availability (HA). Polega ona na duplikowaniu krytycznych komponentów w infrastrukturze IT - takich jak serwery, urządzenia pamięci masowej, ścieżki sieciowe i zasilacze. W przypadku awarii jednego z elementów, redundantny komponent jest gotowy do przejęcia swojej funkcji, unikając w ten sposób pojedynczego punktu awarii.
Automatyczne przełączenie: Po wykryciu usterki na komponencie głównym system HA musi automatycznie i bezproblemowo przełączyć operacje na komponent redundantny (gotowy).
Wykrywanie awarii: Aby uruchomić automatyczne przełączenie, system musi najpierw sprawdzić, czy nie nastąpiła awaria. Możliwe jest to zazwyczaj dzięki stałemu monitorowaniu, często przy użyciu mechanizmów "pulsu", w których komponenty regularnie sprawdzają swój status.
Replikacja i synchronizacja danych: W przypadku aplikacji i systemów zarządzających danymi, takich jak bazy danych, zwykłe przełączenie na serwer w trybie czuwania nie jest wystarczające. Dane muszą być również dostępne i spójne w systemie w trybie czuwania.

Te kluczowe cechy łącznie pozwalają systemom wytrzymać awarie komponentów, bezpiecznie wykonywać prace konserwacyjne i zapewnić ciągłą wydajność operacyjną oczekiwaną od usługi o wysokiej dostępności.

Korzyści z wysokiej dostępności

Wdrożenie modelu wysokiej dostępności przynosi znaczące korzyści, które znacznie wykraczają poza solidność techniczną, wywierając bezpośredni wpływ na operacje biznesowe, zadowolenie klientów i wyniki finansowe.

Najbardziej bezpośrednią i znaczącą zaletą jest drastyczne skrócenie czasu przestoju systemu. Minimalizując przerwy w działaniu spowodowane zarówno nieoczekiwanymi awariami komponentów, jak i koniecznymi planowanymi oknami konserwacyjnymi, infrastruktura HA gwarantuje, że krytyczne aplikacje i usługi pozostają nieprzerwanie operacyjne i dostępne.

Ponadto krótsze czasy przestoju mają znaczące pozytywne konsekwencje finansowe i operacyjne. Chroni on bezpośrednio przed utratą przychodów, często ponoszoną podczas przerw w ciągłości usług, takich jak utrata sprzedaży w handlu elektronicznym lub nieudane transakcje, a także zapobiega kosztownym spadkom produktywności pracowników, gdy niezbędne systemy są niedostępne.

Stała dostępność systemów chroni reputację organizacji i pozwala zapobiec negatywnym reklamom, frustracji klientów i potencjalnym szkodom dla marki, często związanym z przerwami w świadczeniu usług.

Sprzęt O Wysokiej Dostępności

Osiągnięcie wysokiej dostępności wymaga zbudowania odpornej infrastruktury z wykorzystaniem specjalistycznego sprzętu i oprogramowania, które wyeliminują pojedyncze punkty podatności na awarie i ułatwią automatyczne przywracanie działania.

Chociaż specyficzna konfiguracja różni się w zależności od potrzeb i budżetu aplikacji, kilka kluczowych typów komponentów zazwyczaj stanowi budulec architektury HA:

Serwery redundantne: Wykorzystanie wielu fizycznych lub wirtualnych serwerów, często pogrupowanych w klastry. W typowych konfiguracjach, takich jak serwer aktywny-pasywny lub aktywny-aktywny, jeśli jedna z nich nie działa lub wymaga konserwacji, inna maszyna jest gotowa natychmiast przejąć jej zadania i zapewnić ciągłe przetwarzanie aplikacji.
Load Balancery Te urządzenia sprzętowe lub moduły oprogramowania rozdzielają ruch przychodzący i żądania aplikacji na grupę serwerów w klastrze. Dzięki temu unikniesz przeciążenia pojedynczego serwera, zwiększysz responsywność i, co najważniejsze, ograniczysz ruch z serwera, który uległ awarii lub został wyłączony.
Redundantna przestrzeń dyskowa: Dystrybucje przestrzeni dyskowej zaprojektowane z myślą o odporności. Funkcja ta często obejmuje wewnętrzne funkcje redundancji, takie jak RAID (Redundantna macierz niezależnych dysków) w ramach jednostki pamięci masowej i często wymaga replikacji danych między oddzielnymi fizycznymi systemami pamięci masowej (za pomocą funkcji replikacji SAN/NAS lub oprogramowania do replikacji na hostach), aby zapewnić dostępność danych nawet w przypadku awarii podstawowej pamięci masowej.
Redundantna infrastruktura sieciowa: Implementacja powielania ścieżek sieciowych. Wymaga to użycia wielu kart interfejsu sieciowego (NICS) w serwerach, redundantnych przełącznikach sieciowych i routerach oraz skonfigurowania wielu fizycznych połączeń między urządzeniami, aby zagwarantować, że pojedyncze przecięcie kabla sieciowego lub awaria urządzenia nie izolują systemów krytycznych.
Niezawodne zasilanie: Zapewnienie ciągłości zasilania poprzez nieprzerwane zasilacze (UPS) zapewnia natychmiastowe kopie zapasowe podczas krótkich wahań lub przerw w zasilaniu, co zapewnia nieprzerwaną pracę. Przez dłuższy czas często stosowane są generatory kopii zapasowych. Ochrona źródła zasilania jest kluczowa dla utrzymania stanu operacyjnego wszystkich innych komponentów HA.

Dokładna kombinacja i konfiguracja tych komponentów zależy w dużej mierze od specyficznych wymagań dotyczących dostępności, czasu przywrócenia (RTO), celów punktu przywracania (RPO) oraz budżetu dla chronionego systemu.

Jak Działa Wysoka Dostępność

Wysoka dostępność to coś więcej niż tylko posiadanie zapasowego sprzętu. To zautomatyzowany, dynamiczny proces zaprojektowany, aby utrzymać ciągłość usługi w przypadku awarii. Opiera się na stałej interakcji między redundantnymi komponentami, ciągłym monitoringu i inteligentnej orkiestracji oprogramowania w ramach często określanej jako klaster.

W typowej konfiguracji HA, kiedy zastanawiamy się, co to jest cloud computing i HA, skonfigurowanych jest wiele serwerów (węzłów) do współpracy, a także potencjalnie redundantna przestrzeń dyskowa i ścieżki sieciowe.

Podczas normalnej pracy aplikacje krytyczne działają na węźle głównym (lub w wielu aktywnych węzłach), a dane są w sposób ciągły replikowane na jeden lub więcej węzłów w trybie wstrzymania.

Kluczem do HA jest ciągła czujność: węzły klastra stale monitorują stan zdrowia drugiej osoby, często wykorzystując sygnały "heartbeat" - regularne komunikaty sieciowe, które potwierdzają, że żyją i działają poprawnie. Możliwe jest również przeprowadzanie kontroli kondycji specyficznych dla poszczególnych aplikacji, aby upewnić się, że same usługi reagują.

Gdy węzeł przestaje wysyłać bicie serca lub nie udaje mu się sprawdzić krytycznej kondycji po przekroczeniu zdefiniowanego progu, oprogramowanie klastrowe wykrywa tę awarię. To wykrycie automatycznie uruchamia proces przełączania awaryjnego.

Cały proces, od wykrycia do wznowienia działania usługi na węźle trybu failover, jest zaprojektowany tak, aby przebiegał automatycznie i szybko, często w ciągu kilku sekund lub minut, w zależności od konfiguracji i aplikacji.

Wysoka dostępność vs Disaster Recovery

Wysoka dostępność oraz funkcja awaryjnego odzyskiwania danych (DRP) są kluczowymi elementami solidnej strategii ciągłości działania, jednak kiedy zastanawiamy się, czym jest chmura publiczna, odpowiadają one różnym celom i odpowiadają na różne rodzaje scenariuszy awarii.

Zrozumienie ich różnic jest kluczowe dla kompleksowej ochrony. HA koncentruje się przede wszystkim na zapobieganiu przerwom w działaniu usług spowodowanym lokalizacją awarii, takich jak awaria jednego serwera, awaria jednego z elementów przestrzeni dyskowej lub usterka aplikacji w centrum danych lub w ściśle powiązanych strefach dostępności chmury.

Jest to możliwe dzięki automatycznemu przełączaniu awaryjnemu na redundantne komponenty działające w ramach tej samej ogólnej infrastruktury, przy minimalnych lub zerowych przerwach w działaniu (bardzo niski współczynnik RTO) oraz minimalnej lub zerowej utracie danych (bardzo niski współczynnik RPO).

Disaster Recovery natomiast przygotowuje się na wypadek katastrof na dużą skalę, które mogą spowodować, że całe główne centrum danych lub obiekt stanie się bezużyteczne - pomyśl o poważnych pożarach, powodziach, trzęsieniach ziemi lub rozległych przerwach w dostawie prądu, które mogą dotknąć cały obszar.

Wysoka dostępność w infrastrukturze IT

Osiągnięcie kompleksowej wysokiej dostępności przy rozważaniu, z czym wiąże się serwer wirtualny, wymaga nie tylko skupienia się na jednej aplikacji lub serwerze, ale także podejścia warstwowego, kładącego nacisk na odporność w całym stosie infrastruktury IT.

Zaniedbanie jednej warstwy może stworzyć pojedynczy punkt podatności na awarię, który osłabia cały wysiłek. Zasady HA znajdują zastosowanie w różnych dziedzinach technologii, co jest kluczowe przy rozważaniu, co oznacza VPS cloud, ponieważ dokładamy starań, aby zbudować naprawdę solidny system.

Na poziomie fizycznym i sieciowym HA wymaga redundancji w infrastrukturze, na której bazuje. Obejmują one korzystanie z redundantnych zasilaczy (wyposażonych w zasilacze i potencjalnie generatory), wielu kart interfejsu sieciowego (NIC) w serwerach, redundantnych przełączników sieciowych i routerów często skonfigurowanych w parach awaryjnych (za pomocą protokołów, takich jak HSRP lub VRRP) oraz różnych fizycznych ścieżek sieciowych w celu zapobiegania utracie łączności.

Zapory sieciowe są również często wdrażane w parach HA, aby zapewnić ciągłą dostępność mechanizmów kontroli bezpieczeństwa w przypadku awarii.

Dostępność serwerów jest kluczowa. Możliwe jest to często dzięki tworzeniu klastrów serwerów, za pomocą maszyn fizycznych lub, coraz częściej, dzięki funkcjom platformy do wirtualizacji (takim jak VMware vSphere HA lub Hyper-V Failover Clustering).

Utrzymanie Wysokiej Dostępności

Wdrożenie rozwiązania o wysokiej dostępności to pierwszy krok, jednak zapewnienie jego bieżącej skuteczności wymaga ciągłej uwagi, aktywnego zarządzania i regularnego zatwierdzania.

Wysoka dostępność nie jest technologią "set it and forget it"; wymaga ciągłej staranności długo po początkowej konfiguracji, aby zagwarantować, że w przypadku nieuchronnej awarii będzie działać zgodnie z oczekiwaniami. Skuteczne utrzymanie HA wiąże się z kilkoma kluczowymi działaniami:

Regularne testy Jest to prawdopodobnie najbardziej krytyczny aspekt konserwacji HA. Okresowe przeprowadzanie kontrolowanych testów awaryjnych i awaryjnych (wierceń) jest niezbędne do sprawdzenia, czy mechanizmy zautomatyzowane działają prawidłowo, czy procedury awaryjnego odzyskiwania danych są dokładne i zrozumiałe dla personelu, a system przywraca się do działania w oczekiwanym czasie poawaryjnego (RTO).
Stały monitoring i alerty: Czujne, stałe monitorowanie wszystkich komponentów ekosystemu HA - w tym stanu serwerów, połączenia sieciowego, statusu przestrzeni dyskowej, opóźnień w replikacji danych oraz integralności, a także reaktywności aplikacji - ma fundamentalne znaczenie. Należy skonfigurować solidne systemy ostrzegania, aby niezwłocznie powiadamiać odpowiedni personel IT.
Zarządzanie poprawkami i aktualizacjami: Aktualizowanie systemów operacyjnych, aplikacji i oprogramowania HA oraz łatek bezpieczeństwa i aktualizacji funkcjonalności ma kluczowe znaczenie. Aby jednak uniknąć nieumyślnych przestojów, instalacje poprawek muszą być starannie przeprowadzane w środowisku o wysokiej dostępności.
Zarządzanie konfiguracją i jej spójność: Kluczowe jest zapewnienie, aby ustawienia konfiguracji - obejmujące system operacyjny, aplikacje, politykę bezpieczeństwa oraz parametry oprogramowania HA - pozostały identyczne i zsynchronizowane we wszystkich redundantnych węzłach.

Konsekwentnie przeprowadzane prace konserwacyjne przekładają się na wysoką dostępność z teoretycznych możliwości w niezawodną rzeczywistość operacyjną. Ta nieustanna praca gwarantuje, że początkowe inwestycje nadal zapewniają ochronę krytycznych usług biznesowych, co jest koniecznością dla firm na całym świecie.

Rozwiązania OVHcloud i High Availability

OVHcloud oferuje elastyczną chmurę publiczną, bezpieczną chmurę prywatną na dedykowanym sprzęcie oraz serwery bare metal o wysokiej wydajności. Wybierz skalowalne zasoby na żądanie, zwiększoną kontrolę i izolację lub bezpośredni dostęp do sprzętu, aby uzyskać maksymalną wydajność i stałą wysoką dostępność:

Public Cloud

Skorzystaj z elastyczności i skalowalności rozwiązań Public Cloud od OVHcloud. Twórz, wdrażaj i zarządzaj aplikacjami za pomocą zasobów na żądanie, w tym instancji obliczeniowych, przestrzeni dyskowej i sieci, opartych na otwartych standardach, takich jak OpenStack.

Zobacz więcej →

Chmura prywatna

Zyskaj większą kontrolę, bezpieczeństwo i wydajność dzięki Hosted Private Cloud od OVHcloud. Usługa ta, oparta na wiodącej w branży technologii VMware, zapewnia dedykowane zasoby sprzętowe, przewidywalną wydajność i niezawodną izolację aplikacji o krytycznym znaczeniu. Kiedy zastanawiamy się, czym jest chmura prywatna, możemy powiedzieć, że jest ona idealna dla firm wymagających wysokiego poziomu bezpieczeństwa, suwerenności danych i spersonalizowanych konfiguracji infrastruktury.

Zobacz więcej →

Serwery Bare Metal

Zyskaj maksymalną wydajność i pełną kontrolę dzięki serwerom Bare Metal od OVHcloud. Bezpośredni dostęp do dedykowanego sprzętu fizycznego bez warstwy wirtualizacji zapewnia optymalną moc przetwarzania i wydajność I/O w przypadku najbardziej wymagających obciążeń.

Zobacz więcej →