Omówienie
Ta seria zawiera ilustracyjny przykład sposobu, w jaki organizacja może zaprojektować strategię odzyskiwania po awarii dla platformy danych przedsiębiorstwa platformy Azure.
- Ta seria artykułów stanowi uzupełnienie wskazówek dostarczonych przez przewodnik Cloud Adoption Framework firmy Microsoft, platformę Azure Well-Architected Framework i zarządzanie ciągłością działalności biznesowej.
Platforma Azure oferuje szeroką gamę opcji odporności, które mogą zapewnić ciągłość usług w przypadku awarii. Jednak wyższe poziomy usług mogą wprowadzać złożoność i koszt premium. Kompromis kosztów w porównaniu z odpornością i złożonością jest kluczowym czynnikiem decyzyjnym dla większości klientów dotyczących odzyskiwania po awarii.
Podczas gdy sporadyczne awarie punktów występują na platformie Azure, centra danych platformy Azure i usługi platformy Azure firmy Microsoft mają wiele warstw wbudowanej nadmiarowości. Każda awaria jest zwykle ograniczona w zakresie i jest zwykle korygowana w ciągu kilku godzin. Historycznie znacznie bardziej prawdopodobne jest, że usługa kluczy, taka jak zarządzanie tożsamościami, napotyka problem z usługą, a nie cały region świadczenia usługi w trybie offline.
Należy również przyznać, że cyberataki, szczególnie oprogramowanie wymuszające okup, stanowią teraz namacalne zagrożenie dla dowolnego nowoczesnego ekosystemu danych i mogą spowodować awarię platformy danych. Chociaż jest to poza zakresem tej serii, klienci powinni zaimplementować mechanizmy kontroli przed takimi atakami w ramach projektu zabezpieczeń i odporności dowolnej platformy danych.
- Wskazówki firmy Microsoft dotyczące ochrony przed oprogramowaniem wymuszającym okup są dostępne w temacie Podstawy chmury platformy Azure
Scope
Zakres tej serii artykułów obejmuje:
- Odzyskiwanie usługi platformy Danych Platformy Azure z fizycznej awarii dla ilustracyjnych osób klienta. Ten ilustracyjny klient to:
- W średniej organizacji ze zdefiniowaną funkcją obsługi operacyjnej, zgodnie z metodologią zarządzania usługami opartą na bibliotece ITIL (Information Technology Infrastructure Library).
- Nie natywne dla chmury, z podstawowymi usługami przedsiębiorstwa, udostępnionymi usługami, takimi jak zarządzanie dostępem i uwierzytelnianiem oraz zarządzanie zdarzeniami pozostają w środowisku lokalnym.
- W drodze migracji do chmury na platformę Azure, która jest włączona przez automatyzację.
- Platforma danych platformy Azure zaimplementowała następujące projekty w dzierżawie platformy Azure klienta:
- Strefa docelowa przedsiębiorstwa — zapewnienie podstaw platformy, w tym sieci, monitorowania, zabezpieczeń itd.
- Platforma analizy platformy Azure — dostarczanie składników danych, które obsługują różne rozwiązania i produkty danych dostarczane przez usługę.
- Procesy opisane w tym artykule będą wykonywane przez zasób techniczny platformy Azure, a nie wyspecjalizowany ekspert w dziedzinie platformy Azure (SME). W związku z tym zasoby powinny mieć następujący poziom wiedzy/umiejętności:
- Podstawy platformy Azure — wiedza na temat platformy Azure, jej podstawowych usług i składników danych.
- Praca na temat usługi Azure DevOps. Możliwość nawigowania po kontroli źródła i wykonywaniu wdrożeń potoków.
- Te procesy opisane w tym artykule obejmują operacje trybu failover usługi z regionu podstawowego do pomocniczego.
Poza zakresem
Następujące elementy są uznawane za poza zakresem tej serii artykułów:
- Proces rezerwowy z regionu pomocniczego z powrotem do regionu podstawowego.
- Wszystkie aplikacje, składniki lub systemy spoza platformy Azure — dotyczy to również lokalnych, innych dostawców usług w chmurze, usług internetowych innych firm itd.
- Odzyskiwanie wszelkich usług nadrzędnych, takich jak sieci lokalne, bramy, usługi udostępnione przedsiębiorstwa i inne, niezależnie od zależności od tych usług.
- Odzyskiwanie wszelkich usług podrzędnych, takich jak lokalne systemy operacyjne, systemy raportowania innych firm, modelowanie danych lub aplikacje do nauki o danych i inne, niezależnie od zależności od tych usług.
- Scenariusze utraty danych, w tym odzyskiwanie z oprogramowania wymuszającego okup lub podobne zdarzenia zabezpieczeń danych
- Strategie tworzenia kopii zapasowych danych i plany przywracania danych
- Ustanowienie głównej przyczyny zdarzenia odzyskiwania po awarii.
- W przypadku zdarzeń usługi/składnika platformy Azure firma Microsoft publikuje "główną analizę przyczyn" na stronie internetowej Stan — historia
Kluczowe założenia
Kluczowe założenia dotyczące tego przykładu odzyskiwania po awarii to:
- Organizacja jest zgodna z metodologią zarządzania usługą opartą na itIL na potrzeby obsługi operacyjnej platformy danych Azure.
- Organizacja ma istniejący proces odzyskiwania po awarii w ramach struktury przywracania usług dla zasobów IT.
- Infrastruktura jako kod (IaC) została użyta do wdrożenia platformy danych platformy Azure włączonej przez usługę automatyzacji, taką jak Azure DevOps lub podobna.
- Każde rozwiązanie hostowane przez platformę danych platformy Azure ukończyło ocenę wpływu na działalność lub podobne, zapewniając jasne wymagania dotyczące usługi dla celu punktu odzyskiwania (RPO), celu czasu odzyskiwania (RTO) i średniego czasu odzyskiwania metryk (MTTR).
Następne kroki
Teraz, po zapoznaniu się ze scenariuszem na wysokim poziomie, możesz przejść dalej, aby dowiedzieć się więcej o architekturze zaprojektowanej dla przypadku użycia.
Powiązane zasoby
- Odzyskiwanie po awarii dla platformy Azure Data Platform — architektura
- Odzyskiwanie po awarii dla platformy Azure Data Platform — szczegóły scenariusza
- Odzyskiwanie po awarii dla platformy Azure Data Platform — zalecenia
- Odzyskiwanie po awarii dla platformy Azure Data Platform — wdrażanie tego scenariusza