Odzyskiwanie po awarii dla platformy Azure Data Platform — omówienie

Azure Synapse Analytics
Azure Machine Learning
Azure Cosmos DB
Azure Data Lake
Azure Event Hubs

Omówienie

Ta seria zawiera ilustracyjny przykład sposobu, w jaki organizacja może zaprojektować strategię odzyskiwania po awarii dla platformy danych przedsiębiorstwa platformy Azure.

Platforma Azure oferuje szeroką gamę opcji odporności, które mogą zapewnić ciągłość usług w przypadku awarii. Jednak wyższe poziomy usług mogą wprowadzać złożoność i koszt premium. Kompromis kosztów w porównaniu z odpornością i złożonością jest kluczowym czynnikiem decyzyjnym dla większości klientów dotyczących odzyskiwania po awarii.

Podczas gdy sporadyczne awarie punktów występują na platformie Azure, centra danych platformy Azure i usługi platformy Azure firmy Microsoft mają wiele warstw wbudowanej nadmiarowości. Każda awaria jest zwykle ograniczona w zakresie i jest zwykle korygowana w ciągu kilku godzin. Historycznie znacznie bardziej prawdopodobne jest, że usługa kluczy, taka jak zarządzanie tożsamościami, napotyka problem z usługą, a nie cały region świadczenia usługi w trybie offline.

Należy również przyznać, że cyberataki, szczególnie oprogramowanie wymuszające okup, stanowią teraz namacalne zagrożenie dla dowolnego nowoczesnego ekosystemu danych i mogą spowodować awarię platformy danych. Chociaż jest to poza zakresem tej serii, klienci powinni zaimplementować mechanizmy kontroli przed takimi atakami w ramach projektu zabezpieczeń i odporności dowolnej platformy danych.

  • Wskazówki firmy Microsoft dotyczące ochrony przed oprogramowaniem wymuszającym okup są dostępne w temacie Podstawy chmury platformy Azure

Scope

Zakres tej serii artykułów obejmuje:

  • Odzyskiwanie usługi platformy Danych Platformy Azure z fizycznej awarii dla ilustracyjnych osób klienta. Ten ilustracyjny klient to:
    • W średniej organizacji ze zdefiniowaną funkcją obsługi operacyjnej, zgodnie z metodologią zarządzania usługami opartą na bibliotece ITIL (Information Technology Infrastructure Library).
    • Nie natywne dla chmury, z podstawowymi usługami przedsiębiorstwa, udostępnionymi usługami, takimi jak zarządzanie dostępem i uwierzytelnianiem oraz zarządzanie zdarzeniami pozostają w środowisku lokalnym.
    • W drodze migracji do chmury na platformę Azure, która jest włączona przez automatyzację.
  • Platforma danych platformy Azure zaimplementowała następujące projekty w dzierżawie platformy Azure klienta:
    • Strefa docelowa przedsiębiorstwa — zapewnienie podstaw platformy, w tym sieci, monitorowania, zabezpieczeń itd.
    • Platforma analizy platformy Azure — dostarczanie składników danych, które obsługują różne rozwiązania i produkty danych dostarczane przez usługę.
  • Procesy opisane w tym artykule będą wykonywane przez zasób techniczny platformy Azure, a nie wyspecjalizowany ekspert w dziedzinie platformy Azure (SME). W związku z tym zasoby powinny mieć następujący poziom wiedzy/umiejętności:
  • Te procesy opisane w tym artykule obejmują operacje trybu failover usługi z regionu podstawowego do pomocniczego.

Poza zakresem

Następujące elementy są uznawane za poza zakresem tej serii artykułów:

  • Proces rezerwowy z regionu pomocniczego z powrotem do regionu podstawowego.
  • Wszystkie aplikacje, składniki lub systemy spoza platformy Azure — dotyczy to również lokalnych, innych dostawców usług w chmurze, usług internetowych innych firm itd.
  • Odzyskiwanie wszelkich usług nadrzędnych, takich jak sieci lokalne, bramy, usługi udostępnione przedsiębiorstwa i inne, niezależnie od zależności od tych usług.
  • Odzyskiwanie wszelkich usług podrzędnych, takich jak lokalne systemy operacyjne, systemy raportowania innych firm, modelowanie danych lub aplikacje do nauki o danych i inne, niezależnie od zależności od tych usług.
  • Scenariusze utraty danych, w tym odzyskiwanie z oprogramowania wymuszającego okup lub podobne zdarzenia zabezpieczeń danych
  • Strategie tworzenia kopii zapasowych danych i plany przywracania danych
  • Ustanowienie głównej przyczyny zdarzenia odzyskiwania po awarii.

Kluczowe założenia

Kluczowe założenia dotyczące tego przykładu odzyskiwania po awarii to:

  • Organizacja jest zgodna z metodologią zarządzania usługą opartą na itIL na potrzeby obsługi operacyjnej platformy danych Azure.
  • Organizacja ma istniejący proces odzyskiwania po awarii w ramach struktury przywracania usług dla zasobów IT.
  • Infrastruktura jako kod (IaC) została użyta do wdrożenia platformy danych platformy Azure włączonej przez usługę automatyzacji, taką jak Azure DevOps lub podobna.
  • Każde rozwiązanie hostowane przez platformę danych platformy Azure ukończyło ocenę wpływu na działalność lub podobne, zapewniając jasne wymagania dotyczące usługi dla celu punktu odzyskiwania (RPO), celu czasu odzyskiwania (RTO) i średniego czasu odzyskiwania metryk (MTTR).

Następne kroki

Teraz, po zapoznaniu się ze scenariuszem na wysokim poziomie, możesz przejść dalej, aby dowiedzieć się więcej o architekturze zaprojektowanej dla przypadku użycia.