Niezawodność w usłudze Azure Event Grid

Azure Event Grid to w pełni zarządzana usługa obsługi komunikatów, która umożliwia komunikację opartą na zdarzeniach między usługami i aplikacjami. Jest ona często używana do tworzenia architektur opartych na zdarzeniach i integrowania usług platformy Azure z aplikacjami niestandardowymi.

W przypadku korzystania z platformy Azure niezawodność jest wspólną odpowiedzialnością. Firma Microsoft oferuje szereg możliwości wspierania odporności systemów i odzyskiwania. Odpowiadasz za zrozumienie, jak te możliwości działają w ramach wszystkich używanych usług oraz za wybór tych, które są potrzebne do osiągnięcia Twoich celów biznesowych i celów dotyczących niezawodności.

W tym artykule opisano, jak usługa Event Grid jest odporna na różne potencjalne awarie i problemy, w tym błędy przejściowe, awarie strefy dostępności i awarie całego regionu. Wyróżnia również kluczowe informacje o umowie dotyczącej poziomu usług (SLA) usługi Event Grid.

Zalecenia dotyczące wdrażania produkcyjnego

Struktura Azure Well-Architected zawiera zalecenia dotyczące niezawodności, zabezpieczeń, kosztów, operacji i wydajności. Aby zrozumieć, jak te obszary wpływają na siebie i przyczyniają się do tworzenia niezawodnego rozwiązania Event Grid, zobacz Najlepsze praktyki architektoniczne dla Azure Event Grid.

Omówienie architektury niezawodności

W tej sekcji opisano niektóre ważne aspekty działania usługi, które są najbardziej istotne z perspektywy niezawodności. W sekcji przedstawiono architekturę logiczną, która zawiera niektóre z zasobów i funkcji wdrażanych i używanych. Omówiono również architekturę fizyczną, która zawiera szczegółowe informacje na temat działania usługi za kulisami.

Architektura logiczna

Usługa Event Grid kieruje zdarzenia od wydawców zdarzeń do odbiorców zdarzeń. Jest on używany zarówno przez aplikacje klienta, jak i usługi Azure do emitowania i zużywania zdarzeń, takich jak powiadomienia o tworzeniu, aktualizowaniu lub usuwaniu zasobów.

Usługa Event Grid obsługuje wiele typów zasobów i modeli wdrażania:

Tematy to jednostki podstawowe, które odbierają i przechowują zdarzenia.

Tematy systemowe są tworzone automatycznie przez usługi platformy Azure w celu emitowania zdarzeń dla określonych typów zasobów platformy Azure. Tematy niestandardowe są tworzone i zarządzane przez Ciebie.

Tematy mogą obsługiwać zarówno dostarczanie push, jak i pull.
Domeny zdarzeń grupują wiele tematów własnych w ramach jednego punktu końcowego, aby uprościć publikowanie zdarzeń. Aby uzyskać więcej informacji, zobacz Omówienie domen zdarzeń do zarządzania tematami usługi Event Grid.
Przestrzenie nazw są używane z warstwą Standard i zapewniają kontener dla wielu zasobów usługi Event Grid. Aby uzyskać więcej informacji, zobacz Pojęcia dotyczące przestrzeni nazw usługi Azure Event Grid.

Usługa Event Grid obsługuje wiele warstw, w tym warstwę Podstawowa i warstwę Standardowa. Te warstwy zapewniają różne możliwości i różnią się sposobem wdrażania zasobów i zarządzania nimi. Aby uzyskać więcej informacji, zobacz Wybieranie odpowiedniej warstwy usługi Event Grid dla rozwiązania.

Architektura fizyczna

Event Grid to w pełni zarządzana usługa. Firma Microsoft zarządza podstawową infrastrukturą, w tym zasobami obliczeniowymi i magazynowymi. W obsługiwanych regionach usługa Event Grid automatycznie rozdziela zasoby w strefach dostępności, aby zapewnić wbudowaną redundantność strefową.

Odporność na błędy przejściowe

Błędy przejściowe to krótkotrwałe, sporadyczne awarie w komponentach. Występują one często w środowisku rozproszonym, takich jak chmura, i są one normalną częścią operacji. Błędy przejściowe naprawiają się po krótkim czasie. Ważne jest, aby aplikacje mogły obsługiwać błędy przejściowe, zwykle ponawiając próby żądań, których dotyczy problem.

Wszystkie aplikacje hostowane w chmurze powinny postępować zgodnie ze wskazówkami dotyczącymi obsługi błędów przejściowych platformy Azure podczas komunikowania się z dowolnymi interfejsami API hostowanymi w chmurze, bazami danych i innymi składnikami. Aby uzyskać więcej informacji, zobacz Zalecenia dotyczące obsługi błędów przejściowych.

W przypadku korzystania z usługi Event Grid należy wziąć pod uwagę następujące rozwiązania, aby upewnić się, że rozwiązanie jest odporne na błędy przejściowe:

Wydawcy zdarzeń. Gdy aplikacja kliencka publikuje zdarzenia w usłudze Event Grid, jest odpowiedzialna za obsługę przejściowych błędów. Aplikacje powinny implementować logikę ponawiania prób podczas publikowania zdarzeń. Aby uzyskać więcej informacji, zobacz Rozwiązywanie przejściowych problemów z łącznością.

Zalecamy używanie zestawów SDK płaszczyzny danych usługi Event Grid, które automatycznie zapewniają obsługę błędów przejściowych.
Odbiorcy zdarzeń. Usługa Event Grid dostarcza zdarzenia do skonfigurowanych miejsc docelowych. W przypadku tych połączeń wychodzących konfigurujesz polityki ponawiania prób dla subskrypcji zdarzeń. Te zasady określają, jak często i jak długo usługa Event Grid ponawia próbę dostarczania w przypadku wystąpienia awarii, w tym błędów przejściowych. Aby uzyskać więcej informacji, zobacz Dostarczanie wiadomości typu push i ponowne próby w przypadku tematów przestrzeni nazw.
Idempotentność. Dobrym rozwiązaniem jest zaprojektowanie architektury zdarzeń zapewniającej idempotentność, co oznacza, że aplikacja może bezpiecznie odbierać i przetwarzać to samo zdarzenie wielokrotnie. Jeśli na przykład wystąpi błąd przejściowy lub inny problem podczas przetwarzania zdarzenia przez aplikację, stosując podejście idempotentne, aplikacja może ponownie przetworzyć komunikat i przywrócić.

Odpowiadasz za projektowanie architektury zdarzeń i aplikacji w celu obsługi idempotentności. Aby uzyskać ogólne informacje, zobacz Idempotencja.
Martwe listy. Usługa Event Grid obsługuje przechowywanie wiadomości niedostarczonych dla zdarzeń niemożliwych do dostarczenia, co pomaga przechowywać dane podczas długotrwałych błędów w konsumentach zdarzeń. Aby uzyskać więcej informacji, zobacz Martwe litery subskrypcji zdarzeń w tematach przestrzeni nazw w usłudze Event Grid.

Odporność na błędy strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Zasoby usługi Event Grid są strefowo nadmiarowe w regionach, które obsługują strefy dostępności. Nadmiarowość strefy oznacza, że nawet w przypadku wystąpienia problemu w strefie dostępności zasoby usługi Event Grid nadal działają przy użyciu infrastruktury w innych strefach. Dane zdarzeń są automatycznie replikowane w trzech strefach dostępności dla zapewnienia odporności w obrębie regionu, a usługa Event Grid samoczynnie się naprawia podczas awarii całej strefy. Nie musisz włączać ani konfigurować tej funkcji.

Diagram przedstawiający strefowo nadmiarowe zasoby usługi Event Grid w regionie z trzema strefami dostępności.

Wymagania

Obsługa regionów: Nadmiarowość strefowa jest dostępna we wszystkich regionach Azure, które obsługują strefy dostępności.

Koszt

Redundancja strefowa nie wiąże się z dodatkowym kosztem. Nie można włączyć ani wyłączyć tej funkcji. Jest ona domyślnie dołączona do obsługiwanych regionów.

Konfiguruj obsługę stref dostępności

Nie jest wymagana żadna konfiguracja. Wszystkie zasoby usługi Event Grid w obsługiwanych regionach są automatycznie strefowo nadmiarowe.

Zachowanie, gdy wszystkie strefy są w dobrej kondycji

W tej sekcji opisano, czego można oczekiwać, gdy zasób usługi Event Grid jest strefowo nadmiarowy, a wszystkie strefy działają.

Operacja między strefami: Usługa Event Grid działa w modelu aktywny-aktywny w różnych strefach dostępności. Połączenia klienckie są automatycznie rozkładane pomiędzy strefy, a usługa kieruje operacje do dostępnej infrastruktury obsługi komunikatów, niezależnie od wybranej strefy.
Replikacja danych między strefami: Usługa Event Grid automatycznie replikuje metadane i dane zdarzeń w strefach dostępności, aby zachować odporność.

Zachowanie podczas awarii strefy

W tej sekcji opisano, czego można oczekiwać, gdy zasób usługi Event Grid jest strefowo nadmiarowy i występuje awaria w jednej ze stref.

Wykrywanie i reagowanie: Usługa Event Grid automatycznie wykrywa błędy strefy i inicjuje przełączanie na inne sprawne strefy. Nie musisz nic robić, aby zainicjować tryb failover strefy.

Powiadomienie: Firma Microsoft nie powiadamia cię automatycznie, gdy strefa nie działa. Można jednak użyć Azure Service Health aby zrozumieć ogólną kondycję usługi, w tym wszelkie błędy strefy, i skonfigurować alerty Service Health w celu powiadamiania o problemach.

Aktywne żądania: Podczas awarii strefy usługa Event Grid może usuwać aktywne żądania. Jeśli klienci odpowiednio obsługują błędy przejściowe, na przykład poprzez ponowne próbowanie po krótkim czasie, zwykle unikają znaczących skutków.
Oczekiwana utrata danych: Model nadmiarowości stref Event Grid został zaprojektowany, aby zapewnić odporność na awarie stref przy minimalnym skutku. Jednak podczas awarii strefy możliwa jest utrata danych.

Jeśli musisz upewnić się, że aplikacja nie utraci danych podczas awarii strefy, należy:
- Zaprojektuj producentów zdarzeń i konsumentów, aby postępowali zgodnie z zaleceniami dotyczącymi obsługi błędów przejściowych, w tym ponownych prób i idempotencji.
- Zaplanuj trwałość zdarzeń w źródle lub w trwałym repozytorium zdarzeń.
Oczekiwany przestój: Awaria strefy może spowodować kilka sekund przestoju. Jeśli klienci odpowiednio obsługują błędy przejściowe, na przykład poprzez ponowne próbowanie po krótkim czasie, zwykle unikają znaczących skutków.
Przekierowywanie ruchu: Usługa Event Grid wykrywa utratę strefy i automatycznie przekierowuje nowe żądania do infrastruktury w jednej ze stref dostępności w dobrej kondycji.

Odzyskiwanie strefy

Po odzyskaniu strefy, której dotyczy problem, usługa Event Grid automatycznie ponownie integruje ją z usługą bez konieczności akcji klienta. Odzyskana strefa akceptuje następnie nowe połączenia i przetwarza komunikaty wraz z innymi strefami. Dane replikowane do stref ocalałych podczas awarii pozostają nienaruszone, a normalne replikacje są wznawiane we wszystkich strefach. Nie musisz podejmować działania w celu odzyskiwania strefy ani reintegracji.

Testowanie pod kątem niepowodzeń strefy

Usługa Event Grid zarządza routingiem ruchu, przełączaniem awaryjnym i odzyskiwaniem strefy w przypadku awarii strefy, dzięki czemu nie trzeba weryfikować procesów awarii stref dostępności ani udostępniać dalszych danych wejściowych.

Odporność na awarie całego regionu

Zasoby usługi Event Grid są wdrażane w jednym regionie. Jeśli wystąpi awaria całego regionu, zasoby usługi Event Grid są niedostępne.

W sparowanych regionach Azure usługa Event Grid zapewnia ograniczone odzyskiwanie po awarii geograficznej dla metadanych zasobów Event Grid. Możesz również zaprojektować i utworzyć własne rozwiązanie z wieloma regionami, które może obsługiwać planowanie odzyskiwania po awarii. W poniższej tabeli pokazano, jak różne typy zasobów usługi Event Grid obsługują każdy model.

Zasób usługi Event Grid	Obsługuje odzyskiwanie po katastrofach geograficznych	Obsługuje rozwiązanie niestandardowe
Tematy niestandardowe	Wsparte	Wsparte
Tematy systemowe	Włączone automatycznie	Niewspierane
Domeny	Wsparte	Wsparte
Przestrzenie nazw	Niewspierane	Wsparte
Przestrzenie nazw partnerów	Niewspierane	Wsparte

Odzyskiwanie po awarii geograficznej metadanych

Odzyskiwanie po awarii geograficznej replikuje metadane usługi Event Grid do sparowanego regionu głównego dla obsługiwanych zasobów. Dane zdarzenia nie są replikowane.

Odzyskiwanie po awarii geograficznej jest zaprojektowane jako zarządzane przez Microsoft rozwiązanie zapasowe na zasadzie "najlepszych starań" na wypadek poważnych awarii regionalnych i nie ma na celu zapewnienia szybkiego ani przewidywalnego czasu odzyskiwania. Zainicjowany przez firmę Microsoft tryb failover jest wykonywany w rzadkich sytuacjach, aby przełączyć zasoby usługi Event Grid z regionu dotkniętego problemem do odpowiedniego regionu sparowanego geograficznie. Microsoft zastrzega sobie prawo do określenia, kiedy należy skorzystać z tej opcji. Ten mechanizm nie obejmuje zgody klienta przed przejściem ruchu w tryb failover.

Ważne

Firma Microsoft wyzwala tryb failover zarządzany przez firmę Microsoft. Prawdopodobnie wystąpi po znaczącym opóźnieniu i zostanie wykonane w miarę możliwości. Przejście w tryb failover zasobów usługi Event Grid może wystąpić w czasie, który różni się od czasu przejścia w tryb failover innych usług platformy Azure.

Jeśli potrzebujesz odporności na awarie regionów, rozważ użycie jednego z niestandardowych rozwiązań z wieloma regionami w celu zapewnienia odporności.

Opcjonalnie możesz wyłączyć odzyskiwanie po katastrofie geograficznej i użyć własnego niestandardowego rozwiązania z wieloma regionami, które spełnia wymagania dotyczące wyboru regionu, czasu przełączenia awaryjnego oraz innych kryteriów. Po wyłączeniu odzyskiwania po awarii geograficznej Microsoft nie replikuje żadnych danych zdarzeń do innego regionu.

Ta funkcja nie jest dostępna w regionach, w których nie ma sparowanego regionu.

Wymagania

Obsługa regionów: Odzyskiwanie po awarii geograficznej jest dostępne tylko w regionach świadczenia usługi Azure, które mają sparowany region.
Typy zasobów: Niestandardowe tematy i domeny wspierają odzyskiwanie danych po katastrofach geograficznych. Tematy systemowe są włączane automatycznie na potrzeby odzyskiwania po awarii geograficznej. Inne typy zasobów, takie jak przestrzenie nazw i przestrzenie nazw partnerów, nie są obsługiwane.

Koszt

Nie ma dodatkowych kosztów odzyskiwania po awarii geograficznej.

Konfigurowanie obsługi wielu regionów

W obsługiwanych regionach tematy systemowe są automatycznie konfigurowane na potrzeby odzyskiwania po katastrofach geograficznych. W przypadku innych typów zasobów usługi Event Grid:

Aby włączyć odzyskiwanie po awarii geograficznej: Zaktualizuj konfigurację tematu lub domeny i wybierz pozycję Cross-Geo (ustawienie domyślne).
Aby wyłączyć odzyskiwanie po awarii geograficznej: Zaktualizuj konfigurację tematu lub domeny i wybierz pozycję Regionalny.

Zachowanie, gdy wszystkie regiony są w dobrej kondycji

W tej sekcji opisano, czego można oczekiwać, gdy zasób usługi Event Grid jest skonfigurowany do odzyskiwania po awarii geograficznej, a wszystkie regiony działają.

Operacja między regionami: Cały ruch jest kierowany do regionu podstawowego.
Replikacja danych między regionami: Metadane są synchronicznie replikowane do sparowanego regionu. Dane zdarzenia nie są replikowane.

Zachowanie podczas awarii regionu

W tej sekcji opisano, czego można oczekiwać po skonfigurowaniu zasobu usługi Event Grid na potrzeby odzyskiwania po awarii geograficznym i gdy wystąpi braku dostępności w regionie podstawowym.

Wykrywanie i reagowanie: Firma Microsoft wykrywa błędy regionów i określa, czy i kiedy należy zainicjować tryb failover.

Powiadomienie: Firma Microsoft nie powiadamia cię automatycznie, gdy region nie działa. Możesz jednak użyć usługi Azure Service Health , aby zrozumieć ogólną kondycję usługi, w tym wszelkie awarie regionów, i skonfigurować alerty usługi Service Health w celu powiadamiania o problemach.

Aktywne żądania: Aktywne żądania do regionu podstawowego są przerywane. Aplikacje klienckie muszą ponownie spróbować wykonania tych żądań po zakończeniu procesu przełączania.
Oczekiwana utrata danych:
- Metadane. Usługa Event Grid zachowuje metadane podczas pracy w trybie failover. Ponieważ wszystkie zmiany metadanych są synchronicznie replikowane, nie oczekuje się utraty metadanych.
- Dane zdarzenia. Dane zdarzeń w regionie podstawowym są niedostępne i mogą zostać utracone, jeśli region jest nieodwracalny.
  
  Po przejściu w tryb failover nowe dane są przetwarzane z sparowanego regionu. Nieprzetworzone zdarzenia są wysyłane z regionu podstawowego, gdy tylko awaria zostanie złagodzona. Jeśli odzyskiwanie regionu podstawowego wymaga dłuższego czasu niż wartość czasu wygaśnięcia ustawiona na zdarzenia, dane w regionie podstawowym mogą zostać usunięte. Aby wyeliminować tę utratę danych, zalecamy skonfigurowanie miejsca docelowego utraconych komunikatów dla subskrypcji zdarzeń.
  
  Jeśli region, którego dotyczy problem, zostanie utracony i nieodwracalny, nastąpi utrata danych. W najlepszym przypadku konsument utrzymuje szybkość publikowania i traci tylko kilka sekund danych. Najgorszy scenariusz występuje, gdy użytkownik nie przetwarza aktywnie zdarzeń. W przypadku maksymalnego czasu wygaśnięcia przez 24 godziny utrata danych może wynosić nawet 24 godziny.
  
  Uwaga / Notatka
  
  Usługa Event Grid nie może zagwarantować przechowywania danych podczas awarii regionu. Jeśli potrzebujesz gwarantowanego przechowywania, musisz zaprojektować aplikację, aby trwale przechowywać zdarzenia w innym magazynie danych.
Oczekiwany przestój: Czas przestoju zależy od ważności awarii i czasu wymaganego przez firmę Microsoft do oceny i zainicjowania trybu failover. Należy oczekiwać, że przestój będzie co najmniej jedną godzinę, a może dłużej.

Usługa Event Grid rozpoczyna akceptowanie ruchu dla tematów i subskrypcji, w tym operacji tworzenia, aktualizacji i usuwania, w ciągu pięciu minut od rozpoczęcia procedury failover.
Redystrybucja: Po zakończeniu przełączenia awaryjnego ruch jest automatycznie kierowany do regionu zapasowego.

Odzyskiwanie regionów

Microsoft zarządza odzyskiwaniem regionów, a proces odzyskiwania zależy od konkretnego scenariusza awarii. Ogólnie rzecz biorąc, tryb failover jest traktowany jako operacja jednokierunkowa.

Testowanie pod kątem błędów regionów

Usługa Event Grid zarządza routingiem ruchu, przełączaniem awaryjnym i odzyskiwaniem podczas awarii geograficznej. Nie musisz nic inicjować. Ponieważ ta funkcja jest w pełni zarządzana, nie trzeba weryfikować procesów awarii regionu.

Niestandardowe rozwiązania obejmujące wiele regionów w celu zapewnienia odporności

Możesz chcieć wyłączyć lub nie polegać na przełączeniu awaryjnym zainicjowanym przez Microsoft z jednego z następujących powodów:

Dane zdarzeń, a nie tylko metadane, są wymagane do replikacji między regionami.
Należy zagwarantować określony czas przełączenia awaryjnego lub odpowiednie podejście. Przejście w tryb failover zainicjowane przez firmę Microsoft jest wykonywane na zasadzie najlepszego nakładu pracy.
Region nie jest sparowany z innym regionem świadczenia usługi Azure.
Para przypisana do twojego regionu nie spełnia wymagań organizacji dotyczących rezydencji danych.

Aby uzyskać wyższy poziom kontroli i przewidywalności, można zaimplementować niestandardowe architektury obejmujące wiele regionów. Takie podejście obejmuje wdrażanie oddzielnych zasobów usługi Event Grid w wielu regionach i zarządzanie trybem failover na poziomie aplikacji. W przypadku korzystania z tego modelu odpowiadasz za wdrażanie i konfigurowanie zasobów oraz synchronizowanie ich w różnych regionach.

Podczas projektowania rozwiązania z wieloma regionami należy wziąć pod uwagę następujące czynniki:

Replikacja. Należy zaimplementować niestandardowy proces replikowania zasobów usługi Event Grid i ich konfiguracji między regionami podstawowymi i pomocniczymi. Pamiętaj, aby replikować tożsamości klientów, certyfikaty urzędu certyfikacji, grupy klientów, przestrzenie tematów i powiązania uprawnień, jeśli ma to zastosowanie. Możesz zdecydować, czy zaimplementować replikację ręczną, czy zautomatyzowaną.
Podejścia do przełączania awaryjnego. Możesz wybrać, czy utworzyć rozwiązanie aktywne-aktywne lub aktywne-pasywne:
- Rozwiązania aktywne-aktywne można osiągnąć przez replikowanie metadanych i równoważenie obciążenia między przestrzeniami nazw.
- Rozwiązania aktywne-pasywne można osiągnąć przez replikowanie metadanych w celu zapewnienia gotowości pomocniczej przestrzeni nazw, aby gdy podstawowa przestrzeń nazw jest niedostępna, ruch można przekierować do pomocniczej przestrzeni nazw.
Monitorowanie kondycji. Wbudowane interfejsy API kondycji udostępniane przez usługę Event Grid umożliwiają monitorowanie kondycji tematów.

Aplikacje klienckie muszą wykrywać błędy regionu i kierować zdarzenia do innego odpowiedniego regionu.

Alternatywnie można zaimplementować usługę concierge , która kieruje klientów do podstawowych lub pomocniczych punktów końcowych dla swoich tematów lub przestrzeni nazw, wykonując kontrole kondycji tych punktów końcowych. Usługa concierge może być aplikacją internetową, która jest replikowana geograficznie i jest osiągalna za pośrednictwem technik przekierowania DNS lub usług, takich jak Azure Traffic Manager.

Aby uzyskać więcej informacji na temat jednego podejścia, w tym przykładowego kodu, zobacz Implementacja trybu failover po stronie klienta w usłudze Event Grid.

Tworzenie kopii zapasowej i przywracanie

Usługa Event Grid jest przede wszystkim usługą routingu zdarzeń i nie ma natywnych funkcji tworzenia kopii zapasowych ani przywracania.

Jeśli musisz zaimplementować możliwości tworzenia kopii zapasowych lub jeśli potrzebujesz długoterminowego przechowywania, zalecamy przeprowadzenie archiwizacji w aplikacji. Aby to zrobić, należy utworzyć logikę kierowania lub kopiowania zdarzeń do trwałego magazynu, takiego jak Azure Blob Storage, równolegle z główną ścieżką dostarczania. Jeśli systemy podrzędne są niedostępne, aplikacja może użyć archiwum do odtworzenia zdarzeń.

Odporność usługi na prace konserwacyjne

Firma Microsoft regularnie stosuje aktualizacje usług i wykonuje inną konserwację. Platforma Azure automatycznie obsługuje te działania, zapewniając bezproblemową i przejrzystą konserwację. Podczas zdarzeń konserwacyjnych nie jest oczekiwany żaden przestój, chyba że zostałeś powiadomiony przez zaplanowaną konserwację w Azure Service Health.

Umowa dotycząca poziomu usług

Umowa dotycząca poziomu usług (SLA) dla usług platformy Azure opisuje oczekiwaną dostępność każdej usługi oraz warunki, które rozwiązanie musi spełnić, aby osiągnąć te oczekiwania dotyczące dostępności. Aby uzyskać więcej informacji, zobacz Umowy SLA dotyczące usług online.

Umowa SLA dotycząca dostępności usługi Event Grid obejmuje publikowanie zdarzeń.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-05-06

Niezawodność w usłudze Azure Event Grid

Zalecenia dotyczące wdrażania produkcyjnego

Omówienie architektury niezawodności

Architektura logiczna

Architektura fizyczna

Odporność na błędy przejściowe

Odporność na błędy strefy dostępności

Wymagania

Koszt

Konfiguruj obsługę stref dostępności

Zachowanie, gdy wszystkie strefy są w dobrej kondycji

Zachowanie podczas awarii strefy

Odzyskiwanie strefy

Testowanie pod kątem niepowodzeń strefy

Odporność na awarie całego regionu

Odzyskiwanie po awarii geograficznej metadanych

Wymagania

Koszt

Konfigurowanie obsługi wielu regionów

Zachowanie, gdy wszystkie regiony są w dobrej kondycji

Zachowanie podczas awarii regionu

Odzyskiwanie regionów

Testowanie pod kątem błędów regionów

Niestandardowe rozwiązania obejmujące wiele regionów w celu zapewnienia odporności

Tworzenie kopii zapasowej i przywracanie

Odporność usługi na prace konserwacyjne

Umowa dotycząca poziomu usług

Treści powiązane

Opinia

Dodatkowe zasoby