Spolehlivost ve službě Azure Event Grid a oboru názvů Event Gridu

Článek
07/16/2024

Tento článek obsahuje podrobné informace o regionální odolnosti služby Event Grid a oboru názvů Event Grid s zónami dostupnosti a zotavením po havárii mezi oblastmi a provozní kontinuitou.

Přehled spolehlivosti architektury v Azure najdete v tématu Spolehlivost Azure.

Podpora zón dostupnosti

Zóny dostupnosti Azure jsou aspoň tři fyzicky oddělené skupiny datacenter v rámci každé oblasti Azure. Datová centra v každé zóně jsou vybavena nezávislou infrastrukturou napájení, chlazení a sítě. V případě selhání místní zóny jsou zóny dostupnosti navrženy tak, aby v případě ovlivnění jedné zóny, regionální služby, kapacity a vysoké dostupnosti podporovaly zbývající dvě zóny.

Selhání můžou být v rozsahu od selhání softwaru a hardwaru až po události, jako jsou zemětřesení, záplavy a požáry. Odolnost vůči selháním se dosahuje redundancí a logickou izolací služeb Azure. Podrobnější informace o zónách dostupnosti v Azure najdete v tématu Oblasti a zóny dostupnosti.

Služby s podporou zón dostupnosti Azure jsou navržené tak, aby poskytovaly správnou úroveň spolehlivosti a flexibility. Dají se nakonfigurovat dvěma způsoby. Můžou být buď zónově redundantní, s automatickou replikací napříč zónami, nebo zónově, s instancemi připnutými ke konkrétní zóně. Tyto přístupy můžete také kombinovat. Další informace o zónové a zónově redundantní architektuře najdete v tématu Doporučení pro použití zón dostupnosti a oblastí.

Definice prostředků event Gridu pro témata, systémová témata, domény a odběry událostí a data událostí se automaticky replikují do tří zón dostupnosti. Pokud dojde k selhání oblasti v jedné z zón dostupnosti, prostředky Event Gridu automaticky při selhání do jiné zóny dostupnosti bez zásahu člověka. V současné době není možné tuto funkci řídit (povolit nebo zakázat). Když existující oblast začne podporovat zóny dostupnosti, stávající prostředky Event Gridu se automaticky převezmou při selhání, aby tuto funkci využily. Nevyžaduje se žádná akce zákazníka.

Obor názvů služby Azure Event Grid také dosahuje vysoké dostupnosti uvnitř oblastí pomocí zón dostupnosti.

Požadavky

Kvůli podpoře zón dostupnosti musí být prostředky služby Event Grid v oblasti, která podporuje zóny dostupnosti. Pokud chcete zkontrolovat, které oblasti podporují zóny dostupnosti, podívejte se na seznam podporovaných oblastí.

Ceny

Vzhledem k tomu, že Event Grid podporuje zóny dostupnosti automaticky v oblastech, které podporují zóny dostupnosti, nejsou žádné změny ceny.

Vytvoření prostředku s povolenými zónami dostupnosti

Protože Event Grid podporuje zóny dostupnosti automaticky v oblastech, které podporují zóny dostupnosti, není nutná konfigurace nastavení.

Migrace na podporu zóny dostupnosti

Pokud přesunete prostředky Event Gridu do oblasti, která podporuje zóny dostupnosti, automaticky obdržíte podporu zóny dostupnosti. Informace o přemístění prostředků do jiné oblasti, která podporuje zóny dostupnosti, najdete v následujících tématech:

Zotavení po havárii napříč oblastmi a provozní kontinuita

Zotavení po havárii (DR) se týká zotavení z událostí s vysokým dopadem, jako jsou přírodní katastrofy nebo neúspěšná nasazení, která vedou k výpadkům a ztrátě dat. Bez ohledu na příčinu je nejlepším řešením havárie dobře definovaný a otestovaný plán zotavení po havárii a návrh aplikace, který aktivně podporuje zotavení po havárii. Než začnete přemýšlet o vytvoření plánu zotavení po havárii, přečtěte si doporučení pro návrh strategie zotavení po havárii.

Pokud jde o zotavení po havárii, Microsoft používá model sdílené odpovědnosti. V modelu sdílené odpovědnosti Microsoft zajišťuje, aby byly dostupné základní služby infrastruktury a platformy. Současně mnoho služeb Azure automaticky nereplikuje data nebo se vrátí z oblasti, která selhala, aby se křížově replikovala do jiné povolené oblasti. Za tyto služby zodpovídáte za nastavení plánu zotavení po havárii, který funguje pro vaši úlohu. Většina služeb, které běží na nabídkách PaaS (Platforma jako služba) Azure, poskytuje funkce a pokyny pro podporu zotavení po havárii a pomocí funkcí specifických pro služby můžete podporovat rychlé obnovení , které vám pomůže s vývojem plánu zotavení po havárii.

Zotavení po havárii obvykle zahrnuje vytvoření záložního prostředku, aby se zabránilo přerušení v případě, že oblast není v pořádku. Během tohoto procesu bude ve vaší úloze potřeba primární a sekundární oblast prostředků Azure Event Gridu.

Existují různé způsoby, jak se zotavit z závažné ztráty funkčnosti aplikace. V této části popisujeme kontrolní seznam, který budete muset provést, abyste připravili klienta, aby se zotavil z důvodu prostředku nebo oblasti, která není v pořádku.

Event Grid podporuje ruční i automatické geografické zotavení po havárii (GeoDR) na straně serveru. Logiku zotavení po havárii na straně klienta můžete stále implementovat, pokud chcete mít větší kontrolu nad procesem převzetí služeb při selhání. Podrobnosti o automatické geografické zotavení po havárii na straně serveru najdete v Tématu Zotavení po havárii na straně serveru ve službě Azure Event Grid. Podrobnosti o implementaci zotavení po havárii na straně klienta najdete v tématu Implementace převzetí služeb při selhání na straně klienta ve službě Azure Event Grid.

Následující tabulka znázorňuje podporu převzetí služeb při selhání na straně klienta a podporu geografického zotavení po havárii ve službě Event Grid.

Prostředek Event Gridu	Podpora převzetí služeb při selhání na straně klienta	Podpora geografického zotavení po havárii (GeoDR)
Vlastní témata	Podporováno	Cross-Geo / Regional
Systémová témata	Nepodporováno	Povoleno automaticky
Domény	Podporováno	Cross-Geo / Regional
Obory názvů partnerů	Podporováno	Nepodporováno
Obory názvů	Podporováno	Nepodporováno

Obor názvů event gridu

Obor názvů Služby Event Grid nepodporuje zotavení po havárii napříč oblastmi. Vysokou dostupnost napříč oblastmi však můžete dosáhnout prostřednictvím implementace převzetí služeb při selhání na straně klienta vytvořením primárních a sekundárních oborů názvů.

S implementací převzetí služeb při selhání na straně klienta můžete:

Implementujte vlastní (ruční nebo automatizovaný) proces pro replikaci oboru názvů, klientských identit a dalších konfigurací** včetně certifikátů certifikační autority, skupin klientů, prostorů témat, vazeb oprávnění, směrování mezi primárními a sekundárními oblastmi.
Implementujte službu concierge, která klientům poskytuje primární a sekundární koncové body provedením kontroly stavu koncových bodů. Služba Concierge může být webová aplikace, která se replikuje a udržuje dosažitelnou pomocí technik přesměrování DNS, například pomocí Azure Traffic Manageru.
Pomocí replikace metadat a vyrovnávání zatížení napříč obory názvů dosáhnete řešení zotavení po havárii aktivní-aktivní. Řešení zotavení po havárii typu Active-Passive lze dosáhnout tak, že replikuje metadata, aby sekundární obor názvů zůstal připravený tak, aby byl primární obor názvů nedostupný, je možné provoz směrovat do sekundárního oboru názvů.

Nastavení zotavení po havárii

Pro spárované oblasti nabízí Event Grid možnost převzetí služeb při selhání provozu publikování do spárované oblasti pro vlastní témata, systémová témata a domény. Event Grid na pozadí automaticky synchronizuje definice prostředků témat, systémových témat, domén a odběrů událostí do spárované oblasti. Data událostí se ale nereplikují do spárované oblasti. V normálním stavu se události ukládají v oblasti, kterou jste vybrali pro daný prostředek. Když dojde k výpadku oblasti a Microsoft zahájí převzetí služeb při selhání, začnou do geograficky spárované oblasti proudit nové události a odesílají se odsud bez zásahu od vás. Události publikované a přijaté v původní oblasti se odesílají odsud po zmírnění výpadku.

Můžete si vybrat mezi dvěma možnostmi převzetí služeb při selhání, převzetím služeb při selhání iniciovanou Microsoftem a iniciovanou zákazníkem. Podrobný postup konfigurace obou těchto nastavení najdete v tématu Konfigurace rezidence dat.

Převzetí služeb při selhání iniciované Microsoftem provádí Microsoft ve výjimečných situacích za účelem převzetí služeb při selhání prostředků Event Gridu z ovlivněné oblasti do odpovídající geograficky spárované oblasti. Společnost Microsoft si vyhrazuje právo určit, kdy bude tato možnost uplatněna. Tento mechanismus nezahrnuje souhlas uživatele před převzetím služeb při selhání provozu uživatele.

Tuto funkci povolte aktualizací konfigurace pro vaše téma nebo doménu. Výběrem možnosti Cross-Geo (výchozí) povolte převzetí služeb při selhání iniciované Microsoftem.
Převzetí služeb při selhání iniciované zákazníkem je definováno vaším vlastním plánem zotavení po havárii pro témata a domény Azure Event Gridu. Microsoft nereplikuje žádná data jakéhokoli druhu do jiné oblasti. I když tato možnost převzetí služeb při selhání vyžaduje trochu větší úsilí, umožňuje rychlejší převzetí služeb při selhání a máte kontrolu nad výběrem sekundárních oblastí. Pokud chcete implementovat zotavení po havárii na straně klienta pro témata azure Event Gridu, přečtěte si téma Vytvoření vlastního zotavení po havárii na straně klienta pro témata azure Event Gridu.

Existuje několik důvodů, proč můžete chtít zakázat funkci převzetí služeb při selhání iniciovanou Microsoftem:
- Převzetí služeb při selhání iniciované Microsoftem se provádí nejlépe.
- Některé geografické páry nesplňují požadavky vaší organizace na rezidenci dat.
Tuto funkci povolte aktualizací konfigurace pro vaše téma nebo doménu. Vyberte Oblast.

Pokud použijete spárovanou oblast, pak bez ohledu na konfiguraci rezidence dat, kterou vyberete, se metadata budou replikovat pouze v rámci oblasti.

Prostředí převzetí služeb při selhání zotavení po havárii

Zotavení po havárii se měří se dvěma metrikami, cílem bodu obnovení (RPO) a plánovanou dobou obnovení (RTO).

Automatické převzetí služeb při selhání služby Event Grid má pro vaše metadata (témata, domény, odběry událostí) a data (události) různé rpos a RTO. Pokud potřebujete jinou specifikaci než následující, můžete stále implementovat vlastní převzetí služeb při selhání na straně klienta pomocí rozhraní API pro stav tématu.

Cíl bodu obnovení (RPO)

RPO metadat: nula minut. V případě příslušných prostředků se při vytvoření, aktualizaci nebo odstranění prostředku synchronně replikuje definice prostředku do geografického páru. Když dojde k převzetí služeb při selhání, neztratí se žádná metadata.
Cíl bodu obnovení dat: Když dojde k převzetí služeb při selhání, zpracují se nová data z spárované oblasti. Jakmile dojde ke zmírnění výpadku pro ovlivněnou oblast, odesílají se nezpracované události odtud. Pokud obnovení oblasti vyžadovalo delší dobu, než je hodnota time-to-live nastavená u událostí, může dojít k vyřazení dat. Pokud chcete tuto ztrátu dat zmírnit, doporučujeme nastavit cíl nedoručených dopisů pro odběr událostí. Pokud se ovlivněná oblast ztratí a nepůjde znovu získat, dojde ke ztrátě dat. V nejlepším případě odběratel udržuje tempo s rychlostí publikování a ztratí se jenom několik sekund dat. Nejhorším scénářem je situace, kdy odběratel aktivně nezpracovává události a s maximálním časem naživo 24 hodin může být ztráta dat až 24 hodin.

Plánovaná doba obnovení (RTO)

Metadata RTO: Rozhodování o převzetí služeb při selhání vychází z faktorů, jako je dostupná kapacita ve spárované oblasti, a může trvat v rozsahu 60 minut nebo více. Jakmile se zahájí převzetí služeb při selhání, služba Event Grid začne přijímat volání pro témata a odběry za účelem vytvoření, aktualizace nebo odstranění.
Rto dat: Stejné jako u výše uvedených informací.

Důležité

V případě zotavení po havárii na straně serveru nemůže Event Grid zahájit převzetí služeb při selhání, pokud spárovaná oblast nemá žádnou dodatečnou kapacitu pro převzetí služeb při selhání. Obnovení se provádí na základě maximálního úsilí.
Za použití této funkce se neúčtují žádné poplatky.
Geografické zotavení po havárii není podporováno u partnerských oborů názvů a témat partnerů.

Další kroky

Vytvořte si vlastní zotavení po havárii na straně klienta pro témata azure Event Gridu.
Spolehlivost v Azure

Sdílet prostřednictvím