Sdílet prostřednictvím


Spolehlivost ve službě Azure Event Hubs

Tento článek popisuje podporu spolehlivosti ve službě Azure Event Hubs, která pokrývá odolnost uvnitř oblastí prostřednictvím zón dostupnosti a nasazení ve více oblastech.

Při používání Azure je spolehlivost sdílenou odpovědností. Microsoft nabízí celou řadu možností, které podporují odolnost a obnovení. Zodpovídáte za pochopení toho, jak tyto možnosti fungují ve všech službách, které používáte, a výběrem možností, které potřebujete ke splnění vašich obchodních cílů a cílů dostupnosti.

Event Hubs je nativní cloudová služba, která může streamovat miliony událostí za sekundu s nízkou latencí z libovolného zdroje do libovolného cíle. Služba Event Hubs slouží k ingestování a ukládání streamovaných dat a integraci s klientskými aplikacemi vytvořenými pro Apache Kafka nebo aplikacemi, které používají klientské sady SDK služby Event Hubs.

Doporučení pro nasazení do produkčního prostředí

Informace o nasazení služby Event Hubs pro podporu požadavků na spolehlivost vašeho řešení a vysvětlení toho, jak spolehlivost ovlivňuje další aspekty architektury, najdete v tématu Osvědčené postupy architektury pro službu Event Hubs v architektuře Azure Well-Architected Framework.

Přehled architektury spolehlivosti

Tato část popisuje důležité aspekty fungování služby Event Hubs z hlediska spolehlivosti. Představuje logickou architekturu, která zahrnuje prostředky a funkce, které nasazujete a používáte. Vysvětluje také fyzickou architekturu, která poskytuje podrobnosti o interní správě operací.

Logická architektura

Obor názvů Event Hubs slouží jako kontejner pro správu jednoho nebo více event hubů. Službu nakonfigurujete, jako je přidělování kapacity streamování, konfigurace zabezpečení sítě a povolení geografické odolnosti a geografického zotavení po havárii na úrovni oboru názvů.

V rámci oboru názvů můžete události uspořádat do centra událostí. Ekosystém Apache® Kafka označuje tento typ entity jako téma. Centrum událostí nebo téma je distribuovaný záznam událostí pouze pro přidávání.

Každé centrum událostí obsahuje jednu nebo více particí, což jsou záznamy sekvenčních událostí. Centrum událostí může použít více partic k provádění paralelního zpracování a horizontálního škálování. Služba Event Hubs zaručuje pouze řazení v rámci jednoho oddílu. Dělení hraje klíčovou roli při návrhu spolehlivosti vaší aplikace. Při návrhu aplikace můžete využít kompromis mezi maximalizací dostupnosti a konzistencí. Pokud chcete maximalizovat dobu provozu pro většinu aplikací, vyhněte se adresování oddílů přímo z klientských aplikací. Další informace najdete v tématu Dostupnost a konzistence ve službě Event Hubs.

Příjemci, kteří čtou z centra událostí, si můžou události přečíst postupně tím, že si zachová vlastní kontrolní bod, který identifikuje poslední událost, kterou obdrží.

Další informace o oddílech a dalších základních konceptech ve službě Event Hubs najdete v tématu Funkce a terminologie ve službě Event Hubs.

Fyzická architektura

Ve fyzické architektuře běží obor názvů služby Event Hubs v rámci clusteru. Cluster poskytuje základní výpočetní prostředky a prostředky úložiště. Většina namespace běží na clusterech, které sdílejí jiní zákazníci Azure. Při použití úrovně Premium jsou oboru názvů v rámci sdíleného clusteru přiděleny vyhrazené prostředky. Při použití úrovně Dedicated je cluster vyhrazený pro vaše obory názvů. Další informace o vyhrazených clusterech naleznete v části přehled vyhrazené úrovně Event Hubs. Bez ohledu na úroveň a typ clusteru spravuje Microsoft clustery a jejich základní virtuální počítače a úložiště.

Pro zajištění redundance má každý cluster více replik, které zpracovávají požadavky na čtení a zápis. Pro zajištění vysoké dostupnosti a optimalizace výkonu se všechna data ukládají na tři repliky úložiště. Pokud chcete škálovat výpočetní prostředky oboru názvů, nasaďte jednotky propustnosti (TU), jednotky zpracování (PU) nebo jednotky kapacity (CU) v závislosti na úrovni. Další informace najdete v tématu Škálování pomocí služby Event Hubs.

Clustery pokrývají více fyzických strojů a racků, což snižuje riziko katastrofických selhání ovlivňujících vaše jmenné prostory. V oblastech, ve kterých jsou zóny dostupnosti, se clustery rozšiřují napříč samostatnými fyzickými datovými centry. Další informace najdete v tématu Podpora zón dostupnosti.

Přechodné chyby

Přechodné chyby jsou krátká, přerušovaná selhání ve složkách. V distribuovaném prostředí, jako je cloud, se vyskytují často a jsou normální součástí provozu. Přechodné chyby se opravují po krátké době. Je důležité, aby vaše aplikace mohly zpracovávat přechodné chyby, obvykle opakováním ovlivněných požadavků.

Všechny aplikace hostované v cloudu by měly při komunikaci se všemi cloudovými rozhraními API, databázemi a dalšími komponentami postupovat podle pokynů pro zpracování přechodných chyb Azure. Další informace najdete v tématu Doporučení pro zpracování přechodných chyb.

Služba Event Hubs implementuje transparentní mechanismy detekce selhání a převzetí služeb při selhání, aby služba dál fungovala v rámci ujištěných úrovní služeb, obvykle bez znatelných přerušení v případě selhání.

Při navrhování klientských aplikací pro práci se službou Event Hubs postupujte podle těchto pokynů:

  • Použijte předdefinované zásady opakování. Sady Event Hubs a sady Apache Kafka SDK automaticky opakují operace pro chyby, které se dají opakovat, jako jsou vypršení časového limitu sítě, odpovědi na omezování nebo když je server zaneprázdněný. Aby se zabránilo zbytečnému přetížení služby, implementují ve výchozím nastavení exponenciální zpožování.

  • Nakonfigurujte odpovídající hodnoty časového limitu na základě požadavků vaší aplikace. Výchozí časový limit je obvykle 60 sekund, ale můžete ho upravit podle svého scénáře.

  • Implementujte kontrolní body v procesoru událostí, abyste mohli sledovat průběh a povolit obnovení z poslední zpracované pozice po přechodných selháních.

  • Použití dávkování pro operace odesílání ke zlepšení propustnosti a snížení dopadu přechodných problémů se sítí na jednotlivé zprávy.

  • Pokud pracujete s protokolem Kafka, použijte sady Apache Kafka SDK. Sady Kafka SDK také implementují zásady opakování a další osvědčené postupy, které pomáhají zvládnout přechodné chyby.

Podpora zón dostupnosti

Zóny dostupnosti jsou fyzicky oddělené skupiny datacenter v rámci oblasti Azure. Když jedna zóna selže, služby mohou přejít na jednu ze zbývajících zón.

Event Hubs podporuje zónově redundantní nasazení ve všech úrovních služby. Při vytváření oboru názvů služby Event Hubs v podporované oblasti se redundance zón automaticky povolí bez dalších poplatků. U úrovně Dedicated se ale zóny dostupnosti podporují pouze při minimálně třech CU. Model zónově redundantního nasazení se vztahuje na všechny funkce služby Event Hubs, včetně podpory protokolu Capture, Schema Registry a Kafka.

Služba Event Hubs transparentně replikuje vaši konfiguraci, metadata a data událostí napříč třemi zónami dostupnosti v dané oblasti. Zónová redundance poskytuje automatické převzetí při selhání bez nutnosti vašeho zásahu. Všechny komponenty služby Event Hubs, včetně výpočetních prostředků, sítí a úložiště, se replikují napříč zónami. Služba Event Hubs má dostatečné kapacitní rezervy pro okamžité zvládnutí úplné ztráty zóny. I když se celá zóna dostupnosti stane nedostupnou, služba Event Hubs bude dál fungovat bez ztráty dat nebo přerušení streamovaných aplikací.

Diagram znázorňující zónově redundantní obor názvů služby Event Hubs

Diagram znázorňuje cluster Event Hubs distribuovaný napříč třemi zónami dostupnosti. Každá zóna obsahuje sdílený obor názvů a cluster zahrnuje všechny zóny za účelem zajištění vysoké dostupnosti.

Podpora oblastí

Zónově redundantní obory názvů služby Event Hubs je možné nasadit do libovolné oblasti Azure, která podporuje zóny dostupnosti.

Požadavky

  • Úrovně Standard a Premium podporují zóny dostupnosti bez nutnosti další konfigurace.

  • Pro úroveň Dedicated vyžadují zóny dostupnosti minimálně tři CU jednotky.

Náklady

Redundance zón ve službě Event Hubs nepřidá další náklady.

Konfigurujte podporu zón dostupnosti

Obory názvů služby Event Hubs automaticky podporují redundanci zón při nasazení v podporovaných oblastech. Není nutné provádět žádnou další konfiguraci.

Normální operace

Když obory názvů služby Event Hubs používají redundanci zón a všechny zóny dostupnosti fungují normálně, počítejte s následujícím chováním:

  • Směrování provozu mezi zónami: Služba Event Hubs pracuje v modelu aktivní-aktivní, kde infrastruktura ve třech zónách dostupnosti současně zpracovává příchozí události.

  • Replikace dat mezi zónami: Služba Event Hubs používá synchronní replikaci napříč zónami dostupnosti. Když producent události odešle událost, služba Event Hubs ji zapíše do replik ve více zónách před potvrzením dokončení operace zápisu klientovi. Tento přístup zajišťuje nulovou ztrátu dat, i když je celá zóna nedostupná. Synchronní přístup replikace poskytuje záruky silné konzistence při zachování nízké latence prostřednictvím optimalizovaných protokolů replikace.

Zážitek zklidnění zóny

Když obory názvů služby Event Hubs používají redundanci zón a dojde k výpadku zóny dostupnosti, počítejte s následujícím chováním:

  • Detekce a odpověď: Služba Event Hubs zodpovídá za automatické zjišťování selhání v zóně dostupnosti. Nemusíte inicializovat převzetí služeb při selhání zóny.

  • Oznámení: Služba Event Hubs vás neoznámí, když je zóna dole. Azure Service Health ale můžete použít k pochopení celkového stavu služby Event Hubs, včetně selhání zón.

    Nastavte upozornění pro příjem oznámení o problémech na úrovni zóny. Další informace najdete v tématu Vytváření upozornění služby Service Health na webu Azure Portal.

  • Aktivní požadavky: Během selhání zóny může služba Event Hubs zahodit aktivní žádosti. Pokud vaši klienti zpracovávají přechodné chyby odpovídajícím způsobem opakovaným pokusem po krátké době, obvykle se vyhýbají významnému dopadu.

  • Očekávaná ztráta dat: Během selhání zóny nedojde ke ztrátě dat, protože služba Event Hubs synchronně replikuje události napříč zónami před potvrzením.

  • Očekávaný výpadek: Selhání zóny může způsobit několik sekund výpadku. Pokud vaši klienti zpracovávají přechodné chyby odpovídajícím způsobem opakovaným pokusem po krátké době, obvykle se vyhýbají významnému dopadu.

  • Přesměrování provozu: Služba Event Hubs detekuje ztrátu zóny a automaticky přesměruje nové požadavky na jinou repliku v jedné ze zón dostupnosti, která je v pořádku.

    Klientské sady SDK služby Event Hubs obvykle zpracovávají správu připojení a logiku opakování transparentně.

Obnovení zóny

Když se zóna dostupnosti obnoví, služba Event Hubs tuto zónu automaticky znovu integruje do aktivní topologie služby. Obnovená zóna začne přijímat nová připojení a zpracovávat události spolu s ostatními zónami. Data, která byla replikována do přeživších zón během výpadku, zůstanou nedotčená a normální synchronní replikace se obnoví napříč všemi zónami. Pro obnovení a opětovné začlenění zóny nemusíte provádět akce.

Testování zónových selhání

Služba Event Hubs spravuje směrování provozu, přepnutí při selhání a obnovu při selhání zóny, takže nemusíte ověřovat procesy selhání zón dostupnosti ani poskytovat další vstup.

Podpora více regionů

Služba Event Hubs poskytuje dva typy podpory pro více oblastí:

Geografickou replikaci i obnovu metadat po geografické havárii je třeba ručně zahájit převzetím služeb při selhání nebo povýšením sekundární oblasti na úroveň primární, čímž se stává novou primární oblastí. Microsoft neprovádí automaticky převzetí služeb při selhání ani povýšení, ani když vaše primární oblast nefunguje.

Geografická replikace

Úrovně Premium a Dedicated podporují geografickou replikaci. Tato funkce replikuje jak metadata (například entity, konfigurace a vlastnosti), tak data (například payloady událostí) pro obor názvů. Nakonfigurujete replikační přístup pro konfiguraci jmenného prostoru a údaje o událostech. Tato funkce zajišťuje, že vaše události zůstanou dostupné v jiné oblasti a v případě potřeby můžete přepnout do sekundární oblasti. Replikuje také metadata a data registru schématu.

Použijte geografickou replikaci pro scénáře, které vyžadují odolnost vůči výpadkům v regionech a mají nízkou toleranci vůči ztrátě dat události.

Obor názvů se v podstatě rozšiřuje napříč oblastmi. Jedna oblast slouží jako primární a druhá oblast slouží jako sekundární. Vaše předplatné Azure zobrazuje jeden obor názvů bez ohledu na to, kolik sekundárních oblastí nakonfigurujete pro geografickou replikaci.

Diagram znázorňující obor názvů služby Event Hubs nakonfigurovaný pro geografickou replikaci

Sekundární oblast můžete kdykoli zvýšit na primární oblast. Když povýšíte sekundární oblast, služba Event Hubs přesměruje plně kvalifikovaný název domény oboru názvů na vybranou sekundární oblast a změní předchozí primární oblast na sekundární oblast. Rozhodnete se, jestli chcete provést plánované povýšení, což znamená, že čekáte na dokončení replikace dat nebo vynucené povýšení, což může vést ke ztrátě dat.

Poznámka:

Geografická replikace služby Event Hubs používá termín povýšení, protože nejlépe reprezentuje proces povýšení sekundární oblasti na primární (a později přesunutí primární oblasti na sekundární). Také se můžete setkat s termínem převzetí služeb při selhání, který se používá k popisu obecného procesu.

Tato část shrnuje důležité aspekty geografické replikace. Projděte si úplnou dokumentaci a seznamte se s tím, jak přesně funguje. Další informace najdete v tématu Geografická replikace služby Event Hubs.

Podpora oblastí

Můžete zvolit libovolnou oblast Azure, která podporuje službu Event Hubs jako primární nebo sekundární oblasti. Spárované oblasti Azure nemusíte používat, takže můžete zvolit sekundární oblasti na základě vašich požadavků na latenci, dodržování předpisů nebo rezidenci dat.

Požadavky

Pokud chcete povolit geografickou replikaci, musí váš obor názvů používat úroveň Premium nebo Dedicated.

Úvahy

Pokud povolíte geografickou replikaci, zvažte následující faktory:

  • Formát kontrolního bodu: Formát kontrolních bodů se změní. Další informace najdete v tématu Geografická replikace: Využívání dat.

  • Privátní koncové body: Pokud pro připojení k namespace používáte privátní koncové body, je také nutné nakonfigurovat sítě v primárních a sekundárních oblastech. Další informace najdete v tématu Privátní koncové body.

Náklady

Informace o fungování cen pro geografickou replikaci najdete v tématu Ceny.

Konfigurace podpory více oblastí

Normální operace

Tato část popisuje, co očekávat, když je obor názvů služby Event Hubs nakonfigurovaný pro geografickou replikaci a primární oblast je funkční.

  • Směrování provozu mezi oblastmi: Klientské aplikace se připojují prostřednictvím plně kvalifikovaného názvu domény pro váš jmenný prostor a jejich provoz je směrován do primární oblasti.

    Pouze primární oblast aktivně zpracovává události od klientů během normálního provozu. Sekundární oblast přijímá replikované události, ale jinak zůstává pasivní v pohotovostním režimu.

  • Replikace dat mezi oblastmi: Chování replikace dat mezi primárními a sekundárními oblastmi závisí na tom, jestli konfigurujete párování replikace tak, aby používalo synchronní nebo asynchronní replikaci.

    • Synchronní: Události se před dokončením operace zápisu replikují do sekundární oblasti.

      Tento režim poskytuje největší jistotu, že data událostí jsou bezpečná, protože je nutné je potvrdit v primární a sekundární oblasti. Synchronní replikace ale podstatně zvyšuje latenci zápisu pro příchozí události. Vyžaduje také, aby sekundární oblast byla k dispozici pro přijetí operace zápisu, takže výpadek v jakékoli sekundární oblasti způsobí selhání operace zápisu.

      • Asynchronní: Události se zapisují do primární oblasti a operace zápisu se dokončí. Krátce později replikuje události do sekundární oblasti.

      Tento režim poskytuje vyšší propustnost zápisu než synchronní replikace, protože během operací zápisu neexistuje žádná latence replikace mezi oblastmi. Režim asynchronní replikace také může tolerovat ztrátu sekundární oblasti a zároveň povolit operace zápisu v primární oblasti. Pokud má ale primární oblast výpadek, můžou být všechna data, která ještě nebyla replikována do sekundární oblasti, nedostupná nebo ztracená.

      Při konfiguraci asynchronní replikace nakonfigurujete maximální přijatelnou dobu prodlevy pro replikaci. Aktuální prodlevu replikace můžete kdykoli ověřit pomocí metrik služby Azure Monitor.

      Pokud se prodleva asynchronní replikace zvýší nad rámec vámi zadaného maxima, primární oblast začne omezovat příchozí požadavky, aby replikace byla dohoněná. Abyste se této situaci vyhnuli, je důležité vybrat sekundární oblasti, které nejsou příliš geograficky vzdálené, a zajistit, aby vaše kapacita byla dostatečná pro danou propustnost.

      Další informace naleznete v tématu Režimy replikace.

Prostředí pro oblast mimo oblast

Tato část popisuje, co očekávat, když je obor názvů služby Event Hubs nakonfigurovaný pro geografickou replikaci a dojde k výpadku v primární nebo sekundární oblasti.

Jste zodpovědní za rozhodnutí, kdy povýšit sekundární region vašeho jmenného prostoru na novou primární oblast. Microsoft toto rozhodnutí nevyvolá a ani za vás nezahájí proces, i když dojde k výpadku oblasti. Další informace o povýšení sekundární oblasti na novou primární oblast naleznete v tématu Zvýšení úrovně sekundární.

Při povýšení sekundární oblasti zvolte, jestli chcete provést plánované povýšení nebo vynucené povýšení. Plánovaná aktualizace čeká, až se sekundární oblast dostane na úroveň, než přijme nový provoz. Tento přístup eliminuje ztrátu dat, ale představuje výpadek.

Během výpadku v primární oblasti obvykle potřebujete provést vynucené povýšení. Pokud je primární oblast dostupná a aktivujete povýšení z jiného důvodu, můžete zvolit plánované povýšení.

  • Oznámení: Služba Event Hubs vás neinformuje, když je oblast mimo provoz. Pomocí služby Service Health ale můžete porozumět celkovému stavu služby Event Hubs, včetně selhání oblastí. Tyto informace a další metriky slouží k rozhodování o tom, kdy zvýšit úroveň sekundární oblasti na primární oblast.

    Nastavte upozornění pro příjem oznámení o problémech na úrovni oblasti. Další informace najdete v tématu Vytváření upozornění služby Service Health na webu Azure Portal.

  • Aktivní požadavky: Chování závisí na tom, zda dojde k výpadku v primárním nebo sekundárním regionu:

    • Výpadek primární oblasti: Pokud primární oblast není dostupná, všechny aktivní požadavky se ukončí. Klientské aplikace by měly po dokončení povýšení opakovat operace.

    • Výpadek sekundární oblasti: Výpadek v sekundární oblasti může způsobit problémy s aktivními požadavky v následujících situacích:

      • Pokud používáte synchronní režim replikace, primární oblast nemůže dokončit operace zápisu, pokud není k dispozici žádná sekundární oblast.

      • Pokud používáte režim asynchronní replikace, váš prostor názvů omezuje příjem a nepřijímá nové události, jakmile prodleva replikace dosáhne maximální hodnoty, kterou nakonfigurujete.

      Pokud chcete pokračovat v používání oboru názvů v primární oblasti, odeberte sekundární obor názvů z konfigurace geografické replikace.

  • Očekávaná ztráta dat: Velikost ztráty dat závisí na typu povýšení, které provádíte (plánované nebo vynucené) a režimu replikace (synchronní nebo asynchronní):

    • Plánované povýšení: Neočekává se žádná ztráta dat. Během výpadku oblasti však nemusí být plánované povýšení možné, protože vyžaduje, aby byly k dispozici všechny primární a sekundární oblasti.

    • Vynucené povýšení, synchronní replikace: Neočekává se žádná ztráta dat.

    • Vynucené povýšení, asynchronní replikace: U nedávných událostí, které se nereplikují do sekundární oblasti, může dojít ke ztrátě dat. Částka závisí na prodlevě replikace. Pokud chcete ověřit aktuální prodlevu replikace, použijte metriky služby Azure Monitor.

    Pokud provedete vynucené povýšení, nemůžete obnovit ztracená data ani po zpřístupnění primární oblasti.

  • Očekávaný výpadek: Očekávané výpadky závisí na tom, jestli provádíte plánované nebo vynucené povýšení:

    • Plánovaná aktualizace: První krok v plánované aktualizaci replikuje data do sekundárního regionu. Tento proces se obvykle dokončí rychle, ale v některých situacích může trvat až délku prodlevy replikace. Po dokončení replikace proces povýšení obvykle trvá přibližně 5 až 10 minut. Někdy může trvat delší dobu, než servery DNS (Domain Name System) aktualizují položky a plně replikují záznamy do klientů.

      Primární region neumožňuje operace zápisu během celého procesu promoce.

      Tato možnost nemusí být během výpadku oblasti možná, protože vyžaduje, aby byly dostupné všechny primární a sekundární oblasti.

    • Vynucené povýšení: Během vynuceného povýšení služba Event Hubs nečeká na dokončení replikace dat a okamžitě zahájí povýšení. Proces povýšení obvykle trvá přibližně 5 až 10 minut. Někdy může trvat delší dobu, než se položky DNS plně replikují a aktualizují mezi klienty.

      Primární region neumožňuje operace zápisu během celého procesu promoce.

  • Přesměrování provozu: Po dokončení povýšení plně kvalifikovaný název domény oboru názvů odkazuje na novou primární oblast. Toto přesměrování ale závisí na tom, jak rychle se aktualizují záznamy DNS klientů, včetně toho, aby jejich servery DNS respektovaly hodnotu TTL (Time to Live) záznamů DNS oboru názvů.

    V některých situacích je nutné nakonfigurovat spotřebitelské aplikace tak, aby po povýšení oblasti fungovaly konzistentně. Další informace najdete v tématu Geografická replikace: Využívání dat.

Obnovení oblasti

Po obnovení původní primární oblasti, chcete-li vrátit obor názvů zpět do původní primární oblasti, postupujte podle stejného procesu povýšení oblasti.

Pokud jste během výpadku oblasti provedli vynucené povýšení, nemůžete obnovit ztracená data ani po zpřístupnění primární oblasti.

Testování poruch v oblasti

Pokud chcete otestovat geografickou replikaci, dočasně upřednostněte sekundární oblast na primární a ověřte, že klientské aplikace můžou přepínat mezi oblastmi s minimálním přerušením.

Monitorujte dobu trvání povýšení a ověřte, že runbooky a automatizace fungují správně. Po otestování můžete obnovit původní konfiguraci.

Porozumíte potenciálním výpadkům a ztrátě dat, ke kterým může dojít během procesu povýšení a po jeho povýšení. Otestujte geografickou replikaci v neprodukčním prostředí, které se zrcadlí s konfigurací vašeho produkčního jmenného prostoru.

Geografické zotavení po havárii metadat

Úroveň Standard a vyšší podporují metadata geografického zotavení po havárii. Tato funkce zlepšuje zotavení ze scénářů havárie, včetně katastrofické ztráty oblasti. Geografické zotavení po havárii pouze replikuje konfiguraci a metadata vašeho prostoru názvů. Nereplikuje ale data událostí. Aby byla podporována obnova po katastrofě, tato funkce zajišťuje, že obor názvů v jiné oblasti je předem nakonfigurovaný a připravený k okamžitému přijetí událostí z klientů. Geografické zotavení po havárii slouží jako jednosměrné řešení obnovení a nepodporuje obnovení do předchozího primárního regionu.

Obnova metadat po geo-havárii funguje nejlépe pro aplikace, které nemusí přísně udržovat každou událost a mohou tolerovat ztrátu dat v případě havárie. Pokud například události představují čtení snímačů, které později agregujete, můžete se rozhodnout, že si můžete dovolit ztratit některé události z oblasti, která selhala, pokud můžete rychle obnovit zpracování nových událostí v jiné oblasti.

Důležité

Geografické zotavení po havárii umožňuje kontinuitu operací se stejnou konfigurací, ale nereplikuje data událostí. Pokud potřebujete replikovat data událostí, zvažte použití geografické replikace.

Při konfiguraci geografického zotavení metadat po havárii vytvoříte alias, ke kterému se klientské aplikace připojí. Alias je FQDN, který ve výchozím nastavení směruje veškerý provoz do primárního oboru názvů.

Diagram znázorňující dva obory názvů služby Event Hubs nakonfigurované pro geografické zotavení po havárii metadat

Pokud primární oblast přestane fungovat nebo nastane jiný druh havárie, můžete ručně kdykoli zahájit jednorázový, jednosměrný proces převzetí služeb při selhání z primární oblasti do sekundární oblasti. Převzetí služeb při selhání proběhne téměř okamžitě. Během procesu přepnutí při selhání se alias pro geografické zotavení přesměrovává do sekundárního oboru názvů a párování se odebere.

Tato část shrnuje důležité aspekty geografického zotavení po havárii. Projděte si úplnou dokumentaci a seznamte se s tím, jak přesně funguje. Další informace najdete v tématu Geografické zotavení po havárii služby Event Hubs.

Podpora oblastí

Jako primární nebo sekundární obor názvů můžete vybrat libovolnou oblast Azure, která podporuje službu Event Hubs. Spárované oblasti Azure nemusíte používat, takže můžete zvolit sekundární oblasti na základě vašich požadavků na latenci, dodržování předpisů nebo rezidenci dat.

Požadavky

  • Primární úroveň oboru názvů: Primární obor názvů musí být na úrovni Standard nebo vyšší, aby bylo možné použít geografické zotavení po havárii metadat.

  • Sekundární úroveň oboru názvů: Geografické zotavení po havárii metadat podporuje konkrétní kombinace úrovní pro primární a sekundární obory názvů. Další informace naleznete v tématu Podporované dvojice oborů názvů.

Úvahy

  • Přiřazení rolí: Přiřazení řízení přístupu na základě rolí (RBAC) Microsoft Entra k entitám v primárním oboru názvů se nereplikují do sekundárního oboru názvů. Pokud chcete zabezpečit přístup k nim, vytvořte přiřazení rolí ručně v sekundárním oboru názvů.

  • Registr schématu: Metadata registru schématu se replikují při použití geografického zotavení metadat po havárii, ale schémata zaregistrovaná v registru schématu se nereplikují.

  • Návrh aplikace: Geografické zotavení po havárii vyžaduje při návrhu klientských aplikací specifické aspekty. Další informace najdete v tématu Důležité informace.

  • Privátní koncové body: Pokud používáte privátní koncové body pro připojení k jmenným prostorům, nakonfigurujte síťové připojení v primární i sekundární oblasti. Další informace najdete v tématu Privátní koncové body.

Náklady

Když povolíte geografické zotavení po havárii metadat, platíte za primární i sekundární obory názvů.

Konfigurace podpory více oblastí

Plánování a řízení kapacit

Pokud plánujete nasazení ve více oblastech, ujistěte se, že obě oblasti mají dostatečnou kapacitu pro zpracování úplného zatížení, pokud jedna oblast selže. Sekundární oblast zůstává během normálního provozu pasivní, ale musí okamžitě zpracovat provoz po přepnutí po selhání. Naplánujte, jak rozšířit kapacitu sekundárního oboru názvů, aby mohla bez zpoždění přijímat produkční provoz. Pokud během procesu převzetí služeb při selhání můžete tolerovat další výpadky, můžete během převzetí služeb při selhání nebo po převzetí služeb při selhání škálovat kapacitu sekundárního oboru názvů. Pokud chcete snížit prostoje, zřiďte kapacitu v sekundárním oboru názvů předem, aby zůstala připravená na příjem produkčního zatížení.

Normální operace

Tato část popisuje, co očekávat, když je obor názvů služby Event Hubs nakonfigurovaný pro geografické zotavení po havárii a primární oblast je funkční.

  • Směrování provozu mezi oblastmi: Klientské aplikace se připojují prostřednictvím aliasu pro geografické zotavení po havárii ve vašem oboru názvů a jejich provoz je směrován do primárního oboru názvů v primární oblasti.

    Během normálních operací aktivně zpracovává události z klientů pouze primární obor názvů. Sekundární obor názvů zůstává v pohotovostním režimu pasivní a všechny požadavky na přístup k datům selžou.

  • Replikace dat mezi oblastmi: Mezi obory názvů se replikují pouze metadata konfigurace. Replikace konfigurace probíhá nepřetržitě a asynchronně.

    Všechna data událostí zůstávají pouze v primárním oboru názvů a nereplikují se do sekundárního oboru názvů.

Prostředí pro oblast mimo oblast

Tato část popisuje, co očekávat, když je obor názvů služby Event Hubs nakonfigurovaný pro geografické zotavení po havárii a dojde k výpadku v primární oblasti.

  • Detekce a odpověď: Zodpovídáte za monitorování zdraví regionu a manuální spuštění převzetí při selhání. Microsoft neprovádí přepnutí při selhání ani automaticky neupřednostní sekundární oblast, i když není vaše primární oblast dostupná.

    Další informace o tom, jak zahájit převzetí služeb při selhání, najdete v tématu Ruční převzetí služeb při selhání.

    Převzetí je jednosměrná operace, takže budete muset později znovu vytvořit geografické párování pro zotavení po havárii. Další informace najdete v tématu Obnovení oblasti.

  • Oznámení: Služba Event Hubs vás neinformuje, když je oblast mimo provoz. Pomocí služby Service Health ale můžete porozumět celkovému stavu služby Event Hubs, včetně selhání oblastí. Tyto informace a další metriky použijte k rozhodnutí, kdy zahájit proces převzetí služeb při selhání.

    Nastavte upozornění pro příjem oznámení o problémech na úrovni oblasti. Další informace najdete v tématu Vytváření upozornění služby Service Health na webu Azure Portal.

  • Aktivní požadavky: Aktivní požadavky, které probíhají při spuštění převzetí služeb při selhání, se ukončí. Klientské aplikace by měly po dokončení převzetí služeb při selhání opakovat operace.

  • Očekávaná ztráta dat:

    • Metadata: Konfigurace a metadata se obvykle replikují do sekundárního oboru názvů. Replikace metadat se ale provádí asynchronně, takže nedávné změny se nemusí replikovat, zejména složité změny. Před přístupem klientů ověřte konfiguraci sekundárního prostoru názvů.

    • Data události: Data událostí se mezi oblastmi nereplikují. Pokud dojde k výpadku primárního regionu, události v primárním oboru názvů se stanou nedostupnými.

      Události se trvale neztratí, pokud katastrofální katastrofa nezpůsobí celkovou ztrátu primární oblasti. Pokud se región obnoví, můžete později načíst události z primárního oboru názvů.

  • Očekávaný výpadek: Převzetí služeb při selhání obvykle probíhá během 5 až 10 minut. Úplné replikace a aktualizace záznamů DNS může klientům trvat déle.

  • Přesměrování provozu: Klienti, kteří používají alias pro zeměpisné zotavení po havárii k připojení k oboru názvů, se po selhání automaticky přesměrují do sekundárního oboru názvů. Toto přesměrování však závisí na tom, že DNS servery respektují hodnotu TTL záznamů DNS oboru názvů a že klienti obdrží tyto aktualizované záznamy DNS.

Obnovení oblasti

Po obnovení původní primární oblasti je nutné ručně znovu vytvořit párování a volitelně navrátit služby po obnovení. Vytvořte novou dvojici pro geografické zotavení po havárii s obnovenou oblastí jako sekundární, a pak proveďte další přepnutí, pokud se chcete vrátit do původní oblasti. Tento proces zahrnuje potenciální ztrátu dat událostí odesílaných do dočasného primárního serveru.

Pokud havárie způsobí ztrátu všech zón v primární oblasti, můžou být vaše data nedostupná. V jiných scénářích jsou vaše data událostí nadále dostupná v primárním oboru názvů ze stavu před převzetím služeb při selhání. Po obnovení přístupu můžete získat historické události z původního primárního oboru názvů. Zodpovídáte za konfiguraci aplikací pro příjem a zpracování těchto událostí. Společnost Microsoft neobnoví automaticky data do vaší sekundární oblasti.

Testování poruch v oblasti

Chcete-li otestovat procesy reakce a zotavení po havárii, proveďte plánovaný failover během okna údržby. Zahajte převzetí služeb při selhání z primárního jmenného prostoru na sekundární a ověřte, že se vaše aplikace můžou připojovat a pracovat s událostmi z nového primárního jmenného prostoru.

Monitorujte dobu trvání převzetí služeb při selhání a ověřte, že vaše provozní knihy a automatizace fungují správně. Po otestování můžete obnovit původní konfiguraci.

Seznamte se s potenciálními výpadky a ztrátou dat, ke kterým může dojít během a po procesu převzetí služeb při selhání. Otestujte geografickou replikaci v neprodukčním prostředí, které se zrcadlí s konfigurací vašeho produkčního jmenného prostoru.

Alternativní přístupy k více oblastem

Geografická replikace a geografické zotavení po havárii metadat poskytují odolnost vůči výpadkům oblastí a dalším problémům a podporují většinu úloh. Některé úrovně služby Event Hubs tyto funkce nepodporují nebo můžete vyžadovat vlastní replikaci nebo současně udržovat více aktivních oblastí.

Různé vzory návrhu můžou ve službě Event Hubs dosáhnout různých typů podpory více oblastí. Mnoho vzorů vyžaduje nasazení více jmenných prostorů a použití služby, jako je Azure Functions, pro replikaci událostí mezi nimi. Další informace najdete v tématu Federace s více lokalitami a více oblastmi.

Zálohy

Služba Event Hubs není navržená jako dlouhodobé umístění úložiště pro vaše data. Obvykle ukládáte data do centra událostí po krátkou dobu a pak je buď zpracujte, nebo je zachovejte v jiném systému úložiště dat. Dobu uchovávání dat pro centrum událostí můžete nakonfigurovat na základě vašich požadavků a úrovně, kterou váš obor názvů používá. Další informace najdete v tématu Uchovávání událostí.

Pokud potřebujete zachovat kopii událostí, zvažte použití funkce Event Hubs Capture, která ukládá kopie událostí do účtu služby Azure Blob Storage.

Smlouva o úrovni služeb

Smlouva o úrovni služeb (SLA) pro služby Azure popisuje očekávanou dostupnost každé služby a podmínky, které musí vaše řešení splnit, aby bylo dosaženo očekávané dostupnosti. Další informace najdete v tématu Smlouvy SLA pro online služby.

Dostupnost SLA vašeho namespace je vyšší při použití úrovní Premium nebo Dedicated.