Share via


Megbízhatóság az Azure HDInsightban az Azure Kubernetes Service-ben

Ez a cikk az Azure HDInsight megbízhatósági támogatását ismerteti az Azure Kubernetes Service-ben (AKS) és a konkrét megbízhatósági javaslatokat , valamint a vészhelyreállítást és az üzletmenet folytonosságát. Az Azure megbízhatósági alapelveinek részletesebb áttekintéséért tekintse meg az Azure megbízhatóságát.

Megbízhatósági javaslatok

Ez a szakasz a rugalmasság és a rendelkezésre állás elérésére vonatkozó javaslatokat tartalmaz. Minden javaslat két kategória egyikébe tartozik:

  • Az állapotelemek olyan területeket fednek le, mint a konfigurációelemek és az Azure-számítási feladatokat alkotó fő összetevők megfelelő működése, például az Azure-erőforrások konfigurációs beállításai, a más szolgáltatásoktól való függőségek stb.

  • A kockázati elemek olyan területeket fednek le, mint a rendelkezésre állási és helyreállítási követelmények, a tesztelés, a monitorozás, az üzembe helyezés és egyéb olyan elemek, amelyek megoldatlan állapotban maradva növelik a környezeti problémák esélyét.

Megbízhatósági javaslatok prioritási mátrixa

Minden javaslat a következő prioritási mátrixnak megfelelően van megjelölve:

Kép Prioritás Leírás
Magas Azonnali javításra van szükség.
Közepes Javítás 3-6 hónapon belül.
Alacsony Felül kell vizsgálni.

Megbízhatósági javaslatok összefoglalása

Kategória Prioritás Ajánlás
Elérhetőség A virtuális gépek alapértelmezett és minimális méretére vonatkozó javaslatok
HDInsight automatikus méretezése AKS-fürtökön
Figyelés Hogyan integrálható a Log Analytics
Monitoring az Azure Managed Prometheus és Grafana segítségével
Biztonság Az NSG használata a HDInsight felé irányuló forgalom korlátozásához az AKS-en

Rendelkezésre állási zóna támogatása

Az Azure rendelkezésre állási zónái legalább három fizikailag különálló adatközpont-csoport az egyes Azure-régiókban. Az egyes zónákban lévő adatközpontok független energiaellátási, hűtési és hálózati infrastruktúrával rendelkeznek. Helyi zónahiba esetén a rendelkezésre állási zónák úgy vannak kialakítva, hogy az egy zóna érintettsége esetén a fennmaradó két zóna támogassa a regionális szolgáltatásokat, a kapacitást és a magas rendelkezésre állást.

A hibák a szoftver- és hardverhibáktól az olyan eseményekig terjedhetnek, mint a földrengések, árvizek és tűzesetek. A hibáktól való tolerancia az Azure-szolgáltatások redundanciával és logikai elkülönítésével érhető el. Az Azure-beli rendelkezésre állási zónákkal kapcsolatos részletesebb információkért tekintse meg a Régiók és a rendelkezésre állási zónák című témakört.

Az Azure rendelkezésre állási zónákkal kompatibilis szolgáltatások a megfelelő megbízhatósági és rugalmassági szintet biztosítják. Ezek kétféleképpen konfigurálhatók. Ezek lehetnek zónaredundánsak, a zónák közötti automatikus replikációval vagy a zónák közötti automatikus replikációval, egy adott zónába rögzített példányokkal. Ezeket a megközelítéseket kombinálhatja is. A zónaredundáns és a zónaredundáns architektúrával kapcsolatos további információkért tekintse meg a rendelkezésre állási zónák és régiók Javaslatok.

Az AKS-en futó Azure HDInsight jelenleg nem támogatja a rendelkezésre állási zónát a szolgáltatási ajánlatokban.

Vészhelyreállítás és üzletmenet-folytonosság

A vészhelyreállítás (DR) a nagy hatású események, például a természeti katasztrófák vagy az állásidőt és adatvesztést eredményező sikertelen üzemelő példányok helyreállításáról szól. A katasztrófa okától függetlenül a legjobb megoldás egy jól definiált és tesztelt DR-terv, valamint egy olyan alkalmazásterv, amely aktívan támogatja a DR-t. Mielőtt elkezdene gondolkodni a vészhelyreállítási terv létrehozásáról, tekintse meg a Javaslatok a vészhelyreállítási stratégia megtervezéséhez.

A DR-ről a Microsoft a megosztott felelősségi modellt használja. Egy megosztott felelősségi modellben a Microsoft biztosítja, hogy az alapinfrastruktúra és a platformszolgáltatások elérhetők legyenek. Ugyanakkor számos Azure-szolgáltatás nem replikálja automatikusan az adatokat, vagy egy meghibásodott régióból visszaesik egy másik engedélyezett régióba történő keresztreplikáláshoz. Ezekért a szolgáltatásokért Ön felel a számítási feladathoz használható vészhelyreállítási terv beállításáért. Az Azure-platformon szolgáltatásként (PaaS) futó szolgáltatások többsége funkciókkal és útmutatással támogatja a DR-t, és szolgáltatásspecifikus funkciókkal támogatja a gyors helyreállítást a dr. csomag fejlesztéséhez.

Jelenleg az Azure HDInsight on AKS CP (Control Plane) szolgáltatás és az adatbázisok az Azure régióiban vannak üzembe helyezve. Ezekben a régiókban az Azure HDInsight az AKS-példányokon és az adatbázispéldányokon elkülönített. Ha régiószintű kimaradás történik, egy régió leáll. A régió összes erőforrása, beleértve az Azure HDInsight RP(erőforrás-szolgáltatóját) az AKS CP-n, az Azure HDInsight adatbázisa az AKS CP-n és a régió összes ügyfélfürtje. Ebben az esetben csak a regionális kimaradás befejezésére várhatunk. A kimaradás helyreállítása után az Azure HDInsight on AKS szolgáltatás visszaáll, és az összes ügyfélfürt is visszaáll. Előfordulhat, hogy az adatok inkonzisztenciája miatt problémák léphetnek fel a kimaradás után, és manuális javításra van szükség.

Többrégiós vészhelyreállítás

Az Azure HDInsight az AKS-en jelenleg nem támogatja a régiók közötti feladatátvételt. Az üzletmenet folytonosságának javítása régiók közötti magas rendelkezésre állású vészhelyreállítással magasabb összetettségű és magasabb költségű architektúraterveket igényel. Az ügyfelek dönthetnek úgy, hogy saját megoldást terveznek a kulcsadatok és a feladatok állapotának biztonsági mentésére különböző régiókban.

Üzemkimaradás észlelése, értesítés és felügyelet

  • Az Azure monitorozási eszközeivel az AKS-en futó HDInsightban észleli a fürt rendellenes viselkedését, és beállítja a megfelelő riasztási értesítéseket. A Log Analytics különböző módokon engedélyezhető, és felügyelt Prometheus-szolgáltatást használhat az Azure Grafana irányítópultjaival a monitorozáshoz. További információ: Azure Monitor-integráció.

  • Iratkozzon fel az Azure állapotriasztásaira, hogy értesítést kapjon az előfizetés, szolgáltatás vagy régió szolgáltatásproblémáiról, tervezett karbantartásáról, állapot- és biztonsági tanácsadóiról. A probléma okát és az ETA-t tartalmazó állapotértesítések segítenek a feladatátvétel és a feladat-visszavétel jobb végrehajtásában. További információ: A szolgáltatás állapotának kezelése és az Azure Service Health dokumentációja.

Egyrégiós vészhelyreállítás

Az AKS-en futó Azure HDInsight jelenleg csak egy standard szolgáltatásajánlattal rendelkezik, és a fürtök egy régiós földrajzi helyen jönnek létre. Az ügyfelek felelősek a diaszter helyreállításáért.

Kapacitás és proaktív vészhelyreállítási rugalmasság

Az Azure HDInsight az AKS-en és ügyfelein a megosztott felelősségi modell szerint működik, ami azt jelenti, hogy az ügyfélnek meg kell adnia a dr. Annak biztosítása érdekében, hogy a helyreállítás proaktív legyen, az ügyfeleknek mindig előre üzembe kell helyeznie a másodlagos példányokat, mert nincs garancia a kapacitásra a hatás idején azok számára, akik még nem helyezték előre őket.

A HDInsight eredeti verziójával ellentétben az AKS-fürtökön a HDInsightban használt virtuális gépekhez ugyanaz a kvóta szükséges, mint az Azure-beli virtuális gépekhez. További információ: Kapacitástervezés.

A cikkben tárgyalt elemekről a következő témakörben olvashat bővebben: