Tillförlitlighet i Azure HDInsight på Azure Kubernetes Service

Den här artikeln beskriver tillförlitlighetsstöd i Azure HDInsight på Azure Kubernetes Service (AKS) och beskriver både specifika tillförlitlighetsrekommendationer och haveriberedskap och affärskontinuitet. En mer detaljerad översikt över tillförlitlighetsprinciper i Azure finns i Azures tillförlitlighet.

Tillförlitlighetsrekommendationer

Det här avsnittet innehåller rekommendationer för att uppnå återhämtning och tillgänglighet. Varje rekommendation ingår i någon av två kategorier:

  • Hälsoobjekt omfattar områden som konfigurationsobjekt och rätt funktion för de huvudkomponenter som utgör din Azure-arbetsbelastning, till exempel Konfigurationsinställningar för Azure-resurser, beroenden för andra tjänster och så vidare.

  • Riskobjekt omfattar områden som tillgänglighets- och återställningskrav, testning, övervakning, distribution och andra objekt som, om de lämnas olösta, ökar risken för problem i miljön.

Prioritetsmatris för tillförlitlighetsrekommendationer

Varje rekommendation markeras i enlighet med följande prioritetsmatris:

Bild Prioritet beskrivning
Högt Omedelbar korrigering krävs.
Medium Åtgärda inom 3–6 månader.
Låg Måste granskas.

Sammanfattning av tillförlitlighetsrekommendationer

Kategori Prioritet Rekommendation
Tillgänglighet Standard- och minsta storleksrekommendationer för virtuella datorer
Skala HDInsight automatiskt på AKS-kluster
Övervakning Så här integrerar du med Log Analytics
Övervakning med Azure Managed Prometheus och Grafana
Säkerhet Använda NSG för att begränsa trafik till HDInsight på AKS

Stöd för tillgänglighetszon

Azure-tillgänglighetszoner är minst tre fysiskt separata grupper av datacenter i varje Azure-region. Datacenter i varje zon är utrustade med oberoende infrastruktur för ström, kylning och nätverk. Om det uppstår ett fel i den lokala zonen är tillgänglighetszoner utformade så att regionala tjänster, kapacitet och hög tillgänglighet stöds av de återstående två zonerna om den ena zonen påverkas.

Fel kan vara allt från programvaru- och maskinvarufel till händelser som jordbävningar, översvämningar och bränder. Tolerans mot fel uppnås med redundans och logisk isolering av Azure-tjänster. Mer detaljerad information om tillgänglighetszoner i Azure finns i Regioner och tillgänglighetszoner.

Azure-tillgänglighetszoner-aktiverade tjänster är utformade för att ge rätt nivå av tillförlitlighet och flexibilitet. De kan konfigureras på två sätt. De kan vara antingen zonredundanta, med automatisk replikering mellan zoner eller zoninstanser, med instanser fästa på en specifik zon. Du kan också kombinera dessa metoder. Mer information om zon- och zonredundant arkitektur finns i Rekommendationer för användning av tillgänglighetszoner och regioner.

För närvarande har Azure HDInsight på AKS inte stöd för tillgänglighetszoner i dess tjänsterbjudanden.

Haveriberedskap och affärskontinuitet

Haveriberedskap handlar om att återställa från händelser med hög påverkan, till exempel naturkatastrofer eller misslyckade distributioner som resulterar i driftstopp och dataförlust. Oavsett orsak är den bästa lösningen för en katastrof en väldefinierad och testad DR-plan och en programdesign som aktivt stöder DR. Innan du börjar fundera på att skapa en haveriberedskapsplan kan du läsa Rekommendationer för att utforma en strategi för haveriberedskap.

När det gäller dr använder Microsoft modellen för delat ansvar. I en modell med delat ansvar ser Microsoft till att baslinjeinfrastrukturen och plattformstjänsterna är tillgängliga. Samtidigt replikerar många Azure-tjänster inte automatiskt data eller återgår från en misslyckad region för att korsreparera till en annan aktiverad region. För dessa tjänster ansvarar du för att konfigurera en haveriberedskapsplan som fungerar för din arbetsbelastning. De flesta tjänster som körs på PaaS-erbjudanden (Plattform som en tjänst) i Azure ger funktioner och vägledning för att stödja DR och du kan använda tjänstspecifika funktioner för att stödja snabb återställning för att utveckla din DR-plan.

För närvarande distribueras Azure HDInsight på AKS CP(Control Plane)-tjänsten och databaser mellan regioner i Azure. Bland dessa regioner är Azure HDInsight på AKS-instanser och databasinstanser isolerade. När ett avbrott på regionnivå inträffar är en region nere. Alla resurser i den här regionen, inklusive RP(resursprovidern) för Azure HDInsight på AKS CP, databasen för Azure HDInsight i AKS CP och alla kundkluster i den här regionen. I det här fallet kan vi bara vänta tills det regionala avbrottet upphör. När avbrottet återställs är Azure HDInsight på AKS-tjänsten tillbaka och alla kundkluster är också tillbaka. Det är möjligt att det kan uppstå vissa problem på grund av datainkonsekvens efter avbrotten och behöver en manuell korrigering.

Haveriberedskap för flera regioner

Azure HDInsight på AKS stöder för närvarande inte redundans mellan regioner. För att förbättra affärskontinuiteten med haveriberedskap mellan regioner krävs arkitekturdesign med högre komplexitet och högre kostnader. Kunder kan välja att utforma sin egen lösning för att säkerhetskopiera nyckeldata och jobbstatus i olika regioner.

Identifiering, avisering och hantering av avbrott

  • Använd Azure-övervakningsverktyg i HDInsight på AKS för att identifiera onormalt beteende i klustret och ange motsvarande aviseringsmeddelanden. Du kan aktivera Log Analytics på olika sätt och använda hanterad Prometheus-tjänst med Azure Grafana-instrumentpaneler för övervakning. Mer information finns i Azure Monitor-integrering.

  • Prenumerera på Azure-hälsoaviseringar som ska meddelas om tjänstproblem, planerat underhåll, hälso- och säkerhetsrekommendationer för en prenumeration, tjänst eller region. Hälsomeddelanden som innehåller orsaken till problemet och resolut ETA hjälper dig att bättre köra redundans och återställning efter fel. Mer information finns i Hantera tjänsthälsa och Azure Service Health-dokumentation.

Haveriberedskap för en region

För närvarande har Azure HDInsight på AKS bara ett standardtjänsterbjudande och kluster skapas i ett geografiskt område med en region. Kunderna ansvarar för diasteråterställning.

Återhämtning av kapacitet och proaktiv haveriberedskap

Azure HDInsight på AKS och dess kunder fungerar enligt modellen delat ansvar, vilket innebär att kunden måste kontakta DR för den tjänst som de distribuerar och kontrollerar. För att säkerställa att återställningen är proaktiv bör kunderna alltid fördistribuera sekundärfiler eftersom det inte finns någon garanti för kapacitet vid tidpunkten för påverkan för dem som inte har förallokerat.

Till skillnad från den ursprungliga versionen av HDInsight kräver de virtuella datorer som används i HDInsight i AKS-kluster samma kvot som virtuella Azure-datorer. Mer information finns i Kapacitetsplanering.

Mer information om de objekt som beskrivs i den här artikeln finns i: