Share via


Betrouwbaarheid in Azure HDInsight in Azure Kubernetes Service

In dit artikel wordt ondersteuning voor betrouwbaarheid in Azure HDInsight in Azure Kubernetes Service (AKS) beschreven en worden zowel specifieke aanbevelingen voor betrouwbaarheid als herstel na noodgevallen en bedrijfscontinuïteit behandeld. Zie Azure-betrouwbaarheid voor een gedetailleerder overzicht van betrouwbaarheidsprincipes in Azure.

Aanbevelingen voor betrouwbaarheid

Deze sectie bevat aanbevelingen voor het bereiken van tolerantie en beschikbaarheid. Elke aanbeveling valt in een van de volgende twee categorieën:

  • Statusitems hebben betrekking op gebieden zoals configuratie-items en de juiste functie van de belangrijkste onderdelen waaruit uw Azure-workload bestaat, zoals azure-resourceconfiguratie-instellingen, afhankelijkheden van andere services, enzovoort.

  • Risico-items hebben betrekking op gebieden zoals beschikbaarheids- en herstelvereisten, testen, bewaken, implementeren en andere items die, indien onopgeloste, de kans op problemen in de omgeving vergroten.

Prioriteitsmatrix voor aanbevelingen voor betrouwbaarheid

Elke aanbeveling wordt gemarkeerd in overeenstemming met de volgende prioriteitsmatrix:

Afbeelding Prioriteit Beschrijving
Hoog Onmiddellijke oplossing nodig.
Gemiddeld Herstel binnen 3-6 maanden.
Beperkt Moet worden gecontroleerd.

Samenvatting van aanbevelingen voor betrouwbaarheid

Categorie Prioriteit Aanbeveling
Beschikbaarheid Aanbevelingen voor standaard- en minimale grootte van virtuele machines
HDInsight automatisch schalen op AKS-clusters
Controleren Integreren met Log Analytics
Bewaking met Azure Managed Prometheus en Grafana
Beveiliging NSG gebruiken om verkeer naar HDInsight op AKS te beperken

Ondersteuning voor beschikbaarheidszone

Azure-beschikbaarheidszones zijn ten minste drie fysiek afzonderlijke groepen datacenters binnen elke Azure-regio. Datacenters binnen elke zone zijn uitgerust met onafhankelijke energie-, koelings- en netwerkinfrastructuur. In het geval van een storing in een lokale zone worden beschikbaarheidszones zodanig ontworpen dat als de ene zone wordt beïnvloed, regionale services, capaciteit en hoge beschikbaarheid worden ondersteund door de resterende twee zones.

Fouten kunnen variëren van software- en hardwarefouten tot gebeurtenissen zoals aardbevingen, overstromingen en brand. Tolerantie voor fouten wordt bereikt met redundantie en logische isolatie van Azure-services. Zie Regio's en beschikbaarheidszones voor meer informatie over beschikbaarheidszones in Azure.

Services met azure-beschikbaarheidszones zijn ontworpen om het juiste niveau van betrouwbaarheid en flexibiliteit te bieden. Ze kunnen op twee manieren worden geconfigureerd. Ze kunnen zone-redundant zijn, met automatische replicatie tussen zones of zonegebonden, waarbij exemplaren zijn vastgemaakt aan een specifieke zone. U kunt deze benaderingen ook combineren. Zie Aanbevelingen voor meer informatie over zone-redundante versus zone-redundante architectuur voor het gebruik van beschikbaarheidszones en regio's.

Momenteel biedt Azure HDInsight in AKS geen ondersteuning voor beschikbaarheidszone in de serviceaanbiedingen.

Herstel na noodgevallen en bedrijfscontinuïteit

Herstel na noodgevallen (DR) gaat over het herstellen van gebeurtenissen met een hoge impact, zoals natuurrampen of mislukte implementaties die downtime en gegevensverlies tot gevolg hebben. Ongeacht de oorzaak is de beste oplossing voor een noodgeval een goed gedefinieerd en getest DR-plan en een toepassingsontwerp dat actief dr ondersteunt. Zie Aanbevelingen voordat u nadenkt over het maken van uw plan voor herstel na noodgevallen.

Als het gaat om herstel na noodgevallen, gebruikt Microsoft het model voor gedeelde verantwoordelijkheid. In een model voor gedeelde verantwoordelijkheid zorgt Microsoft ervoor dat de basisinfrastructuur en platformservices beschikbaar zijn. Tegelijkertijd repliceren veel Azure-services niet automatisch gegevens of vallen ze terug van een mislukte regio om kruislings te repliceren naar een andere ingeschakelde regio. Voor deze services bent u verantwoordelijk voor het instellen van een plan voor herstel na noodgevallen dat geschikt is voor uw workload. De meeste services die worden uitgevoerd op PaaS-aanbiedingen (Platform as a Service) van Azure bieden functies en richtlijnen ter ondersteuning van herstel na noodgeval en u kunt servicespecifieke functies gebruiken om snel herstel te ondersteunen om uw DR-plan te ontwikkelen.

Momenteel worden azure HDInsight op AKS CP(Control Plane)-service en -databases geïmplementeerd in verschillende regio's van Azure. Tussen deze regio's worden de Azure HDInsight op AKS-exemplaren en database-exemplaren geïsoleerd. Wanneer er een storing op regioniveau optreedt, is één regio offline. Alle resources in deze regio, inclusief de RP(Resource Provider) van Azure HDInsight op AKS CP, database van Azure HDInsight op AKS CP en alle klantclusters in deze regio. In dit geval kunnen we alleen wachten tot de regionale storing is beëindigd. Wanneer de storing is hersteld, is de Azure HDInsight in AKS-service terug en zijn alle klantclusters ook terug. Het is mogelijk dat er enkele problemen zijn vanwege inconsistentie van gegevens na de storing en een handmatige oplossing nodig heeft.

Herstel na noodgevallen voor meerdere regio's

Azure HDInsight in AKS biedt momenteel geen ondersteuning voor failover tussen regio's. Voor het verbeteren van bedrijfscontinuïteit met herstel na noodgevallen in meerdere regio's zijn architectuurontwerpen van hogere complexiteit en hogere kosten vereist. Klanten kunnen ervoor kiezen om hun eigen oplossing te ontwerpen om een back-up te maken van belangrijke gegevens en taakstatus in verschillende regio's.

Detectie, melding en beheer van storingen

  • Gebruik Azure-bewakingshulpprogramma's in HDInsight in AKS om abnormaal gedrag in het cluster te detecteren en bijbehorende waarschuwingsmeldingen in te stellen. U kunt Log Analytics op verschillende manieren inschakelen en beheerde Prometheus-service gebruiken met Azure Grafana-dashboards voor bewaking. Zie Azure Monitor-integratie voor meer informatie.

  • Abonneer u op Azure-statuswaarschuwingen om op de hoogte te worden gesteld van serviceproblemen, gepland onderhoud, status- en beveiligingsadviezen voor een abonnement, service of regio. Statusmeldingen met de oorzaak van het probleem en een resolute ETA helpen u om failover- en failbacks beter uit te voeren. Zie de documentatie servicestatus en Azure Service Health beheren voor meer informatie.

Herstel na noodgevallen in één regio

Op dit moment heeft Azure HDInsight op AKS slechts één standaardserviceaanbod en worden clusters gemaakt in een geografie met één regio. Klanten zijn verantwoordelijk voor diasterherstel.

Tolerantie voor capaciteit en proactief herstel na noodgevallen

Azure HDInsight in AKS en haar klanten werken onder het model voor gedeelde verantwoordelijkheid, wat betekent dat de klant dr moet aanpakken voor de service die ze implementeren en beheren. Om ervoor te zorgen dat herstel proactief is, moeten klanten altijd secundaire databases vooraf implementeren, omdat er geen garantie is voor capaciteit op het moment van impact voor degenen die de toewijzing niet vooraf hebben toegewezen.

In tegenstelling tot de oorspronkelijke versie van HDInsight hebben de virtuele machines die worden gebruikt in HDInsight op AKS-clusters hetzelfde quotum als virtuele Azure-machines nodig. Zie Capaciteitsplanning voor meer informatie.

Zie voor meer informatie over de items die in dit artikel worden besproken: