Confiabilidade no Azure HDInsight no Serviço Kubernetes do Azure

Artigo
04/25/2024

Este artigo descreve o suporte à confiabilidade no Azure HDInsight no Serviço Kubernetes do Azure (AKS) e aborda recomendações de confiabilidade específicas e recuperação de desastres e continuidade de negócios. Para obter uma visão geral mais detalhada dos princípios de confiabilidade no Azure, consulte Confiabilidade do Azure.

Recomendações de fiabilidade

Esta seção contém recomendações para alcançar resiliência e disponibilidade. Cada recomendação enquadra-se numa de duas categorias:

Os itens de integridade abrangem áreas como itens de configuração e a função adequada dos principais componentes que compõem sua Carga de Trabalho do Azure, como definições de configuração de Recursos do Azure, dependências de outros serviços e assim por diante.
Os itens de risco abrangem áreas como requisitos de disponibilidade e recuperação, testes, monitoramento, implantação e outros itens que, se não forem resolvidos, aumentam as chances de problemas no ambiente.

Matriz de prioridades de recomendações de fiabilidade

Cada recomendação é assinalada de acordo com a seguinte matriz de prioridades:

Image	Prioridade	Description
	Alto	Correção imediata necessária.
	Médio	Corrigir dentro de 3-6 meses.
	Baixo	Precisa ser revisto.

Resumo das recomendações de fiabilidade

Categoria	Prioridade	Recomendação
Disponibilidade		Recomendações de tamanho de máquina virtual padrão e mínimo
		Dimensionamento automático do HDInsight em clusters AKS
Monitorização		Como integrar com o Log Analytics
		Monitorizar com o Azure Managed Prometheus e o Grafana
Segurança		Usar o NSG para restringir o tráfego ao HDInsight no AKS

Suporte à zona de disponibilidade

As zonas de disponibilidade do Azure são pelo menos três grupos fisicamente separados de datacenters em cada região do Azure. Os datacenters dentro de cada zona são equipados com infraestrutura independente de energia, resfriamento e rede. No caso de uma falha de zona local, as zonas de disponibilidade são projetadas de modo que, se uma zona for afetada, os serviços regionais, a capacidade e a alta disponibilidade sejam suportados pelas duas zonas restantes.

As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é alcançada com redundância e isolamento lógico dos serviços do Azure. Para obter informações mais detalhadas sobre zonas de disponibilidade no Azure, consulte Regiões e zonas de disponibilidade.

Os serviços habilitados para zonas de disponibilidade do Azure são projetados para fornecer o nível certo de confiabilidade e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ser redundantes de zona, com replicação automática entre zonas, ou zonais, com instâncias fixadas a uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre arquitetura zonal versus arquitetura com redundância de zona, consulte Recomendações para usar zonas e regiões de disponibilidade.

Atualmente, o Azure HDInsight no AKS não oferece suporte à zona de disponibilidade em suas ofertas de serviço.

Recuperação após desastre e continuidade de negócio

A recuperação de desastres (DR) consiste na recuperação de eventos de alto impacto, como desastres naturais ou implantações com falha que resultam em tempo de inatividade e perda de dados. Independentemente da causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que suporte ativamente a DR. Antes de começar a pensar em criar seu plano de recuperação de desastres, consulte Recomendações para projetar uma estratégia de recuperação de desastres.

Quando se trata de DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços da plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente ou recorrem de uma região com falha para replicação cruzada para outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de plataforma como serviço (PaaS) do Azure fornecem recursos e orientação para dar suporte à DR e você pode usar recursos específicos do serviço para dar suporte à recuperação rápida para ajudar a desenvolver seu plano de DR.

Atualmente, o serviço e os bancos de dados do Azure HDInsight no AKS CP (Plano de Controle) são implantados em regiões do Azure. Entre essas regiões, o Azure HDInsight em instâncias AKS e instâncias de banco de dados são isoladas. Quando ocorre uma interrupção a nível de região, uma região está inativa. Todos os recursos nesta região, incluindo o RP (Provedor de Recursos) do Azure HDInsight no AKS CP, o banco de dados do Azure HDInsight no AKS CP e todos os clusters de clientes nessa região. Neste caso, só podemos esperar que a interrupção regional termine. Quando a interrupção é recuperada, o serviço Azure HDInsight no AKS está de volta e todos os clusters de clientes também estão de volta. É possível que haja alguns problemas devido à inconsistência de dados após a interrupção e precise de uma correção manual.

Recuperação de desastres em várias regiões

Atualmente, o Azure HDInsight no AKS não oferece suporte a failover entre regiões. Melhorar a continuidade de negócios usando a recuperação de desastres de alta disponibilidade entre regiões requer projetos arquitetônicos de maior complexidade e maior custo. Os clientes podem optar por projetar sua própria solução para fazer backup de dados importantes e status do trabalho em diferentes regiões.

Deteção, notificação e gerenciamento de interrupções

Use as ferramentas de monitoramento do Azure no HDInsight no AKS para detetar comportamentos anormais no cluster e definir as notificações de alerta correspondentes. Você pode habilitar o Log Analytics de várias maneiras e usar o serviço Prometheus gerenciado com painéis do Azure Grafana para monitoramento. Para obter mais informações, consulte Integração do Azure Monitor.
Assine os alertas de integridade do Azure para ser notificado sobre problemas de serviço, manutenção planejada, avisos de integridade e segurança de uma assinatura, serviço ou região. As notificações de integridade que incluem a causa do problema e o ETA resoluto ajudam você a executar melhor o failover e os failbacks. Para obter mais informações, consulte Gerenciar a integridade do serviço e a documentação do Azure Service Health.

Recuperação de desastres em uma única região

Atualmente, o Azure HDInsight no AKS tem apenas uma oferta de serviço padrão e os clusters são criados em uma geografia de região única. Os clientes são responsáveis pela recuperação do diáster.

Capacidade e resiliência proativa de recuperação de desastres

O Azure HDInsight no AKS e seus clientes operam sob o modelo de responsabilidade compartilhada, o que significa que o cliente deve abordar a DR para o serviço que implanta e controla. Para garantir que a recuperação seja proativa, os clientes devem sempre pré-implantar secundários, pois não há garantia de capacidade no momento do impacto para aqueles que não foram pré-alocados.

Ao contrário da versão original do HDInsight, as Máquinas Virtuais usadas no HDInsight em clusters AKS exigem a mesma Cota que as VMs do Azure. Para obter mais informações, consulte Planejamento de capacidade.

Para saber mais sobre os itens discutidos neste artigo, consulte: