Share via


Confiabilidade do Azure HDInsight no Serviço de Kubernetes do Azure

Este artigo descreve o suporte à confiabilidade do Azure HDInsight no Serviço de Kubernetes do Azure (AKS) e aborda tanto recomendações de confiabilidade específicas quanto a recuperação de desastres e continuidade dos negócios. Para obter uma visão geral mais detalhada dos princípios de confiabilidade no Azure, confira Confiabilidade do Azure.

Recomendações de confiabilidade

Essa seção contém recomendações para obter resiliência e disponibilidade. Cada recomendação se enquadra em uma das duas categorias:

  • Os itens de integridade abrangem áreas como itens de configuração e a função adequada dos principais componentes que compõem a carga de trabalho do Azure, como configurações de recursos do Azure, dependências de outros serviços e assim por diante.

  • Os itens de risco abrangem áreas como requisitos de disponibilidade e recuperação, teste, monitoramento, implantação e outros itens que, se deixados não resolvidos, aumentam as chances de problemas no ambiente.

Matriz de prioridade de recomendações de confiabilidade

Cada recomendação é marcada de acordo com a seguinte matriz de prioridade:

Imagem Prioridade Descrição
Alto Correção imediata necessária.
Médio Correção dentro de 3 a 6 meses.
Baixo Precisa de revisão.

Resumo das recomendações de confiabilidade

Categoria Prioridade Recomendação
Disponibilidade Recomendações de tamanho de máquina virtual padrão e mínimo
Dimensionar o HDInsight automaticamente nos Clusters do AKS
Monitoramento Integração com Análise de logs
Monitoramento com o Prometheus e o Grafana Gerenciados pelo Azure
Segurança Usar um NSG para restringir o tráfego para o HDInsight no AKS

Suporte à zona de disponibilidade

As zonas de disponibilidade do Azure são pelo menos três grupos de datacenters separados fisicamente em cada região do Azure. Os datacenters dentro de cada zona são equipados com energia, resfriamento e infraestrutura de rede independentes. Em caso de falha de uma zona local, as zonas de disponibilidade foram projetadas de modo que, se uma zona é afetada, os serviços regionais, a capacidade e a alta disponibilidade têm suporte nas duas zonas restantes.

As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é obtida devido à redundância e ao isolamento lógico dos serviços do Azure. Para obter informações detalhadas sobre as zonas de disponibilidade no Azure, confira Regiões e zonas de disponibilidade.

Os serviços habilitados para zonas de disponibilidade do Azure foram projetados para fornecer o nível ideal de resiliência e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ter redundância de zona, com replicação automática entre zonas, ou podem ser zonais, com instâncias fixadas em uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre a arquitetura zonal versus com redundância de zona, confira Recomendações para usar zonas e regiões de disponibilidade.

Atualmente, o Azure HDInsight no AKS não dá suporte à zona de disponibilidade em suas ofertas de serviço.

Recuperação de desastre e continuidade dos negócios

A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.

Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastre que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.

Atualmente, o serviço e os bancos de dados do CP (Plano de Controle) do Azure HDInsight no AKS são implantados entre regiões do Azure. Entre essas regiões, as instâncias do Azure HDInsight no AKS e as instâncias de banco de dados ficam isoladas. Quando ocorre uma indisponibilidade no nível da região, uma região fica inoperante. Todos os recursos nessa região, incluindo o RP (Provedor de Recursos) do CP do Azure HDInsight no AKS, o banco de dados do CP do Azure HDInsight no AKS e todos os clusters de clientes nessa região. Nesse caso, tudo o que podemos fazer é aguardar o término da indisponibilidade regional. Quando a indisponibilidade é recuperada, o serviço do Azure HDInsight no AKS retorna, assim como todos os clusters de clientes. É possível que ocorram alguns problemas devido à inconsistência de dados após a indisponibilidade e seja preciso uma correção manual.

Recuperação de desastre de várias regiões

Atualmente, o Azure HDInsight no AKS não dá suporte ao failover entre regiões. Melhorar a continuidade dos negócios usando a recuperação de desastre de alta disponibilidade entre regiões requer designs de arquitetura de maior complexidade e mais alto custo. Os clientes podem optar por criar sua própria solução para fazer backup de dados importantes e status do trabalho nas diferentes regiões.

Detecção, notificação e gerenciamento de interrupção

  • Use as ferramentas de monitoramento do Azure no HDInsight no AKS para detectar qualquer comportamento anormal no cluster e definir as notificações de alerta correspondentes. Você pode habilitar o Log Analytics de várias maneiras e usar o serviço do Prometheus gerenciado com painéis de controle do Grafana no Azure para o monitoramento. Para saber mais, confira Integração do Azure Monitor.

  • Assine os alertas de integridade do Azure para ser notificado sobre problemas de serviço, manutenção planejada, avisos de integridade e segurança de uma assinatura, serviço ou região. Notificações de integridade que incluem a causa do problema e o ETA determinado ajudam você a executar melhor o failover e os failbacks. Para obter mais informações, confira Gerenciar a integridade do serviço e a documentação de Integridade do Serviço do Azure.

Recuperação de desastre em região única

Atualmente, o Azure HDInsight no AKS tem apenas uma oferta de serviço padrão e os clusters são criados em uma localização geográfica de uma única região. Os clientes são responsáveis pela recuperação de desastres.

Capacidade e resiliência proativa de recuperação de desastre

O Azure HDInsight no AKS e seus clientes operam sob o modelo de responsabilidade compartilhada, o que significa que o cliente deve resolver a DR para o serviço que implanta e controla. Para garantir que a recuperação seja proativa, os clientes devem sempre implantar recursos secundários previamente porque não há garantia de capacidade no momento do impacto para aqueles que não fizeram a alocação prévia.

Ao contrário da versão original do HDInsight, as Máquinas Virtuais usadas no HDInsight em clusters do AKS requerem a mesma cota que as VMs do Azure. Para obter mais informações, confira Planejamento da capacidade.

Para saber mais sobre os itens discutidos neste artigo, veja: