Partilhar via


Fiabilidade no Azure Key Vault

O Azure Key Vault é um serviço na cloud que fornece um armazenamento seguro para segredos, como chaves, palavras-passe, certificados e outras informações sensíveis. O Key Vault fornece uma gama de recursos de confiabilidade integrados para ajudar a garantir que seus segredos permaneçam disponíveis.

Quando você usa o Azure, a confiabilidade é uma responsabilidade compartilhada. A Microsoft fornece uma variedade de recursos para oferecer suporte à resiliência e à recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve que a Key Vault é resiliente a uma variedade de potenciais interrupções e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode usar backups para recuperar de outros tipos de problemas, funcionalidades de recuperação para evitar eliminações acidentais e destaca algumas informações-chave sobre o acordo de nível de serviço (SLA) do Key Vault.

Recomendações de implantação de produção para confiabilidade

Para cargas de trabalho de produção, recomendamos que:

  • Use cofres de chaves das camadas Standard ou Premium.
  • Habilite a proteção contra exclusão suave e limpeza para evitar exclusão acidental ou maliciosa.
  • Para cargas de trabalho críticas, considere a implementação de estratégias de várias regiões descritas neste guia.

Visão geral da arquitetura de confiabilidade

Para garantir alta durabilidade e disponibilidade de suas chaves, segredos e certificados se ocorrer uma falha de hardware ou interrupção de rede, o Cofre de Chaves fornece várias camadas de redundância para manter a disponibilidade durante os seguintes eventos:

  • Falhas de hardware
  • Interrupções na rede
  • Desastres localizados
  • Atividades de manutenção

Por padrão, o Cofre da Chave obtém redundância replicando o cofre de chaves e seu conteúdo dentro da região.

Se a região tiver uma região emparelhada e essa região emparelhada estiver na mesma geografia que a região primária, o conteúdo também será replicado para a região emparelhada. Essa abordagem garante alta durabilidade de suas chaves e segredos, o que protege contra falhas de hardware, interrupções de rede ou desastres localizados.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.

Todos os aplicativos hospedados na nuvem devem seguir as diretrizes de tratamento de falhas transitórias do Azure quando se comunicam com quaisquer APIs, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.

Para lidar com quaisquer falhas transitórias que possam ocorrer, seus aplicativos cliente devem implementar a lógica de repetição quando interagem com o Cofre de Chaves. Considere as seguintes práticas recomendadas:

  • Use os SDKs do Azure, que normalmente incluem mecanismos de repetição internos.

  • Implemente políticas de repetição com backoff exponencial se os seus clientes se conectarem diretamente ao Cofre de Chaves.

  • Armazene segredos em cache na memória quando possível para reduzir solicitações diretas ao Cofre de Chaves.

  • Monitore erros de limitação porque exceder os limites de serviço do Cofre de Chaves causa limitação.

Se você usar o Cofre de Chaves em cenários de alta taxa de transferência, considere distribuir suas operações em vários cofres de chaves para evitar limites de limitação. Considere a orientação específica do Cofre de Chaves para os seguintes cenários:

  • Um cenário de alta taxa de transferência é aquele que se aproxima ou ultrapassa os limites de serviço para operações do Cofre de Chaves, como 200 operações por segundo para chaves protegidas por software.

  • Para cargas de trabalho de alto rendimento, divida o tráfego do Cofre da Chave entre vários cofres e regiões diferentes.

  • Um limite de toda a assinatura para todos os tipos de transação é cinco vezes o limite individual do cofre de chaves.

  • Utilize um cofre separado para cada domínio de segurança ou disponibilidade. Por exemplo, se você tiver cinco aplicativos em duas regiões, considere usar 10 cofres.

  • Para operações de chave pública, como criptografia, encapsulamento e verificação, execute essas operações localmente armazenando em cache o material de chave pública.

Para obter mais informações, consulte Diretrizes de limitação do Cofre de Chaves.

Resiliência a falhas na zona de disponibilidade

As zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.

O Key Vault fornece automaticamente redundância de zona em regiões que suportam zonas de disponibilidade. Essa redundância fornece alta disponibilidade dentro de uma região sem exigir nenhuma configuração específica.

Quando uma zona de disponibilidade fica indisponível, o Azure Key Vault redireciona automaticamente as suas solicitações para outras zonas de disponibilidade funcionais para garantir alta disponibilidade.

Suporte de região

O Cofre da Chave habilita a redundância de zona por padrão em todas as regiões do Azure que oferecem suporte a zonas de disponibilidade.

Requerimentos

Todas as SKUs do Key Vault, Standard e Premium, suportam o mesmo nível de disponibilidade e resiliência. Não há requisitos específicos de nível para alcançar a resiliência da zona.

Custo

Não há custos adicionais associados à redundância de zona no Cofre de Chaves. O preço é baseado no SKU, Standard ou Premium, e no número de operações realizadas.

Comportamento quando todas as zonas estão íntegras

Esta secção descreve o que esperar quando os cofres de chaves estão numa região que possui zonas de disponibilidade e todas as zonas de disponibilidade estão operacionais.

  • Roteamento de tráfego entre zonas: O Key Vault gerencia automaticamente o roteamento de tráfego entre zonas de disponibilidade. Durante as operações normais, as solicitações são distribuídas entre as zonas de forma transparente.

  • Replicação de dados entre zonas: Os dados do Key Vault são replicados de forma síncrona entre zonas de disponibilidade em regiões que oferecem suporte a zonas. Essa replicação garante que suas chaves, segredos e certificados permaneçam consistentes e disponíveis mesmo se uma zona ficar indisponível.

Comportamento durante uma falha de zona

A seção a seguir descreve o que esperar quando os cofres de chaves estão em uma região que tem zonas de disponibilidade e uma ou mais zonas de disponibilidade não estão disponíveis:

  • Deteção e resposta: O serviço Cofre da Chave é responsável por detetar falhas de zona e responder automaticamente a elas. Você não precisa tomar nenhuma medida durante uma falha de zona.
  • Solicitações ativas: Durante uma falha de zona, a zona afetada pode falhar ao lidar com solicitações em voo, o que exige que os aplicativos cliente as tentem novamente. Os aplicativos cliente devem seguir práticas transitórias de tratamento de falhas para garantir que possam repetir solicitações se ocorrer uma falha de zona.

  • Perda de dados esperada: Nenhuma perda de dados é esperada durante uma falha de zona devido à replicação síncrona entre zonas.

  • Tempo de inatividade esperado: Para operações de leitura, deve haver tempo de inatividade mínimo ou nulo durante uma falha de zona. As operações de gravação podem enfrentar indisponibilidade temporária enquanto o serviço se ajusta à falha na zona. Espera-se que as operações de leitura permaneçam disponíveis durante falhas de zona.

  • Reencaminhamento do tráfego: O Key Vault redireciona automaticamente o tráfego da zona afetada para zonas íntegras sem exigir qualquer intervenção do cliente.

Recuperação de zona

Quando a zona de disponibilidade afetada se recupera, o Azure Key Vault reposiciona automaticamente as operações para essa zona. A plataforma Azure gerencia totalmente esse processo e não requer nenhuma intervenção do cliente.

Resiliência a falhas em toda a região

Os recursos do Key Vault são implantados em uma única região do Azure. Se a região ficar indisponível, o cofre de chaves também ficará indisponível. No entanto, há abordagens que você pode usar para ajudar a garantir resiliência a interrupções na região. Essas abordagens dependem se o Key Vault está numa região emparelhada ou não emparelhada, e dos seus requisitos e configuração específicos.

Failover gerenciado pela Microsoft para uma região emparelhada

O Key Vault oferece suporte à replicação e failover gerenciados pela Microsoft para cofres de chaves na maioria das regiões emparelhadas. O conteúdo do cofre de chaves é replicado automaticamente dentro da região e, de forma assíncrona, para a região emparelhada. Esta abordagem garante uma elevada durabilidade das suas chaves e segredos. No caso improvável de uma falha prolongada de uma região, a Microsoft pode iniciar um failover regional do seu cofre de chaves.

As seguintes regiões não oferecem suporte à replicação gerenciada pela Microsoft ou ao failover entre regiões:

  • Sul do Brasil
  • Brasil Sudeste
  • E.U.A. Oeste 3
  • Qualquer região que não possua uma região correspondente.

Importante

A Microsoft aciona o failover gerenciado pela Microsoft. É provável que ocorra após um atraso significativo e seja feito com o melhor esforço possível. Existem também algumas exceções a este processo. O failover de cofres de chaves pode ocorrer num momento diferente do horário de failover de outros serviços do Azure.

Se você precisar ser resiliente a interrupções de região, considere usar uma das soluções personalizadas de várias regiões para resiliência.

Você também pode usar o recurso de backup e restauração para replicar o conteúdo do seu cofre para outra região de sua escolha.

Considerações

  • Tempo de inatividade: Enquanto o failover estiver em andamento, seu cofre de chaves pode ficar indisponível por alguns minutos.

  • Somente leitura após failover: Após o failover, o cofre de chaves torna-se somente leitura e suporta apenas ações limitadas. Não é possível alterar as propriedades do cofre de chaves enquanto estiver operando na região secundária, e as configurações de firewall e política de acesso não podem ser modificadas durante a operação na região secundária.

    Quando o cofre de chaves está no modo somente leitura, somente as seguintes operações são suportadas:

    • Listar certificados
    • Obter certificados
    • Listar segredos
    • Obtenha segredos
    • Listar chaves
    • Obter (propriedades de) chaves
    • Criptografar
    • Desencriptar
    • Embrulho
    • Desembrulhar
    • Verify
    • Assinar
    • Backup

Custo

Não há custos adicionais para os recursos integrados de replicação em várias regiões do Key Vault.

Comportamento quando todas as regiões estão saudáveis

A seção a seguir descreve o que esperar quando o cofre de chaves se encontra numa região que oferece suporte a replicação e recuperação de falhas geridas pela Microsoft e a região primária está operacional:

  • Roteamento de tráfego entre regiões: Durante as operações normais, todas as solicitações são roteadas para a região primária onde o cofre de chaves está implantado.

  • Replicação de dados entre regiões: O Key Vault replica dados de forma assíncrona para a região emparelhada. Quando você faz alterações no conteúdo do cofre de chaves, essas alterações são primeiro confirmadas na região primária e, em seguida, replicadas para a região secundária.

Comportamento durante uma interrupção regional

A seção a seguir descreve o que esperar quando um cofre de chaves está localizado numa região que suporta replicação e failover geridos pela Microsoft e ocorre uma interrupção na região principal:

  • Deteção e resposta: A Microsoft pode decidir executar um failover se a região primária for perdida. Esse processo pode levar várias horas após a perda da região primária, ou mais tempo em alguns cenários. O failover dos cofres de chaves pode não ocorrer simultaneamente com outros serviços do Azure.
  • Solicitações ativas: Durante o failover de uma região, as solicitações ativas podem falhar e os aplicativos cliente precisam repeti-las após a conclusão do failover.

  • Perda de dados esperada: Pode haver alguma perda de dados se as alterações não forem replicadas para a região secundária antes que a região primária falhe.

  • Tempo de inatividade esperado: Durante uma grande interrupção na região primária, o cofre de chaves pode ficar indisponível por várias horas ou até que a Microsoft inicie a transferência para a região secundária.

    Se você usar o Private Link para se conectar ao cofre de chaves, pode levar até 20 minutos para que a conexão seja restabelecida após o failover da região.

  • Reencaminhamento do tráfego: Após a conclusão de um failover de região, as solicitações são automaticamente roteadas para a região emparelhada sem exigir qualquer intervenção do cliente.

Soluções personalizadas de várias regiões para resiliência

Há cenários em que os recursos de failover entre regiões gerenciados pela Microsoft do Key Vault não são adequados:

  • Seu cofre de chaves está em uma região não emparelhada.

  • O seu Key Vault está numa região emparelhada que não suporta a replicação e o failover por parte da Microsoft entre regiões no Brasil Sul, Brasil Sudeste e Oeste dos EUA 3.

  • Os seus objetivos de disponibilidade do sistema empresarial não são satisfeitos pelo tempo de recuperação ou pela perda de dados que o failover gerido pela Microsoft proporciona entre regiões.

  • Você precisa fazer failover para uma região que não seja o par da sua região principal.

Você pode projetar uma solução personalizada de failover entre regiões executando as seguintes etapas:

  1. Crie cofres de chaves separados em regiões diferentes.

  2. Use a funcionalidade de backup e restauração para manter segredos consistentes entre as regiões.

  3. Implemente a lógica ao nível da aplicação para a comutação automática entre os cofres de chaves.

Backup e restauração

O Cofre de Chaves pode fazer backup e restaurar segredos, chaves e certificados individuais. As cópias de segurança destinam-se a fornecer-lhe uma cópia offline dos seus segredos no caso improvável de perder o acesso ao cofre de chaves.

Considere os seguintes fatores-chave relacionados à funcionalidade de backup:

  • Os backups criam blobs criptografados que não podem ser descriptografados fora do Azure.

  • Os backups só podem ser restaurados em um cofre de chaves dentro da mesma assinatura do Azure e da mesma geografia do Azure.

  • Há uma limitação de fazer backup de no máximo 500 versões anteriores de um objeto de chave, segredo ou certificado.

  • Os backups são instantâneos que capturam o momento exato e não são atualizados automaticamente quando as informações confidenciais mudam.

Para a maioria das soluções, você não deve confiar exclusivamente em backups. Em vez disso, use os outros recursos descritos neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não oferecem, como a exclusão acidental de segredos específicos. Para obter mais informações, consulte Backup do Key Vault.

Recursos de recuperação

O Cofre de Chaves fornece duas funcionalidades de recuperação para prevenir exclusões acidentais ou maliciosas.

  • Exclusão suave: Quando ativada, a exclusão suave permite recuperar cofres e objetos excluídos durante um período de retenção configurável. Este prazo é um padrão de 90 dias. Pense na exclusão suave como uma lixeira para os recursos do cofre de chaves.

  • Proteção contra purga: Quando ativada, a proteção contra purga evita a eliminação permanente do cofre de chaves e seus objetos até que o periodo de retenção expire. Essa proteção impede que atores mal-intencionados destruam permanentemente seus segredos.

Recomendamos vivamente ambas as funcionalidades para ambientes de produção. Para obter mais informações, consulte Eliminação suave e proteção contra eliminação permanente na documentação sobre a recuperação e gestão do Azure Key Vault.

Contrato de nível de serviço

O contrato de nível de serviço (SLA) para serviços do Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para atingir essa expectativa de disponibilidade. Para obter mais informações, consulte Acordos de Nível de Serviço (SLAs) para serviços online.