Compartilhar via


Proteja seu ambiente de nuvem

Este artigo fornece as práticas recomendadas para manter a confiabilidade e a segurança de sua propriedade de nuvem do Azure. A confiabilidade garante que seus serviços de nuvem permaneçam operacionais com tempo de inatividade mínimo. A segurança protege a confidencialidade, a integridade e a disponibilidade de seus recursos. A confiabilidade e a segurança são essenciais para operações de nuvem bem-sucedidas.

Diagrama mostrando o processo de Gerir CAF: preparar, administrar, monitorar e proteger (RAMP).

Gerenciar confiabilidade

O gerenciamento de confiabilidade envolve o uso de redundância, replicação e estratégias de recuperação definidas para minimizar o tempo de inatividade e proteger sua empresa. A Tabela 1 fornece um exemplo de três prioridades de carga de trabalho, requisitos de confiabilidade (SLO de tempo de atividade, tempo de inatividade máximo, redundância, balanceamento de carga, replicação) e cenários de exemplo que se alinham aos objetivos de nível de serviço (SLOs)

Tabela 1. Exemplo de requisitos de prioridade e confiabilidade da carga de trabalho.

Prioridade Impacto nos negócios SLO de tempo de atividade mínimo Tempo de inatividade máximo por mês Redundância de arquitetura Balanceamento de carga Replicação e backups de dados Cenário de exemplo
Alto (de missão crítica) Efeitos imediatos e severos na reputação ou receita da empresa. 99,99% 4.32 minutos Várias regiões e várias zonas de disponibilidade em cada região Ativo-ativo Replicação de dados síncrona e entre regiões e backups para recuperação Linha de base crítica da missão
Médio Efeitos mensuráveis na reputação ou receita da empresa. 99,9% 43,20 minutos Várias regiões e várias zonas de disponibilidade em cada região Ativo-passivo Replicação de dados assíncrona e entre regiões e backups para recuperação Padrão de aplicativo Web confiável
Baixo Nenhum efeito sobre a reputação, os processos ou os lucros da empresa. 99% 7,20 horas Região única e várias zonas de disponibilidade Redundância de zona de disponibilidade Replicação de dados síncrona entre zonas de disponibilidade e backups para recuperação Linha de base do Serviço de Aplicativo
Linha de base da máquina virtual

Identificar responsabilidades de confiabilidade

As responsabilidades de confiabilidade variam de acordo com o modelo de implantação. Use a tabela a seguir para identificar suas responsabilidades de gerenciamento para infraestrutura (IaaS), paaS (plataforma), software (SaaS) e implantações locais.

Responsabilidade Local IaaS (Azure) PaaS (Azure) SaaS
Dados ✔️ ✔️ ✔️ ✔️
Código e tempo de execução ✔️ ✔️ ✔️
Recursos de nuvem ✔️ ✔️ ✔️
Hardware físico ✔️

Para obter mais informações, consulte Responsabilidade compartilhada pela confiabilidade.

Definir requisitos de confiabilidade

Requisitos de confiabilidade claramente definidos são críticos para metas de tempo de atividade, recuperação e tolerância à perda de dados. Siga estas etapas para definir os requisitos de confiabilidade:

  1. Priorizar cargas de trabalho. Atribua prioridades altas, médias (padrão) ou baixas a cargas de trabalho com base na criticidade dos negócios e nos níveis de investimento financeiro. Revise regularmente as prioridades para manter o alinhamento com as metas de negócios.

  2. Atribua o objetivo de nível de serviço (SLO) de tempo de atividade a todas as cargas de trabalho. Seu SLO influencia sua arquitetura, estratégias de gerenciamento de dados, processos de recuperação e custos. Estabeleça metas de tempo de atividade de acordo com a prioridade da carga de trabalho. Cargas de trabalho de prioridade mais alta exigem metas de tempo de atividade mais rigorosas.

  3. Identifique SLIs (indicadores de nível de serviço). Use SLIs para medir o desempenho de disponibilidade em relação ao seu SLO. Exemplos incluem monitoramento de integridade do serviço e taxas de erro.

  4. Atribua um RTO (objetivo de tempo de recuperação) a todas as cargas de trabalho. O RTO define o tempo de inatividade máximo aceitável para sua carga de trabalho. O RTO deve ser inferior ao seu tempo de inatividade anual permitido. Por exemplo, um SLO de 99,99% de tempo de atividade exige menos de 52 minutos de tempo de inatividade anual (4,32 minutos por mês). Para atribuir um RTO, siga estas etapas:

    1. Estimar o número de falhas por ano. Para cargas de trabalho com histórico operacional, use seus SLIs. Para novas cargas de trabalho, execute uma análise de modo de falha para obter uma estimativa precisa.

    2. Estime o RTO. Divida seu tempo de inatividade anual permitido pelo número estimado de falhas. Se você estimar quatro falhas por ano, o RTO deverá ter 13 minutos ou menos (52 minutos/4 falhas = RTO de 13 minutos).

    3. Teste o tempo de recuperação. Acompanhe o tempo médio necessário para se recuperar durante testes de failover e falhas ao vivo. O tempo que você leva para se recuperar da falha precisa ser menor que o RTO.

  5. Defina os RPO (objetivos de ponto de recuperação) para todas as cargas de trabalho. Seu RPO influencia a frequência com que você replica e faz backup de seus dados. Determine a quantidade de perda de dados que sua empresa pode tolerar.

  6. Defina destinos de confiabilidade da carga de trabalho. Para destinos de confiabilidade da carga de trabalho, consulte as Recomendações do Well-Architected Framework para definir destinos de confiabilidade.

Gerenciar confiabilidade de dados

A confiabilidade dos dados envolve replicação de dados (réplicas) e backups (cópias pontuais) para manter a disponibilidade e a consistência. Consulte a Tabela 2 para obter exemplos da prioridade da carga de trabalho alinhados com os objetivos de confiabilidade dos dados.

Tabela 2. Prioridade de carga de trabalho com as configurações de confiabilidade de dados de exemplo.

Prioridade da carga de trabalho SLO de tempo de atividade Replicação de dados Backups de dados Cenário de exemplo
Alto 99,99% Replicação de dados síncrona entre regiões

Replicação de dados síncrona entre zonas de disponibilidade
Backups de alta frequência entre regiões. A frequência deve estar de acordo com o RTO e o RPO. Plataforma de dados crítica de missão
Médio 99,9% Replicação de dados síncrona entre regiões

Replicação de dados síncrona entre zonas de disponibilidade
Backups entre regiões. A frequência deve estar de acordo com o RTO e o RPO. Solução de banco de dados e armazenamento no padrão de Aplicativo Web Confiável
Baixo 99% Replicação de dados síncrona entre zonas de disponibilidade Backups entre regiões. A frequência deve estar de acordo com o RTO e o RPO. Resiliência de dados no aplicativo web básico com redundância de zonas

Você deve alinhar as configurações de confiabilidade de dados com os requisitos de RTO e RPO de suas cargas de trabalho. Para fazer esse alinhamento, siga estas etapas:

  1. Gerenciar a replicação de dados. Replique seus dados de forma síncrona ou assíncrona de acordo com os requisitos de RTO e RPO da carga de trabalho.

    Distribuição de dados Replicação de dados Configuração de balanceamento de carga
    Entre zonas de disponibilidade Síncrono (quase em tempo real) A maioria dos serviços de PaaS manipula o balanceamento de carga entre zonas nativamente
    Entre regiões (ativo-ativo) Síncrono Balanceamento de carga ativo-ativo
    Entre regiões (ativo-passivo) Assíncrono (periódico) Configuração ativa-passiva

    Para obter mais informações, consulte Replicação: Redundância para dados.

  2. Gerenciar backups de dados. Os backups são para recuperação de desastre (falha de serviço), recuperação de dados (exclusão ou corrupção) e resposta a incidentes (segurança). Os backups devem dar suporte aos requisitos de RTO e RPO para cada carga de trabalho. Prefira soluções de backup internas ao serviço do Azure, como recursos de backup nativos no Azure Cosmos DB e no Banco de Dados SQL do Azure. Quando os backups nativos não estiverem disponíveis, incluindo dados locais, use o Backup do Azure. Para obter mais informações, consulte Backup e Centro de Continuidade de Negócios do Azure.

  3. Projetar confiabilidade de dados da carga de trabalho. Para obter o design de confiabilidade de dados da carga de trabalho, consulte o guia de particionamento de dados do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).

Gerenciar a confiabilidade de código e runtime

A confiabilidade do código e do tempo de execução é uma atribuição da tarefa. Siga o guia de auto-recuperação e autopreservação do Well-Architected Framework.

Gerenciar a confiabilidade dos recursos de nuvem

O gerenciamento da confiabilidade dos recursos de nuvem geralmente requer redundância de arquitetura (instâncias de serviço duplicadas) e uma estratégia eficaz de balanceamento de carga. Consulte a Tabela 3 para obter exemplos de redundância de arquitetura alinhados com a prioridade da carga de trabalho.

Tabela 3. Exemplos de redundância de arquitetura e prioridade de carga de trabalho.

Prioridade da carga de trabalho Redundância de arquitetura Abordagem de balanceamento de carga Solução de balanceamento de carga do Azure Cenário de exemplo
Alto Duas regiões e zonas de disponibilidade Ativo-ativo Azure Front Door (HTTP)

Gerenciador de Tráfego do Azure (não HTTP)
Plataforma de aplicativo de linha de base de missão crítica
Médio Duas regiões e zonas de disponibilidade Ativo-passivo Azure Front Door (HTTP)

Gerenciador de Tráfego do Azure (não HTTP)
Diretrizes confiáveis de arquitetura de padrão de aplicativo Web
Baixo Região única e zonas de disponibilidade Entre zonas de disponibilidade Gateway de Aplicativo do Azure

Adicionar o Azure Load Balancer para máquinas virtuais
Linha de base do Serviço de Aplicativo
Linha de base da máquina virtual

Sua abordagem deve implementar a redundância de arquitetura para atender aos requisitos de confiabilidade de suas cargas de trabalho. Siga estas etapas:

  1. Estimar o tempo de atividade de suas arquiteturas. Para cada carga de trabalho, calcule o SLA composto. Inclua apenas os serviços que podem fazer com que a carga de trabalho falhe (caminho crítico).

    1. Liste todos os serviços no caminho crítico da carga de trabalho. Recolha os SLAs de tempo de atividade da Microsoft de cada serviço no documento oficial.

    2. Decida se a carga de trabalho inclui caminhos críticos independentes. Um caminho independente pode falhar e a carga de trabalho permanece disponível.

    3. Se você tiver um caminho crítico, use a fórmula de região única: N = S1 × S2 × S3 ×... × Sn.

    4. Se você tiver dois ou mais caminhos críticos, use a fórmula de caminho independente: N = S1 x 1 – [(1 - S2) × (1 – S3)].

    5. Cargas de trabalho complexas geralmente combinam ambos os tipos de fórmula. Exemplo: N = S1 × S2 × S3 × (S4 x 1 – [(1 - S5) × (1 – S6)]).

    6. Para aplicativos multirregionais, use a fórmula multirregional: M = 1 - (1 - N)^R

    7. Compare o tempo de atividade calculado com o SLO de tempo de atividade. Um déficit requer SLAs de níveis mais altos ou redundância adicional. Recalcule após cada alteração. Pare após o tempo de atividade calculado exceder o SLO.

    Caso de uso Fórmula Variáveis Exemplo Explicação
    Região única N = S1 × S2 × S3 ×... × Sn N = SLA composto.
    S = SLA do serviço do Azure.
    n = número de serviços no caminho crítico.
    N = 99,99% (aplicativo) × 99,95% (banco de dados) × 99,9% (cache) Carga de trabalho simples com aplicativo (99,99%), banco de dados (99,95%) e cache (99,9%) em um único caminho crítico.
    Caminhos independentes S1 x 1 – [(1 – S2) × (1 – S3)] S = SLA do serviço do Azure. 99,99% (aplicativo) × (1 - [(1 - 99,95% banco de dados) × (1 - 99,9% cache)]) No aplicativo, o banco de dados (99,95%) ou o cache (99,9%) podem falhar sem causar tempo de inatividade.
    Várias regiões M = 1 - (1 - N)^R M = SLA de várias regiões.
    N = SLA de região única.
    R = Número de regiões.
    Se N = 99,95% e R = 2, m = 1 - (1 - 99,95%)^2 Carga de trabalho implantada em duas regiões.
  2. Ajuste as camadas de serviço. Antes de modificar arquiteturas, avalie se diferentes SKUs (camadas de serviço) do Azure podem atender aos seus requisitos de confiabilidade. Alguns níveis de serviço do Azure podem ter SLAs de tempo de atividade diferentes, como os Managed Disks do Azure.

  3. Adicionar redundância na arquitetura. Se a estimativa de tempo de atividade atual estiver aquém do seu SLO, aumente a redundância:

    1. Use várias zonas de disponibilidade. Configure suas cargas de trabalho para usar várias zonas de disponibilidade. A forma como as zonas de disponibilidade aprimoram seu tempo de atividade pode ser difícil de estimar. Apenas um número selecionado de serviços tem SLAs de tempo de atividade que levam em conta as zonas de disponibilidade. Quando os SLAs levarem em conta as zonas de disponibilidade, use-as nas estimativas de tempo de atividade. Consulte a tabela a seguir para obter alguns exemplos.

      Tipo de serviço do Azure Serviços do Azure com SLAs de Zona de Disponibilidade
      Plataforma de Computação Serviço de Aplicativo
      Serviço de Kubernetes do Azure
      Máquinas virtuais
      Armazenamento de Dados Barramento de Serviço do Azure
      Contas de Armazenamento do Azure
      Azure Cache para Redis
      Camada Premium do Azure Files
      Base de dados Azure Cosmos DB (banco de dados distribuído da Azure)
      Banco de Dados SQL do Azure
      Banco de Dados do Azure para MySQL
      Banco de Dados do Azure para PostgreSQL
      Instância Gerenciada do Azure para Apache Cassandra
      Balanceador de carga Gateway de Aplicações
      Segurança Azure Firewall
    2. Use várias regiões. A opção "Várias regiões" costuma ser necessária para atender aos SLOs de tempo de atividade. Use balanceadores de carga globais (Azure Front Door ou Gerenciador de Tráfego) para distribuição de tráfego. Arquiteturas de várias regiões exigem um gerenciamento cuidadoso de consistência de dados.

  4. Gerenciar redundância de arquitetura. Decida como usar a redundância: você pode usar a redundância de arquitetura como parte das operações diárias (ativas). Ou você pode usar a redundância de arquitetura em cenários de recuperação de desastre (passivo). Para obter exemplos, consulte a Tabela 3.

    1. Balanceamento de carga entre zonas de disponibilidade. Use toda a disponibilidade ativamente. Muitos serviços de PaaS do Azure gerenciam o balanceamento de carga entre zonas de disponibilidade automaticamente. As cargas de trabalho de IaaS devem usar um balanceador de carga interno para balancear a carga entre zonas de disponibilidade.

    2. Balanceamento de carga entre regiões. Determine se as cargas de trabalho em várias regiões devem ser executadas em modo ativa-ativa ou ativa-passiva com base nas necessidades de confiabilidade.

  5. Gerenciar configurações de serviço. Aplique configurações consistentemente em instâncias redundantes de recursos do Azure, de modo que os recursos se comportem da mesma maneira. Use a infraestrutura como código para manter a consistência. Para obter mais informações, consulte Configuração de recursos duplicados.

  6. Projetar confiabilidade da carga de trabalho. Para ver o design de confiabilidade da carga de trabalho, consulte o Well-Architected Framework:

    Confiabilidade da carga de trabalho Orientação
    Pilar de confiabilidade Design de várias regiões altamente disponível
    Design para redundância
    Usando zonas e regiões de disponibilidade
    Guia de serviço Guias de serviço do Azure (comece com a seção Confiabilidade)

Para obter mais informações, consulte Redundância.

Gerenciar a continuidade dos negócios

A recuperação de uma falha requer uma estratégia clara para restaurar os serviços rapidamente e minimizar a interrupção para manter a satisfação do usuário. Siga estas etapas:

  1. Prepare-se para falhas. Crie procedimentos de recuperação separados para cargas de trabalho com base em prioridades altas, médias e baixas. Confiabilidade de dados, confiabilidade de código e runtime e confiabilidade de recursos de nuvem são a base da preparação para falhas. Selecione outras ferramentas de recuperação para ajudar na preparação da continuidade dos negócios. Por exemplo, use o Azure Site Recovery para cargas de trabalho de servidor baseadas em máquina virtual e local.

  2. Plano de recuperação de documento e teste. Teste regularmente seus processos de failover e failback para confirmar que as suas cargas de trabalho atendem aos RTO (objetivos de tempo de recuperação) e aos RPO (objetivos de ponto de recuperação). Documente claramente cada etapa do plano de recuperação para facilitar a referência durante incidentes. Verifique se as ferramentas de recuperação, como o Azure Site Recovery, atendem consistentemente ao RTO especificado.

  3. Detectar falhas. Adote uma abordagem proativa para identificar interrupções rapidamente, mesmo que esse método aumente falsos positivos. Priorize a experiência do cliente minimizando o tempo de inatividade e mantendo a confiança do usuário.

    1. Monitorar falhas. Monitore as cargas de trabalho para detectar interrupções em um minuto. Use a Integridade do Serviço do Azure, a Integridade dos Recursos do Azure e os alertas do Azure Monitor para notificar as equipes relevantes. Integre esses alertas ao Azure DevOps ou às ferramentas de ITSM (Gerenciamento de Serviços de TI).

    2. Coletar indicadores de nível de serviço (SLIs). Acompanhe o desempenho definindo e coletando métricas que servem como SLIs. Verifique se suas equipes usam essas métricas para medir o desempenho da carga de trabalho em relação aos SLOs (objetivos de nível de serviço).

  4. Responda a falhas. Alinhe sua resposta de recuperação à prioridade da carga de trabalho. Implemente procedimentos de failover para redirecionar solicitações para infraestrutura redundante e réplicas de dados imediatamente. Depois que os sistemas se estabilizarem, resolva a causa raiz, sincronize os dados e execute procedimentos de failback. Para obter mais informações, confira Failover e failback.

  5. Analisar falhas. Identifique as causas raiz dos problemas e resolva o problema. Documente as lições e faça as alterações necessárias.

  6. Gerenciar falhas de carga de trabalho. Para recuperação de desastres de carga de trabalho, consulte o guia de recuperação de desastres do Well-Architected Framework e os guias de serviço do Azure (comece com a seção de Confiabilidade).

Ferramentas de confiabilidade do Azure

Caso de uso Solução
Replicação de dados, backup e continuidade dos negócios Guias de serviço do Azure (comece com a seção Confiabilidade)

Referência rápida:
Azure Cosmos DB
Banco de Dados SQL do Azure
Armazenamento de Blobs do Azure
Arquivos do Azure
Backup de dados Serviço de Backup do Azure
IaaS (continuidade dos negócios) Azure Site Recovery
Balanceador de carga de várias regiões Azure Front Door (HTTP)
Gerenciador de Tráfego do Azure (não HTTP)
Balanceador de carga de múltiplas zonas de disponibilidade Gateway de Aplicativo do Azure (HTTP)
Azure Load Balancer (não HTTP)

Gerenciar segurança

Use um processo de segurança iterativo para identificar e reduzir ameaças em seu ambiente de nuvem. Siga estas etapas:

Gerenciar operações de segurança

Gerencie seus controles de segurança para detectar ameaças à sua propriedade de nuvem. Siga estas etapas:

  1. Padronizar ferramentas de segurança. Use ferramentas padronizadas para detectar ameaças, corrigir vulnerabilidades, investigar problemas, proteger dados, proteger recursos e impor a conformidade em escala. Consulte as ferramentas de segurança do Azure.

  2. Estabeleça uma linha de base para o seu ambiente. Documente o estado normal do seu ambiente na nuvem. Monitore a segurança e documente os padrões de tráfego de rede e os comportamentos dos usuários. Use linhas de base de segurança do Azure e guias de serviço do Azure para desenvolver configurações de linha de base para serviços. Essa linha de base facilita a detecção de anomalias e possíveis fraquezas de segurança.

  3. Aplicar controles de segurança. Implementar medidas de segurança, como controles de acesso, criptografia e autenticação multifator, fortalece o ambiente e reduz a probabilidade de comprometimento. Para obter mais informações, consulte Gerenciar segurança.

  4. Atribuir responsabilidades de segurança. Designe a responsabilidade pelo monitoramento de segurança em seu ambiente de nuvem. O monitoramento regular e as comparações com a linha de base permitem a identificação rápida de incidentes, como acesso não autorizado ou transferências de dados incomuns. Atualizações e auditorias regulares mantêm sua linha de base de segurança eficaz contra ameaças em evolução.

Para obter mais informações, consulte CAF Secure.

Gerenciar incidentes de segurança

Adote um processo e ferramentas para se recuperar de incidentes de segurança, como ransomware, negação de serviço ou intrusão de ator de ameaça. Siga estas etapas:

  1. Prepare-se para incidentes. Desenvolva um plano de resposta a incidentes que defina claramente as funções de investigação, mitigação e comunicação. Teste regularmente a eficácia do seu plano. Avalie e implemente ferramentas de gerenciamento de vulnerabilidades, sistemas de detecção de ameaças e soluções de monitoramento de infraestrutura. Reduza sua superfície de ataque por meio de proteção de infraestrutura e crie estratégias de recuperação específicas da carga de trabalho. Confira a visão geral da resposta a incidentes e os guias estratégicos de resposta a incidentes.

  2. Detectar incidentes. Use a ferramenta siem (gerenciamento de eventos e informações de segurança), como o Microsoft Sentinel, para centralizar seus dados de segurança. Use as funcionalidades de orquestração, automação e resposta de segurança do Microsoft Sentinel (SOAR) para automatizar tarefas de segurança de rotina. Integre feeds de inteligência contra ameaças em seu SIEM para obter insights sobre táticas de adversário relevantes para seu ambiente de nuvem. Use o Microsoft Defender para Nuvem para verificar regularmente o Azure em busca de vulnerabilidades. O Microsoft Defender integra-se ao Microsoft Sentinel para fornecer uma exibição unificada dos eventos de segurança.

  3. Responda a incidentes. Ative imediatamente seu plano de resposta a incidentes ao detectar um incidente. Inicie rapidamente os procedimentos de investigação e mitigação. Ative seu plano de recuperação de desastre para restaurar os sistemas afetados e comunique claramente os detalhes do incidente à sua equipe.

  4. Analise incidentes de segurança. Após cada incidente, examine a inteligência contra ameaças e atualize seu plano de resposta a incidentes com base em lições aprendidas e insights de recursos públicos, como a base de dados de conhecimento MITRE ATT&CK . Avalie a eficácia das ferramentas de gerenciamento e detecção de vulnerabilidades e refinar estratégias com base na análise pós-incidente.

Para obter mais informações, consulte Gerenciar resposta a incidentes (CAF Secure).

Ferramentas de segurança do Azure

Funcionalidade de segurança Solução da Microsoft
Gerenciamento de identidade e acesso Microsoft Entra ID
Controle de acesso baseado em função Controle de acesso baseado em função do Azure
Detecção de ameaças Microsoft Defender para Nuvem
Gerenciamento de informações de segurança Microsoft Sentinel
Segurança e governança de dados Microsoft Purview
Segurança de recursos de nuvem linhas de base de segurança do Azure
Governança de nuvem Azure Policy
Segurança de Endpoints Microsoft Defender para Ponto de Extremidade
Segurança de rede Observador de Rede do Azure
Segurança industrial Microsoft Defender para IoT
Segurança de backup de dados Segurança do Backup do Azure

Próximas etapas