Partilhar via


Proteja os seus ativos na nuvem

Este artigo fornece práticas recomendadas para manter a confiabilidade e a segurança do seu patrimônio de nuvem do Azure. A confiabilidade garante que seus serviços na nuvem permaneçam operacionais com o mínimo de tempo de inatividade. A segurança salvaguarda a confidencialidade, integridade e disponibilidade dos seus recursos. Tanto a confiabilidade quanto a segurança são essenciais para o sucesso das operações na nuvem.

Diagrama mostrando o processo CAF Manage: preparar, administrar, monitorizar e proteger (RAMP).

Gerencie a confiabilidade

O gerenciamento de confiabilidade envolve o uso de redundância, replicação e estratégias de recuperação definidas para minimizar o tempo de inatividade e proteger seus negócios. A Tabela 1 fornece um exemplo de três prioridades de carga de trabalho, requisitos de confiabilidade (SLO de tempo de atividade, tempo de inatividade máximo, redundância, balanceamento de carga, replicação) e cenários de exemplo que se alinham com os SLOs (objetivos de nível de serviço)

Tabela 1. Exemplo de requisitos de prioridade e confiabilidade da carga de trabalho.

Prioridade Impacto nos negócios SLO de disponibilidade mínima Tempo de inatividade máximo por mês Redundância de arquitetura Balanceamento de carga Replicação e backups de dados Cenário de exemplo
Alto (de importância crítica) Efeitos imediatos e severos na reputação ou receita da empresa. 99,99% 4.32 Minutos Multi-região & Várias zonas de disponibilidade em cada região Ativo-ativo Replicação de dados síncrona em várias regiões e backups para recuperação Linha de base de missão crítica
Média Efeitos mensuráveis na reputação ou receita da empresa. 99,9% 43.20 Minutos Várias regiões & Várias zonas de disponibilidade em cada região Ativo-passivo Replicação assíncrona e backups de dados entre regiões para recuperação Padrão confiável de aplicativo Web
Baixo Nenhum efeito sobre a reputação, processos ou lucros da empresa. 99% 7.20 horas Região única & Zonas de disponibilidade múltiplas Redundância da zona de disponibilidade Replicação síncrona de dados entre zonas de disponibilidade, com backups & para recuperação Linha de base do Serviço de Aplicativo
Linha de base da máquina virtual

Identificar responsabilidades de confiabilidade

As responsabilidades de confiabilidade variam de acordo com o modelo de implantação. Use a tabela a seguir para identificar suas responsabilidades de gerenciamento para infraestrutura (IaaS), plataforma (PaaS), software (SaaS) e implantações locais.

Responsabilidade No localmente IaaS (Azure) PaaS (Azure) SaaS
Dados ✔️ ✔️ ✔️ ✔️
Código e tempo de execução ✔️ ✔️ ✔️
Recursos na nuvem ✔️ ✔️ ✔️
Hardware físico ✔️

Para obter mais informações, consulte Responsabilidade compartilhada pela confiabilidade.

Definir requisitos de confiabilidade

Requisitos de confiabilidade claramente definidos são essenciais para metas de tempo de atividade, recuperação e tolerância à perda de dados. Siga estas etapas para definir os requisitos de confiabilidade:

  1. Priorize cargas de trabalho. Atribua prioridades altas, médias (padrão) ou baixas a cargas de trabalho com base na criticidade dos negócios e nos níveis de investimento financeiro. Revise regularmente as prioridades para manter o alinhamento com as metas de negócios.

  2. Atribua o SLO (objetivo de nível de serviço) de tempo de atividade a todas as cargas de trabalho. O seu SLO influencia a sua arquitetura, estratégias de gestão de dados, processos de recuperação e custos. Estabeleça metas de disponibilidade de acordo com a prioridade da carga de trabalho. Cargas de trabalho de prioridade mais alta exigem metas de tempo de atividade mais rígidas.

  3. Identificar indicadores de nível de serviço (SLIs). Use SLIs para medir o desempenho do tempo de atividade em comparação com o seu SLO. Exemplos incluem a monitorização do estado de funcionamento do serviço e as taxas de erro .

  4. Atribua um RTO (Recovery Time Objetive, objetivo de tempo de recuperação) a todas as cargas de trabalho. O RTO define o tempo de inatividade máximo aceitável para sua carga de trabalho. O RTO deve ser menor do que o seu período anual permitido de inatividade. Por exemplo, um SLO de tempo de atividade de 99,99% requer menos de 52 minutos de inatividade anual (4,32 minutos por mês). Para atribuir um RTO, siga estes passos:

    1. Estimar o número de falhas por ano. Para cargas de trabalho com histórico operacional, use seus SLIs. Para novas cargas de trabalho, execute uma análise de modo de falha para obter uma estimativa precisa.

    2. Estime o RTO. Divida o tempo de inatividade anual permitido pelo número estimado de falhas. Se você estimar quatro falhas por ano, então seu RTO deve ser de 13 minutos ou menos (52 minutos / 4 falhas = 13 minutos RTO).

    3. Teste o seu tempo de recuperação. Acompanhe o tempo médio de recuperação durante testes de failover e falhas em tempo real. O tempo que você leva para se recuperar de uma falha deve ser menor do que o seu RTO.

  5. Defina RPO (Recovery Point Objetives, objetivos de ponto de recuperação) para todas as cargas de trabalho. Seu RPO influencia a frequência com que você replica e faz backup de seus dados. Determine quanta perda de dados sua empresa pode tolerar.

  6. Defina metas de confiabilidade da carga de trabalho. Para metas de confiabilidade da carga de trabalho, consulte as Recomendações do Well-Architected Framework para definir metas de confiabilidade.

Gerencie a confiabilidade dos dados

A confiabilidade dos dados envolve replicação de dados (réplicas) e backups (cópias point-in-time) para manter a disponibilidade e a consistência. Consulte a Tabela 2 para obter exemplos de prioridade de carga de trabalho alinhada com as metas de confiabilidade de dados.

Tabela 2. Prioridade de carga de trabalho com exemplos de configurações de confiabilidade de dados.

Prioridade da carga de trabalho SLO de disponibilidade Replicação de dados Backups de dados Cenário de exemplo
Alto 99,99% Replicação síncrona de dados entre regiões

Replicação síncrona de dados em zonas de disponibilidade
Backups de alta frequência entre regiões. A frequência deve dar suporte a RTO e RPO. Plataforma de dados de missão crítica
Média 99,9% Replicação síncrona de dados entre regiões

Replicação síncrona de dados em zonas de disponibilidade
Backups entre regiões. A frequência deve dar suporte a RTO e RPO. Solução de banco de dados e armazenamento no padrão Reliable Web App
Baixo 99% Replicação síncrona de dados em zonas de disponibilidade Backups entre regiões. A frequência deve dar suporte a RTO e RPO. Resiliência de dados no aplicativo web básico com redundância zonal

Você deve alinhar as configurações de confiabilidade de dados com os requisitos de RTO e RPO de suas cargas de trabalho. Para fazer esse alinhamento, siga estas etapas:

  1. Gerencie a replicação de dados. Replique seus dados de forma síncrona ou assíncrona de acordo com os requisitos de RTO e RPO da sua carga de trabalho.

    Distribuição de dados Replicação de dados Configuração de balanceamento de carga
    Entre zonas de disponibilidade Síncrono (quase em tempo real) A maioria dos serviços PaaS lida com balanceamento de carga entre zonas nativamente
    Através das regiões (ativo-ativo) Síncrono Balanceamento de carga ativo-ativo
    Entre regiões (ativo-passivo) Assíncrono (periódico) Configuração ativo-passivo

    Para obter mais informações, consulte Replicação: redundância de dados.

  2. Gerencie backups de dados. Os backups são para recuperação de desastres (falha de serviço), recuperação de dados (exclusão ou corrupção) e resposta a incidentes (segurança). Os backups devem oferecer suporte aos requisitos de RTO e RPO para cada carga de trabalho. Prefira soluções de backup internas ao seu serviço do Azure, como recursos de backup nativos no Azure Cosmos DB e no Banco de Dados SQL do Azure. Quando os backups nativos não estiverem disponíveis, incluindo dados locais, use o Backup do Azure. Para obter mais informações, consulte Backup e Centro de Continuidade de Negócios do Azure.

  3. Projete a confiabilidade dos dados da carga de trabalho. Para obter o design de confiabilidade de dados de carga de trabalho, consulte o guia de particionamento de dados do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).

Gerencie a confiabilidade do código e do tempo de execução

A confiabilidade do código e do tempo de execução é uma responsabilidade da carga de trabalho. Siga o guia de autorrecuperação e autopreservação do Framework Well-Architected .

Gerencie a confiabilidade dos recursos da nuvem

O gerenciamento da confiabilidade de seus recursos de nuvem geralmente requer redundância de arquitetura (instâncias de serviço duplicadas) e uma estratégia eficaz de balanceamento de carga. Consulte a Tabela 3 para obter exemplos de redundância de arquitetura alinhada com a prioridade da carga de trabalho.

Tabela 3. Exemplos de prioridade de carga de trabalho e redundância de arquitetura.

Prioridade da carga de trabalho Redundância de arquitetura Abordagem de balanceamento de carga Solução de balanceamento de carga do Azure Cenário de exemplo
Alto Duas regiões & zonas de disponibilidade Ativo-ativo Azure Front Door (HTTP)

Azure Traffic Manager (não HTTP)
Plataforma de aplicações fundamental para missões críticas
Média Duas regiões & zonas de disponibilidade Ativo-passivo Azure Front Door (HTTP)

Azure Traffic Manager (não HTTP)
Orientação confiável de arquitetura de padrões de aplicativos Web
Baixo Zonas de disponibilidade da região única & Entre zonas de disponibilidade Gateway de Aplicativo do Azure

Adicionar o Azure Load Balancer para máquinas virtuais
Linha de base do Serviço de Aplicativo
Linha de base da máquina virtual

Sua abordagem deve implementar redundância de arquitetura para atender aos requisitos de confiabilidade de suas cargas de trabalho. Siga estes passos:

  1. Estime o tempo de atividade de suas arquiteturas. Para cada carga de trabalho, calcule o SLA composto. Inclua apenas serviços que possam causar falha na carga de trabalho (caminho crítico).

    1. Enumere todos os serviços no caminho crítico da carga de trabalho. Colete os SLAs de tempo de atividade da Microsoft de cada serviço a partir do documento oficial.

    2. Decida se a carga de trabalho inclui caminhos críticos independentes. Um caminho independente pode falhar e a carga de trabalho permanece disponível.

    3. Se você tiver um caminho crítico, use a fórmula de região única: N = S1 × S2 × S3 × ... × Sn.

    4. Se você tiver dois ou mais caminhos críticos, use a fórmula de caminho independente: N = S1 x 1 - [(1 - S2) × (1 - S3)].

    5. Cargas de trabalho complexas geralmente combinam os dois tipos de fórmula. Exemplo: N = S1 × S2 × S3 × (S4 x 1 - [(1 - S5) × (1 - S6)]).

    6. Para aplicações multirregiões, use a fórmula para a fórmula multirregião: M = 1 - (1 - N)^R

    7. Compare o tempo de atividade calculado com o seu SLO (Objetivo de Nível de Serviço) de tempo de atividade. Um défice requer SLAs de nível mais elevado ou redundância adicional. Recalcule após cada alteração. Pare quando o tempo de atividade calculado exceder o SLO.

    Caso de uso Fórmula Variáveis Exemplo Explicação
    Região-única N = S1 × S2 × S3 × ... × Sn N = SLA composto.
    S = SLA do serviço do Azure.
    n = número de serviços no caminho crítico.
    N = 99,99% (aplicativo) × 99,95% (banco de dados) × 99,9% (cache) Carga de trabalho simples com aplicativo (99,99%), banco de dados (99,95%) e cache (99,9%) em um único caminho crítico.
    Caminhos independentes S1 x 1 - [(1 - S2) × (1 - S3)] S = SLA do serviço do Azure. 99,99% (app) × (1 - [(1 - 99,95% base de dados) × (1 - 99,9% cache)]) No aplicativo, o banco de dados (99,95%) ou o cache (99,9%) podem falhar sem causar tempo de inatividade.
    Multi-região M = 1 - (1 - N)^R M = SLA multi-região.
    N = SLA de região única.
    R = Número de regiões.
    Se N = 99,95% e R = 2, então M = 1 - (1 - 99,95%)^2 Carga de trabalho implantada em duas regiões.
  2. Ajuste as camadas de serviço. Antes de modificar arquiteturas, avalie se diferentes camadas de serviço do Azure (SKUs) podem atender aos seus requisitos de confiabilidade. Algumas camadas de serviço do Azure podem ter SLAs de tempo de atividade diferentes, como os Discos Gerenciados do Azure.

  3. Adicione redundância de arquitetura. Se a sua estimativa de tempo de atividade atual ficar aquém do seu SLO, aumente a redundância:

    1. Use várias zonas de disponibilidade. Configure suas cargas de trabalho para usar várias zonas de disponibilidade. Pode ser difícil de estimar como as zonas de disponibilidade melhoram o tempo de atividade. Apenas alguns serviços têm SLAs de tempo de atividade que levam em conta as zonas de disponibilidade. Quando os SLAs contabilizarem zonas de disponibilidade, use-os nas suas estimativas de tempo de funcionamento. Veja alguns exemplos na tabela a seguir.

      Tipo de serviço do Azure Serviços do Azure com SLAs da zona de disponibilidade
      Plataforma de computação Serviço de Aplicações
      Serviço Kubernetes do Azure
      Máquinas Virtuais
      Armazenamento de dados Azure Service Bus (serviço de mensagens em nuvem)
      Contas de Armazenamento do Azure
      Cache do Azure para Redis
      Camada Premium do Azure Files
      Base de dados Base de Dados Azure Cosmos
      Base de Dados SQL do Azure
      Banco de Dados do Azure para MySQL
      Base de Dados do Azure para PostgreSQL
      Instância gerenciada do Azure para Apache Cassandra
      Balanceador de carga Gateway de aplicativo
      Segurança Azure Firewall
    2. Use várias regiões. Muitas vezes, várias regiões são necessárias para cumprir os SLOs de disponibilidade. Use balanceadores de carga globais (Azure Front Door ou Traffic Manager) para distribuição de tráfego. As arquiteturas de várias regiões exigem um gerenciamento cuidadoso da consistência dos dados.

  4. Gerencie redundância de arquitetura. Decida como usar a redundância: você pode usar a redundância de arquitetura como parte das operações diárias (ativas). Ou você pode usar redundância de arquitetura em cenários de recuperação de desastres (passiva). Para exemplos, ver Tabela 3.

    1. Balanceamento de carga entre zonas de disponibilidade. Use toda a disponibilidade ativamente. Muitos serviços PaaS do Azure gerenciam o balanceamento de carga entre zonas de disponibilidade automaticamente. As cargas de trabalho IaaS devem usar um balanceador de carga interno para balancear a carga entre zonas de disponibilidade.

    2. Balanceamento de carga entre regiões. Determine se as cargas de trabalho de várias regiões devem ser executadas em configuração ativo-ativo ou ativo-passivo com base nos requisitos de fiabilidade.

  5. Gerencie configurações de serviço. Aplique consistentemente configurações em instâncias redundantes de recursos do Azure, para que os recursos se comportem da mesma maneira. Use a infraestrutura como código para manter a consistência. Para obter mais informações, consulte Configuração de recursos duplicados.

  6. Confiabilidade da carga de trabalho do projeto. Para o design da confiabilidade da carga de trabalho, consulte o Well-Architected Framework:

    Fiabilidade da carga de trabalho Orientações
    Pilar da fiabilidade Design multi-região altamente disponível
    Projetando para redundância
    Usando zonas e regiões de disponibilidade
    Guia de serviço Guias de serviço do Azure (comece com a seção Confiabilidade)

Para obter mais informações, consulte Redundância.

Gerencie a continuidade de negócios

A recuperação de uma falha requer uma estratégia clara para restaurar os serviços rapidamente e minimizar as interrupções para manter a satisfação do usuário. Siga estes passos:

  1. Prepare-se para falhas. Crie procedimentos de recuperação separados para cargas de trabalho com base em prioridades altas, médias e baixas. de confiabilidade de dados, de confiabilidade de código e tempo de execução e de confiabilidade de recursos de nuvem são a base da preparação para falhas. Selecione outras ferramentas de recuperação para ajudar na preparação da continuidade de negócios. Por exemplo, use o Azure Site Recovery para cargas de trabalho de servidor locais e baseadas em máquina virtual.

  2. Testar e documentar o plano de recuperação. Teste regularmente os seus processos de failover e failback para confirmar se as suas cargas de trabalho cumprem os objetivos de tempo de recuperação (RTO) e os objetivos de ponto de recuperação (RPO). Documente claramente cada etapa do plano de recuperação para facilitar a referência durante incidentes. Verifique se as ferramentas de recuperação, como o Azure Site Recovery, atendem consistentemente ao RTO especificado.

  3. Detetar falhas. Adote uma abordagem proativa para identificar interrupções rapidamente, mesmo que esse método aumente os falsos positivos. Priorize a experiência do cliente minimizando o tempo de inatividade e mantendo a confiança do usuário.

    1. Monitorize falhas. Monitorize as cargas de trabalho para detetar interrupções num minuto. Use a Integridade do Serviço do Azure e a Integridade dos Recursos do Azure e use os alertas do Azure Monitor para notificar as equipes relevantes. Integre esses alertas com o Azure DevOps ou ferramentas de Gerenciamento de Serviços de TI (ITSM).

    2. Colete indicadores de nível de serviço (SLIs). Acompanhe o desempenho definindo e reunindo métricas que servem como SLIs. Garanta que suas equipes usem essas métricas para medir o desempenho da carga de trabalho em relação aos seus SLOs (objetivos de nível de serviço).

  4. Responda a falhas. Alinhe sua resposta de recuperação à prioridade da carga de trabalho. Implemente procedimentos de failover para redirecionar solicitações para infraestrutura redundante e réplicas de dados imediatamente. Quando os sistemas estabilizarem, resolva a causa raiz, sincronize os dados e execute os procedimentos de recuperação pós-falha. Para obter mais informações, consulte Failover e failback.

  5. Analise falhas. Identifique as causas profundas dos problemas e, em seguida, resolva o problema. Documente as lições e faça as alterações necessárias.

  6. Gerencie falhas de carga de trabalho. Para recuperação de desastres de carga de trabalho, consulte o guia de recuperação de desastres do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).

Ferramentas de fiabilidade do Azure

Caso de uso Solução
Replicação de dados, backup e continuidade de negócios Guias de serviço do Azure (comece com a seção Confiabilidade)

Referência rápida:
Azure Cosmos DB
Banco de Dados SQL do Azure
Armazenamento de Blobs do Azure
Arquivos do Azure
Backup de dados Azure Backup
Continuidade de negócios (IaaS) Azure Site Recovery
Balanceador de carga multi-região Azure Front Door (HTTP)
Azure Traffic Manager (não HTTP)
Balanceador de carga de zonas de múltipla disponibilidade Gateway de Aplicações do Azure (HTTP)
Azure Load Balancer (não HTTP)

Gerir a segurança

Use um processo de segurança iterativo para identificar e mitigar ameaças em seu ambiente de nuvem. Siga estes passos:

Gerenciar operações de segurança

Gerencie seus controles de segurança para detetar ameaças ao seu patrimônio na nuvem. Siga estes passos:

  1. Padronize as ferramentas de segurança. Use ferramentas padronizadas para detetar ameaças, corrigir vulnerabilidades, investigar problemas, proteger dados, fortalecer recursos e impor conformidade em escala. Consulte as ferramentas de segurança do Azure.

  2. Estabeleça a linha de referência do seu ambiente. Documente o estado normal dos seus recursos na nuvem. Monitore a segurança e documente padrões de tráfego de rede e comportamentos do usuário. Use as linhas de base de segurança do Azure e os guias de serviço do Azure para desenvolver configurações de linha de base para serviços. Esta linha de base facilita a deteção de anomalias e potenciais fragilidades de segurança.

  3. Aplique controles de segurança. Implementar medidas de segurança, como controles de acesso, criptografia e autenticação multifator, fortalece o ambiente e reduz a probabilidade de comprometimento. Para obter mais informações, consulte Gerenciar segurança.

  4. Atribua responsabilidades de segurança. Designe a responsabilidade pelo monitoramento de segurança em seu ambiente de nuvem. O monitoramento regular e as comparações com a linha de base permitem a rápida identificação de incidentes, como acesso não autorizado ou transferências de dados incomuns. Atualizações e auditorias regulares mantêm a sua linha de base de segurança eficaz contra ameaças em evolução.

Para obter mais informações, consulte CAF Secure.

Gerenciar incidentes de segurança

Adote um processo e ferramentas para se recuperar de incidentes de segurança, como ransomware, negação de serviço ou intrusão de agentes de ameaças. Siga estes passos:

  1. Prepare-se para incidentes. Desenvolva um plano de resposta a incidentes que defina claramente as funções de investigação, mitigação e comunicação. Teste regularmente a eficácia do seu plano. Avalie e implemente ferramentas de gerenciamento de vulnerabilidades, sistemas de deteção de ameaças e soluções de monitoramento de infraestrutura. Reduza sua superfície de ataque por meio do fortalecimento da infraestrutura e crie estratégias de recuperação específicas da carga de trabalho. Consulte Visão geral da resposta a incidentes e Manuais de resposta a incidentes.

  2. Detetar incidentes. Use a ferramenta de gerenciamento de eventos e informações de segurança (SIEM), como o Microsoft Sentinel, para centralizar seus dados de segurança. Use os recursos de orquestração, automação e resposta de segurança (SOAR) do Microsoft Sentinel para automatizar tarefas de segurança de rotina. Integre feeds de inteligência de ameaças em seu SIEM para obter informações sobre táticas adversárias relevantes para seu ambiente de nuvem. Use o Microsoft Defender for Cloud para verificar regularmente o Azure em busca de vulnerabilidades. O Microsoft Defender integra-se com o Microsoft Sentinel para fornecer uma visão unificada dos eventos de segurança.

  3. Responder a incidentes. Ative imediatamente seu plano de resposta a incidentes ao detetar um incidente. Inicie rapidamente os procedimentos de investigação e mitigação. Ative seu plano de recuperação de desastres para restaurar os sistemas afetados e comunique claramente os detalhes do incidente à sua equipe.

  4. Analise incidentes de segurança. Após cada incidente, revise as informações sobre ameaças e atualize seu plano de resposta a incidentes com base nas lições aprendidas e nos insights de recursos públicos, como a base de conhecimento MITRE ATT&CK . Avalie a eficácia de suas ferramentas de gerenciamento e deteção de vulnerabilidades e refine as estratégias com base na análise pós-incidente.

Para obter mais informações, consulte Gerenciar resposta a incidentes (CAF Secure).

Ferramentas de segurança do Azure

Capacidade de segurança Solução Microsoft
Gestão de identidades e acessos Microsoft Entra ID
Controle de acesso baseado em função Controle de acesso baseado em função do Azure
Deteção de ameaças Microsoft Defender para Cloud
Gestão de informações de segurança Sentinela da Microsoft
Segurança e governança de dados Microsoft Purview
Segurança de recursos na nuvem Linhas de base de segurança do Azure
Governança da nuvem Política do Azure
Segurança do endpoint Microsoft Defender para Ponto de Extremidade
Segurança da rede Observador de Rede do Azure
Segurança industrial Microsoft Defender para IoT
Segurança de backup de dados Segurança do Backup do Azure

Próximos passos