Proteja os seus ativos na nuvem

2025-04-30

Este artigo fornece práticas recomendadas para manter a confiabilidade e a segurança do seu patrimônio de nuvem do Azure. A confiabilidade garante que seus serviços na nuvem permaneçam operacionais com o mínimo de tempo de inatividade. A segurança salvaguarda a confidencialidade, integridade e disponibilidade dos seus recursos. Tanto a confiabilidade quanto a segurança são essenciais para o sucesso das operações na nuvem.

Gerencie a confiabilidade

O gerenciamento de confiabilidade envolve o uso de redundância, replicação e estratégias de recuperação definidas para minimizar o tempo de inatividade e proteger seus negócios. A Tabela 1 fornece um exemplo de três prioridades de carga de trabalho, requisitos de confiabilidade (SLO de tempo de atividade, tempo de inatividade máximo, redundância, balanceamento de carga, replicação) e cenários de exemplo que se alinham com os SLOs (objetivos de nível de serviço)

Tabela 1. Exemplo de requisitos de prioridade e confiabilidade da carga de trabalho.

Prioridade	Impacto nos negócios	SLO de disponibilidade mínima	Tempo de inatividade máximo por mês	Redundância de arquitetura	Balanceamento de carga	Replicação e backups de dados	Cenário de exemplo
Alto (de importância crítica)	Efeitos imediatos e severos na reputação ou receita da empresa.	99,99%	4.32 Minutos	Multi-região & Várias zonas de disponibilidade em cada região	Ativo-ativo	Replicação de dados síncrona em várias regiões e backups para recuperação	Linha de base de missão crítica
Média	Efeitos mensuráveis na reputação ou receita da empresa.	99,9%	43.20 Minutos	Várias regiões & Várias zonas de disponibilidade em cada região	Ativo-passivo	Replicação assíncrona e backups de dados entre regiões para recuperação	Padrão confiável de aplicativo Web
Baixo	Nenhum efeito sobre a reputação, processos ou lucros da empresa.	99%	7.20 horas	Região única & Zonas de disponibilidade múltiplas	Redundância da zona de disponibilidade	Replicação síncrona de dados entre zonas de disponibilidade, com backups & para recuperação	Linha de base do Serviço de Aplicativo Linha de base da máquina virtual

Identificar responsabilidades de confiabilidade

As responsabilidades de confiabilidade variam de acordo com o modelo de implantação. Use a tabela a seguir para identificar suas responsabilidades de gerenciamento para infraestrutura (IaaS), plataforma (PaaS), software (SaaS) e implantações locais.

Responsabilidade	No localmente	IaaS (Azure)	PaaS (Azure)	SaaS
Dados	✔️	✔️	✔️	✔️
Código e tempo de execução	✔️	✔️	✔️
Recursos na nuvem	✔️	✔️	✔️
Hardware físico	✔️

Para obter mais informações, consulte Responsabilidade compartilhada pela confiabilidade.

Definir requisitos de confiabilidade

Requisitos de confiabilidade claramente definidos são essenciais para metas de tempo de atividade, recuperação e tolerância à perda de dados. Siga estas etapas para definir os requisitos de confiabilidade:

Priorize cargas de trabalho. Atribua prioridades altas, médias (padrão) ou baixas a cargas de trabalho com base na criticidade dos negócios e nos níveis de investimento financeiro. Revise regularmente as prioridades para manter o alinhamento com as metas de negócios.
Atribua o SLO (objetivo de nível de serviço) de tempo de atividade a todas as cargas de trabalho. O seu SLO influencia a sua arquitetura, estratégias de gestão de dados, processos de recuperação e custos. Estabeleça metas de disponibilidade de acordo com a prioridade da carga de trabalho. Cargas de trabalho de prioridade mais alta exigem metas de tempo de atividade mais rígidas.
Identificar indicadores de nível de serviço (SLIs). Use SLIs para medir o desempenho do tempo de atividade em comparação com o seu SLO. Exemplos incluem a monitorização do estado de funcionamento do serviço e as taxas de erro .
Atribua um RTO (Recovery Time Objetive, objetivo de tempo de recuperação) a todas as cargas de trabalho. O RTO define o tempo de inatividade máximo aceitável para sua carga de trabalho. O RTO deve ser menor do que o seu período anual permitido de inatividade. Por exemplo, um SLO de tempo de atividade de 99,99% requer menos de 52 minutos de inatividade anual (4,32 minutos por mês). Para atribuir um RTO, siga estes passos:
1. Estimar o número de falhas por ano. Para cargas de trabalho com histórico operacional, use seus SLIs. Para novas cargas de trabalho, execute uma análise de modo de falha para obter uma estimativa precisa.
2. Estime o RTO. Divida o tempo de inatividade anual permitido pelo número estimado de falhas. Se você estimar quatro falhas por ano, então seu RTO deve ser de 13 minutos ou menos (52 minutos / 4 falhas = 13 minutos RTO).
3. Teste o seu tempo de recuperação. Acompanhe o tempo médio de recuperação durante testes de failover e falhas em tempo real. O tempo que você leva para se recuperar de uma falha deve ser menor do que o seu RTO.
Defina RPO (Recovery Point Objetives, objetivos de ponto de recuperação) para todas as cargas de trabalho. Seu RPO influencia a frequência com que você replica e faz backup de seus dados. Determine quanta perda de dados sua empresa pode tolerar.
Defina metas de confiabilidade da carga de trabalho. Para metas de confiabilidade da carga de trabalho, consulte as Recomendações do Well-Architected Framework para definir metas de confiabilidade.

Gerencie a confiabilidade dos dados

A confiabilidade dos dados envolve replicação de dados (réplicas) e backups (cópias point-in-time) para manter a disponibilidade e a consistência. Consulte a Tabela 2 para obter exemplos de prioridade de carga de trabalho alinhada com as metas de confiabilidade de dados.

Tabela 2. Prioridade de carga de trabalho com exemplos de configurações de confiabilidade de dados.

Prioridade da carga de trabalho	SLO de disponibilidade	Replicação de dados	Backups de dados	Cenário de exemplo
Alto	99,99%	Replicação síncrona de dados entre regiões Replicação síncrona de dados em zonas de disponibilidade	Backups de alta frequência entre regiões. A frequência deve dar suporte a RTO e RPO.	Plataforma de dados de missão crítica
Média	99,9%	Replicação síncrona de dados entre regiões Replicação síncrona de dados em zonas de disponibilidade	Backups entre regiões. A frequência deve dar suporte a RTO e RPO.	Solução de banco de dados e armazenamento no padrão Reliable Web App
Baixo	99%	Replicação síncrona de dados em zonas de disponibilidade	Backups entre regiões. A frequência deve dar suporte a RTO e RPO.	Resiliência de dados no aplicativo web básico com redundância zonal

Você deve alinhar as configurações de confiabilidade de dados com os requisitos de RTO e RPO de suas cargas de trabalho. Para fazer esse alinhamento, siga estas etapas:

Gerencie a replicação de dados. Replique seus dados de forma síncrona ou assíncrona de acordo com os requisitos de RTO e RPO da sua carga de trabalho.

Distribuição de dados	Replicação de dados	Configuração de balanceamento de carga
Entre zonas de disponibilidade	Síncrono (quase em tempo real)	A maioria dos serviços PaaS lida com balanceamento de carga entre zonas nativamente
Através das regiões (ativo-ativo)	Síncrono	Balanceamento de carga ativo-ativo
Entre regiões (ativo-passivo)	Assíncrono (periódico)	Configuração ativo-passivo

Para obter mais informações, consulte Replicação: redundância de dados.

Gerencie backups de dados. Os backups são para recuperação de desastres (falha de serviço), recuperação de dados (exclusão ou corrupção) e resposta a incidentes (segurança). Os backups devem oferecer suporte aos requisitos de RTO e RPO para cada carga de trabalho. Prefira soluções de backup internas ao seu serviço do Azure, como recursos de backup nativos no Azure Cosmos DB e no Banco de Dados SQL do Azure. Quando os backups nativos não estiverem disponíveis, incluindo dados locais, use o Backup do Azure. Para obter mais informações, consulte Backup e Centro de Continuidade de Negócios do Azure.
Projete a confiabilidade dos dados da carga de trabalho. Para obter o design de confiabilidade de dados de carga de trabalho, consulte o guia de particionamento de dados do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).

Gerencie a confiabilidade do código e do tempo de execução

A confiabilidade do código e do tempo de execução é uma responsabilidade da carga de trabalho. Siga o guia de autorrecuperação e autopreservação do Framework Well-Architected .

Gerencie a confiabilidade dos recursos da nuvem

O gerenciamento da confiabilidade de seus recursos de nuvem geralmente requer redundância de arquitetura (instâncias de serviço duplicadas) e uma estratégia eficaz de balanceamento de carga. Consulte a Tabela 3 para obter exemplos de redundância de arquitetura alinhada com a prioridade da carga de trabalho.

Tabela 3. Exemplos de prioridade de carga de trabalho e redundância de arquitetura.

Prioridade da carga de trabalho	Redundância de arquitetura	Abordagem de balanceamento de carga	Solução de balanceamento de carga do Azure	Cenário de exemplo
Alto	Duas regiões & zonas de disponibilidade	Ativo-ativo	Azure Front Door (HTTP) Azure Traffic Manager (não HTTP)	Plataforma de aplicações fundamental para missões críticas
Média	Duas regiões & zonas de disponibilidade	Ativo-passivo	Azure Front Door (HTTP) Azure Traffic Manager (não HTTP)	Orientação confiável de arquitetura de padrões de aplicativos Web
Baixo	Zonas de disponibilidade da região única &	Entre zonas de disponibilidade	Gateway de Aplicativo do Azure Adicionar o Azure Load Balancer para máquinas virtuais	Linha de base do Serviço de Aplicativo Linha de base da máquina virtual

Sua abordagem deve implementar redundância de arquitetura para atender aos requisitos de confiabilidade de suas cargas de trabalho. Siga estes passos:

Estime o tempo de atividade de suas arquiteturas. Para cada carga de trabalho, calcule o SLA composto. Inclua apenas serviços que possam causar falha na carga de trabalho (caminho crítico).

Enumere todos os serviços no caminho crítico da carga de trabalho. Colete os SLAs de tempo de atividade da Microsoft de cada serviço a partir do documento oficial.
Decida se a carga de trabalho inclui caminhos críticos independentes. Um caminho independente pode falhar e a carga de trabalho permanece disponível.
Se você tiver um caminho crítico, use a fórmula de região única: N = S₁ × S₂ × S₃ × ... × S_n.
Se você tiver dois ou mais caminhos críticos, use a fórmula de caminho independente: N = S₁ x 1 - [(1 - S₂) × (1 - S₃)].
Cargas de trabalho complexas geralmente combinam os dois tipos de fórmula. Exemplo: N = S₁ × S₂ × S₃ × (S₄ x 1 - [(1 - S₅) × (1 - S₆)]).
Para aplicações multirregiões, use a fórmula para a fórmula multirregião: M = 1 - (1 - N)^R
Compare o tempo de atividade calculado com o seu SLO (Objetivo de Nível de Serviço) de tempo de atividade. Um défice requer SLAs de nível mais elevado ou redundância adicional. Recalcule após cada alteração. Pare quando o tempo de atividade calculado exceder o SLO.

Caso de uso	Fórmula	Variáveis	Exemplo	Explicação
Região-única	N = S₁ × S₂ × S₃ × ... × S_n	N = SLA composto. S = SLA do serviço do Azure. n = número de serviços no caminho crítico.	N = 99,99% (aplicativo) × 99,95% (banco de dados) × 99,9% (cache)	Carga de trabalho simples com aplicativo (99,99%), banco de dados (99,95%) e cache (99,9%) em um único caminho crítico.
Caminhos independentes	S₁ x 1 - [(1 - S₂) × (1 - S₃)]	S = SLA do serviço do Azure.	99,99% (app) × (1 - [(1 - 99,95% base de dados) × (1 - 99,9% cache)])	No aplicativo, o banco de dados (99,95%) ou o cache (99,9%) podem falhar sem causar tempo de inatividade.
Multi-região	M = 1 - (1 - N)^R	M = SLA multi-região. N = SLA de região única. R = Número de regiões.	Se N = 99,95% e R = 2, então M = 1 - (1 - 99,95%)^2	Carga de trabalho implantada em duas regiões.

Ajuste as camadas de serviço. Antes de modificar arquiteturas, avalie se diferentes camadas de serviço do Azure (SKUs) podem atender aos seus requisitos de confiabilidade. Algumas camadas de serviço do Azure podem ter SLAs de tempo de atividade diferentes, como os Discos Gerenciados do Azure.

Adicione redundância de arquitetura. Se a sua estimativa de tempo de atividade atual ficar aquém do seu SLO, aumente a redundância:

Use várias zonas de disponibilidade. Configure suas cargas de trabalho para usar várias zonas de disponibilidade. Pode ser difícil de estimar como as zonas de disponibilidade melhoram o tempo de atividade. Apenas alguns serviços têm SLAs de tempo de atividade que levam em conta as zonas de disponibilidade. Quando os SLAs contabilizarem zonas de disponibilidade, use-os nas suas estimativas de tempo de funcionamento. Veja alguns exemplos na tabela a seguir.

Tipo de serviço do Azure	Serviços do Azure com SLAs da zona de disponibilidade
Plataforma de computação	Serviço de Aplicações Serviço Kubernetes do Azure Máquinas Virtuais
Armazenamento de dados	Azure Service Bus (serviço de mensagens em nuvem) Contas de Armazenamento do Azure Cache do Azure para Redis Camada Premium do Azure Files
Base de dados	Base de Dados Azure Cosmos Base de Dados SQL do Azure Banco de Dados do Azure para MySQL Base de Dados do Azure para PostgreSQL Instância gerenciada do Azure para Apache Cassandra
Balanceador de carga	Gateway de aplicativo
Segurança	Azure Firewall

Use várias regiões. Muitas vezes, várias regiões são necessárias para cumprir os SLOs de disponibilidade. Use balanceadores de carga globais (Azure Front Door ou Traffic Manager) para distribuição de tráfego. As arquiteturas de várias regiões exigem um gerenciamento cuidadoso da consistência dos dados.

Gerencie redundância de arquitetura. Decida como usar a redundância: você pode usar a redundância de arquitetura como parte das operações diárias (ativas). Ou você pode usar redundância de arquitetura em cenários de recuperação de desastres (passiva). Para exemplos, ver Tabela 3.
1. Balanceamento de carga entre zonas de disponibilidade. Use toda a disponibilidade ativamente. Muitos serviços PaaS do Azure gerenciam o balanceamento de carga entre zonas de disponibilidade automaticamente. As cargas de trabalho IaaS devem usar um balanceador de carga interno para balancear a carga entre zonas de disponibilidade.
2. Balanceamento de carga entre regiões. Determine se as cargas de trabalho de várias regiões devem ser executadas em configuração ativo-ativo ou ativo-passivo com base nos requisitos de fiabilidade.
Gerencie configurações de serviço. Aplique consistentemente configurações em instâncias redundantes de recursos do Azure, para que os recursos se comportem da mesma maneira. Use a infraestrutura como código para manter a consistência. Para obter mais informações, consulte Configuração de recursos duplicados.

Confiabilidade da carga de trabalho do projeto. Para o design da confiabilidade da carga de trabalho, consulte o Well-Architected Framework:

Fiabilidade da carga de trabalho	Orientações
Pilar da fiabilidade	Design multi-região altamente disponível Projetando para redundância Usando zonas e regiões de disponibilidade
Guia de serviço	Guias de serviço do Azure (comece com a seção Confiabilidade)

Para obter mais informações, consulte Redundância.

Gerencie a continuidade de negócios

A recuperação de uma falha requer uma estratégia clara para restaurar os serviços rapidamente e minimizar as interrupções para manter a satisfação do usuário. Siga estes passos:

Prepare-se para falhas. Crie procedimentos de recuperação separados para cargas de trabalho com base em prioridades altas, médias e baixas. de confiabilidade de dados, de confiabilidade de código e tempo de execução e de confiabilidade de recursos de nuvem são a base da preparação para falhas. Selecione outras ferramentas de recuperação para ajudar na preparação da continuidade de negócios. Por exemplo, use o Azure Site Recovery para cargas de trabalho de servidor locais e baseadas em máquina virtual.
Testar e documentar o plano de recuperação. Teste regularmente os seus processos de failover e failback para confirmar se as suas cargas de trabalho cumprem os objetivos de tempo de recuperação (RTO) e os objetivos de ponto de recuperação (RPO). Documente claramente cada etapa do plano de recuperação para facilitar a referência durante incidentes. Verifique se as ferramentas de recuperação, como o Azure Site Recovery, atendem consistentemente ao RTO especificado.
Detetar falhas. Adote uma abordagem proativa para identificar interrupções rapidamente, mesmo que esse método aumente os falsos positivos. Priorize a experiência do cliente minimizando o tempo de inatividade e mantendo a confiança do usuário.
1. Monitorize falhas. Monitorize as cargas de trabalho para detetar interrupções num minuto. Use a Integridade do Serviço do Azure e a Integridade dos Recursos do Azure e use os alertas do Azure Monitor para notificar as equipes relevantes. Integre esses alertas com o Azure DevOps ou ferramentas de Gerenciamento de Serviços de TI (ITSM).
2. Colete indicadores de nível de serviço (SLIs). Acompanhe o desempenho definindo e reunindo métricas que servem como SLIs. Garanta que suas equipes usem essas métricas para medir o desempenho da carga de trabalho em relação aos seus SLOs (objetivos de nível de serviço).
Responda a falhas. Alinhe sua resposta de recuperação à prioridade da carga de trabalho. Implemente procedimentos de failover para redirecionar solicitações para infraestrutura redundante e réplicas de dados imediatamente. Quando os sistemas estabilizarem, resolva a causa raiz, sincronize os dados e execute os procedimentos de recuperação pós-falha. Para obter mais informações, consulte Failover e failback.
Analise falhas. Identifique as causas profundas dos problemas e, em seguida, resolva o problema. Documente as lições e faça as alterações necessárias.
Gerencie falhas de carga de trabalho. Para recuperação de desastres de carga de trabalho, consulte o guia de recuperação de desastres do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).

Ferramentas de fiabilidade do Azure

Caso de uso	Solução
Replicação de dados, backup e continuidade de negócios	Guias de serviço do Azure (comece com a seção Confiabilidade) Referência rápida: Azure Cosmos DB Banco de Dados SQL do Azure Armazenamento de Blobs do Azure Arquivos do Azure
Backup de dados	Azure Backup
Continuidade de negócios (IaaS)	Azure Site Recovery
Balanceador de carga multi-região	Azure Front Door (HTTP) Azure Traffic Manager (não HTTP)
Balanceador de carga de zonas de múltipla disponibilidade	Gateway de Aplicações do Azure (HTTP) Azure Load Balancer (não HTTP)

Gerir a segurança

Use um processo de segurança iterativo para identificar e mitigar ameaças em seu ambiente de nuvem. Siga estes passos:

Gerenciar operações de segurança

Gerencie seus controles de segurança para detetar ameaças ao seu patrimônio na nuvem. Siga estes passos:

Padronize as ferramentas de segurança. Use ferramentas padronizadas para detetar ameaças, corrigir vulnerabilidades, investigar problemas, proteger dados, fortalecer recursos e impor conformidade em escala. Consulte as ferramentas de segurança do Azure.
Estabeleça a linha de referência do seu ambiente. Documente o estado normal dos seus recursos na nuvem. Monitore a segurança e documente padrões de tráfego de rede e comportamentos do usuário. Use as linhas de base de segurança do Azure e os guias de serviço do Azure para desenvolver configurações de linha de base para serviços. Esta linha de base facilita a deteção de anomalias e potenciais fragilidades de segurança.
Aplique controles de segurança. Implementar medidas de segurança, como controles de acesso, criptografia e autenticação multifator, fortalece o ambiente e reduz a probabilidade de comprometimento. Para obter mais informações, consulte Gerenciar segurança.
Atribua responsabilidades de segurança. Designe a responsabilidade pelo monitoramento de segurança em seu ambiente de nuvem. O monitoramento regular e as comparações com a linha de base permitem a rápida identificação de incidentes, como acesso não autorizado ou transferências de dados incomuns. Atualizações e auditorias regulares mantêm a sua linha de base de segurança eficaz contra ameaças em evolução.

Para obter mais informações, consulte CAF Secure.

Gerenciar incidentes de segurança

Adote um processo e ferramentas para se recuperar de incidentes de segurança, como ransomware, negação de serviço ou intrusão de agentes de ameaças. Siga estes passos:

Prepare-se para incidentes. Desenvolva um plano de resposta a incidentes que defina claramente as funções de investigação, mitigação e comunicação. Teste regularmente a eficácia do seu plano. Avalie e implemente ferramentas de gerenciamento de vulnerabilidades, sistemas de deteção de ameaças e soluções de monitoramento de infraestrutura. Reduza sua superfície de ataque por meio do fortalecimento da infraestrutura e crie estratégias de recuperação específicas da carga de trabalho. Consulte Visão geral da resposta a incidentes e Manuais de resposta a incidentes.
Detetar incidentes. Use a ferramenta de gerenciamento de eventos e informações de segurança (SIEM), como o Microsoft Sentinel, para centralizar seus dados de segurança. Use os recursos de orquestração, automação e resposta de segurança (SOAR) do Microsoft Sentinel para automatizar tarefas de segurança de rotina. Integre feeds de inteligência de ameaças em seu SIEM para obter informações sobre táticas adversárias relevantes para seu ambiente de nuvem. Use o Microsoft Defender for Cloud para verificar regularmente o Azure em busca de vulnerabilidades. O Microsoft Defender integra-se com o Microsoft Sentinel para fornecer uma visão unificada dos eventos de segurança.
Responder a incidentes. Ative imediatamente seu plano de resposta a incidentes ao detetar um incidente. Inicie rapidamente os procedimentos de investigação e mitigação. Ative seu plano de recuperação de desastres para restaurar os sistemas afetados e comunique claramente os detalhes do incidente à sua equipe.
Analise incidentes de segurança. Após cada incidente, revise as informações sobre ameaças e atualize seu plano de resposta a incidentes com base nas lições aprendidas e nos insights de recursos públicos, como a base de conhecimento MITRE ATT&CK . Avalie a eficácia de suas ferramentas de gerenciamento e deteção de vulnerabilidades e refine as estratégias com base na análise pós-incidente.

Para obter mais informações, consulte Gerenciar resposta a incidentes (CAF Secure).

Ferramentas de segurança do Azure

Capacidade de segurança	Solução Microsoft
Gestão de identidades e acessos	Microsoft Entra ID
Controle de acesso baseado em função	Controle de acesso baseado em função do Azure
Deteção de ameaças	Microsoft Defender para Cloud
Gestão de informações de segurança	Sentinela da Microsoft
Segurança e governança de dados	Microsoft Purview
Segurança de recursos na nuvem	Linhas de base de segurança do Azure
Governança da nuvem	Política do Azure
Segurança do endpoint	Microsoft Defender para Ponto de Extremidade
Segurança da rede	Observador de Rede do Azure
Segurança industrial	Microsoft Defender para IoT
Segurança de backup de dados	Segurança do Backup do Azure

Próximos passos

Lista de verificação CAF Manage