Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo fornece práticas recomendadas para manter a confiabilidade e a segurança do seu patrimônio de nuvem do Azure. A confiabilidade garante que seus serviços na nuvem permaneçam operacionais com o mínimo de tempo de inatividade. A segurança salvaguarda a confidencialidade, integridade e disponibilidade dos seus recursos. Tanto a confiabilidade quanto a segurança são essenciais para o sucesso das operações na nuvem.
Gerencie a confiabilidade
O gerenciamento de confiabilidade envolve o uso de redundância, replicação e estratégias de recuperação definidas para minimizar o tempo de inatividade e proteger seus negócios. A Tabela 1 fornece um exemplo de três prioridades de carga de trabalho, requisitos de confiabilidade (SLO de tempo de atividade, tempo de inatividade máximo, redundância, balanceamento de carga, replicação) e cenários de exemplo que se alinham com os SLOs (objetivos de nível de serviço)
Tabela 1. Exemplo de requisitos de prioridade e confiabilidade da carga de trabalho.
Prioridade | Impacto nos negócios | SLO de disponibilidade mínima | Tempo de inatividade máximo por mês | Redundância de arquitetura | Balanceamento de carga | Replicação e backups de dados | Cenário de exemplo |
---|---|---|---|---|---|---|---|
Alto (de importância crítica) | Efeitos imediatos e severos na reputação ou receita da empresa. | 99,99% | 4.32 Minutos | Multi-região & Várias zonas de disponibilidade em cada região | Ativo-ativo | Replicação de dados síncrona em várias regiões e backups para recuperação | Linha de base de missão crítica |
Média | Efeitos mensuráveis na reputação ou receita da empresa. | 99,9% | 43.20 Minutos | Várias regiões & Várias zonas de disponibilidade em cada região | Ativo-passivo | Replicação assíncrona e backups de dados entre regiões para recuperação | Padrão confiável de aplicativo Web |
Baixo | Nenhum efeito sobre a reputação, processos ou lucros da empresa. | 99% | 7.20 horas | Região única & Zonas de disponibilidade múltiplas | Redundância da zona de disponibilidade | Replicação síncrona de dados entre zonas de disponibilidade, com backups & para recuperação |
Linha de base do Serviço de Aplicativo Linha de base da máquina virtual |
Identificar responsabilidades de confiabilidade
As responsabilidades de confiabilidade variam de acordo com o modelo de implantação. Use a tabela a seguir para identificar suas responsabilidades de gerenciamento para infraestrutura (IaaS), plataforma (PaaS), software (SaaS) e implantações locais.
Responsabilidade | No localmente | IaaS (Azure) | PaaS (Azure) | SaaS |
---|---|---|---|---|
Dados | ✔️ | ✔️ | ✔️ | ✔️ |
Código e tempo de execução | ✔️ | ✔️ | ✔️ | |
Recursos na nuvem | ✔️ | ✔️ | ✔️ | |
Hardware físico | ✔️ |
Para obter mais informações, consulte Responsabilidade compartilhada pela confiabilidade.
Definir requisitos de confiabilidade
Requisitos de confiabilidade claramente definidos são essenciais para metas de tempo de atividade, recuperação e tolerância à perda de dados. Siga estas etapas para definir os requisitos de confiabilidade:
Priorize cargas de trabalho. Atribua prioridades altas, médias (padrão) ou baixas a cargas de trabalho com base na criticidade dos negócios e nos níveis de investimento financeiro. Revise regularmente as prioridades para manter o alinhamento com as metas de negócios.
Atribua o SLO (objetivo de nível de serviço) de tempo de atividade a todas as cargas de trabalho. O seu SLO influencia a sua arquitetura, estratégias de gestão de dados, processos de recuperação e custos. Estabeleça metas de disponibilidade de acordo com a prioridade da carga de trabalho. Cargas de trabalho de prioridade mais alta exigem metas de tempo de atividade mais rígidas.
Identificar indicadores de nível de serviço (SLIs). Use SLIs para medir o desempenho do tempo de atividade em comparação com o seu SLO. Exemplos incluem a monitorização do estado de funcionamento do serviço e as taxas de erro .
Atribua um RTO (Recovery Time Objetive, objetivo de tempo de recuperação) a todas as cargas de trabalho. O RTO define o tempo de inatividade máximo aceitável para sua carga de trabalho. O RTO deve ser menor do que o seu período anual permitido de inatividade. Por exemplo, um SLO de tempo de atividade de 99,99% requer menos de 52 minutos de inatividade anual (4,32 minutos por mês). Para atribuir um RTO, siga estes passos:
Estimar o número de falhas por ano. Para cargas de trabalho com histórico operacional, use seus SLIs. Para novas cargas de trabalho, execute uma análise de modo de falha para obter uma estimativa precisa.
Estime o RTO. Divida o tempo de inatividade anual permitido pelo número estimado de falhas. Se você estimar quatro falhas por ano, então seu RTO deve ser de 13 minutos ou menos (52 minutos / 4 falhas = 13 minutos RTO).
Teste o seu tempo de recuperação. Acompanhe o tempo médio de recuperação durante testes de failover e falhas em tempo real. O tempo que você leva para se recuperar de uma falha deve ser menor do que o seu RTO.
Defina RPO (Recovery Point Objetives, objetivos de ponto de recuperação) para todas as cargas de trabalho. Seu RPO influencia a frequência com que você replica e faz backup de seus dados. Determine quanta perda de dados sua empresa pode tolerar.
Defina metas de confiabilidade da carga de trabalho. Para metas de confiabilidade da carga de trabalho, consulte as Recomendações do Well-Architected Framework para definir metas de confiabilidade.
Gerencie a confiabilidade dos dados
A confiabilidade dos dados envolve replicação de dados (réplicas) e backups (cópias point-in-time) para manter a disponibilidade e a consistência. Consulte a Tabela 2 para obter exemplos de prioridade de carga de trabalho alinhada com as metas de confiabilidade de dados.
Tabela 2. Prioridade de carga de trabalho com exemplos de configurações de confiabilidade de dados.
Prioridade da carga de trabalho | SLO de disponibilidade | Replicação de dados | Backups de dados | Cenário de exemplo |
---|---|---|---|---|
Alto | 99,99% | Replicação síncrona de dados entre regiões Replicação síncrona de dados em zonas de disponibilidade |
Backups de alta frequência entre regiões. A frequência deve dar suporte a RTO e RPO. | Plataforma de dados de missão crítica |
Média | 99,9% | Replicação síncrona de dados entre regiões Replicação síncrona de dados em zonas de disponibilidade |
Backups entre regiões. A frequência deve dar suporte a RTO e RPO. | Solução de banco de dados e armazenamento no padrão Reliable Web App |
Baixo | 99% | Replicação síncrona de dados em zonas de disponibilidade | Backups entre regiões. A frequência deve dar suporte a RTO e RPO. | Resiliência de dados no aplicativo web básico com redundância zonal |
Você deve alinhar as configurações de confiabilidade de dados com os requisitos de RTO e RPO de suas cargas de trabalho. Para fazer esse alinhamento, siga estas etapas:
Gerencie a replicação de dados. Replique seus dados de forma síncrona ou assíncrona de acordo com os requisitos de RTO e RPO da sua carga de trabalho.
Distribuição de dados Replicação de dados Configuração de balanceamento de carga Entre zonas de disponibilidade Síncrono (quase em tempo real) A maioria dos serviços PaaS lida com balanceamento de carga entre zonas nativamente Através das regiões (ativo-ativo) Síncrono Balanceamento de carga ativo-ativo Entre regiões (ativo-passivo) Assíncrono (periódico) Configuração ativo-passivo Para obter mais informações, consulte Replicação: redundância de dados.
Gerencie backups de dados. Os backups são para recuperação de desastres (falha de serviço), recuperação de dados (exclusão ou corrupção) e resposta a incidentes (segurança). Os backups devem oferecer suporte aos requisitos de RTO e RPO para cada carga de trabalho. Prefira soluções de backup internas ao seu serviço do Azure, como recursos de backup nativos no Azure Cosmos DB e no Banco de Dados SQL do Azure. Quando os backups nativos não estiverem disponíveis, incluindo dados locais, use o Backup do Azure. Para obter mais informações, consulte Backup e Centro de Continuidade de Negócios do Azure.
Projete a confiabilidade dos dados da carga de trabalho. Para obter o design de confiabilidade de dados de carga de trabalho, consulte o guia de particionamento de dados do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).
Gerencie a confiabilidade do código e do tempo de execução
A confiabilidade do código e do tempo de execução é uma responsabilidade da carga de trabalho. Siga o guia de autorrecuperação e autopreservação do Framework Well-Architected .
Gerencie a confiabilidade dos recursos da nuvem
O gerenciamento da confiabilidade de seus recursos de nuvem geralmente requer redundância de arquitetura (instâncias de serviço duplicadas) e uma estratégia eficaz de balanceamento de carga. Consulte a Tabela 3 para obter exemplos de redundância de arquitetura alinhada com a prioridade da carga de trabalho.
Tabela 3. Exemplos de prioridade de carga de trabalho e redundância de arquitetura.
Prioridade da carga de trabalho | Redundância de arquitetura | Abordagem de balanceamento de carga | Solução de balanceamento de carga do Azure | Cenário de exemplo |
---|---|---|---|---|
Alto | Duas regiões & zonas de disponibilidade | Ativo-ativo | Azure Front Door (HTTP) Azure Traffic Manager (não HTTP) |
Plataforma de aplicações fundamental para missões críticas |
Média | Duas regiões & zonas de disponibilidade | Ativo-passivo | Azure Front Door (HTTP) Azure Traffic Manager (não HTTP) |
Orientação confiável de arquitetura de padrões de aplicativos Web |
Baixo | Zonas de disponibilidade da região única & | Entre zonas de disponibilidade | Gateway de Aplicativo do Azure Adicionar o Azure Load Balancer para máquinas virtuais |
Linha de base do Serviço de Aplicativo Linha de base da máquina virtual |
Sua abordagem deve implementar redundância de arquitetura para atender aos requisitos de confiabilidade de suas cargas de trabalho. Siga estes passos:
Estime o tempo de atividade de suas arquiteturas. Para cada carga de trabalho, calcule o SLA composto. Inclua apenas serviços que possam causar falha na carga de trabalho (caminho crítico).
Enumere todos os serviços no caminho crítico da carga de trabalho. Colete os SLAs de tempo de atividade da Microsoft de cada serviço a partir do documento oficial.
Decida se a carga de trabalho inclui caminhos críticos independentes. Um caminho independente pode falhar e a carga de trabalho permanece disponível.
Se você tiver um caminho crítico, use a fórmula de região única: N = S1 × S2 × S3 × ... × Sn.
Se você tiver dois ou mais caminhos críticos, use a fórmula de caminho independente: N = S1 x 1 - [(1 - S2) × (1 - S3)].
Cargas de trabalho complexas geralmente combinam os dois tipos de fórmula. Exemplo: N = S1 × S2 × S3 × (S4 x 1 - [(1 - S5) × (1 - S6)]).
Para aplicações multirregiões, use a fórmula para a fórmula multirregião: M = 1 - (1 - N)^R
Compare o tempo de atividade calculado com o seu SLO (Objetivo de Nível de Serviço) de tempo de atividade. Um défice requer SLAs de nível mais elevado ou redundância adicional. Recalcule após cada alteração. Pare quando o tempo de atividade calculado exceder o SLO.
Caso de uso Fórmula Variáveis Exemplo Explicação Região-única N = S1 × S2 × S3 × ... × Sn N = SLA composto.
S = SLA do serviço do Azure.
n = número de serviços no caminho crítico.N = 99,99% (aplicativo) × 99,95% (banco de dados) × 99,9% (cache) Carga de trabalho simples com aplicativo (99,99%), banco de dados (99,95%) e cache (99,9%) em um único caminho crítico. Caminhos independentes S1 x 1 - [(1 - S2) × (1 - S3)] S = SLA do serviço do Azure. 99,99% (app) × (1 - [(1 - 99,95% base de dados) × (1 - 99,9% cache)]) No aplicativo, o banco de dados (99,95%) ou o cache (99,9%) podem falhar sem causar tempo de inatividade. Multi-região M = 1 - (1 - N)^R M = SLA multi-região.
N = SLA de região única.
R = Número de regiões.Se N = 99,95% e R = 2, então M = 1 - (1 - 99,95%)^2 Carga de trabalho implantada em duas regiões. Ajuste as camadas de serviço. Antes de modificar arquiteturas, avalie se diferentes camadas de serviço do Azure (SKUs) podem atender aos seus requisitos de confiabilidade. Algumas camadas de serviço do Azure podem ter SLAs de tempo de atividade diferentes, como os Discos Gerenciados do Azure.
Adicione redundância de arquitetura. Se a sua estimativa de tempo de atividade atual ficar aquém do seu SLO, aumente a redundância:
Use várias zonas de disponibilidade. Configure suas cargas de trabalho para usar várias zonas de disponibilidade. Pode ser difícil de estimar como as zonas de disponibilidade melhoram o tempo de atividade. Apenas alguns serviços têm SLAs de tempo de atividade que levam em conta as zonas de disponibilidade. Quando os SLAs contabilizarem zonas de disponibilidade, use-os nas suas estimativas de tempo de funcionamento. Veja alguns exemplos na tabela a seguir.
Tipo de serviço do Azure Serviços do Azure com SLAs da zona de disponibilidade Plataforma de computação Serviço de Aplicações
Serviço Kubernetes do Azure
Máquinas VirtuaisArmazenamento de dados Azure Service Bus (serviço de mensagens em nuvem)
Contas de Armazenamento do Azure
Cache do Azure para Redis
Camada Premium do Azure FilesBase de dados Base de Dados Azure Cosmos
Base de Dados SQL do Azure
Banco de Dados do Azure para MySQL
Base de Dados do Azure para PostgreSQL
Instância gerenciada do Azure para Apache CassandraBalanceador de carga Gateway de aplicativo Segurança Azure Firewall Use várias regiões. Muitas vezes, várias regiões são necessárias para cumprir os SLOs de disponibilidade. Use balanceadores de carga globais (Azure Front Door ou Traffic Manager) para distribuição de tráfego. As arquiteturas de várias regiões exigem um gerenciamento cuidadoso da consistência dos dados.
Gerencie redundância de arquitetura. Decida como usar a redundância: você pode usar a redundância de arquitetura como parte das operações diárias (ativas). Ou você pode usar redundância de arquitetura em cenários de recuperação de desastres (passiva). Para exemplos, ver Tabela 3.
Balanceamento de carga entre zonas de disponibilidade. Use toda a disponibilidade ativamente. Muitos serviços PaaS do Azure gerenciam o balanceamento de carga entre zonas de disponibilidade automaticamente. As cargas de trabalho IaaS devem usar um balanceador de carga interno para balancear a carga entre zonas de disponibilidade.
Balanceamento de carga entre regiões. Determine se as cargas de trabalho de várias regiões devem ser executadas em configuração ativo-ativo ou ativo-passivo com base nos requisitos de fiabilidade.
Gerencie configurações de serviço. Aplique consistentemente configurações em instâncias redundantes de recursos do Azure, para que os recursos se comportem da mesma maneira. Use a infraestrutura como código para manter a consistência. Para obter mais informações, consulte Configuração de recursos duplicados.
Confiabilidade da carga de trabalho do projeto. Para o design da confiabilidade da carga de trabalho, consulte o Well-Architected Framework:
Fiabilidade da carga de trabalho Orientações Pilar da fiabilidade Design multi-região altamente disponível
Projetando para redundância
Usando zonas e regiões de disponibilidadeGuia de serviço Guias de serviço do Azure (comece com a seção Confiabilidade)
Para obter mais informações, consulte Redundância.
Gerencie a continuidade de negócios
A recuperação de uma falha requer uma estratégia clara para restaurar os serviços rapidamente e minimizar as interrupções para manter a satisfação do usuário. Siga estes passos:
Prepare-se para falhas. Crie procedimentos de recuperação separados para cargas de trabalho com base em prioridades altas, médias e baixas. de confiabilidade de dados, de confiabilidade de código e tempo de execução e de confiabilidade de recursos de nuvem são a base da preparação para falhas. Selecione outras ferramentas de recuperação para ajudar na preparação da continuidade de negócios. Por exemplo, use o Azure Site Recovery para cargas de trabalho de servidor locais e baseadas em máquina virtual.
Testar e documentar o plano de recuperação. Teste regularmente os seus processos de failover e failback para confirmar se as suas cargas de trabalho cumprem os objetivos de tempo de recuperação (RTO) e os objetivos de ponto de recuperação (RPO). Documente claramente cada etapa do plano de recuperação para facilitar a referência durante incidentes. Verifique se as ferramentas de recuperação, como o Azure Site Recovery, atendem consistentemente ao RTO especificado.
Detetar falhas. Adote uma abordagem proativa para identificar interrupções rapidamente, mesmo que esse método aumente os falsos positivos. Priorize a experiência do cliente minimizando o tempo de inatividade e mantendo a confiança do usuário.
Monitorize falhas. Monitorize as cargas de trabalho para detetar interrupções num minuto. Use a Integridade do Serviço do Azure e a Integridade dos Recursos do Azure e use os alertas do Azure Monitor para notificar as equipes relevantes. Integre esses alertas com o Azure DevOps ou ferramentas de Gerenciamento de Serviços de TI (ITSM).
Colete indicadores de nível de serviço (SLIs). Acompanhe o desempenho definindo e reunindo métricas que servem como SLIs. Garanta que suas equipes usem essas métricas para medir o desempenho da carga de trabalho em relação aos seus SLOs (objetivos de nível de serviço).
Responda a falhas. Alinhe sua resposta de recuperação à prioridade da carga de trabalho. Implemente procedimentos de failover para redirecionar solicitações para infraestrutura redundante e réplicas de dados imediatamente. Quando os sistemas estabilizarem, resolva a causa raiz, sincronize os dados e execute os procedimentos de recuperação pós-falha. Para obter mais informações, consulte Failover e failback.
Analise falhas. Identifique as causas profundas dos problemas e, em seguida, resolva o problema. Documente as lições e faça as alterações necessárias.
Gerencie falhas de carga de trabalho. Para recuperação de desastres de carga de trabalho, consulte o guia de recuperação de desastres do Well-Architected Framework e os guias de serviço do Azure (comece com a seção Confiabilidade).
Ferramentas de fiabilidade do Azure
Caso de uso | Solução |
---|---|
Replicação de dados, backup e continuidade de negócios |
Guias de serviço do Azure (comece com a seção Confiabilidade) Referência rápida: Azure Cosmos DB Banco de Dados SQL do Azure Armazenamento de Blobs do Azure Arquivos do Azure |
Backup de dados | Azure Backup |
Continuidade de negócios (IaaS) | Azure Site Recovery |
Balanceador de carga multi-região |
Azure Front Door (HTTP) Azure Traffic Manager (não HTTP) |
Balanceador de carga de zonas de múltipla disponibilidade |
Gateway de Aplicações do Azure (HTTP) Azure Load Balancer (não HTTP) |
Gerir a segurança
Use um processo de segurança iterativo para identificar e mitigar ameaças em seu ambiente de nuvem. Siga estes passos:
Gerenciar operações de segurança
Gerencie seus controles de segurança para detetar ameaças ao seu patrimônio na nuvem. Siga estes passos:
Padronize as ferramentas de segurança. Use ferramentas padronizadas para detetar ameaças, corrigir vulnerabilidades, investigar problemas, proteger dados, fortalecer recursos e impor conformidade em escala. Consulte as ferramentas de segurança do Azure.
Estabeleça a linha de referência do seu ambiente. Documente o estado normal dos seus recursos na nuvem. Monitore a segurança e documente padrões de tráfego de rede e comportamentos do usuário. Use as linhas de base de segurança do Azure e os guias de serviço do Azure para desenvolver configurações de linha de base para serviços. Esta linha de base facilita a deteção de anomalias e potenciais fragilidades de segurança.
Aplique controles de segurança. Implementar medidas de segurança, como controles de acesso, criptografia e autenticação multifator, fortalece o ambiente e reduz a probabilidade de comprometimento. Para obter mais informações, consulte Gerenciar segurança.
Atribua responsabilidades de segurança. Designe a responsabilidade pelo monitoramento de segurança em seu ambiente de nuvem. O monitoramento regular e as comparações com a linha de base permitem a rápida identificação de incidentes, como acesso não autorizado ou transferências de dados incomuns. Atualizações e auditorias regulares mantêm a sua linha de base de segurança eficaz contra ameaças em evolução.
Para obter mais informações, consulte CAF Secure.
Gerenciar incidentes de segurança
Adote um processo e ferramentas para se recuperar de incidentes de segurança, como ransomware, negação de serviço ou intrusão de agentes de ameaças. Siga estes passos:
Prepare-se para incidentes. Desenvolva um plano de resposta a incidentes que defina claramente as funções de investigação, mitigação e comunicação. Teste regularmente a eficácia do seu plano. Avalie e implemente ferramentas de gerenciamento de vulnerabilidades, sistemas de deteção de ameaças e soluções de monitoramento de infraestrutura. Reduza sua superfície de ataque por meio do fortalecimento da infraestrutura e crie estratégias de recuperação específicas da carga de trabalho. Consulte Visão geral da resposta a incidentes e Manuais de resposta a incidentes.
Detetar incidentes. Use a ferramenta de gerenciamento de eventos e informações de segurança (SIEM), como o Microsoft Sentinel, para centralizar seus dados de segurança. Use os recursos de orquestração, automação e resposta de segurança (SOAR) do Microsoft Sentinel para automatizar tarefas de segurança de rotina. Integre feeds de inteligência de ameaças em seu SIEM para obter informações sobre táticas adversárias relevantes para seu ambiente de nuvem. Use o Microsoft Defender for Cloud para verificar regularmente o Azure em busca de vulnerabilidades. O Microsoft Defender integra-se com o Microsoft Sentinel para fornecer uma visão unificada dos eventos de segurança.
Responder a incidentes. Ative imediatamente seu plano de resposta a incidentes ao detetar um incidente. Inicie rapidamente os procedimentos de investigação e mitigação. Ative seu plano de recuperação de desastres para restaurar os sistemas afetados e comunique claramente os detalhes do incidente à sua equipe.
Analise incidentes de segurança. Após cada incidente, revise as informações sobre ameaças e atualize seu plano de resposta a incidentes com base nas lições aprendidas e nos insights de recursos públicos, como a base de conhecimento MITRE ATT&CK . Avalie a eficácia de suas ferramentas de gerenciamento e deteção de vulnerabilidades e refine as estratégias com base na análise pós-incidente.
Para obter mais informações, consulte Gerenciar resposta a incidentes (CAF Secure).
Ferramentas de segurança do Azure
Capacidade de segurança | Solução Microsoft |
---|---|
Gestão de identidades e acessos | Microsoft Entra ID |
Controle de acesso baseado em função | Controle de acesso baseado em função do Azure |
Deteção de ameaças | Microsoft Defender para Cloud |
Gestão de informações de segurança | Sentinela da Microsoft |
Segurança e governança de dados | Microsoft Purview |
Segurança de recursos na nuvem | Linhas de base de segurança do Azure |
Governança da nuvem | Política do Azure |
Segurança do endpoint | Microsoft Defender para Ponto de Extremidade |
Segurança da rede | Observador de Rede do Azure |
Segurança industrial | Microsoft Defender para IoT |
Segurança de backup de dados | Segurança do Backup do Azure |