Como se preparar para o inesperado (antes de um incidente)

Concluído

Para garantir a preparação e minimizar o impacto dos incidentes, é essencial seguir as recomendações proativas delineadas nesta unidade. Essas ações ajudarão você a entender nosso processo de comunicação de incidentes, localizar informações pertinentes e configurar notificações para receber atualizações oportunas. Além disso, avaliar a resiliência de seus aplicativos e implementar medidas recomendadas contribuirá para criar cargas de trabalho mais confiáveis, reduzindo o impacto potencial de um incidente. Por fim, a revisão e a implementação das práticas recomendadas de segurança fortalecerão seu ambiente e mitigarão os riscos.

Para se manter informado, mitigar o impacto e proteger o seu investimento, recomendamos as seguintes cinco ações:

Ação #1: Familiarize-se com a Integridade do Serviço do Azure no portal do Azure

Ao contrário da nossa página pública azure.status.microsoft, que fornece informações gerais de status apenas sobre interrupções amplas, o Azure Service Health oferece detalhes personalizados adaptados aos seus recursos específicos. Ele ajuda você a antecipar e se preparar para a manutenção planejada e outras alterações que podem afetar a disponibilidade de recursos. Você pode interagir com eventos de serviço e gerenciar ações para manter a continuidade de negócios de seus aplicativos afetados. Ele fornece informações cruciais sobre vulnerabilidades da plataforma, incidentes de segurança e violações de privacidade no nível de serviço do Azure, permitindo uma ação imediata para proteger suas cargas de trabalho do Azure.

Agora, vamos explorar alguns dos principais recursos disponíveis no Azure Service Health para aprimorar sua preparação para incidentes:

Painel Estado de Funcionamento dos Recursos (nova experiência abrangida)

Localizado na folha Estado de Funcionamento do Serviço do portal do Azure, o Azure Resource Health ajuda a diagnosticar e resolver problemas de serviço que afetam os seus recursos do Azure. Recursos, como máquinas virtuais, aplicativos Web ou bancos de dados SQL, são avaliados quanto à sua integridade com base em sinais de diferentes serviços do Azure. Se um recurso for identificado como não íntegro, o Resource Health conduzirá uma análise detalhada para determinar a causa raiz do problema. Ele também fornece informações sobre as ações da Microsoft para resolver problemas relacionados a incidentes e sugere etapas que você pode tomar para resolver o problema.

Painel Problemas de Serviços (nova experiência abordada)

O painel Problemas de Serviços exibe incidentes de serviço contínuos que podem afetar seus recursos. Ele permite que você acompanhe quando um problema começou e identifique os serviços e regiões afetados. Ao analisar as atualizações mais recentes, você pode obter informações sobre os esforços do Azure para resolver o incidente.

Screenshot of switching Azure Serice Health to Classic View.

Principais recursos do painel Problemas de serviços:

  • Insight em tempo real: o painel de problemas de serviço oferece visibilidade em tempo real dos incidentes de serviço do Azure que afetam suas assinaturas e locatários. Se for um Administrador de Inquilino, pode ver incidentes ativos ou avisos relevantes para a(s) sua(s) subscrição(ões) e inquilino(s).

  • Avaliação de Impacto de Recursos: a guia Recurso Afetado na seção de detalhes do incidente mostra quais recursos são confirmados ou potencialmente afetados. Clicar nos recursos fornece acesso direto ao painel Estado de Funcionamento do Recurso.

  • Links e explicações para download: Gere um link para o problema a ser usado em seu sistema de gerenciamento de problemas. Você também pode baixar arquivos PDF e, às vezes, CSV para compartilhar explicações abrangentes com as partes interessadas que não têm acesso ao portal do Azure. Além disso, você pode solicitar uma revisão pós-incidente (PIR) para quaisquer problemas que tenham afetado seus recursos, anteriormente conhecidos como RCAs (Root Cause Analysis).

Painel Avisos de Segurança

O painel Avisos de Segurança concentra-se em informações urgentes relacionadas à segurança que afetam a integridade de suas assinaturas e locatários. Ele fornece informações sobre vulnerabilidades da plataforma, incidentes de segurança e violações de privacidade.

Screenshot of Azure Service Health security advisories.

Principais recursos do painel Avisos de segurança:

  • Informações de segurança em tempo real: obtenha visibilidade imediata dos incidentes de segurança do Azure relevantes para as suas subscrições e inquilinos.

  • Avaliação de Impacto de Recursos: a guia Recurso Afetado na seção de detalhes do incidente destaca os recursos confirmados como afetados.

    Os usuários autorizados com as seguintes funções podem exibir informações de recursos afetados pela segurança:

    Ver Recursos de Nível de Subscrição Exibir recursos de nível de locatário
    Proprietário da Subscrição Administrador de Segurança/Leitor de Segurança
    Administrador da Subscrição Administrador Global/Inquilino
    Leitor de Segurança de Integridade do Serviço Leitor de Privacidade de Integridade do Serviço do Azure
  • Além disso, você pode baixar documentos PDF explicativos para compartilhar com as partes interessadas que não têm acesso direto ao portal do Azure.

    Os exemplos a seguir mostram um incidente de segurança com recursos afetados do escopo da assinatura e do locatário.

    Screenshot of the first example security incident.

    Screenshot of the second example security incident.

Além de se familiarizar com a Integridade do Serviço do Azure, outra etapa crucial é configurar alertas de Integridade do Serviço, que garantirão notificações oportunas e manterão você informado sobre incidentes e informações importantes que podem afetar suas cargas de trabalho. A próxima seção abordará este tópico em detalhes.

Ação #2: Configurar alertas de Estado de Funcionamento do Serviço para se manter informado

A configuração de notificações de alerta de integridade do serviço é essencial, e a chamada para ação mais importante, para o gerenciamento proativo de incidentes. Os alertas de Estado de Funcionamento do Serviço permitem-lhe receber notificações atempadas através de vários canais, tais como e-mail, SMS, webhooks e muito mais. Esses alertas fornecem atualizações sobre incidentes de serviço, atividades de manutenção planejadas, incidentes de segurança e outras informações críticas que podem afetar suas cargas de trabalho.

Você pode configurar alertas de integridade do serviço em qualquer um dos painéis de 'evento ativo' na folha Integridade do Serviço do portal do Azure, clicando em Alertas de integridade no painel Integridade do Serviço ou aproveitando o Gráfico de Recursos do Azure.

Aqui, você pode encontrar consultas de exemplo do Azure Resource Graph para o Azure Service Health.

Screenshot of the Azure Service Health advisories.

A Integridade do Serviço rastreia diferentes tipos de eventos de integridade que podem afetar seus recursos, incluindo problemas de serviço, manutenção planejada, avisos de integridade e avisos de segurança. Ao configurar alertas de integridade do serviço, você tem a flexibilidade de escolher como e para quem esses alertas são enviados. Você pode personalizar os alertas com base na classe de notificação de integridade do serviço, assinaturas afetadas, serviços e regiões.

Classe de notificações de integridade do serviço

Tipo de Evento de Integridade do Serviço Description
Problema de serviço Problemas nos serviços do Azure que o afetam no momento, também conhecidos como incidentes de serviço.
Manutenção planeada Manutenção futura que pode afetar a disponibilidade dos seus serviços no futuro.
Conselhos de saúde Alterações nos serviços do Azure que requerem a sua atenção. Os exemplos incluem quando você precisa executar uma ação, quando os recursos do Azure são preteridos, requisitos de atualização ou se você excede uma cota de uso.
Avisos de segurança Notificações relacionadas com segurança que lidam com vulnerabilidades da plataforma e violações de segurança e privacidade ao nível da subscrição e do inquilino, também conhecidas como incidentes de segurança e/ou privacidade.

Sabemos que precisa de ser notificado quando existem problemas que afetam os seus serviços, e os alertas de estado de funcionamento do serviço dão-lhe o poder de escolher COMO e PARA QUEM esses alertas são enviados. Os alertas podem ser configurados com base na classe de notificação de integridade do serviço, assinaturas afetadas, serviços afetados e/ou regiões afetadas. Você pode configurar alertas para disparar e-mails, mensagens SMS, aplicativos lógicos, funções e muito mais.

Quando um alerta é acionado, você pode definir as ações a serem executadas usando grupos de ações. Os grupos de ação são conjuntos de preferências de notificação que determinam como e para quem os alertas são enviados.

Lista completa dos tipos de notificação disponíveis

Tipo de notificação Description Campos
Função Email do Azure Resource Manager Envie um e-mail para os membros da assinatura, com base em sua função.
Um email de notificação é enviado somente para o endereço de email principal configurado para o usuário do Microsoft Entra.
O email é enviado apenas para os membros do usuário do Microsoft Entra da função selecionada, não para grupos ou entidades de serviço do Microsoft Entra.
Insira o endereço de email principal configurado para o usuário do Microsoft Entra. Consulte E-mail.
E-mail Certifique-se de que a filtragem de e-mail e quaisquer serviços de prevenção de malware/spam estão configurados adequadamente. Os e-mails são enviados a partir dos seguintes endereços de e-mail:
- azure-noreply@microsoft.com
- azureemail-noreply@microsoft.com
- alerts-noreply@mail.windowsazure.com
Digite o e-mail para onde a notificação deve ser enviada.
SMS As notificações por SMS suportam comunicação bidirecional. O SMS contém as seguintes informações:
- Nome abreviado do grupo de ação para o qual este alerta foi enviado
- O título do alerta.
Um utilizador pode responder a um SMS para:
- Cancelar a assinatura de todos os alertas SMS para todos os grupos de ação ou um único grupo de ação.
- Voltar a subscrever alertas
- Solicite ajuda.
Para obter mais informações sobre respostas SMS suportadas, consulte Respostas SMS.
Insira o código do país e o número de telefone do destinatário do SMS. Se não conseguir selecionar o código do seu país/região no portal do Azure, o SMS não é suportado para o seu país/região. Se o código do seu país/região não estiver disponível, pode votar para que o seu país/região seja adicionado em Partilhe as suas ideias. Como solução alternativa até que seu país seja suportado, configure o grupo de ação para chamar um webhook para um provedor de SMS de terceiros que ofereça suporte ao seu país/região.
Notificações por push do aplicativo do Azure Envie notificações para o aplicativo móvel do Azure. Para habilitar notificações por push para o aplicativo móvel do Azure, forneça o Para obter mais informações sobre o aplicativo móvel do Azure, consulte Aplicativo móvel do Azure. No campo Email da conta do Azure, insira o endereço de email que você usa como sua ID de conta ao configurar o aplicativo móvel do Azure.
Voz Notificação por voz. Insira o código do país e o número de telefone do destinatário da notificação. Se não conseguir selecionar o código do seu país/região no portal do Azure, as notificações de voz não são suportadas para o seu país/região. Se o código do seu país/região não estiver disponível, pode votar para que o seu país/região seja adicionado em Partilhe as suas ideias. Como solução alternativa até que seu país seja suportado, configure o grupo de ação para chamar um webhook para um provedor de chamadas de voz de terceiros que ofereça suporte ao seu país/região.

Lista completa de ações que você pode acionar

Tipo de Ação Detalhes
Runbook de Automatização Para obter informações sobre limites em cargas úteis de runbook de automação, consulte Limites de automação.
Hubs de eventos Uma ação de Hubs de Eventos publica notificações para Hubs de Eventos. Para obter mais informações sobre Hubs de Eventos, consulte Hubs de Eventos do Azure - Uma plataforma de streaming de big data e serviço de ingestão de eventos. Pode subscrever o fluxo de notificações de alerta a partir do recetor do evento.
Funções Chama um ponto de extremidade de gatilho HTTP existente em funções. Para obter mais informações, consulte Azure Functions. Quando você define a ação da função, o ponto de extremidade do gatilho HTTP e a chave de acesso da função são salvos na definição da ação, por exemplo, https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>. Se você alterar a chave de acesso para a função, deverá remover e recriar a ação da função no grupo de ações.
Seu ponto de extremidade deve suportar o método HTTP POST.
A função deve ter acesso à conta de armazenamento. Se não tiver acesso, as chaves não estarão disponíveis e o URI da função não estará acessível.
Saiba mais sobre como restaurar o acesso à conta de armazenamento.
ITSM Uma ação ITSM requer uma conexão ITSM. Para saber como criar uma conexão ITSM, consulte Integração ITSM.
Aplicações lógicas Você pode usar os Aplicativos Lógicos do Azure para criar e personalizar fluxos de trabalho para integração e para personalizar suas notificações de alerta.
Webhook seguro Ao usar uma ação de webhook segura, você deve usar a ID do Microsoft Entra para proteger a conexão entre seu grupo de ação e seu ponto de extremidade, que é uma API da Web protegida. Consulte Configurar autenticação para webhook seguro. O webhook seguro não suporta autenticação básica. Se você estiver usando a autenticação básica, use a ação Webhook.
Webhook Se você usar a ação webhook, seu ponto de extremidade webhook de destino deverá ser capaz de processar as várias cargas JSON que diferentes fontes de alerta emitem.
Não é possível passar certificados de segurança por meio de uma ação de webhook. Para usar a autenticação básica, você deve passar suas credenciais pelo URI.
Se o ponto de extremidade do webhook espera um esquema específico, por exemplo, o esquema do Microsoft Teams, use o tipo de ação Aplicativos lógicos para manipular o esquema de alerta para atender às expectativas do webhook de destino.
Para obter informações sobre as regras usadas para tentar novamente ações de webhook, consulte Webhook.

Lembre-se de que a maioria dos incidentes de serviço afeta algumas assinaturas, portanto, elas não aparecerão em lugares como status.azure.com. Os alertas de integridade do serviço podem ser configurados no portal - se você estiver procurando automatizar a criação, eles também podem ser configurados por meio de modelos PowerShell ou ARM.

Ao configurar alertas de Integridade do Serviço e grupos de ação de forma eficaz, você pode garantir que recebe notificações oportunas e toma as ações apropriadas para mitigar o impacto de incidentes em seus recursos do Azure.

Nota

Procurando ajuda sobre o que monitorar e quais alertas você deve configurar para quê? Não procure mais do que a solução "Azure Monitor Baseline Alerts". Ele fornece orientação abrangente e código para implementar uma linha de base de alertas de plataforma, bem como alerta de integridade do serviço por meio de políticas e iniciativas em ambientes do Azure, com opções para implantação automatizada ou manual. A solução inclui políticas predefinidas para criar automaticamente alertas para todos os tipos de eventos de integridade do serviço (problema de serviço, manutenção planejada, avisos de integridade, avisos de segurança do S.A.), grupos de ação e regras de processamento de alertas para vários tipos de recursos do Azure. Embora o foco esteja no monitoramento de ambientes arquitetados de Zonas de Aterrissagem do Azure (ALZ), ele também oferece orientação para clientes brownfield que não estão atualmente alinhados ao brownfield de arquitetura ALZ.

Ação #3: Considere alertas de integridade de recursos ou eventos agendados para informá-lo sobre problemas específicos de recursos

Depois de configurar os alertas de integridade do serviço, considere também adotar alertas de integridade de recursos. Os alertas de Integridade de Recursos do Azure podem notificá-lo quase em tempo real quando esses recursos tiverem uma alteração em seu status de integridade, independentemente do motivo.

A principal distinção entre alertas de "integridade do serviço" e alertas de "integridade do recurso" é que o primeiro é acionado durante um problema conhecido da plataforma, como uma interrupção contínua (incidente de serviço) que está sob investigação da Microsoft. Em contrapartida, este último é acionado quando um recurso específico é considerado insalubre, independentemente da causa subjacente.

Você pode configurar alertas de integridade de recursos no painel Integridade do Recurso na folha Integridade do Serviço do portal do Azure.

Screenshot of the Azure Service Health resource health.

Você também pode criar alertas de integridade de recursos programaticamente usando modelos do Azure Resource Manager e o Azure PowerShell. A criação de alertas de integridade de recursos programaticamente permite criar e personalizar alertas em massa.

Eventos agendados para máquinas virtuais, evitando impacto

Eventos agendados é outra ótima ferramenta onde ambos os tipos de 'alertas' acima notificam pessoas ou sistemas, eventos agendados notificam os próprios recursos. Isso pode dar ao seu aplicativo tempo para se preparar para a manutenção da máquina virtual ou para um de nossos eventos automatizados de reparo de serviço. Ele fornece um sinal sobre um evento de manutenção iminente (por exemplo, uma próxima reinicialização) para que seu aplicativo possa saber disso e, em seguida, agir para limitar a interrupção - por exemplo, executando a automação para sair do pool ou degradar-se normalmente. Os eventos agendados estão disponíveis para todos os tipos de Máquina Virtual do Azure, incluindo PaaS e IaaS no Windows e Linux.

Nota

Embora os alertas de integridade do recurso e os eventos agendados sejam ferramentas úteis, a chamada para ação mais importante é configurar alertas de integridade do serviço. Isso é fundamental para garantir que você entenda o que está acontecendo com seus recursos, o que estamos fazendo a respeito e quando isso é mitigado.

Ação #4: Aumente a segurança do seu investimento para proteger o seu ambiente

Garanta a proteção dos seus dados, aplicações e outros ativos no Azure revendo e implementando as Práticas Recomendadas de Segurança Operacional. Essas práticas recomendadas são derivadas do conhecimento coletivo e da experiência daqueles que trabalham com os recursos e recursos atuais da plataforma Azure. O artigo é atualizado regularmente para refletir a evolução das opiniões e tecnologias.

Como ponto de partida, considere estas principais recomendações para implementação:

  • Exija verificação em duas etapas para todos os seus usuários. Isso inclui administradores e outras pessoas em sua organização que podem ter um impacto significativo se sua conta for comprometida (por exemplo, diretores financeiros). Imponha a autenticação multifator para aliviar as preocupações com essa exposição.

  • Configure e habilite políticas de risco em seu locatário para que você seja alertado se "alguém" estiver em seu ambiente. Isso criará um alerta para eventos de risco, como uso de endereço IP anônimo, viagens atípicas, propriedades de login desconhecidas e desencadeará ainda mais esforços de correção, como autenticação multifator, redefinição de senhas, etc., garantindo que os clientes permaneçam seguros.

  • Controle o movimento de assinaturas de e para diretórios como uma medida proativa para estar preparado e ciente para "qualquer pessoa" em seu ambiente. Isso garante que sua organização tenha visibilidade total das assinaturas usadas e impede a movimentação de assinaturas que poderiam ir para um diretório desconhecido.

  • Alterne as credenciais de todos os administradores de assinaturas globais para ajudar a proteger contra possíveis violações de segurança, contas comprometidas ou uso não autorizado de permissões privilegiadas. A rotação regular de credenciais adiciona uma camada adicional de segurança ao seu ambiente e ajuda a manter a integridade e a confidencialidade dos seus dados e recursos.

  • Revise e atualize regularmente todos os e-mails e números de telefone do(s) usuário(s) administrador global dentro do seu locatário

Ação #5: Aumentar a resiliência de suas principais cargas de trabalho do Azure para potencialmente evitar ou minimizar o impacto

Para garantir a confiabilidade de suas cargas de trabalho, é crucial avaliá-las usando os princípios do Microsoft Azure Well-Architected Framework (WAF) por meio da Revisão Well-Architected do Microsoft Azure. O WAF também fornece recomendações para testes de resiliência, incluindo a adoção de uma metodologia de engenharia do caos.

Os aplicativos devem passar por testes para garantir disponibilidade e resiliência. A disponibilidade refere-se à duração em que um aplicativo opera sem tempo de inatividade significativo, enquanto a resiliência mede a rapidez com que um aplicativo pode se recuperar de falhas.

Para complementar seu trabalho com o WAF, considere implementar as seguintes recomendações principais e aproveitar as ferramentas fornecidas para ajudá-lo a verificar e criar resiliência em seus aplicativos:

  • Utilize a pasta de trabalho de Confiabilidade integrada no portal do Azure sob a folha Consultor do Azure para avaliar a postura de confiabilidade de seus aplicativos, identificar riscos potenciais e planejar e implementar melhorias.

  • Aprimore a continuidade de negócios e a recuperação de desastres (BCDR) implantando suas cargas de trabalho e recursos em várias regiões. Consulte a lista abrangente de pares de regiões do Azure para obter as opções ideais de implantação entre regiões.

  • Maximize a disponibilidade dentro de uma região distribuindo implantações de carga de trabalho/recursos entre zonas de disponibilidade.

  • Considere utilizar tamanhos de máquina virtual isolados no Azure para suas cargas de trabalho críticas para os negócios que exigem um alto nível de isolamento. Esses tamanhos garantem que sua máquina virtual seja dedicada a um tipo de hardware específico e opere de forma independente. Consulte aqui para obter mais informações: Isolamento para VMs no Azure - Máquinas Virtuais do Azure | Microsoft Learn.

  • Considere utilizar as Configurações de Manutenção para ter um melhor controle e gerenciamento sobre as atualizações para suas máquinas virtuais do Azure. Esse recurso permite agendar e gerenciar atualizações, garantindo o mínimo de interrupção para cargas de trabalho confidenciais que não podem tolerar tempo de inatividade durante as atividades de manutenção.

  • Aumente a redundância implementando redundância inter ou intrarregião. Consulte o exemplo de um aplicativo Web com redundância de zona altamente disponível para obter orientação.

  • Melhore a resiliência de seus aplicativos utilizando o Azure Chaos Studio. Com essa ferramenta, você pode introduzir deliberadamente falhas controladas em seus aplicativos do Azure, permitindo que você avalie sua resiliência e observe como eles respondem a várias interrupções, como latência de rede, interrupções de armazenamento, segredos expirando e falhas de datacenter.

  • Utilize a pasta de trabalho de Aposentadoria de Serviço disponível no portal do Azure na folha Consultor do Azure. Esta ferramenta integrada ajuda-o a manter-se informado sobre quaisquer desativações de serviço que possam afetar as suas cargas de trabalho críticas, permitindo-lhe planear e executar eficazmente as migrações necessárias.

Nota

Os clientes que têm um contrato de Suporte Premier/Unificado podem utilizar a equipe de Customer Success para criar estratégias e implementar uma avaliação de estrutura bem arquitetada (WAF).

1.

Qual ferramenta permite que você se envolva com eventos de serviço e gerencie ações para manter a continuidade de negócios de seus aplicativos afetados?

2.

Verdadeiro ou Falso: você pode configurar alertas para ser notificado quando um incidente do Azure (incidente de serviço e segurança) estiver afetando você por email, mensagem SMS, webhook, etc.

3.

Qual é um passo importante que você deve tomar para aliviar as preocupações sobre a exposição ao comprometimento da conta?

4.

Onde posso encontrar orientações para testes de resiliência?