Entender a validação da funcionalidade BCP

Concluído

A validação de recursos é parte integrante do ciclo de vida do ERCM. Isso envolve testar a eficácia do BCP (Plano de Continuidade dos Negócios) tanto na teoria como na prática. Cada equipe de serviço testa seu BCP regularmente para medir a eficácia do plano e a preparação da equipe de serviço para executar o plano. De acordo com as diretrizes do Programa ERCM, uma revisão anual do BCP e da validação de capacidade deve ocorrer dentro de 12 meses da última revisão e incluir a revisão da documentação de suporte, como a BIA e a DA.

fase de validação de funcionalidade: - desenvolver cenários, - realizar validações, - resultados do documento - identificar lacunas e melhorias

Níveis de validação

Para validar estratégias de resiliência e recuperação em relação a uma ampla gama de incidentes potenciais, o Programa ERCM define várias categorias de cenários de teste que afetam pessoas, locais e tecnologia. As equipes de serviço individuais são gratuitas para definir seus próprios testes específicos dentro das diretrizes de cenário de teste do ERCM.

Exemplos de cenários de teste incluem:

  • Perda de um prédio primário ou cluster de campus
  • Interrupções de tecnologia
  • Interrupções de rede regionais
  • Interrupções críticas de terceiros
  • Interrupções da força de trabalho
  • Eventos regionais amplos
  • Perda de um único datacenter
  • Ataques cibernéticos
  • Pandemia

No contexto de cada cenário de teste, a Microsoft define oito níveis de validação, de 0, o que significa que a funcionalidade não foi testada, para 7, o que significa que a funcionalidade foi totalmente ativada durante o teste. Níveis de 1 a 4 recursos de teste do plano de continuidade de negócios fora dos ambientes de produção. Os níveis 5 a 7 exigem validação cada vez mais rigorosa de estratégias de recuperação em ambientes de produção, com o nível 7 exigindo a validação do plano de recuperação para todo o ecossistema de aplicativos, incluindo todas as dependências. O nível de validação necessário para cada serviço baseia-se na importância do serviço, com serviços mais críticos recebendo validação mais rigorosa. Disponibilizamos os resultados de validação de recursos para selecionar o Microsoft Online Services aos clientes por meio de relatórios trimestrais disponíveis no Portal de Confiança do Serviço.

Respondendo a incidentes que afetam o serviço

O valor da validação de capacidade e da melhoria contínua do BCM se torna evidente quando a Microsoft precisa executar planos de continuidade de negócios para responder a incidentes que afetam o serviço. Quando o TimePoint atingiu o Texas com um impacto antecipado em nosso datacenter de San Pool, a equipe do Exchange Online ativou o plano de continuidade dos negócios para impedir proativamente o tráfego do datacenter, impedindo qualquer impacto para nossos clientes. Depois que a ameaça tiver passado, o datacenter foi retornado à operação normal sem incidentes seguindo os processos de recuperação claramente definidos. Esses processos estavam em vigor porque o Exchange Online atualizou e testou seu plano de continuidade com base nas lições aprendidas com desastres naturais anteriores para garantir que o plano fosse eficaz durante uma emergência real.

As lições aprendidas com incidentes internos também dão suporte a melhorias de continuidade dos negócios. Quando a rede corporativa da Microsoft apresentou uma interrupção de DNS devido a uma implantação de Política de Grupo incorreta, os clientes estavam protegidos contra qualquer impacto porque a rede corporativa foi isolada de nossos Serviços Comerciais em zonas de falha separadas. No entanto, as comunicações internas na Microsoft foram afetadas e dificultaram a coordenação para resolver o incidente. Esse incidente levou à criação de protocolos de Estado de Emergência para habilitar a colaboração entre as equipes da Microsoft durante incidentes que afetam as comunicações internas.

Saiba mais