Após um incidente

Concluído

A equipe de engenharia do Azure realiza retrospetivas internas para incidentes de serviço que afetam os clientes, para aprender com o que aconteceu - em última análise, para tornar os incidentes menos prováveis ou, pelo menos, menos impactantes. Os insights dessas investigações internas são fornecidos aos clientes e parceiros afetados na forma de Avaliações Pós-Incidente (PIRs).

Para nossos maiores incidentes de serviço mais impactantes (especialmente incidentes com impacto em vários serviços e em várias regiões), também convidamos os clientes afetados para uma transmissão ao vivo da Retrospetiva de Incidentes do Azure - para ouvir nossos líderes de engenharia resumirem o que aconteceu e o que aprendemos, e para que os clientes e parceiros possam obter respostas de nossos especialistas no assunto sobre o incidente.

Por fim, se, como resultado de um ou mais incidentes de serviço, não alcançarmos ou mantivermos nossos Contratos de Nível de Serviço (SLAs), os clientes afetados poderão ser elegíveis para reivindicar um crédito referente a uma parte de suas taxas de serviço mensais.

Avaliações pós-incidentes (PIRs)

Para cada incidente de serviço do Azure que afeta os clientes, fornecemos uma Declaração de Mitigação que resume o que aconteceu, com quais serviços em quais regiões e quando o impacto começou e foi mitigado.

  • Para problemas de serviço menores e menos impactantes em que os fatores desencadeantes e contribuintes já são bem compreendidos, esta declaração de mitigação é o resumo final. (Por exemplo, quando os problemas afetam apenas um subconjunto de um único serviço dentro de uma única região com uma duração de impacto relativamente curta.)

  • Para problemas de serviço que foram mitigados, mas ainda exigem mais investigação para entender completamente, a declaração de mitigação é seguida por uma revisão pós-incidente (PIR) assim que nossas investigações internas forem concluídas, geralmente dentro de 14 dias após a mitigação. Os PIRs incluem quaisquer aprendizados ou melhorias que a Microsoft esteja fazendo como resultado do incidente e quaisquer recomendações de resiliência relevantes sobre como clientes e parceiros podem tornar incidentes semelhantes menos impactantes.

  • Para nossos maiores e mais impactantes problemas de serviço, a declaração de mitigação é seguida por uma Revisão Preliminar de Pós-Incidente (PIR) geralmente dentro de 72 horas após a mitigação, para resumir o que aprendemos até agora com a investigação ainda em andamento. (Por exemplo, quando os problemas afetam vários serviços, várias regiões ou com uma duração de impacto estendida.) Quando nossa retrospetiva interna for concluída, geralmente dentro de 14 dias após a mitigação, uma Revisão Final de Incidente Pós (PIR) será publicada para fornecer detalhes ou aprendizados adicionais.

Todas as Revisões Pós-Incidentes (PIRs) são enviadas para assinaturas afetadas por meio da Integridade do Serviço do Azure, chegando à folha "Histórico de integridade". Eles também acionarão quaisquer alertas de Integridade do Serviço configurados pelo cliente em que os critérios de alerta incluam o tipo de evento 'Problema de serviço' e serão indicados com o atributo "Palco" definido como "RCA". Para incidentes que atenderam aos nossos critérios de divulgação pública (incidentes do "Cenário 1", conforme descrito em nossa documentação pública), a Revisão de Pós-Incidente mais recente também estará disponível na página Histórico de Status do Azure.

Nota

Estamos no processo de transição de "Análises de Causa Raiz (RCAs)" para "Revisões Pós-Incidente (PIRs)", para que você possa ver temporariamente ambos os termos usados de forma intercambiável no portal do Azure e em alertas de Integridade do Serviço.

Azure Incident Retrospective (eventos de transmissão ao vivo do cliente)

Para nossos maiores incidentes de serviço mais impactantes (especialmente aqueles que atenderam aos nossos critérios de divulgação pública, incidentes do "Cenário 1", conforme descrito em nossa documentação pública), convidamos os clientes afetados a participar de um evento de transmissão ao vivo da Retrospetiva de Incidentes do Azure.

Esses fóruns no estilo webcast permitem que os clientes e parceiros que foram afetados pelo incidente assistam a uma discussão com os líderes de engenharia de nossas equipes de serviço relevantes - resumindo o que aconteceu, como respondemos, o que aprendemos e o que vamos fazer (ou já estamos fazendo) para tornar "incidentes como este" menos prováveis ou, pelo menos, menos impactantes.

Além de apenas assistir a essa discussão com líderes de engenharia, as transmissões ao vivo da Retrospetiva de Incidentes do Azure também oferecem aos clientes e parceiros a oportunidade de obter respostas de nossas perguntas sobre o incidente por nossos especialistas no assunto - por meio de um painel lateral moderado de Perguntas e Respostas (P&R), composto por representantes de nossas equipes de engenharia relevantes.

Para garantir que você será convidado para uma Retrospetiva de Incidentes do Azure (se seus serviços forem afetados por um incidente qualificado do "cenário 1", veja acima), verifique se você configurou os alertas de Integridade do Serviço do Azure. Convites para as transmissões ao vivo da Retrospetiva de Incidentes do Azure são distribuídas para a Integridade do Serviço e por meio de alertas de Integridade do Serviço, assim como as Revisões Pós-Incidente (PIRs).

Após cada transmissão ao vivo, publicaremos uma gravação da sessão nesta lista de reprodução do YouTube e, quando relevante, atualizaremos o PIR na página Histórico de status com um link para ele.

Contratos de Nível de Serviço (SLAs) e processo de Crédito de Serviço

Os Contratos de Nível de Serviço (SLA) descrevem os compromissos da Microsoft para tempo de atividade e conectividade para o Microsoft Online Services. As edições atuais e arquivadas do SLA estão disponíveis para download e abrangem o Azure, bem como o Dynamics 365, o Office 365 e o Intune. Se não atingirmos e mantivermos os Níveis de Serviço para cada Serviço conforme descrito neste SLA (por qualquer motivo, inclusive como resultado de um ou mais incidentes de serviço), os clientes poderão ser elegíveis para um crédito referente a uma parte de suas taxas de serviço mensais.

Para que a Microsoft considere uma solicitação de crédito de SLA, você deve enviar uma solicitação ao suporte ao cliente dentro de dois meses a partir do final do mês de cobrança em que ocorreu o incidente objeto da reclamação. Para enviar uma reivindicação, faça logon no portal do Azure, crie uma nova solicitação de suporte, selecione um tipo de Problema de "Cobrança", selecione um Tipo de Problema de "Solicitação de Reembolso" e forneça o máximo de detalhes possível - incluindo a ID de Rastreamento de Incidentes da Integridade do Serviço do Azure e informações sobre quais serviços e recursos você acredita que foram afetados como resultado.

Nossas equipes de suporte de cobrança validarão quais recursos, serviços e assinaturas foram afetados e, em seguida, calcularão e aplicarão quaisquer créditos de SLA relevantes. Faremos todos os esforços comercialmente razoáveis para processar reclamações durante o mês subsequente e no prazo de 45 dias após a receção. Se determinarmos que um crédito de serviço é devido a você, aplicaremos o crédito de serviço às suas taxas de serviço mensais aplicáveis.

Os créditos de serviço são o seu único e exclusivo recurso para quaisquer problemas de desempenho ou disponibilidade de qualquer serviço sob o contrato do SLA. As visualizações e os serviços online ou níveis de serviço fornecidos gratuitamente não estão incluídos nem são elegíveis para reivindicações ou créditos de SLA. Por fim, observe que os créditos de serviço concedidos em qualquer mês de faturamento para um determinado serviço ou recurso de serviço não excedeirão, em nenhuma circunstância, suas taxas mensais de serviço para esse serviço ou recurso de serviço, conforme aplicável, no mês de faturamento.

1.

Verdadeiro ou Falso. Fornecemos uma Revisão Pós-Incidente (PIR) resumindo o que aconteceu, a que serviços em que regiões, bem como quando o impacto começou e foi finalmente mitigado. Sempre que possível, também incluiremos quaisquer aprendizados ou melhorias que faremos como resultado do incidente e/ou recomendações de resiliência sobre como você pode tornar incidentes semelhantes menos impactantes.

2.

Onde poderei encontrar as Avaliações de Pós-Incidente (PIRs) de um incidente que me afetou?

3.

Verdadeiro ou Falso. NÃO tenho nenhum alerta de Estado de Funcionamento do Serviço configurado, mas continuarei a ser notificado sempre que o Azure publicar a respetiva Revisão Pós-Incidente (PIR) relativamente a um incidente que me afetou.

4.

Como posso ter certeza de saber quando o Azure está hospedando uma Retrospetiva de Incidentes do Azure?