Общие сведения о том, куда идти и что ожидать во время инцидента

Завершено

Когда мы говорим об "инциденте", мы специально говорим о проблеме на стороне Microsoft/Azure - проблеме на платформе, которая влияет на ваши службы. Во время этих редких, но неизбежных проблем наша цель — быть как можно более прозрачным с вами, предоставляя регулярные обновления непосредственно от наших инженеров. Мы стремимся информировать правильных людей через правильные каналы и делиться максимально подробно.

Хотя мы обычно не делимся спекуляциями или внутренними действиями по устранению неполадок, мы делимся всем, что мы знаем об инциденте. Нет задержки в обмене сообщениями , даже для подробного обмена сообщениями - на основе размера клиента или сегмента, состояния партнера или плана поддержки- поэтому партнерские организации Майкрософт и даже группы учетных записей Майкрософт уведомляются одновременно и с теми же обновлениями, что и затронутые клиенты, которые они представляют.

Во время инцидента

  1. Просмотрите работоспособность служб Azure в портал Azure последних обновлений от наших инженеров.

    Если вы заметили проблему и должны понять, что это мы или это Azure, проверка работоспособность службы Azure на портале должен быть первым портом вызова. Хотя вы должны знать об этом месте", вам не нужно охотиться на информацию реактивно, если вы настроили соответствующие оповещения о работоспособности службы заранее. Во время известной проблемы эти оповещения о работоспособности службы будут активироваться, и они будут получать уведомления с помощью выбранного канала связи.

    Примечание.

    Как напоминание, настройте оповещение о работоспособности службы для получения уведомлений о обмене данными на портале с помощью выбранного канала (электронная почта, SMS, веб-перехватчик)

  2. Если возникли проблемы с доступом к работоспособности службы или самому порталу, проверка общедоступной странице состояния Azure.

    В маловероятном случае, когда проблема со службой получает доступ к работоспособности служб в портал Azure, то azure.status.microsoft используется для публикации обновлений проблем. Эта страница используется только для проблем, которые нарушают обычный путь связи или для редких распространенных проблем.

    Важно напомнить вам, что azure.status.microsoft действительно служит резервным копированием в службу работоспособности служб Azure. Большинство сообщений о проблемах с службой предоставляются в виде целевых уведомлений, отправленных непосредственно затронутым подпискам или клиентам. Они доставляются через службу работоспособности служб Azure в портал Azure и активируют все оповещения о работоспособности служб Azure, настроенные. Общедоступная страница состояния (azure.status.microsoft) используется только для обмена данными о проблемах службы в трех конкретных сценариях:

    • Сценарий 1 . Широкое влияние, связанное с несколькими регионами, зонами или службами. Проблема со службой имеет широкий или значительный вклад в работу нескольких служб для всего региона или нескольких регионов. Мы уведомляем вас в этом случае, так как устойчивость, настроенная клиентом, например высокий уровень доступности или аварийное восстановление, может оказаться недостаточной, чтобы избежать влияния.

    • Сценарий 2. портал Azure / Работоспособность служб недоступен. Проблема со службой препятствует доступу к портал Azure или службе Azure Service Health и таким образом повлияла на стандартный путь связи, описанный ранее.

    • Сценарий 3 . Влияние на обслуживание, но не уверен, кто именно пострадал до сих пор. Проблема службы имеет широкий или значительный эффект от клиентов, но мы еще не можем подтвердить, какие клиенты, регионы или службы затронуты. В этом случае мы не можем отправлять целевые сообщения, поэтому мы предоставляем общедоступные обновления.

  3. Если возникли проблемы со страницей состояния, проверка для любых обновлений через @AzureSupport в Twitter.

    Только несколько раз в истории Azure были технические проблемы, предотвращающие публикацию обновлений инцидентов в azure.status.microsoft - в этих чрезвычайных обстоятельствах мы публикуем обновления инцидентов через Twitter в @AzureSupport. Но независимо от проблемы, клиенты должны чувствовать себя свободно, чтобы обратиться к @AzureSupport любым вопросам, связанным с потенциальными проблемами, которые они видят или с вопросами поддержки. Команда @AzureSupport , как правило, отвечает менее чем за 5 минут (мы очень гордимся этим!), но важно знать, что во время известных проблем (например, если в службе работоспособности есть сбой), то инцидент уже работает правильными инженерами, поэтому потенциально не так много, что @AzureSupport команда сможет помочь, помимо направления клиентов на официальные обновления инженерных обновлений того, что происходит.

  4. Если влияние или проблемы не соответствуют инциденту (или если они сохраняются после устранения рисков), обратитесь в службу поддержки.

    Это самое важное примечание для клиентов, чтобы понять, что делать (или не делать) во время инцидента. Как упоминание выше, во время известных проблем (например, если в службе работоспособности указан сбой), инцидент уже работает правильными инженерами, поэтому клиентам не нужно обращаться в службу поддержки обновлений. Они получат регулярные обновления через работоспособность служб (и их Работоспособность служб оповещения) и инженеры поддержки не имеют доступа к более подробной информации, чем то, что предоставляется для затронутых клиентов. Если клиенты прочитали обновления от инженерии, но требуют поддержки для реагирования на инцидент (например, для реализации планов отработки отказа), они могут и должны вызвать запрос в службу поддержки.

    Аналогичным образом, если симптомы, которые они замечают, не "выстраиваются" с симптомами, описанными в обновлениях проблемы (например, если есть известная проблема с кэшем Redis на востоке США, но они видят проблемы с кэшем Redis на востоке США 2), то это может быть не связано, и клиенты могут и должны вызвать запрос в службу поддержки. Наконец, если проблема с обслуживанием устранена или устранена, но клиент по-прежнему видит проблемы со своими службами, то инженеры поддержки могут помочь им узнать, есть ли что-то специальное, что происходит со своими ресурсами, чтобы клиенты могли и должны вызвать запрос в службу поддержки.

1.

Если вы еще не настроили соответствующие оповещения о работоспособности служб, и вы замечаете проблемы, где первое место вы должны проверка, следует ли это Azure или нет?

2.

True или False: большинство сообщений о проблемах с службой предоставляются на нашей общедоступной странице состояния (azure.status.microsoft).

3.

True или False. Ниже @AzureSupport в Twitter лучше всего узнать, что есть инцидент Azure и держать в курсе.