Поделиться через


Подготовьте операции в облаке Azure

Эта статья поможет вам создать и поддерживать эффективные операции для управления облачными ресурсами Azure. Успешные облачные операции требуют четко определенных обязанностей и процессов для каждой области управления облаком.

Схема, показывающая процесс управления CAF: готовый, администрирование, мониторинг и защита (RAMP).

Определение обязанностей по управлению

Эффективное управление средой Azure включает в себя центральные обязанности (на уровне платформы) и обязанности рабочей нагрузки. Центральные функции поддерживают весь облачный каталог Azure. Обязанности по рабочей нагрузке сосредоточены на индивидуальной нагрузке. Используйте таблицу 1, чтобы учитывать основные обязанности по управлению облачными операциями.

Таблица 1. Основные обязанности по управлению облаком

Области управления облаком Центральные обязанности Обязанности по рабочей нагрузке
Соответствие ▪ Определите операционные процедуры.
▪ Обеспечение соблюдения политик управления .
Отслеживайте соответствие требованиям и исправьте или передайте на более высокий уровень по мере необходимости.
▪ Следуйте операционным процедурам.
▪ Соответствуйте дизайн с политиками управления.
Безопасность ▪ Управление всей организации операциями безопасности .
▪ Управляйте удостоверениями в Microsoft Entra ID.
▪ Предоставьте права доступа к подпискам Azure.
▪ Определение и обслуживание базовых показателей безопасности с помощью политики Azure и Microsoft Defender для облака.
▪ Контролируйте интеграцию защиты от угроз и реагирования на инциденты с Microsoft Sentinel.
▪ Реализуйте проектированиебезопасной рабочей нагрузки.
▪ Реагирование на оповещения и инциденты безопасности, связанные с конкретными рабочими нагрузками.
▪ Непрерывная оценка уязвимостей в рабочей нагрузке.
Управление ресурсами ▪ Определите и поддерживайте иерархию ресурсов.
▪ Создайте подписки на рабочие нагрузки по запросу.
▪ Определите стратегию именования и тегирования.
▪ Определите топологию сети.
▪ Настройте общую сеть (пиринг виртуальных сетей, локальное подключение).
▪ Управление перекрестной рабочей нагрузкой или общими ресурсами или службами.
▪ Мониторинг ограничений подписки и обработка запросов на увеличение квоты.
▪ Управлять подписками, связанными с конкретными рабочими нагрузками (в случае делегирования).
▪ Управление группами ресурсов и ресурсами для каждой рабочей нагрузки.
▪ Соблюдайте и применяйте стандарты именования и тегов.
▪ Управление использованием ресурсов на уровне приложения, обеспечивая сохранение ресурсов в квотах подписки.
Развертывание ▪ Стандартизация и управление конвейерами и инструментами CI/CD (Azure DevOps, GitHub Actions).
▪ Определите эталонные шаблоны инфраструктуры как кода (Bicep, Terraform, шаблоны ARM).
▪ Предоставление основных рекомендаций по обеспечению безопасности конвейера (сканирование кода, управление секретами).
▪ Используйте центральную платформу CI/CD и шаблоны IaC для развертывания рабочих нагрузок .
▪ Реализуйте задачи развертывания для конкретных рабочих нагрузок (настройте параметры приложения, базу данных).
▪ Адаптация эталонных шаблонов к потребностям рабочей нагрузки при соблюдении центральных рекомендаций.
Развитие ▪ Предоставьте и применяйте стандартные цепочки инструментов разработки и платформы для ускорения согласованности (стандарты программирования, рекомендации DevOps).
▪ Сохраняйте внутренние репозитории или каналы пакетов для общих библиотек или модулей.
▪ Принятие и адаптация стандартных цепочек инструментов для разработки рабочей нагрузки.
▪ Управлять жизненным циклом приложения и следовать наилучшим практикам (модульное тестирование, интеграционное тестирование).
▪ Управление процессом непрерывного улучшения кодовой базы рабочей загрузки.
Контроль ▪ Планируйте стратегию мониторинга .
предупреждение по централизованным обязанностям.
▪ Предоставьте панели мониторинга для общих операционных метрик в среде.
▪ Мониторинг рабочей нагрузки
▪ Расширьте или настройте центральные оповещения для отслеживания условий, относящихся к рабочей нагрузке.
▪ Изучите и исправьте инциденты на уровне рабочей нагрузки на основе оповещений и журналов.
Себестоимость ▪ Выделение глобальных или облачных бюджетов на уровне подписки
▪ Контролируйте облачные расходы всей организации и создавайте отчеты о затратах.
▪ Выделение затрат для бизнес-единиц или продуктов, обычно с помощью тегов или пользовательских моделей распределения затрат.
▪ Примените стратегию меток для распределения затрат.
оптимизация затрат проектирование рабочей нагрузки
▪ Соблюдайте ограничения бюджета.
Надёжность ▪ Определите требования к надежности (SLO, RPO, RTO) в соответствии с приоритетом рабочей нагрузки.
▪ Предоставьте рекомендации по непрерывности бизнес-процессов и аварийному восстановлению (BCDR).
▪ Управление централизованными решениями аварийного восстановления.
▪ Поддержка управления крупными инцидентами во всех рабочих нагрузках.
▪ Проектирование рабочей нагрузки для удовлетворения требований к надежности.
Производительность ▪ Отслеживайте и поддерживайте производительность в централизованных компонентах (центральной сети, общих службах).
▪ Укажите рекомендации по оптимизации производительности и планированию емкости.
▪ Мониторинг квоты
▪ Проектирование рабочей нагрузки для повышения эффективности производительности.

Настройка облачных операций

Используйте обязанности, описанные в таблице 1 для создания эффективной операционной основы. Четко определите команды, стандарты и процессы, выполнив следующие действия:

  1. Определите модель облачных операций. Выбрать централизованную или общую модель управления на основе размера и зрелости организации, описанной в следующей таблице:

    Подход к операциям Обязанности и область Лучше всего для Плюсы Минусы
    Централизовано Одна команда управляет всеми задачами. Стартапы или небольшие облачные решения. Упрощает управление облаком. Риски создания узких мест.
    Общее управление Разделите центральные команды платформ и команды рабочей нагрузки Организации с различными рабочими нагрузками. Балансирует управление и гибкость. Требует четкого назначения ответственности
  2. Установить центральные обязанности. сформировать выделенную команду для обработки центральных задач управления. Разработка матрицы навыков из таблицы 1 для выявления необходимых знаний.

  3. Распределение обязанностей по рабочей нагрузке. Формирование специализированных команд для задач, относящихся к рабочей нагрузке. Определите обязанности, используя таблицу 1, и набирайте в соответствующем порядке.

    • провести проверку Azure Well-Architected. Используйте средство оценки Well-Architected для повторной оценки каждой рабочей нагрузки при разработке и тестировании изменений проектирования.

    • Использовать Azure Well-Architected Framework. Использовать Столп операционного совершенства, чтобы руководствоваться в обязанностях по управлению рабочими нагрузками.

  4. Назначьте ответственность. Назначьте конкретных ответственных лиц для всех ответственностей по управлению облаком. В общей модели управления группы с определённой нагрузкой должны иметь свободу управлять своими подписками.

Документируйте облачные операции

Четко документируйте облачные операции, чтобы обеспечить эффективное реагирование на кризис и плавное внедрение изменений. Создайте общие процедуры и создайте подробные руководства для частых и конкретных задач.

Документирование операционных процедур

Определите операционные процедуры для управления изменениями, аварийного восстановления и стандартных задач обслуживания, которые не могут обрабатывать автоматизацию. Выполните следующие действия.

  1. Определение процедур управления изменениями. Изменение является основной причиной сбоя в облаке. Разработайте стандартизованный процесс для управления изменениями, чтобы избежать сбоев в облачной среде. См. Управление изменениями.

  2. Определите процедуры развертывания (управление выпусками). Для поддержания согласованной конфигурации стандартизируйте свои развертывания, выпуски и продвижения окружения. См. Управление развертыванием.

  3. Определение процедур аварийного восстановления и непрерывности бизнес-процессов. Для обработки потенциальных сбоев подготовьте стандартный план реагирования. См. управление аварийным восстановлением и бесперебойностью бизнеса.

  4. Определите дополнительные процедуры. Документируйте процессы для управления запросами службы, исправлениями и управления конфигурацией. Четко задокументируйте эти процессы, чтобы заинтересованные лица знали, как инициировать или завершить каждую задачу.

Руководство по работе с документами

Создайте подробные пошаговые руководства (рундбуки или плейбуки) для ключевых операционных задач. Эта подготовка обеспечивает согласованное выполнение, повышает эффективность и сокращает время разрешения во время критических событий.

  1. Определение ежедневных задач. Подготовьте руководства, охватывающие ежедневные обязанности, такие как запросы на повышение привилегий и проверки журналов. Установите стандартные операционные процедуры (SOP) для мониторинга метрик, пороговых значений оповещений и панелей мониторинга для каждой системы.

  2. создание библиотеки скриптов, центрированных на Azure. Создание скриптов, специфических для Azure, для таких сценариев, как:

    Сценарий Пример
    Высокая загрузка ЦП Управление увеличением масштаба в Службе приложений Azure
    Отказоустойчивость и восстановление работы Переключение при отказе и возврат в Azure Site Recovery
    Развертывания по методике Blue/green Развертывание Blue/green в Azure Front Door
    Восстановление резервного копирования Восстановление резервных копий в Azure Blob Storage и Azure Cosmos DB
  3. храните эти руководства по эксплуатации в центральном репозитории. поддерживайте руководства по эксплуатации в центральном репозитории, доступном для инженеров по вызову для оперативного использования во время инцидентов.

  4. Программно реализовать операции. Интегрировать инфраструктуру как код в модули Runbook для последовательного и точного развертывания общих ресурсов.

  5. Просмотр и обновление. Периодически просматривайте и пересматривайте документацию, чтобы отразить операционные корректировки и обновления облачных сервисов.

Инструменты и решения для документов

Очистка документации обеспечивает согласованность, снижает операционные риски и повышает эффективность команды. Создание и обслуживание комплексной документации по облачным средствам. Регулярно обновляйте документацию, чтобы отразить текущие практики и обеспечить легкий доступ для всех участников команды.

Площадь Примеры преимуществ
Интеграция Стандартизация упрощает интеграцию путем консолидации журналов и репозиториев кода.
Автоматизация Повторное использование шаблонов IaC в различных командах, скриптов автоматизации и лучших практик для проектов.
Управление инцидентами Фиксация проблем и разработка решений, которые встраиваются в циклы выпуска.

Управление облачными операциями

Эффективное управление облаком оптимизирует операционную эффективность, сокращает время простоя и определяет роли и обязанности. Стандартизация облачных операций с помощью автоматизации и структурированных процессов поддержки. Выполните следующие операционные рекомендации.

  • Обеспечьте непрерывную облачную поддержку. Установите 24/7 поддержку через глобальные команды, применив модель круглосуточной поддержки, или организуйте дежурства по вызову. Четко определите обязанности по обеспечению своевременного реагирования и разрешения критически важных инцидентов. Настройте автоматические оповещения , чтобы немедленно уведомить назначенных сотрудников службы поддержки.

  • Автоматизация повторяющихся работ. Использование возможностей автоматизации Azure для минимизации ручных процессов и уменьшения рабочих накладных расходов. Автоматизация стандартных действий для устранения ошибок, оптимизации рабочих процессов и предоставления командам сосредоточиться на стратегических приоритетах.

    Вариант использования Примеры
    Автоматизация Автоматизация рабочих процессов в системах Azure Boards или ITSM. Шаблоны рабочих элементов "Запрос на изменение" и "Инцидент".
    Реагирование на инциденты Чтобы автоматически создавать инцидентные заявки с заполненными стандартными полями, интегрируйте Azure Monitor и Azure Service Health с системой обработки заявок.
    Управление изменениями Используйте Azure Logic Apps для автоматического утверждения изменений низкого риска или автоматического исправления определенных инцидентов.
    Соответствие Используйте политику Azure для принудительного применения и мониторинга соответствия облачным требованиям.
    Безопасность Используйте Microsoft Defender для облака и Microsoft Sentinel для автоматизации обнаружения угроз безопасности и реагирования. Используйте систему управления идентификаторами Microsoft Entra для проверки разрешений и автоматизации управления разрешениями.

Улучшение операций

Оптимизируйте облачную среду Azure, повышая непрерывное улучшение. Регулярно оценивать операции и определять приоритеты текущего обучения и обратной связи. Выполните следующие действия.

  1. Проведите анализ операций для улучшения. Следуйте передовым методам для мониторинга работоспособности, соответствия требованиям, безопасности, затрат, данных и облачных ресурсов. Проводите еженедельные операционные проверки, чтобы обсудить ключевые метрики, недавние инциденты, развернутые изменения и ожидаемые риски. Активно устранять разрастание ресурсов и технический долг.

  2. Обучение для операций. Способствовать постоянному развитию навыков путем приоритета основных ресурсов обучения. Поддерживайте операции в облачной среде с помощью практических учебных сред. В следующей таблице приведены ресурсы для обучения операций.

    Обучение операционной деятельности Описание
    Получение учетных данных Определите цели для сертификаций Майкрософт и: примененные навыки и сертификации для создания опыта.
    Использование операционных ресурсов См. ресурсы управления Azure.
    Использование документации по продукту Используйте Microsoft Learn, чтобы найти информацию о службах Azure.
    Получите практический опыт Поощряйте обучение на практике в средах типа песочницы для непроизводственных нужд.

Ресурсы управления Azure

Категория Ресурс управления Описание
Соответствие CAF управление Структура управления облаками Майкрософт
Безопасность Управление операциями безопасности Руководство по управлению операциями безопасности
Безопасность инструмент безопасности Microsoft Список средств безопасности Майкрософт и Azure
Безопасность безопасность рабочей нагрузки Руководство по рабочей нагрузке для обеспечения безопасности
Управление ресурсами стратегия именования и тегирования Рекомендации по именованию и тегам для управления ресурсами
Управление ресурсами аббревиатура Azure Список аббревиаций для ресурсов Azure
Управление ресурсами Помощник по Azure Цифровой помощник, который соответствует рекомендациям Azure.
Управление ресурсами правила именования Azure Правила именования для всех ресурсов Azure
Управление ресурсами руководства по службе Azure Руководство по принятию решений по настройке службы
Развитие программное обеспечение для управления рабочей нагрузкой Руководство по рабочей нагрузке для разработки программного обеспечения
Развитие Центр архитектуры Azure Архитектура и руководства для различных вариантов использования
Развитие Центр ресурсов для разработчиков Центр средств и ресурсов для разработчиков
Развертывание шаблоны Bicep, Terraform и ARM Шаблоны IaC для каждого ресурса Azure
Развертывание пары регионов Microsoft Azure Список парных регионов Azure
Развертывание каталог облачных служб Azure Каталог всех служб Azure
Развертывание развертывания рабочей нагрузки Руководство по рабочей нагрузке для непрерывной интеграции
Контроль Мониторинг облачных объектов Azure Комплексное руководство по мониторингу Azure
Контроль мониторинг рабочей нагрузки Руководство по мониторингу нагрузки
Себестоимость Управление затратами Руководство по управлению затратами
Себестоимость оптимизации затрат рабочей нагрузки Руководство по управлению рабочей нагрузкой для оптимизации затрат
Надёжность Управление надежностью данных Руководство по обеспечению надежности данных
Надёжность Управление надежностью облачных ресурсов Руководство по обеспечению надежности ресурсов
Надёжность Управление инцидентами безопасности Рекомендации по реагированию на инциденты безопасности
Производительность Эффективность производительности рабочей нагрузки Руководство по производительности рабочей нагрузки

Дальнейшие действия