Поделиться через


Методология успеха реализации Synapse: оценка проекта по интеграции данных

Примечание.

Эта статья входит в серию статей, посвященных успешному внедрению Azure Synapse, предпосылки к которому закладываются изначально. Общие сведения о серии см. в статье "Внедрение Azure Synapse — успешно по умолчанию".

Azure Synapse Analytics включает тот же механизм интеграции данных и возможности, что и Фабрика данных Azure (ADF). Это позволяет создавать многофункциональные конвейеры для извлечения, преобразования и загрузки данных в большом масштабе в самой службе Azure Synapse Analytics.

Image shows the components of Azure Synapse, with the Data Integration component highlighted.

В этой статье описывается, как оценить структуру компонентов интеграции данных для проекта. В частности, это помогает определить, подходят ли конвейеры Azure Synapse к вашим требованиям к интеграции данных. Стоит потратить время на оценку проекта до разработки решения, чтобы избежать непредвиденных изменений, которые значительно увеличат сроки выполнения или расходы.

Анализ несоответствий

Выполните тщательный анализ несоответствий для стратегии интеграции данных. Если вы выбрали конвейеры Azure Synapse в качестве средства интеграции данных, просмотрите следующие аспекты, чтобы убедиться, что это оптимальный вариант для оркестрации и требований к интеграции данных. Даже если вы выберете другие средства интеграции данных, рассмотрите следующие аспекты, чтобы убедиться, что все ключевые точки проектирования были рассмотрены и что выбранное средство будет удовлетворять ваши потребности. Эти сведения должны быть записаны во время оценки, выполненной ранее в этой методологии.

  • Просмотрите источники данных и назначения (целевые объекты):
  • Просмотрите точки активации интеграции данных и частоту:
    • Конвейеры Azure Synapse поддерживают расписание, "переворачивающееся" окно и триггеры событий хранилища.
    • Проверьте минимальный интервал повторения и поддерживаемые события хранения в соответствии с вашими требованиями.
  • Просмотрите необходимые режимы интеграции данных:
  • Просмотрите структуру вычислений:
    • Для конвейеров требуются бессерверные или подготовленные вычислительные ресурсы?
    • Конвейеры Azure Synapse поддерживают оба режима среды выполнения интеграции (IR): бессерверный и локальный на компьютере Windows.
    • Проверьте порты и брандмауэры и параметры прокси-сервера при использовании локальной среды выполнения интеграции (подготовленной).
  • Просмотрите требования к безопасности, конфигурацию сети и брандмауэра среды и сравнивайте их с проектом конфигурации безопасности, сети и брандмауэра:
    • Изучите, как источники данных защищены и подключены к сети.
    • Изучите, как целевые хранилища данных защищены и подключены к сети. Конвейеры Azure Synapse имеют различные стратегии доступа к данным, обеспечивающие безопасный способ подключения хранилищ данных через частные конечные точки или виртуальные сети.
    • Используйте Azure Key Vault для хранения учетных данных при необходимости.
    • Используйте ADF для шифрования с помощью ключей, управляемого клиентом (CMK), и храните их в локальной среде IR.
  • Изучите структуру для постоянного мониторинга всех компонентов интеграции данных.

Рекомендации по архитектуре

При проверке структуры интеграции данных учитывайте следующие рекомендации, чтобы компоненты интеграции данных вашего решения обеспечивали непрерывное операционное превосходство, высокую производительность, надежность и безопасность.

Эффективность работы

Для обеспечения эффективности операционных процессов оцените следующие моменты.

  • Среда. При планировании сред разделяйте их на среды разработки, тестирования, пользовательского приемочного тестирования (UAT), а также производственные среды. Используйте параметры организации папок, чтобы упорядочить конвейеры и наборы данных по бизнес-/ETL-заданиям для оптимизации обслуживания. Используйте заметки для добавления тегов к конвейерам, чтобы их можно было легко отслеживать. Создавайте многоразовые конвейеры с помощью параметров, итераций и действий с условиями.
  • Мониторинг и оповещения. Рабочие области Synapse включают центр мониторинга, который содержит подробные сведения о каждом запуске конвейера. Он также интегрируется с Log Analytics для дальнейшего анализа журналов и оповещений. Эти функции следует реализовать для предоставления упреждающих уведомлений об ошибках. Кроме того, используйте пути При сбое для реализации настраиваемой обработки ошибок.
  • Автоматическое развертывание и тестирование. Конвейеры Azure Synapse встроены в рабочую область Synapse, поэтому вы можете воспользоваться преимуществами автоматизации и развертывания рабочих областей. Используйте шаблоны ARM для минимизации выполняемых вручную действий при создании рабочих областей Synapse. Кроме того, интегрируйте рабочие области Synapse с Azure DevOps для создания системы управления версиями кода и автоматизации публикации.

Оптимизация производительности

Для обеспечения оптимизации производительности оцените следующие моменты.

  • Следуйте рекомендациям по производительности и используйте функции оптимизации при работе с действием копирования.
  • Выберите оптимизированные соединители для передачи данных вместо универсальных соединителей. Например, используйте PolyBase вместо массовой вставки при перемещении данных из Azure Data Lake Storage 2-го поколения (ALDS 2-го поколения) в выделенный пул SQL.
  • При создании Azure IR задайте для расположения региона автоматическое разрешение или выберите тот же регион, в котором находится хранилище данных.
  • Для локальной среды выполнения интеграции выберите размер виртуальной машины Azure в зависимости от требований интеграции.
  • Выберите стабильное сетевое подключение, например Azure ExpressRoute, для высокой и согласованной пропускной способности.

Надежность

Если вы выполняете конвейер с помощью Azure IR, эта бессерверная среда обеспечивает устойчивость без дополнительной настройки. Клиенты выполняют мало задач по управлению. Однако если конвейер выполняется в локальной среде IR, рекомендуется запускать его с помощью конфигурации высокой доступности на виртуальных машинах Azure. Эта конфигурация гарантирует, что конвейеры интеграции не нарушаются даже при отключении виртуальной машины. Кроме того, мы рекомендуем использовать Azure ExpressRoute для быстрого и надежного сетевого подключения между локальной средой и Azure.

Безопасность

Защищенная платформа данных является одним из ключевых требований каждой организации. Тщательно спланируйте безопасность для всей платформы, а не отдельных компонентов. Ниже приведены некоторые рекомендации по обеспечению безопасности для решений конвейера Azure Synapse.

  • Защитите перемещение данных в облако с помощью частных конечных точек Azure Synapse.
  • Используйте управляемые удостоверения Microsoft Entra для проверки подлинности.
  • Для авторизации используйте управление доступом на основе ролей Azure (RBAC) и Synapse RBAC.
  • Храните учетные данные, секреты и ключи в Azure Key Vault, а не в конвейере. Дополнительные сведения см. в статье Использование секретов Azure Key Vault в действиях конвейера.
  • Подключайтесь к локальным ресурсам через Azure ExpressRoute или VPN через частные конечные точки.
  • Включите безопасные выходные данные и параметры безопасного ввода в действиях конвейера, если параметры хранят секреты или пароли.

Следующие шаги

В следующей статье серии об успешном внедрении Azure Synapse, предпосылки к которому закладываются изначально, вы узнаете, как оценить проект выделенного пула SQL, чтобы определить проблемы и проверить соответствие проекта рекомендациям и требованиям.