Поделиться через


Среда выполнения интеграции в Фабрике данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это новая версия Azure Data Factory с более простой архитектурой, встроенным искусственным интеллектом и новыми функциями. Если вы новичок в интеграции данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Среда выполнения интеграции (IR) — это инфраструктура вычислений, используемая конвейерами Фабрики данных Azure и Azure Synapse для обеспечения перечисленных ниже возможностей интеграции данных в разных сетевых средах.

  • Поток данных. Выполнение потока данных в управляемой вычислительной среде Azure.
  • Перемещение данных: копирование данных между хранилищами данных в общедоступной или частной сети (как для локальных, так и для виртуальных частных сетей). Служба поддерживает встроенные соединители, преобразование форматов, сопоставление столбцов, высокопроизводительную и масштабируемую передачу данных.
  • Диспетчер действий: распределение и мониторинг операций преобразования, которые выполняются в различных вычислительных службах, таких как Azure Databricks, Azure HDInsight, ML Studio (классическая версия), База данных SQL Azure, SQL Server и другие.
  • Выполнение пакетов SSIS: Выполнение пакетов SQL Server Integration Services (SSIS) в нативной среде в управляемой вычислительной среде Azure.

В конвейерах Фабрики данных и Synapse действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. Связанная служба или действие ссылается и предоставляет среду вычислений, в которой действие выполняется напрямую или отправляется. Эта связь позволяет выполнять действие в ближайшем регионе целевого хранилища данных или вычислительной службы, чтобы повысить производительность, а также обеспечить гибкость в соответствии с требованиями к безопасности и соответствию требованиям.

Среды выполнения интеграции можно создавать непосредственно в Azure Data Factory и интерфейсе Azure Synapse через центр управления, а также из любых действий, наборов данных или потоков данных, ссылающихся на них.

Типы сред выполнения интеграции

В Фабрике данных предлагаются три типа среды выполнения интеграции (IR). Вам следует выбрать тот, который отвечает вашим потребностям в интеграции данных и вашей сетевой среде. Существуют три типа IR:

  • Azure
  • Самостоятельный хостинг
  • Azure-SSIS

Примечание.

В настоящее время конвейеры Synapse поддерживают только среду выполнения Azure или локальную среду выполнения интеграции.

В следующей таблице описаны возможности и поддержка сетей для каждого типа интеграции среды выполнения.

Тип IR Поддержка общедоступной сети Поддержка Private Link
Azure Поток данных
Перемещение данных
Диспетчеризация действий
Поток данных
Перемещение данных
Диспетчеризация действий
Самостоятельный хостинг Перемещение данных
Диспетчеризация действий
Перемещение данных
Диспетчеризация действий
Azure-SSIS Выполнение пакета SSIS Выполнение пакета SSIS

Примечание.

Элементы управления исходящего трафика зависят от службы в Azure IR. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети при использовании Azure IR. В Фабрике данных все порты открыты для исходящих подключений при использовании Azure IR. Azure-SSIS IR можно интегрировать с виртуальной сетью для предоставления элементов управления исходящими данными .

Среда выполнения интеграции Azure

Возможности среды выполнения интеграции Azure:

  • выполнение потоков данных в Azure;
  • Выполнение действий копирования между облачными хранилищами данных
  • Распределение следующих операций преобразования в общедоступной сети:
    • Настраиваемая активность .NET
    • Действия функции Azure
    • Действие Databricks Notebook/ Jar/ Python
    • Действие U-SQL в Data Lake Analytics
    • Действие Получить метаданные
    • Активность Hive в HDInsight
    • Операция HDInsight Pig
    • Действие MapReduce в HDInsight
    • Действие HDInsight Spark
    • Действие потоковой передачи HDInsight
    • Действие поиска
    • Действие выполнения пакета в Machine Learning Studio (classic)
    • Обновление ресурса в "Классической версии Студии машинного обучения"
    • Активность хранимой процедуры
    • Валидация действия
    • Веб-активность

Сетевая среда Azure IR

Среда выполнения интеграции Azure поддерживает подключение к хранилищам данных и вычислительным службам с использованием общедоступных конечных точек. При включении управляемой виртуальной сети среда выполнения интеграции Azure поддерживает подключение к хранилищам данных с помощью службы Private Link в среде частной сети. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети. В Фабрике данных все порты открыты для исходящих подключений. Среда выполнения интеграции Azure-SSIS может быть интегрирована с виртуальной сетью для предоставления элементов управления исходящими данными .

Вычислительные ресурсы и масштабирование Azure IR

Среда выполнения интеграции Azure предоставляет полностью управляемые вычисления в Azure без использования серверов. Вам не нужно беспокоиться о подготовке инфраструктуры, установке программного обеспечения, исправлении или масштабировании емкости. Кроме того, вы оплачиваете только во время фактического использования.

Среда выполнения интеграции Azure предоставляет вычисления в собственном коде для безопасного, надежного и высокопроизводительного перемещения данных между облачными хранилищами данных. Вам достаточно указать, сколько единиц интеграции данных нужно использовать для действия копирования, и среда Azure IR гибко увеличит объем вычислительных ресурсов соответствующим образом. Вам не нужно явно изменять размеры Azure Integration Runtime.

Диспетчеризация действий — это нересурсоемкая операция, которая перенаправляет действие в целевую вычислительную службу. В этом сценарии вам не нужно вертикально увеличивать масштаб вычислительных ресурсов.

Сведения о создании и настройке Azure IR см. в статье "Создание и настройка среды выполнения интеграции Azure".

Примечание.

У среды Azure Integration Runtime есть свойства, связанные со средой выполнения Потока данных, которые определяют базовую вычислительную инфраструктуру для выполнения потоков данных.

Локальная среда выполнения интеграции

Самостоятельно размещённый IR обладает следующими возможностями.

  • Выполнение действия копирования между облачными хранилищами данных и хранилищем данных в частной сети.
  • Отправка следующих действий преобразования для вычислительных ресурсов в локальной среде или виртуальной сети Azure.
    • Действия функции Azure
    • Настраиваемое действие (выполняется в пакетной службе Azure)
    • Действие U-SQL в Data Lake Analytics
    • Действие Получить метаданные
    • Операция Hive в HDInsight (использование собственного кластера (BYOC))
    • Действие Pig в HDInsight (BYOC)
    • Действие MapReduce в HDInsight (BYOC)
    • Активность Spark в HDInsight (BYOC)
    • Активность потоковой аналитики в HDInsight (BYOC)
    • Действие поиска
    • Действие выполнения пакета в Machine Learning Studio (classic)
    • Обновление ресурса в "Классической версии Студии машинного обучения"
    • Действие Execute Pipeline в Машинном обучении
    • Активность хранимой процедуры
    • Валидация действия
    • Веб-активность

Примечание.

Локальную среду выполнения интеграции следует использовать для поддержки хранилищ данных, требующих собственных драйверов, таких как SAP Hana, MySQL и т. д. Дополнительные сведения см. в списке поддерживаемых хранилищ данных.

Примечание.

Одна из зависимостей локальной среды IR — среда выполнения Java (JRE). Убедитесь, что на одном узле установлен JRE.

Локальная сетевая среда IR

Если вы хотите безопасно выполнять интеграцию данных в среде частной сети, которая не связана напрямую с общедоступной облачной средой, вы можете установить локальную среду IR в локальной среде за брандмауэром или внутри виртуальной частной сети. Локальная среда выполнения интеграции использует только исходящие HTTP-подключения к Интернету.

Вычислительные ресурсы и масштабирование локальной среды IR

Установите самостоятельную локальную версию IR на локальном компьютере или на виртуальной машине в частной сети. В настоящее время локальная среда IR поддерживается только в операционной системе Windows. Чтобы обеспечить высокий уровень доступности и масштабируемости, горизонтально увеличьте масштаб самостоятельно размещенной интеграционной службы (IR), связав логический экземпляр с несколькими локальными машинами в режиме "активный — активный". Дополнительные сведения см. в статье Создание и настройка локальной среды IR.

Azure-SSIS среда выполнения интеграции

Чтобы переместить уже существующую рабочую нагрузку SSIS, создайте Azure SSIS IR для выполнения пакетов служб SSIS в собственной среде.

Сетевая среда Azure-SSIS IR

Среда Azure-SSIS IR может быть развернута в общей или частной сети. Доступ к локальным данным обеспечивается за счет присоединения среды Azure-SSIS IR к виртуальной сети, подключенной к локальной сети.

Вычислительные ресурсы и масштабирование Azure-SSIS IR

Azure-SSIS IR — это полностью управляемый кластер виртуальных машин Azure, выделенный для выполнения пакетов служб SSIS. Вы можете использовать собственную Базу данных Azure SQL или Управляемый экземпляр Azure SQL для каталога проектов и пакетов SSIS (SSISDB). Чтобы увеличить вычислительную мощность, укажите размер узлов, а чтобы увеличить количество ресурсов, укажите количество узлов в кластере. Чтобы снизить расходы на среду Azure-SSIS Integration Runtime, вы можете в любой момент останавливать и снова запускать ее в соответствии со своими потребностями.

Для получения дополнительной информации см. Создание и настройка среды выполнения интеграции Azure-SSIS. После создания среды вы сможете развернуть существующие пакеты служб SSIS и управлять ими практически так же, как при использовании локальной SSIS, с помощью привычных средств, например SQL Server Data Tools (SSDT) и SQL Server Management Studio (SSMS).

Дополнительные сведения о среде выполнения Azure-SSIS см. в следующих статьях:

  • Учебник: развертывание пакетов SSIS (служб интеграции SQL Server) в Azure. Эта статья содержит пошаговые инструкции по созданию Azure-SSIS IR с использованием базы данных SQL Azure для размещения каталога SSIS.
  • Создание среды выполнения интеграции Azure SSIS. Эта статья дополняет соответствующее руководство и содержит инструкции по использованию Управляемого экземпляра SQL и присоединению среды IR к виртуальной сети.
  • Мониторинг Azure-SSIS IR. В этом статье показано, как извлечь сведения о среде Azure-SSIS IR, и приведено описание состояний в возвращаемых данных.
  • Manage an Azure-SSIS integration runtime (Управление средой выполнения интеграции Azure SSIS). В этой статье показано, как остановить, запустить или удалить Azure SSIS IR. В ней также показано, как масштабировать Azure-SSIS IR, добавив больше узлов в IR.
  • Присоединить Azure-SSIS IR к виртуальной сети В этой статье содержатся общие сведения о присоединении среды выполнения интеграции Azure–SSIS к виртуальной сети Azure. Здесь также приводятся инструкции по использованию портала Azure для настройки виртуальной сети и присоединения к ней Azure-SSIS IR.

Расположение среды выполнения интеграции

Связь между расположением фабрики и местоположением IR

При создании экземпляра Фабрики данных или рабочей области Synapse необходимо указать ее расположение. Здесь хранятся метаданные для экземпляра, а запуск конвейера осуществляется отсюда. Метаданные хранятся только в выбранном регионе и не хранятся в других регионах.

Сейчас, чтобы переместить данные между хранилищами данных или обработать данные с помощью служб вычислений, конвейер может обращаться к хранилищам данных и службам вычислений в других регионах Azure. Это поведение реализуется через глобально доступную среду IR для обеспечения соответствия данных, эффективности и снижения расходов на исходящий трафик.

Расположение среды IR определяет расположение ее вычислительных ресурсов, то есть место выполнения всех операций по перемещению данных, диспетчеризации действий и выполнению пакета SSIS. Расположение IR может отличаться от расположения Фабрики данных, которой она принадлежит.

Расположение Azure IR

Можно задать регион расположения Azure IR, в котором выполняется действие или отправка в выбранном регионе.

По умолчанию используется автоматическое обнаружение Azure IR в общедоступной сети. С помощью этого параметра:

  • Для действия копирования прилагаются все усилия для автоматического обнаружения расположения хранилища данных приемника, а затем используется среда выполнения IR в том же регионе, если доступно, или ближайшая в той же географической области. Если регион хранилища данных приемника не может быть обнаружен, вместо этого используется среда выполнения IR в регионе экземпляра.

    Например, Фабрика данных или рабочая область Synapse была создана в восточной части США.

    • При копировании данных в объект Blob Azure в регионе Запад США, если объект Blob обнаружен в регионе Запад США, действие копирования выполняется в среде IR в регионе Запад США, если обнаружение региона завершается ошибкой, действие копирования выполняется в среде IR в регионе Восток США.
    • При копировании данных в Salesforce, для которого регион не обнаруживается, действие копирования выполняется в среде IR на востоке США.

    Совет

    Если у вас есть строгие требования к соответствию данным и необходимо убедиться, что данные не покидают определенную географию, вы можете явно создать Azure IR в определенном регионе и указать связанный сервис для этого IR с помощью свойства ConnectVia. Например, если вы хотите скопировать данные из BLOB в регионе UK South в рабочую область Azure Synapse в регионе UK South и хотите убедиться, что данные не покидают Великобританию, создайте Azure IR в регионе UK South и свяжите обе Linked Services с этой IR.

  • Для выполнения действий поиска, получения метаданных и удаления (действия конвейера), диспетчеризации действий преобразования (внешние действия) и операций создания (проверка соединения, просмотр списка папок и списка таблиц, предварительный просмотр данных) используется среда IR, принадлежащая к тому же региону, что и Фабрика данных или рабочая область Synapse.

  • Для потоков данных используется среда IR в регионе Фабрики данных или рабочей области Synapse.

    Совет

    Рекомендуется по возможности обеспечить выполнение потоков данных в том же регионе, в котором размещены соответствующие хранилища данных. Это можно сделать с помощью автоматического разрешения для Azure IR (если расположение хранилища данных совпадает с расположением фабрики данных или рабочей области Synapse), либо создав новый экземпляр Azure IR в том же регионе, что и хранилища данных, а затем выполняя потоки данных на нем.

Если вы включите управляемую виртуальную сеть с автоматическим устранением конфликтов для Azure IR, используется IR в регионе Data Factory или среде Synapse.

Вы можете отслеживать, какая среда IR действует во время выполнения активности, в представлении мониторинга активности конвейера в Data Factory Studio или Synapse Studio, или в нагрузке мониторинга активности.

Расположение локальной среды IR

Локально размещенная IR логически регистрируется в Фабрике данных или рабочей области Synapse, а вычислительные ресурсы для поддержки ее функциональности предоставляются вами. Поэтому для самостоятельно размещенного IR нет явного свойства расположения.

Если самостоятельно размещаемый интеграционный узел используется для перемещения данных, он извлекает данные из источника и записывает их в конечное место назначения.

Расположение среды Azure-SSIS IR

Примечание.

Среды выполнения интеграции Azure-SSIS в настоящее время не поддерживаются в конвейерах Synapse.

От выбора расположения для службы Azure SSIS IR зависит производительность рабочих процессов извлечения, преобразования и загрузки.

  • Расположение вашего Azure-SSIS IR не обязательно должно совпадать с расположением вашего фабрики данных, но должно совпадать с расположением вашей базы данных Azure SQL или управляемого экземпляра SQL, где находится SSISDB. Это позволит среде Azure-SSIS без труда обращаться к базе данных SSISDB, не создавая чрезмерного трафика между различными локациями.
  • Если у вас нет существующей базы данных SQL или управляемого экземпляра SQL, но у вас есть локальные источники данных или назначения, следует создать новую базу данных SQL Azure или управляемый экземпляр SQL в том же расположении виртуальной сети, подключенной к вашей локальной сети. Таким образом можно создать среду Azure-SSIS IR с помощью новой Базы данных SQL Azure или Управляемого экземпляра SQL и присоединить ее к этой виртуальной сети. Все находится в одном расположении, минимизируя перемещение данных и связанные затраты, а также максимизируя производительность.
  • Если расположение существующей Базы данных SQL Azure или Управляемого экземпляра SQL, не совпадает с расположением виртуальной сети, подключенной к локальной сети, то сначала создайте Azure-SSIS IR c использованием существующей Базы данных SQL Azure или Управляемого экземпляра SQL и присоедините ее к другой виртуальной сети в том же расположении. Затем настройте подключение между виртуальными сетями в разных расположениях.

На следующей схеме показаны параметры расположения Фабрики данных и ее среды выполнения интеграции.

Показывает расположения интеграционной среды выполнения Azure Data Factory.

Определение, какой IR использовать

Если действие связывается с несколькими типами среды выполнения интеграции, оно разрешается одной из них. Локальная среда выполнения интеграции имеет приоритет перед средой выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure или экземплярах рабочей области Synapse. И последняя имеет приоритет перед глобальной средой выполнения интеграции Azure.

Например, одно действие копирования используется для копирования данных из источника в приемник. Глобальная среда выполнения интеграции Azure связана с источником через связанную службу, а среда выполнения интеграции Azure в управляемой виртуальной сети Azure Data Factory связана с связанной службой для приемника. В результате обе связанные службы, как для источника, так и для приемника, используют среду выполнения интеграции Azure в управляемой виртуальной сети Azure Data Factory. Но если локальная среда выполнения интеграции связана с связанной службой для источника, то связанная служба источника и приемника используют локальную среду выполнения интеграции.

Действие копирования

Для действия Copy нужны связанные службы источника и приемника данных, которые определяют направление потока данных. Далее описан алгоритм выбора экземпляра среды выполнения интеграции, который будет выполнять копирование.

  • Копирование между двумя облачными источниками данных: если связанные службы источника и приемника используют Azure IR, региональный Azure IR используется, если он указан, или расположение Azure IR автоматически определяется, если был выбран параметр авторешение IR (по умолчанию), как описано в разделе Расположение среды выполнения интеграции.
  • Копирование между облачным источником данных и источником данных в частной сети: если связанная служба источника или приемника использует самостоятельно размещаемую IR, то действие копирования выполняется в этой самостоятельно размещаемой IR.
  • Копирование между двумя источниками данных в частной сети. Обе связанные службы источника и приемника должны указывать на один экземпляр среды выполнения интеграции, и именно эта среда используется для выполнения действия копирования.

Действие поиска и получения метаданных

Действие поиска и получения метаданных выполняется в среде выполнения интеграции, ассоциированной со связанной службой хранилища данных.

Внешняя активность преобразования

Для каждой внешней операции преобразования, использующей внешний вычислительный механизм, задается целевая связанная служба вычислений, которая указывает на среду выполнения интеграции. Этот экземпляр IR определяет расположение, из которого диспетчеризируется это запрограммированное вручную внешнее действие преобразования.

Деятельность потока данных

Действия Потока данных выполняются в связанной с ними среде выполнения интеграции Azure. Свойства потока данных в Azure IR определяют используемые вычислительные ресурсы Spark и полностью управляются службой.

Integration Runtime в CI/CD

Среды выполнения интеграции не меняются часто и одинаковы на всех стадиях в вашем CI/CD. Data Factory требует, чтобы имя и тип среды выполнения интеграции были одинаковыми на всех стадиях CI/CD. Если вы хотите совместно использовать среды выполнения интеграции на всех стадиях, рассмотрите возможность использования отдельной фабрики, чтобы содержать общие среды выполнения интеграции. Эту общую фабрику можно использовать во всех средах в качестве связанного типа среды выполнения интеграции.

См. следующие статьи: