Прочитать на английском

Поделиться через


Среда выполнения интеграции в Фабрике данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Среда выполнения интеграции (IR) — это инфраструктура вычислений, используемая конвейерами Фабрики данных Azure и Azure Synapse для обеспечения перечисленных ниже возможностей интеграции данных в разных сетевых средах.

  • Поток данных. Выполнение потока данных в управляемой вычислительной среде Azure.
  • Перемещение данных: копирование данных между хранилищами данных в общедоступной или частной сети (как для локальных, так и для виртуальных частных сетей). Служба поддерживает встроенные соединители, преобразование форматов, сопоставление столбцов, высокопроизводительную и масштабируемую передачу данных.
  • Диспетчер действий: диспетчеризация и мониторинг действий преобразования, выполняемых в различных вычислительных службах, таких как Azure Databricks, Azure HDInsight, ML Studio (классическая версия), База данных SQL Azure, SQL Server и многое другое.
  • Выполнение пакетов служб SSIS. Выполнение пакетов служб SQL Server Integration Services (SSIS) в собственном коде в управляемой вычислительной среде Azure.

В конвейерах Фабрики данных и Synapse действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. Связанная служба или действие ссылается и предоставляет среду вычислений, в которой действие выполняется напрямую или отправляется. Эта связь позволяет выполнять действие в ближайшем регионе целевого хранилища данных или вычислительной службы, чтобы повысить производительность, а также обеспечить гибкость в соответствии с требованиями к безопасности и соответствию требованиям.

Среды выполнения интеграции можно создавать в Фабрика данных Azure и пользовательском интерфейсе Azure Synapse через центр управления напрямую, а также из любых действий, наборов данных или потоков данных, ссылающихся на них.

Типы сред выполнения интеграции

В Фабрике данных предлагаются три типа среды выполнения интеграции (IR). Вам следует выбрать тот, который отвечает вашим потребностям в интеграции данных и вашей сетевой среде. Существуют три типа IR:

  • Azure
  • Самостоятельное размещение
  • Службы SSIS Azure

Примечание

В настоящее время конвейеры Synapse поддерживают только среду выполнения Azure или локальную среду выполнения интеграции.

В следующей таблице описаны возможности и поддержка сетей для каждого типа интеграции среды выполнения.

Тип IR Поддержка общедоступной сети Поддержка приватного канала
Azure Поток данных
Перемещение данных
Диспетчеризация действий
Поток данных
Перемещение данных
Диспетчеризация действий
Самостоятельное размещение Перемещение данных
Диспетчеризация действий
Перемещение данных
Диспетчеризация действий
Службы SSIS Azure Выполнение пакетов служб SSIS Выполнение пакетов служб SSIS

Примечание

Элементы управления для исходящего трафика зависят от службы для Azure IR. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети при использовании Azure IR. В Фабрике данных все порты открыты для исходящих подключений при использовании Azure IR. Azure-SSIS IR можно интегрировать с виртуальной сетью для предоставления элементов управления исходящими данными .

Среда выполнения интеграции Azure

Возможности среды выполнения интеграции Azure:

  • выполнение потоков данных в Azure;
  • Выполнение действий копирования между облачными хранилищами данных
  • Отправка следующих действий преобразования в общедоступной сети:
    • Настраиваемое действие .NET
    • Действия функции Azure
    • Действие Databricks Notebook/ Jar/ Python
    • Действие U-SQL в Data Lake Analytics
    • Действие Get Metadata
    • Действие Hive HDInsight
    • Действие Pig HDInsight
    • Действие MapReduce HDInsight
    • Действие HDInsight Spark
    • Действие потоковой передачи HDInsight
    • Действие поиска
    • Действие Batch Execution в Студии машинного обучения (классическая)
    • Действие Update Resource в Студии машинного обучения (классическая)
    • Действие хранимой процедуры
    • Действие Validation
    • Веб-действия

Сетевая среда Azure IR

Среда выполнения интеграции Azure поддерживает подключение к хранилищам данных и вычислительным службам с использованием общедоступных конечных точек. Если включить управляемые виртуальная сеть, среда выполнения интеграции Azure поддерживает подключение к хранилищам данных с помощью службы приватного канала в среде частной сети. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети. В Фабрике данных все порты открыты для исходящих подключений. Среда выполнения интеграции Azure-SSIS может быть интегрирована с виртуальной сетью для предоставления элементов управления исходящими данными .

Вычислительные ресурсы и масштабирование Azure IR

Среда выполнения интеграции Azure предоставляет полностью управляемые вычисления в Azure без использования серверов. Вам не нужно беспокоиться о подготовке инфраструктуры, установке программного обеспечения, исправлении или масштабировании емкости. Кроме того, вы оплачиваете только во время фактического использования.

Среда выполнения интеграции Azure предоставляет вычисления в собственном коде для безопасного, надежного и высокопроизводительного перемещения данных между облачными хранилищами данных. Вам достаточно указать, сколько единиц интеграции данных нужно использовать для действия копирования, и среда Azure IR гибко увеличит объем вычислительных ресурсов соответствующим образом. Вам не нужно явно изменять размеры Azure Integration Runtime.

Диспетчеризация действий — это нересурсоемкая операция, которая перенаправляет действие в целевую вычислительную службу. В этом сценарии вам не нужно вертикально увеличивать масштаб вычислительных ресурсов.

Сведения о создании и настройке Azure IR см. в статье "Создание и настройка среды выполнения интеграции Azure".

Примечание

У среды Azure Integration Runtime есть свойства, связанные со средой выполнения Потока данных, которые определяют базовую вычислительную инфраструктуру для выполнения потоков данных.

Локальная среда выполнения интеграции

В локальной среде IR доступны следующие возможности.

  • Выполнение действия копирования между облачными хранилищами данных и хранилищем данных в частной сети.
  • Отправка следующих действий преобразования для вычислительных ресурсов в локальной среде или Azure виртуальная сеть:
    • Действия функции Azure
    • Настраиваемое действие (выполняется в пакетной службе Azure)
    • Действие U-SQL в Data Lake Analytics
    • Действие Get Metadata
    • Действие Hive в HDInsight (BYOC — использование собственного кластера)
    • Действие Pig в HDInsight (BYOC)
    • Действие MapReduce в HDInsight (BYOC)
    • Действие Spark в HDInsight (BYOC)
    • Действие потоковой передачи в HDInsight (BYOC)
    • Действие поиска
    • Действие Batch Execution в Студии машинного обучения (классическая)
    • Действие Update Resource в Студии машинного обучения (классическая)
    • Действие Execute Pipeline в Машинном обучении
    • Действие хранимой процедуры
    • Действие Validation
    • Веб-действия

Примечание

Локальную среду выполнения интеграции следует использовать для поддержки хранилищ данных, требующих собственных драйверов, таких как SAP Hana, MySQL и т. д. Дополнительные сведения см. в списке поддерживаемых хранилищ данных.

Примечание

Одна из зависимостей локальной среды IR — среда выполнения Java (JRE). Убедитесь, что на одном узле установлен JRE.

Локальная сетевая среда IR

Если вы хотите безопасно выполнять интеграцию данных в среде частной сети, которая не связана напрямую с общедоступной облачной средой, вы можете установить локальную среду IR в локальной среде за брандмауэром или внутри виртуальной частной сети. Локальная среда выполнения интеграции использует только исходящие HTTP-подключения к Интернету.

Вычислительные ресурсы и масштабирование локальной среды IR

Установите локальную среду IR на локальном компьютере или на виртуальной машине в частной сети. В настоящее время локальная среда IR поддерживается только в операционной системе Windows. Чтобы получить высокий уровень доступности и масштабируемости, горизонтально увеличьте масштаб локальной IR. Для этого следует связать логический экземпляр с несколькими локальными компьютерами в режиме "активный — активный". Дополнительные сведения см. в статье Создание и настройка локальной среды IR.

Azure-SSIS Integration Runtime

Чтобы переместить уже существующую рабочую нагрузку SSIS, создайте Azure SSIS IR для выполнения пакетов служб SSIS в собственной среде.

Сетевая среда Azure-SSIS IR

Среда Azure-SSIS IR может быть подготовлена в общедоступной сети или частной сети. Доступ к локальным данным обеспечивается за счет присоединения среды Azure-SSIS IR к виртуальной сети, подключенной к локальной сети.

Вычислительные ресурсы и масштабирование Azure-SSIS IR

Azure-SSIS IR — это полностью управляемый кластер виртуальных машин Azure, выделенный для выполнения пакетов служб SSIS. Вы можете использовать собственные Базу данных SQL Azure или Управляемый экземпляр SQL для каталога проектов и пакетов SSIS (SSISDB). Чтобы увеличить или уменьшить масштаб вычислительных ресурсов, укажите соответствующее количество узлов в кластере. Чтобы снизить расходы на среду Azure-SSIS Integration Runtime, вы можете в любой момент останавливать и снова запускать ее в соответствии со своими потребностями.

Дополнительные сведения см. в статье Создание среды выполнения интеграции Azure SSIS. После создания среды вы сможете развернуть существующие пакеты служб SSIS и управлять ими практически так же, как при использовании локальной SSIS, с помощью привычных средств, например SQL Server Data Tools (SSDT) и SQL Server Management Studio (SSMS).

Дополнительные сведения о среде выполнения Azure-SSIS см. в следующих статьях:

Расположение среды выполнения интеграции

Связь между расположением фабрики данных и среды IR

При создании экземпляра Фабрики данных или рабочей области Synapse необходимо указать ее расположение. Здесь хранятся метаданные для экземпляра, а также отсюда осуществляется инициация конвейера. Метаданные хранятся только в выбранном регионе и не хранятся в других регионах.

Сейчас, чтобы переместить данные между хранилищами данных или обработать данные с помощью служб вычислений, конвейер может обращаться к хранилищам данных и службам вычислений в других регионах Azure. Это поведение реализуется через глобально доступную среду IR для обеспечения соответствия данных, эффективности и снижения расходов на исходящий трафик.

Расположение среды IR определяет расположение ее вычислительных ресурсов, то есть место выполнения всех операций по перемещению данных, диспетчеризации действий и выполнению пакета SSIS. Расположение IR может отличаться от расположения Фабрики данных, которой она принадлежит.

Расположение Azure IR

Можно задать регион расположения Azure IR, в котором выполняется действие или отправка в выбранном регионе.

По умолчанию используется автоматическое обнаружение Azure IR в общедоступной сети. С помощью этого параметра:

  • Для действия копирования рекомендуется автоматически обнаруживать расположение хранилища данных приемника, а затем использовать IR в одном регионе, если доступно, или ближайший в том же географическом регионе, в противном случае; Если регион хранилища данных приемника не обнаруживается, вместо этого используется среда IR в регионе экземпляра.

    Например, Фабрика данных или рабочая область Synapse была создана в восточной части США.

    • При копировании данных в большой двоичный объект Azure на западе США, если большой двоичный объект находится в регионе "Западная часть США", действие копирования выполняется в среде IR на западе США; Если обнаружение региона завершается ошибкой, действие копирования выполняется в ir в восточной части США.
    • При копировании данных в Salesforce, для которого регион не обнаруживается, действие копирования выполняется в среде IR на востоке США.

    Совет

    Если у вас есть строгие требования к соответствию данным и необходимо убедиться, что данные не покидают определенный географический регион, вы можете явно создать Azure IR в определенном регионе и указать связанную службу этой ir с помощью свойства ConnectVia. Например, если вы хотите скопировать данные из большого двоичного объекта в южной части Великобритании в рабочую область Azure Synapse на юге Великобритании и хотите убедиться, что данные не покидают Великобританию, создайте Azure IR на юге Великобритании и свяжите связанные службы с этой ir.

  • Для выполнения действий поиска, получения метаданных и удаления (действия конвейера), диспетчеризации действий преобразования (внешние действия) и операций создания (проверка соединения, просмотр списка папок и списка таблиц, предварительный просмотр данных) используется среда IR, принадлежащая к тому же региону, что и Фабрика данных или рабочая область Synapse.

  • Для потока данных используется среда IR в том же регионе, что и Фабрика данных или рабочая область Synapse.

    Совет

    Рекомендуется по возможности обеспечить выполнение потоков данных выполнялись в том же регионе, в котором размещены соответствующие хранилища данных. Это можно сделать с помощью автоматического разрешения для Azure IR (если расположение хранилища данных совпадает с расположением фабрики данных или рабочей области Synapse), либо создав новый экземпляр Azure IR в том же регионе, что и хранилища данных, а затем выполняя потоки данных на нем.

Если включить управляемые виртуальная сеть с автоматическим разрешением для Azure IR, используется ir в области фабрики данных или рабочей области Synapse.

Вы можете отслеживать, какое расположение IR вступает в силу во время выполнения действия, в представлении мониторинга активности конвейера в Data Factory Studio или Synapse Studio, либо в полезных данных мониторинга активности.

Расположение локальной среды IR

Локальная IR логически регистрируется в Фабрике данных или рабочей области Synapse, а вычислительные ресурсы для ее работы вы предоставляете самостоятельно. Поэтому для локальной среды IR нет явного свойства расположения.

Если локальная IR используется для перемещения данных, она извлекает данные из источника и записывает их в приемник.

Расположение среды Azure-SSIS IR

Примечание

Среды выполнения интеграции Azure-SSIS в настоящее время не поддерживаются в конвейерах Synapse.

От выбора расположения для службы Azure SSIS IR зависит производительность рабочих процессов извлечения, преобразования и загрузки.

  • Расположение azure-SSIS IR не должно совпадать с расположением фабрики данных, но оно должно совпадать с расположением собственного База данных SQL Azure или Управляемый экземпляр SQL расположении SSISDB. Это позволит среде Azure -SIS легко обращаться к базе данных SSIS, не порождая лишний трафик между расположениями.
  • Если у вас нет существующих База данных SQL или Управляемый экземпляр SQL, но у вас есть локальные источники данных и назначения, следует создать новый База данных SQL Azure или Управляемый экземпляр SQL в том же расположении виртуальной сети, подключенной к локальной сети. Таким образом можно создать среду Azure-SSIS IR с помощью новой Базы данных SQL Azure или Управляемого экземпляра SQL и присоединить ее к этой виртуальной сети. Все находится в одном расположении, минимизируя перемещение данных и связанные затраты, а также максимизируя производительность.
  • Если расположение существующей Базы данных SQL Azure или Управляемого экземпляра SQL, не совпадает с расположением виртуальной сети, подключенной к локальной сети, то сначала создайте Azure-SSIS IR c использованием существующей Базы данных SQL Azure или Управляемого экземпляра SQL и присоедините ее к другой виртуальной сети в том же расположении. Затем настройте подключение между виртуальными сетями в разных расположениях.

На следующей схеме показаны параметры расположения Фабрики данных и ее среды выполнения интеграции.

Показывает расположения среды выполнения интеграции фабрики данных.

Выбор IR для использования

Если действие связывается с несколькими типами среды выполнения интеграции, оно разрешается одному из них. Локальная среда выполнения интеграции имеет приоритет перед средой выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure или экземплярах рабочей области Synapse. И последняя имеет приоритет перед глобальной средой выполнения интеграции Azure.

Например, одно действие копирования используется для копирования данных из источника в приемник. Глобальная среда выполнения интеграции Azure привязывается к источнику посредством связанной службы, а среда выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure привязывается к связанной службе для приемника. В результате связанные службы источника и приемника используют среду выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure. Но если локальная среда выполнения интеграции связана с связанной службой для источника, то связанная служба источника и приемника используют локальную среду выполнения интеграции.

Действие копирования

Для действия Copy нужны связанные службы источника и приемника данных, которые определяют направление потока данных. Далее описан алгоритм выбора экземпляра среды выполнения интеграции, который будет выполнять копирование.

  • Копирование между двумя облачными источниками данных: если связанные службы источника и приемника используют Azure IR, региональный azure IR используется, если он указан, или расположение Azure IR автоматически определяется, был ли выбран параметр автоматического разрешения IR (по умолчанию), как описано в разделе расположения среды выполнения интеграции.
  • Копирование между облачным источником данных и источником данных в частной сети. Если связанная служба источника или приемника использует локальную IR, то действие копирования выполняется в среде в этой локальной среде IR.
  • Копирование между двумя источниками данных в частной сети. Обе связанные службы источника и приемника должны указывать на один экземпляр среды выполнения интеграции, и именно эта среда используется для выполнения действия копирования.

Действие поиска и получения метаданных

Действие поиска и получения метаданных выполняется в среде выполнения интеграции, ассоциированной со связанной службой хранилища данных.

Внешние действия преобразования

Для каждого внешнего действия преобразования, использующего внешнюю вычислительную подсистему, задается целевая связанная служба вычислений, которая указывает на определенную среду выполнения интеграции. Этот экземпляр IR определяет расположение, из которого диспетчеризируется это запрограммированное вручную внешнее действие преобразования.

Действие потока данных

Действия Потока данных выполняются в связанной с ними среде выполнения интеграции Azure. Свойства потока данных в Azure IR определяют используемые вычислительные ресурсы Spark и полностью управляются службой.

Integration Runtime в CI/CD

Среды выполнения интеграции не меняются часто и похожи на всех этапах в CI/CD. Фабрика данных требует, чтобы имена и типы сред выполнения интеграции были одинаковыми на всех этапах CI/CD. Если вы хотите совместно использовать среды выполнения интеграции на всех этапах, рассмотрите возможность использования выделенной фабрики только для хранения общих сред выполнения интеграции. Эту общую фабрику можно использовать во всех средах в качестве связанного типа среды выполнения интеграции.

См. следующие статьи: