События
31 мар., 23 - 2 апр., 23
Самое большое событие обучения Fabric, Power BI и SQL. 31 марта – 2 апреля. Используйте код FABINSIDER, чтобы сэкономить $400.
Зарегистрироваться сегодняЭтот браузер больше не поддерживается.
Выполните обновление до Microsoft Edge, чтобы воспользоваться новейшими функциями, обновлениями для системы безопасности и технической поддержкой.
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure
Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
Среда выполнения интеграции (IR) — это инфраструктура вычислений, используемая конвейерами Фабрики данных Azure и Azure Synapse для обеспечения перечисленных ниже возможностей интеграции данных в разных сетевых средах.
В конвейерах Фабрики данных и Synapse действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. Связанная служба или действие ссылается и предоставляет среду вычислений, в которой действие выполняется напрямую или отправляется. Эта связь позволяет выполнять действие в ближайшем регионе целевого хранилища данных или вычислительной службы, чтобы повысить производительность, а также обеспечить гибкость в соответствии с требованиями к безопасности и соответствию требованиям.
Среды выполнения интеграции можно создавать в Фабрика данных Azure и пользовательском интерфейсе Azure Synapse через центр управления напрямую, а также из любых действий, наборов данных или потоков данных, ссылающихся на них.
В Фабрике данных предлагаются три типа среды выполнения интеграции (IR). Вам следует выбрать тот, который отвечает вашим потребностям в интеграции данных и вашей сетевой среде. Существуют три типа IR:
Примечание
В настоящее время конвейеры Synapse поддерживают только среду выполнения Azure или локальную среду выполнения интеграции.
В следующей таблице описаны возможности и поддержка сетей для каждого типа интеграции среды выполнения.
Тип IR | Поддержка общедоступной сети | Поддержка приватного канала |
---|---|---|
Azure | Поток данных Перемещение данных Диспетчеризация действий |
Поток данных Перемещение данных Диспетчеризация действий |
Самостоятельное размещение | Перемещение данных Диспетчеризация действий |
Перемещение данных Диспетчеризация действий |
Службы SSIS Azure | Выполнение пакетов служб SSIS | Выполнение пакетов служб SSIS |
Примечание
Элементы управления для исходящего трафика зависят от службы для Azure IR. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети при использовании Azure IR. В Фабрике данных все порты открыты для исходящих подключений при использовании Azure IR. Azure-SSIS IR можно интегрировать с виртуальной сетью для предоставления элементов управления исходящими данными .
Возможности среды выполнения интеграции Azure:
Среда выполнения интеграции Azure поддерживает подключение к хранилищам данных и вычислительным службам с использованием общедоступных конечных точек. Если включить управляемые виртуальная сеть, среда выполнения интеграции Azure поддерживает подключение к хранилищам данных с помощью службы приватного канала в среде частной сети. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети. В Фабрике данных все порты открыты для исходящих подключений. Среда выполнения интеграции Azure-SSIS может быть интегрирована с виртуальной сетью для предоставления элементов управления исходящими данными .
Среда выполнения интеграции Azure предоставляет полностью управляемые вычисления в Azure без использования серверов. Вам не нужно беспокоиться о подготовке инфраструктуры, установке программного обеспечения, исправлении или масштабировании емкости. Кроме того, вы оплачиваете только во время фактического использования.
Среда выполнения интеграции Azure предоставляет вычисления в собственном коде для безопасного, надежного и высокопроизводительного перемещения данных между облачными хранилищами данных. Вам достаточно указать, сколько единиц интеграции данных нужно использовать для действия копирования, и среда Azure IR гибко увеличит объем вычислительных ресурсов соответствующим образом. Вам не нужно явно изменять размеры Azure Integration Runtime.
Диспетчеризация действий — это нересурсоемкая операция, которая перенаправляет действие в целевую вычислительную службу. В этом сценарии вам не нужно вертикально увеличивать масштаб вычислительных ресурсов.
Сведения о создании и настройке Azure IR см. в статье "Создание и настройка среды выполнения интеграции Azure".
Примечание
У среды Azure Integration Runtime есть свойства, связанные со средой выполнения Потока данных, которые определяют базовую вычислительную инфраструктуру для выполнения потоков данных.
В локальной среде IR доступны следующие возможности.
Примечание
Локальную среду выполнения интеграции следует использовать для поддержки хранилищ данных, требующих собственных драйверов, таких как SAP Hana, MySQL и т. д. Дополнительные сведения см. в списке поддерживаемых хранилищ данных.
Примечание
Одна из зависимостей локальной среды IR — среда выполнения Java (JRE). Убедитесь, что на одном узле установлен JRE.
Если вы хотите безопасно выполнять интеграцию данных в среде частной сети, которая не связана напрямую с общедоступной облачной средой, вы можете установить локальную среду IR в локальной среде за брандмауэром или внутри виртуальной частной сети. Локальная среда выполнения интеграции использует только исходящие HTTP-подключения к Интернету.
Установите локальную среду IR на локальном компьютере или на виртуальной машине в частной сети. В настоящее время локальная среда IR поддерживается только в операционной системе Windows. Чтобы получить высокий уровень доступности и масштабируемости, горизонтально увеличьте масштаб локальной IR. Для этого следует связать логический экземпляр с несколькими локальными компьютерами в режиме "активный — активный". Дополнительные сведения см. в статье Создание и настройка локальной среды IR.
Чтобы переместить уже существующую рабочую нагрузку SSIS, создайте Azure SSIS IR для выполнения пакетов служб SSIS в собственной среде.
Среда Azure-SSIS IR может быть подготовлена в общедоступной сети или частной сети. Доступ к локальным данным обеспечивается за счет присоединения среды Azure-SSIS IR к виртуальной сети, подключенной к локальной сети.
Azure-SSIS IR — это полностью управляемый кластер виртуальных машин Azure, выделенный для выполнения пакетов служб SSIS. Вы можете использовать собственные Базу данных SQL Azure или Управляемый экземпляр SQL для каталога проектов и пакетов SSIS (SSISDB). Чтобы увеличить или уменьшить масштаб вычислительных ресурсов, укажите соответствующее количество узлов в кластере. Чтобы снизить расходы на среду Azure-SSIS Integration Runtime, вы можете в любой момент останавливать и снова запускать ее в соответствии со своими потребностями.
Дополнительные сведения см. в статье Создание среды выполнения интеграции Azure SSIS. После создания среды вы сможете развернуть существующие пакеты служб SSIS и управлять ими практически так же, как при использовании локальной SSIS, с помощью привычных средств, например SQL Server Data Tools (SSDT) и SQL Server Management Studio (SSMS).
Дополнительные сведения о среде выполнения Azure-SSIS см. в следующих статьях:
При создании экземпляра Фабрики данных или рабочей области Synapse необходимо указать ее расположение. Здесь хранятся метаданные для экземпляра, а также отсюда осуществляется инициация конвейера. Метаданные хранятся только в выбранном регионе и не хранятся в других регионах.
Сейчас, чтобы переместить данные между хранилищами данных или обработать данные с помощью служб вычислений, конвейер может обращаться к хранилищам данных и службам вычислений в других регионах Azure. Это поведение реализуется через глобально доступную среду IR для обеспечения соответствия данных, эффективности и снижения расходов на исходящий трафик.
Расположение среды IR определяет расположение ее вычислительных ресурсов, то есть место выполнения всех операций по перемещению данных, диспетчеризации действий и выполнению пакета SSIS. Расположение IR может отличаться от расположения Фабрики данных, которой она принадлежит.
Можно задать регион расположения Azure IR, в котором выполняется действие или отправка в выбранном регионе.
По умолчанию используется автоматическое обнаружение Azure IR в общедоступной сети. С помощью этого параметра:
Для действия копирования рекомендуется автоматически обнаруживать расположение хранилища данных приемника, а затем использовать IR в одном регионе, если доступно, или ближайший в том же географическом регионе, в противном случае; Если регион хранилища данных приемника не обнаруживается, вместо этого используется среда IR в регионе экземпляра.
Например, Фабрика данных или рабочая область Synapse была создана в восточной части США.
Совет
Если у вас есть строгие требования к соответствию данным и необходимо убедиться, что данные не покидают определенный географический регион, вы можете явно создать Azure IR в определенном регионе и указать связанную службу этой ir с помощью свойства ConnectVia. Например, если вы хотите скопировать данные из большого двоичного объекта в южной части Великобритании в рабочую область Azure Synapse на юге Великобритании и хотите убедиться, что данные не покидают Великобританию, создайте Azure IR на юге Великобритании и свяжите связанные службы с этой ir.
Для выполнения действий поиска, получения метаданных и удаления (действия конвейера), диспетчеризации действий преобразования (внешние действия) и операций создания (проверка соединения, просмотр списка папок и списка таблиц, предварительный просмотр данных) используется среда IR, принадлежащая к тому же региону, что и Фабрика данных или рабочая область Synapse.
Для потока данных используется среда IR в том же регионе, что и Фабрика данных или рабочая область Synapse.
Совет
Рекомендуется по возможности обеспечить выполнение потоков данных выполнялись в том же регионе, в котором размещены соответствующие хранилища данных. Это можно сделать с помощью автоматического разрешения для Azure IR (если расположение хранилища данных совпадает с расположением фабрики данных или рабочей области Synapse), либо создав новый экземпляр Azure IR в том же регионе, что и хранилища данных, а затем выполняя потоки данных на нем.
Если включить управляемые виртуальная сеть с автоматическим разрешением для Azure IR, используется ir в области фабрики данных или рабочей области Synapse.
Вы можете отслеживать, какое расположение IR вступает в силу во время выполнения действия, в представлении мониторинга активности конвейера в Data Factory Studio или Synapse Studio, либо в полезных данных мониторинга активности.
Локальная IR логически регистрируется в Фабрике данных или рабочей области Synapse, а вычислительные ресурсы для ее работы вы предоставляете самостоятельно. Поэтому для локальной среды IR нет явного свойства расположения.
Если локальная IR используется для перемещения данных, она извлекает данные из источника и записывает их в приемник.
Примечание
Среды выполнения интеграции Azure-SSIS в настоящее время не поддерживаются в конвейерах Synapse.
От выбора расположения для службы Azure SSIS IR зависит производительность рабочих процессов извлечения, преобразования и загрузки.
На следующей схеме показаны параметры расположения Фабрики данных и ее среды выполнения интеграции.
Если действие связывается с несколькими типами среды выполнения интеграции, оно разрешается одному из них. Локальная среда выполнения интеграции имеет приоритет перед средой выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure или экземплярах рабочей области Synapse. И последняя имеет приоритет перед глобальной средой выполнения интеграции Azure.
Например, одно действие копирования используется для копирования данных из источника в приемник. Глобальная среда выполнения интеграции Azure привязывается к источнику посредством связанной службы, а среда выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure привязывается к связанной службе для приемника. В результате связанные службы источника и приемника используют среду выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure. Но если локальная среда выполнения интеграции связана с связанной службой для источника, то связанная служба источника и приемника используют локальную среду выполнения интеграции.
Для действия Copy нужны связанные службы источника и приемника данных, которые определяют направление потока данных. Далее описан алгоритм выбора экземпляра среды выполнения интеграции, который будет выполнять копирование.
Действие поиска и получения метаданных выполняется в среде выполнения интеграции, ассоциированной со связанной службой хранилища данных.
Для каждого внешнего действия преобразования, использующего внешнюю вычислительную подсистему, задается целевая связанная служба вычислений, которая указывает на определенную среду выполнения интеграции. Этот экземпляр IR определяет расположение, из которого диспетчеризируется это запрограммированное вручную внешнее действие преобразования.
Действия Потока данных выполняются в связанной с ними среде выполнения интеграции Azure. Свойства потока данных в Azure IR определяют используемые вычислительные ресурсы Spark и полностью управляются службой.
Среды выполнения интеграции не меняются часто и похожи на всех этапах в CI/CD. Фабрика данных требует, чтобы имена и типы сред выполнения интеграции были одинаковыми на всех этапах CI/CD. Если вы хотите совместно использовать среды выполнения интеграции на всех этапах, рассмотрите возможность использования выделенной фабрики только для хранения общих сред выполнения интеграции. Эту общую фабрику можно использовать во всех средах в качестве связанного типа среды выполнения интеграции.
См. следующие статьи:
События
31 мар., 23 - 2 апр., 23
Самое большое событие обучения Fabric, Power BI и SQL. 31 марта – 2 апреля. Используйте код FABINSIDER, чтобы сэкономить $400.
Зарегистрироваться сегодняОбучение
Модуль
Интеграция данных с помощью Фабрики данных Azure - Training
Интеграция данных с помощью Фабрики данных Azure или конвейера Azure Synapse
Сертификация
Продемонстрировать понимание распространенных задач проектирования данных для реализации рабочих нагрузок проектирования данных и управления ими в Microsoft Azure с помощью ряда служб Azure.
Документация
Выбор правильной конфигурации среды выполнения интеграции для вашего сценария - Azure Data Factory
Некоторые рекомендуемые архитектуры для каждой среды выполнения интеграции.
Связанные службы - Azure Data Factory & Azure Synapse
Описание связанных служб в Фабрике данных Azure и Azure Synapse Analytics Связанные службы связывают расчеты и хранилища данных со службой.
Создание локальной среды выполнения интеграции - Azure Data Factory & Azure Synapse
Узнайте, как создать локальную среду выполнения интеграции в Фабрике данных Azure и Azure Synapse Analytics, чтобы предоставить конвейерам доступ к хранилищам данных в частной сети.