Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

Мақала
10/03/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

В этой статье описываются различные среды вычислений, которые можно использовать для обработки и преобразования данных. Здесь содержатся также сведения о различных конфигурациях (конфигурациях по запросу и ваших собственных), которые поддерживаются при настройке связанных служб, связывающих эти вычислительные среды.

Следующая таблица содержит список поддерживаемых вычислительных сред и доступных в них действий.

Вычислительная среда	Процедуры
Кластер HDInsight по запросу или собственный кластер HDInsight	Hive, Pig, Spark, MapReduce, потоковая передача Hadoop
Пакетная служба Azure	Пользовательское
Студия машинного обучения (классическая модель)	Действия Студии машинного обучения Azure (классическая версия): пакетное выполнение и обновление ресурса
Машинное обучение Azure	Выполнение конвейера в Машинном обучении Azure
Azure Data Lake Analytics	Аналитика озера данных U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server	Хранимая процедура
Azure Databricks	Notebook, Jar, Python
Azure Synapse Analytics (артефакты)	Действие Synapse Notebook, определение задания Synapse Spark
Функция Azure	Действия функции Azure

Вычислительная среда HDInsight

В таблице ниже приведены сведения о поддерживаемых типах связанных служб хранилища для конфигурации в среде по запросу и BYOC (использование собственной вычислительной среды).

В связанной службе вычислений	Имя свойства	Description	BLOB-объект	ADLS 2-го поколения	Базой данных SQL Azure	ADLS 1-го поколения
По требованию	linkedServiceName	Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных.	Да	Да	No	No
	additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени.	Да	No	No	No
	hcatalogLinkedServiceName	Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных.	No	No	Да	Нет
BYOC	linkedServiceName	Ссылка на связанную службу хранилища Azure.	Да	Да	No	No
	additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени.	No	No	No	No
	hcatalogLinkedServiceName	Ссылка на связанную службу Azure SQL, указывающая на базу данных HCatalog.	No	No	No	No

Вычислительные среды, поддерживаемые фабрикой данных Azure

В конфигурации такого типа вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете создать связанную службу для среды вычислений по запросу, настроить ее и управлять детализированными параметрами выполнения задания, управления кластером и параметрами действий начальной загрузки.

Примечание.

Конфигурации по запросу в настоящее время поддерживаются только для кластеров Azure HDInsight. Azure Databricks также поддерживает задания по запросу с помощью кластеров заданий. Дополнительные сведения см. в разделе о связанной службе Azure Databricks.

Для обработки данных служба автоматически создает кластер HDInsight по запросу. Кластер создается в том же регионе, что и учетная запись хранения (свойство linkedServiceName в JSON), связанная с кластером. must должна быть стандартной универсальной учетной записью хранения Azure.

Обратите внимание на следующие важные моменты, касающиеся связанной службы HDInsight по запросу.

Кластер HDInsight по запросу создается в вашей подписке Azure. Сразу после запуска кластер отобразится на портале Azure.
Журналы заданий, которые выполняются в кластере HDInsight по запросу, копируются в учетную запись хранения, связанную с кластером HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword, заданные в определении связанной службы, используются для входа в кластер, чтобы выполнить глубокую диагностику в течение жизненного цикла кластера.
Вы оплачиваете только время, когда кластер HDInsight работает и выполняет задания.
Со связанными службами Azure HDInsight, которые доступны по запросу, можно использовать действие скрипта.

Внимание

Подготовка к работе кластера HDInsight Azure по запросу обычно занимает от 20 минут.

Пример

Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight на основе Linux для обработки необходимых действий.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Внимание

Кластер HDInsight создает контейнер по умолчанию в хранилище BLOB-объектов, указанном в коде JSON (linkedServiceName). При удалении кластера HDInsight этот контейнер не удаляется. Такое поведение предусмотрено программой. Если используется связанная служба HDInsight по запросу, кластер HDInsight создается всякий раз, когда нужно обработать срез данных (если не используется динамический кластерtimeToLive), после чего кластер удаляется.

По мере выполнения действий количество контейнеров в хранилище BLOB-объектов будет увеличиваться. Если их не требуется для устранения неполадок заданий, может потребоваться удалить их, чтобы сократить затраты на хранение. Имена этих контейнеров указаны по шаблону adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Для удаления контейнеров в хранилище BLOB-объектов Azure используйте такие инструменты, как Обозреватель службы хранилища Microsoft Azure.

Свойства

Свойство	Описание:	Обязательное поле
type	Свойству type необходимо присвоить значение HDInsightOnDemand.	Да
clusterSize	Общее количество рабочих узлов и узлов данных в кластере. Кластер HDInsight создается с 2 головными узлами и количеством рабочих узлов, заданным в этом свойстве. Узлы имеют размер Standard_D3 с 4 ядрами, то есть кластер с 4 рабочими узлами использует 24 ядра (44 = 16 для рабочих узлов + 24 = 8 для головных узлов). Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий.	Да
linkedServiceName	Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. Кластер HDInsight создается в том же регионе, что и учетная запись хранения Azure. Azure HDInsight имеет ограничение на общее количество ядер, которые можно использовать в каждом поддерживаемом регионе Azure. Убедитесь, что у вас есть достаточное количество квот ядер в необходимом регионе Azure в соответствии с необходимым размером кластера. Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. В настоящее время недоступно создание кластера HDInsight по запросу, который использует в качестве хранилища Azure Data Lake Storage поколения 2. Чтобы сохранить данные результатов обработки HDInsight в Azure Data Lake Storage поколения 2, воспользуйтесь действием копирования и скопируйте данные из хранилища BLOB-объектов Azure в Azure Data Lake Storage поколения 2.	Да
clusterResourceGroup	В этой группе ресурсов создается кластер HDInsight.	Да
timeToLive	Допустимое время простоя кластера HDInsight по запросу. Указывает, как долго кластер HDInsight по запросу остается активным после выполнения действия, если в кластере нет других активных заданий. Минимальное допустимое значение — 5 минут (00:05:00). Например, если выполнение действия занимает 6 минут, а значение свойства timetolive равно 5 минутам, кластер остается активным в течение 5 минут по истечении 6-минутного выполнения действия. Если в течение этих 6 минут выполняется другое действие, оно обрабатывается в том же кластере. Создание кластера HDInsight по запросу является ресурсоемкой операцией и может занять некоторое время. При необходимости используйте этот параметр для повышения производительности службы путем повторного использования кластера HDInsight по запросу. Если значение timetolive равно 0, кластер удаляется сразу после выполнения действия. В то время как при установке высокого значения кластер может оставаться в состоянии простоя для входа в систему для некоторых целей устранения неполадок, но это может привести к высокой стоимости. Поэтому необходимо установить соответствующее значение в соответствии со своими потребностями. Если значение свойства timetolive задано правильно, один и тот же экземпляр кластера HDInsight по запросу могут совместно использовать несколько конвейеров.	Да
clusterType	Тип создаваемого кластера HDInsight. Допустимые значения: Hadoop и Spark. Если не указано другое, по умолчанию используется значение Hadoop. Кластеры с корпоративными пакетами безопасности нельзя создать по запросу, вместо этого используйте существующий кластер или ваше собственное вычисление, подробнее см. в разделе Связанная служба Azure HDInsight.	No
версия	Версия кластера HDInsight. Если не указано другое, используется текущая заданная версия HDInsight по умолчанию.	No
hostSubscriptionId	Идентификатор подписки Azure, используемый для создания кластера HDInsight. Если не указано другое, будет использоваться идентификатор подписки контекста входа в Azure.	No
clusterNamePrefix	Префикс имени кластера HDI. Метка времени будет автоматически добавляться в конец имени кластера.	No
sparkVersion	Версия Spark, если используется тип кластера Spark.	No
additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. Эти учетные записи хранения должны находиться в том же регионе, что и кластер HDInsight, который создается в одном регионе с учетной записью хранения, указанной параметром linkedServiceName.	No
osType	Тип операционной системы. Допустимые значения: Linux и Windows (только для HDInsight 3.3). Значение по умолчанию — Linux.	No
hcatalogLinkedServiceName	Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных.	No
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу HDInsight. Для связанной службы HDInsight по запросу поддерживается только среда выполнения интеграции Azure. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No
clusterUserName	Имя пользователя для доступа к кластеру.	No
clusterPassword	Пароль в строке защищенного типа для доступа к кластеру.	No
clusterSshUserName	Имя пользователя для установки удаленного подключения SSH к узлу кластера (для Linux).	No
clusterSshPassword	Пароль в строке защищенного типа для установки удаленного подключения SSH к узлу кластера (для Linux).	No
scriptActions	Во время создания кластера по запросу укажите скрипт для настроек кластера HDInsight. Сейчас средство разработки пользовательского интерфейса поддерживает указание только 1 действия скрипта, но вы можете обойти это ограничение в JSON (укажите несколько действий скрипта в формате JSON).	No

Внимание

HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.

Внимание

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

Пример кода JSON additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Аутентификация субъекта-службы

Для связанной службы HDInsight по запросу необходимо выполнить проверку подлинности субъекта-службы, чтобы создать кластеры HDInsight от вашего имени. Чтобы использовать проверку подлинности субъекта-службы, зарегистрируйте сущность приложения в идентификаторе Microsoft Entra и предоставьте ей роль участника подписки или группы ресурсов, в которой создается кластер HDInsight. Подробные инструкции см . на портале для создания приложения Microsoft Entra и субъекта-службы, доступ к ресурсам. Запишите следующие значения, которые используются для определения связанной службы:

Application ID
ключ приложения.
Идентификатор клиента

Используйте проверку подлинности на основе субъекта-службы, указав следующие свойства:

Свойство	Описание:	Обязательное поле
servicePrincipalId	Укажите идентификатора клиента приложения.	Да
servicePrincipalKey	Укажите ключ приложения.	Да
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Да

Дополнительные свойства

Для детализированной настройки кластера HDInsight по запросу можно также указать следующие свойства.

Свойство	Описание:	Обязательное поле
coreConfiguration	Задает параметры конфигурации ядра (как в файле core-site.xml) для создаваемого кластера HDInsight.	No
hBaseConfiguration	Задает основные параметры конфигурации HBase (hbase-site.xml) для кластера HDInsight.	No
hdfsConfiguration	Задает основные параметры конфигурации HDFS (hdfs-site.xml) для кластера HDInsight.	No
hiveConfiguration	Задает основные параметры конфигурации Hive (hive-site.xml) для кластера HDInsight.	No
mapReduceConfiguration	Задает параметры конфигурации MapReduce (mapred-site.xml) для кластера HDInsight.	No
oozieConfiguration	Задает параметры конфигурации Oozie (oozie-site.xml) для кластера HDInsight.	No
stormConfiguration	Задает параметры конфигурации Storm (storm-site.xml) для кластера HDInsight.	No
yarnConfiguration	Задает параметры конфигурации Yarn (yarn-site.xml) для кластера HDInsight.	No

Пример. Конфигурация кластера HDInsight по запросу с расширенными свойствами

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Размеры узлов

Вы можете указать размеры головных узлов, узлов данных и узлов zookeeper, используя следующие свойства.

Свойство	Описание:	Обязательное поле
headNodeSize	Указывает размер головного узла. Значение по умолчанию: Standard_D3. Дополнительные сведения см. в разделе Указание размеров узлов.	No
dataNodeSize	Задает размер узла данных. Значение по умолчанию: Standard_D3.	No
zookeeperNodeSize	Задает размер узла Zoo Keeper. Значение по умолчанию: Standard_D3.	No

Указывает размер узлов. Сведения о строковых значениях, необходимых для задания указанных выше свойств, см. в статье Размеры виртуальных машин в Azure. Значения должны соответствовать указанным в статье командлетам и API. Как видно из статьи, узел данных большого размера (по умолчанию) имеет 7 ГБ памяти, что может быть недостаточно для вашего сценария.

Если вы хотите создать головные узлы и рабочие узлы размера D4, укажите Standard_D4 в качестве значения для свойств headNodeSize и dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Если указать неправильное значение для этих свойств, может появиться следующая ошибка: не удалось создать кластер. Исключение: не удается завершить операцию создания кластера. Операция завершилась ошибкой с кодом 400. Оставшееся состояние кластера: "Ошибка". Сообщение: "PreClusterCreationValidationFailure". При появлении этой ошибки убедитесь, что вы используете имя командлета или API из таблицы в статье Размеры виртуальных машин в Azure.

Использование собственной среды вычислений

В конфигурации такого типа вы можете зарегистрировать уже существующую вычислительную среду как связанную службу. Пользователь управляет вычислительной средой, а служба использует ее для выполнения действий.

Такая конфигурация поддерживается в следующих средах вычислений:

Azure HDInsight
Пакетная служба Azure
Машинное обучение Azure
Аналитика озера данных Azure
Azure SQL DB, Azure Synapse Analytics, SQL Server

Связанная служба Azure HDInsight

Чтобы зарегистрировать собственный кластер HDInsight в фабрике данных или рабочей области Synapse, вы можете создать связанную службу Azure HDInsight.

Пример

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Свойства

Свойство	Описание:	Обязательное поле
type	Свойству type необходимо присвоить значение HDInsight.	Да
clusterUri	Универсальный код ресурса (URI) кластера HDInsight.	Да
username	Укажите имя пользователя, которое будет использоваться для подключения к существующему кластеру HDInsight.	Да
password	Укажите пароль для учетной записи пользователя.	Да
linkedServiceName	Имя связанной службы для службы хранилища Azure, которая обращается к хранилищу BLOB-объектов Azure, используемому кластером HDInsight. В настоящее время для этого свойства невозможно указать связанную службу Azure Data Lake Storage поколения 2. Если кластер HDInsight имеет доступ к Data Lake Store, вы можете получить доступ к данным в Azure Data Lake Storage (2-го поколения) из скриптов Hive/Pig.	Да
isEspEnabled	Укажите значение true, если кластер HDInsight доступный с Корпоративными пакетами безопасности. Значение по умолчанию — false.	No
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Для кластеров HDInsight с Корпоративными пакетами безопасности (ESP) следует использовать локальную среду выполнения интеграции, которая имеет "прямую видимость" кластера или должна развертываться в той же виртуальной сети, что и кластер HDInsight для ESP.	No

Внимание

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

Связанная пакетная служба Azure

Примечание.

Мы рекомендуем использовать модуль Azure Az PowerShell для взаимодействия с Azure. Чтобы начать работу, см. статью Установка Azure PowerShell. Дополнительные сведения см. в статье Перенос Azure PowerShell с AzureRM на Az.

Чтобы зарегистрировать пакетный пул виртуальных машин (ВМ) в фабрике данных или рабочей области Synapse, можно создать связанную пакетную службу Azure. Вы можете выполнить пользовательские действия с помощью пакетной службы Azure.

Если вы еще не знакомы с пакетной службой Azure, см. следующие статьи.

Основные сведения о пакетной службе Azure — общие сведения о пакетной службе Azure.
Статья о командлете New-AzBatchAccount со сведениями о создании учетной записи пакетной службы Azure или статья о портале Azure со сведениями о создании учетной записи пакетной службы Azure с помощью портала Azure. Подробные инструкции по использованию этого командлета см. в статье Using PowerShell to manage Azure Batch Account (Использование PowerShell для управления учетной записью пакетной службы Azure).
New-AzBatchPool со сведениями о создании пула пакетной службы Azure.

Внимание

При создании нового пула пакетной службы Azure необходимо использовать "VirtualMachineConfiguration", а не "CloudServiceConfiguration". Дополнительные сведения см. в руководстве по миграции пула пакетной службы Azure.

Пример

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Свойства

Свойство	Описание:	Обязательное поле
type	Свойству type необходимо присвоить значение AzureBatch.	Да
accountName	Имя учетной записи пакетной службы Azure	Да
accessKey	Ключ доступа к учетной записи пакетной службы Azure.	Да
batchUri	URL-адрес учетной записи пакетной службы Azure в формате https://batchaccountname.region.batch.azure.com.	Да
poolName	Имя пула виртуальных машин.	Да
linkedServiceName	Имя связанной службы хранилища Azure, которая ассоциируется с этой связанной пакетной службой Azure. Эта связанная служба используется для промежуточных файлов, необходимых для выполнения действий.	Да
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Студии машинного обучения (классической)

Внимание

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Вы создаете связанную службу Машинное обучение Studio (классическая) для регистрации конечной точки оценки пакетной оценки Машинное обучение Studio (классической) в фабрике данных или рабочей области Synapse.

Пример

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Свойства

Свойство	Описание:	Обязательное поле
Тип	Свойству type необходимо присвоить значение AzureML.	Да
mlEndpoint	URL-адрес пакетной оценки.	Да
apiKey	API модели опубликованной рабочей области.	Да
updateResourceEndpoint	URL-адрес обновления ресурса для конечной точки веб-службы "Студия машинного обучения (классическая версия)", используемый для обновления прогнозной веб-службы с помощью файла обученной модели.	No
servicePrincipalId	Укажите идентификатора клиента приложения.	Требуется, если задано свойство updateResourceEndpoint
servicePrincipalKey	Укажите ключ приложения.	Требуется, если задано свойство updateResourceEndpoint
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Требуется, если задано свойство updateResourceEndpoint
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Машинного обучения Azure

Создайте связанную службу Машинного обучения Azure, чтобы связать рабочую область Машинного обучения Azure с фабрикой данных или рабочей областью Synapse.

Примечание.

Сейчас для связанной службы Машинного обучения Azure поддерживается только проверка подлинности субъекта-службы.

Пример

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства

Свойство	Описание:	Обязательное поле
Тип	Свойство type должно иметь значение: AzureMLService.	Да
subscriptionId	Идентификатор подписки Azure	Да
resourceGroupName	name	Да
mlWorkspaceName	Имя рабочей области службы Машинного обучения Azure	Да
servicePrincipalId	Укажите идентификатора клиента приложения.	Да
servicePrincipalKey	Укажите ключ приложения.	Да
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Требуется, если задано свойство updateResourceEndpoint
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Azure Data Lake Analytics

Можно создать связанную службу Azure Data Lake Analytics, чтобы связать службу вычислений Azure Data Lake Analytics с фабрикой данных или рабочей областью Synapse. Действие U-SQL Data Lake Analytics в конвейере ссылается на эту связанную службу.

Пример

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства

Свойство	Описание:	Обязательное поле
type	Свойству type необходимо присвоить значение AzureDataLakeAnalytics.	Да
accountName	Имя учетной записи аналитики озера данных Azure.	Да
dataLakeAnalyticsUri	Универсальный код ресурса (URI) аналитики озера данных Azure.	No
subscriptionId	Идентификатор подписки Azure	No
resourceGroupName	Имя группы ресурсов Azure	No
servicePrincipalId	Укажите идентификатора клиента приложения.	Да
servicePrincipalKey	Укажите ключ приложения.	Да
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Да
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Azure Databricks

Вы можете создать связанную службу Azure Databricks, чтобы зарегистрировать рабочую область Databricks, которая будет использоваться для выполнения рабочих нагрузок (записных книжек, JAR, Python) Databricks.

Внимание

Связанные модулями связи службы поддерживают Пулы экземпляров и управляемую системой аутентификацию управляемых удостоверений.

Пример. Использование нового кластера заданий в Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Пример. Использование существующего интерактивного кластера в Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Свойства

Свойство	Описание:	Обязательное поле
name	Имя связанной службы	Да
type	Свойство type должно иметь значение: Azure Databricks.	Да
domain	Укажите регион Azure на основе региона рабочей области Databricks. Пример: https://eastus.azuredatabricks.net	Да
accessToken	Чтобы служба прошла аутентификацию в Azure Databricks, необходим маркер доступа. Маркер доступа должен быть создан в рабочей области Databricks. Подробные инструкции по поиску маркера доступа см. в этой статье.	No
MSI	Используйте управляемое удостоверение службы (назначаемое системой) для проверки подлинности в Azure Databricks. При использовании проверки подлинности "MSI" маркер доступа не нужен. Дополнительные сведения о проверке подлинности с помощью управляемых удостоверений см. здесь.	No
existingClusterId	Идентификатор существующего кластера, где будут выполняться все задания. Это должен быть уже созданный интерактивный кластер. Возможно, потребуется вручную перезапустить кластер, если он перестанет отвечать. Для улучшения надежности Databricks предлагает выполнять задания на новых кластерах. Идентификатор интерактивного кластера можно найти, выбрав "Рабочая область Databricks" -> "Кластеры" -> "Имя интерактивного кластера" -> "Конфигурация" -> "Теги". Дополнительные сведения	No
instancePoolId	Идентификатор экземпляра пула существующего пула в рабочей области Databricks.	No
newClusterVersion	Версия Spark кластера. Она создает кластер заданий в Databricks.	No
newClusterNumOfWorker	Необходимое число рабочих узлов текущего кластера. В кластере присутствует один драйвер Spark и исполнители num_workers для такого числа узлов: Spark num_workers + 1. Строка в формате Int32, например "1", означает, что параметр numOfWorker имеет значение 1, а "1:10" означает автомасштабирование от 1 (минимум) до 10 (максимум).	No
newClusterNodeType	Используя отдельное значение, это поле кодирует доступные ресурсы для каждого узла Spark в этом кластере. Например, узлы Spark могут быть подготовлены и оптимизированы для операций в памяти или для ресурсоемких рабочих нагрузок. Это поле обязательно для нового кластера.	No
newClusterSparkConf	Набор необязательных, определяемых пользователем пар "ключ — значение" в конфигурации Spark. Пользователи также могут передавать строку дополнительных параметров JVM драйверу и исполнителям через spark.driver.extraJavaOptions и spark.executor.extraJavaOptions соответственно.	No
newClusterInitScripts	Набор необязательных, определяемых пользователем скриптов инициализации для нового кластера. Скрипты инициализации можно указать в файлах рабочей области (рекомендуется) или с помощью пути DBFS (устаревшая версия).	No

Связанная служба "База данных SQL Azure"

Связанная служба Azure SQL создается и применяется к действию хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о связанной службе SQL Azure.

Связанная служба Azure Synapse Analytics

Связанную службу Azure Synapse Analytics можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о Соединителе Azure Synapse Analytics Connector.

Связанная служба SQL Server

Связанную службу SQL Server можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительные сведения о связанной службе SQL Server см. в соответствующем разделе статьи Перемещение данных в базу данных SQL Server и обратно на локальных компьютерах и виртуальных машинах Azure IaaS с помощью фабрики данных Azure.

Связанная служба Azure Synapse Analytics (Artifacts)

Вы создаете связанную службу Azure Synapse Analytics (Artifacts) и используете ее с действием определения задания Synapse Notebook и Действием определения задания Synapse Spark.

Пример

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства

Свойство	Description	Обязательный
name	Имя связанной службы	Да
описание	описание связанной службы	No
annotations	заметки связанной службы	No
type	Свойство type должно иметь значение AzureSynapseArtifacts	Да
конечная точка	URL-адрес Azure Synapse Analytics	Да
проверка подлинности	Параметр по умолчанию — управляемое удостоверение, назначаемое системой	Да
workspaceResourceId	Идентификатор ресурса рабочей области	Да
connectVia	Среда выполнения интеграции, используемая для подключения к хранилищу данных. Среду выполнения интеграции Azure можно использовать. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Локальная среда выполнения интеграции в настоящее время не поддерживается.	Да

Связанные службы функции Azure

Связанную службу Функций Azure можно создать и применить к действию Функций Azure для запуска Функций Azure в конвейере. Тип возвращаемого значения функции Azure должен быть допустимым объектом JObject. (Помните, что JArray не JObjectявляется .) Любой возвращаемый тип, отличный от JObject сбоя, и вызывает содержимое ответа на ошибку пользователя не является допустимым JObject.

Свойство	Description	Обязательный
type	Свойство type должно иметь значение: AzureFunction	yes
function app url	URL-адрес для приложения-функции Azure. Формат – `https://<accountname>.azurewebsites.net`. Этот URL-адрес – это значение в разделе URL при просмотре приложения-функции на портале Azure	yes
function key	Ключ доступа для функции Azure. Щелкните раздел Управление для соответствующей функции и скопируйте Function Key (ключ функции) или Host key (ключ хоста). Дополнительные сведения см. здесь: работа с ключами доступа	yes

Список поддерживаемых действий преобразования см. в разделе Преобразование данных.

Бөлісу құралы:

Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

Вычислительная среда HDInsight

Вычислительные среды, поддерживаемые фабрикой данных Azure

Пример

Свойства

Аутентификация субъекта-службы

Дополнительные свойства

Размеры узлов

Использование собственной среды вычислений

Связанная служба Azure HDInsight

Пример

Свойства

Связанная пакетная служба Azure

Пример

Свойства

Связанная служба Студии машинного обучения (классической)

Пример

Свойства

Связанная служба Машинного обучения Azure

Пример

Свойства

Связанная служба Azure Data Lake Analytics

Пример

Свойства

Связанная служба Azure Databricks

Пример. Использование нового кластера заданий в Databricks

Пример. Использование существующего интерактивного кластера в Databricks

Свойства

Связанная служба "База данных SQL Azure"

Связанная служба Azure Synapse Analytics

Связанная служба SQL Server

Связанная служба Azure Synapse Analytics (Artifacts)

Пример

Свойства

Связанные службы функции Azure

Кері байланыс

Қосымша ресурстар

Бөлісу құралы:

Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

Вычислительная среда HDInsight

Вычислительные среды, поддерживаемые фабрикой данных Azure

Пример

Свойства

Аутентификация субъекта-службы

Дополнительные свойства

Размеры узлов

Использование собственной среды вычислений

Связанная служба Azure HDInsight

Пример

Свойства

Связанная пакетная служба Azure

Пример

Свойства

Связанная служба Студии машинного обучения (классической)

Пример

Свойства

Связанная служба Машинного обучения Azure

Пример

Свойства

Связанная служба Azure Data Lake Analytics

Пример

Свойства

Связанная служба Azure Databricks

Пример. Использование нового кластера заданий в Databricks

Пример. Использование существующего интерактивного кластера в Databricks

Свойства

Связанная служба "База данных SQL Azure"

Связанная служба Azure Synapse Analytics

Связанная служба SQL Server

Связанная служба Azure Synapse Analytics (Artifacts)

Пример

Свойства

Связанные службы функции Azure

Связанный контент

Кері байланыс

Қосымша ресурстар