Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Tip

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Important

Поддержка Azure Machine Learning Studio (классическое) завершится 31 августа 2024 года. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы в Machine Learning Studio (классический), такие как рабочая область и план веб-службы. До 31 августа 2024 года вы можете продолжать использовать существующие эксперименты и веб-службы в Machine Learning Studio (classic). Дополнительные сведения см. в разделе:

Документация для Machine Learning Studio (классическая версия) снимается с поддержки и может не обновляться в будущем.

В этой статье описываются различные среды вычислений, которые можно использовать для обработки и преобразования данных. Здесь содержатся также сведения о различных конфигурациях (конфигурациях по запросу и ваших собственных), которые поддерживаются при настройке связанных служб, связывающих эти вычислительные среды.

Следующая таблица содержит список поддерживаемых вычислительных сред и доступных в них действий.

Среда вычислений	Activities
Кластер HDInsight по запросу или собственный кластер HDInsight	Hive, Pig, Spark, MapReduce, Hadoop Streaming
Пакетная служба Azure	Custom
ML Studio (классическая версия)	Действия ML Studio (классическая версия): пакетное выполнение и обновление ресурса
Машинное обучение Azure	Выполнение конвейера в Машинном обучении Azure
Azure Data Lake Analytics	Хранилище данных и аналитика U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server	Хранимая процедура
Azure Databricks	Записная книжка, Jar, Python
Azure Synapse Analytics (артефакты)	Активность Synapse Notebook, определение задачи Synapse Spark
Функция Azure	Действия функции Azure

Вычислительная среда HDInsight

В таблице ниже приведены сведения о поддерживаемых типах связанных служб хранилища для конфигурации в среде по запросу и BYOC (использование собственной вычислительной среды).

В связанном вычислительном сервисе	Название свойства	Description	Blob	ADLS Gen2	База данных SQL Azure	ADLS 1-го поколения
On-demand	linkedServiceName	Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных.	Yes	Yes	No	No
	additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени.	Yes	No	No	No
	hcatalogLinkedServiceName	Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных.	No	No	Yes	No
BYOC	linkedServiceName	Ссылка на связанную службу Azure Storage.	Yes	Yes	No	No
	additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени.	No	No	No	No
	hcatalogLinkedServiceName	Ссылка на связанную службу Azure SQL, указывающая на базу данных HCatalog.	No	No	No	No

Связанная служба Azure HDInsight по запросу

В конфигурации такого типа вычислительная среда полностью управляется службой. Автоматически создается службой перед отправкой задания на обработку данных и удаляется после его завершения. Вы можете создать связанную службу для среды вычислений по запросу, настроить ее и управлять детализированными параметрами выполнения задания, управления кластером и параметрами действий начальной загрузки.

Note

Конфигурации по запросу в настоящее время поддерживаются только для кластеров Azure HDInsight. Azure Databricks также поддерживает задания по запросу с помощью кластеров заданий. Дополнительные сведения см. в разделе о связанной службе Azure Databricks.

Для обработки данных служба автоматически создает кластер HDInsight по запросу. Кластер создается в том же регионе, что и учетная запись хранения (свойство linkedServiceName в JSON), связанная с кластером. must должна быть стандартной универсальной учетной записью хранения Azure.

Обратите внимание на следующие важные моменты связанной службы HDInsight по запросу:

Кластер HDInsight по запросу создается в вашей подписке Azure. Сразу после запуска кластер отобразится на портале Azure.
Журналы заданий, которые выполняются в кластере HDInsight по запросу, копируются в учетную запись хранения, связанную с кластером HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword, заданные в определении связанной службы, используются для входа в кластер, чтобы выполнить глубокую диагностику в течение жизненного цикла кластера.
Вы оплачиваете только время, когда кластер HDInsight работает и выполняет задания.
Действие скрипта можно использовать с службой Azure HDInsight, связанной в режиме .

Important

Обычно для подготовки кластера Azure HDInsight по запросу требуется 20 минут или более.

Пример использования ключа субъекта-службы

Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight под управлением Linux для обработки требуемого действия.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Пример использования системного управляемого удостоверения

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Пример использования управляемой идентичности, назначенной пользователем

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Кластер HDInsight создает контейнер по умолчанию в хранилище BLOB-объектов, указанном в JSON (linkedServiceName). При удалении кластера HDInsight этот контейнер не удаляется. Такое поведение предусмотрено программой. При использовании связанной службы HDInsight по запросу кластер HDInsight создается каждый раз при обработке среза, если нет существующего динамического кластера (timeToLive) и удаляется при выполнении обработки.

По мере выполнения операций, вы увидите множество контейнеров в вашем хранилище BLOB-объектов Azure. Если их не требуется для устранения неполадок заданий, может потребоваться удалить их, чтобы сократить затраты на хранение. Имена этих контейнеров указаны по шаблону adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Для удаления контейнеров в хранилище BLOB-объектов Azure используйте такие инструменты, как Обозреватель службы хранилища Microsoft Azure.

Properties

Property	Description	Required
type	Свойство type должно иметь значение HDInsightOnDemand.	Yes
clusterSize	Общее количество рабочих узлов и узлов данных в кластере. Кластер HDInsight создается с двумя головными узлами и количеством рабочих узлов, которое вы указываете в параметре свойства. Узлы имеют размер Standard_D3 с 4 ядрами, то есть кластер с 4 рабочими узлами использует 24 ядра (44 = 16 для рабочих узлов + 24 = 8 для головных узлов). Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий.	Yes
linkedServiceName	Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. Кластер HDInsight создается в том же регионе, что и учетная запись хранения Azure. Azure HDInsight имеет ограничение на общее количество ядер, которые можно использовать в каждом поддерживаемом регионе Azure. Убедитесь, что у вас есть достаточное количество квот ядер в необходимом регионе Azure в соответствии с необходимым размером кластера. Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. В настоящее время недоступно создание кластера HDInsight по запросу, который использует в качестве хранилища Azure Data Lake Storage поколения 2. Чтобы сохранить данные результатов обработки HDInsight в Azure Data Lake Storage поколения 2, воспользуйтесь действием копирования и скопируйте данные из хранилища BLOB-объектов Azure в Azure Data Lake Storage поколения 2.	Yes
clusterResourceGroup	В этой группе ресурсов создается кластер HDInsight.	Yes
clusterResourceGroupAuthType	Укажите тип проверки подлинности группы ресурсов кластера HDInsight по запросу. Поддерживаемые типы проверки подлинности: ServicePrincipalKey, SystemAssignedManagedIdentity, UserAssignedManagedIdentity.	Требуется для использования проверки подлинности управляемого удостоверения. Если поле отсутствует, по умолчанию будет использоваться ServicePrincipalKey
credential	Укажите ссылку на учетные данные, содержащую объект Managed Identity, имеющий доступ к группе ресурсов.	Требуется только для аутентификации UserAssignedManagedIdentity.
timetolive	Допустимое время простоя кластера HDInsight, создаваемого по запросу. Указывает, как долго кластер HDInsight по запросу остается активным после выполнения действия, если в кластере нет других активных заданий. Минимальное допустимое значение — 5 минут (00:05:00). Например, если выполнение действия занимает 6 минут, а значение свойства timetolive равно 5 минутам, кластер остается активным в течение 5 минут по истечении 6-минутного выполнения действия. Если в течение этих 6 минут выполняется другое действие, оно обрабатывается в том же кластере. Создание кластера HDInsight по запросу является ресурсоемкой операцией и может занять некоторое время. При необходимости используйте этот параметр для повышения производительности службы путем повторного использования кластера HDInsight по запросу. Если значение timetolive равно 0, кластер удаляется сразу после выполнения действия. В то время как при установке высокого значения кластер может оставаться в состоянии простоя для входа в систему для некоторых целей устранения неполадок, но это может привести к высокой стоимости. Поэтому необходимо установить соответствующее значение в соответствии со своими потребностями. Если значение свойства timetolive указано правильно, несколько конвейеров могут использовать один и тот же экземпляр кластера HDInsight по запросу.	Yes
clusterType	Тип создаваемого кластера HDInsight. Допустимые значения: Hadoop и Spark. Если не указано другое, по умолчанию используется значение Hadoop. Создать кластер с корпоративным пакетом безопасности по запросу невозможно, вместо этого используйте существующий кластер или свои вычислительные мощности.	No
version	Версия кластера HDInsight. Если не указано другое, используется текущая заданная версия HDInsight по умолчанию.	No
hostSubscriptionId	Идентификатор подписки Azure, используемый для создания кластера HDInsight. Если не указано другое, будет использоваться идентификатор подписки вашего контекста входа в Azure.	No
clusterNamePrefix	Префикс имени кластера HDI, к которому автоматически добавляется метка времени в конце имени кластера.	No
sparkVersion	Версия Spark, если используется тип кластера Spark.	No
additionalLinkedServiceNames	Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. Эти учетные записи хранения должны находиться в том же регионе, что и кластер HDInsight, который создается в одном регионе с учетной записью хранения, указанной параметром linkedServiceName.	No
osType	Тип операционной системы. Допустимые значения: Linux и Windows (только для HDInsight 3.3). Значение по умолчанию — Linux.	No
hcatalogLinkedServiceName	Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных.	No
connectVia	Среда выполнения интеграции, используемая для передачи действий в службу, связанную с HDInsight. Для связанной службы HDInsight по запросу поддерживается только среда выполнения интеграции Azure. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No
clusterUserName	Имя пользователя для доступа к кластеру.	No
clusterPassword	Пароль в строке защищенного типа для доступа к кластеру.	No
clusterSshUserName	Имя пользователя для удалённого подключения по SSH к узлу кластера (для Linux).	No
clusterSshPassword	Пароль в формате защищённой строки для удалённого подключения по протоколу SSH к узлу кластера (Linux).	No
scriptActions	Во время создания кластера по запросу укажите скрипт для настроек кластера HDInsight. Сейчас средство разработки пользовательского интерфейса поддерживает указание только 1 действия скрипта, но вы можете обойти это ограничение в JSON (укажите несколько действий скрипта в формате JSON).	No

Important

HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.

Important

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

Пример кода JSON additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentication

Аутентификация служебного принципала

Для связанной службы HDInsight по запросу необходимо выполнить проверку подлинности субъекта-службы, чтобы создать кластеры HDInsight от вашего имени. Чтобы использовать аутентификацию субъекта-службы, зарегистрируйте объект приложения в Microsoft Entra ID и предоставьте ему роль Contributor подписки или группы ресурсов, в которой создается кластер HDInsight. Для подробных инструкций см. Использование портала для создания приложения Microsoft Entra и основного объекта службы, которые могут получать доступ к ресурсам. Запишите следующие значения, которые используются для определения связанной службы:

Идентификатор приложения
ключ приложения.
Идентификатор арендатора

Используйте аутентификацию с помощью сервисного принципала, указав следующие свойства:

Property	Description	Required
servicePrincipalId	Укажите идентификатора клиента приложения.	Yes
servicePrincipalKey	Укажите ключ приложения.	Yes
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Yes

Проверка подлинности управляемого удостоверения

При использовании проверки подлинности управляемого удостоверения для связанных служб Azure HDInsight, создаваемых по запросу, убедитесь, что объект Управляемого удостоверения обладает ролью Сотрудника для доступа к группе ресурсов.

Основные учетные записи хранения ADLS 2-го поколения теперь поддерживают проверку подлинности на основе управляемого удостоверения пользователей (UAMI) в дополнение к существующей проверке подлинности на основе ключей. UAMI должен иметь разрешения владельца данных BLOB-объектов хранилища в основной учетной записи хранения.

Limitations:

Основная учетная запись хранения ADLS 2-го поколения и UAMI должны находиться в той же группе ресурсов, что и группа ресурсов, используемая для создания кластера HDInsight по запросу.
Имя объекта учетных данных для UAMI в фабрике данных должно точно соответствовать имени UAMI.

Дополнительные сведения см. в статье Создание Azure HDInsight — Azure Data Lake Storage Gen2 — портал и Управляемые удостоверения в Azure HDInsight

Дополнительные свойства

Для детализированной настройки кластера HDInsight по запросу можно также указать следующие свойства.

Property	Description	Required
coreConfiguration	Задает параметры конфигурации ядра (как в файле core-site.xml) для создаваемого кластера HDInsight.	No
hBaseConfiguration	Задает основные параметры конфигурации HBase (hbase-site.xml) для кластера HDInsight.	No
hdfsConfiguration	Задает основные параметры конфигурации HDFS (hdfs-site.xml) для кластера HDInsight.	No
hiveConfiguration	Задает основные параметры конфигурации Hive (hive-site.xml) для кластера HDInsight.	No
mapReduceConfiguration	Задает параметры конфигурации MapReduce (mapred-site.xml) для кластера HDInsight.	No
oozieConfiguration	Задает параметры конфигурации Oozie (oozie-site.xml) для кластера HDInsight.	No
stormConfiguration	Задает параметры конфигурации Storm (storm-site.xml) для кластера HDInsight.	No
yarnConfiguration	Задает параметры конфигурации Yarn (yarn-site.xml) для кластера HDInsight.	No

Пример. Конфигурация кластера HDInsight по запросу с расширенными свойствами

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Размеры узлов

Вы можете указать размеры узлов головы, узлов данных и узлов Zookeeper, используя следующие свойства.

Property	Description	Required
headNodeSize	Указывает размер головного узла. Значение по умолчанию: Standard_D3. Дополнительные сведения см. в разделе Указание размеров узлов.	No
dataNodeSize	Задает размер узла данных. Значение по умолчанию: Standard_D3.	No
zookeeperNodeSize	Задает размер узла ZooKeeper. Значение по умолчанию: Standard_D3.	No

Указывает размер узлов. Сведения о строковых значениях, необходимых для задания указанных выше свойств, см. в статье Размеры виртуальных машин в Azure. Значения должны соответствовать указанным в статье командлетам и API. Как видно из статьи, узел данных большого размера (по умолчанию) имеет 7 ГБ памяти, что может быть недостаточно для вашего сценария.

Если вы хотите создать головной узел D4 и рабочие узлы, укажите Standard_D4 в качестве значения свойств headNodeSize и dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Если указать неправильное значение для этих свойств, может появиться следующая ошибка: не удалось создать кластер. Исключение: не удается завершить операцию создания кластера. Операция завершилась ошибкой с кодом 400. Оставшееся состояние кластера: "Ошибка". Сообщение: PreClusterCreationValidationFailure. При появлении этой ошибки убедитесь, что вы используете название CMDLET & APIS из таблицы в статье Размеры виртуальных машин.

Использование собственной среды вычислений

В конфигурации такого типа вы можете зарегистрировать уже существующую вычислительную среду как связанную службу. Пользователь управляет вычислительной средой, а служба использует ее для выполнения действий.

Такая конфигурация поддерживается в следующих средах вычислений:

Azure HDInsight
Azure Batch
Машинное обучение Azure
Azure Data Lake Analytics
База данных SQL Azure, Azure Synapse Analytics, SQL Server

Связанная служба Azure HDInsight

Чтобы зарегистрировать собственный кластер HDInsight в фабрике данных или рабочей области Synapse, вы можете создать связанную службу Azure HDInsight.

Пример использования базовой проверки подлинности

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Пример использования системно назначенного управляемого удостоверения

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Пример использования управляемой идентичности, назначенной пользователем

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	Description	Required
type	Свойство type должно иметь значение HDInsight.	Yes
clusterUri	URI кластера HDInsight.	Yes
username	Укажите имя пользователя, которое будет использоваться для подключения к существующему кластеру HDInsight.	Yes
password	Укажите пароль для учетной записи пользователя.	Yes
linkedServiceName	Имя связанной службы Azure Storage, которая ссылается на хранилище BLOB-объектов Azure, используемое кластером HDInsight. В настоящее время для этого свойства невозможно указать связанную службу Azure Data Lake Storage поколения 2. Если кластер HDInsight имеет доступ к Data Lake Store, вы можете получить доступ к данным в Azure Data Lake Storage (2-го поколения) из скриптов Hive/Pig.	Yes
isEspEnabled	Укажите true, если кластер HDInsight включен с Enterprise Security Package. Значение по умолчанию — false.	No
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Для кластеров HDInsight с Пакетом корпоративной безопасности (ESP) необходимо использовать самостоятельно размещаемое средство выполнения интеграции, которое имеет прямую видимость кластера или должно быть развернуто в той же виртуальной сети, что и кластер HDInsight с ESP.	No
clusterAuthType	Укажите тип проверки подлинности кластера HDInsight. Поддерживаемые типы проверки подлинности: BasicAuth, SystemAssignedManagedIdentity, UserAssignedManagedIdentity.	Требуется для использования проверки подлинности Управляемого Удостоверения. Если поле отсутствует, по умолчанию используется BasicAuth.
credential	Укажите ссылку на учетные данные, содержащую сведения об объекте Управляемого удостоверения для кластера HDInsight.	Требуется только для проверки подлинности UserAssignedManagedIdentity

Authentication

Связанная служба хранилища Azure для ADLS 2-го поколения теперь поддерживает управляемые удостоверения, назначенные системой и назначенные пользователем, в дополнение к существующим методам проверки подлинности. Эта поддержка доступна по умолчанию при использовании среды выполнения интеграции Azure (Azure IR) и поддерживается в локальной среде выполнения интеграции (SHIR) начиная с версии 5.55.9306.2 или более поздней. Для хранилища BLOB-объектов Azure связанная служба хранилища Azure продолжает поддерживать только проверку подлинности ключа учетной записи. Проверка подлинности управляемого удостоверения кластера теперь также доступна по умолчанию при использовании Azure IR и поддерживается в SHIR, начиная с версии 5.58 или более поздней. При создании кластера можно использовать только один метод проверки подлинности для каждого кластера. Дополнительные сведения о создании и управлении кластерами с помощью управляемой идентификации см. в статье Создание и управление кластерами Azure HDInsight с аутентификацией Entra ID

Important

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

Связанный сервис Azure Batch

Note

Мы рекомендуем использовать модуль Azure Az PowerShell для взаимодействия с Azure. Чтобы начать работу, см. статью Установка Azure PowerShell. Чтобы узнать, как перейти на модуль Az PowerShell, см. Перенос Azure PowerShell с AzureRM на Az.

Чтобы зарегистрировать пакетный пул виртуальных машин (ВМ) в фабрике данных или рабочей области Synapse, можно создать связанную пакетную службу Azure. Вы можете запускать пользовательские задачи с помощью Azure Batch.

Если вы еще не знакомы с пакетной службой Azure, см. следующие статьи.

Основные сведения о пакетной службе Azure — общие сведения о пакетной службе Azure.
Командлет New-AzBatchAccount для создания учетной записи Azure Batch (или) портал Azure для создания учетной записи Azure Batch с помощью портала Azure. Подробные инструкции по использованию этого командлета см. в статье Using PowerShell to manage Azure Batch Account (Использование PowerShell для управления учетной записью пакетной службы Azure).
Командлет New-AzBatchPool используется для создания пула Azure Batch.

Important

При создании нового пула пакетной службы Azure необходимо использовать "VirtualMachineConfiguration", а не "CloudServiceConfiguration".

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	Description	Required
type	Свойство type должно иметь значение AzureBatch.	Yes
accountName	Имя учетной записи пакетной службы Azure	Yes
accessKey	Ключ доступа к учетной записи пакетной службы Azure.	Yes
batchUri	URL-адрес учетной записи Azure Batch в формате https://batchaccountname.region.batch.azure.com.	Yes
poolName	Имя пула виртуальных машин.	Yes
linkedServiceName	Имя связанной службы хранилища Azure, связанной с этой службой Azure Batch. Эта связанная служба используется для размещения файлов, необходимых для выполнения активности.	Yes
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Классическая версия связанной службы Machine Learning Studio

Important

Документация для Machine Learning Studio (классическая версия) снимается с поддержки и может не обновляться в будущем.

Вы создаете связанную службу Машинное обучение Studio (классическая) для регистрации конечной точки оценки пакетной оценки Машинное обучение Studio (классической) в фабрике данных или рабочей области Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property	Description	Required
Type	Свойство type должно иметь значение : AzureML.	Yes
mlEndpoint	URL-адрес пакетной оценки.	Yes
apiKey	API модели рабочей области, опубликованной.	Yes
updateResourceEndpoint	URL-адрес обновления ресурса для конечной точки веб-службы "Студия машинного обучения (классическая версия)", используемый для обновления прогнозной веб-службы с помощью файла обученной модели.	No
servicePrincipalId	Укажите идентификатора клиента приложения.	Требуется, если задано свойство updateResourceEndpoint
servicePrincipalKey	Укажите ключ приложения.	Требуется, если задано свойство updateResourceEndpoint
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Требуется, если задано свойство updateResourceEndpoint
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Машинного обучения Azure

Создайте связанную службу Машинного обучения Azure, чтобы связать рабочую область Машинного обучения Azure с фабрикой данных или рабочей областью Synapse.

Note

В настоящее время для связанной службы Azure Machine Learning поддерживается только аутентификация сервисного принципала.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
Type	Свойство type должно иметь значение : AzureMLService.	Yes
subscriptionId	Идентификатор подписки Azure	Yes
resourceGroupName	name	Yes
mlWorkspaceName	Имя рабочей области службы Машинного обучения Azure	Yes
servicePrincipalId	Укажите идентификатора клиента приложения.	Yes
servicePrincipalKey	Укажите ключ приложения.	Yes
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Требуется, если задано свойство updateResourceEndpoint
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Azure Data Lake Analytics

Можно создать связанную службу Azure Data Lake Analytics, чтобы связать службу вычислений Azure Data Lake Analytics с фабрикой данных или рабочей областью Synapse. Действие U-SQL Data Lake Analytics в конвейере ссылается на эту связанную службу.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
type	Свойство type должно иметь значение : AzureDataLakeAnalytics.	Yes
accountName	Имя учетной записи аналитики озера данных Azure.	Yes
dataLakeAnalyticsUri	URI аналитики Azure Data Lake.	No
subscriptionId	Идентификатор подписки Azure	No
resourceGroupName	Имя группы ресурсов Azure	No
servicePrincipalId	Укажите идентификатора клиента приложения.	Yes
servicePrincipalKey	Укажите ключ приложения.	Yes
tenant	Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure.	Yes
connectVia	Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.	No

Связанная служба Azure Databricks

Вы можете создать службу, связанную с Azure Databricks, чтобы зарегистрировать рабочую область Databricks, используемую для выполнения рабочих нагрузок Databricks, таких как записные книжки, JAR-файлы и Python-скрипты.

Important

Связанные службы Databricks поддерживают пулы экземпляров и проверку подлинности управляемого удостоверения, назначаемого системой.

Пример. Использование нового кластера заданий в Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Пример. Использование существующего интерактивного кластера в Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property	Description	Required
name	Имя связанной службы	Yes
type	Свойство type должно иметь значение : Azure Databricks.	Yes
domain	Укажите регион Azure на основе региона рабочей области Databricks. Пример: https://eastus.azuredatabricks.net	Yes
accessToken	Чтобы служба прошла аутентификацию в Azure Databricks, необходим маркер доступа. Маркер доступа должен быть создан в рабочей области Databricks. Более подробные инструкции по поиску маркера доступа см. здесь	No
MSI	Используйте управляемое удостоверение службы (назначаемое системой) для проверки подлинности в Azure Databricks. При использовании проверки подлинности "MSI" маркер доступа не нужен. Дополнительные сведения о проверке подлинности управляемого удостоверения можно найти здесь	No
existingClusterId	Идентификатор существующего кластера для запуска всех заданий на нем. Это должен быть уже созданный интерактивный кластер. Возможно, потребуется вручную перезапустить кластер, если он перестанет отвечать. Для улучшения надежности Databricks предлагает выполнять задания на новых кластерах. Идентификатор интерактивного кластера можно найти, выбрав "Рабочая область Databricks" -> "Кластеры" -> "Имя интерактивного кластера" -> "Конфигурация" -> "Теги". Дополнительные сведения	No
instancePoolId	Идентификатор экземпляра существующего пула в рабочей области Databricks.	No
newClusterVersion	Версия кластера Spark. Она создает кластер заданий в Databricks.	No
newClusterNumOfWorker	Необходимое число рабочих узлов текущего кластера. В кластере присутствует один драйвер Spark и исполнители num_workers для такого числа узлов: Spark num_workers + 1. Строка в формате Int32, например "1", означает, что параметр numOfWorker имеет значение 1, а "1:10" означает автомасштабирование от 1 (минимум) до 10 (максимум).	No
newClusterNodeType	Используя отдельное значение, это поле кодирует доступные ресурсы для каждого узла Spark в этом кластере. Например, узлы Spark могут быть подготовлены и оптимизированы для операций в памяти или для ресурсоемких рабочих нагрузок. Это поле обязательно для нового кластера.	No
newClusterSparkConf	Набор необязательных, определяемых пользователем пар "ключ — значение" в конфигурации Spark. Пользователи также могут передавать строку дополнительных параметров JVM драйверу и исполнителям через spark.driver.extraJavaOptions и spark.executor.extraJavaOptions соответственно.	No
newClusterInitScripts	Набор необязательных, определяемых пользователем скриптов инициализации для нового кластера. Скрипты инициализации можно указать в файлах рабочей области (рекомендуется) или с помощью пути DBFS (устаревшая версия).	No

Связанный сервис Azure SQL Database

Вы создаете связанную службу Azure SQL и используете её с действием Хранимая процедура для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о связанной службе SQL Azure.

Связанная служба Azure Synapse Analytics

Вы создаете связанную службу Azure Synapse Analytics и используете ее с действием хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о соединителе Azure Synapse Analytics.

Связанная служба SQL Server

Вы создаете подключаемую службу SQL Server и используете её с действием хранимой процедуры для вызова хранимой процедуры из конвейера. См. статью о подключении к SQL Server для получения подробной информации о данной связанной службе.

Связанная служба Azure Synapse Analytics (Artifacts)

Вы создаете связанную службу Azure Synapse Analytics (Artifacts) и используете её с действием Synapse Notebook и действием определения задания Synapse Spark.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	Description	Required
name	Имя связанной службы	Yes
description	описание связанной службы	No
annotations	аннотации связанного сервиса	No
type	Свойство type должно иметь значение AzureSynapseArtifacts	Yes
endpoint	URL-адрес Azure Synapse Analytics	Yes
authentication	Параметр по умолчанию — управляемое удостоверение, назначаемое системой	Yes
workspaceResourceId	Идентификатор ресурса рабочей области	Yes
connectVia	Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Локальная среда выполнения интеграции в настоящее время не поддерживается.	Yes

Связанный сервис Azure Functions

Связанную службу Функций Azure можно создать и применить к действию Функций Azure для запуска Функций Azure в конвейере. Тип возвращаемого значения функции Azure должен быть допустимым JObject. (Имейте в виду, что JArrayне является JObject.) Любой возвращаемый тип, отличный от JObject, приводит к сбою и вызывает ошибку пользователя Содержимое ответа не является допустимым JObject.

Property	Description	Required
type	Свойство type должно иметь значение : AzureFunction	yes
функция приложения URL	URL-адрес для приложения-функции Azure. Формат – `https://<accountname>.azurewebsites.net`. Этот URL-адрес является значением в разделе URL-адреса при просмотре функционального приложения на портале Azure	yes
функциональная клавиша	Ключ доступа для функции Azure. Щелкните раздел «Управление» для соответствующей функции и скопируйте либо функциональную клавишу, либо ключ хоста. Дополнительные сведения см. здесь: работа с ключами доступа	yes

Список поддерживаемых действий преобразования см. в разделе "Преобразование данных".

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-10-23

Поделиться через

Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

Вычислительная среда HDInsight

Связанная служба Azure HDInsight по запросу

Пример использования ключа субъекта-службы

Пример использования системного управляемого удостоверения

Пример использования управляемой идентичности, назначенной пользователем

Properties

Authentication

Аутентификация служебного принципала

Проверка подлинности управляемого удостоверения

Дополнительные свойства

Размеры узлов

Использование собственной среды вычислений

Связанная служба Azure HDInsight

Пример использования базовой проверки подлинности

Пример использования системно назначенного управляемого удостоверения

Пример использования управляемой идентичности, назначенной пользователем

Properties

Authentication

Связанный сервис Azure Batch

Example

Properties

Классическая версия связанной службы Machine Learning Studio

Example

Properties

Связанная служба Машинного обучения Azure

Example

Properties

Связанная служба Azure Data Lake Analytics

Example

Properties

Связанная служба Azure Databricks

Пример. Использование нового кластера заданий в Databricks

Пример. Использование существующего интерактивного кластера в Databricks

Properties

Связанный сервис Azure SQL Database

Связанная служба Azure Synapse Analytics

Связанная служба SQL Server

Связанная служба Azure Synapse Analytics (Artifacts)

Example

Properties

Связанный сервис Azure Functions

Связанный контент

Обратная связь

Дополнительные ресурсы