Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
ПРИМЕНИМО К:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.
Important
Поддержка Azure Machine Learning Studio (классическая версия) завершится 31 августа 2024 г. Мы рекомендуем перейти на Azure Machine Learning по этой дате.
По состоянию на 1 декабря 2021 г. нельзя создавать новые Machine Learning Studio (классические) ресурсы (рабочая область и план веб-службы). До 31 августа 2024 г. можно продолжать использовать существующие Machine Learning Studio (классические) эксперименты и веб-службы. Дополнительные сведения см. в разделе:
- Перенос на Azure Machine Learning из Machine Learning Studio (классической)
- Что такое Azure Machine Learning?
Документация Machine Learning Studio (Classic) снимается с поддержки и может не обновляться в будущем.
В этой статье описываются различные среды вычислений, которые можно использовать для обработки и преобразования данных. Здесь содержатся также сведения о различных конфигурациях (конфигурациях по запросу и ваших собственных), которые поддерживаются при настройке связанных служб, связывающих эти вычислительные среды.
Следующая таблица содержит список поддерживаемых вычислительных сред и доступных в них действий.
| Среда вычислений | Activities |
|---|---|
| кластеры HDInsight по запросу или ваш собственный кластер HDInsight | Hive, Pig, Spark, MapReduce, Hadoop Streaming |
| Azure Batch | Custom |
| ML Studio (классическая версия) | Действия ML Studio (классическая версия): пакетное выполнение и обновление ресурса |
| Машинное обучение Azure | Azure Machine Learning Запуск конвейера |
| Azure Data Lake Analytics | Data Lake Analytics U-SQL |
| Azure SQL, Azure Synapse Analytics, SQL Server | Хранимая процедура |
| Azure Databricks | Записная книжка, Jar, Python |
| Azure Synapse Analytics (Артефакты) | Активность Synapse Notebook, определение задачи Synapse Spark |
| функция Azure | Активность функции Azure |
Вычислительная среда HDInsight
В таблице ниже приведены сведения о поддерживаемых типах связанных служб для конфигурации систем хранения в среде по запросу и BYOC (переносите собственные вычислительные ресурсы).
| В связанном вычислительном сервисе | Название свойства | Description | Blob | ADLS Gen2 | база данных Azure SQL | ADLS 1-го поколения |
|---|---|---|---|---|---|---|
| On-demand | linkedServiceName | Azure Storage связанная служба, которую кластер по запросу использует для хранения и обработки данных. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Указывает дополнительные учетные записи хранилища для связанной службы HDInsight, чтобы служба могла зарегистрировать их от вашего имени. | Yes | No | No | No | |
| hcatalogLinkedServiceName | Имя связанной службы Azure SQL, указывающей на базу данных HCatalog. Кластер HDInsight по запросу создается с помощью базы данных Azure SQL в качестве хранилища метаданных. | No | No | Yes | No | |
| BYOC | linkedServiceName | Ссылка на связанную службу Azure Storage. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Указывает дополнительные учетные записи хранилища для связанной службы HDInsight, чтобы служба могла зарегистрировать их от вашего имени. | No | No | No | No | |
| hcatalogLinkedServiceName | Ссылка на связанную службу Azure SQL, которая указывает на базу данных HCatalog. | No | No | No | No |
связанная служба Azure HDInsight по запросу
В конфигурации такого типа вычислительная среда полностью управляется службой. Автоматически создается службой перед отправкой задания на обработку данных и удаляется после его завершения. Вы можете создать связанную службу для среды вычислений по запросу, настроить ее и управлять детализированными параметрами выполнения задания, управления кластером и параметрами действий начальной загрузки.
Note
Конфигурация по запросу в настоящее время поддерживается только для кластеров Azure HDInsight. Azure Databricks также поддерживает задания по запросу с помощью кластеров заданий. Дополнительные сведения см. в службе Azure Databricks Linked Service.
Для обработки данных служба автоматически создает кластер HDInsight по запросу. Кластер создается в том же регионе, что и учетная запись storage (свойство linkedServiceName в JSON), связанная с кластером. Учетная запись хранения must является стандартной учетной записью Azure Storage общего назначения.
Обратите внимание на следующие важные моменты связанной службы HDInsight по запросу:
- Кластер HDInsight по запросу создается в подписке Azure. Вы можете увидеть кластер на портале Azure, когда кластер работает.
- Журналы заданий, выполняемых в кластере HDInsight по запросу, копируются в учетную запись хранилища, связанную с этим кластером HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword, заданные в определении связанной службы, используются для входа в кластер, чтобы выполнить глубокую диагностику в течение жизненного цикла кластера.
- Вы оплачиваете только время, когда кластер HDInsight работает и выполняет задания.
- Вы можете использовать действие Script с связанной службой Azure HDInsight по запросу.
Important
Обычно требуется 20 минут или более для подготовки кластера Azure HDInsight по запросу.
Пример использования ключа субъекта-службы
Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight под управлением Linux для обработки требуемого действия.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "ServicePrincipalKey",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Пример использования системного управляемого удостоверения
Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight под управлением Linux для обработки требуемого действия.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Пример использования управляемой идентичности, назначенной пользователем
Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight под управлением Linux для обработки требуемого действия.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
Кластер HDInsight создает контейнер по умолчанию default в хранилище Blob, указанном в JSON (linkedServiceName). При удалении кластера HDInsight этот контейнер не удаляется. Такое поведение предусмотрено программой. При использовании связанной службы HDInsight по запросу кластер HDInsight создается каждый раз при обработке среза, если нет существующего динамического кластера (timeToLive) и удаляется при выполнении обработки.
При выполнении дополнительных операций вы увидите множество контейнеров в Blob-хранилище Azure. Если их не требуется для устранения неполадок заданий, вы можете захотеть удалить их, чтобы снизить затраты на хранение. Имена этих контейнеров указаны по шаблону adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Используйте такие средства, как Microsoft Azure Storage Explorer для удаления контейнеров в хранилище BLOB-объектов Azure.
Properties
| Property | Description | Required |
|---|---|---|
| type | Свойство type должно иметь значение HDInsightOnDemand. | Yes |
| clusterSize | Общее количество рабочих узлов и узлов данных в кластере. Кластер HDInsight создается с двумя головными узлами и количеством рабочих узлов, которое вы указываете в параметре свойства. Узлы имеют размер Standard_D3 с 4 ядрами, то есть кластер с 4 рабочими узлами использует 24 ядра (4*4 = 16 для рабочих узлов + 2*4 = 8 для головных узлов). Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. | Yes |
| linkedServiceName | Azure Storage связанная служба, которую кластер по запросу использует для хранения и обработки данных. Кластер HDInsight создается в том же регионе, что и эта учетная запись Azure Storage. Azure HDInsight имеет ограничение на общее количество ядер, которые можно использовать в каждом регионе Azure, который он поддерживает. Убедитесь, что в этом регионе Azure достаточно основных квот, чтобы соответствовать требуемому размеру кластера. Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. В настоящее время невозможно создать кластер HDInsight по запросу, использующий в качестве хранилища Azure Data Lake Storage (2-го поколения). Если вы хотите сохранить полученные данные из обработки HDInsight в Azure Data Lake Storage (2-го поколения), используйте действие копирования для копирования данных из Azure Blob Storage в Azure Data Lake Storage (2-го поколения). |
Yes |
| clusterResourceGroup | В этой группе ресурсов создается кластер HDInsight. | Yes |
| clusterResourceGroupAuthType | Укажите тип проверки подлинности группы ресурсов кластера HDInsight по запросу. Поддерживаемые типы проверки подлинности: ServicePrincipalKey, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. | Требуется для использования проверки подлинности управляемого удостоверения. Если поле отсутствует, по умолчанию будет использоваться ServicePrincipalKey |
| credential | Укажите ссылку на учетные данные, содержащую объект Managed Identity, который имеет доступ к группе ресурсов. | Требуется только для аутентификации UserAssignedManagedIdentity. |
| timetolive | Допустимое время простоя кластера HDInsight, создаваемого по запросу. Указывает, как долго кластер HDInsight по запросу остается активным после выполнения действия, если в кластере нет других активных заданий. Минимальное допустимое значение — 5 минут (00:05:00). Например, если выполнение действия занимает 6 минут, а значение свойства timetolive равно 5 минутам, кластер остается активным в течение 5 минут по истечении 6-минутного выполнения действия. Если в течение этих 6 минут выполняется другое действие, оно обрабатывается в том же кластере. Создание кластера HDInsight по запросу является ресурсоемкой операцией и может занять некоторое время. При необходимости используйте этот параметр для повышения производительности службы путем повторного использования кластера HDInsight по запросу. Если значение timetolive равно 0, кластер удаляется сразу после выполнения действия. В то время как при установке высокого значения кластер может оставаться в состоянии простоя для входа в систему для некоторых целей устранения неполадок, но это может привести к высокой стоимости. Поэтому необходимо установить соответствующее значение в соответствии со своими потребностями. Если значение свойства timetolive задано соответствующим образом, несколько конвейеров могут совместно использовать экземпляр кластера HDInsight по требованию. |
Yes |
| clusterType | Тип создаваемого кластера HDInsight. Допустимые значения: Hadoop и Spark. Если не указано другое, по умолчанию используется значение Hadoop. Кластер с включенным корпоративным пакетом безопасности не может быть создан по запросу, вместо этого используйте существующий кластер/ обеспечьте собственные вычислительные ресурсы. | No |
| version | Версия кластера HDInsight. Если не указано другое, используется текущая заданная версия HDInsight по умолчанию. | No |
| hostSubscriptionId | Идентификатор подписки Azure, используемый для создания кластера HDInsight. Если его не указано, используется идентификатор подписки в контексте вашего входа в Azure. | No |
| clusterNamePrefix | Префикс имени кластера HDI, к которому автоматически добавляется метка времени в конце имени кластера. | No |
| sparkVersion | Версия Spark, если используется тип кластера Spark. | No |
| additionalLinkedServiceNames | Указывает дополнительные учетные записи хранилища для связанной службы HDInsight, чтобы служба могла зарегистрировать их от вашего имени. Эти учетные записи хранилища должны находиться в том же регионе, что и кластер HDInsight, который создается в том же регионе, что и учетная запись хранилища, указанная linkedServiceName. | No |
| osType | Тип операционной системы. Допустимые значения: Linux и Windows (только для HDInsight 3.3). Значение по умолчанию — Linux. | No |
| hcatalogLinkedServiceName | Имя связанной службы Azure SQL, указывающей на базу данных HCatalog. Кластер HDInsight по запросу создается с помощью Azure SQL Database в качестве хранилища метаданных. | No |
| connectVia | Время выполнения интеграции, которое будет использоваться для отправки действий в связанную службу HDInsight. Для связанной службы HDInsight по запросу она поддерживает только Azure Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. | No |
| clusterUserName | Имя пользователя для доступа к кластеру. | No |
| clusterPassword | Пароль в виде безопасной строки для доступа к кластеру. | No |
| clusterSshUserName | Имя пользователя для удалённого подключения по SSH к узлу кластера (для Linux). | No |
| clusterSshPassword | Пароль в формате защищённой строки для удалённого подключения по протоколу SSH к узлу кластера (Linux). | No |
| scriptActions | Во время создания кластера по запросу укажите скрипт для настроек кластера HDInsight. Сейчас средство разработки пользовательского интерфейса поддерживает указание только 1 действия скрипта, но вы можете обойти это ограничение в JSON (укажите несколько действий скрипта в формате JSON). |
No |
Important
HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.
Important
В настоящее время связанные службы HDInsight не поддерживают HBase, Interactive Query (Hive LLAP), Storm.
- Пример кода JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Authentication
Аутентификация служебного принципала
Для связанной службы HDInsight по запросу необходимо выполнить проверку подлинности субъекта-службы, чтобы создать кластеры HDInsight от вашего имени. Чтобы использовать аутентификацию служебного принципала, зарегистрируйте сущность приложения в Microsoft Entra ID и предоставьте ей роль Contributor для подписки или группы ресурсов, в которой создается кластер HDInsight. Для получения подробных инструкций см. в разделе Создание приложения Microsoft Entra и учетной записи служб с использованием портала для доступа к ресурсам. Запишите следующие значения, которые используются для определения связанной службы:
- Идентификатор приложения
- ключ приложения.
- Идентификатор арендатора
Используйте аутентификацию с помощью сервисного принципала, указав следующие свойства:
| Property | Description | Required |
|---|---|---|
| servicePrincipalId | Укажите идентификатора клиента приложения. | Yes |
| servicePrincipalKey | Укажите ключ приложения. | Yes |
| tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Его можно получить, наведите указатель мыши в правом верхнем углу портала Azure. | Yes |
Проверка подлинности управляемого удостоверения
При использовании проверки подлинности с использованием управляемого удостоверения для связанных по запросу служб Azure HDInsight убедитесь, что объект Управляемого удостоверения имеет роль доступа Contributor к группе ресурсов.
Основные учетные записи хранилища ADLS 2-го поколения теперь поддерживают аутентификацию на основе назначенных пользователем управляемых удостоверений (User Assigned Managed Identity, UAMI) в дополнение к существующей аутентификации на основе ключа. UAMI должен иметь разрешения владельца данных BLOB в основной учетной записи хранилища.
Limitations:
- Основная учетная запись хранилища ADLS Gen2 и UAMI должны находиться в той же группе ресурсов, что и группа ресурсов, используемая для создания кластера HDInsight по требованию.
- Имя объекта учетных данных для UAMI в фабрике данных должно точно соответствовать имени UAMI.
Дополнительные сведения см. в разделе Create Azure HDInsight - Azure Data Lake Storage Gen2 - portal и Управляемые удостоверения в Azure HDInsight
Дополнительные свойства
Для детализированной настройки кластера HDInsight по запросу можно также указать следующие свойства.
| Property | Description | Required |
|---|---|---|
| coreConfiguration | Задает параметры конфигурации ядра (как в файле core-site.xml) для создаваемого кластера HDInsight. | No |
| hBaseConfiguration | Задает основные параметры конфигурации HBase (hbase-site.xml) для кластера HDInsight. | No |
| hdfsConfiguration | Задает основные параметры конфигурации HDFS (hdfs-site.xml) для кластера HDInsight. | No |
| hiveConfiguration | Задает основные параметры конфигурации Hive (hive-site.xml) для кластера HDInsight. | No |
| mapReduceConfiguration | Задает параметры конфигурации MapReduce (mapred-site.xml) для кластера HDInsight. | No |
| oozieConfiguration | Задает параметры конфигурации Oozie (oozie-site.xml) для кластера HDInsight. | No |
| stormConfiguration | Задает параметры конфигурации Storm (storm-site.xml) для кластера HDInsight. | No |
| yarnConfiguration | Задает параметры конфигурации Yarn (yarn-site.xml) для кластера HDInsight. | No |
- Пример. Конфигурация кластера HDInsight по запросу с расширенными свойствами
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Размеры узлов
Вы можете указать размеры узлов головы, узлов данных и узлов Zookeeper, используя следующие свойства.
| Property | Description | Required |
|---|---|---|
| headNodeSize | Указывает размер головного узла. Значение по умолчанию: Standard_D3. Дополнительные сведения см. в разделе Указание размеров узлов. | No |
| dataNodeSize | Задает размер узла данных. Значение по умолчанию: Standard_D3. | No |
| zookeeperNodeSize | Задает размер узла ZooKeeper. Значение по умолчанию: Standard_D3. | No |
- Указание размеров узлов смотрите статью Размеры виртуальных машин для строковых значений, которые необходимо указать для свойств, упомянутых в предыдущем разделе. Значения должны соответствовать указанным в статье командлетам и API. Как видно из статьи, узел данных большого размера (по умолчанию) имеет 7 ГБ памяти, что может быть недостаточно для вашего сценария.
Если вы хотите создать головной узел D4 и рабочие узлы, укажите Standard_D4 в качестве значения свойств headNodeSize и dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Если указать неправильное значение для этих свойств, может появиться следующая ошибка: не удалось создать кластер. Исключение: не удается завершить операцию создания кластера. Операция завершилась ошибкой с кодом 400. Оставшееся состояние кластера: "Ошибка". Сообщение: PreClusterCreationValidationFailure. При получении этой ошибки убедитесь, что вы используете название CMDLET и APIS из таблицы в статье Размеры виртуальных машин.
Использование собственной среды вычислений
В конфигурации такого типа вы можете зарегистрировать уже существующую вычислительную среду как связанную службу. Пользователь управляет вычислительной средой, а служба использует ее для выполнения действий.
Такая конфигурация поддерживается в следующих средах вычислений:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
связанная служба Azure HDInsight
Вы можете создать связанную службу Azure HDInsight, чтобы зарегистрировать собственный кластер HDInsight в среде Data Factory или рабочей области Synapse.
Пример использования базовой проверки подлинности
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Пример использования системно назначенного управляемого удостоверения
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "SystemAssignedManagedIdentity",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Пример использования управляемой идентичности, назначенной пользователем
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| type | Свойство type должно иметь значение HDInsight. | Yes |
| clusterUri | URI кластера HDInsight. | Yes |
| username | Укажите имя пользователя, которое будет использоваться для подключения к существующему кластеру HDInsight. | Yes |
| password | Укажите пароль для учетной записи пользователя. | Yes |
| linkedServiceName | Имя связанного сервиса Azure Storage, который ссылается на Azure Blob Storage, используемое HDInsight кластером. В настоящее время для этого свойства нельзя указать связанную службу Azure Data Lake Storage (2-го поколения). Если кластер HDInsight имеет доступ к хранилищу Data Lake, вы можете получить доступ к данным в Azure Data Lake Storage (2-го поколения) из скриптов Hive/Pig. |
Yes |
| isEspEnabled | Укажите true, если кластер HDInsight включен с Enterprise Security Package. Значение по умолчанию — false. | No |
| connectVia | Integration Runtime, используемый для отправки действий в связанную службу. Вы можете использовать Azure Integration Runtime или локально размещенные Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. Для кластера HDInsight с поддержкой корпоративного пакета безопасности (ESP) используется локальная среда выполнения интеграции, которая имеет линию видимости кластера или ее следует развернуть внутри той же Virtual Network, что и кластер ESP HDInsight. |
No |
| clusterAuthType | Укажите тип проверки подлинности кластера HDInsight. Поддерживаемые типы проверки подлинности: BasicAuth, SystemAssignedManagedIdentity, UserAssignedManagedIdentity. | Требуется для использования проверки подлинности Управляемого Удостоверения. Если поле отсутствует, по умолчанию используется BasicAuth. |
| credential | Укажите ссылку на учетные данные, содержащую сведения об объекте Управляемого удостоверения для кластера HDInsight. | Требуется только для проверки подлинности UserAssignedManagedIdentity |
Authentication
Связанная служба Azure Storage для ADLS 2-го поколения теперь поддерживает управляемые удостоверения, назначаемые как системой, так и пользователем, в дополнение к существующим методам проверки подлинности. Эта поддержка доступна по умолчанию при использовании Azure Integration Runtime (Azure IR) и поддерживается в локальном Integration Runtime (SHIR) начиная с версии 5.55.9306.2 или более поздней. Для Azure Blob Storage связанная служба Azure Storage продолжает поддерживать только проверку подлинности ключа учетной записи. Проверка подлинности управляемого удостоверения кластера теперь также доступна по умолчанию при использовании Azure IR и поддерживается в SHIR, начиная с версии 5.58 или более поздней. При создании кластера можно использовать только один метод проверки подлинности для каждого кластера. Дополнительные сведения о создании кластеров и управлении ими с помощью управляемого удостоверения см. в статье Создание и управление кластерами Azure HDInsight с проверкой подлинности Entra ID
Important
HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.
Important
В настоящее время связанные службы HDInsight не поддерживают HBase, Interactive Query (Hive LLAP), Storm.
связанная служба Azure Batch
Note
Мы рекомендуем использовать модуль Az PowerShell Azure для взаимодействия с Azure. Сведения о начале работы см. в разделе Install Azure PowerShell. Сведения о миграции в модуль Az PowerShell см. в статье Migrate Azure PowerShell из AzureRM в Az.
Можно создать связанную службу Azure Batch для регистрации пула виртуальных машин (VM) в рабочей области данных или Synapse. Настраиваемое действие можно запустить с помощью Azure Batch.
Ознакомьтесь со следующими статьями, если вы не знакомы с службой Azure Batch:
- Azure Batch Basics чтобы получить обзор службы Azure Batch.
- командлет New-AzBatchAccount для создания учетной записи Azure Batch или портал Azure для создания учетной записи Azure Batch через портал Azure. Подробные инструкции по использованию командлета см. в статье Использование PowerShell для управления учетной записью Azure Batch.
- New-AzBatchPool cmdlet для создания пула Azure Batch.
Important
При создании нового пула Azure Batch необходимо использовать "VirtualMachineConfiguration" и НЕ "CloudServiceConfiguration".
Example
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| type | Свойство type должно иметь значение AzureBatch. | Yes |
| accountName | Имя учетной записи Azure Batch. | Yes |
| accessKey | Ключ доступа для учетной записи Azure Batch. | Yes |
| batchUri | URL-адрес учетной записи Azure Batch в формате https://batchaccountname.region.batch.azure.com. | Yes |
| poolName | Имя пула виртуальных машин. | Yes |
| linkedServiceName | Название службы Azure Storage, связанной с этой связанной службой Azure Batch. Эта связанная служба используется для размещения файлов, необходимых для выполнения активности. | Yes |
| connectVia | Integration Runtime, используемый для отправки действий в связанную службу. Вы можете использовать Azure Integration Runtime или локально размещенные Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. | No |
связанная служба Machine Learning Studio (классическая)
Important
Поддержка Azure Machine Learning Studio (классическая версия) завершится 31 августа 2024 г. Мы рекомендуем перейти на Azure Machine Learning по этой дате.
По состоянию на 1 декабря 2021 г. нельзя создавать новые Machine Learning Studio (классические) ресурсы (рабочая область и план веб-службы). До 31 августа 2024 г. можно продолжать использовать существующие Machine Learning Studio (классические) эксперименты и веб-службы. Дополнительные сведения см. в разделе:
- Перенос на Azure Machine Learning из Machine Learning Studio (классической)
- Что такое Azure Machine Learning?
Документация Machine Learning Studio (Classic) снимается с поддержки и может не обновляться в будущем.
Вы создаете связанную службу Machine Learning Studio (classic) для регистрации пакетной конечной точки оценивания в фабрике данных или рабочей области Synapse.
Example
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Type | Свойство type должно иметь значение : AzureML. | Yes |
| mlEndpoint | URL-адрес пакетной оценки. | Yes |
| apiKey | API модели рабочей области, опубликованной. | Yes |
| updateResourceEndpoint | URL-адрес обновления ресурса для конечной точки веб-службы "Студия машинного обучения (классическая версия)", используемый для обновления прогнозной веб-службы с помощью файла обученной модели. | No |
| servicePrincipalId | Укажите идентификатора клиента приложения. | Требуется, если задано свойство updateResourceEndpoint |
| servicePrincipalKey | Укажите ключ приложения. | Требуется, если задано свойство updateResourceEndpoint |
| tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Его можно получить, наведите указатель мыши в правом верхнем углу портала Azure. | Требуется, если задано свойство updateResourceEndpoint |
| connectVia | Integration Runtime, используемый для отправки действий в связанную службу. Вы можете использовать Azure Integration Runtime или локально размещенные Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. | No |
связанная служба Azure Machine Learning
Вы создаете связанную службу Azure Machine Learning для подключения рабочей области Azure Machine Learning к фабрике данных или рабочей области Synapse.
Note
В настоящее время для связанной службы Azure Machine Learning поддерживается только проверка подлинности сервисного субъекта.
Example
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Type | Свойство type должно иметь значение : AzureMLService. | Yes |
| subscriptionId | идентификатор подписки Azure | Yes |
| resourceGroupName | name | Yes |
| mlWorkspaceName | имя рабочей области Azure Machine Learning | Yes |
| servicePrincipalId | Укажите идентификатора клиента приложения. | Yes |
| servicePrincipalKey | Укажите ключ приложения. | Yes |
| tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Его можно получить, наведите указатель мыши в правом верхнем углу портала Azure. | Требуется, если задано свойство updateResourceEndpoint |
| connectVia | Integration Runtime, используемый для отправки действий в связанную службу. Вы можете использовать Azure Integration Runtime или локально размещенные Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. | No |
связанная служба Azure Data Lake Analytics
Вы создаете связанную службу Azure Data Lake Analytics для связывания службы вычислений Azure Data Lake Analytics с фабрикой данных или рабочей областью Synapse. Действие U-SQL в конвейере Data Lake Analytics относится к этой связанной службе.
Example
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| type | Свойство type должно иметь значение : AzureDataLakeAnalytics. | Yes |
| accountName | Имя учетной записи Azure Data Lake Analytics. | Yes |
| dataLakeAnalyticsUri | Azure Data Lake Analytics URI. | No |
| subscriptionId | идентификатор подписки Azure | No |
| resourceGroupName | имя группы ресурсов Azure | No |
| servicePrincipalId | Укажите идентификатора клиента приложения. | Yes |
| servicePrincipalKey | Укажите ключ приложения. | Yes |
| tenant | Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Его можно получить, наведите указатель мыши в правом верхнем углу портала Azure. | Yes |
| connectVia | Integration Runtime, используемый для отправки действий в связанную службу. Вы можете использовать Azure Integration Runtime или локально размещенные Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. | No |
связанная служба Azure Databricks
Вы можете создать связанную службу Azure Databricks, чтобы зарегистрировать рабочую область Databricks для выполнения рабочих нагрузок Databricks, таких как блокнот, jar и python.
Important
Связанные службы Databricks поддерживают пулы экземпляров и проверку подлинности управляемого удостоверения, назначаемого системой.
Пример. Использование нового кластера заданий в Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Пример. Использование существующего интерактивного кластера в Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Имя связанной службы | Yes |
| type | Свойство type должно иметь значение: Azure Databricks. | Yes |
| domain | Укажите регион Azure соответствующим образом в зависимости от региона рабочей области Databricks. Пример: https://eastus.azuredatabricks.net | Yes |
| accessToken | Маркер доступа необходим для проверки подлинности службы в Azure Databricks. Access маркер необходимо создать из рабочей области Databricks. Более подробные инструкции по поиску маркера доступа можно найти here | No |
| MSI | Используйте управляемое удостоверение службы (назначаемое системой) для проверки подлинности в Azure Databricks. При использовании аутентификации MSI не требуется токен доступа. Более подробную информацию о проверке подлинности управляемого удостоверения можно найти здесь. | No |
| existingClusterId | Идентификатор существующего кластера для запуска всех заданий на нем. Это должен быть уже созданный интерактивный кластер. Возможно, потребуется вручную перезапустить кластер, если он перестанет отвечать. Для улучшения надежности Databricks предлагает выполнять задания на новых кластерах. Идентификатор интерактивного кластера можно найти, выбрав "Рабочая область Databricks" -> "Кластеры" -> "Имя интерактивного кластера" -> "Конфигурация" -> "Теги". Дополнительные сведения | No |
| instancePoolId | Идентификатор экземпляра существующего пула в рабочей области Databricks. | No |
| newClusterVersion | Версия кластера Spark. Она создает кластер заданий в Databricks. | No |
| newClusterNumOfWorker | Необходимое число рабочих узлов текущего кластера. В кластере присутствует один драйвер Spark и исполнители num_workers для такого числа узлов: Spark num_workers + 1. Строка в формате Int32, например "1", означает, что параметр numOfWorker имеет значение 1, а "1:10" означает автомасштабирование от 1 (минимум) до 10 (максимум). | No |
| newClusterNodeType | Используя отдельное значение, это поле кодирует доступные ресурсы для каждого узла Spark в этом кластере. Например, узлы Spark могут быть подготовлены и оптимизированы для операций в памяти или для ресурсоемких рабочих нагрузок. Это поле обязательно для нового кластера. | No |
| newClusterSparkConf | Набор необязательных, определяемых пользователем пар "ключ — значение" в конфигурации Spark. Пользователи также могут передавать строку дополнительных параметров JVM драйверу и исполнителям через spark.driver.extraJavaOptions и spark.executor.extraJavaOptions соответственно. | No |
| newClusterInitScripts | Набор необязательных, определяемых пользователем скриптов инициализации для нового кластера. Скрипты инициализации можно указать в файлах рабочей области (рекомендуется) или с помощью пути DBFS (устаревшая версия). | No |
связанная служба Azure SQL Database
Вы создаете связанную службу Azure SQL и используете её с действием хранимой процедуры Stored Procedure Activity для вызова хранимой процедуры из потока. См. статью Azure SQL Connector для получения подробной информации об этой связанной службе.
связанная служба Azure Synapse Analytics
Вы создаете связанную службу Azure Synapse Analytics и используете ее с действием хранимой процедуры
связанная служба SQL Server
Вы создаете связанную службу SQL Server и используете её с активностью вызова хранимой процедуры для вызова запроса хранимой процедуры из потока данных. Дополнительные сведения об этой связанной службе см. в статье SQL Server connector.
связанная служба Azure Synapse Analytics (артефакты)
Вы создаете связанную службу Azure Synapse Analytics (артефакты) и используете ее с действием Synapse Notebook Activity и Synapse Spark job definition Activity.
Example
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Имя связанной службы | Yes |
| description | описание связанной службы | No |
| annotations | аннотации связанного сервиса | No |
| type | Свойство type должно иметь значение AzureSynapseArtifacts | Yes |
| endpoint | URL-адрес Azure Synapse Analytics | Yes |
| authentication | Параметр по умолчанию — управляемое удостоверение, назначаемое системой | Yes |
| workspaceResourceId | Идентификатор ресурса рабочей области | Yes |
| connectVia | Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать Azure Integration Runtime. Если он не указан, используется Azure Integration Runtime по умолчанию. В настоящее время локальная integration runtime не поддерживается. | Yes |
связанная служба Azure Functions
Вы создаете связанную службу Azure Function и используете ее с действием Azure Function для запуска Azure Functions в конвейере. Возвращаемый тип функции Azure должен быть допустимым JObject. (Имейте в виду, что JArrayне является JObject.) Любой возвращаемый тип, отличный от JObject, приводит к сбою и вызывает ошибку пользователя Содержимое ответа не является допустимым JObject.
| Property | Description | Required |
|---|---|---|
| type | Свойство type должно иметь значение : AzureFunction | yes |
| функция приложения URL | URL-адрес приложения-функции Azure. Формат — https://<accountname>.azurewebsites.net. Этот URL-адрес является значением в разделе URL при просмотре вашего Function App в портале Azure. |
yes |
| функциональная клавиша | Ключ доступа для функции Azure. Щелкните раздел «Управление» для соответствующей функции и скопируйте либо функциональную клавишу, либо ключ хоста. Дополнительные сведения см. здесь: Работа с ключами доступа | yes |
Связанный контент
Список поддерживаемых действий преобразования см. в разделе "Преобразование данных".