Бөлісу құралы:


Вычислительные среды, поддерживаемые конвейерами Фабрики данных Azure и Azure Synapse

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

В этой статье описываются различные среды вычислений, которые можно использовать для обработки и преобразования данных. Здесь содержатся также сведения о различных конфигурациях (конфигурациях по запросу и ваших собственных), которые поддерживаются при настройке связанных служб, связывающих эти вычислительные среды.

Следующая таблица содержит список поддерживаемых вычислительных сред и доступных в них действий.

Вычислительная среда Процедуры
Кластер HDInsight по запросу или собственный кластер HDInsight Hive, Pig, Spark, MapReduce, потоковая передача Hadoop
Пакетная служба Azure Пользовательское
Студия машинного обучения (классическая модель) Действия Студии машинного обучения Azure (классическая версия): пакетное выполнение и обновление ресурса
Машинное обучение Azure Выполнение конвейера в Машинном обучении Azure
Azure Data Lake Analytics Аналитика озера данных U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Хранимая процедура
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (артефакты) Действие Synapse Notebook, определение задания Synapse Spark
Функция Azure Действия функции Azure

Вычислительная среда HDInsight

В таблице ниже приведены сведения о поддерживаемых типах связанных служб хранилища для конфигурации в среде по запросу и BYOC (использование собственной вычислительной среды).

В связанной службе вычислений Имя свойства Description BLOB-объект ADLS 2-го поколения Базой данных SQL Azure ADLS 1-го поколения
По требованию linkedServiceName Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. Да Да No No
additionalLinkedServiceNames Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. Да No No No
hcatalogLinkedServiceName Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных. No No Да Нет
BYOC linkedServiceName Ссылка на связанную службу хранилища Azure. Да Да No No
additionalLinkedServiceNames Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. No No No No
hcatalogLinkedServiceName Ссылка на связанную службу Azure SQL, указывающая на базу данных HCatalog. No No No No

Вычислительные среды, поддерживаемые фабрикой данных Azure

В конфигурации такого типа вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете создать связанную службу для среды вычислений по запросу, настроить ее и управлять детализированными параметрами выполнения задания, управления кластером и параметрами действий начальной загрузки.

Примечание.

Конфигурации по запросу в настоящее время поддерживаются только для кластеров Azure HDInsight. Azure Databricks также поддерживает задания по запросу с помощью кластеров заданий. Дополнительные сведения см. в разделе о связанной службе Azure Databricks.

Для обработки данных служба автоматически создает кластер HDInsight по запросу. Кластер создается в том же регионе, что и учетная запись хранения (свойство linkedServiceName в JSON), связанная с кластером. must должна быть стандартной универсальной учетной записью хранения Azure.

Обратите внимание на следующие важные моменты, касающиеся связанной службы HDInsight по запросу.

  • Кластер HDInsight по запросу создается в вашей подписке Azure. Сразу после запуска кластер отобразится на портале Azure.
  • Журналы заданий, которые выполняются в кластере HDInsight по запросу, копируются в учетную запись хранения, связанную с кластером HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword, заданные в определении связанной службы, используются для входа в кластер, чтобы выполнить глубокую диагностику в течение жизненного цикла кластера.
  • Вы оплачиваете только время, когда кластер HDInsight работает и выполняет задания.
  • Со связанными службами Azure HDInsight, которые доступны по запросу, можно использовать действие скрипта.

Внимание

Подготовка к работе кластера HDInsight Azure по запросу обычно занимает от 20 минут.

Пример

Представленный ниже код JSON определяет связанную службу HDInsight по запросу под управлением Linux. Служба автоматически создает кластер HDInsight на основе Linux для обработки необходимых действий.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Внимание

Кластер HDInsight создает контейнер по умолчанию в хранилище BLOB-объектов, указанном в коде JSON (linkedServiceName). При удалении кластера HDInsight этот контейнер не удаляется. Такое поведение предусмотрено программой. Если используется связанная служба HDInsight по запросу, кластер HDInsight создается всякий раз, когда нужно обработать срез данных (если не используется динамический кластерtimeToLive), после чего кластер удаляется.

По мере выполнения действий количество контейнеров в хранилище BLOB-объектов будет увеличиваться. Если их не требуется для устранения неполадок заданий, может потребоваться удалить их, чтобы сократить затраты на хранение. Имена этих контейнеров указаны по шаблону adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Для удаления контейнеров в хранилище BLOB-объектов Azure используйте такие инструменты, как Обозреватель службы хранилища Microsoft Azure.

Свойства

Свойство Описание: Обязательное поле
type Свойству type необходимо присвоить значение HDInsightOnDemand. Да
clusterSize Общее количество рабочих узлов и узлов данных в кластере. Кластер HDInsight создается с 2 головными узлами и количеством рабочих узлов, заданным в этом свойстве. Узлы имеют размер Standard_D3 с 4 ядрами, то есть кластер с 4 рабочими узлами использует 24 ядра (4*4 = 16 для рабочих узлов + 2*4 = 8 для головных узлов). Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий. Да
linkedServiceName Связанная служба хранилища Azure, которую кластер по запросу должен использовать для хранения и обработки данных. Кластер HDInsight создается в том же регионе, что и учетная запись хранения Azure. Azure HDInsight имеет ограничение на общее количество ядер, которые можно использовать в каждом поддерживаемом регионе Azure. Убедитесь, что у вас есть достаточное количество квот ядер в необходимом регионе Azure в соответствии с необходимым размером кластера. Дополнительные сведения см. в статье Установка кластеров в HDInsight с использованием Hadoop, Spark, Kafka и других технологий.

В настоящее время недоступно создание кластера HDInsight по запросу, который использует в качестве хранилища Azure Data Lake Storage поколения 2. Чтобы сохранить данные результатов обработки HDInsight в Azure Data Lake Storage поколения 2, воспользуйтесь действием копирования и скопируйте данные из хранилища BLOB-объектов Azure в Azure Data Lake Storage поколения 2.

Да
clusterResourceGroup В этой группе ресурсов создается кластер HDInsight. Да
timeToLive Допустимое время простоя кластера HDInsight по запросу. Указывает, как долго кластер HDInsight по запросу остается активным после выполнения действия, если в кластере нет других активных заданий. Минимальное допустимое значение — 5 минут (00:05:00).

Например, если выполнение действия занимает 6 минут, а значение свойства timetolive равно 5 минутам, кластер остается активным в течение 5 минут по истечении 6-минутного выполнения действия. Если в течение этих 6 минут выполняется другое действие, оно обрабатывается в том же кластере.

Создание кластера HDInsight по запросу является ресурсоемкой операцией и может занять некоторое время. При необходимости используйте этот параметр для повышения производительности службы путем повторного использования кластера HDInsight по запросу.

Если значение timetolive равно 0, кластер удаляется сразу после выполнения действия. В то время как при установке высокого значения кластер может оставаться в состоянии простоя для входа в систему для некоторых целей устранения неполадок, но это может привести к высокой стоимости. Поэтому необходимо установить соответствующее значение в соответствии со своими потребностями.

Если значение свойства timetolive задано правильно, один и тот же экземпляр кластера HDInsight по запросу могут совместно использовать несколько конвейеров.
Да
clusterType Тип создаваемого кластера HDInsight. Допустимые значения: Hadoop и Spark. Если не указано другое, по умолчанию используется значение Hadoop. Кластеры с корпоративными пакетами безопасности нельзя создать по запросу, вместо этого используйте существующий кластер или ваше собственное вычисление, подробнее см. в разделе Связанная служба Azure HDInsight. No
версия Версия кластера HDInsight. Если не указано другое, используется текущая заданная версия HDInsight по умолчанию. No
hostSubscriptionId Идентификатор подписки Azure, используемый для создания кластера HDInsight. Если не указано другое, будет использоваться идентификатор подписки контекста входа в Azure. No
clusterNamePrefix Префикс имени кластера HDI. Метка времени будет автоматически добавляться в конец имени кластера. No
sparkVersion Версия Spark, если используется тип кластера Spark. No
additionalLinkedServiceNames Указывает дополнительные учетные записи хранения для связанной службы HDInsight, чтобы служба могла регистрировать их от вашего имени. Эти учетные записи хранения должны находиться в том же регионе, что и кластер HDInsight, который создается в одном регионе с учетной записью хранения, указанной параметром linkedServiceName. No
osType Тип операционной системы. Допустимые значения: Linux и Windows (только для HDInsight 3.3). Значение по умолчанию — Linux. No
hcatalogLinkedServiceName Имя связанной службы SQL Azure, указывающее на базу данных HCatalog. При создании кластера HDInsight по запросу используется база данных SQL Azure в качестве хранилища метаданных. No
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу HDInsight. Для связанной службы HDInsight по запросу поддерживается только среда выполнения интеграции Azure. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No
clusterUserName Имя пользователя для доступа к кластеру. No
clusterPassword Пароль в строке защищенного типа для доступа к кластеру. No
clusterSshUserName Имя пользователя для установки удаленного подключения SSH к узлу кластера (для Linux). No
clusterSshPassword Пароль в строке защищенного типа для установки удаленного подключения SSH к узлу кластера (для Linux). No
scriptActions Во время создания кластера по запросу укажите скрипт для настроек кластера HDInsight.
Сейчас средство разработки пользовательского интерфейса поддерживает указание только 1 действия скрипта, но вы можете обойти это ограничение в JSON (укажите несколько действий скрипта в формате JSON).
No

Внимание

HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.

Внимание

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

  • Пример кода JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Аутентификация субъекта-службы

Для связанной службы HDInsight по запросу необходимо выполнить проверку подлинности субъекта-службы, чтобы создать кластеры HDInsight от вашего имени. Чтобы использовать проверку подлинности субъекта-службы, зарегистрируйте сущность приложения в идентификаторе Microsoft Entra и предоставьте ей роль участника подписки или группы ресурсов, в которой создается кластер HDInsight. Подробные инструкции см . на портале для создания приложения Microsoft Entra и субъекта-службы, доступ к ресурсам. Запишите следующие значения, которые используются для определения связанной службы:

  • Application ID
  • ключ приложения.
  • Идентификатор клиента

Используйте проверку подлинности на основе субъекта-службы, указав следующие свойства:

Свойство Описание: Обязательное поле
servicePrincipalId Укажите идентификатора клиента приложения. Да
servicePrincipalKey Укажите ключ приложения. Да
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Да

Дополнительные свойства

Для детализированной настройки кластера HDInsight по запросу можно также указать следующие свойства.

Свойство Описание: Обязательное поле
coreConfiguration Задает параметры конфигурации ядра (как в файле core-site.xml) для создаваемого кластера HDInsight. No
hBaseConfiguration Задает основные параметры конфигурации HBase (hbase-site.xml) для кластера HDInsight. No
hdfsConfiguration Задает основные параметры конфигурации HDFS (hdfs-site.xml) для кластера HDInsight. No
hiveConfiguration Задает основные параметры конфигурации Hive (hive-site.xml) для кластера HDInsight. No
mapReduceConfiguration Задает параметры конфигурации MapReduce (mapred-site.xml) для кластера HDInsight. No
oozieConfiguration Задает параметры конфигурации Oozie (oozie-site.xml) для кластера HDInsight. No
stormConfiguration Задает параметры конфигурации Storm (storm-site.xml) для кластера HDInsight. No
yarnConfiguration Задает параметры конфигурации Yarn (yarn-site.xml) для кластера HDInsight. No
  • Пример. Конфигурация кластера HDInsight по запросу с расширенными свойствами
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Размеры узлов

Вы можете указать размеры головных узлов, узлов данных и узлов zookeeper, используя следующие свойства.

Свойство Описание: Обязательное поле
headNodeSize Указывает размер головного узла. Значение по умолчанию: Standard_D3. Дополнительные сведения см. в разделе Указание размеров узлов. No
dataNodeSize Задает размер узла данных. Значение по умолчанию: Standard_D3. No
zookeeperNodeSize Задает размер узла Zoo Keeper. Значение по умолчанию: Standard_D3. No
  • Указывает размер узлов. Сведения о строковых значениях, необходимых для задания указанных выше свойств, см. в статье Размеры виртуальных машин в Azure. Значения должны соответствовать указанным в статье командлетам и API. Как видно из статьи, узел данных большого размера (по умолчанию) имеет 7 ГБ памяти, что может быть недостаточно для вашего сценария.

Если вы хотите создать головные узлы и рабочие узлы размера D4, укажите Standard_D4 в качестве значения для свойств headNodeSize и dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Если указать неправильное значение для этих свойств, может появиться следующая ошибка: не удалось создать кластер. Исключение: не удается завершить операцию создания кластера. Операция завершилась ошибкой с кодом 400. Оставшееся состояние кластера: "Ошибка". Сообщение: "PreClusterCreationValidationFailure". При появлении этой ошибки убедитесь, что вы используете имя командлета или API из таблицы в статье Размеры виртуальных машин в Azure.

Использование собственной среды вычислений

В конфигурации такого типа вы можете зарегистрировать уже существующую вычислительную среду как связанную службу. Пользователь управляет вычислительной средой, а служба использует ее для выполнения действий.

Такая конфигурация поддерживается в следующих средах вычислений:

  • Azure HDInsight
  • Пакетная служба Azure
  • Машинное обучение Azure
  • Аналитика озера данных Azure
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Связанная служба Azure HDInsight

Чтобы зарегистрировать собственный кластер HDInsight в фабрике данных или рабочей области Synapse, вы можете создать связанную службу Azure HDInsight.

Пример

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Свойства

Свойство Описание: Обязательное поле
type Свойству type необходимо присвоить значение HDInsight. Да
clusterUri Универсальный код ресурса (URI) кластера HDInsight. Да
username Укажите имя пользователя, которое будет использоваться для подключения к существующему кластеру HDInsight. Да
password Укажите пароль для учетной записи пользователя. Да
linkedServiceName Имя связанной службы для службы хранилища Azure, которая обращается к хранилищу BLOB-объектов Azure, используемому кластером HDInsight.

В настоящее время для этого свойства невозможно указать связанную службу Azure Data Lake Storage поколения 2. Если кластер HDInsight имеет доступ к Data Lake Store, вы можете получить доступ к данным в Azure Data Lake Storage (2-го поколения) из скриптов Hive/Pig.

Да
isEspEnabled Укажите значение true, если кластер HDInsight доступный с Корпоративными пакетами безопасности. Значение по умолчанию — false. No
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure.
Для кластеров HDInsight с Корпоративными пакетами безопасности (ESP) следует использовать локальную среду выполнения интеграции, которая имеет "прямую видимость" кластера или должна развертываться в той же виртуальной сети, что и кластер HDInsight для ESP.
No

Внимание

HDInsight поддерживает несколько версий кластера Hadoop, которые могут быть развернуты. Каждая из версий создает конкретную версию платформы HortonWorks Data Platform (HDP) и набор компонентов, содержащихся в этой версии. Список поддерживаемых версий HDInsight продолжает обновляться, чтобы предоставлять новейшие компоненты и исправления для экосистемы Hadoop. Ознакомьтесь с актуальной информацией о поддерживаемой версии HDInsight и типе ОС, чтобы убедиться, что используется поддерживаемая версия HDInsight.

Внимание

Сейчас службы, связанные с HDInsight, не поддерживают HBase, интерактивные запросы (Hive LLAP), Storm.

Связанная пакетная служба Azure

Примечание.

Мы рекомендуем использовать модуль Azure Az PowerShell для взаимодействия с Azure. Сведения о начале работы см. в статье "Установка Azure PowerShell". Дополнительные сведения см. в статье Перенос Azure PowerShell с AzureRM на Az.

Чтобы зарегистрировать пакетный пул виртуальных машин (ВМ) в фабрике данных или рабочей области Synapse, можно создать связанную пакетную службу Azure. Вы можете выполнить пользовательские действия с помощью пакетной службы Azure.

Если вы еще не знакомы с пакетной службой Azure, см. следующие статьи.

  • Основные сведения о пакетной службе Azure — общие сведения о пакетной службе Azure.
  • Статья о командлете New-AzBatchAccount со сведениями о создании учетной записи пакетной службы Azure или статья о портале Azure со сведениями о создании учетной записи пакетной службы Azure с помощью портала Azure. Подробные инструкции по использованию этого командлета см. в статье Using PowerShell to manage Azure Batch Account (Использование PowerShell для управления учетной записью пакетной службы Azure).
  • New-AzBatchPool со сведениями о создании пула пакетной службы Azure.

Внимание

При создании нового пула пакетной службы Azure необходимо использовать "VirtualMachineConfiguration", а не "CloudServiceConfiguration". Дополнительные сведения см. в руководстве по миграции пула пакетной службы Azure.

Пример

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Свойства

Свойство Описание: Обязательное поле
type Свойству type необходимо присвоить значение AzureBatch. Да
accountName Имя учетной записи пакетной службы Azure Да
accessKey Ключ доступа к учетной записи пакетной службы Azure. Да
batchUri URL-адрес учетной записи пакетной службы Azure в формате https://batchaccountname.region.batch.azure.com. Да
poolName Имя пула виртуальных машин. Да
linkedServiceName Имя связанной службы хранилища Azure, которая ассоциируется с этой связанной пакетной службой Azure. Эта связанная служба используется для промежуточных файлов, необходимых для выполнения действий. Да
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No

Связанная служба Студии машинного обучения (классической)

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Вы создаете связанную службу Машинное обучение Studio (классическая) для регистрации конечной точки оценки пакетной оценки Машинное обучение Studio (классической) в фабрике данных или рабочей области Synapse.

Пример

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Свойства

Свойство Описание: Обязательное поле
Тип Свойству type необходимо присвоить значение AzureML. Да
mlEndpoint URL-адрес пакетной оценки. Да
apiKey API модели опубликованной рабочей области. Да
updateResourceEndpoint URL-адрес обновления ресурса для конечной точки веб-службы "Студия машинного обучения (классическая версия)", используемый для обновления прогнозной веб-службы с помощью файла обученной модели. No
servicePrincipalId Укажите идентификатора клиента приложения. Требуется, если задано свойство updateResourceEndpoint
servicePrincipalKey Укажите ключ приложения. Требуется, если задано свойство updateResourceEndpoint
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Требуется, если задано свойство updateResourceEndpoint
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No

Связанная служба Машинного обучения Azure

Создайте связанную службу Машинного обучения Azure, чтобы связать рабочую область Машинного обучения Azure с фабрикой данных или рабочей областью Synapse.

Примечание.

Сейчас для связанной службы Машинного обучения Azure поддерживается только проверка подлинности субъекта-службы.

Пример

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства

Свойство Описание: Обязательное поле
Тип Свойство type должно иметь значение: AzureMLService. Да
subscriptionId Идентификатор подписки Azure Да
resourceGroupName name Да
mlWorkspaceName Имя рабочей области службы Машинного обучения Azure Да
servicePrincipalId Укажите идентификатора клиента приложения. Да
servicePrincipalKey Укажите ключ приложения. Да
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Требуется, если задано свойство updateResourceEndpoint
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No

Связанная служба Azure Data Lake Analytics

Можно создать связанную службу Azure Data Lake Analytics, чтобы связать службу вычислений Azure Data Lake Analytics с фабрикой данных или рабочей областью Synapse. Действие U-SQL Data Lake Analytics в конвейере ссылается на эту связанную службу.

Пример

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства

Свойство Описание: Обязательное поле
type Свойству type необходимо присвоить значение AzureDataLakeAnalytics. Да
accountName Имя учетной записи аналитики озера данных Azure. Да
dataLakeAnalyticsUri Универсальный код ресурса (URI) аналитики озера данных Azure. No
subscriptionId Идентификатор подписки Azure No
resourceGroupName Имя группы ресурсов Azure No
servicePrincipalId Укажите идентификатора клиента приложения. Да
servicePrincipalKey Укажите ключ приложения. Да
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Да
connectVia Среда выполнения интеграции, используемая для отправки действий в связанную службу. Вы можете использовать среду выполнения интеграции Azure или локальную среду выполнения интеграции. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. No

Связанная служба Azure Databricks

Вы можете создать связанную службу Azure Databricks, чтобы зарегистрировать рабочую область Databricks, которая будет использоваться для выполнения рабочих нагрузок (записных книжек, JAR, Python) Databricks.

Внимание

Связанные модулями связи службы поддерживают Пулы экземпляров и управляемую системой аутентификацию управляемых удостоверений.

Пример. Использование нового кластера заданий в Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Пример. Использование существующего интерактивного кластера в Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Свойства

Свойство Описание: Обязательное поле
name Имя связанной службы Да
type Свойство type должно иметь значение: Azure Databricks. Да
domain Укажите регион Azure на основе региона рабочей области Databricks. Пример: https://eastus.azuredatabricks.net Да
accessToken Чтобы служба прошла аутентификацию в Azure Databricks, необходим маркер доступа. Маркер доступа должен быть создан в рабочей области Databricks. Подробные инструкции по поиску маркера доступа см. в этой статье. No
MSI Используйте управляемое удостоверение службы (назначаемое системой) для проверки подлинности в Azure Databricks. При использовании проверки подлинности "MSI" маркер доступа не нужен. Дополнительные сведения о проверке подлинности с помощью управляемых удостоверений см. здесь. No
existingClusterId Идентификатор существующего кластера, где будут выполняться все задания. Это должен быть уже созданный интерактивный кластер. Возможно, потребуется вручную перезапустить кластер, если он перестанет отвечать. Для улучшения надежности Databricks предлагает выполнять задания на новых кластерах. Идентификатор интерактивного кластера можно найти, выбрав "Рабочая область Databricks" -> "Кластеры" -> "Имя интерактивного кластера" -> "Конфигурация" -> "Теги". Дополнительные сведения No
instancePoolId Идентификатор экземпляра пула существующего пула в рабочей области Databricks. No
newClusterVersion Версия Spark кластера. Она создает кластер заданий в Databricks. No
newClusterNumOfWorker Необходимое число рабочих узлов текущего кластера. В кластере присутствует один драйвер Spark и исполнители num_workers для такого числа узлов: Spark num_workers + 1. Строка в формате Int32, например "1", означает, что параметр numOfWorker имеет значение 1, а "1:10" означает автомасштабирование от 1 (минимум) до 10 (максимум). No
newClusterNodeType Используя отдельное значение, это поле кодирует доступные ресурсы для каждого узла Spark в этом кластере. Например, узлы Spark могут быть подготовлены и оптимизированы для операций в памяти или для ресурсоемких рабочих нагрузок. Это поле обязательно для нового кластера. No
newClusterSparkConf Набор необязательных, определяемых пользователем пар "ключ — значение" в конфигурации Spark. Пользователи также могут передавать строку дополнительных параметров JVM драйверу и исполнителям через spark.driver.extraJavaOptions и spark.executor.extraJavaOptions соответственно. No
newClusterInitScripts Набор необязательных, определяемых пользователем скриптов инициализации для нового кластера. Скрипты инициализации можно указать в файлах рабочей области (рекомендуется) или с помощью пути DBFS (устаревшая версия). No

Связанная служба "База данных SQL Azure"

Связанная служба Azure SQL создается и применяется к действию хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о связанной службе SQL Azure.

Связанная служба Azure Synapse Analytics

Связанную службу Azure Synapse Analytics можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительную информацию см. в статье о Соединителе Azure Synapse Analytics Connector.

Связанная служба SQL Server

Связанную службу SQL Server можно создать и применить к действиям хранимой процедуры для вызова хранимой процедуры из конвейера. Дополнительные сведения о связанной службе SQL Server см. в соответствующем разделе статьи Перемещение данных в базу данных SQL Server и обратно на локальных компьютерах и виртуальных машинах Azure IaaS с помощью фабрики данных Azure.

Связанная служба Azure Synapse Analytics (Artifacts)

Вы создаете связанную службу Azure Synapse Analytics (Artifacts) и используете ее с действием определения задания Synapse Notebook и Действием определения задания Synapse Spark.

Пример

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Свойства

Свойство Description Обязательный
name Имя связанной службы Да
описание описание связанной службы No
annotations заметки связанной службы No
type Свойство type должно иметь значение AzureSynapseArtifacts Да
конечная точка URL-адрес Azure Synapse Analytics Да
проверка подлинности Параметр по умолчанию — управляемое удостоверение, назначаемое системой Да
workspaceResourceId Идентификатор ресурса рабочей области Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Среду выполнения интеграции Azure можно использовать. Если не указано другое, по умолчанию используется интегрированная среда выполнения Azure. Локальная среда выполнения интеграции в настоящее время не поддерживается. Да

Связанные службы функции Azure

Связанную службу Функций Azure можно создать и применить к действию Функций Azure для запуска Функций Azure в конвейере. Тип возвращаемого значения функции Azure должен быть допустимым объектом JObject. (Помните, что JArray не JObjectявляется .) Любой возвращаемый тип, отличный от JObject сбоя, и вызывает содержимое ответа на ошибку пользователя не является допустимым JObject.

Свойство Description Обязательный
type Свойство type должно иметь значение: AzureFunction yes
function app url URL-адрес для приложения-функции Azure. Формат – https://<accountname>.azurewebsites.net. Этот URL-адрес – это значение в разделе URL при просмотре приложения-функции на портале Azure yes
function key Ключ доступа для функции Azure. Щелкните раздел Управление для соответствующей функции и скопируйте Function Key (ключ функции) или Host key (ключ хоста). Дополнительные сведения см. здесь: работа с ключами доступа yes

Список поддерживаемых действий преобразования см. в разделе Преобразование данных.