Azure Data Factory 和 Synapse 管線支援的計算環境

適用於: Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的單一分析解決方案。 Microsoft Fabric 涵蓋從數據移動到數據科學、即時分析、商業智慧和報告等所有專案。 瞭解如何 免費啟動新的試用版

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

從 2021 年 12 月 1 日起,您將無法建立新的 機器學習 Studio (傳統) 資源 (工作區和 Web 服務方案)。 到 2024 年 8 月 31 日,您可以繼續使用現有的 機器學習 Studio(傳統版) 實驗和 Web 服務。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

本文說明可用來處理或轉換數據的不同計算環境。 它也提供在設定連結這些計算環境的連結服務時所支援的不同組態的詳細數據(隨選與自備)。

下表提供支持的計算環境和可在它們上執行的活動清單。

計算環境 活動
隨選 HDInsight 叢集您自己的 HDInsight 叢集 HivePigSparkMapReduceHadoop 串流
Azure Batch 自訂
ML Studio (傳統) ML Studio (傳統) 活動:批次執行和更新資源
Azure Machine Learning Azure 機器學習 執行管線
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQLAzure Synapse AnalyticsSQL Server 預存程序
Azure Databricks NotebookJarPython
Azure Synapse Analytics (成品) Synapse Notebook 活動Synapse Spark 作業定義
Azure 函式 Azure 函式活動

HDInsight 計算環境

請參閱下表,以取得隨選和 BYOC(自備計算)環境中設定支援的記憶體連結服務類型詳細數據。

在計算連結服務中 屬性名稱 描述 Blob ADLS Gen2 Azure SQL DB ADLS Gen 1
依需求 linkedServiceName Azure 儲存體 隨選叢集用來儲存和處理數據的連結服務。 Yes .是 No
additionalLinkedServiceNames 指定 HDInsight 連結服務的其他記憶體帳戶,讓服務可以代表您註冊它們。 No
hcatalogLinkedServiceName 指向 HCatalog 資料庫的 Azure SQL 連結服務名稱。 隨選 HDInsight 叢集是使用 Azure SQL 資料庫作為中繼存放區所建立。 No .是 No
BYOC linkedServiceName Azure 儲存體 連結服務參考。 Yes .是 No
additionalLinkedServiceNames 指定 HDInsight 連結服務的其他記憶體帳戶,讓服務可以代表您註冊它們。 No No
hcatalogLinkedServiceName 指向 HCatalog 資料庫的 Azure SQL 鏈接服務參考。 No No

Azure HDInsight 隨選連結服務

在此類型的設定中,運算環境完全由服務管理。 服務會在提交作業以處理數據並在作業完成時移除之前,由服務自動建立。 您可以為隨選計算環境建立連結服務、進行設定,以及控制作業執行、叢集管理和啟動載入動作的細微設定。

注意

目前僅支援 Azure HDInsight 叢集的隨選設定。 Azure Databricks 也支援使用作業叢集的隨選作業。 如需詳細資訊,請參閱 Azure databricks 鏈接服務

服務可以自動建立隨選 HDInsight 叢集來處理數據。 叢集會建立在與叢集相關聯的記憶體帳戶 (JSON 中的 linkedServiceName 屬性) 相同的區域中。 記憶體帳戶must是一般用途的標準 Azure 儲存體 帳戶。

請注意下列 有關隨選 HDInsight 連結服務的重要 要點:

  • 隨選 HDInsight 叢集會在您的 Azure 訂用帳戶下建立。 當叢集啟動並執行時,您可以在 Azure 入口網站 中看到叢集。
  • 隨選 HDInsight 叢集上執行的作業記錄會複製到與 HDInsight 叢集相關聯的記憶體帳戶。 鏈接服務定義中定義的 clusterUserName、clusterPassword、clusterSshUserName、clusterSshPassword 可用來登入叢集,以在叢集生命週期期間進行深入疑難解答。
  • 只有在 HDInsight 叢集啟動並執行作業時,才會向您收費。
  • 您可以使用 文稿動作 搭配 Azure HDInsight 隨選連結服務。

重要

通常需要 20 分鐘以上的時間來 依需求布建 Azure HDInsight 叢集。

範例

下列 JSON 會定義以 Linux 為基礎的隨選 HDInsight 鏈接服務。 服務會自動建立 以Linux為基礎的 HDInsight 叢集來處理所需的活動。

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

重要

HDInsight 叢集會在您在 JSON (linkedServiceName) 中指定的 Blob 記憶體中建立預設容器。 刪除叢集時,HDInsight 不會刪除此容器。 這是依照設計的行為。 使用隨選 HDInsight 連結服務時,每當需要處理配量時,就會建立 HDInsight 叢集,除非有現有的即時叢集(timeToLive),並在處理完成時刪除。

隨著更多活動執行,您會在 Azure Blob 記憶體中看到許多容器。 如果您不需要它們來針對作業進行疑難解答,您可能會想要將其刪除,以降低記憶體成本。 這些容器的名稱遵循模式: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp。 使用 Microsoft Azure 儲存體總管 之類的工具來刪除 Azure Blob 記憶體中的容器。

屬性

屬性 描述 必要
type type 屬性應該設定為 HDInsightOnDemand Yes
clusterSize 叢集中的背景工作/數據節點數目。 HDInsight 叢集會使用 2 個前端節點以及您為此屬性指定的背景工作節點數目來建立。 節點的大小Standard_D3,具有 4 個核心,因此 4 個背景工作節點叢集接受 24 個核心(背景工作節點 4*4 = 16 個核心,加上 2*4 = 8 個前端節點的核心)。 如需詳細資訊,請參閱使用 Hadoop、Spark、Kafka 在 HDInsight 中設定叢集。 Yes
linkedServiceName Azure 儲存體 隨選叢集用來儲存和處理數據的連結服務。 HDInsight 叢集會建立在與這個 Azure 儲存體 帳戶相同的區域中。 Azure HDInsight 對您可以在其支援的每個 Azure 區域中使用的核心總數有所限制。 請確定您在該 Azure 區域中有足夠的核心配額,以符合所需的叢集大小。 如需詳細資訊,請參閱使用 Hadoop、Spark、Kafka 等在 HDInsight 中設定叢集

目前,您無法建立使用 Azure Data Lake 儲存體 (Gen 2) 作為記憶體的隨選 HDInsight 叢集。 如果您想要將 HDInsight 處理的結果資料儲存在 Azure Data Lake 儲存體 (Gen 2),請使用複製活動將數據從 Azure Blob 儲存體 複製到 Azure Data Lake 儲存體 (Gen 2)。

Yes
clusterResourceGroup HDInsight 叢集會在此資源群組中建立。 Yes
timetolive 隨選 HDInsight 叢集允許的空閒時間。 指定當叢集中沒有其他作用中作業時,隨選 HDInsight 叢集在活動執行完成後保持運作的時間長度。 允許的最小值為 5 分鐘(00:05:00)。

例如,如果活動執行需要 6 分鐘,而 timetolive 設定為 5 分鐘,則叢集會在處理活動執行 6 分鐘之後保持運作 5 分鐘。 如果使用 6 分鐘的時間範圍執行另一個活動執行,則會由相同的叢集處理。

建立隨選 HDInsight 叢集是一項昂貴的作業(可能需要一段時間),因此請視需要使用此設定,藉由重複使用隨選 HDInsight 叢集來改善服務的效能。

如果您將 timetolive 值設定為 0,當活動執行完成時,就會刪除叢集。 不過,如果您設定高值,叢集可能會保持閑置狀態,讓您能夠登入一些疑難解答目的,但可能會導致高成本。 因此,請務必根據需求設定適當的值。

如果適當設定 timetolive 屬性值,多個管線可以共用隨選 HDInsight 叢集的實例。
Yes
clusterType 要建立的 HDInsight 叢集類型。 允許的值為 「hadoop」 和 「spark」。 如果未指定,預設值為hadoop。 啟用企業安全性套件的叢集無法隨選建立,而是使用 現有的叢集/自備計算 No
version HDInsight 叢集的版本。 如果未指定,則會使用目前定義的 HDInsight 預設版本。 No
hostSubscriptionId 用來建立 HDInsight 叢集的 Azure 訂用帳戶標識碼。 如果未指定,它會使用 Azure 登入內容的訂用帳戶標識碼。 No
clusterNamePrefix HDI 叢集名稱的前置詞,時間戳會自動附加在叢集名稱的結尾 No
sparkVersion 叢集類型為 「Spark」 時,Spark 的版本 No
additionalLinkedServiceNames 指定 HDInsight 連結服務的其他記憶體帳戶,讓服務可以代表您註冊它們。 這些記憶體帳戶必須與 HDInsight 叢集位於相同的區域中,該叢集會建立在與 linkedServiceName 所指定的記憶體帳戶相同的區域中。 No
osType 操作系統的類型。 允許的值為:Linux 和 Windows(僅適用於 HDInsight 3.3)。 預設值為Linux。 No
hcatalogLinkedServiceName 指向 HCatalog 資料庫的 Azure SQL 連結服務名稱。 隨選 HDInsight 叢集是使用 Azure SQL 資料庫 作為中繼存放區所建立。 No
connectVia 要用來將活動分派至此 HDInsight 連結服務的 Integration Runtime。 針對隨選 HDInsight 鏈接服務,它只支援 Azure Integration Runtime。 如果未指定,就會使用預設的 Azure Integration Runtime。 No
clusterUserName 存取叢集的用戶名稱。 No
clusterPassword 要存取叢集的安全字串類型密碼。 No
clusterSshUserName SSH 的使用者名稱會從遠端連線到叢集的節點(適用於 Linux)。 No
clusterSshPassword 安全字串類型的密碼,以 SSH 遠端連線叢集的節點(適用於 Linux)。 No
scriptActions 在隨選叢集建立期間指定 HDInsight 叢集自定義的 腳本。
目前,UI 撰寫工具僅支援指定 1 個腳本動作,但您可以在 JSON 中完成這項限制(在 JSON 中指定多個腳本動作)。
No

重要

HDInsight 支援可部署的多個 Hadoop 叢集版本。 每個版本選擇都會建立 Hortonworks Data Platform (HDP) 散發的特定版本,以及一組包含在該散發中的元件。 支援的 HDInsight 版本清單會持續更新,以提供最新的 Hadoop 生態系統元件和修正程式。 請務必一律參考支援的 HDInsight 版本和 OS 類型最新資訊,以確保您使用支援的 HDInsight 版本。

重要

目前,HDInsight 鏈接服務不支援 HBase、互動式查詢(Hive LLAP)、Storm。

  • additionalLinkedServiceNames JSON 範例
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

服務主體驗證

隨選 HDInsight 鏈接服務需要服務主體驗證,才能代表您建立 HDInsight 叢集。 若要使用服務主體驗證,請在 Microsoft Entra ID 中註冊應用程式實體,並將訂用帳戶的參與者角色或 HDInsight 叢集建立所在的資源群組授與它。 如需詳細步驟,請參閱 使用入口網站建立可存取資源的 Microsoft Entra 應用程式和服務主體。 記下下列值,您用來定義連結服務:

  • Application ID
  • 應用程式金鑰
  • 租用戶識別碼

藉由指定下列屬性來使用服務主體驗證:

屬性 描述 必要
servicePrincipalId 指定應用程式的用戶端識別碼。 Yes
servicePrincipalKey 指定應用程式的金鑰。 Yes
tenant 指定應用程式所在的租使用者資訊(功能變數名稱或租使用者標識符)。 您可以將滑鼠停留在 Azure 入口網站 右上角來擷取它。 Yes

進階屬性

您也可以針對隨選 HDInsight 叢集的細微設定指定下列屬性。

屬性 描述 必要
coreConfiguration 指定要建立 HDInsight 叢集的核心組態參數(如 core-site.xml 中所示)。 No
hBaseConfiguration 指定 HDInsight 叢集的 HBase 組態參數 (hbase-site.xml)。 No
hdfsConfiguration 指定 HDInsight 叢集的 HDFS 組態參數 (hdfs-site.xml)。 No
hiveConfiguration 指定 HDInsight 叢集的 hive 組態參數 (hive-site.xml)。 No
mapReduceConfiguration 指定 HDInsight 叢集的 MapReduce 組態參數 (mapred-site.xml)。 No
oozieConfiguration 指定 HDInsight 叢集的 Oozie 組態參數 (oozie-site.xml)。 No
stormConfiguration 指定 HDInsight 叢集的 Storm 組態參數 (storm-site.xml)。 No
yarnConfiguration 指定 HDInsight 叢集的 Yarn 組態參數 (yarn-site.xml)。 No
  • 範例 - 具有進階屬性的隨選 HDInsight 叢集組態
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

節點大小

您可以使用下列屬性來指定前端、資料和 zookeeper 節點的大小:

屬性 描述 必要
headNodeSize 指定前端節點的大小。 默認值為:Standard_D3。 如需詳細資訊,請參閱<指定節點大小>一節。 No
dataNodeSize 指定數據節點的大小。 默認值為:Standard_D3。 No
zookeeperNodeSize 指定 Zoo Keeper 節點的大小。 默認值為:Standard_D3。 No
  • 指定節點大小 請參閱 虛擬機器 一文中針對上一節中所述的屬性指定字串值的大小一文。 這些值必須符合本文中所參考的 CMDLET 和 APIS 。 如您在文章中所見,「大型」(預設)大小的數據節點具有 7 GB 記憶體,可能不適合您的案例。

如果您想要建立 D4 大小的前端節點和背景工作節點,請將 Standard_D4 指定為 headNodeSize 和 dataNodeSize 屬性的值。

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

如果您為這些屬性指定了錯誤的值,您可能會收到下列 錯誤: 無法建立叢集。 例外狀況:無法完成叢集建立作業。 作業失敗,程式代碼為 『400』。 叢集留在狀態後方:『錯誤』。 訊息:『PreClusterCreationValidationFailure』。 當您收到此錯誤時,請確定您在 虛擬機器 的大小一文中使用資料表中的 CMDLET 和 APIS 名稱。

自備計算環境

在此類型的設定中,使用者可以將已經存在的運算環境註冊為鏈接服務。 計算環境是由使用者所管理,而服務會使用它來執行活動。

下列計算環境支援這種類型的設定:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB、Azure Synapse Analytics、SQL Server

Azure HDInsight 鏈接服務

您可以建立 Azure HDInsight 鏈接服務,向數據處理站或 Synapse 工作區註冊自己的 HDInsight 叢集。

範例

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

屬性

屬性 描述 必要
type type 屬性應該設定為 HDInsight Yes
clusterUri HDInsight 叢集的 URI。 Yes
username 指定要用來連線到現有 HDInsight 叢集的用戶名稱。 Yes
password 指定用戶帳戶的密碼。 Yes
linkedServiceName Azure 儲存體 連結服務的名稱,此服務是指 HDInsight 叢集所使用的 Azure Blob 記憶體。

目前,您無法指定此屬性的 Azure Data Lake 儲存體 (Gen 2) 鏈接服務。 如果 HDInsight 叢集可以存取 Data Lake Store,您可以從 Hive/Pig 腳本存取 Azure Data Lake 儲存體 (Gen 2) 中的數據。

Yes
isEspEnabled 如果 HDInsight 叢集已啟用企業安全性套件,請指定 'true'。 默認值為 『false』。 No
connectVia 要用來將活動分派至此鏈接服務的 Integration Runtime。 您可以使用 Azure Integration Runtime 或自我裝載整合運行時間。 如果未指定,就會使用預設的 Azure Integration Runtime。
針對已啟用企業安全性套件 (ESP) 的 HDInsight 叢集,請使用自我裝載整合運行時間,其具有叢集的視線,或應該部署在與 ESP HDInsight 叢集相同的 虛擬網絡 內。
No

重要

HDInsight 支援可部署的多個 Hadoop 叢集版本。 每個版本選擇都會建立 Hortonworks Data Platform (HDP) 散發的特定版本,以及一組包含在該散發中的元件。 支援的 HDInsight 版本清單會持續更新,以提供最新的 Hadoop 生態系統元件和修正程式。 請務必一律參考支援的 HDInsight 版本和 OS 類型最新資訊,以確保您使用支援的 HDInsight 版本。

重要

目前,HDInsight 鏈接服務不支援 HBase、互動式查詢(Hive LLAP)、Storm。

Azure Batch 鏈接服務

注意

建議您使用 Azure Az PowerShell 模組來與 Azure 互動。 請參閱安裝 Azure PowerShell 以開始使用。 若要了解如何移轉至 Az PowerShell 模組,請參閱將 Azure PowerShell 從 AzureRM 移轉至 Az

您可以建立 Azure Batch 鏈接服務,以向數據或 Synapse 工作區註冊虛擬機的 Batch 集區。 您可以使用 Azure Batch 執行自訂活動。

如果您不熟悉 Azure Batch 服務,請參閱下列文章:

重要

建立新的 Azure Batch 集區時,必須使用 'VirtualMachineConfiguration',而不是 'CloudServiceConfiguration'。 如需詳細資訊,請參閱 Azure Batch 集區移轉指引

範例

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

屬性

屬性 描述 必要
type type 屬性應該設定為 AzureBatch Yes
accountName Azure Batch 帳戶的名稱。 Yes
accessKey Azure Batch 帳戶的存取金鑰。 Yes
batchUri Azure Batch 帳戶的 URL,格式為 https:// batchaccountname.region.batch.azure.com Yes
poolName 虛擬機集區的名稱。 Yes
linkedServiceName 與此 Azure Batch 連結服務相關聯的 Azure 儲存體 連結服務名稱。 此連結服務用於執行活動所需的暫存檔案。 Yes
connectVia 要用來將活動分派至此鏈接服務的 Integration Runtime。 您可以使用 Azure Integration Runtime 或自我裝載整合運行時間。 如果未指定,就會使用預設的 Azure Integration Runtime。 No

機器學習 Studio (傳統) 鏈接服務

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

從 2021 年 12 月 1 日起,您將無法建立新的 機器學習 Studio (傳統) 資源 (工作區和 Web 服務方案)。 到 2024 年 8 月 31 日,您可以繼續使用現有的 機器學習 Studio(傳統)實驗和 Web 服務。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

您可以建立 機器學習 Studio (傳統) 連結服務,以向數據處理站或 Synapse 工作區註冊 機器學習 Studio (傳統) 批次評分端點。

範例

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

屬性

屬性 描述 必要
類型 type 屬性應該設定為: AzureML Yes
mlEndpoint 批次評分 URL。 Yes
apiKey 已發佈的工作區模型的 API。 Yes
updateResourceEndpoint ML Studio (傳統) Web 服務端點的更新資源 URL,用來使用定型的模型檔案來更新預測性 Web 服務 No
servicePrincipalId 指定應用程式的用戶端識別碼。 如果指定 updateResourceEndpoint,則為必要專案
servicePrincipalKey 指定應用程式的金鑰。 如果指定 updateResourceEndpoint,則為必要專案
tenant 指定應用程式所在的租使用者資訊(功能變數名稱或租使用者標識符)。 您可以將滑鼠暫留在 Azure 入口網站 右上角來擷取它。 如果指定 updateResourceEndpoint,則為必要專案
connectVia 要用來將活動分派至此鏈接服務的 Integration Runtime。 您可以使用 Azure Integration Runtime 或自我裝載整合運行時間。 如果未指定,就會使用預設的 Azure Integration Runtime。 No

Azure 機器學習 鏈接服務

您可以建立 Azure 機器學習 連結服務,將 Azure 機器學習 工作區連線至數據處理站或 Synapse 工作區。

注意

Azure 機器學習 鏈接服務目前僅支援服務主體驗證。

範例

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

屬性

屬性 描述 必要
類型 type 屬性應該設定為: AzureMLService Yes
subscriptionId Azure 訂用帳戶識別碼 Yes
resourceGroupName NAME Yes
mlWorkspaceName Azure 機器學習 工作區名稱 Yes
servicePrincipalId 指定應用程式的用戶端識別碼。 Yes
servicePrincipalKey 指定應用程式的金鑰。 Yes
tenant 指定應用程式所在的租使用者資訊(功能變數名稱或租使用者標識符)。 您可以將滑鼠暫留在 Azure 入口網站 右上角來擷取它。 如果指定 updateResourceEndpoint,則為必要專案
connectVia 要用來將活動分派至此鏈接服務的 Integration Runtime。 您可以使用 Azure Integration Runtime 或自我裝載整合運行時間。 如果未指定,就會使用預設的 Azure Integration Runtime。 No

Azure Data Lake Analytics 鏈接服務

您可以建立 Azure Data Lake Analytics 鏈接服務,將 Azure Data Lake Analytics 計算服務鏈接至數據處理站或 Synapse 工作區。 管線中的 Data Lake Analytics U-SQL 活動是指此鏈接服務。

範例

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

屬性

屬性 描述 必要
type type 屬性應該設定為: AzureDataLakeAnalytics Yes
accountName Azure Data Lake Analytics 帳戶名稱。 Yes
dataLakeAnalyticsUri Azure Data Lake Analytics URI。 No
subscriptionId Azure 訂用帳戶識別碼 No
resourceGroupName Azure 資源組名 No
servicePrincipalId 指定應用程式的用戶端識別碼。 Yes
servicePrincipalKey 指定應用程式的金鑰。 Yes
tenant 指定應用程式所在的租使用者資訊(功能變數名稱或租使用者標識符)。 您可以將滑鼠暫留在 Azure 入口網站 右上角來擷取它。 Yes
connectVia 要用來將活動分派至此鏈接服務的 Integration Runtime。 您可以使用 Azure Integration Runtime 或自我裝載整合運行時間。 如果未指定,就會使用預設的 Azure Integration Runtime。 No

Azure Databricks 鏈接服務

您可以建立 Azure Databricks 鏈接服務 來註冊用來執行 Databricks 工作負載的 Databricks 工作區(Notebook、jar、python)。

重要

Databricks 連結服務支持 實例集區和 系統指派的受控識別驗證。

範例 - 在 Databricks 中使用新的作業叢集

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

範例 - 在 Databricks 中使用現有的互動式叢集

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

屬性

屬性 描述 必要
NAME 連結服務的名稱 Yes
type type 屬性應該設定為: Azure Databricks Yes
網域 根據 Databricks 工作區的區域來指定 Azure 區域。 範例: https://eastus.azuredatabricks.net Yes
accessToken 需要存取令牌,服務才能向 Azure Databricks 進行驗證。 存取令牌必須從 databricks 工作區產生。 如需尋找存取令牌的詳細步驟,請參閱 這裡 No
MSI 使用服務的受控識別(系統指派)向 Azure Databricks 進行驗證。 使用 'MSI' 驗證時,您不需要存取令牌。 如需受控識別驗證的詳細資訊,請參閱 這裡 No
existingClusterId 現有叢集的叢集標識碼,以在此上執行所有作業。 這應該是已建立的互動式叢集。 如果叢集停止回應,您可能需要手動重新啟動叢集。 Databricks 建議在新叢集上執行作業,以取得更高的可靠性。 您可以在 Databricks 工作區上找到互動式叢集的叢集識別碼 - 叢集 ->> 互動式叢集名稱 -> 組態 -> 標記。 更多詳細資料 No
instancePoolId databricks 工作區中現有集區的實例集區標識碼。 No
newClusterVersion 叢集的Spark版本。 它會在 databricks 中建立作業叢集。 No
newClusterNumOfWorker 此叢集應該擁有的背景工作節點數目。 叢集有一個 Spark 驅動程式和num_workers執行程式,總共num_workers + 1 個 Spark 節點。 格式化為 Int32 的字串,例如 「1」 表示 numOfWorker 為 1 或 “1:10” 表示從 1 自動調整為最小值,而 10 則為 max。 No
newClusterNodeType 此欄位會透過單一值來編碼此叢集中每個 Spark 節點可用的資源。 例如,Spark 節點可以針對記憶體或計算密集型工作負載進行布建和優化。 新叢集需要此欄位 No
newClusterSparkConf 一組選擇性、使用者指定的Spark組態索引鍵/值組。 使用者也可以透過spark.driver.extraJavaOptions和spark.executor.extraJavaOptions 分別傳入驅動程式和執行程式的額外 JVM 選項字元串。 No
newClusterInitScripts 新叢集的一組選擇性使用者定義初始化腳本。 您可以在工作區檔案中指定 init 腳本(建議)或透過 DBFS 路徑(舊版)。 No

Azure SQL 資料庫 鏈接服務

您可以建立 Azure SQL 鏈接服務,並將其與預存程式活動搭配使用,以從管線叫用預存程式。 如需此連結服務的詳細資訊,請參閱 Azure SQL 連線 or 文章。

Azure Synapse Analytics 鏈接服務

您可以建立 Azure Synapse Analytics 鏈接服務,並將其與預存程式活動搭配使用,以從管線叫用預存程式。 如需此鏈接服務的詳細資訊,請參閱 Azure Synapse Analytics 連線 or 一文。

SQL Server 連結服務

您可以建立 SQL Server 連結服務,並將它與預存程式活動搭配使用,以從管線叫用預存程式。 如需此連結服務的詳細數據,請參閱 SQL Server 連接器 文章。

Azure Synapse Analytics (Artifacts) 鏈接服務

您可以建立 Azure Synapse Analytics (Artifacts) 連結服務,並將其與 Synapse Notebook 活動和 Synapse Spark 作業定義活動搭配使用。

範例

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

屬性

屬性 說明 必要
NAME 連結服務的名稱 Yes
description 鏈接服務的描述 No
annotations 連結服務的註釋 No
type type 屬性應該設定為 AzureSynapseArtifacts Yes
endpoint The Azure Synapse Analytics URL Yes
驗證 (authentication) 默認設定為系統指派的受控識別 Yes
workspaceResourceId 工作區資源標識碼 Yes
connectVia 要用來連接到數據存放區的整合運行時間。 您可以使用 Azure Integration Runtime。 如果未指定,就會使用預設的 Azure Integration Runtime。 目前不支援自我裝載整合運行時間。 Yes

Azure 函式連結服務

您可以建立 Azure 函式連結服務,並將其與 Azure 函式活動搭配使用,以在管線中執行 Azure Functions。 Azure 函式的傳回型別必須是有效的 JObject。 (請記住JArray 不是 JObject。失敗以外的JObject任何傳回類型,並引發使用者錯誤回應內容不是有效的 JObject

屬性 說明 必要
type type 屬性必須設定為: AzureFunction
函式應用程式 URL Azure 函式應用程式的 URL。 格式為 https://<accountname>.azurewebsites.net。 在 Azure 入口網站 中檢視函式應用程式時,此 URL 是 [URL] 區段下的值
函式索引鍵 Azure 函式的存取金鑰。 按兩下個別函式的 [ 管理 ] 區段,然後複製 [ 函式金鑰 ] 或 [ 主機密鑰]。 在這裡深入瞭解: Azure Functions HTTP 觸發程式和系結

如需支援的轉換活動清單,請參閱 轉換數據