在 Azure Databricks 中執行 Python 活動來轉換資料

適用於：Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory，這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。了解如何免費地開始新的試用！

管線中的 Azure Databricks Python 活動會在 Azure Databricks 叢集中執行 Python 檔案。本文延續於資料轉換活動一文，呈現了資料轉換和支援的轉換活動的一般概覽。 Azure Databricks 是用於執行 Apache Spark 的受控平台。

如需此功能的簡介與示範，請觀看下列 11 分鐘長的影片：

使用 UI 將 Azure Databricks 的 Python 活動新增至管線

若要在管線中使用適用於 Azure Databricks 的 Python 活動，請完成下列步驟：

在管線 [活動] 窗格中搜尋 Python，然後將 Python 活動拖曳至管線畫布。
如果尚未選取新的 Python 活動，請在畫布上加以選取。
選取 [Azure Databricks] 索引標籤，以選取或建立將要執行 Python 活動的新 Azure Databricks 連結服務。
選取 [設定] 索引標籤，並指定 Azure Databricks 內所要執行 Python 檔案的路徑、要傳遞的選擇性參數，以及要安裝在叢集上以執行作業的任何其他程式庫。

Databricks Python 活動定義

以下是 Databricks Python 活動的 JSON 定義範例：

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Databricks Python 活動屬性

下表說明 JSON 定義中使用的 JSON 屬性：

屬性	描述	必要
名稱	管線中的活動名稱。	Yes
描述	說明活動用途的文字。	否
型別	若是 Databricks Python 活動，則活動類型是 DatabricksSparkPython。	Yes
鏈接服務名稱	Python 活動執行所在之 Databricks 連結服務的名稱。若要深入了解此已連結的服務，請參閱計算已連結的服務一文。	Yes
pythonFile	要執行之 Python 檔案的 URI。只支援 DBFS 路徑。	Yes
參數	將傳遞至 Python 檔案的命令列參數。這是字串陣列。	否
程式庫	要在負責執行工作的叢集上，即將安裝的程式庫清單。可以是 <字串, 物件> 的陣列。	否

Databricks 活動支援的程式庫

在上述的 Databricks 活動定義中，您指定以下的程式庫類型： jar、egg、 maven、 pypi、 cran。

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

如需詳細資訊，請參閱 Databricks 文件 \(英文\)，了解程式庫類型。

如何在 Databricks 中上傳程式庫

您可以使用工作區 UI：

使用 Databricks 工作區 UI
若要取得使用 UI 所新增程式庫的 dbfs 路徑，您可以使用 Databricks CLI。

使用 UI 時，Jar 程式庫通常會儲存在 dbfs: FileStore/jar。您可以使用 CLI：databricks fs ls dbfs:/FileStore/job-jars，列出所有檔案

或者，您可以使用 Databricks CLI：

請遵循使用 Databricks CLI 複製程式庫
使用 Databricks CLI (安裝步驟)

舉例來說，若要將 JAR 複製到 dbfs：dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-02-27