你可以在你偏好的整合開發環境(IDE)中撰寫 Python pipeline 原始碼。
您無法驗證或執行在 IDE 中撰寫的管線程式碼的更新。 你必須將原始碼檔案部署回 Azure Databricks 工作區,並將它們配置為管線的一部分。
本文提供本機 IDE 開發支援的概觀。 如需更具互動式的開發和測試,Databricks 建議使用 Lakeflow 管線編輯器。 請參閱 使用 Lakeflow 管線編輯器來開發和偵錯 ETL 管線。
設定本機 IDE 以進行管線開發
Databricks 提供一個用於本地開發的 Python 模組,透過 PyPI 分發。 關於安裝與使用說明,請參見 Python 中的 DLT 框架存根。
此模組包含 pipeline Python 介面的介面與文件字串參考,提供語法檢查、自動補全及資料型別檢查,方便您在 IDE 撰寫程式碼時使用。
此模組包含介面,但沒有功能實作。 您無法使用此程式庫在本機建立或執行管線。
你可以使用 Declarative Automation Bundles 將原始碼與設定打包並部署到目標工作區,並觸發在以這種方式設定的管線上執行更新。 參見 「將管線轉換為組合專案」。
Visual Studio Code 的 Databricks 擴充功能則提供更多功能,用於使用 Declarative Automation Bundles 來處理管線。 請參閱 套件組合資源總管。
將 IDE 的流水線程式碼同步至工作區
下表總結了在本地 IDE 與 Azure Databricks 工作空間之間同步管線原始碼的選項:
| 工具或模式 | 詳細資訊 |
|---|---|
| 宣告式自動化套件組 | 使用宣告式自動化套件來部署各類管線資產,從單一原始碼檔案,甚至到多個管線、工作及原始碼檔案的配置。 參見 「將管線轉換為組合專案」。 |
| Visual Studio Code 的 Databricks 擴充套件 | Azure Databricks 提供與 Visual Studio Code 的整合,方便本地 IDE 與工作區檔案同步。 此擴充套件亦提供使用宣告式自動化套件部署管線資產的工具。 請參見 Databricks 擴充套件 for Visual Studio Code。 |
| 工作區檔案 | 您可以使用 Databricks 工作區檔案,將管線原始程式碼上傳至 Databricks 工作區,然後將該程式代碼匯入管線。 請參閱 什麼是工作區檔案?。 |
| Git 資料夾 | Git 資料夾讓你能透過 Git 倉庫作為中介,在本地環境與 Azure Databricks Workspace 之間同步程式碼。 請參見 Azure Databricks Git 資料夾。 |