使用 Databricks 資產組合開發 Delta Live Tables 管線

發行項
07/10/2024

Databricks 資產套件組合也稱為 套件組合，可讓您以程式設計方式驗證、部署和執行 Azure Databricks 資源，例如 Delta Live Tables 管線。您也可以使用套件組合，以程序設計方式管理 Azure Databricks 作業，以及使用 MLOps Stack。請參閱什麼是 Databricks 資產套件組合？。

本文說明您可以從本機開發計算機完成的一組步驟，以使用以程序設計方式管理 Delta Live Tables 管線的套件組合。

需求

Databricks CLI 0.218.0 版或更新版本。若要檢查已安裝的 Databricks CLI 版本，請執行命令 databricks -v。若要安裝 Databricks CLI，請參閱安裝或更新 Databricks CLI。
遠端工作區必須啟用工作區檔案。請參閱什麼是工作區檔案？。

（選擇性）安裝 Python 模組以支援本機管線開發

Databricks 提供 Python 模組，可藉由在 IDE 中撰寫程式代碼時提供語法檢查、自動完成和數據類型檢查，協助您本機開發 Delta Live Tables 管線程式代碼。

適用於本機開發的 Python 模組可在 PyPi 上使用。若要安裝模組，請參閱 Delta Live Tables 的 Python 存根。

決策：使用範本或手動建立套件組合

決定是否要使用範本或手動建立套件組合：

使用範本建立套件組合
手動建立套件組合

使用範本建立套件組合

在這些步驟中，您會使用適用於 Python 的 Azure Databricks 預設套件組合範本來建立套件組合。這些步驟會引導您建立組合，其中包含定義 Delta Live Tables 管線的筆記本，該管線會篩選原始數據集中的數據。接著，您會在 Azure Databricks 工作區內驗證、部署及執行已部署的管線。

步驟 1：設定驗證

在此步驟中，您會在開發機器上的 Databricks CLI 與 Azure Databricks 工作區之間設定驗證。本文假設您想要使用 OAuth 使用者對電腦（U2M）驗證，以及名為進行驗證的 DEFAULT 對應 Azure Databricks 組態配置檔。

注意

U2M 驗證適用於即時試用這些步驟。針對完全自動化的工作流程，Databricks 建議您改用 OAuth 機器對計算機（M2M）驗證。請參閱驗證中的 M2M 驗證設定指示。

針對每個目標工作區執行下列命令，使用 Databricks CLI 在本機起始 OAuth 令牌管理。

在下列命令中，將取代 <workspace-url> 為您的 Azure Databricks 個別工作區 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。
```
databricks auth login --host <workspace-url>
```
Databricks CLI 會提示您儲存輸入為 Azure Databricks 組態設定文件的資訊。按 Enter 以接受建議的配置檔名稱，或輸入新或現有配置檔的名稱。任何具有相同名稱的現有配置檔，會以您輸入的資訊覆寫。您可以使用設定檔，在多個工作區之間快速切換驗證內容。

若要取得任何現有設定檔的清單，請在個別的終端機或命令提示字元中，使用 Databricks CLI 來執行命令 databricks auth profiles。若要檢視特定設定檔的現有設定，請執行命令 databricks auth env --profile <profile-name>。
在您的網頁瀏覽器中，完成登入 Azure Databricks 工作區的畫面指示。
若要檢視配置檔目前的 OAuth 令牌值和令牌即將到期的時間戳，請執行下列其中一個命令：
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
如果您有多個具有相同 --host 值的配置檔，您可能需要一起指定 --host 和 -p 選項，以協助 Databricks CLI 尋找正確的相符 OAuth 令牌資訊。

步驟 2：建立套件組合

套件組合包含您想要部署的成品，以及您要執行的工作流程設定。

使用終端機或命令提示字元，切換至本機開發計算機上的目錄，其中包含範本產生的套件組合。
使用 Dataricks CLI 來執行 bundle init 命令：
```
databricks bundle init
```
針對 Template to use，按下 Enter，保留的預設值default-python。
針對 Unique name for this project，保留預設值 my_project，或輸入不同的值，然後按 Enter。這會決定此套件組合的根目錄名稱。此根目錄會在您目前的工作目錄中建立。
針對 Include a stub (sample) notebook，選取 no 並按 Enter。這會指示 Databricks CLI 目前不要新增範例筆記本，因為與此選項相關聯的範例筆記本中沒有 Delta Live Tables 程式代碼。
針對 Include a stub (sample) DLT pipeline，按下 Enter，保留的預設值yes。這會指示 Databricks CLI 新增包含 Delta Live Tables 程式代碼的範例筆記本。
針對 Include a stub (sample) Python package，選取 no 並按 Enter。這會指示 Databricks CLI 不要將範例 Python 轉輪套件檔案或相關的組建指示新增至套件組合。

步驟 3：探索套件組合

若要檢視範本產生的檔案，請切換至新建立套件組合的根目錄，並使用慣用的 IDE 開啟此目錄，例如 Visual Studio Code。特別感興趣的檔案包括下列專案：

databricks.yml：此檔案會指定套件組合的程式設計名稱、包含管線定義的參考，以及指定目標工作區的相關設定。
resources/<project-name>_job.yml 和 resources/<project-name>_pipeline.yml：這個檔案會指定管線的設定。
src/dlt_pipeline.ipynb：此檔案是執行管線時所執行的筆記本。

若要自定義管線，管線宣告內的對應會對應至建立管線作業的要求承載，如 REST API 參考中的 POST /api/2.0/pipelines 中所定義，以 YAML 格式表示。

步驟 4：驗證專案的套件組合組態檔

在此步驟中，您會檢查套件組合組態是否有效。

從根目錄，使用 Databricks CLI 來執行 bundle validate 命令，如下所示：
```
databricks bundle validate
```
如果傳回套件組合組態的摘要，則驗證成功。如果傳回任何錯誤，請修正錯誤，然後重複此步驟。

如果您在此步驟之後對套件組合進行任何變更，您應該重複此步驟來檢查套件組合元件是否仍然有效。

步驟 5：將本機專案部署至遠端工作區

在此步驟中，您會將本機筆記本部署至遠端 Azure Databricks 工作區，並在工作區內建立 Delta Live Tables 管線。

使用 Databricks CLI 來執行 bundle validate 命令，如下所示：
```
databricks bundle deploy -t dev
```
檢查是否已部署本機筆記本：在 Azure Databricks 工作區的提要欄位中，按兩下 [ 工作區]。
按兩下 [使用者<your-username>>> .bundle ><project-name>> 開發>檔案 > src] 資料夾。筆記本應該在此資料夾中。
檢查管線是否已建立：在 Azure Databricks 工作區的提要欄位中，按兩下 [ Delta Live Tables]。
在 [ Delta Live Tables] 索引標籤上，按兩下 [dev <your-username>] <project-name>_pipeline。

如果您在此步驟之後對套件組合進行任何變更，您應該重複步驟 4-5 來檢查套件組合組態是否仍然有效，然後重新部署專案。

步驟 6：執行已部署的專案

在此步驟中，您會在工作區中執行 Delta Live Tables 管線。

從根目錄，使用 Databricks CLI 來執行 bundle run 命令，如下所示，將取代 <project-name> 為步驟 2 中項目的名稱：
```
databricks bundle run -t dev <project-name>_pipeline
```
複製終端機中顯示的值 Update URL ，並將此值貼到網頁瀏覽器中，以開啟您的 Azure Databricks 工作區。
在 Azure Databricks 工作區中，在管線順利完成之後，按兩下 [taxi_raw 檢視] 和 [filtered_taxis 具體化] 檢視，以查看詳細數據。

如果您在此步驟之後對套件組合進行任何變更，您應該重複步驟 4-6，檢查套件組合組態是否仍然有效、重新部署專案，以及執行重新部署的專案。

步驟 7：清除

在此步驟中，您會從工作區中刪除已部署的筆記本和管線。

從根目錄，使用 Databricks CLI 來執行 bundle destroy 命令，如下所示：
```
databricks bundle destroy -t dev
```
確認管線刪除要求：當系統提示您永久終結資源時，請輸入 y ，然後按 Enter。
確認筆記本刪除要求：當系統提示您永久終結先前部署的資料夾及其所有檔案時，輸入 y 並按 Enter。
如果您也想要從開發計算機刪除套件組合，您現在可以從步驟 2 中刪除本機目錄。

您已使用範本來建立套件組合的步驟結束。

手動建立套件組合

在這些步驟中，您會從頭開始建立套件組合。這些步驟會引導您建立組合，其中包含內嵌 Delta Live Tables 指示詞的筆記本，以及執行此筆記本之 Delta Live Tables 管線的定義。然後，您可以從 Azure Databricks 工作區內的管線驗證、部署和執行已部署的筆記本。

步驟 1：建立套件組合

套件組合包含您想要部署的成品，以及您要執行的工作流程設定。

在您的開發電腦上建立或識別空的目錄。
切換至終端機中的空白目錄，或在 IDE 中開啟空白目錄。

提示

您的空白目錄可能與 Git 提供者所管理的複製存放庫相關聯。這可讓您使用外部版本控制來管理套件組合，並更輕鬆地與專案上的其他開發人員和IT專業人員共同作業。不過，為了協助簡化此示範，此處不會使用複製的存放庫。

如果您選擇複製此示範的存放庫，Databricks 建議存放庫是空的，或只有基本檔案，例如 README 和 .gitignore。否則，存放庫中任何預先存在的檔案可能會不必要地同步處理至您的 Azure Databricks 工作區。

步驟 2：將筆記本新增至專案

在此步驟中，您會將筆記本新增至您的專案。此筆記本會執行下列動作：

將 Databricks 數據集的原始 JSON 點擊串流數據讀取到 Azure Databricks 工作區 DBFS 根資料夾內資料夾中的原始 Delta 數據表 pipelines 。
從原始 Delta 數據表讀取記錄，並使用 Delta Live Tables 查詢和期望來建立具有已清除和備妥數據的新 Delta 數據表。
使用 Delta Live Tables 查詢，對新 Delta 數據表中備妥的數據執行分析。

從目錄的根目錄中，建立名稱為 dlt-wikipedia-python.py的檔案。

將下列程式碼新增至 dlt-wikipedia-python.py 檔案：

# Databricks notebook source
import dlt
from pyspark.sql.functions import *

# COMMAND ----------
json_path = "/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"

# COMMAND ----------
@dlt.table(
  comment="The raw wikipedia clickstream dataset, ingested from /databricks-datasets."
)
def clickstream_raw():
  return (spark.read.format("json").load(json_path))

# COMMAND ----------
@dlt.table(
  comment="Wikipedia clickstream data cleaned and prepared for analysis."
)
@dlt.expect("valid_current_page_title", "current_page_title IS NOT NULL")
@dlt.expect_or_fail("valid_count", "click_count > 0")
def clickstream_prepared():
  return (
    dlt.read("clickstream_raw")
      .withColumn("click_count", expr("CAST(n AS INT)"))
      .withColumnRenamed("curr_title", "current_page_title")
      .withColumnRenamed("prev_title", "previous_page_title")
      .select("current_page_title", "click_count", "previous_page_title")
  )

# COMMAND ----------
@dlt.table(
  comment="A table containing the top pages linking to the Apache Spark page."
)
def top_spark_referrers():
  return (
    dlt.read("clickstream_prepared")
      .filter(expr("current_page_title == 'Apache_Spark'"))
      .withColumnRenamed("previous_page_title", "referrer")
      .sort(desc("click_count"))
      .select("referrer", "click_count")
      .limit(10)
  )

步驟 3：將套件組合組態架構檔新增至專案

如果您使用 Visual Studio Code、PyCharm Professional 或 IntelliJ IDEA Ultimate 等 IDE 來支援 YAML 檔案和 JSON 架構檔案，您可以使用 IDE 不僅建立套件組合組態架構檔，還可以檢查專案的套件組合組態檔語法和格式，並提供程式代碼完成提示，如下。請注意，雖然您稍後會在步驟 5 中建立的套件組合組態檔是以 YAML 為基礎，但此步驟中的套件組合組態架構檔案是以 JSON 為基礎。

Visual Studio Code

將 YAML 語言伺服器支援新增至 Visual Studio Code，例如從 Visual Studio Code Marketplace 安裝 YAML 擴充功能。
使用 Databricks CLI 執行命令，並將輸出重新導向至 JSON 檔案，以 bundle schema 產生 Databricks 資產組合組態 JSON 架構檔案。例如，在目前目錄中產生名為 bundle_config_schema.json 的檔案，如下所示：
```
databricks bundle schema > bundle_config_schema.json
```
請注意，稍後在步驟 5 中，您會將下列批注新增至套件組合組態檔的開頭，這會將您的套件組合組態檔與指定的 JSON 架構檔案產生關聯：
```
# yaml-language-server: $schema=bundle_config_schema.json
```
注意

在上述批注中，如果您的 Databricks 資產組合組態 JSON 架構檔案位於不同的路徑，請將取代 bundle_config_schema.json 為架構檔案的完整路徑。

PyCharm Professional

使用 Databricks CLI 執行命令，並將輸出重新導向至 JSON 檔案，以 bundle schema 產生 Databricks 資產組合組態 JSON 架構檔案。例如，在目前目錄中產生名為 bundle_config_schema.json 的檔案，如下所示：
```
databricks bundle schema > bundle_config_schema.json
```
依照設定自定義 JSON 架構中的指示，設定 PyCharm 以辨識套件組合組態 JSON 架構檔案，然後完成 JSON 架構對應。
請注意，稍後在步驟 5 中，您將使用 PyCharm 來建立或開啟套件組合組態檔。依照慣例，此檔案的名稱為 databricks.yml。

IntelliJ IDEA Ultimate

使用 Databricks CLI 執行命令，並將輸出重新導向至 JSON 檔案，以 bundle schema 產生 Databricks 資產組合組態 JSON 架構檔案。例如，在目前目錄中產生名為 bundle_config_schema.json 的檔案，如下所示：
```
databricks bundle schema > bundle_config_schema.json
```
依照設定自定義 JSON 架構中的指示，設定 IntelliJ IDEA 以辨識套件組合組態 JSON 架構檔案，然後完成 JSON 架構對應。
請注意，在步驟 5 稍後，您將使用 IntelliJ IDEA 來建立或開啟套件組合組態檔。依照慣例，此檔案的名稱為 databricks.yml。

步驟 4：設定驗證

注意

針對每個目標工作區執行下列命令，使用 Databricks CLI 在本機起始 OAuth 令牌管理。

在下列命令中，將取代 <workspace-url> 為您的 Azure Databricks 個別工作區 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。
```
databricks auth login --host <workspace-url>
```
Databricks CLI 會提示您儲存輸入為 Azure Databricks 組態設定文件的資訊。按 Enter 以接受建議的配置檔名稱，或輸入新或現有配置檔的名稱。任何具有相同名稱的現有配置檔，會以您輸入的資訊覆寫。您可以使用設定檔，在多個工作區之間快速切換驗證內容。

若要取得任何現有設定檔的清單，請在個別的終端機或命令提示字元中，使用 Databricks CLI 來執行命令 databricks auth profiles。若要檢視特定設定檔的現有設定，請執行命令 databricks auth env --profile <profile-name>。
在您的網頁瀏覽器中，完成登入 Azure Databricks 工作區的畫面指示。
若要檢視配置檔目前的 OAuth 令牌值和令牌即將到期的時間戳，請執行下列其中一個命令：
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
如果您有多個具有相同 --host 值的配置檔，您可能需要一起指定 --host 和 -p 選項，以協助 Databricks CLI 尋找正確的相符 OAuth 令牌資訊。

步驟 5：將套件組合組態檔新增至專案

在此步驟中，您會定義您要部署和執行此筆記本的方式。在此示範中，您想要使用 Delta Live Tables 管線來執行筆記本。您會在專案中的套件組合組態檔內建立此目標模型。

從目錄的根目錄中，使用您慣用的文字編輯器或 IDE 來建立套件組合元件組合元件檔。依照慣例，此檔案的名稱為 databricks.yml。
將下列程式代碼新增至 databricks.yml 檔案，並將 <workspace-url> 取代為您的個別工作區 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。此 URL 必須符合檔案 .databrickscfg 中的 URL：

提示

從開始 # yaml-language-server的第一行只有在 IDE 支援時才需要。如需詳細資訊，請參閱先前的步驟 3。

# yaml-language-server: $schema=bundle_config_schema.json
bundle:
  name: dlt-wikipedia

resources:
  pipelines:
    dlt-wikipedia-pipeline:
      name: dlt-wikipedia-pipeline
      development: true
      continuous: false
      channel: "CURRENT"
      photon: false
      libraries:
        - notebook:
            path: ./dlt-wikipedia-python.py
      edition: "ADVANCED"
      clusters:
        - label: "default"
          num_workers: 1

targets:
  development:
    workspace:
      host: <workspace-url>

若要自定義管線，管線宣告內的對應會對應至建立管線作業的要求承載，如 REST API 參考中的 POST /api/2.0/pipelines 中所定義，以 YAML 格式表示。

步驟 6：驗證專案的套件組合組態檔

在此步驟中，您會檢查套件組合組態是否有效。

使用 Databricks CLI 來執行 bundle validate 命令，如下所示：
```
databricks bundle validate
```
如果傳回套件組合組態的摘要，則驗證成功。如果傳回任何錯誤，請修正錯誤，然後重複此步驟。

如果您在此步驟之後對套件組合進行任何變更，您應該重複此步驟來檢查套件組合元件是否仍然有效。

步驟 7：將本機專案部署至遠端工作區

在此步驟中，您會將本機筆記本部署至遠端 Azure Databricks 工作區，並在工作區中建立 Delta Live Tables 管線。

使用 Databricks CLI 來執行 bundle validate 命令，如下所示：
```
databricks bundle deploy -t development
```
檢查是否已部署本機筆記本：在 Azure Databricks 工作區的提要欄位中，按兩下 [ 工作區]。
按兩下 [Users><your-username>> .bundle > dlt-wikipedia > 開發>檔案] 資料夾。筆記本應該在此資料夾中。
檢查是否已建立 Delta Live Tables 管線：在 Azure Databricks 工作區的提要字段中，按兩下 [ 工作流程]。
在 [ Delta Live Tables] 索引卷標上，按兩下 dlt-wikipedia-pipeline。

如果您在此步驟之後對套件組合進行任何變更，您應該重複步驟 6-7 來檢查套件組合組態是否仍然有效，然後重新部署專案。

步驟 8：執行已部署的專案

在此步驟中，您會在工作區中執行 Azure Databricks 作業。

使用 Databricks CLI 來執行 bundle run 命令，如下所示：
```
databricks bundle run -t development dlt-wikipedia-pipeline
```
複製終端機中顯示的值 Update URL ，並將此值貼到網頁瀏覽器中，以開啟您的 Azure Databricks 工作區。
在 Azure Databricks 工作區中，在 Delta Live Tables 管線順利完成之後，並跨各種具體化檢視顯示綠色標題欄、按兩下 clickstream_raw、 clickstream_prepared或 top_spark_referrers 具體化檢視，以查看更多詳細數據。
開始下一個步驟清除之前，請記下 DBFS 中建立之 Delta 數據表的位置，如下所示。如果您想要稍後手動清除這些 Delta 資料表，您將需要此資訊：
1. 當 Delta Live Tables 管線仍然開啟時，按兩下 [設定] 按鈕（[許可權] 和 [排程] 按鈕旁）。
2. 在 [目的地] 區域中，記下 [儲存位置] 欄位的值。這是在 DBFS 中建立 Delta 數據表的位置。

如果您在此步驟之後對套件組合進行任何變更，您應該重複步驟 6-8，檢查套件組合組態是否仍然有效、重新部署專案，以及執行重新部署的專案。

步驟 9：清除

在此步驟中，您會從工作區中刪除已部署的筆記本和 Delta Live Tables 管線。

使用 Databricks CLI 來執行 bundle destroy 命令，如下所示：
```
databricks bundle destroy
```
確認 Delta Live Tables 管線刪除要求：當系統提示您永久終結資源時，請輸入 y ，然後按 Enter。
確認筆記本刪除要求：當系統提示您永久終結先前部署的資料夾及其所有檔案時，輸入 y 並按 Enter。

bundle destroy執行命令只會刪除已部署的 Delta Live Tables 管線，以及包含已部署筆記本的資料夾。此命令不會刪除任何副作用，例如在 DBFS 中建立筆記本的 Delta 數據表。如果您需要刪除這些 Delta 資料表，您必須手動執行此動作。

將現有的管線定義新增至套件組合

您可以使用現有的 Delta Live Tables 管線定義作為基礎，在套件組合組態檔中定義新的管線。若要這麼做，請完成下列步驟。

注意

下列步驟會建立與現有管線相同的設定的新管線。不過，新管線的管線標識碼與現有的管線不同。您無法自動將現有的管線識別碼匯入套件組合。

步驟 1：以 JSON 格式取得現有的管線定義

在此步驟中，您會使用 Azure Databricks 工作區使用者介面來取得現有管線定義的 JSON 表示法。

在 Azure Databricks 工作區的提要字段中，按兩下 [ 工作流程]。
在 [ Delta Live Tables] 索引標籤上，按兩下管線的 [名稱 ] 連結。
在 [許可權] 和 [排程] 按鈕之間，按兩下 [設定] 按鈕。
按兩下 [ JSON] 按鈕。
複製管線定義的 JSON。

步驟 2：將管線定義從 JSON 轉換為 YAML 格式

您從上一個步驟複製的管線定義格式為 JSON 格式。套件組合組態為 YAML 格式。您必須將管線定義從 JSON 轉換為 YAML 格式。 Databricks 建議下列資源將 JSON 轉換為 YAML：

在在線將 JSON 轉換為 YAML。
針對 Visual Studio Code，json2yaml 延伸模組。

步驟 3：將管線定義 YAML 新增至套件組合組態檔

在套件組合組態檔中，將您從上一個步驟複製的 YAML 新增至套件組合組態檔中標示 <pipeline-yaml-can-go-here> 的下列其中一個位置，如下所示：

resources:
  pipelines:
    <some-unique-programmatic-identifier-for-this-pipeline>:
      <pipeline-yaml-can-go-here>

targets:
  <some-unique-programmatic-identifier-for-this-target>:
    resources:
      pipelines:
        <some-unique-programmatic-identifier-for-this-pipeline>:
          <pipeline-yaml-can-go-here>

步驟 4：將筆記本、Python 檔案和其他成品新增至套件組合

任何在現有管線中參考的 Python 檔案和筆記本都應該移至套件組合的來源。

為了更妥善地與套件組合相容，筆記本應該使用 IPython 筆記本格式（.ipynb）。如果您在本機開發套件組合，您可以從 Azure Databricks 工作區將現有的筆記本導出成 .ipynb 格式，方法是從 Azure Databricks Notebook 使用者介面按兩下 [檔案 > 導出 > IPython Notebook ]。依照慣例，您應該接著將下載的 src/ 筆記本放入套件組合中的目錄中。

將筆記本、Python 檔案和其他成品新增至套件組合之後，請確定您的管線定義會參考它們。例如，對於目錄中檔名hello.ipynbsrc/為的筆記本，且src/目錄位於與參考src/目錄之套件組合組態檔相同的資料夾中，管線定義可能會以下列方式表示：

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      libraries:
      -
        notebook:
          path: ./src/hello.ipynb

步驟 5：驗證、部署和執行新的管線

執行下列命令，驗證套件組合的組態檔語法正確：
```
databricks bundle validate
```
執行下列命令來部署套件組合。在此命令中，將取代 <target-identifier> 為套件組合元件中目標的唯一程式設計識別碼：
```
databricks bundle deploy -t <target-identifier>
```
執行下列命令以執行管線。在此命令中，取代下列命令：
- 將取代 <target-identifier> 為套件組合組態中目標的唯一程式設計標識碼。
- 將取代 <pipeline-identifier> 為套件組合組態中管線的唯一程式設計標識碼。
```
databricks bundle run -t <target-identifier> <pipeline-identifier>
```

共用方式為