透過 Azure Databricks 作業建立您的第一個工作流程

發行項
10/14/2024

本文示範 Azure Databricks 作業，可協調工作來讀取及處理範例資料集。在本快速入門中，您將：

建立新的筆記本並新增程式碼，以依年份擷取包含熱門嬰兒名稱的範例資料集。
將範例資料集儲存至 Unity 目錄。
建立新的筆記本，並新增程式碼以從 Unity 目錄讀取資料集、依年份篩選，以及顯示結果。
建立新的作業，並使用筆記本設定兩項工作。
執行作業並檢視結果。

需求

如果您的工作區已啟用 Unity 目錄，且已啟用無伺服器作業，則作業預設會在無伺服器計算上執行。您不需要叢集建立權限，即可使用無伺服器計算來執行作業。

否則，您必須擁有叢集建立權限，才能建立作業計算或所有用途計算資源的權限。

您必須在 Unity 目錄中有磁碟區。本文會在名為 main 的目錄中，於名為 my-volume 的結構描述中，使用名為 default 的磁碟區。而且，您必須在 Unity 目錄中具有下列權限：

適用於 my-volume 磁碟區的 READ VOLUME 和 WRITE VOLUME 或 ALL PRIVILEGES。
default 結構描述的 USE SCHEMA 或 ALL PRIVILEGES。
main 目錄的 USE CATALOG 或 ALL PRIVILEGES。

若要設定這些權限，請參閱 Databricks 系統管理員或 Unity 目錄權限和安全物件。

建立筆記本

擷取和儲存資料

若要建立筆記本以擷取範例資料集，並將它儲存至 Unity 目錄：

移至您的 Azure Databricks 登陸頁面，按下側邊欄中的 [新增]，然後從功能表中選取 [筆記本]。 Databricks 會在預設資料夾中建立並開啟新的空白筆記本。預設語言是您最近使用的語言，而且筆記本會自動附加至您最近使用的計算資源。
如有必要，請將預設語言變更為 Python。

將下列 Python 程式碼複製並貼到筆記本的第一個儲存格中。

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

讀取和顯示篩選的資料

若要建立筆記本來讀取和呈現要篩選的資料：

移至您的 Azure Databricks 登陸頁面，按下側邊欄中的 [新增]，然後從功能表中選取 [筆記本]。 Databricks 會在預設資料夾中建立並開啟新的空白筆記本。預設語言是您最近使用的語言，而且筆記本會自動附加至您最近使用的計算資源。
如有必要，請將預設語言變更為 Python。

將下列 Python 程式碼複製並貼到筆記本的第一個儲存格中。

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))