使用 Azure Databricks 作業建立您的第一個工作流程

發行項
04/19/2024

本文示範 Azure Databricks 作業，可協調工作來讀取及處理範例數據集。在本快速入門中，您將：

建立新的筆記本並新增程序代碼，以依年份擷取包含熱門嬰兒名稱的範例數據集。
將範例數據集儲存至 Unity 目錄。
建立新的筆記本，並新增程式代碼以從 Unity 目錄讀取數據集、依年份篩選，以及顯示結果。
建立新的作業，並使用筆記本設定兩項工作。
執行作業並檢視結果。

需求

如果您的工作區已啟用 Unity 目錄，且已啟用無伺服器工作流程，則作業預設會在無伺服器計算上執行。您不需要叢集建立許可權，即可使用無伺服器計算來執行作業。

否則，您必須擁有叢集建立許可權，才能建立作業計算或所有用途計算資源的許可權。

您必須在 Unity 目錄中有磁碟區。本文會在名為 main的目錄中，使用名為 my-volume 的架構中名為 default 的磁碟區。此外，您必須在 Unity 目錄中具有下列權限：

READ VOLUME 和 WRITE VOLUME、或 ALL PRIVILEGES，適用於磁碟區 my-volume 。
USE SCHEMA或 ALL PRIVILEGES 架構。default
USE CATALOG 或 ALL PRIVILEGES 目錄 main 。

若要設定這些許可權，請參閱 Databricks 系統管理員或 Unity 目錄許可權和安全性實體物件。

建立筆記本

擷取和儲存數據

若要建立筆記本以擷取範例數據集，並將它儲存至 Unity 目錄：

移至您的 Azure Databricks 登陸頁面，然後按下 提要欄位中的 [新增 ]，然後選取 [Notebook]。 Databricks 會在預設資料夾中建立並開啟新的空白筆記本。默認語言是您最近使用的語言，而且筆記本會自動附加至您最近使用的計算資源。
如有必要，請將默認語言變更為 Python。

複製下列 Python 程式代碼，並將它貼到筆記本的第一個數據格中。

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

讀取和顯示篩選的數據

若要建立筆記本來讀取和呈現要篩選的數據：

移至您的 Azure Databricks 登陸頁面，然後按下 提要欄位中的 [新增 ]，然後選取 [Notebook]。 Databricks 會在預設資料夾中建立並開啟新的空白筆記本。默認語言是您最近使用的語言，而且筆記本會自動附加至您最近使用的計算資源。
如有必要，請將默認語言變更為 Python。

複製下列 Python 程式代碼，並將它貼到筆記本的第一個數據格中。

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))