使用 Spark 來處理資料檔案

8 分鐘

設定筆記本並將其附加至叢集之後，您可以使用 Spark 來讀取和處理資料檔案。 Spark 支援多種格式，例如 CSV、JSON、Parquet、ORC、Avro 和 Delta，而 Databricks 提供內建連接器，以存取儲存在工作區、Azure Data Lake 或 Blob 儲存體或其他外部系統中的檔案。

工作流程通常遵循三個步驟：

使用 spark.read 將檔案讀入至 Spark DataFrame，並指定正確的格式和路徑。讀取 CSV 或 JSON 等原始文字格式時，Spark 可以推斷結構描述（欄名和資料類型），但這有時速度很慢或不可靠。在生產環境中，更好的做法是明確定義結構描述，以便一致且有效率地載入資料。
使用 SQL 或 DataFrame 作業（例如，篩選資料列、選取資料行、彙總值）來探索和轉換 DataFrame。
以所選格式將結果寫回儲存體。

在 Spark 中使用檔案的設計目的是在小型和大型資料集中保持一致。用來測試小型 CSV 檔案的相同程式碼也適用於更大的資料集，因為 Spark 會在叢集中散發工作。這使得從快速探索擴展到更複雜的資料處理變得更加容易。

將資料載入資料框架中

現在來探索假設範例，了解如何使用資料框架來處理資料。假設您在 Databricks 檔案系統（DBFS）記憶體的數據資料夾中，有名為 products.csv 的逗號分隔文字檔中的下列數據：

ProductID,ProductName,Category,ListPrice
771,"Mountain-100 Silver, 38",Mountain Bikes,3399.9900
772,"Mountain-100 Silver, 42",Mountain Bikes,3399.9900
773,"Mountain-100 Silver, 44",Mountain Bikes,3399.9900
...

在 Spark 筆記本中，可以使用下列 PySpark 程式碼將資料載入資料框架，並顯示前 10 列：

%pyspark
df = spark.read.load('/data/products.csv',
    format='csv',
    header=True
)
display(df.limit(10))

開頭的 %pyspark 行稱為魔術，並告訴Spark 此儲存格中使用的語言是 PySpark。以下是產品資料範例的對等 Scala 程式碼：

%spark
val df = spark.read.format("csv").option("header", "true").load("/data/products.csv")
display(df.limit(10))

magic %spark 用來指定 Scala。

提示

您也可以選取要用於筆記本介面中每個儲存格的語言。

先前顯示的這兩個範例會產生如下的輸出：

ProductID	ProductName	類別	ListPrice
771	Mountain-100 Silver， 38	山地自行車	3399.9900
772	Mountain-100 Silver， 42	山地自行車	3399.9900
773	Mountain-100 Silver， 44	山地自行車	3399.9900
...	...	...	...

指定資料框架結構描述

在上一個範例中，CSV 檔的第一個資料列中包含資料行名稱，而 Spark 可以從包含的資料推斷每個資料行的資料類型。您也可以為資料指定明確的結構描述，當資料檔案中未包含資料行名稱時很實用，如下列 CSV 範例所示：

771,"Mountain-100 Silver, 38",Mountain Bikes,3399.9900
772,"Mountain-100 Silver, 42",Mountain Bikes,3399.9900
773,"Mountain-100 Silver, 44",Mountain Bikes,3399.9900
...

下列 PySpark 範例示範如何以下列格式指定要從名為 product-data.csv 檔案載入之數據框架的架構：

from pyspark.sql.types import *
from pyspark.sql.functions import *

productSchema = StructType([
    StructField("ProductID", IntegerType()),
    StructField("ProductName", StringType()),
    StructField("Category", StringType()),
    StructField("ListPrice", FloatType())
    ])

df = spark.read.load('/data/product-data.csv',
    format='csv',
    schema=productSchema,
    header=False)
display(df.limit(10))

結果會再次類似於：

ProductID	ProductName	類別	ListPrice
771	Mountain-100 Silver， 38	山地自行車	3399.9900
772	Mountain-100 Silver， 42	山地自行車	3399.9900
773	Mountain-100 Silver， 44	山地自行車	3399.9900
...	...	...	...

篩選和分組資料框架

您可以使用資料框架類別方法來篩選、排序、分組，以及操作它所包含的資料。例如，下列程式碼範例會使用方法select，從上一個範例中包含產品資料的 df 資料框擷取 ProductName 和 ListPrice 資料行：

pricelist_df = df.select("ProductID", "ListPrice")

此程式碼範例的結果看起來會像這樣：

ProductID	ListPrice
771	3399.9900
772	3399.9900
773	3399.9900
...	...

與大多數資料操作方法一樣， select 傳回一個新的資料框物件。

提示

從資料框架中選取資料行子集是常見的作業，也可以使用下列較短的語法來達成這個目標：

pricelist_df = df["ProductID", "ListPrice"]

您可以將方法「鏈結」在一起，執行一連串的操作，產生轉換的資料框架。例如，此範例會鏈結和 selectwhere 方法，以建立新的資料框架，其中包含類別為「山地自行車」或「公路自行車」的產品的 ProductName 和 ListPrice 資料行：

bikes_df = df.select("ProductName", "ListPrice").where((df["Category"]=="Mountain Bikes") | (df["Category"]=="Road Bikes"))
display(bikes_df)

此程式碼範例的結果看起來會像這樣：

ProductName	ListPrice
Mountain-100 Silver， 38	3399.9900
Road-750 黑色, 52	539.9900
...	...

若要將資料分組和彙總，您可以使用 groupby 方法和彙總函數。例如，下列 PySpark 程式碼會計算每個類別的產品數目：

counts_df = df.select("ProductID", "Category").groupBy("Category").count()
display(counts_df)

此程式碼範例的結果看起來會像這樣：

類別	計數
耳機	3
車輪	14
山地自行車	32
...	...

注意

Spark DataFrame 是 宣告式且不可變的。每個轉換（例如 select、 filter或 groupBy）都會建立新的 DataFrame，代表您想要的內容，而不是其執行方式。這使得程式碼可重複使用、可最佳化且無副作用。但是，在您觸發動作（例如 display，， collect） write之前，這些轉換都不會實際執行，此時 Spark 會執行完整的最佳化計劃。

在 Spark 中使用 SQL 運算式

Dataframe API 是名為 Spark SQL 的 Spark 程式庫的一部分，可讓資料分析師使用 SQL 運算式來查詢及操作資料。

在 Spark 目錄中建立資料庫物件

Spark 目錄是關聯式資料物件 (例如檢視和資料表) 的中繼存放區。 Spark 執行階段可以使用目錄，順暢整合以任何 Spark 支援的語言撰寫的程式碼，以及對某些資料分析師或開發人員而言可能更自然的 SQL 運算式。

若要讓資料框架中的資料可在 Spark 目錄中查詢，其中一個最簡單方式就是建立暫存檢視，如下列程式碼範例所示：

df.createOrReplaceTempView("products")

檢視是暫時的，這表示會在目前會話結束時自動刪除。您也可以建立保存於目錄中的 數據表 ，以定義可使用 Spark SQL 查詢的資料庫。

注意

我們不會在本課程模組中深入探討 Spark 目錄資料表，但值得花一些時間強調幾個重點：

您可以使用 spark.catalog.createTable 方法來建立空的資料表。資料表是中繼資料結構，會將其基礎資料儲存在與目錄相關聯的儲存位置。刪除資料表也會刪除其基礎資料。
您可以使用資料框架的 saveAsTable 方法，將資料框架儲存為資料表。
您可以使用方法建立 spark.catalog.createExternalTable 資料表。外部資料表會定義目錄中的中繼資料，但會從外部儲存位置取得其基礎資料；通常是資料湖中的資料夾。刪除外部資料表不會刪除基礎資料。

使用 Spark SQL API 查詢資料

在以任何語言撰寫的程式碼中，都能使用 Spark SQL API 來查詢目錄中的資料。例如，下列 PySpark 程式代碼會使用 SQL 查詢，以數據框架的形式從產品檢視傳回數據。

bikes_df = spark.sql("SELECT ProductID, ProductName, ListPrice \
                      FROM products \
                      WHERE Category IN ('Mountain Bikes', 'Road Bikes')")
display(bikes_df)

此範例程式碼的結果可能看起來類似下表：

ProductName	ListPrice
Mountain-100 Silver， 38	3399.9900
Road-750 黑色, 52	539.9900
...	...

使用 SQL 程式碼

上述範例示範如何使用 Spark SQL API 在 Spark 程式碼中內嵌 SQL 運算式。在筆記本中，您也可以使用 %sql magic 來執行 SQL 程式碼，以查詢目錄中的物件，如下所示：

%sql

SELECT Category, COUNT(ProductID) AS ProductCount
FROM products
GROUP BY Category
ORDER BY Category

SQL 程式碼範例傳回的結果集會自動在筆記本中顯示為資料表，如下所示：

類別	ProductCount
Bib-Shorts	3
自行車架	1
腳踏車停車架	1
...	...

意見反應

此頁面對您有幫助嗎？