共用方式為


如何在 Spark DataFrames 上使用 Data Wrangler (預覽)

Data Wrangler 是用於探勘數據分析的筆記本式工具,現在同時支援 Spark DataFrame 和 pandas DataFrame,除了 Python 程式代碼之外,還會產生 PySpark 程式代碼。 如需 Data Wrangler 的一般概觀,其中涵蓋如何探索和轉換 pandas DataFrame,請參閱 主要教學課程。 下列教學課程示範如何使用Data Wrangler來探索和轉換Spark DataFrames。

重要

這項功能處於預覽狀態

必要條件

使用 Spark DataFrame 啟動 Data Wrangler

使用者可以直接從 Microsoft Fabric 筆記本開啟 Data Wrangler 中的 Spark DataFrame,方法是瀏覽至顯示 pandas DataFrame 的相同下拉式清單提示。 作用中的Spark DataFrame清單會出現在作用中 pandas 變數清單下方的下拉式清單中。

下一個代碼段會建立 Spark DataFrame,其中包含 pandas Data Wrangler 教學課程中使用的相同範例數據:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

在筆記本功能區 [數據] 索引標籤下,使用 [數據 Wrangler] 下拉式清單提示來流覽可供編輯的使用中 DataFrame。 選取您想要在 Data Wrangler 中開啟的檔案。

提示

當筆記本核心忙碌時,無法開啟數據 Wrangler。 執行的數據格必須先完成其執行,才能啟動Data Wrangler。

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

選擇自訂範例

基於效能考慮,Data Wrangler 會自動將 Spark DataFrame 轉換成 pandas 範例。 不過,當工具導出回筆記本時,工具所產生的所有程式代碼最終都會轉譯為 PySpark。 如同任何 pandas DataFrame,您可以從 [數據整機] 下拉功能表中選取 [選擇自定義範例],以自定義預設範例。 這麼做會啟動包含選項的彈出視窗,以指定所需樣本的大小(數據列數目)和取樣方法(第一筆記錄、最後一筆記錄或隨機集)。

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

檢視摘要統計數據

當 Data Wrangler 載入時,預覽方格上方的資訊橫幅提醒您 Spark DataFrame 會暫時轉換成 pandas 範例,但所有產生的程式代碼最終都會轉換成 PySpark。 在 Spark DataFrames 上使用 Data Wrangler 與在 pandas DataFrame 上使用數據框架並無不同。 [摘要] 面板中的描述性概觀會顯示範例維度、遺漏值等等的相關信息。 選取 Data Wrangler 方格中的任何數據行,會提示 [摘要] 面板更新並顯示該特定數據行的描述性統計數據。 每個數據行的快速見解也會在其標頭中取得。

提示

數據行特定的統計數據和視覺效果(在 [摘要] 面板和數據行標頭中都相依於數據行數據類型。 例如,只有在數據行轉換成數值類型時,數值數據行的量化直方圖才會出現在數據行標頭中。 使用 [作業] 面板來重新廣播數據行類型,以取得最精確的顯示。

Screenshot showing the Data Wrangler display grid and Summary panel.

瀏覽數據清理作業

您可以在 [作業] 面板中找到可搜尋的數據清除步驟清單。 (每個數據行的內容功能表也提供相同作業的較小選擇。從 [作業] 面板中,選取數據清除步驟會提示您提供目標數據行或數據行,以及完成步驟的任何必要參數。 例如,以數值方式調整數據行的提示需要新的值範圍。

Screenshot showing the Data Wrangler Operations panel.

預覽和套用作業

選取作業的結果會自動在 Data Wrangler 顯示方格中預覽,且對應的程式代碼會自動出現在方格下方的面板中。 若要認可預覽的程序代碼,請在任一位置選取 [套用]。 若要擺脫預覽的程式代碼並嘗試新的作業,請選取 [捨棄]。

Screenshot showing a Data Wrangler operation in progress.

套用作業之後,Data Wrangler 顯示方格和摘要統計數據會更新以反映結果。 程式代碼會出現在 [清除步驟] 面板中的已認可作業執行清單中。

Screenshot showing an applied Data Wrangler operation.

提示

您一律可以使用它旁邊的垃圾桶圖示復原最近套用的步驟,如果您將游標暫留在 [清除步驟] 面板中的該步驟上方,就會出現。

Screenshot showing a Data Wrangler operation that can be undone.

下表摘要說明 Data Wrangler 目前針對 Spark DataFrame 支援的作業:

運算 說明
Sort 以遞增或遞減順序排序數據行
Filter 根據一或多個條件篩選數據列
單熱編碼 針對現有數據行中的每個唯一值建立新的數據行,指出每個數據列是否存在或不存在這些值
具有分隔符的單熱編碼 使用分隔符分割和單熱編碼類別數據
變更數據行類型 變更數據行的數據類型
卸除數據行 刪除一或多個數據行
選取數據行 選擇要保留的一或多個數據行,並刪除其餘數據行
重新命名數據行 重新命名資料行
卸除遺漏值 拿掉遺漏值的數據列
卸除重複的數據列 卸除一或多個數據行中具有重複值的所有數據列
填滿遺漏值 以新值取代遺漏值的儲存格
尋找和取代 以完全相符的模式取代儲存格
依數據行和匯總分組 依數據行值和匯總結果分組
等量空格符 從文字開頭和結尾移除空格符
分割文字 根據使用者定義的分隔符,將數據行分割成數個數據行
將文字轉換成小寫 將文字轉換成小寫
將文字轉換成大寫 將文字轉換成大寫
小數位數/最大值 在最小值和最大值之間縮放數值數據行
快閃填滿 根據衍生自現有數據行的範例自動建立新的數據行

儲存和匯出程序代碼

Data Wrangler 顯示方格上方的工具列提供儲存所產生程式代碼的選項。 您可以將程式代碼複製到剪貼簿,或將它匯出至筆記本做為函式。 針對 Spark DataFrame,pandas 範例上產生的所有程式代碼都會轉譯為 PySpark,然後才回到筆記本中。 在 Data Wrangler 關閉之前,此工具會顯示已翻譯 PySpark 程式代碼的預覽,並提供導出中繼 pandas 程式代碼的選項。

提示

在您手動執行新單元格之前,將不會套用 Data Wrangler 所產生的程式代碼,而且不會覆寫原始 DataFrame。

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the PySpark preview in the export code prompt in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.

  • 若要取得 Data Wrangler 的概觀,請參閱 此隨附文章
  • 若要在 VS Code 中試用 Data Wrangler,請參閱 VS Code 中的數據 Wrangler。