如何在 Spark DataFrame 上使用 Data Wrangler
Data Wrangler 是用於探索資料分析的筆記本型工具,現支援 Spark DataFrame 和 Pandas DataFrame。 除了 Python 程式碼之外,它還會產生 PySpark 程式碼。 如需 Data Wrangler 的一般概觀,涵蓋如何探索和轉換 Pandas DataFrame,請瀏覽主要教學課程。 本教學課程示範如何使用 Data Wrangler 來探索和轉換 Spark DataFrame。
必要條件
取得 Microsoft Fabric 訂用帳戶。 或註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學體驗。
限制
- 目前僅針對 Pandas DataFrame 支援自訂程式碼作業。
- 儘管您可以最小化或隱藏介面的不同部分,以適應較小的螢幕,但 Data Wrangler 顯示在大型監視器上效果最佳。
使用 Spark DataFrame 啟動 Data Wrangler
使用者可以透過瀏覽至顯示 Pandas DataFrame 的相同下拉式清單提示,直接從 Microsoft Fabric 筆記本開啟 Data Wrangler 中的 Spark DataFrame。 作用中的 Spark DataFrame 清單會出現在作用中 Pandas 變數清單下方的下拉式清單中。
此程式碼片段會建立 Spark DataFrame,其中包含 Pandas Data Wrangler 教學課程中使用的相同範例資料:
import pandas as pd
# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)
在筆記本緞帶 [首頁] 索引標籤中,使用 [Data Wrangler] 下拉式清單提示來瀏覽可供編輯的作用中 DataFrame。 選取您想要在 Data Wrangler 中開啟的一個。
提示
當筆記本核心忙碌時,無法開啟 Data Wrangler。 執行的資料格必須在 Data Wrangler 啟動之前完成其執行,如下列螢幕擷取畫面所示:
選擇自訂範例
基於效能考慮,Data Wrangler 會自動將 Spark DataFrame 轉換成 Pandas 範例。 不過,該工具產生的所有程式碼在匯出回筆記本時,最終都會轉譯為 PySpark。 如同任何 Pandas DataFrame,您可以自訂預設範例。 若要使用 Data Wrangler 開啟任何作用中 DataFrame 的自訂範例,請從下拉式清單中選取 [選擇自訂範例],如下列螢幕擷取畫面所示:
這會啟動包含選項的快顯,以指定所需範例的大小 (資料列數目) 和取樣方法 (第一條記錄、最後一條記錄或隨機集),如下列螢幕擷取畫面所示:
檢視摘要統計資料
當 Data Wrangler 載入時,其會在預覽方格上方顯示資訊橫幅。 此橫幅說明 Spark DataFrame 會暫時轉換成 pandas 範例,但所有產生的程式碼最終都會轉換成 PySpark。 過去,在 Spark DataFrame 上使用 Data Wrangler 與在 Pandas DataFrame 上使用 Data Wrangler 並無不同。 [摘要] 面板中的描述性概觀會顯示範例的維度、遺漏值等的相關資訊。 在 Data Wrangler 方格中選取任何資料行時,會提示 [摘要] 面板更新並顯示有關該特定資料行的描述性統計資料。 每個資料行的快速見解也可在其標頭中取得。
提示
資料行特定的統計資料和視覺物件 (無論是在 [摘要] 面板中還是在資料行標頭中),都取決於資料行資料類型。 例如,只有在資料行轉換成數值類型時,數值資料行的量化長條圖才會出現在資料行標頭中,如下列螢幕擷取畫面所示:
瀏覽資料清理作業
可在 [作業] 面板中找到可搜尋的資料清理步驟清單。 從 [作業] 面板中,選取資料清理步驟會提示您提供目標資料行或資料行,以及完成步驟的任何必要參數。 例如,以數值方式調整資料行的提示需要新的值範圍,如下列螢幕擷取畫面所示:
提示
您可以從每個資料行標頭的功能表中套用較小的作業選取範圍,如下列螢幕擷取畫面所示:
預覽和套用作業
Data Wrangler 顯示方格會自動預覽所選作業的結果,且對應的程式碼會自動出現在方格下方的面板中。 若要提交預覽的程式碼,請在任一位置選取 [套用]。 若要刪除預覽的程式碼並嘗試新的作業,請選取 [捨棄],如下列螢幕擷取畫面所示:
套用作業之後,Data Wrangler 顯示方格和摘要統計資料會更新以反映結果。 程式碼會出現在 [清理步驟] 面板中已提交的作業執行清單中,如下列螢幕擷取畫面所示:
提示
您始終可以復原最近套用的步驟。 在 [清理步驟] 面板中,如果您將游標停留在最近套用的步驟上方,就會顯示垃圾桶圖示,如下列螢幕擷取畫面所示:
下表摘要說明 Data Wrangler 目前支援的運算:
運算 | 說明 |
---|---|
Sort | 資料行依遞增或遞減順序來排序 |
Filter | 根據一或多個條件篩選資料列 |
獨熱編碼 | 針對現有資料行中的每個唯一值建立新的資料行,指出每個資料列是否存在或不存在這些值 |
具有分隔符號的獨熱編碼 | 使用分隔符號對類別資料進行分割和獨熱編碼 |
變更資料行類型 | 變更資料行的資料類型 |
卸除資料行 | 刪除一或多個資料行 |
選取資料行 | 選擇要保留的一或多個資料行,並刪除其餘資料行 |
重新命名資料行 | 重新命名資料行 |
卸除遺漏值 | 移除具有遺漏值的資料列 |
卸除重複資料列 | 卸除一或多個資料行中具有重複值的所有資料列 |
填滿遺漏值 | 以新值取代遺漏值的資料格 |
尋找並取代 | 以完全符合的模式取代資料格 |
依資料行和彙總分組 | 依資料行值和彙總結果分組 |
移除空格 | 移除文字開頭和結尾的空格 |
分割文字 | 根據使用者定義的分隔符號,將一個資料行分割成數個資料行 |
將文字轉換成小寫 | 將文字轉換成小寫 |
將文字轉換成大寫 | 將文字轉換成大寫 |
縮放最小值/最大值 | 在最小值和最大值之間縮放數值資料行 |
快速填入 | 根據衍生自現有資料行的範例自動建立新的資料行 |
修改您的顯示
您可以隨時使用位於 Data Wrangler 顯示方格上方工具列中的 [檢視] 索引標籤來自訂介面。 這可以根據您的喜好設定和螢幕大小來隱藏或顯示不同的窗格,如下列螢幕擷取畫面所示:
儲存和匯出程式碼
Data Wrangler 顯示方格上方的工具列提供了儲存產生的程式碼的選項。 您可以將程式碼複製到剪貼板,或將其作為函式匯出至筆記本。 針對 Spark DataFrame,Pandas 範例上產生的所有程式碼都會轉譯為 PySpark,然後才回到筆記本中。 在 Data Wrangler 關閉之前,此工具會顯示已轉譯的 PySpark 程式碼的預覽,並且還提供匯出中繼 Pandas 程式碼。
提示
Data Wrangler 會產生只有在您手動執行新資料格時才會套用的程式碼,而且不會覆寫原始 DataFrame,如下列螢幕擷取畫面所示:
程式碼會轉換成 PySpark,如下列螢幕擷取畫面所示:
然後,您可以執行匯出的程式碼,如下列螢幕擷取畫面所示:
相關內容
- 如需 Data Wrangler 的概觀,請瀏覽此附屬文章
- 要在 Visual Studio Code 中試用 Data Wrangler,請前往 VS Code 中的 Data Wrangler
- 我們是否錯過您需要的功能? 請告訴我們! 在 Fabric Ideas 論壇上提出建議