如何在 Microsoft Fabric 中使用 Pandas 讀取和寫入數據
Microsoft Fabric 筆記本支援使用 Pandas 與 Lakehouse 數據順暢互動,這是最熱門的 Python 連結庫,用於數據探索和處理。 在筆記本中,您可以快速讀取數據,並以各種檔格式將數據寫回其 Lakehouse 資源。 本指南提供程式碼範例,協助您開始使用自己的筆記本。
必要條件
取得 Microsoft Fabric 訂用帳戶。 或者,註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學 體驗。
將 Lakehouse 數據載入筆記本
將 Lakehouse 附加至您的 Microsoft Fabric 筆記本之後,即可探索儲存的數據,而不需要離開頁面,並讀取到您的筆記本中,只要幾個步驟即可。 選取任何 Lakehouse 檔案會顯示選項,以「將數據載入」到 Spark 或 Pandas 數據框架。 您也可以複製檔案的完整 ABFS 路徑或易記的相對路徑。
選取其中一個「載入數據」提示會產生程式代碼數據格,以將該檔案載入筆記本中的DataFrame。
將 Spark 資料框架轉換成 Pandas 資料框架
如需參考,此命令示範如何將Spark DataFrame轉換成 Pandas DataFrame:
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
讀取和寫入各種檔案格式
這些程式代碼範例描述 Pandas 作業,以讀取和寫入各種檔案格式。
注意
您必須取代這些程式碼範例中的檔案路徑。 Pandas 支持相對路徑,如下所示,以及完整的 ABFS 路徑。 您可以根據上一個步驟,從介面擷取和複製任一類型的路徑。
從 CSV 檔案讀取數據
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
將數據寫入 CSV 檔案
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
從 Parquet 檔案讀取數據
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
將數據寫入 Parquet 檔案
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
從 Excel 檔案讀取數據
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
將數據寫入 Excel 檔案
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
從 JSON 檔案讀取數據
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
將數據寫入為 JSON 檔案
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應