如何在 Microsoft Fabric 中使用 Pandas 讀取和寫入資料

Microsoft Fabric 筆記本支援使用 Pandas 與 Lakehouse 資料順暢互動，這是用於資料探索和處理的熱門 Python 庫。在筆記本中，您可以快速讀取數據，並以各種檔案格式將數據寫回您的 Lakehouse 資源。本指南提供程式碼範例，以協助您開始使用自己的筆記本。

必要條件

取得 Microsoft Fabric 訂用帳戶。或註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左下角的體驗切換器切換到 Fabric。

完成準備系統以進行數據科學教學課程中的步驟，以建立新的筆記本，並將 Lakehouse 附加至其中。在本文中，請遵循步驟來建立新的筆記本，而不是匯入現有的筆記本。

將 Lakehouse 資料載入筆記本

注意

您需要 Lakehouse 中的一些數據，才能遵循本節中的步驟。如果您沒有任何數據，請遵循下載數據集並上傳至 lakehouse 中的步驟，將 churn.csv 檔案新增至 Lakehouse。

將 Lakehouse 附加至您的 Microsoft Fabric 筆記本之後，即可探索儲存的數據，而不需要離開頁面，只需幾個步驟即可將它讀入您的筆記本。選取任何 Lakehouse 檔案會顯示選項以「載入數據」到 Spark 或 Pandas 數據框架。您也可以複製檔案的完整 ABFS 路徑，或者易記的相對路徑。

選取其中一個「載入數據」提示會產生將檔案載入筆記本中 DataFrame 的程式代碼數據格。

將 Spark DataFrame 轉換為 Pandas DataFrame

如需參考，此命令會展示如何將 Spark DataFrame 轉換成 Pandas DataFrame：

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()

讀取和寫入各種檔案格式

注意

修改特定套件的版本可能會中斷相依的其他套件。例如，降級azure-storage-blob可能會導致依賴的其他各種連結庫Pandas發生問題Pandas，包括mssparkutils、 fsspec_wrapper和 notebookutils。您可以在這裏檢視預安裝套件的清單及其每個執行時間的版本。

這些程式代碼範例示範 Pandas 作業，以讀取和寫入各種檔案格式。這些範例並非要依照教學課程的順序執行，而是視需要複製並貼到您自己的筆記本中。

注意

您必須取代這些程式碼範例中的檔案路徑。 Pandas 支援兩種相對路徑，如下所示，以及完整的 ABFS 路徑。您可以使用先前的步驟，從介面擷取和複製任一類型的路徑。

從 CSV 檔案讀取資料

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

將資料寫入為 CSV 檔案

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")

從 Parquet 檔案讀取資料

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

將資料寫入為 Parquet 檔案

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")

從 Excel 檔案讀取資料

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
# If the file is in a subfolder, add the correct file path after Files/
# For the default lakehouse attached to the notebook, use: df = pd.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pd.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df)

將資料寫入為 Excel 檔案

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")

從 JSON 檔案讀取資料

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df)

將資料寫入為 JSON 檔案

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")

使用 Delta 表格

差異資料表是 Microsoft Fabric 中的預設資料表格式，並儲存在 Lakehouse 的 [資料表 ] 區段中。與檔案不同，Delta 資料表需要兩個步驟的程式才能使用 pandas：先將資料表讀取到 Spark DataFrame 中，然後將其轉換為 pandas DataFrame。

建立測試差異資料表

若要遵循本節中的步驟，您需要 Lakehouse 中的 Delta 資料表。請遵循下載資料集並上傳至 Lakehouse 中的步驟，將 churn.csv 檔案新增至 Lakehouse，然後在筆記本中執行下列程式碼，從 churn.csv 檔案建立測試資料表：

import pandas as pd
# Create a test Delta table from the churn.csv file

df = pd.read_csv("/lakehouse/default/Files/churn/raw/churn.csv")
spark_df = spark.createDataFrame(df)
spark_df.write.format("delta").mode("overwrite").saveAsTable("churn_table")

這會建立名為 churn_table 的 Delta 資料表，您可以使用該資料表來測試下列範例。

從 Delta 資料表讀取資料

# Read a Delta table from your Lakehouse into a pandas DataFrame
# This example uses the churn_table created above
spark_df = spark.read.format("delta").load("Tables/churn_table")
pandas_df = spark_df.toPandas()
display(pandas_df)

您也可以使用 Spark SQL 語法讀取 Delta 資料表：

# Alternative method using Spark SQL
spark_df = spark.sql("SELECT * FROM churn_table")
pandas_df = spark_df.toPandas()
display(pandas_df)

將 pandas DataFrame 寫入 Delta 資料表

# Convert pandas DataFrame to Spark DataFrame, then save as Delta table
# Replace TABLE_NAME with your desired table name
spark_df = spark.createDataFrame(pandas_df)
spark_df.write.format("delta").mode("overwrite").saveAsTable("TABLE_NAME")

您也可以儲存至「表格」區段中的特定路徑：

# Save to a specific path in the Tables section
spark_df = spark.createDataFrame(pandas_df)
spark_df.write.format("delta").mode("overwrite").save("Tables/TABLE_NAME")

Delta 資料表的寫入模式

寫入 Delta 資料表時，您可以指定不同的模式：

# Overwrite the entire table
spark_df.write.format("delta").mode("overwrite").saveAsTable("TABLE_NAME")

# Append new data to existing table
spark_df.write.format("delta").mode("append").saveAsTable("TABLE_NAME")

注意

在 Lakehouse 的 [資料表 ] 區段中建立的差異資料表可探索，而不需要任何其他註冊或設定步驟，而且可以使用 Spark SQL 進行查詢。它們也會出現在 Lakehouse 總管介面中（您可能需要重新整理 Lakehouse 總管才能查看最近的變更）。

使用 Data Wrangler 清理並準備您的資料
開始訓練 ML 模型

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-08-30