如何在 Microsoft Fabric 中使用 Pandas 讀取和寫入數據

Microsoft Fabric 筆記本支援使用 Pandas 與 Lakehouse 數據順暢互動,這是最熱門的 Python 連結庫,用於數據探索和處理。 在筆記本中,您可以快速讀取數據,並以各種檔格式將數據寫回其 Lakehouse 資源。 本指南提供程式碼範例,協助您開始使用自己的筆記本。

必要條件

將 Lakehouse 數據載入筆記本

將 Lakehouse 附加至您的 Microsoft Fabric 筆記本之後,即可探索儲存的數據,而不需要離開頁面,並讀取到您的筆記本中,只要幾個步驟即可。 選取任何 Lakehouse 檔案會顯示選項,以「將數據載入」到 Spark 或 Pandas 數據框架。 您也可以複製檔案的完整 ABFS 路徑或易記的相對路徑。

顯示將數據載入 Pandas DataFrame 的選項螢幕快照。

選取其中一個「載入數據」提示會產生程式代碼數據格,以將該檔案載入筆記本中的DataFrame。

顯示新增至筆記本之程式代碼儲存格的螢幕快照。

將 Spark 資料框架轉換成 Pandas 資料框架

如需參考,此命令示範如何將Spark DataFrame轉換成 Pandas DataFrame:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

讀取和寫入各種檔案格式

這些程式代碼範例描述 Pandas 作業,以讀取和寫入各種檔案格式。

注意

您必須取代這些程式碼範例中的檔案路徑。 Pandas 支持相對路徑,如下所示,以及完整的 ABFS 路徑。 您可以根據上一個步驟,從介面擷取和複製任一類型的路徑。

從 CSV 檔案讀取數據

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

將數據寫入 CSV 檔案

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

從 Parquet 檔案讀取數據

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

將數據寫入 Parquet 檔案

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

從 Excel 檔案讀取數據

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

將數據寫入 Excel 檔案

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

從 JSON 檔案讀取數據

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

將數據寫入為 JSON 檔案

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")