Чтение и запись данных с помощью Pandas в Microsoft Fabric

Записные книжки Microsoft Fabric поддерживают простое взаимодействие с данными Lakehouse с помощью Pandas, самой популярной библиотеки Python для просмотра и обработки данных. В записной книжке пользователи могут быстро считывать данные из своих lakehouse и записывать их обратно в различные форматы файлов. В этом руководстве приведены примеры кода, которые помогут вам приступить к работе с собственной записной книжкой.

Важно!

Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эти сведения относятся к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении предоставленной здесь информации.

Предварительные требования

Загрузка данных Lakehouse в записную книжку

После присоединения Lakehouse к записной книжке Microsoft Fabric вы сможете просматривать сохраненные данные, не покидая страницу, и читать их в записной книжке несколькими щелчками мыши. При выборе любого файла Lakehouse отображаются параметры "Загрузить данные" в кадр данных Spark или Pandas. (Вы также можете скопировать полный путь файла ABFS или понятный относительный путь.)

Снимок экрана: выбор параметров для загрузки данных в кадр данных Pandas.

Щелкнув один из запросов "Загрузить данные", вы создайте ячейку кода для загрузки этого файла в кадр данных в записной книжке.

Снимок экрана: ячейка кода, добавленная в записную книжку.

Преобразование кадра данных Spark в кадр данных Pandas

Для справки следующая команда показывает, как преобразовать кадр данных Spark в Кадр данных Pandas.

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Чтение и запись различных форматов файлов

В приведенных ниже примерах кода описаны операции Pandas для чтения и записи файлов различных форматов.

Примечание

В следующих примерах необходимо заменить пути к файлам. Pandas поддерживает как относительные пути, как показано ниже, так и полные пути ABFS. Любой из этих элементов можно получить и скопировать из интерфейса в соответствии с предыдущим шагом.

Чтение данных из CSV-файла

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Запись данных в CSV-файл

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Чтение данных из файла Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Запись данных в виде файла Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Чтение данных из файла Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Запись данных в виде файла Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Чтение данных из JSON-файла

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Запись данных в виде JSON-файла

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 

Дальнейшие действия