Чтение и запись данных с помощью Pandas в Microsoft Fabric
Записные книжки Microsoft Fabric поддерживают простое взаимодействие с данными Lakehouse с помощью Pandas, самой популярной библиотеки Python для просмотра и обработки данных. В записной книжке пользователи могут быстро считывать данные из своих lakehouse и записывать их обратно в различные форматы файлов. В этом руководстве приведены примеры кода, которые помогут вам приступить к работе с собственной записной книжкой.
Важно!
Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эти сведения относятся к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении предоставленной здесь информации.
Предварительные требования
Подписка Power BI Premium. Если у вас ее нет, см. раздел Как приобрести Power BI Premium.
Рабочая область Power BI с назначенной емкостью Premium. Если у вас нет рабочей области, выполните действия, описанные в разделе Создание рабочей области , чтобы создать ее и назначить ее емкости Premium.
Войдите в Microsoft Fabric.
Загрузка данных Lakehouse в записную книжку
После присоединения Lakehouse к записной книжке Microsoft Fabric вы сможете просматривать сохраненные данные, не покидая страницу, и читать их в записной книжке несколькими щелчками мыши. При выборе любого файла Lakehouse отображаются параметры "Загрузить данные" в кадр данных Spark или Pandas. (Вы также можете скопировать полный путь файла ABFS или понятный относительный путь.)
Щелкнув один из запросов "Загрузить данные", вы создайте ячейку кода для загрузки этого файла в кадр данных в записной книжке.
Преобразование кадра данных Spark в кадр данных Pandas
Для справки следующая команда показывает, как преобразовать кадр данных Spark в Кадр данных Pandas.
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Чтение и запись различных форматов файлов
В приведенных ниже примерах кода описаны операции Pandas для чтения и записи файлов различных форматов.
Примечание
В следующих примерах необходимо заменить пути к файлам. Pandas поддерживает как относительные пути, как показано ниже, так и полные пути ABFS. Любой из этих элементов можно получить и скопировать из интерфейса в соответствии с предыдущим шагом.
Чтение данных из CSV-файла
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Запись данных в CSV-файл
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Чтение данных из файла Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Запись данных в виде файла Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Чтение данных из файла Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Запись данных в виде файла Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Чтение данных из JSON-файла
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Запись данных в виде JSON-файла
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Дальнейшие действия
- Использование Data Wrangler для очистки и подготовки данных
- Начало обучения моделей машинного обучения