Microsoft Fabric에서 Pandas를 사용하여 데이터를 읽고 쓰는 방법

Microsoft Fabric Notebook은 데이터 탐색 및 처리를 위해 가장 인기 있는 Python 라이브러리인 Pandas를 사용하여 Lakehouse 데이터와의 원활한 상호 작용을 지원합니다. Notebook 내에서 다양한 파일 형식으로 해당 Lakehouse 리소스에서 데이터를 빠르게 읽고 데이터를 다시 쓸 수 있습니다. 이 가이드에서는 사용자 고유의 Notebook을 시작하는 데 도움이 되는 코드 샘플을 제공합니다.

필수 조건

Notebook에 Lakehouse 데이터 로드

Lakehouse를 Microsoft Fabric Notebook에 연결한 후에는 페이지를 벗어나지 않고 저장된 데이터를 탐색하고 몇 가지 단계를 통해 전자 필기장에 읽을 수 있습니다. Lakehouse 파일을 선택하면 Spark 또는 Pandas DataFrame에 "데이터 로드" 옵션이 표시됩니다. 파일의 전체 ABFS 경로 또는 친숙한 상대 경로를 복사할 수도 있습니다.

Pandas DataFrame에 데이터를 로드하는 옵션을 보여 주는 스크린샷.

"데이터 로드" 프롬프트 중 하나를 선택하면 해당 파일을 Notebook의 DataFrame에 로드하는 코드 셀이 생성됩니다.

Notebook에 추가된 코드 셀을 보여 주는 스크린샷

Spark DataFrame을 Pandas DataFrame으로 변환

참조를 위해 이 명령은 Spark DataFrame을 Pandas DataFrame으로 변환하는 방법을 보여 줍니다.

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

다양한 파일 형식 읽기 및 쓰기

이러한 코드 샘플에서는 다양한 파일 형식을 읽고 쓰는 Pandas 작업에 대해 설명합니다.

참고 항목

이러한 코드 샘플에서 파일 경로를 바꿔야 합니다. Pandas는 여기에 표시된 대로 상대 경로와 전체 ABFS 경로를 모두 지원합니다. 이전 단계에 따라 인터페이스에서 두 형식의 경로를 검색하고 복사할 수 있습니다.

CSV 파일에서 데이터 읽기

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

CSV 파일로 데이터 쓰기

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Parquet 파일에서 데이터 읽기

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Parquet 파일로 데이터 쓰기

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Excel 파일에서 데이터 읽기

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Excel 파일로 데이터 쓰기

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

JSON 파일에서 데이터 읽기

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

JSON 파일로 데이터 쓰기

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")