Microsoft Fabric에서 Pandas를 사용하여 데이터를 읽고 쓰는 방법
Microsoft Fabric Notebook은 데이터 탐색 및 처리를 위해 가장 인기 있는 Python 라이브러리인 Pandas를 사용하여 Lakehouse 데이터와의 원활한 상호 작용을 지원합니다. Notebook 내에서 다양한 파일 형식으로 해당 Lakehouse 리소스에서 데이터를 빠르게 읽고 데이터를 다시 쓸 수 있습니다. 이 가이드에서는 사용자 고유의 Notebook을 시작하는 데 도움이 되는 코드 샘플을 제공합니다.
필수 조건
Microsoft Fabric 구독을 구매합니다. 또는 무료 Microsoft Fabric 평가판에 등록합니다.
Microsoft Fabric에 로그인합니다.
홈페이지 왼쪽의 환경 전환기를 사용하여 Synapse 데이터 과학 환경으로 전환합니다.
Notebook에 Lakehouse 데이터 로드
Lakehouse를 Microsoft Fabric Notebook에 연결한 후에는 페이지를 벗어나지 않고 저장된 데이터를 탐색하고 몇 가지 단계를 통해 전자 필기장에 읽을 수 있습니다. Lakehouse 파일을 선택하면 Spark 또는 Pandas DataFrame에 "데이터 로드" 옵션이 표시됩니다. 파일의 전체 ABFS 경로 또는 친숙한 상대 경로를 복사할 수도 있습니다.
"데이터 로드" 프롬프트 중 하나를 선택하면 해당 파일을 Notebook의 DataFrame에 로드하는 코드 셀이 생성됩니다.
Spark DataFrame을 Pandas DataFrame으로 변환
참조를 위해 이 명령은 Spark DataFrame을 Pandas DataFrame으로 변환하는 방법을 보여 줍니다.
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
다양한 파일 형식 읽기 및 쓰기
이러한 코드 샘플에서는 다양한 파일 형식을 읽고 쓰는 Pandas 작업에 대해 설명합니다.
참고 항목
이러한 코드 샘플에서 파일 경로를 바꿔야 합니다. Pandas는 여기에 표시된 대로 상대 경로와 전체 ABFS 경로를 모두 지원합니다. 이전 단계에 따라 인터페이스에서 두 형식의 경로를 검색하고 복사할 수 있습니다.
CSV 파일에서 데이터 읽기
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
CSV 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Parquet 파일에서 데이터 읽기
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Parquet 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Excel 파일에서 데이터 읽기
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Excel 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
JSON 파일에서 데이터 읽기
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
JSON 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
관련 콘텐츠
- 데이터 랭글러를 사용하여 데이터 클린 준비
- ML 모델 학습 시작
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기