Jak odczytywać i zapisywać dane za pomocą biblioteki Pandas w usłudze Microsoft Fabric

Notesy usługi Microsoft Fabric obsługują bezproblemową interakcję z danymi usługi Lakehouse przy użyciu biblioteki Pandas, najpopularniejszej biblioteki języka Python na potrzeby eksploracji i przetwarzania danych. W notesie użytkownicy mogą szybko odczytywać dane z usługi Lakehouse i zapisywać je z powrotem w różnych formatach plików. Ten przewodnik zawiera przykłady kodu ułatwiające rozpoczęcie pracy we własnym notesie.

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Wymagania wstępne

  • Uzyskaj subskrypcję usługi Microsoft Fabric. Możesz też utworzyć bezpłatną wersję próbną usługi Microsoft Fabric (wersja zapoznawcza).

  • Zaloguj się do usługi Microsoft Fabric.

  • Przejdź do środowiska Nauka o danych przy użyciu ikony przełącznika środowiska po lewej stronie głównej.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Ładowanie danych usługi Lakehouse do notesu

Po dołączeniu usługi Lakehouse do notesu usługi Microsoft Fabric możesz eksplorować przechowywane dane bez opuszczania strony i odczytywać je do notesu w kilku kliknięciach. Wybranie opcji "Załaduj dane" do platformy Spark lub ramki danych Biblioteki Pandas. (Możesz również skopiować pełną ścieżkę ABFS pliku lub przyjazną ścieżkę względną).

Screenshot showing where to select options to load data into a Pandas DataFrame.

Kliknięcie jednego z monitów "Załaduj dane" spowoduje wygenerowanie komórki kodu w celu załadowania tego pliku do ramki danych w notesie.

Screenshot of the code cell added to the notebook.

Konwertowanie ramki danych platformy Spark na ramkę danych biblioteki Pandas

Poniższe polecenie pokazuje, jak przekonwertować ramkę danych platformy Spark na ramkę danych Biblioteki Pandas.

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Odczytywanie i zapisywanie różnych formatów plików

Poniższe przykłady kodu dokumentują operacje biblioteki Pandas na potrzeby odczytywania i zapisywania różnych formatów plików.

Uwaga

Należy zastąpić ścieżki plików w poniższych przykładach. Biblioteka Pandas obsługuje zarówno ścieżki względne, jak pokazano tutaj, i pełne ścieżki ABFS. Jeden z tych elementów można pobrać i skopiować z interfejsu zgodnie z poprzednim krokiem.

Odczytywanie danych z pliku CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Zapisywanie danych jako pliku CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Odczytywanie danych z pliku Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Zapisywanie danych jako pliku Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Odczytywanie danych z pliku programu Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Zapisywanie danych jako pliku programu Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Odczytywanie danych z pliku JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Zapisywanie danych jako pliku JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 

Następne kroki