Sdílet prostřednictvím


Čtení a zápis dat pomocí Pandas v Microsoft Fabric

Poznámkové bloky Microsoft Fabric podporují bezproblémovou interakci s daty Lakehouse pomocí Pandas, nejoblíbenější knihovny Pythonu pro zkoumání a zpracování dat. V poznámkovém bloku můžete rychle číst data z prostředků Lakehouse a zapisovat je zpět do různých formátů souborů. Tato příručka obsahuje ukázky kódu, které vám pomůžou začít pracovat ve vlastním poznámkovém bloku.

Požadavky

Načtení dat Lakehouse do poznámkového bloku

Po připojení lakehouse k poznámkovému bloku Microsoft Fabric můžete zkoumat uložená data bez opuštění stránky a číst je do poznámkového bloku, a to vše pomocí několika kroků. Výběr libovolného souboru Lakehouse zobrazí možnosti načtení dat do sparku nebo datového rámce Pandas. Můžete také zkopírovat úplnou cestu ABFS souboru nebo popisnou relativní cestu.

Snímek obrazovky znázorňující možnosti načtení dat do datového rámce Pandas

Výběr jedné z výzev "Načíst data" vygeneruje buňku kódu, která tento soubor načte do datového rámce v poznámkovém bloku.

Snímek obrazovky znázorňující buňku kódu přidanou do poznámkového bloku

Převod datového rámce Sparku na datový rámec Pandas

Tento příkaz ukazuje, jak převést datový rámec Sparku na datový rámec Pandas:

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Čtení a zápis různých formátů souborů

Poznámka:

Úprava verze konkrétního balíčku by mohla potenciálně narušit jiné balíčky, které na něm závisejí. Downgradování azure-storage-blob může například způsobit problémy s různými dalšími knihovnami Pandas , které spoléhají na Pandas, včetně mssparkutils, fsspec_wrappera notebookutils. Tady si můžete prohlédnout seznam předinstalovaných balíčků a jejich verzí pro každý modul runtime.

Tyto ukázky kódu popisují operace Pandas pro čtení a zápis různých formátů souborů.

Poznámka:

V těchto ukázkách kódu je nutné nahradit cesty k souborům. Pandas podporuje jak relativní cesty, tak i úplné cesty ABFS. Cesty některého typu lze načíst a zkopírovat z rozhraní podle předchozího kroku.

Čtení dat ze souboru CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Zápis dat jako souboru CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Čtení dat ze souboru Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Zápis dat jako souboru Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Čtení dat z excelového souboru

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx") 
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Zápis dat jako excelového souboru

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Čtení dat ze souboru JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Zápis dat jako souboru JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")