Comment lire et écrire des données avec Pandas dans Microsoft Fabric

Les notebooks Microsoft Fabric prennent en charge l’interaction transparente avec les données Lakehouse à l’aide de Pandas, la bibliothèque Python la plus populaire pour l’exploration et le traitement des données. Dans un bloc-notes, les utilisateurs peuvent rapidement lire les données de leurs lakehouses et les réécrire dans différents formats de fichiers. Ce guide fournit des exemples de code pour vous aider à démarrer dans votre propre notebook.

Important

Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.

Prérequis

Charger des données Lakehouse dans un notebook

Une fois que vous avez attaché un Lakehouse à votre bloc-notes Microsoft Fabric, vous pouvez explorer les données stockées sans quitter la page et les lire dans votre bloc-notes en quelques clics. La sélection d’un fichier Lakehouse présente des options pour « Charger des données » dans un DataFrame Spark ou Pandas. (Vous pouvez également copier le chemin ABFS complet du fichier ou un chemin d’accès relatif convivial.)

Capture d’écran montrant où sélectionner les options de chargement des données dans un DataFrame Pandas.

Cliquer sur l’une des invites « Charger des données » génère une cellule de code pour charger ce fichier dans un DataFrame de votre bloc-notes.

Capture d’écran de la cellule de code ajoutée au notebook.

Conversion d’un dataframe Spark en dataframe Pandas

Pour référence, la commande suivante montre comment convertir un dataframe Spark en dataframe Pandas.

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas() 

Lecture et écriture de différents formats de fichiers

Les exemples de code ci-dessous documentent les opérations Pandas pour la lecture et l’écriture de différents formats de fichiers.

Notes

Vous devez remplacer les chemins d’accès aux fichiers dans les exemples suivants. Pandas prend en charge les chemins relatifs, comme illustré ici, et les chemins ABFS complets. Les deux peuvent être récupérés et copiés à partir de l’interface conformément à l’étape précédente.

Lire les données d’un fichier CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Écrire des données sous forme de fichier CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv") 

Lire des données à partir d’un fichier Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Écrire des données en tant que fichier Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 

Lire des données à partir d’un fichier Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df) 

Écrire des données sous forme de fichier Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 

Lire des données à partir d’un fichier JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df) 

Écrire des données sous forme de fichier JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 

Étapes suivantes