Comment lire et écrire des données avec Pandas dans Microsoft Fabric
Les notebooks Microsoft Fabric prennent en charge l’interaction transparente avec les données Lakehouse à l’aide de Pandas, la bibliothèque Python la plus populaire pour l’exploration et le traitement des données. Dans un bloc-notes, les utilisateurs peuvent rapidement lire les données de leurs lakehouses et les réécrire dans différents formats de fichiers. Ce guide fournit des exemples de code pour vous aider à démarrer dans votre propre notebook.
Important
Microsoft Fabric est actuellement en préversion. Certaines informations portent sur un produit en préversion susceptible d’être substantiellement modifié avant sa publication. Microsoft ne donne aucune garantie, expresse ou implicite, concernant les informations fournies ici.
Prérequis
Un abonnement Power BI Premium. Si vous n’en avez pas, consultez Comment acheter Power BI Premium.
Un espace de travail Power BI avec une capacité Premium affectée. Si vous n’avez pas d’espace de travail, suivez les étapes décrites dans Créer un espace de travail pour en créer un et l’affecter à une capacité Premium.
Connectez-vous à Microsoft Fabric.
Charger des données Lakehouse dans un notebook
Une fois que vous avez attaché un Lakehouse à votre bloc-notes Microsoft Fabric, vous pouvez explorer les données stockées sans quitter la page et les lire dans votre bloc-notes en quelques clics. La sélection d’un fichier Lakehouse présente des options pour « Charger des données » dans un DataFrame Spark ou Pandas. (Vous pouvez également copier le chemin ABFS complet du fichier ou un chemin d’accès relatif convivial.)
Cliquer sur l’une des invites « Charger des données » génère une cellule de code pour charger ce fichier dans un DataFrame de votre bloc-notes.
Conversion d’un dataframe Spark en dataframe Pandas
Pour référence, la commande suivante montre comment convertir un dataframe Spark en dataframe Pandas.
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Lecture et écriture de différents formats de fichiers
Les exemples de code ci-dessous documentent les opérations Pandas pour la lecture et l’écriture de différents formats de fichiers.
Notes
Vous devez remplacer les chemins d’accès aux fichiers dans les exemples suivants. Pandas prend en charge les chemins relatifs, comme illustré ici, et les chemins ABFS complets. Les deux peuvent être récupérés et copiés à partir de l’interface conformément à l’étape précédente.
Lire les données d’un fichier CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Écrire des données sous forme de fichier CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Lire des données à partir d’un fichier Parquet
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Écrire des données en tant que fichier Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Lire des données à partir d’un fichier Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Écrire des données sous forme de fichier Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Lire des données à partir d’un fichier JSON
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Écrire des données sous forme de fichier JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Étapes suivantes
- Utiliser Data Wrangler pour propre et préparer vos données
- Démarrer l’entraînement des modèles ML