Utilisez un ordinateur portable pour charger des données dans votre Lakehouse
Dans ce didacticiel, apprenez à lire/écrire des données dans votre Lakehouse avec un ordinateur portable. L'API Spark et l'API Pandas sont prises en charge pour atteindre cet objectif.
Charger des données avec une API Apache Spark
Dans la cellule de code du bloc-notes, utilisez l'exemple de code suivant pour lire les données de la source et les charger dans Fichiers, Tables ou les deux sections de votre Lakehouse.
Pour spécifier l'emplacement à partir duquel lire, vous pouvez utiliser le chemin relatif si les données proviennent du Lakehouse par défaut du bloc-notes actuel, ou vous pouvez utiliser le chemin ABFS absolu si les données proviennent d'un autre Lakehouse. vous pouvez copier ce chemin depuis le menu contextuel des données
Copier le chemin ABFS : ceci renvoie le chemin absolu du fichier
Copier le chemin relatif pour Spark : cela renvoie le chemin relatif du fichier dans le Lakehouse par défaut
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Charger des données avec une API Pandas
Pour prendre en charge l'API Pandas, le Lakehouse par défaut sera automatiquement monté sur le notebook. Le point de montage est '/lakehouse/default/'. Vous pouvez utiliser ce point de montage pour lire/écrire des données depuis/vers le Lakehouse par défaut. L'option "Copier le chemin de l'API de fichier" du menu contextuel renverra le chemin de l'API de fichier à partir de ce point de montage. Le chemin renvoyé par l'option Copier le chemin ABFS fonctionne également pour l'API Pandas.
Copier le chemin de l'API de fichier : cela renvoie le chemin sous le point de montage du Lakehouse par défaut
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Conseil
Pour l'API Spark, veuillez utiliser l'option Copier le chemin ABFS ou Copier le chemin relatif pour Spark pour obtenir le chemin du fichier. Pour l'API Pandas, veuillez utiliser l'option Copier le chemin ABFS ou Copier le chemin de l'API de fichier pour obtenir le chemin du fichier.
Le moyen le plus rapide de faire fonctionner le code avec l'API Spark ou l'API Pandas est d'utiliser l'option Charger les données et de sélectionner l'API que vous souhaitez utiliser. Le code sera automatiquement généré dans une nouvelle cellule de code du notebook.
Contenu connexe
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour