Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
In diesem Lernprogramm erfahren Sie, wie Sie Daten in Ihr Fabric Lakehouse mit einem Notizbuch lesen/schreiben. Fabric unterstützt Spark-API und Pandas-API, um dieses Ziel zu erreichen.
Laden von Daten mit einer Apache Spark-API
Verwenden Sie in der Codezelle des Notizbuchs das folgende Codebeispiel, um Daten aus der Quelle zu lesen und in Dateien, Tabellen oder beide Abschnitte Ihres Lakehouses zu laden.
Um den Speicherort anzugeben, aus dem gelesen werden soll, können Sie den relativen Pfad verwenden, wenn die Daten aus dem standardmäßigen Lakehouse Ihres aktuellen Notebooks stammen. Oder, wenn die Daten aus einem anderen Lakehouse stammen, können Sie den absoluten ABFS-Pfad (Azure Blob File System) verwenden. Kopieren Sie diesen Pfad aus dem Kontextmenü der Daten.
ABFS-Pfad kopieren: Diese Option gibt den absoluten Pfad der Datei zurück.
Relativer Pfad für Spark kopieren: Diese Option gibt den relativen Pfad der Datei in Ihrem Standardseehaus zurück.
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Laden von Daten mit der Pandas-API
Zur Unterstützung der Pandas-API wird das Standardseehaus automatisch in das Notizbuch eingebunden. Der Bereitstellungspunkt ist /lakehouse/default/. Sie können diesen Bereitstellungspunkt verwenden, um Daten aus dem Standardlakehouse zu lesen oder in dieses zu schreiben. Die Option "Datei-API-Pfad kopieren" aus dem Kontextmenü gibt den Datei-API-Pfad von diesem Bereitstellungspunkt zurück. Der vom Option "AbFS-Pfad kopieren " zurückgegebene Pfad funktioniert auch für die Pandas-API.
Von Bedeutung
Der /lakehouse/default/ Bereitstellungspunkt ist nur in Notebooks verfügbar. Verwenden Sie für Spark-Auftragsdefinitionen ABFS-Pfade, und verweisen Sie auf die Spark-Auftragsdefinitionsdokumentation.
Datei-API-Pfad kopieren: Mit dieser Option wird der Pfad unter dem Mount-Punkt des Standard-Lakehouses zurückgegeben.
Option 1: Verwenden des standardmäßigen Lakehouse-Mount-Points (empfohlen für dasselbe Lakehouse)
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
Option 2: Verwendung von ABFS-Pfaden (erforderlich für verschiedene Lakehouses oder Spark-Auftragsdefinitionen)
# Path structure: abfss://WorkspaceName@msit-onelake.dfs.fabric.microsoft.com/LakehouseName.Lakehouse/Files/filename
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Tipp
Verwenden Sie für Spark-API die Option "AbFS-Pfad kopieren " oder "Relativen Pfad kopieren ", um den Pfad der Datei abzurufen. Verwenden Sie für Pandas-API die Option " ABFS-Pfad kopieren " oder " Datei-API-Pfad kopieren" , um den Pfad der Datei abzurufen.
Die schnellste Möglichkeit, den Code für die Arbeit mit Spark-API oder Pandas-API zu verwenden, besteht darin, die Option " Daten laden" zu verwenden und die API auszuwählen, die Sie verwenden möchten. Der Code wird automatisch in einer neuen Codezelle des Notizbuchs generiert.