Verwenden eines Notebooks zum Laden von Daten in Ihr Lakehouse

In diesem Tutorial erfahren Sie, wie Sie Daten mit einem Notizbuch in Ihr Lakehouse lesen/schreiben. Spark-API und Pandas-API werden unterstützt, um dieses Ziel zu erreichen.

Wichtig

Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.

Laden von Daten mit einer Apache Spark-API

Verwenden Sie in der Codezelle des Notebooks das folgende Codebeispiel, um Daten aus der Quelle zu lesen und in Dateien, Tabellen oder beide Abschnitte Ihres Lakehouse zu laden.

Um den Speicherort anzugeben, aus dem gelesen werden soll, können Sie den relativen Pfad verwenden, wenn die Daten aus dem Standard-Lakehouse des aktuellen Notebooks stammen, oder Sie können den absoluten ABFS-Pfad verwenden, wenn die Daten aus einem anderen Lakehouse stammen. Sie können diesen Pfad aus dem Kontextmenü der Daten kopieren.

Screenshot: Menüoption der Kopieraktion

ABFS-Pfad kopieren : Dadurch wird der absolute Pfad der Datei zurückgegeben.

Kopieren des relativen Pfads für Spark : Dadurch wird der relative Pfad der Datei im Standard-Lakehouse zurückgegeben.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Laden von Daten mit einer Pandas-API

Zur Unterstützung der Pandas-API wird die Standard-Lakehouse-Instanz automatisch in das Notebook eingebunden. Der Bereitstellungspunkt ist "/lakehouse/default/". Sie können diesen Bereitstellungspunkt verwenden, um Daten aus/in das Standard-Lakehouse zu lesen/zu schreiben. Die Option "Datei-API-Pfad kopieren" aus dem Kontextmenü gibt den Datei-API-Pfad von diesem Bereitstellungspunkt zurück. Der von der Option ABFS-Pfad kopieren zurückgegebene Pfad funktioniert auch für Pandas-API.

Screenshot: Menüoption des Datei-API-Pfads kopieren

Datei-API-Pfad kopieren : Dadurch wird der Pfad unter dem Bereitstellungspunkt des Standard-Lakehouse zurückgegeben.

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Tipp

Verwenden Sie für die Spark-API die Option ABFS-Pfad kopieren oder relativen Pfad für Spark kopieren , um den Pfad der Datei abzurufen. Verwenden Sie für Pandas-API die Option ABFS-Pfad kopieren oder Datei-API-Pfad kopieren , um den Pfad der Datei abzurufen.

Die schnellste Möglichkeit, den Code für die Verwendung mit der Spark-API oder Pandas-API zu verwenden, besteht darin, die Option Daten laden zu verwenden und die api auszuwählen, die Sie verwenden möchten. Der Code wird automatisch in einer neuen Codezelle des Notebooks generiert.

Screenshot: Auswahl der Option

Nächste Schritte