Spark-Connector für Microsoft Fabric Data Warehouse

2025-04-11

Der Spark-Connector für Fabric Data Warehouse ermöglicht Spark-Entwickler*innen und Data Scientists den Zugriff und die Arbeit mit Daten aus einem Warehouse und dem SQL-Analyseendpunkt eines Lakehouse. Der Connector bietet die folgenden Funktionen:

Sie können mit Daten aus einem Warehouse oder einem SQL-Analyseendpunkt in demselben Arbeitsbereich oder über mehrere Arbeitsbereiche hinweg arbeiten.
Der SQL-Analyseendpunkt eines Lakehouse wird basierend auf dem Kontext des Arbeitsbereichs automatisch ermittelt.
Der Konnektor bietet eine vereinfachte Spark-API, abstrahiert die zugrunde liegende Komplexität und arbeitet mit nur einer Codezeile.
Während Sie auf eine Tabelle oder eine Anzeige zugreifen, hält sich der Konnektor an die auf der Ebene der SQL-Engine definierten Sicherheitsmodelle. Zu diesen Modellen gehören Sicherheit auf Objektebene (Object-Level Security, OLS), Sicherheit auf Zeilenebene (Row-Level Security, RLS) und Sicherheit auf Spaltenebene (Column-Level Security, CLS).
Der Konnektor ist in der Fabric-Runtime-Umgebung vorinstalliert, so dass eine separate Installation nicht erforderlich ist.

Authentifizierung

Die Microsoft Entra Authentifizierung ist ein integrierter Authentifizierungsansatz. Benutzer melden sich beim Microsoft Fabric-Arbeitsbereich an, und ihre Anmeldedaten werden automatisch zur Authentifizierung und Autorisierung an die SQL-Engine übergeben. Die Zugangsdaten werden automatisch zugewiesen, und die Benutzer müssen keine spezifischen Konfigurationsoptionen angeben.

Berechtigungen

Um eine Verbindung mit der SQL-Engine herzustellen, benötigen Benutzer mindestens Leseberechtigung (ähnlich wie CONNECT-Berechtigungen in SQL Server) im Warehouse oder SQL Analytics-Endpunkt (Elementebene). Benutzer benötigen außerdem granulare Berechtigungen auf Objektebene, um Daten aus bestimmten Tabellen oder Ansichten zu lesen. Weitere Informationen finden Sie unter Sicherheit für Data Warehousing in Microsoft Fabric.

Codevorlagen und Beispiele

Verwenden Sie eine Methodensignatur

Der folgende Befehl zeigt die synapsesql-Methodensignatur für die Leseanforderung. Das dreiteilige tableName-Argument ist für den Zugriff auf Tabellen oder Ansichten aus einem Warehouse und dem SQL-Analyseendpunkt eines Lakehouse erforderlich. Aktualisieren Sie das Argument mit den folgenden Namen, je nach Ihrem Szenario:

Teil 1: Name des Warehouses oder des Lakehouses.
Teil 2: Name des Schemas.
Teil 3: Name der Tabelle oder der Ansicht.

synapsesql(tableName:String="<Part 1.Part 2.Part 3>") => org.apache.spark.sql.DataFrame

Mit diesem Connector können Sie nicht nur direkt aus einer Tabelle oder Ansicht lesen, sondern auch eine benutzerdefinierte Abfrage oder eine Passthrough-Abfrage angeben, die an die SQL-Engine weitergeleitet wird und deren Ergebnis an Spark zurückgegeben wird.

spark.read.option(Constants.DatabaseName, "<warehouse/lakeshouse name>").synapsesql("<T-SQL Query>") => org.apache.spark.sql.DataFrame

Dieser Connector findet zwar automatisch den Endpunkt für das angegebene Warehouse/Lakehouse, aber wenn Sie ihn explizit angeben möchten, können Sie das tun.

//For warehouse
spark.conf.set("spark.datawarehouse.<warehouse name>.sqlendpoint", "<sql endpoint,port>")
//For lakehouse
spark.conf.set("spark.lakehouse.<lakeshouse name>.sqlendpoint", "<sql endpoint,port>")
//Read from table
spark.read.synapsesql("<warehouse/lakeshouse name>.<schema name>.<table or view name>")

Lesen von Daten innerhalb desselben Arbeitsbereichs

Wichtig

Führen Sie diese Importanweisungen zu Beginn Ihres Notebooks aus oder bevor Sie den Konnektor verwenden:

PySpark
Scala Spark

import com.microsoft.spark.fabric
from com.microsoft.spark.fabric.Constants import Constants

%%spark  
import com.microsoft.spark.fabric.tds.implicits.read.FabricSparkTDSImplicits._
import com.microsoft.spark.fabric.tds.implicits.write.FabricSparkTDSImplicits._
import com.microsoft.spark.fabric.Constants
import org.apache.spark.sql.SaveMode

Der folgende Code ist ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame:

df = spark.read.synapsesql("<warehouse/lakehouse name>.<schema name>.<table or view name>")

Der folgende Code ist ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame mit einer Begrenzung der Zeilenanzahl auf 10:

df = spark.read.synapsesql("<warehouse/lakehouse name>.<schema name>.<table or view name>").limit(10)

Der folgende Code ist ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame nach Anwendung eines Filters:

df = spark.read.synapsesql("<warehouse/lakehouse name>.<schema name>.<table or view name>").filter("column name == 'value'")

Der folgende Code ist ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame für ausgewählte Spalten:

df = spark.read.synapsesql("<warehouse/lakehouse name>.<schema name>.<table or view name>").select("column A", "Column B")

Lesen von Daten über Arbeitsbereiche hinweg

Um auf Daten aus einem Datenlager oder Datenhaus über mehrere Arbeitsbereiche hinweg zuzugreifen und sie zu lesen, können Sie die Arbeitsbereichs-ID angeben, in dem Ihr Datenlager oder Datenhaus vorhanden ist, und dann die Element-ID des jeweiligen Datenhauses oder Datenlagers. Die folgende Zeile bieten ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame aus dem Warehouse oder Lakehouse mit der angegebenen Arbeitsbereich-ID und Lakehouse/Warehouse-ID:

# For lakehouse
df = spark.read.option(Constants.WorkspaceId, "<workspace id>").synapsesql("<lakehouse name>.<schema name>.<table or view name>")
df = spark.read.option(Constants.WorkspaceId, "<workspace id>").option(Constants.LakehouseId, "<lakehouse item id>").synapsesql("<lakehouse name>.<schema name>.<table or view name>")

# For warehouse
df = spark.read.option(Constants.WorkspaceId, "<workspace id>").synapsesql("<warehouse name>.<schema name>.<table or view name>")
df = spark.read.option(Constants.WorkspaceId, "<workspace id>").option(Constants.DatawarehouseId, "<warehouse item id>").synapsesql("<warehouse name>.<schema name>.<table or view name>")

Hinweis

Wenn Sie das Notebook ausführen, sucht der Connector standardmäßig nach dem angegebenen Warehouse oder Lakehouse im Arbeitsbereich des Lakehouses, das mit dem Notebook verbunden ist. Um von einem anderen Arbeitsbereich aus auf ein Warehouse oder Lakehouse zu verweisen, geben Sie wie oben die Arbeitsbereich-ID und die Element-ID des Lakehouse oder Warehouse an.

Erstellen einer Lakehouse-Tabelle basierend auf Daten aus einem Warehouse

Diese Codezeilen bieten ein Beispiel zum Lesen von Daten aus einer Tabelle oder Ansicht in einem Spark-DataFrame und wie diese zum Erstellen einer Lakehouse-Tabelle verwendet werden können:

df = spark.read.synapsesql("<warehouse/lakehouse name>.<schema name>.<table or view name>")
df.write.format("delta").saveAsTable("<Lakehouse table name>")

Schreiben von Spark-Datenframedaten in die Warehouse-Tabelle

Dieser Connector verwendet einen zweistufigen Schreibvorgang in eine Fabric DW-Tabelle. Zunächst werden die Spark DataFrame-Daten in einem Zwischenspeicher abgelegt, gefolgt vom COPY INTO Befehl, um die Daten in die Fabric DW-Tabelle zu übertragen. Durch diesen Ansatz wird die Skalierbarkeit mit zunehmender Datenmenge sichergestellt.

Unterstützte DataFrame-Speichermodi

Die folgenden Speichermodi werden unterstützt, wenn Quelldaten eines Datenframes in eine Zieltabelle im Lager geschrieben werden:

ErrorIfExists (Standardspeichermodus): Wenn die Zieltabelle vorhanden ist, wird der Schreibvorgang abgebrochen, und eine Ausnahme wird an die aufgerufene Funktion zurückgegeben. Andernfalls wird eine neue Tabelle mit Daten erstellt.
Ignorieren: Wenn die Zieltabelle existiert, wird der Schreibvorgang die Schreibanforderung ignorieren, ohne einen Fehler zurückzugeben. Andernfalls wird eine neue Tabelle mit Daten erstellt.
Überschreiben: Wenn die Zieltabelle vorhanden ist, werden vorhandene Daten im Ziel durch Daten ersetzt. Andernfalls wird eine neue Tabelle mit Daten erstellt.
Anfügen: Wenn die Zieltabelle vorhanden ist, werden die neuen Daten an sie angefügt. Andernfalls wird eine neue Tabelle mit Daten erstellt.

Der folgende Code zeigt Beispiele zum Schreiben von Spark-Datenframedaten in eine Fabric DW-Tabelle:

df.write.synapsesql("<warehouse/lakehouse name>.<schema name>.<table name>") # this uses default mode - errorifexists

df.write.mode("errorifexists").synapsesql("<warehouse/lakehouse name>.<schema name>.<table name>")
df.write.mode("ignore").synapsesql("<warehouse/lakehouse name>.<schema name>.<table name>")
df.write.mode("append").synapsesql("<warehouse/lakehouse name>.<schema name>.<table name>")
df.write.mode("overwrite").synapsesql("<warehouse/lakehouse name>.<schema name>.<table name>")

Hinweis

Der Connector unterstützt nur das Schreiben in eine Fabric DW-Tabelle, da der SQL Analytics-Endpunkt eines Lakehouse schreibgeschützt ist.

Problembehandlung

Nach Abschluss wird der Codeaussschnitt mit der Leseantwort in der Ausgabe der Zelle angezeigt. Fehler in der aktuellen Zelle führen zum Ausführungsabbruch des Notebooks in den nachfolgenden Zellen. Detaillierte Fehlerinformationen sind in den Spark-Anwendungsprotokollen verfügbar.

Überlegungen zur Verwendung dieses Connectors

Derzeit unterstützt der Konnektor:

Unterstützt das Abrufen oder Lesen von Daten aus Fabric Warehouses und SQL-Analyseendpunkten von Lakehouse-Elementen.
Unterstützt das Schreiben von Daten in eine Lagertabelle mit unterschiedlichen Speichermodi – dies ist nur mit der neuesten GA-Laufzeit verfügbar, d. h. Runtime 1.3. Außerdem funktioniert die Schreiboperation momentan nicht, wenn Private Link aktiviert und Public Access blockiert sind.
Fabric DW unterstützt Time Travel jetzt, dieser Connector funktioniert jedoch nicht für eine Abfrage mit Zeitreisesyntax.
Behält die Verwendungssignatur bei, wie sie mit Apache Spark für Azure Synapse Analytics geliefert wird, um Konsistenz zu gewährleisten. Dennoch ist es nicht abwärtskompatibel, sich mit einem dedizierten SQL-Pool in Azure Synapse Analytics zu verbinden und damit zu arbeiten.
Spaltennamen mit Sonderzeichen werden durch Hinzufügen von Escape-Zeichen behandelt, bevor die Abfrage basierend auf dem 3-teiligen Tabellen-/Ansichtsnamen übermittelt wird. Im Falle eines benutzerdefinierten oder auf einer Passthrough-Abfrage basierenden Lesevorgangs müssen Benutzer Spaltennamen, die Sonderzeichen enthalten, ausblenden.