Freigegebene Metadaten für Azure Synapse Analytics

Azure Synapse Analytics ermöglicht es den verschiedenen Arbeitsbereichsberechnungsmodulen, Datenbanken und Tabellen zwischen Apache Spark-Pools und serverlosen SQL-Pool freizugeben.

Die gemeinsame Nutzung unterstützt das sogenannte moderne Data Warehouse und ermöglicht den Arbeitsbereich-SQL-Engines den Zugriff auf mit Spark erstellte Datenbanken und Tabellen. Außerdem können die SQL-Module eigene Objekte erstellen, die nicht für die anderen Module freigegeben werden.

Von Bedeutung

Tabellen, die in Spark mit mehr als 1.024 Spalten erstellt wurden, werden möglicherweise im Objekt-Explorer angezeigt, können aber aufgrund unvollständiger Metadatensynchronisierung nicht aus dem serverlosen SQL-Pool abgefragt werden.

Problemumgehung: Vermeiden Sie das Erstellen von Spark-Tabellen mit mehr als 1.024 Spalten, wenn sie aus dem serverlosen SQL-Pool abgefragt werden müssen. Entwerfen Sie das Schema neu, und erstellen Sie die Tabelle neu.

Unterstützung des modernen Data Warehouse

Das freigegebene Metadatenmodell unterstützt das moderne Data Warehouse-Muster wie folgt:

Daten aus dem Data Lake werden mit Spark effizient aufbereitet und strukturiert. Hierzu werden die aufbereiteten Daten in (ggf. partitionierten) Parquet-basierten Tabellen gespeichert, die in mehreren Datenbanken enthalten sein können.
Die von Spark erstellten Datenbanken und alle zugehörigen Tabellen sind in allen Spark-Poolinstanzen des Azure Synapse workspace sichtbar und können von beliebigen Spark-Aufträgen verwendet werden. Diese Funktion unterliegt den Berechtigungen , da alle Spark-Pools in einem Arbeitsbereich denselben zugrunde liegenden Katalogmetaspeicher verwenden.
Die von Spark erstellten Datenbanken und ihre Parquet- oder CSV-basierten Tabellen werden im serverlosen SQL-Pool des Arbeitsbereichs sichtbar. Datenbanken werden automatisch in den serverlosen SQL-Poolmetadaten erstellt, und sowohl die externen als auch verwalteten Tabellen , die von einem Spark-Auftrag erstellt werden, werden als externe Tabellen in den serverlosen SQL-Poolmetadaten im dbo Schema der entsprechenden Datenbank zugänglich gemacht.

Objektsynchronisierung erfolgt asynchron. Objekte haben eine geringe Verzögerung von ein paar Sekunden, bis sie im SQL-Kontext angezeigt werden. Sobald sie angezeigt werden, können sie abgefragt, aber nicht aktualisiert oder von den SQL-Engines geändert werden, die Zugriff darauf haben.

Freigegebene Metadatenobjekte

Spark ermöglicht ihnen das Erstellen von Datenbanken, externen Tabellen, verwalteten Tabellen und Ansichten. Da Spark-Ansichten ein Spark-Modul zum Verarbeiten der definierenden Spark SQL-Anweisung erfordern und nicht von einem SQL-Modul verarbeitet werden können, werden nur Datenbanken und ihre enthaltenen externen und verwalteten Tabellen, die das Speicherformat "Parkett" oder "CSV" verwenden, für das Arbeitsbereichs-SQL-Modul freigegeben. Spark-Ansichten werden nur unter den Spark-Poolinstanzen geteilt.

Sicherheitsmodell auf einen Blick

Die Spark-Datenbanken und -Tabellen sowie ihre synchronisierten Darstellungen im SQL-Modul werden auf der zugrunde liegenden Speicherebene gesichert. Wenn die Tabelle von einer der Engines abgefragt wird, zu deren Verwendung der Abfrageübermittler berechtigt ist, wird der Sicherheitsprinzipal des Abfrageübermittlers an die zugrunde liegenden Dateien übergeben. Berechtigungen werden auf Dateisystemebene überprüft.

Weitere Informationen finden Sie in der freigegebenen Azure Synapse Analytics-Datenbank.

Änderungsverwaltung

Wenn ein Metadatenobjekt mit Spark gelöscht oder geändert wird, werden die Änderungen übernommen und an den serverlosen SQL-Pool weitergegeben. Die Synchronisierung ist asynchron und Änderungen werden nach kurzer Verzögerung im SQL-Modul wiedergegeben.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-03