Synchronisieren von Apache Spark für externe Azure Synapse-Tabellendefinitionen im serverlosen SQL-Pool

Der serverlose SQL-Pool kann Metadaten aus Apache Spark automatisch synchronisieren. Für jede in serverlosen Apache Spark-Pools vorhandene Datenbank wird eine Datenbank im serverlosen SQL-Pool erstellt.

Für jede externe Spark-Tabelle, die auf Parquet oder CSV basiert und sich in Azure Storage befindet, wird in der Datenbank im serverlosen SQL-Pool eine externe Tabelle erstellt. Aus diesem Grund können Sie Ihre Spark-Pools herunterfahren und dennoch externe Spark-Tabellen über den serverlosen SQL-Pool abfragen.

Wenn Tabelle in Spark partitioniert ist, werden die Dateien im Speicher in Ordner organisiert. Der serverlose SQL-Pool verwendet Partitionsmetadaten und bezieht nur relevante Ordner und Dateien in Ihre Abfrage ein.

Die Synchronisierung von Metadaten wird für jeden im Azure Synapse-Arbeitsbereich bereitgestellten serverlosen Apache Spark-Pool automatisch konfiguriert. Sie können mit dem Abfragen von externen Spark-Tabellen sofort beginnen.

Jede externe Spark Parquet oder CSV-Tabelle, die sich in Azure Storage befindet, wird durch eine externe Tabelle in einem dbo-Schema dargestellt, das einer Datenbank im serverlosen SQL-Pool entspricht.

Führen Sie bei externen Spark-Tabellen eine Abfrage in einer externen „[spark_table]“ aus. Bevor Sie das folgende Beispiel ausführen, stellen Sie sicher, dass Sie ordnungsgemäßen Zugriff auf das Speicherkonto haben, in dem sich die Dateien befinden.

SELECT * FROM [db].dbo.[spark_table]

Zuordnung von Apache Spark-Datentypen zu SQL-Datentypen

Weitere Informationen zum Zuordnen von Apache Spark-Datentypen zu SQL-Datentypen finden Sie unter Azure Synapse Analytics: Gemeinsam genutzte Metadatentabellen.

Nächste Schritte

Im Artikel Steuerung des Speicherzugriffs erfahren Sie mehr über die Steuerung des Speicherzugriffs.