Synchronisieren von Apache Spark für externe Azure Synapse-Tabellendefinitionen im serverlosen SQL-Pool
Der serverlose SQL-Pool kann Metadaten aus Apache Spark automatisch synchronisieren. Für jede in serverlosen Apache Spark-Pools vorhandene Datenbank wird eine Datenbank im serverlosen SQL-Pool erstellt.
Für jede externe Spark-Tabelle, die auf Parquet oder CSV basiert und sich in Azure Storage befindet, wird in der Datenbank im serverlosen SQL-Pool eine externe Tabelle erstellt. Aus diesem Grund können Sie Ihre Spark-Pools herunterfahren und dennoch externe Spark-Tabellen über den serverlosen SQL-Pool abfragen.
Wenn Tabelle in Spark partitioniert ist, werden die Dateien im Speicher in Ordner organisiert. Der serverlose SQL-Pool verwendet Partitionsmetadaten und bezieht nur relevante Ordner und Dateien in Ihre Abfrage ein.
Die Synchronisierung von Metadaten wird für jeden im Azure Synapse-Arbeitsbereich bereitgestellten serverlosen Apache Spark-Pool automatisch konfiguriert. Sie können mit dem Abfragen von externen Spark-Tabellen sofort beginnen.
Jede externe Spark Parquet oder CSV-Tabelle, die sich in Azure Storage befindet, wird durch eine externe Tabelle in einem dbo-Schema dargestellt, das einer Datenbank im serverlosen SQL-Pool entspricht.
Führen Sie bei externen Spark-Tabellen eine Abfrage in einer externen „[spark_table]“ aus. Bevor Sie das folgende Beispiel ausführen, stellen Sie sicher, dass Sie ordnungsgemäßen Zugriff auf das Speicherkonto haben, in dem sich die Dateien befinden.
SELECT * FROM [db].dbo.[spark_table]
Zuordnung von Apache Spark-Datentypen zu SQL-Datentypen
Weitere Informationen zum Zuordnen von Apache Spark-Datentypen zu SQL-Datentypen finden Sie unter Azure Synapse Analytics: Gemeinsam genutzte Metadatentabellen.
Nächste Schritte
Im Artikel Steuerung des Speicherzugriffs erfahren Sie mehr über die Steuerung des Speicherzugriffs.