在無伺服器 SQL 集區中同步處理 Apache Spark for Azure Synapse 的外部資料表定義

無伺服器 SQL 集區可以自動同步處理來自 Apache Spark 的中繼資料。 系統會針對 Spark 集區中的每個資料庫建立無伺服器 SQL 集區資料庫。

針對以 Parquet 或 CSV 為基礎且位於 Azure 儲存體中的每個 Spark 外部資料表,系統會在無伺服器 SQL 集區資料庫中建立一個外部資料表。 因此,您可以在關閉 Spark 集區後,繼續從無伺服器 SQL 集區查詢 Spark 外部資料表。

在 Spark 中分割資料表時,儲存體中的檔案會依資料夾組織。 無伺服器 SQL 集區會使用分割區中繼資料,而且只會以相關的資料夾和檔案作為查詢目標。

系統已針對 Azure Synapse 工作區中佈建的每個無伺服器 Apache Spark 集區自動設定中繼資料同步。 您可以立即開始查詢 Spark 外部資料表。

位於 Azure 儲存體中的每個 Spark Parquet 或 CSV 外部資料表都會以 dbo 結構描述中對應至無伺服器 SQL 集區資料庫的外部資料表來表示。

針對 Spark 外部資料表查詢,請執行以外部 [spark_table] 為目標的查詢。 在執行下列範例之前,請確定您可以正確地存取檔案所在的儲存體帳戶

SELECT * FROM [db].dbo.[spark_table]

Apache Spark 資料類型與 SQL 資料類型的對應

如需有關將 Apache Spark 資料類型對應到 SQL 資料類型的詳細資訊,請參閱 Azure Synapse Analytics 共用中繼資料資料表

下一步

若要深入了解儲存體的存取控制,請前往儲存體存取控制一文。