Синхронизация Apache Spark для определений внешних таблиц Azure Synapse в бессерверном пуле SQL

Бессерверный пул SQL может автоматически синхронизировать метаданные из Apache Spark. Для каждой базы данных, имеющейся в бессерверных пулах Apache Spark, будет создана база данных бессерверного пула SQL.

Для каждой внешней таблицы Spark, основанной на Parquet или CSV и размещенной в службе хранилища Azure, внешняя таблица создается в базе данных бессерверного пула SQL. Таким образом, вы можете завершить работу пулов Spark и по-прежнему запрашивать внешние таблицы Spark из бессерверного пула SQL.

Если таблица секционирована в Spark, файлы в хранилище упорядочиваются по папкам. Бессерверный пул SQL будет использовать для запроса метаданные секции и только целевые папки и файлы.

Синхронизация метаданных автоматически настраивается для каждого бессерверного пула Apache Spark, подготовленного в рабочей области Azure Synapse. Вы можете сразу же начать выполнение запросов ко внешним таблицам Spark.

Каждая внешняя таблица Spark на основе Parquet или CSV, размещенная в службе хранилища Azure, представлена внешней таблицей в схеме dbo, которая соответствует базе данных бессерверного пула SQL.

Для запросов к внешним таблицам Spark выполните запрос, нацеленный на внешнюю таблицу [spark_table]. Перед выполнением примера убедитесь, что у вас есть правильный доступ к учетной записи хранения, в которой находятся файлы.

SELECT * FROM [db].dbo.[spark_table]

Сопоставление типов данных Apache Spark с типами данных SQL

Дополнительные сведения о сопоставлении типов данных Apache Spark с типами данных SQL см. в статье Общие таблицы метаданных Azure Synapse Analytics.

Дальнейшие действия

Перейдите к статье Управление доступом к хранилищу, чтобы узнать больше о контроле доступа к хранилищу.