Общие метаданные Azure Synapse Analytics

Статья
06/01/2023

Служба Azure Synapse Analytics позволяет различным вычислительным системам рабочих областей использовать базы данных и таблицы совместно с пулами Apache Spark и бессерверным пулом SQL.

При совместном доступе поддерживается так называемый шаблон современного хранилища данных и ядрам SQL рабочей области предоставляется доступ к базам данных и таблицам, созданным с помощью Spark. Совместный доступ также позволяет ядрам SQL создавать собственные объекты, которые не используются совместно с другими системами.

Поддержка современного хранилища данных

Модель общих метаданных поддерживает шаблон современного хранилища данных следующим образом:

Данные из озера данных эффективно подготавливаются и структурируются с помощью Spark. Для этого подготовленные данные сохраняются в (возможно, секционированных) таблицах с поддержкой Parquet, содержащихся в нескольких базах данных.
Созданные с помощью Spark базы данных и все их таблицы становятся видимыми в любом экземпляре пула Spark рабочей области Azure Synapse и могут использоваться из любого задания Spark. Эта возможность зависит от разрешений, так как все пулы Spark в рабочей области используют одно и то же базовое хранилище метаданных каталогов.
Созданные с помощью Spark базы данных и их таблицы с поддержкой Parquet или CSV становятся видимыми в бессерверном пуле SQL рабочей области. Базы данных создаются автоматически в метаданных бессерверного пула SQL, а внешние и управляемые таблицы, созданные заданием Spark, становятся доступными в качестве внешних таблиц в метаданных бессерверного пула SQL в схеме dbo соответствующей базы данных.

Синхронизация объектов выполняется асинхронно. Будет короткая задержка в несколько секунд, пока объекты не появятся в контексте SQL. После появления ядра SQL с доступом к этим объектам могут запрашивать их, но не могут обновлять и изменять.

Общие объекты метаданных

Spark позволяет создавать базы данных, внешние таблицы, управляемые таблицы и представления. Для представлений Spark, которые не могут обрабатываться ядром SQL, требуется, чтобы система Spark обрабатывала определяющую инструкцию Spark SQL. Поэтому ядро SQL рабочей области может совместно использовать только базы данных и содержащиеся в них внешние и управляемые таблицы на основе формата хранения Parquet или CSV. Представления Spark могут использовать совместно только экземпляры пула Spark.

Краткий обзор модели безопасности

Защита баз данных и таблиц Spark вместе с синхронизированными представлениями в ядре SQL обеспечивается на уровне базового хранилища. Когда таблицу запрашивает любое из ядер, которые отправитель запроса имеет право использовать, субъект безопасности отправителя запроса получает доступ к базовым файлам. Разрешения проверяются на уровне файловой системы.

Дополнительные сведения см. в статье Общая база данных Azure Synapse Analytics.

Изменение обслуживания

Если объект метаданных удален или изменен с помощью Spark, изменения применяются к бессерверному пулу SQL. Синхронизация выполняется асинхронно, и изменения применяются к ядру SQL с небольшой задержкой.

Дальнейшие действия

Ознакомьтесь со статьей Общие базы метаданных Azure Synapse Analytics.
Ознакомьтесь со статьей Общие таблицы метаданных Azure Synapse Analytics

Поделиться через