Использование бессерверного пула SQL в Azure Synapse Analytics
Каждая рабочая область Azure Synapse Analytics поставляется с конечными точками бессерверного пула SQL, которые можно использовать для запроса данных в Azure Data Lake (Parquet, Delta Lake, форматов текста с разделителями), Azure Cosmos DB или Dataverse.
Бессерверный пул SQL — это служба для создания запросов к данным в озере данных. Она позволяет обращаться к данным с помощью следующих функциональных возможностей:
- знакомый синтаксис T-SQL для запрашивания данных на месте без копирования или загрузки в специальное хранилище; Дополнительные сведения см. в разделе Поддержка T-SQL.
- интегрированное подключение через интерфейс T-SQL, который содержит широкий спектр средств для бизнес-аналитики и ad-hoc-запросов, а также самые популярные драйверы. Дополнительные сведения см. в разделе Клиентские средства. Дополнительные сведения см. в видео с обзором бессерверных пулов SQL Synapse.
Бессерверный пул SQL — это распределенная система обработки данных, которая рассчитана на огромный масштаб данных и вычислительные функции. Бессерверный пул SQL позволяет проанализировать большие данные за несколько секунд или минут в зависимости от конкретной рабочей нагрузки. Благодаря встроенным механизмам отказоустойчивости при выполнении запросов система обеспечивает высокую надежность и успешное выполнение даже для длительных запросов по большим наборам данных.
Бессерверный пул SQL работает без сервера, то есть вам не нужно настраивать инфраструктуру или обслуживать кластеры. Конечная точка по умолчанию для этой службы предоставляется в каждой рабочей области Azure Synapse, поэтому вы можете отправлять запросы к данным сразу после создания рабочей области.
Плата за зарезервированные ресурсы не взимается. Плата взимается только за данные, обрабатываемые запросами, поэтому эта модель является истинной моделью оплаты за использование.
При использовании Apache Spark для Azure Synapse в конвейере данных вы можете обращаться к внешним созданным таблицам Spark непосредственно из бессерверного пула SQL, чтобы выполнить подготовку, очистку или обогащение данных. Используйте Приватный канал, чтобы перенести конечную точку бессерверного пула SQL в виртуальную сеть управляемой рабочей области.
Преимущества бессерверного пула SQL
Если вам нужно исследовать данные в озере данных, получить на их основе ценную информацию или оптимизировать существующий конвейер преобразования данных, вы можете с пользой применить бессерверный пул SQL. Эта служба полезна в следующих случаях:
- Простое обнаружение и исследование позволяет быстро принимать решения о том, как извлечь полезные сведения из данных в разных форматах (Parquet, CSV, JSON), сохраненных в озере данных, и планировать соответствующие действия.
- Логическое хранилище данных обеспечивает реляционную абстракцию для необработанных или разнородных данных, не требуя их перемещения и (или) преобразования, что позволяет постоянно сохранять актуальность представления данных. Дополнительные сведения о создании логического хранилища данных.
- Преобразование данных обеспечивает простой, масштабируемый и производительный способ обработки данных в озере данных с использованием T-SQL для передачи в другие средства (например, средства бизнес-аналитики), или в реляционные хранилища данных (базы данных SQL Synapse, Базу данных SQL Azure и т. п.).
Бессерверный пул SQL обеспечивает преимущества различным специалистам.
- Специалисты по инжинирингу данных могут с помощью этой службы исследовать озера данных, преобразовывать и подготавливать данные в них, а также упрощать конвейеры преобразования данных. Дополнительные сведения см. в этом руководстве.
- Специалисты по обработке и анализу данных могут быстро оценить содержимое и структуру данных в озере данных благодаря таким функциям, как OPENROWSET и автоматический вывод схемы.
- Аналитики могут исследовать данные и внешние таблицы Spark, созданные специалистами по инжинирингу, обработке и анализу данных, используя знакомый им язык T-SQL или любые привычные инструменты, которые могут подключаться к бессерверному пулу SQL.
- Специалисты по бизнес-аналитике могут быстро создавать отчеты Power BI на основе данных в озере данных и таблицах Spark.
Начало работы с бессерверным пулом SQL
Конечная точка бессерверного пула SQL есть в каждой рабочей области Azure Synapse. Вы можете создать рабочую область и мгновенно запрашивать данные с помощью инструментов, с которыми вы знакомы.
Убедитесь, что вы применяете рекомендации , чтобы получить лучшую производительность.
Клиентские средства
Бессерверный пул SQL позволяет применять для работы с озером данных существующие средства ad-hoc-запросов, SQL-запросов и бизнес-аналитики. Благодаря поддержке знакомого синтаксиса T-SQL любое средство SQL, которое способно создавать TDS-подключения, может подключиться к Synapse SQL и выполнять запросы. Вы можете подключаться к Azure Data Studio, чтобы выполнять ad-hoc-запросы, или к Power BI, чтобы за считаные минуты получать ценные сведения.
Поддержка T-SQL
Бессерверный пул SQL предоставляет для запросов контактную зону T-SQL, которая немного расширена и дополнена по некоторым аспектам, чтобы поддерживать запросы по частично структурированным и неструктурированным данным. Более того, некоторые аспекты языка T-SQL не поддерживаются из-за особенностей архитектуры бессерверного пула SQL (например, не поддерживаются функциональные возможности DML).
- Рабочую нагрузку можно упорядочить на основе знакомых понятий.
- Базы данных. Конечная точка бессерверного пула SQL может использовать несколько баз данных.
- Схемы. В базе данных может содержаться одна или несколько групп владения объектами, которые называются схемами.
- Представления, хранимые процедуры, встроенные функции табличных значений
- Внешние ресурсы. Сюда относятся источники данных, форматы файлов и таблицы.
Для обеспечения безопасности можно применить следующие средства:
- Имена входа и пользователи
- учетные данные для контроля доступа к учетным записям хранения;
- предоставление, запрет и отмена разрешений на уровне объектов.
- Интеграция с Microsoft Entra
Поддерживаемые аспекты T-SQL.
- Поддерживается полная контактная зона операции SELECT, включая большинство функций SQL.
- CETAS (CREATE EXTERNAL TABLE AS SELECT).
- Инструкции DDL, относящиеся только к представлениям и безопасности.
Бессерверный пул SQL не имеет локального хранилища и хранит в базах данных только объекты метаданных. Это означает, что не поддерживаются аспекты T-SQL, связанные со следующими понятиями:
- Таблицы
- Триггеры
- Материализованные представления
- инструкции DDL, кроме связанных с представлениями и безопасностью.
- Инструкции DML
Примечание.
Время ожидания запросов в бессерверном пуле SQL истекло. Дополнительные сведения об истечении времени ожидания запроса, которое может повлиять на рабочую нагрузку, см. в статье Ограничения системы для бессерверного пула SQL. На данный момент изменить время ожидания невозможно.
Расширения
Чтобы обеспечить беспроблемное выполнение запросов "на месте" по данным, которые хранятся в файлах озера данных, существующая функция OPENROWSET в бессерверном пуле SQL дополнена следующими возможностями:
Запрашивание нескольких файлов или папок
Формат файлов запросов PARQUET
Различные форматы текста с разделителями (признак конца поля, признак конца строки, escape-символ)
Аналитическое хранилище Azure Cosmos DB
Считывание выбранного подмножества столбцов
Работа со сложными типами, а также вложенными и повторяющимися структурами данных
Безопасность
Бессерверный пул SQL предоставляет механизмы для защиты доступа к данным.
Интеграция Microsoft Entra и многофакторная проверка подлинности
Бессерверный пул SQL позволяет централизованно управлять удостоверениями пользователя базы данных и другими службы Майкрософт с интеграцией Microsoft Entra. Эта возможность упрощает управление разрешениями и повышает уровень безопасности. Идентификатор Microsoft Entra id поддерживает многофакторную проверку подлинности (MFA) для повышения безопасности данных и приложений при поддержке процесса единого входа.
Проверка подлинности
Проверкой подлинности в бессерверном пуле SQL именуется процесс подтверждения личности пользователя при подключении к конечной точке. Поддерживаются два типа проверки подлинности.
Аутентификация SQL
Это метод аутентификации с использованием имени пользователя и пароля.
Проверка подлинности Microsoft Entra:
Этот метод проверки подлинности использует удостоверения, управляемые идентификатором Microsoft Entra. Для пользователей Microsoft Entra можно включить многофакторную проверку подлинности. По возможности используйте проверку подлинности Active Directory (встроенная безопасность).
Авторизация
Процесс проверки подлинности включает в себя набор действий, которые пользователь может выполнять в базе данных в бессерверном пуле SQL. Этот набор действий определяется принадлежностью учетной записи пользователя к ролям базы данных и наличием разрешений на уровне объектов.
Если используется проверка подлинности SQL, пользователь SQL существует только в бессерверном пуле SQL, а его разрешения действуют только для объектов бессерверного пула SQL. Невозможно напрямую предоставить пользователю SQL доступ к защищаемым объектам в других службах (например, в службе хранилища Azure), так как этот пользователь существует только в бессерверном пуле SQL. Пользователь SQL должен использовать для доступа к файлам один из поддерживаемых типов авторизации.
Если используется проверка подлинности Microsoft Entra, пользователь может войти в бессерверный пул SQL и другие службы, например служба хранилища Azure, и предоставить разрешения пользователю Microsoft Entra.
Доступ к учетным записям хранения
Пользователь, выполнивший вход в бессерверный пул SQL, должен иметь права на доступ и выполнение запросов к файлам в службе хранилища Azure. Бессерверный пул SQL поддерживает следующие типы авторизации:
Подписанный URL-адрес (SAS) предоставляет делегированный доступ к ресурсам в учетной записи хранения. С помощью SAS можно предоставить клиентам доступ к ресурсам в учетной записи хранения, не предоставляя общий доступ к ключам учетной записи. SAS обеспечивает детализированный контроль над типом доступа, который вы предоставляете клиентам с SAS: период действия, предоставленные разрешения, допустимый диапазон IP-адресов, допустимый протокол (HTTPS или HTTP).
Удостоверение пользователя (также известное как сквозная передача) — это тип авторизации, в котором удостоверение пользователя Microsoft Entra, вошедшего в бессерверный пул SQL, используется для авторизации доступа к данным. Перед доступом к данным служба хранилища Azure администратору необходимо предоставить пользователю Microsoft Entra разрешения для доступа к данным. Этот тип авторизации использует пользователя Microsoft Entra, вошедшего в бессерверный пул SQL, поэтому он не поддерживается для типов пользователей SQL.
Удостоверение рабочей области — это тип авторизации, где идентификатор рабочей области Synapse используется для авторизации доступа к данным. Перед обращением к данным администратор службы хранилища Azure должен предоставить удостоверению рабочей области разрешения на доступ к данным.
Доступ к Azure Cosmos DB
Для доступа к аналитическому хранилищу Azure Cosmos DB необходимо создать учетные данные уровня сервера или базы данных с помощью ключа только для чтения учетной записи Azure Cosmos DB.
Следующие шаги
Дополнительные сведения о подключении к конечным точкам и запрашивании файлов см. в следующих статьях: