Анализ данных с помощью бессерверного пула SQL
В этом руководстве показано, как анализировать данные с помощью бессерверного пула SQL.
Бессерверный пул SQL "Встроенный"
Бессерверные пулы SQL позволяют использовать SQL без необходимости резервировать мощность. Выставление счетов за использование бессерверного пула SQL зависит от объема данных, обработанных для выполнения запроса, а не от количества узлов, используемых для выполнения запроса.
Каждая рабочая область поставляется с предварительно настроенным бессерверным пулом SQL с именем Встроенный.
Анализ данных такси Нью-Йорка с помощью бессерверного пула SQL
Примечание.
Убедитесь, что образцы данных помещены в учетную запись основного хранилища.
В Synapse Studio перейдите в центр разработки
Создайте новый скрипт SQL.
Вставьте следующий код в сценарий. (Обновите
contosolake
имя учетной записи хранения иusers
имя контейнера.)SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Выберите Выполнить.
Исследование данных — это упрощенный сценарий, в котором можно понять основные характеристики данных. Дополнительные сведения об исследовании и анализе данных см. в этом руководстве.
Создание базы данных для исследования данных
Содержимое файлов можно просматривать непосредственно через базу данных master
. Для некоторых простых сценариев просмотра данных не нужно создавать отдельную базу.
Однако для более глубокого изучения может потребоваться создать некоторые служебные объекты, например:
- Внешние источники данных — именованные ссылки для учетных записей хранения.
- Учетные данные в области базы данных, позволяющие указать способ проверки подлинности для доступа к внешнему источнику.
- Пользователи базы данных с разрешениями на доступ к некоторым источникам или объектам базы.
- Служебные представления, процедуры и функции, которые можно использовать в запросах.
Используйте базу данных
master
, чтобы создать отдельную базу данных для пользовательских объектов базы данных. Пользовательскиеmaster
объекты базы данных не могут быть созданы в базе данных.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Внимание
Используйте параметры сортировки с суффиксом
_UTF8
, чтобы убедиться, что текст UTF-8 правильно преобразуется в столбцыVARCHAR
.Latin1_General_100_BIN2_UTF8
обеспечивает лучшую производительность запросов, которые считывают данные из файлов Parquet и контейнеров Azure Cosmos DB. Дополнительные сведения об изменении параметров сортировки см. в разделе "Типы сортировки", поддерживаемые для Synapse SQL.Переключите контекст базы данных на
master
DataExplorationDB
использование следующей команды. Чтобы переключить текущую базу данных, также можно применить элемент пользовательского интерфейса использовать базу данных:USE DataExplorationDB
Из
DataExplorationDB
создания объектов служебной программы, таких как учетные данные и источники данных.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Примечание.
Внешний источник данных можно создать без учетных данных. Если учетные данные не существуют, для получения доступа к внешнему источнику данных будет использоваться удостоверение вызывающего объекта.
При необходимости используйте только что созданную
DataExplorationDB
базу данных для создания имени входа для пользователя, которыйDataExplorationDB
получит доступ к внешним данным:CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
Затем создайте пользователя
DataExplorationDB
базы данных для указанного выше имени входа и предоставьтеADMINISTER DATABASE BULK OPERATIONS
разрешение.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Изучите содержимое файла, используя относительный путь и источник данных:
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Опубликуйте свои изменения в рабочей области.
База данных для изучения данных — это просто заполнитель, в котором можно хранить служебные объекты. Пул Synapse SQL поддерживает гораздо больше возможностей и позволяет создать логическое хранилище данных — реляционный уровень на базе источников данных Azure. Дополнительные сведения о создании логического хранилища данных см. в этом руководстве.