Анализ данных с помощью бессерверного пула SQL

В этом руководстве показано, как анализировать данные с помощью бессерверного пула SQL.

Бессерверный пул SQL "Встроенный"

Бессерверные пулы SQL позволяют использовать SQL без необходимости резервировать мощность. Выставление счетов за использование бессерверного пула SQL зависит от объема данных, обработанных для выполнения запроса, а не от количества узлов, используемых для выполнения запроса.

Каждая рабочая область поставляется с предварительно настроенным бессерверным пулом SQL, который называется встроенным.

Анализ данных такси Нью-Йорка с помощью бессерверного пула SQL

  1. В Synapse Studio перейдите в центр Разработка.

  2. Создайте новый скрипт SQL.

  3. Вставьте следующий код в сценарий.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Нажмите кнопку Запустить.

Исследование данных — это упрощенный сценарий, в котором можно понять основные характеристики данных. Дополнительные сведения об исследовании и анализе данных см. в этом руководстве.

Создание базы данных для исследования данных

Содержимое файлов можно просматривать непосредственно через базу данных master. Для некоторых простых сценариев просмотра данных не нужно создавать отдельную базу. Однако для более глубокого изучения может потребоваться создать некоторые служебные объекты, например:

  • Внешние источники данных — именованные ссылки для учетных записей хранения.
  • Учетные данные в области базы данных, позволяющие указать способ проверки подлинности для доступа к внешнему источнику.
  • Пользователи базы данных с разрешениями на доступ к некоторым источникам или объектам базы.
  • Служебные представления, процедуры и функции, которые можно использовать в запросах.
  1. Используйте базу данных master, чтобы создать отдельную базу данных для пользовательских объектов базы данных. В базе данных master нельзя создавать настраиваемые объекты базы данных.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Важно!

    Используйте параметры сортировки с суффиксом _UTF8, чтобы убедиться, что текст UTF-8 правильно преобразуется в столбцы VARCHAR. Latin1_General_100_BIN2_UTF8 обеспечивает максимальную производительность в запросах, считывающих данные из файлов Parquet и контейнеров Cosmos DB.

  2. Для переключения с главной базы данных на DataExplorationDB используйте указанную ниже команду. Чтобы переключить текущую базу данных, также можно применить элемент пользовательского интерфейса использовать базу данных:

    USE DataExplorationDB
    
  3. В DataExplorationDB создайте служебные объекты, такие как учетные данные и источники данных.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Примечание

    Внешний источник данных можно создать без учетных данных. Если учетные данные не существуют, для получения доступа к внешнему источнику данных будет использоваться удостоверение вызывающего объекта.

  4. При необходимости используйте новую базу данных DataExplorationDB для создания имени входа для пользователя в DataExplorationDB, который будет обращаться к внешним данным:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Затем создайте пользователя базы данных DataExplorationDB для указанного выше имени входа и предоставьте ему разрешение ADMINISTER DATABASE BULK OPERATIONS.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Изучите содержимое файла, используя относительный путь и источник данных:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Опубликуйте свои изменения в рабочей области.

База данных для изучения данных — это просто заполнитель, в котором можно хранить служебные объекты. Пул Synapse SQL поддерживает гораздо больше возможностей и позволяет создать логическое хранилище данных — реляционный уровень на базе источников данных Azure. Дополнительные сведения о создании логических хранилищ данных можно найти в этом руководстве.

Дальнейшие действия