Поделиться через


Руководство по запросу Azure Data Lake Storage с помощью языка SQL в Synapse Analytics

В этом руководстве показано, как подключить бессерверный пул SQL Azure Synapse к данным, хранящимся в учетной записи хранения Azure с включенным Azure Data Lake Storage. Это подключение позволяет нативно выполнять SQL-запросы и аналитику, используя язык SQL, в данных службы хранения Azure.

При работе с этим руководством вы сделаете следующее:

  • Загрузка данных в аккаунт хранения данных
  • Создайте рабочую область Synapse Analytics (если у вас ее нет).
  • Запуск анализа данных в хранилище объектов BLOB

Если у вас нет подписки на Azure, создайте бесплатную учетную запись перед началом.

Prerequisites

Скачивание данных о полете

В этом руководстве используются данные о полете из Бюро статистики транспорта. Чтобы завершить работу с руководством, необходимо скачать эти данные.

  1. Скачайте файл On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.zip. Этот файл содержит данные о полете.

  2. Распакуйте содержимое архивированного файла и запишите имя файла и путь к нему. Эти сведения потребуются на следующем шаге.

Копирование исходных данных в учетную запись хранения

  1. Войдите в новую учетную запись хранения на портале Azure.

  2. Выберите браузер хранилища - >Контейнеры BLOB-объектов - >Добавить контейнер и создайте новый контейнер с именем data.

    Снимок экрана: создание папки в браузере хранилища

  3. В браузере хранилища отправьте On_Time_Reporting_Carrier_On_Time_Performance_1987_present_2016_1.csv файл в папку данных .

Создание рабочей области Azure Synapse

Создайте рабочую область Synapse на портале Azure. При создании рабочей области используйте следующие значения:

  • Подписка. Выберите подписку Azure, связанную с учетной записью хранения.
  • Группа ресурсов. Выберите группу ресурсов, в которой размещена учетная запись хранения.
  • Регион: выберите регион учетной записи хранения (например, Central US).
  • Имя. Введите имя рабочей области Synapse.
  • SQL Administrator login (Имя для входа администратора SQL). Введите имя пользователя администратора для SQL Server.
  • SQL Administrator password (Пароль администратора SQL). Введите пароль администратора для SQL Server.
  • Значения тегов: Примите значения по умолчанию.

Найдите имя конечной точки Synapse SQL (необязательно)

Бессерверное имя конечной точки SQL позволяет подключаться к любому инструменту, способному выполнять запросы T-SQL на сервере SQL или базе данных Azure SQL (например, SQL Server Management Studio, Azure Data Studio или Power BI).

Чтобы найти полное имя сервера, выполните следующие действия.

  1. Выберите рабочую область, к которой вы хотите подключиться.
  2. Перейдите к обзору.
  3. Найдите полное имя сервера.
    • Для выделенного пула SQL используйте конечную точку SQL.
    • Для бессерверного пула SQL используйте конечную точку SQL по запросу.

В этом руководстве вы используете Synapse Studio для запроса данных из CSV-файла, отправленного в учетную запись хранения.

Использование Synapse Studio для изучения данных

  1. Откройте Synapse Studio. См. статью Open Synapse Studio

  2. Создайте скрипт SQL и выполните этот запрос, чтобы просмотреть содержимое файла:

    SELECT
       TOP 100 *
    FROM
       OPENROWSET(
          BULK 'https://<storage-account-name>.dfs.core.windows.net/<container-name>/folder1/On_Time.csv',
          FORMAT='CSV',
          PARSER_VERSION='2.0'
       ) AS [result]
    

    См. Скрипты SQL Synapse Studio в Azure Synapse Analytics для получения информации о создании скрипта SQL в Synapse Studio.

Очистите ресурсы

Если они больше не нужны, удалите группу ресурсов и все связанные ресурсы. Для этого выберите группу ресурсов для учетной записи хранения и рабочей области, а затем нажмите кнопку "Удалить".

Следующий шаг