Краткое руководство. Загрузка данных в выделенный пул SQL с помощью действия копирования
Azure Synapse Analytics предлагает различные механизмы аналитики, упрощающие прием, преобразование, моделирование и анализ данных. Выделенный пул SQL предусматривает возможности вычисления и хранения на основе T-SQL. После создания выделенного пула SQL в рабочей области Synapse данные можно загружать, моделировать, обрабатывать и доставлять для быстрого получения аналитических сведений.
Из этого краткого руководства вы узнаете, как загрузить данные из Базы данных SQL Azure в Azure Synapse Analytics. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги. Эта последовательность действий применяется к копированию данных между другим источником и приемником.
Предварительные требования
- Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure , прежде чем начинать работу.
- Рабочая область Azure Synapse: Создайте рабочую область Synapse с помощью портала Azure, следуя инструкциям, приведенным в статье Краткое руководство по созданию рабочей области Synapse).
- Подключение к базе данных SQL Azure и При прохождении этого учебника вы скопируете данные из примера набора данных Adventure Works LT в Базу данных SQL Azure. Этот пример базы данных можно создать в Базе данных SQL, следуя инструкциям в кратком руководстве Создание отдельной базы данных в Базе данных SQL Azure. Кроме того, можно использовать другие хранилища данных, выполнив следующие аналогичные действия.
- Учетная запись хранения Azure: Служба хранилища Azure используется в качестве промежуточной области во время операции копирования. Если у вас нет учетной записи хранения Azure, см. инструкции по ее созданию.
- Azure Synapse Analytics. Выделенный пул SQL используется в качестве хранилища данных приемника. Если у вас нет экземпляра Azure Synapse Analytics, выполните действия, приведенные в статье Краткое руководство. Создание выделенного пула SQL (предварительная версия) с помощью портала Azure, чтобы создать его.
Переход к Synapse Studio
После создания рабочей области Synapse Studio можно открыть двумя способами:
- Откройте рабочую область Synapse на портале Azure. Выберите Открыть в Synapse Studio карта Открыть в разделе Начало работы.
- Откройте Azure Synapse Analytics и войдите в рабочую область.
Для целей этого краткого руководства в качестве примера мы используем рабочую область с именем adftest2020. При этом вы автоматически перейдете на домашнюю страницу Synapse Studio.
Создание связанных служб
В Azure Synapse Analytics связанная служба используется для определения сведений о подключении к другим службам. В этом разделе вы создадите следующие два типа связанных служб: База данных SQL Azure и связанные службы Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения).
На домашней странице Synapse Studio в левой области навигации выберите вкладку Управление.
В разделе Внешние подключения выберите Связанные службы.
Чтобы добавить связанную службу, выберите Создать.
В коллекции выберите База данных SQL Azure и щелкните Продолжить. Вы можете ввести текст "sql" в поле поиска, чтобы отфильтровать соединители.
На странице New Linked Service (Новая связанная служба) в соответствующих раскрывающихся списках выберите имя сервера и базы данных, а также укажите имя пользователя и пароль. Щелкните Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.
Повторите шаги 3–4, однако на этот раз выберите Azure Data Lake Storage 2-го поколения из коллекции. На странице New Linked Service (Новая связанная служба) выберите из раскрывающегося списка имя учетной записи хранения. Щелкните Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.
Создание конвейера
Конвейер содержит логический поток для выполнения набора действий. В этом разделе показано, как создать конвейер, содержащий действие копирования, которое принимает данные из Базы данных SQL Azure в выделенный пул SQL.
Перейдите на вкладку Integrate (Интеграция). Нажмите значок плюса рядом с заголовком конвейеров и выберите "Конвейер".
В разделе Move and Transform (Перемещение и преобразование) на панели Действия перетащите Копирование данных на холст конвейера.
Выберите действие копирования и перейдите на вкладку "Источник". Выберите Создать, чтобы создать исходный набор данных.
Выберите База данных SQL Azure в качестве хранилища данных, а затем — Продолжить.
В области Свойства набора выберите связанную службу Базы данных SQL Azure, созданную ранее.
В разделе "Имя таблицы" выберите пример таблицы, который будете использовать в следующем действии копирования. Для целей этого краткого руководства мы используем в качестве примера таблицу SalesLT.Customer.
Выберите ОК после завершения.
Выберите действие копирования и перейдите на вкладку "Приемник". Выберите Создать, чтобы создать набор данных приемника.
Выберите Azure Synapse dedicated SQL pool (Выделенный пул SQL Azure Synapse) в качестве хранилища данных и щелкните Продолжить.
В области Задание свойств выберите пул SQL Analytics, созданный ранее. Если вы выполняете запись в существующую таблицу, выберите ее из раскрывающегося списка в разделе Имя таблицы. В противном случае установите флажок "Изменить" и введите новое имя таблицы. Выберите ОК после завершения.
Для параметров набора данных раздела "Приемник" включите параметр Auto create table (Автоматическое создание таблицы) в поле Table option (Параметр таблицы).
На странице Параметры установите флажок напротив Enable staging (Включить промежуточный режим). Этот параметр применяется, если исходные данные несовместимы с PolyBase. В разделе Staging settings (Параметры промежуточного хранения) выберите связанную службу Azure Data Lake Storage 2-го поколения, созданную ранее в качестве промежуточного хранилища.
Это хранилище используется для промежуточного хранения данных перед их загрузкой в Azure Synapse Analytics с помощью PolyBase. После завершения копирования промежуточные данные в Azure Data Lake Storage 2-го поколения автоматически очищаются.
Чтобы проверить конвейер, выберите Проверить на панели инструментов. Результат проверки конвейера отобразится в правой части страницы.
Отладка и публикация конвейера
Завершив настройку конвейера, можно выполнить отладку перед публикацией артефактов, чтобы убедиться, что все правильно.
Чтобы выполнить отладку конвейера, на панели инструментов щелкните Отладка. Состояние выполнения конвейера вы можете найти на вкладке Выходные данные в нижней части окна.
После успешного запуска конвейера на верхней панели инструментов выберите Опубликовать все. Это действие опубликует сущности (наборы данных и конвейеры), которые вы создали в службе Synapse Analytics.
Дождитесь сообщения Successfully published (Публикация выполнена). Чтобы отобразить уведомления, нажмите кнопку в виде колокольчика в правом верхнем углу.
Активация и мониторинг конвейера
Проходя этот раздел, вы вручную активируете конвейер, опубликованный ранее.
Выберите Добавить триггер на панели инструментов, а затем Trigger Now (Запустить сейчас). На странице Запуск конвейера щелкните ОК.
Перейдите на вкладку Монитор на левой боковой панели. Вы увидите выполнение конвейера, которое вы только что активировали вручную.
После успешного запуска конвейера выберите ссылку в столбце Имя конвейера, чтобы просмотреть сведения о выполнении действия или перезапустить конвейер. В нашем примере определено только одно действие, поэтому в списке вы увидите только одну запись.
Чтобы увидеть сведения об операции копирования, щелкните ссылку Сведения (значок очков) в столбце Название действия. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, пропускная способность данных, шаги выполнения с длительностью и используемые параметры.
Чтобы вернуться к представлению "Запуски конвейера", выберите ссылку Все запуски конвейеров в верхней части окна. Щелкните Обновить, чтобы обновить список.
Убедитесь, что данные правильно записаны в выделенный пул SQL.
Дальнейшие действия
Перейдите к следующей статье, чтобы узнать о поддержке Azure Synapse Analytics: