Предварительная обработка данных с помощью хранимой процедуры перед загрузкой в Lakehouse

В этом руководстве показано, как использовать действие скрипта конвейера для запуска хранимой процедуры для создания таблицы и предварительной обработки данных в Data Warehouse Synapse. После этого мы загружаем предварительно обработанную таблицу в Lakehouse.

Важно!

Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эта информация относится к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении информации, представленной здесь. См. Фабрика данных Azure документацию по службе в Azure.

Предварительные требования

  • Рабочая область с поддержкой Microsoft Fabric. Если у вас ее еще нет, см. статью Создание рабочей области.

  • Подготовьте хранимую процедуру в Azure Synapse Data Warehouse. Заранее создайте следующую хранимую процедуру:

    CREATE PROCEDURE spM_add_names
    AS
    --Create initial table
    IF EXISTS (SELECT * FROM sys.objects
    WHERE object_id = OBJECT_ID(N'[dbo].[names]') AND TYPE IN (N'U'))
    BEGIN
    DROP TABLE names
    END;
    
    CREATE TABLE names
    (id INT,fullname VARCHAR(50));
    
    --Populate data
    INSERT INTO names VALUES (1,'John Smith');
    INSERT INTO names VALUES (2,'James Dean');
    
    --Alter table for new columns
    ALTER TABLE names
    ADD first_name VARCHAR(50) NULL;
    
    ALTER TABLE names
    ADD last_name VARCHAR(50) NULL;
    
    --Update table
    UPDATE names
    SET first_name = SUBSTRING(fullname, 1, CHARINDEX(' ', fullname)-1);
    
    UPDATE names
    SET last_name = SUBSTRING(fullname, CHARINDEX(' ', fullname)+1, LEN(fullname)-CHARINDEX(' ', fullname));
    
    --View Result
    SELECT * FROM names;
    

    Снимок экрана: результаты выполнения хранимой процедуры для создания примера таблицы.

Создание действия скрипта конвейера для выполнения хранимой процедуры

В этом разделе мы используем действие скрипта для запуска хранимой процедуры, созданной в предварительных требованиях.

  1. Выберите Действие скрипта, а затем нажмите кнопку Создать, чтобы подключиться к Azure Synapse Data Warehouse.

    Снимок экрана: интерфейс конвейера для создания нового действия скрипта и подключения к Azure Synapse Data Warehouse.

  2. Выберите Azure Synapse Analytics и нажмите кнопку Продолжить.

    Снимок экрана: диалоговое окно

  3. Укажите поля Сервер, База данных, Имя пользователя и Пароль для обычной проверки подлинности и введите SynapseConnection в поле Имя подключения. Затем выберите Создать , чтобы создать новое подключение.

    Снимок экрана: диалоговое окно создания нового подключения.

  4. Входные spM_add_names EXEC для выполнения хранимой процедуры. Он создает новую таблицу dbo.name и предварительно обрабатывает данные с помощью простого преобразования, чтобы изменить поле fullname на два поля, first_name и last_name.

    Снимок экрана: вкладка параметров действия скрипта, настроенного для выполнения spM_add_names хранимой процедуры.

Использование действия конвейера для загрузки предварительно обработанных данных таблицы в Lakehouse

  1. Выберите Копировать данные , а затем — Использовать помощник по копированию.

    Снимок экрана: кнопка

  2. Выберите Azure Synapse Analytics для источника данных, а затем нажмите кнопку Далее.

    Снимок экрана: страница выбора источника данных помощника по копированию с выбранным Azure Synapse Analytics.

  3. Выберите существующее подключение SynapseConnection , созданное ранее.

    Снимок экрана: выбор созданного ранее SynapseConnection на странице Выбор источника данных помощника по копированию.

  4. Выберите таблицу dbo.names , созданную и предварительно обработанную хранимой процедурой. Нажмите кнопку Далее.

    Снимок экрана: выбор таблицы dbo.names, созданной и предварительно обработанной хранимой процедурой на предыдущих шагах.

  5. Выберите Lakehouse на вкладке Рабочая область в качестве места назначения, а затем снова нажмите кнопку Далее .

    Снимок экрана: выбор Lakehouse для назначения копирования в помощнике по копированию.

  6. Выберите существующий или создайте новый Lakehouse, а затем нажмите кнопку Далее.

    Снимок экрана: выбор назначения Lakehouse в помощнике по копированию.

  7. Введите имя целевой таблицы для данных, в которые необходимо скопировать данные для назначения Lakehouse, и нажмите кнопку Далее.

    Снимок экрана: имя целевой таблицы для использования в назначении Lakehouse.

  8. Просмотрите сводку на последней странице помощника по копированию и нажмите кнопку ОК.

    Снимок экрана: страница сводки помощника по копированию с подробными сведениями о настроенных подключениях.

  9. После нажатия кнопки ОК новая действие Copy будет добавлена на холст конвейера.

    Снимок экрана: холст конвейера с добавленным действие Copy.

Выполнение двух действий конвейера для загрузки данных

  1. Соедините действия Скрипт и Копирование данных с помощью команды При успешном выполнении действия Скрипт.

    Снимок экрана: соединение двух действий при успешном выполнении действия скрипта.

  2. Выберите Выполнить , а затем Сохранить и запустить , чтобы выполнить два действия в конвейере.

    Снимок экрана: кнопка запуска конвейера.

    Снимок экрана: кнопка

  3. После успешного выполнения конвейера можно просмотреть сведения для получения дополнительных сведений.

    Снимок экрана: кнопка просмотра сведений о выполнении конвейера.

    Снимок экрана: сведения о выполнении для конвейера.

  4. Перейдите в рабочую область и выберите Lakehouse, чтобы проверка результаты.

    Снимок экрана: рабочая область с выделенным назначением Lakehouse.

  5. Выберите таблицу SynapseNamesTable, чтобы просмотреть данные, загруженные в Lakehouse.

    Снимок экрана: результаты в SynapseNamesTable в Lakehouse.

Дальнейшие действия

В этом примере показано, как предварительно обработать данные с помощью хранимой процедуры перед загрузкой результатов в Lakehouse. Вы ознакомились с выполнением следующих задач:

  • Создайте конвейер данных с действием скрипта для выполнения хранимой процедуры.
  • Используйте действие конвейера для загрузки предварительно обработанных данных таблицы в Lakehouse.
  • Выполните действия конвейера для загрузки данных.

Затем перейдите к дополнительным сведениям о мониторинге выполнения конвейера.