Поделиться через


Преобразование данных путем запуска записной книжки

Используйте действие Notebook для запуска записных книжек, создаваемых в Microsoft Fabric в рамках конвейеров фабрики данных. Записные книжки позволяют запускать задания Apache Spark для привлечения, очистки или преобразования данных в рамках рабочих процессов данных. Легко добавить задачу с использованием ноутбука в потоки данных на платформе Fabric, и это руководство проведет вас через каждый шаг.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

Создание задачи в блокноте

  1. Создайте конвейер в рабочей области.

  2. Найдите записную книжку в области действий конвейера и выберите ее, чтобы добавить ее на холст конвейера.

    Снимок экрана: пользовательский интерфейс Fabric с выделенной областью действий и действием Notebook.

  3. Выберите новое действие Notebook на холсте, если оно еще не выбрано.

    Снимок экрана: вкладка

    Ознакомьтесь с руководством по общим параметрам, чтобы настроить вкладку "Общие параметры".

Настройка параметров записной книжки

Выберите вкладку Параметры.

В разделе "Подключение" выберите метод проверки подлинности для запуска записной книжки и укажите необходимые учетные данные или конфигурацию удостоверений на основе выбора:

  • Service Principal (SPN) — рекомендуется использовать в производственных сценариях для обеспечения безопасного, автоматического выполнения без использования учетных данных пользователя.
  • Удостоверение рабочей области (WI) — идеально подходит для управляемых сред, где требуется централизованное управление удостоверениями.

Выберите существующую записную книжку в раскрывающемся списке "Записная книжка " и при необходимости укажите все параметры для передачи в записную книжку.

Снимок экрана: вкладка

Использование удостоверения идентификации Fabric Workspace (WI) в активности блокнота

  1. Создайте удостоверение рабочей области

    Необходимо включить WI в рабочей области (это может занять некоторое время для загрузки). Создайте идентификатор рабочей области в вашем рабочем пространстве Fabric. Обратите внимание, что wi-интерфейс должен быть создан в той же рабочей области, что и конвейер.

    Ознакомьтесь с документацией на доступ в рабочей области.

  2. Включение параметров уровня клиента

    Включите следующий параметр клиента (он отключен по умолчанию ): субъекты-службы могут вызывать общедоступные API Fabric.

    Этот параметр можно включить на портале администрирования Fabric. Дополнительные сведения об этом параметре см. в статье о включении проверки подлинности сервисного субъекта для административных API.

  3. Предоставьте разрешения рабочей области удостоверению рабочей области

    Откройте рабочую область, выберите "Управление доступом" и назначьте разрешения удостоверениям рабочей области. Доступ участника достаточно для большинства сценариев. Если ваша записная книжка не находится в той же рабочей области, что и конвейер, вам необходимо предоставить созданному вами в рабочей области конвейера WI как минимум доступ на уровне Участника к рабочей области вашей записной книжки.

    Ознакомьтесь с документацией по предоставление пользователям доступа к рабочим областям.

Установка тега сеанса

Чтобы свести к минимуму время выполнения задания записной книжки, можно при необходимости задать тег сеанса. Установка тега сеанса позволяет Spark повторно использовать уже существующий сеанс, что минимизирует время запуска. Любое произвольное строковое значение можно использовать для тега сеанса. Если сеанс не существует, новый будет создан с помощью значения тега.

Снимок экрана: вкладка

Примечание.

Чтобы использовать тег сеанса, необходимо включить режим высокой параллелизма для конвейера с несколькими записными книжками. Этот параметр можно найти в режиме высокой параллелизма для параметров Spark в параметрах рабочей области.

Снимок экрана: вкладка

Сохранение и запуск или планирование конвейера

Перейдите на вкладку "Главная " в верхней части редактора конвейера и нажмите кнопку "Сохранить", чтобы сохранить конвейер. Выберите "Запустить ", чтобы запустить его напрямую, или запланировать его. Вы также можете просмотреть журнал выполнения здесь или настроить другие параметры.

Снимок экрана: вкладка

Известные проблемы

  • Параметр WI в настройках подключения не отображается в некоторых случаях. Это ошибка, и в данный момент ведётся работа над её исправлением.