Запуск записной книжки Databricks с помощью действия Databricks Notebook в фабрике данных Azure
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
В этом руководстве рассматривается создание конвейера фабрики данных Azure, который выполняет записную книжку Databricks в кластере заданий Databricks, на портале Azure. Конвейер также передает параметры фабрики данных Azure в записную книжку Databricks во время выполнения.
В этом руководстве вы выполните следующие шаги:
Создали фабрику данных.
создадите конвейер, который использует действие Databricks Notebook.
Активация выполнения конвейера.
Осуществили мониторинг выполнения конвейера.
Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.
Уделите 11 минут вашего времени, чтобы просмотреть следующее видео с кратким обзором и демонстрацией этой функции:
Необходимые компоненты
- Создайте рабочую область Azure Databricks. Создайте рабочую область Databricks или используйте существующую. Вы создадите записную книжку Python в рабочей области Azure Databricks. Затем запустите ее и передадите в нее параметры, используя фабрику данных Azure.
Создание фабрики данных
Запустите веб-браузер Microsoft Edge или Google Chrome. Сейчас только эти браузеры поддерживают пользовательский интерфейс фабрики данных.
В меню на портале Azure последовательно выберите Создать ресурс, Интеграция, Фабрика данных.
На странице Создание фабрики данных на вкладке Основные сведения выберите подписку Azure, в рамках которой вы хотите создать фабрику данных.
Для группы ресурсов выполните одно из следующих действий:
Выберите существующую группу ресурсов из раскрывающегося списка.
Выберите Создать новую и укажите имя новой группы ресурсов.
Сведения о группах ресурсов см. в статье, где описывается использование групп ресурсов для управления ресурсами Azure.
Для параметра Расположение выберите расположение фабрики данных.
В списке отображаются только расположения, которые поддерживаются Фабрикой данных и в которых будут храниться метаданные Фабрики данных Azure. Связанные хранилища данных (например, Служба хранилища Azure и База данных SQL Azure) и вычислительные среды (например, Azure HDInsight), используемые службой "Фабрика данных", могут выполняться в других регионах.
Введите ADFTutorialDataFactory в поле Имя.
Имя фабрики данных Azure должно быть глобально уникальным. Если отображется следующая ошибка, измените имя фабрики данных (например, используйте <вашеимя>ADFTutorialDataFactory). Правила именования для артефактов службы "Фабрика данных" приведены в статье Фабрика данных Azure — правила именования.
Укажите V2 при выборе версии.
Нажмите кнопку "Далее": конфигурация Git, а затем установите флажок "Настроить Git".
Щелкните Просмотр и создание и выберите Создать после прохождения проверки.
Когда создание завершится, щелкните элемент Перейти к ресурсу, чтобы открыть страницу Фабрика данных. Чтобы запустить приложение пользовательского интерфейса "Фабрика данных Azure" на отдельной вкладке браузера, выберите элемент Открыть студию Фабрики данных Azure.
Создание связанных служб
В этом разделе создается связанная служба Databricks. Эта связанная служба содержит сведения о подключении к кластеру Databricks.
Создание связанной службы Azure Databricks
На домашней странице перейдите на вкладку Управление на панели слева.
Выберите Связанные службы в разделе Подключения, затем выберите + Создать.
В окне Новая связанная служба выберите Службы вычислений>Azure Databricks и щелкните Продолжить.
В окне Новая связанная служба выполните следующие действия:
В качестве имени введите AzureDatabricks_LinkedService.
Выберите соответствующую рабочую область Databricks, в которой вы будете запускать записную книжку.
В поле Выбрать кластер выберите Новый кластер задания.
Для URL-адреса рабочей области Databrick данные должны быть заполнены автоматически.
Для типа проверки подлинности при выборе маркера доступа создайте его на рабочем месте Azure Databricks. Инструкции можно найти здесь. Для управляемого удостоверения службы и управляемого удостоверения, назначаемого пользователем, предоставьте роль участника обеим удостоверениям в меню управления доступом ресурса Azure Databricks.
В поле Версия кластера выберите версию, которую хотите использовать.
В поле Тип узла кластера выберите Standard_D3_v2 в категории Общего назначения (HDD).
В поле Рабочая роль введите 2.
Нажмите кнопку создания.
Создание конвейера
Нажмите кнопку + (плюс) и в меню выберите Pipeline (Конвейер).
Создайте параметр для использования в конвейере. Позже вы передадите этот параметр в действие Databricks Notebook. В пустом конвейере выберите вкладку Параметры, затем выберите + Создать и присвойте параметру имя name.
На панели элементов Действия разверните узел Databricks. Перетащите действие Notebook с панели элементов Действия в область конструктора конвейера.
В свойствах для окна действия Databricks Notebook в нижней части страницы выполните следующие действия:
Откройте вкладку Azure Databricks.
Выберите AzureDatabricks_LinkedService (создано ранее).
Переключитесь на вкладку Параметры .
Выберите путь к записной книжке Databricks. Давайте создадим записную книжку и укажем путь. Чтобы получить путь к записной книжке, выполните следующие действия.
Запуск рабочей области Azure Databricks.
В рабочей области выберите команду создания папки и присвойте папке имя adftutorial.
Снимок экрана: как создать новую записную книжку. (Python), присвоим ей имя mynotebook в папке adftutorial, щелкните Создать.
В недавно созданной записной книжке mynotebook добавьте следующий код:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") y = dbutils.widgets.get("input") print ("Param -\'input':") print (y)
В этом случае путь к Notebook — /adftutorial/mynotebook.
Вернитесь к инструменту для создания пользовательского интерфейса фабрики данных. В разделе действие Notebook1 перейдите на вкладку Параметры.
a. Добавьте параметр в действие Notebook. Это тот же параметр, который был добавлен ранее в конвейер.
b. Присвойте параметру имя input и укажите в качестве значения выражение @pipeline().parameters.name.
Чтобы проверить работу конвейера, нажмите кнопку Проверка на панели инструментов. Чтобы закрыть окно проверки, нажмите кнопку Закрыть.
Выберите Опубликовать все. Пользовательский интерфейс фабрики данных опубликует сущности (связанные службы и конвейер) в службе фабрики данных Azure.
Активация выполнения конвейера
На панели инструментов выберите Добавить триггер, а затем Активировать сейчас.
В диалоговом окне Запуск конвейера появится запрос на ввод параметра name. Укажите /path/filename в качестве параметра. Нажмите ОК.
Мониторинг конвейера
Перейдите на вкладку "Монитор ". Убедитесь, что вы видите запуск конвейера. Для создания кластера заданий Databricks, где выполняется записная книжка, требуется приблизительно 5–8 минут.
Периодически нажимайте Обновить, чтобы контролировать состояние выполнения конвейера.
Чтобы просмотреть сведения о выполнениях действий, связанных с выполнением конвейера, щелкните ссылку pipeline1 в столбце Имя конвейера.
На странице Выполнения действий выберите Выходные данные в столбце Имя действия, чтобы просмотреть выходные данные каждого действия. На панели Выходные данные можно найти ссылку на журналы Databricks, чтобы получить более подробные журналы Spark.
Чтобы вернуться к представлению "Выполнения конвейера", в меню навигации вверху выберите ссылку Все запуски конвейеров.
Проверка выходных данных
Войдите в рабочую область Azure Databricks, перейдите в раздел Кластеры, и вы увидите одно из таких состояний задания: в ожидании, выполняется или завершено.
Щелкнув имя задания, можно перейти к дополнительным сведениям. При успешном запуске можно проверить переданные параметры и выходные данные записной книжки Python.
Связанный контент
В этом примере конвейер запускает действие Databricks Notebook и передает в него параметр. Вы научились выполнять следующие задачи:
Создали фабрику данных.
создавать конвейер, который использует действие Databricks Notebook.
Активация выполнения конвейера.
Осуществили мониторинг выполнения конвейера.