Бөлісу құралы:


Запуск записной книжки Databricks с помощью действия Databricks Notebook в фабрике данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этом руководстве рассматривается создание конвейера фабрики данных Azure, который выполняет записную книжку Databricks в кластере заданий Databricks, на портале Azure. Конвейер также передает параметры фабрики данных Azure в записную книжку Databricks во время выполнения.

В этом руководстве вы выполните следующие шаги:

  • Создали фабрику данных.

  • создадите конвейер, который использует действие Databricks Notebook.

  • Активация выполнения конвейера.

  • Осуществили мониторинг выполнения конвейера.

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Уделите 11 минут вашего времени, чтобы просмотреть следующее видео с кратким обзором и демонстрацией этой функции:

Необходимые компоненты

  • Создайте рабочую область Azure Databricks. Создайте рабочую область Databricks или используйте существующую. Вы создадите записную книжку Python в рабочей области Azure Databricks. Затем запустите ее и передадите в нее параметры, используя фабрику данных Azure.

Создание фабрики данных

  1. Запустите веб-браузер Microsoft Edge или Google Chrome. Сейчас только эти браузеры поддерживают пользовательский интерфейс фабрики данных.

  2. В меню на портале Azure последовательно выберите Создать ресурс, Интеграция, Фабрика данных.

    Снимок экрана: выбор

  3. На странице Создание фабрики данных на вкладке Основные сведения выберите подписку Azure, в рамках которой вы хотите создать фабрику данных.

  4. Для группы ресурсов выполните одно из следующих действий:

    1. Выберите существующую группу ресурсов из раскрывающегося списка.

    2. Выберите Создать новую и укажите имя новой группы ресурсов.

    Сведения о группах ресурсов см. в статье, где описывается использование групп ресурсов для управления ресурсами Azure.

  5. Для параметра Расположение выберите расположение фабрики данных.

    В списке отображаются только расположения, которые поддерживаются Фабрикой данных и в которых будут храниться метаданные Фабрики данных Azure. Связанные хранилища данных (например, Служба хранилища Azure и База данных SQL Azure) и вычислительные среды (например, Azure HDInsight), используемые службой "Фабрика данных", могут выполняться в других регионах.

  6. Введите ADFTutorialDataFactory в поле Имя.

    Имя фабрики данных Azure должно быть глобально уникальным. Если отображется следующая ошибка, измените имя фабрики данных (например, используйте <вашеимя>ADFTutorialDataFactory). Правила именования для артефактов службы "Фабрика данных" приведены в статье Фабрика данных Azure — правила именования.

    Снимок экрана: сообщение об ошибке, когда имя недоступно.

  7. Укажите V2 при выборе версии.

  8. Нажмите кнопку "Далее": конфигурация Git, а затем установите флажок "Настроить Git".

  9. Щелкните Просмотр и создание и выберите Создать после прохождения проверки.

  10. Когда создание завершится, щелкните элемент Перейти к ресурсу, чтобы открыть страницу Фабрика данных. Чтобы запустить приложение пользовательского интерфейса "Фабрика данных Azure" на отдельной вкладке браузера, выберите элемент Открыть студию Фабрики данных Azure.

    Снимок экрана: домашняя страница службы

Создание связанных служб

В этом разделе создается связанная служба Databricks. Эта связанная служба содержит сведения о подключении к кластеру Databricks.

Создание связанной службы Azure Databricks

  1. На домашней странице перейдите на вкладку Управление на панели слева.

    Снимок экрана: вкладка

  2. Выберите Связанные службы в разделе Подключения, затем выберите + Создать.

    Снимок экрана: создание нового подключения.

  3. В окне Новая связанная служба выберите Службы вычислений>Azure Databricks и щелкните Продолжить.

    Снимок экрана: как указать связанную службу Databricks.

  4. В окне Новая связанная служба выполните следующие действия:

    1. В качестве имени введите AzureDatabricks_LinkedService.

    2. Выберите соответствующую рабочую область Databricks, в которой вы будете запускать записную книжку.

    3. В поле Выбрать кластер выберите Новый кластер задания.

    4. Для URL-адреса рабочей области Databrick данные должны быть заполнены автоматически.

    5. Для типа проверки подлинности при выборе маркера доступа создайте его на рабочем месте Azure Databricks. Инструкции можно найти здесь. Для управляемого удостоверения службы и управляемого удостоверения, назначаемого пользователем, предоставьте роль участника обеим удостоверениям в меню управления доступом ресурса Azure Databricks.

    6. В поле Версия кластера выберите версию, которую хотите использовать.

    7. В поле Тип узла кластера выберите Standard_D3_v2 в категории Общего назначения (HDD).

    8. В поле Рабочая роль введите 2.

    9. Нажмите кнопку создания.

      Снимок экрана: конфигурация новой связанной службы Azure Databricks.

Создание конвейера

  1. Нажмите кнопку + (плюс) и в меню выберите Pipeline (Конвейер).

    Снимок экрана: кнопки для создания нового конвейера.

  2. Создайте параметр для использования в конвейере. Позже вы передадите этот параметр в действие Databricks Notebook. В пустом конвейере выберите вкладку Параметры, затем выберите + Создать и присвойте параметру имя name.

    Снимок экрана: как создать новый параметр.

    Снимок экрана: как создать параметр name.

  3. На панели элементов Действия разверните узел Databricks. Перетащите действие Notebook с панели элементов Действия в область конструктора конвейера.

    Снимок экрана: как перетащить записную книжку в область конструктора.

  4. В свойствах для окна действия Databricks Notebook в нижней части страницы выполните следующие действия:

    1. Откройте вкладку Azure Databricks.

    2. Выберите AzureDatabricks_LinkedService (создано ранее).

    3. Переключитесь на вкладку Параметры .

    4. Выберите путь к записной книжке Databricks. Давайте создадим записную книжку и укажем путь. Чтобы получить путь к записной книжке, выполните следующие действия.

      1. Запуск рабочей области Azure Databricks.

      2. В рабочей области выберите команду создания папки и присвойте папке имя adftutorial.

        Снимок экрана: как создать новую папку.

      3. Снимок экрана: как создать новую записную книжку. (Python), присвоим ей имя mynotebook в папке adftutorial, щелкните Создать.

        Снимок экрана: как создать новую записную книжку.

        Снимок экрана: как задать свойства новой записной книжки.

      4. В недавно созданной записной книжке mynotebook добавьте следующий код:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Снимок экрана: как создать мини-приложения для параметров.

      5. В этом случае путь к Notebook — /adftutorial/mynotebook.

  5. Вернитесь к инструменту для создания пользовательского интерфейса фабрики данных. В разделе действие Notebook1 перейдите на вкладку Параметры.

    a. Добавьте параметр в действие Notebook. Это тот же параметр, который был добавлен ранее в конвейер.

    Снимок экрана показывающий, как добавить параметр.

    b. Присвойте параметру имя input и укажите в качестве значения выражение @pipeline().parameters.name.

  6. Чтобы проверить работу конвейера, нажмите кнопку Проверка на панели инструментов. Чтобы закрыть окно проверки, нажмите кнопку Закрыть.

    Снимок экрана: как проверить конвейер.

  7. Выберите Опубликовать все. Пользовательский интерфейс фабрики данных опубликует сущности (связанные службы и конвейер) в службе фабрики данных Azure.

    Снимок экрана: как опубликовать новые сущности фабрики данных.

Активация выполнения конвейера

На панели инструментов выберите Добавить триггер, а затем Активировать сейчас.

Снимок экрана: как выбрать команду

В диалоговом окне Запуск конвейера появится запрос на ввод параметра name. Укажите /path/filename в качестве параметра. Нажмите ОК.

Снимок экрана: как предоставить значение для параметров name.

Мониторинг конвейера

  1. Перейдите на вкладку "Монитор ". Убедитесь, что вы видите запуск конвейера. Для создания кластера заданий Databricks, где выполняется записная книжка, требуется приблизительно 5–8 минут.

    Снимок экрана: как выполнять мониторинг конвейера.

  2. Периодически нажимайте Обновить, чтобы контролировать состояние выполнения конвейера.

  3. Чтобы просмотреть сведения о выполнениях действий, связанных с выполнением конвейера, щелкните ссылку pipeline1 в столбце Имя конвейера.

  4. На странице Выполнения действий выберите Выходные данные в столбце Имя действия, чтобы просмотреть выходные данные каждого действия. На панели Выходные данные можно найти ссылку на журналы Databricks, чтобы получить более подробные журналы Spark.

  5. Чтобы вернуться к представлению "Выполнения конвейера", в меню навигации вверху выберите ссылку Все запуски конвейеров.

Проверка выходных данных

Войдите в рабочую область Azure Databricks, перейдите в раздел Кластеры, и вы увидите одно из таких состояний задания: в ожидании, выполняется или завершено.

Снимок экрана: как посмотреть кластер задания и задание.

Щелкнув имя задания, можно перейти к дополнительным сведениям. При успешном запуске можно проверить переданные параметры и выходные данные записной книжки Python.

Снимок экрана: как посмотреть сведения о выполнении и выходные данные.

В этом примере конвейер запускает действие Databricks Notebook и передает в него параметр. Вы научились выполнять следующие задачи:

  • Создали фабрику данных.

  • создавать конвейер, который использует действие Databricks Notebook.

  • Активация выполнения конвейера.

  • Осуществили мониторинг выполнения конвейера.