Поделиться через


Создание первого рабочего процесса с заданием Azure Databricks

В этой статье показано задание Azure Databricks, которое управляет задачами по чтению и обработке образца набора данных. В этом кратком руководстве вы:

  1. Создайте новую записную книжку и добавьте код для получения образца набора данных, содержащего популярные детские имена по годам.
  2. Сохраните пример набора данных в каталоге Unity.
  3. Создайте записную книжку и добавьте код, чтобы прочитать набор данных из каталога Unity, отфильтровать его по годам и отобразить результаты.
  4. Создайте новое задание и настройте две задачи с помощью записных книжек.
  5. Запустите задание и ознакомьтесь с результатами.

Требования

Если рабочая область включена в каталоге Unity, а бессерверные задания включены по умолчанию, задание выполняется на бессерверных вычислениях. Для запуска задания с бессерверными вычислениями не требуется разрешение на создание кластера.

В противном случае необходимо иметь разрешение на создание кластера для создания вычислительных ресурсов задания или разрешений для всех целевых вычислительных ресурсов.

У вас должен быть том в каталоге Unity. В этой статье используется том, именованный my-volume в схеме с именем default mainкаталога. Кроме того, у вас должны быть следующие разрешения в каталоге Unity:

  • READ VOLUME и WRITE VOLUME, или ALL PRIVILEGES, для тома my-volume .
  • USE SCHEMA или ALL PRIVILEGES для default схемы.
  • USE CATALOG или ALL PRIVILEGES для main каталога.

Чтобы задать эти разрешения, ознакомьтесь с правами администратора Databricks или каталога Unity и защищаемыми объектами.

Создание записных книжек

Получение и сохранение данных

Чтобы создать записную книжку для получения примера набора данных и сохранить ее в каталоге Unity:

  1. Перейдите на целевую страницу Azure Databricks и нажмите кнопку Значок "Создать" на боковой панели и выберите "Записная книжка". Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.

  2. При необходимости измените язык по умолчанию на Python.

  3. Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Чтение и отображение отфильтрованных данных

Чтобы создать записную книжку для чтения и представления данных для фильтрации, выполните приведенные далее действия.

  1. Перейдите на целевую страницу Azure Databricks и нажмите кнопку Значок "Создать" на боковой панели и выберите "Записная книжка". Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.

  2. При необходимости измените язык по умолчанию на Python.

  3. Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Создание задания

  1. Щелкните Значок рабочих процессов рабочие процессы на боковой панели.

  2. Нажмите кнопку Кнопка .

    В диалоговом окне "Создание задачи" отобразится вкладка Задачи.

    Диалоговое окно создания первой задачи

  3. Замените Добавьте имя для задания… на имя задания.

  4. В поле Имя задачи введите имя задачи. Например, извлечение-детских-имен.

  5. В раскрывающемся меню "Тип" выберите "Записная книжка".

  6. С помощью средства просмотра файлов найдите первую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.

  7. Нажмите Создать задачу.

  8. Щелкните Кнопка под задачей, которую вы только что создали, чтобы добавить другую задачу.

  9. В поле Имя задачи введите имя задачи. Например, фильтровать-детские-имена.

  10. В раскрывающемся меню "Тип" выберите "Записная книжка".

  11. С помощью средства просмотра файлов найдите вторую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.

  12. В разделе Параметры щелкните Добавить. В поле Ключ введите year. В поле Значение введите 2014.

  13. Нажмите Создать задачу.

Запуск задания

Чтобы сразу запустить задание, щелкните Кнопка в правом верхнем углу. Вы также можете запустить задание, щелкнув вкладку "Запуски" и нажав кнопку "Запустить сейчас" в таблице "Активные запуски".

Просмотр сведений о выполнении

  1. Выберите вкладку Запуски и нажмите ссылку на запуск в таблице Активные запуски или в таблице Завершенные запуски (за последние 60 дней).

  2. Щелкните любую задачу, чтобы просмотреть выходные данные и сведения. Например, щелкните задачу filter-baby-name , чтобы просмотреть выходные данные и выполнить сведения о задаче фильтра:

    Просмотр результатов фильтрования имен

Запуск с другими параметрами

Чтобы повторно запустить задание и отфильтровать детские имена для другого года, выполните приведенные далее действия.

  1. Щелкните Синий вниз caretрядом с кнопкой "Запустить сейчас" и выберите "Выполнить" с разными параметрами или нажмите кнопку "Выполнить сейчас" с разными параметрами в таблице "Активные запуски".
  2. В поле Значение введите 2015.
  3. Щелкните Выполнить.