Создание первого рабочего процесса с заданием Azure Databricks
В этой статье показано задание Azure Databricks, которое управляет задачами по чтению и обработке образца набора данных. В этом кратком руководстве вы:
- Создайте новую записную книжку и добавьте код для получения образца набора данных, содержащего популярные детские имена по годам.
- Сохраните пример набора данных в каталоге Unity.
- Создайте записную книжку и добавьте код, чтобы прочитать набор данных из каталога Unity, отфильтровать его по годам и отобразить результаты.
- Создайте новое задание и настройте две задачи с помощью записных книжек.
- Запустите задание и ознакомьтесь с результатами.
Требования
Если рабочая область включена в каталоге Unity, а бессерверные задания включены по умолчанию, задание выполняется на бессерверных вычислениях. Для запуска задания с бессерверными вычислениями не требуется разрешение на создание кластера.
В противном случае необходимо иметь разрешение на создание кластера для создания вычислительных ресурсов задания или разрешений для всех целевых вычислительных ресурсов.
У вас должен быть том в каталоге Unity. В этой статье используется том, именованный my-volume
в схеме с именем default
main
каталога. Кроме того, у вас должны быть следующие разрешения в каталоге Unity:
READ VOLUME
иWRITE VOLUME
, илиALL PRIVILEGES
, для томаmy-volume
.USE SCHEMA
илиALL PRIVILEGES
дляdefault
схемы.USE CATALOG
илиALL PRIVILEGES
дляmain
каталога.
Чтобы задать эти разрешения, ознакомьтесь с правами администратора Databricks или каталога Unity и защищаемыми объектами.
Создание записных книжек
Получение и сохранение данных
Чтобы создать записную книжку для получения примера набора данных и сохранить ее в каталоге Unity:
Перейдите на целевую страницу Azure Databricks и нажмите кнопку "Создать" на боковой панели и выберите "Записная книжка". Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.
При необходимости измените язык по умолчанию на Python.
Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Чтение и отображение отфильтрованных данных
Чтобы создать записную книжку для чтения и представления данных для фильтрации, выполните приведенные далее действия.
Перейдите на целевую страницу Azure Databricks и нажмите кнопку "Создать" на боковой панели и выберите "Записная книжка". Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.
При необходимости измените язык по умолчанию на Python.
Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Создание задания
Щелкните рабочие процессы на боковой панели.
Нажмите кнопку .
В диалоговом окне "Создание задачи" отобразится вкладка Задачи.
Замените Добавьте имя для задания… на имя задания.
В поле Имя задачи введите имя задачи. Например, извлечение-детских-имен.
В раскрывающемся меню "Тип" выберите "Записная книжка".
С помощью средства просмотра файлов найдите первую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.
Нажмите Создать задачу.
Щелкните под задачей, которую вы только что создали, чтобы добавить другую задачу.
В поле Имя задачи введите имя задачи. Например, фильтровать-детские-имена.
В раскрывающемся меню "Тип" выберите "Записная книжка".
С помощью средства просмотра файлов найдите вторую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.
В разделе Параметры щелкните Добавить. В поле Ключ введите
year
. В поле Значение введите2014
.Нажмите Создать задачу.
Запуск задания
Чтобы сразу запустить задание, щелкните в правом верхнем углу. Вы также можете запустить задание, щелкнув вкладку "Запуски" и нажав кнопку "Запустить сейчас" в таблице "Активные запуски".
Просмотр сведений о выполнении
Выберите вкладку Запуски и нажмите ссылку на запуск в таблице Активные запуски или в таблице Завершенные запуски (за последние 60 дней).
Щелкните любую задачу, чтобы просмотреть выходные данные и сведения. Например, щелкните задачу filter-baby-name , чтобы просмотреть выходные данные и выполнить сведения о задаче фильтра:
Запуск с другими параметрами
Чтобы повторно запустить задание и отфильтровать детские имена для другого года, выполните приведенные далее действия.
- Щелкните рядом с кнопкой "Запустить сейчас" и выберите "Выполнить" с разными параметрами или нажмите кнопку "Выполнить сейчас" с разными параметрами в таблице "Активные запуски".
- В поле Значение введите
2015
. - Щелкните Выполнить.