Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается, как создавать, развертывать и запускать JAR-файл Scala с помощью пакетов ресурсов Databricks. Дополнительные сведения о пакетах см. в разделе "Что такое пакеты ресурсов Databricks?".
Например, конфигурацию, которая создает JAR-файл Java и загружает его в каталог Unity, см. Пример пакета, который загружает JAR-файл в каталог Unity.
Требования
- Интерфейс командной строки Databricks версии 0.218.0 или выше, и проверка подлинности настроена. Чтобы проверить установленную версию интерфейса командной строки Databricks, выполните команду
databricks -v
. Чтобы установить интерфейс командной строки Databricks, см. статью "Установка или обновление интерфейса командной строки Databricks". Сведения о настройке проверки подлинности см. в разделе "Настройка доступа к рабочей области". - У вас должен быть том каталога Unity в Databricks, где требуется хранить артефакты сборки и разрешения для отправки JAR-файла в указанный путь тома. См. статью "Создание томов и управление ими".
Шаг 1. Создание пакета
Сначала создайте пакет с помощью команды инициализации пакета и шаблона пакета проекта Scala. Шаблон пакета Scala JAR создает пакет, который создает JAR-файл, отправляет его в указанный том и определяет задание с задачей Spark с JAR-файлом, работающим в указанном кластере. Scala в проекте шаблона определяет UDF, который применяет простое преобразование к примеру DataFrame и выводит результаты. Источник шаблона находится в репозитории примеров пакетов.
Выполните следующую команду в окне терминала на локальном компьютере разработки. Он запрашивает значение некоторых обязательных полей.
databricks bundle init --template-dir contrib/templates/scala-job https://github.com/databricks/bundle-examples
Введите
my_scala_project
как имя для проекта. Это определяет имя корневого каталога для этого пакета. Этот корневой каталог создается в текущем рабочем каталоге.Для указания пути назначения томов укажите путь к томам каталога Unity в Databricks, в котором должен быть создан каталог пакета, содержащий JAR-файл и другие артефакты, например
/Volumes/my-catalog/my-schema/bundle-volumes
.Замечание
В зависимости от разрешений рабочей области администратору может потребоваться добавить указанный путь к JAR файлам томов в список разрешенных. См. библиотеки допустимых списков и скрипты инициализации для вычислений в стандартном режиме доступа (ранее называвшегося режимом общего доступа).
Шаг 2. Изучение пакета
Чтобы просмотреть файлы, созданные шаблоном, перейдите в корневой каталог созданного пакета и откройте этот каталог с помощью предпочтительной интегрированной среды разработки. К файлам, интересующим особый интерес, относятся следующие:
-
databricks.yml
: этот файл указывает программное имя пакета, содержит ссылку на определение задания и задает параметры целевой рабочей области. -
resources/my_scala_project.job.yml
: этот файл задает JAR-задачу задания и параметры кластера. -
src/
: этот каталог содержит исходные файлы для проекта Scala. -
build.sbt
: этот файл содержит важные параметры сборки и зависимой библиотеки. -
README.md
: этот файл содержит следующие действия по началу работы, а также инструкции и параметры локальной сборки.
Шаг 3. Проверка файла конфигурации пакета проекта
Затем проверьте, допустима ли конфигурация пакета с помощью команды проверки пакета.
В корневом каталоге выполните команду Databricks CLI
bundle validate
. Кроме прочего, это проверяет наличие тома, указанного в файле конфигурации, в рабочем пространстве.databricks bundle validate
Если возвращается сводка конфигурации пакета, проверка выполнена успешно. Если возвращаются какие-либо ошибки, исправьте ошибки, повторите этот шаг.
Если вы вносите изменения в пакет после этого шага, повторите этот шаг, чтобы проверить, действительна ли конфигурация пакета.
Шаг 4. Развертывание локального проекта в удаленной рабочей области
Теперь разверните пакет в удаленной рабочей области Azure Databricks с помощью команды развертывания пакета. Этот шаг создает JAR-файл и отправляет его в указанный том.
Выполните команду Databricks CLI
bundle deploy
:databricks bundle deploy -t dev
Чтобы проверить, был ли развернут локально созданный JAR-файл:
- На боковой панели рабочей области Azure Databricks щелкните обозреватель каталогов.
- Перейдите к целевому пути тома, указанному при инициализации пакета. JAR-файл должен находиться в следующей папке внутри этого пути:
/my_scala_project/dev/<user-name>/.internal/
Чтобы проверить, было ли создано задание, выполните следующие действия.
- На боковой панели рабочей области Azure Databricks щелкните "Задания и конвейеры".
- При необходимости выберите фильтры "Задания " и " Принадлежащие мне ".
- Щелкните [dev
<your-username>
]my_scala_project
. - Перейдите на вкладку "Задачи ".
Должна быть одна задача: main_task.
Если вы вносите изменения в пакет после этого шага, повторите шаги проверки и развертывания.
Шаг 5. Запуск развернутого проекта
Наконец, запустите задание Azure Databricks с помощью команды выполнения пакета.
В корневом каталоге выполните команду Databricks CLI
bundle run
, указав имя задания в файлеmy_scala_project.job.yml
определения:databricks bundle run -t dev my_scala_project
Скопируйте значение, которое отображается в терминале и вставьте это значение
Run URL
в веб-браузер, чтобы открыть рабочую область Azure Databricks.В рабочей области Azure Databricks после успешного завершения задачи и появления зеленой строки заголовка щелкните задачу main_task, чтобы просмотреть результаты.