Реализация рабочих процессов обработки и анализа данных с помощью заданий

Статья
04/19/2024

Задание Azure Databricks можно использовать для оркестрации конвейеров обработки данных, машинного обучения или аналитики данных на платформе Databricks. Задания Azure Databricks поддерживают ряд типов рабочих нагрузок, включая записные книжки, скрипты, конвейеры Delta Live Tables, запросы SQL Databricks и проекты dbt . В следующих статьях описано, как использовать функции и параметры заданий Azure Databricks для реализации конвейеров данных.

Преобразование, анализ и визуализация данных с помощью задания Azure Databricks

Задание можно использовать для создания конвейера данных, который выполняет прием, преобразование, анализ и визуализацию данных. Пример использования Databricks SQL в задании Azure Databricks создает конвейер, который:

Использует скрипт Python для получения данных с помощью REST API.
Использует разностные динамические таблицы для приема и преобразования извлекаемых данных и сохранения преобразованных данных в Delta Lake.
Использует интеграцию заданий с Databricks SQL для анализа преобразованных данных и создания графов для визуализации результатов.

Использование преобразований dbt в задании

dbt Используйте тип задачи, если вы выполняете преобразование данных с основным проектом dbt и хотите интегрировать этот проект в задание Azure Databricks или создать новые преобразования dbt и запустить эти преобразования в задании. См. статью "Использование преобразований dbt" в задании Azure Databricks.

Использование пакета Python в задании

Файлы колес Python — это стандартный способ упаковки и распространения файлов, необходимых для запуска приложения Python. Вы можете легко создать задание, использующее код Python, упакованный как файл колесика Python с типом Python wheel задачи. Ознакомьтесь с файлом колес Python в задании Azure Databricks.

Использование кода, упакованого в JAR-файл

Библиотеки и приложения, реализованные на языке JVM, например Java и Scala, обычно упаковываются в файл JAR-файла архива Java. Задания Azure Databricks поддерживают код, упакованный в JAR-файл с типом JAR задачи. См . сведения об использовании JAR-файла в задании Azure Databricks.

Использование записных книжек или кода Python, поддерживаемых в центральном репозитории

Распространенный способ управления версиями и совместной работы для рабочих артефактов — использовать центральный репозиторий, например GitHub. Задания Azure Databricks поддерживают создание и выполнение заданий с помощью записных книжек или кода Python, импортированного из репозитория, включая папки GitHub или Databricks Git. См. раздел "Использование управляемого версиями исходного кода в задании Azure Databricks".

Оркестрация заданий с помощью Apache Airflow

Databricks рекомендует использовать задания Azure Databricks для оркестрации рабочих процессов. Однако Apache Airflow обычно используется в качестве системы оркестрации рабочих процессов и обеспечивает встроенную поддержку заданий Azure Databricks. Хотя задания Azure Databricks предоставляют визуальный пользовательский интерфейс для создания рабочих процессов, Airflow использует файлы Python для определения и развертывания конвейеров данных. Пример создания и запуска задания с помощью Airflow см. в статье Orchestrate Azure Databricks с Помощью Apache Airflow.

Выполнение задания с помощью субъекта-службы

Задания можно запускать как учетную запись службы с помощью приложения Microsoft Entra ID (ранее Azure Active Directory) и субъекта-службы. Выполнение задания из учетной записи службы, а не от имени отдельного пользователя позволяет управлять доступом к заданию, обеспечить наличие нужных разрешений для задания и избежать проблем, если владелец задания удален из рабочей области. Руководство по созданию и использованию субъекта-службы для запуска задания Azure Databricks см. в статье "Запуск задания с помощью субъекта-службы Идентификатора Microsoft Entra".

Поделиться через