Преобразование данных с помощью выполнения действий Jar в Azure Databricks

Статья
10/03/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие Jar в Azure Databricks в конвейере позволяет запускать файл Spark Jar в кластере Azure Databricks. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования. Azure Databricks — это управляемая платформа для запуска Apache Spark.

Уделите 11 минут вашего времени, чтобы просмотреть следующее видео с кратким обзором и демонстрацией этой функции:

Добавление действия JAR для Azure Databricks в конвейер с помощью пользовательского интерфейса

Чтобы использовать действие JAR для Azure Databricks в конвейере, выполните следующие действия:

Выполните поиск элемента Jar на панели конвейера "Действия" и перетащите действие Jar на холст конвейера.
Выберите новое действие Jar на холсте, если оно еще не выбрано.
Перейдите на вкладку Azure Databricks, чтобы выбрать или создать новую связанную службу Azure Databricks, которая будет выполнять действие Jar.
Перейдите на вкладку Параметры и укажите имя класса для выполнения в Azure Databricks, необязательные параметры, которые необходимо передать в Jar-файл, и библиотеки, которые будут установлены в кластере для выполнения задания.

Определение действия Jar в Databricks

Пример определения JSON для действия Jar в Databricks:

{
    "name": "SparkJarActivity",
    "type": "DatabricksSparkJar",
    "linkedServiceName": {
        "referenceName": "AzureDatabricks",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mainClassName": "org.apache.spark.examples.SparkPi",
        "parameters": [ "10" ],
        "libraries": [
            {
                "jar": "dbfs:/docs/sparkpi.jar"
            }
        ]
    }
}

Свойства действия Jar в Databricks

В следующей таблице приведено описание свойств, используемых в определении JSON.

Свойство	Описание:	Обязательное поле
name	Имя действия в конвейере.	Да
описание	Описание действия.	No
type	Тип действия Jar в Databricks — DatabricksSparkJar.	Да
linkedServiceName	Имя связанной службы Databricks, в которой выполняется действие Jar. Дополнительные сведения об этой связанной службе см. в статье Вычислительные среды, поддерживаемые фабрикой данных Azure.	Да
mainClassName	Полное имя класса, содержащего метод main, который будет выполнен. Этот класс должен содержаться в файле JAR, предоставляемом в виде библиотеки. Файл JAR может содержать несколько классов. Каждый из классов может содержать метод main.	Да
parameters	Параметры, которые будут переданы в метод main. Это свойство представляет собой массив строк.	No
libraries	Список библиотек, которые должны быть установлены на кластере, на котором будет выполнено задание. Это может быть массив <string, object>	Да (по крайней мере один метод, содержащий mainClassName)

Примечание.

Известная ошибка. При использовании одного и того же интерактивного кластера для выполнения параллельных действий JAR-файла в Databricks (без перезапуска кластера) существует известная проблема в Databricks, где в параметрах первого действия будут использоваться следующие действия. Это приводит к тому, что в последующие задания передаются неверные параметры. Для устранения этой проблемы используйте вместо этого кластер заданий.

Поддерживаемые библиотеки для действий Databricks

В приведенном выше определении действия Databricks вы указали следующие типы библиотек: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Дополнительные сведения см. в документации Databricks по типам библиотек.

Отправка библиотеки в Databricks

Вы можете использовать пользовательский интерфейс рабочей области:

Использование пользовательского интерфейса рабочей области Databricks
Чтобы получить путь к dbfs библиотеки, добавленной с помощью пользовательского интерфейса, можно использовать интерфейс командной строки Databricks.

Обычно библиотеки Jar, добавленные с помощью пользовательского интерфейса, хранятся в каталоге dbfs:/FileStore/jars. Вы можете получить список всех библиотек, выполнив следующую команду в интерфейсе командной строки: databricks fs ls dbfs:/FileStore/job-jars.

Или можно использовать интерфейс командной строки Databricks:

Затем выполните Копирование библиотеки с помощью интерфейса командной строки Databricks
Используйте интерфейс командной строки Databricks (действия по установке)

Например, чтобы скопировать JAR-файл в dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

Просмотрите следующее 11-минутное видео с кратким обзором и демонстрацией этой функции.

Поделиться через

Преобразование данных с помощью выполнения действий Jar в Azure Databricks

Добавление действия JAR для Azure Databricks в конвейер с помощью пользовательского интерфейса

Определение действия Jar в Databricks

Свойства действия Jar в Databricks

Поддерживаемые библиотеки для действий Databricks

Отправка библиотеки в Databricks

Вы можете использовать пользовательский интерфейс рабочей области:

Или можно использовать интерфейс командной строки Databricks:

Обратная связь

Дополнительные ресурсы

Поделиться через

Преобразование данных с помощью выполнения действий Jar в Azure Databricks

Добавление действия JAR для Azure Databricks в конвейер с помощью пользовательского интерфейса

Определение действия Jar в Databricks

Свойства действия Jar в Databricks

Поддерживаемые библиотеки для действий Databricks

Отправка библиотеки в Databricks

Вы можете использовать пользовательский интерфейс рабочей области:

Или можно использовать интерфейс командной строки Databricks:

Связанный контент

Обратная связь

Дополнительные ресурсы