Transforma datos mediante la ejecución de un notebook de Databricks

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Data Factory en Microsoft Fabric es la próxima generación de Azure Data Factory, con una arquitectura más sencilla, inteligencia artificial integrada y nuevas características. Si no está familiarizado con la integración de datos, comience con Fabric Data Factory. Las cargas de trabajo de ADF existentes pueden actualizarse a Fabric para acceder a nuevas funcionalidades en ciencia de datos, análisis en tiempo real e informes.

La actividad de cuadernos de Azure Databricks en una canalización ejecuta un cuaderno de Databricks en el área de trabajo de Azure Databricks. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas. Azure Databricks es una plataforma administrada para ejecutar Apache Spark.

Puede crear un cuaderno de Databricks con una plantilla de ARM mediante JSON o directamente a través de la interfaz de usuario de Azure Data Factory Studio. Para ver un tutorial paso a paso sobre cómo crear una actividad de cuaderno de Databricks mediante la interfaz de usuario, consulte el tutorial Ejecutar un cuaderno de Databricks con la actividad del cuaderno de Databricks en Azure Data Factory.

Agregar una actividad de Notebook para Azure Databricks a una canalización con interfaz de usuario

Para usar una actividad de Notebook Azure Databricks en una canalización, complete los pasos siguientes:

Busque Notebook en el panel Actividades de canalización y arrastre una actividad de Notebook al lienzo de la canalización.
Seleccione la nueva actividad de Notebook en la interfaz si no está ya seleccionada.
Seleccione la pestaña Azure Databricks para seleccionar o crear un nuevo servicio vinculado de Azure Databricks que ejecutará la actividad notebook.
Seleccione la pestaña Settings y especifique la ruta de acceso del cuaderno que se va a ejecutar en Azure Databricks, parámetros base opcionales que se van a pasar al cuaderno y cualquier otra biblioteca que se va a instalar en el clúster para ejecutar el trabajo.

Definición de la actividad Notebook de Databricks

Esta es un ejemplo de definición JSON de una actividad de cuaderno de Databricks.

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksNotebook",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
            "baseParameters": {
                "inputpath": "input/folder1/",
                "outputpath": "output/"
            },
            "libraries": [
                {
                "jar": "dbfs:/docs/library.jar"
                }
            ]
        }
    }
}

Propiedades de la actividad Notebook de Databricks

En la siguiente tabla se describen las propiedades JSON que se usan en la definición de JSON:

Propiedad	Descripción	Obligatorio
nombre	Nombre de la actividad en la canalización.	Sí
descripción	Texto que describe para qué se usa la actividad.	No
tipo	Para la actividad Cuaderno de Databricks, el tipo de actividad es DatabricksNotebook.	Sí
nombreDelServicioVinculado	Nombre del servicio vinculado de Databricks en el que se ejecuta el bloc de notas de Databricks. Para obtener más información sobre este servicio vinculado, consulte el artículo Servicios vinculados de cómputo.	Sí
notebookPath	La ruta de acceso absoluta del cuaderno que se va a ejecutar en el área de trabajo de Databricks. Esta ruta de acceso debe comenzar con una barra diagonal.	Sí
baseParameters	Una matriz de pares de clave y valor. Se pueden utilizar parámetros base para cada ejecución de actividad. Si el cuaderno toma un parámetro que no se ha especificado, se usará el valor predeterminado del cuaderno. Encuentre más información sobre los parámetros en los cuadernos de Databricks.	No
bibliotecas	Lista de bibliotecas para instalar en el clúster que ejecutará el trabajo. Puede ser un array de <string, object>.	No

Bibliotecas compatibles con las actividades de Databricks

En la definición de la actividad de Databricks anterior, se especifican estos tipos de biblioteca: jar, egg, whl, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
        },
        {
            "whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Para más información, consulte la documentación de Databricks sobre los tipos de bibliotecas.

Pasar parámetros entre cuadernos y canalizaciones

Puede pasar parámetros a cuadernos mediante la propiedad baseParameters que se encuentra en la actividad de Databricks.

En ciertos casos, es posible que necesite devolver algunos valores del cuaderno al servicio, ya que se pueden usar en el flujo de control (esto es, para realizar comprobaciones condicionales) del servicio; también se pueden consumir mediante actividades de bajada (el límite de tamaño es de 2 MB).

En el cuaderno, puede llamar a dbutils.notebook.exit("returnValue") y el valor de "returnValue" correspondiente se devolverá al servicio.
Puede usar la salida del servicio mediante una expresión como @{activity('databricks notebook activity name').output.runOutput}.

Importante

Si vas a pasar un objeto JSON, puedes obtener los valores agregando los nombres de las propiedades. Ejemplo: @{activity('databricks notebook activity name').output.runOutput.PropertyName}

Carga de una biblioteca en Databricks

Puede usar la interfaz de usuario del área de trabajo:

Uso de la interfaz de usuario del área de trabajo de Databricks
Para obtener la ruta de acceso de dbfs de la biblioteca que se agregó mediante la interfaz de usuario, puede usar la CLI de Databricks.

Habitualmente, las bibliotecas de Jar se almacenan en dbfs:/FileStore/jars mientras se usa la interfaz de usuario. Puede enumerar todo mediante la CLI: databricks fs ls dbfs:/FileStore/job-jars

O bien, puede usar la CLI de Databricks:

Sigue Copiar la biblioteca mediante la CLI de Databricks
Uso de la CLI de Databricks (pasos de instalación)

Por ejemplo, para copiar un archivo JAR en dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-04-07