Compartir vía


Ejecución de un cuaderno de Databricks con la actividad Notebook de Databricks en Azure Data Factory

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este tutorial, va a utilizar Azure Portal para crear una canalización de Azure Data Factory que ejecuta un cuaderno de Databricks en el clúster de trabajos de Databricks. También pasa parámetros de Azure Data Factory al cuaderno de Databricks durante la ejecución.

En este tutorial, realizará los siguientes pasos:

  • Creación de una factoría de datos.

  • Cree una canalización que utiliza la actividad Notebook de Databricks.

  • Desencadenamiento de una ejecución de la canalización

  • Supervisión de la ejecución de la canalización

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Si desea una introducción y demostración de once minutos de esta característica, vea el siguiente vídeo:

Prerrequisitos

  • Área de trabajo de Azure Databricks. Cree un área de trabajo de Databricks o use una existente. Va a crear un cuaderno de Python en el área de trabajo de Azure Databricks. Después, va a ejecutar el cuaderno y le pasará parámetros mediante Azure Data Factory.

Crear una factoría de datos

  1. Inicie el explorador web Microsoft Edge o Google Chrome. Actualmente, la interfaz de usuario de Data Factory solo se admite en los exploradores web Microsoft Edge y Google Chrome.

  2. Seleccione Crear un recurso en el menú de Azure Portal, después, Integración y Data Factory.

    Captura de pantalla que muestra la selección de Data Factory en el panel Nuevo.

  3. En la página Create Data Factory (Crear factoría de datos), en la pestaña Aspectos básicos, seleccione su suscripción de Azure en la que desea crear la factoría de datos.

  4. Para Grupo de recursos, realice uno de los siguientes pasos:

    1. Seleccione un grupo de recursos existente de la lista desplegable.

    2. Seleccione Crear nuevo y escriba el nombre de un nuevo grupo de recursos.

    Para obtener más información sobre los grupos de recursos, consulte Uso de grupos de recursos para administrar los recursos de Azure.

  5. En Región, seleccione la ubicación de la factoría de datos.

    En la lista solo se muestran las ubicaciones que admite Data Factory y dónde se almacenarán los metadatos de Azure Data Factory. Los almacenes de datos asociados (como Azure Storage y Azure SQL Database) y los procesos (como Azure HDInsight) que usa Data Factory se pueden ejecutar en otras regiones.

  6. En Nombre, escriba ADFTutorialDataFactory.

    El nombre de la instancia de Azure Data Factory debe ser único de forma global. Si ve el siguiente error, cambie el nombre de la factoría de datos (por ejemplo, use <suNombre>ADFTutorialDataFactory). Para conocer las reglas de nomenclatura de los artefactos de Data Factory, consulte el artículo Azure Data Factory: reglas de nomenclatura.

    Captura de pantalla que muestra un error cuando un nombre no está disponible.

  7. En Versión, seleccione V2.

  8. Seleccione Siguiente: Configuración de Git y, después, seleccione la casilla Configurar Git más adelante.

  9. Seleccione Revisar y crear y elija Crear una vez superada la validación.

  10. Una vez que finalice la creación, seleccione Ir al recurso para ir a la página de Data Factory. Seleccione el icono Open Azure Data Factory Studio (Abrir Azure Data Factory Studio) para iniciar la aplicación de interfaz de usuario (IU) de Azure Data Factory en una pestaña independiente del explorador.

    Captura de pantalla que muestra la página principal de Azure Data Factory con el icono Open Azure Data Factory Studio (Abrir Azure Data Factory Studio).

Crear servicios vinculados

En esta sección, va a crear un servicio vinculado de Databricks. Este servicio vinculado contiene la información de conexión al clúster de Databricks:

Creación de un servicio vinculado de Azure Databricks

  1. En la página principal, cambie a la pestaña Administrar del panel de la izquierda.

    Captura de pantalla que muestra pestaña Administrar.

  2. Seleccione Servicios vinculados en Conexiones y, después, + Nuevo.

    Captura de pantalla que muestra la creación de una conexión.

  3. En la ventana New Linked Service (Nuevo servicio vinculado), seleccione Compute (Proceso)>Azure Databricks y, luego, seleccione Continue (Continuar).

    Captura de pantalla que muestra la especificación de un servicio vinculado de Databricks.

  4. En la ventana New Linked Service (Nuevo servicio vinculado), realice los pasos siguientes:

    1. En Name (Nombre) escriba AzureDatabricks_LinkedService.

    2. Seleccione el área de trabajo de Databricks adecuado en el que ejecutará el cuaderno.

    3. En Select cluster (Seleccionar clúster), seleccione New job cluster (Nuevo clúster de trabajo).

    4. La información de Databrick Workspace URL (Dirección URL del área de trabajo de Databricks) se debe rellenar automáticamente.

    5. En Tipo de autenticación, si selecciona Token de acceso, puede generarlo desde el área de trabajo de Azure Databricks. Puede encontrar los pasos aquí. En Identidad de servicio administrada y Identidad administrada asignada por el usuario, conceda el rol Colaborador a ambas identidades en el menú Control de acceso del recurso de Azure Databricks.

    6. En Versión de clúster, seleccione la versión que desea usar.

    7. En Cluster node type (Tipo de nodo de clúster), seleccione Standard_D3_v2 en la categoría General Purpose (HDD) (Uso general [HDD]) para los fines de este tutorial.

    8. En Workers (Trabajadores), escriba 2.

    9. Seleccione Crear.

      Captura de pantalla que muestra la configuración del nuevo servicio vinculado de Azure Databricks.

Crear una canalización

  1. Seleccione el botón + (Más) y, después, seleccione Canalización en el menú.

    Captura de pantalla que muestra los botones para crear una canalización.

  2. Cree un parámetro para su uso en la canalización. Más adelante va a pasar este parámetro a la actividad Notebook de Databricks. En la canalización vacía, haga seleccione la pestaña Parameters (Parámetros) y New (Nuevo), y asígnele el nombre de "name".

    Captura de pantalla que muestra cómo crear un parámetro.

    Captura de pantalla que muestra cómo crear el parámetro name.

  3. En el cuadro de herramientas Activities (Actividades), expanda Databricks. Arrastre la actividad Notebook del cuadro de herramientas Activities (Actividades) a la superficie del diseñador de canalizaciones.

    Captura de pantalla que muestra cómo arrastrar el cuaderno a la superficie del diseñador.

  4. En las propiedades de la ventana de actividad Notebook de Databricks de la parte inferior, realice los pasos siguientes:

    1. Cambie a la pestaña Azure Databricks.

    2. Seleccione AzureDatabricks_LinkedService (que creó en el procedimiento anterior).

    3. Cambie a la pestaña Configuración .

    4. Seleccione una ruta de acceso de cuaderno para Databricks. Vamos a crear un cuaderno y especifique aquí la ruta de acceso. Para obtener la ruta de acceso del cuaderno, siga los pasos siguientes.

      1. Inicie el área de trabajo de Azure Databricks.

      2. Cree una carpeta en el área de trabajo y llámela adftutorial.

        Captura de pantalla que muestra cómo crear una carpeta.

      3. Captura de pantalla que muestra cómo crear un cuaderno. (Python). Vamos a llamarle mynotebook, en la carpeta adftutorial. Haga clic en Crear.

        Captura de pantalla que muestra cómo crear un cuaderno.

        Captura de pantalla que muestra cómo establecer las propiedades del cuaderno nuevo.

      4. En el cuaderno "mynotebook" recién creado, agregue el código siguiente:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Captura de pantalla que muestra cómo crear widgets para los parámetros.

      5. La ruta de acceso del cuaderno en este caso es /adftutorial/mynotebook.

  5. Vuelva a la herramienta de creación de interfaz de usuario de Data Factory. Vaya a la pestaña Configuración en la actividad Notebook1.

    a. Agregue un parámetro a la actividad Notebook. Utilice el mismo parámetro que se ha agregado antes a la canalización.

    Captura de pantalla en la que se muestra cómo agregar un parámetro.

    b. Denomine input al parámetro y proporcione el valor como expresión @pipeline().parameters.name.

  6. Para comprobar la canalización, seleccione el botón Validate (Comprobar) en la barra de herramientas. Para cerrar la ventana de validación, seleccione el botón Cerrar.

    Captura de pantalla que muestra cómo validar la canalización.

  7. Seleccione Publicar todo. La interfaz de usuario de Data Factory permite publicar entidades (servicios vinculados y canalizaciones) en el servicio Azure Data Factory.

    Captura de pantalla que muestra cómo publicar las nuevas entidades de la factoría de datos.

Desencadenamiento de una ejecución de la canalización

Seleccione Agregar desencadenador en la barra de herramientas y, después, Trigger Now (Desencadenar ahora).

Captura de pantalla que muestra cómo seleccionar el comando

En el cuadro de diálogo Ejecución de canalización se solicita el parámetro name. Utilice /path/filename como parámetro aquí. Seleccione Aceptar.

Captura de pantalla que muestra cómo proporcionar un valor para los parámetros name.

Supervisión de la ejecución de la canalización

  1. Vaya a la pestaña Monitor (Supervisar). Confirme que ve una ejecución de canalización. Se tarda aproximadamente entre 5 y 8 minutos crear un clúster de trabajo de Databricks, donde se ejecuta el cuaderno.

    Captura de pantalla que muestra cómo supervisar la canalización.

  2. Seleccione Actualizar periódicamente para comprobar el estado de la ejecución de canalización.

  3. Para ver las ejecuciones de actividad asociadas a la ejecución de la canalización, seleccione el vínculo pipeline1 en la columna Nombre de canalización.

  4. En la página Ejecuciones de actividad, seleccione Salida en la columna Nombre de la actividad para ver la salida de cada actividad y puede encontrar el vínculo a los registros de Databricks en el panel Salida para obtener registros de Spark más detallados.

  5. Para volver a la vista de ejecuciones de canalización, seleccione el vínculo Todas las ejecuciones de la canalización en el menú de la ruta de navegación de la parte superior.

Comprobación del resultado

Puede iniciar sesión en el área de trabajo de Azure Databricks, ir a Clusters (Clústeres) y ver el estado del trabajo como ejecución pendiente, en ejecución o finalizado.

Captura de pantalla que muestra cómo ver el clúster de trabajo y el trabajo.

Puede hacer clic en el nombre del trabajo y desplazarse para ver más detalles. Si la ejecución se realiza correctamente, puede validar los parámetros pasados y la salida del cuaderno de Python.

Captura de pantalla que muestra cómo ver los detalles y la salida de la ejecución.

La canalización de este ejemplo desencadena una actividad Notebook de Databricks y le pasa un parámetro. Ha aprendido a:

  • Creación de una factoría de datos.

  • Creación de una canalización que utiliza la actividad Notebook de Databricks.

  • Desencadenamiento de una ejecución de la canalización

  • Supervisión de la ejecución de la canalización