¿Cómo funciona el Administrador de orquestación de flujo de trabajo de Azure Data Factory?

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!

Nota:

El Administrador de orquestación de flujo de trabajo cuenta con la tecnología de Apache Airflow.

Nota:

El Administrador de orquestación de flujo de trabajo para Azure Data Factory se basa en la aplicación Apache Airflow de código abierto. Puede encontrar documentación y más tutoriales para Airflow en las páginas de documentación o la comunidad de Apache Airflow.

El Administrador de orquestación de flujo de trabajo en Azure Data Factory usa grafos acíclicos dirigidos (DAG) basados en Python para ejecutar los flujos de trabajo de orquestación. Para usar esta característica, debe proporcionar sus DAG y complementos en Azure Blob Storage. Para administrar los DAG, puede lanzar la interfaz de usuario de Airflow desde ADF mediante una interfaz de línea de comandos (CLI) o un kit de desarrollo de software (SDK).

Creación de un entorno del Administrador de orquestación de flujo de trabajo

En los pasos siguientes se configura el entorno del Administrador de orquestación de flujo de trabajo.

Requisitos previos

Suscripción de Azure: si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar. Crea o selecciona una instancia de Data Factory existente en la región donde se admita la versión preliminar del Administrador de orquestación de flujo de trabajo.

Pasos para crear el entorno

  1. Crea un entorno del Administrador de orquestación de flujo de trabajo. Vaya a Administrar centro ->Airflow (versión preliminar) ->+Nuevo para crear un entorno de Airflow.

    Captura de pantalla en la que se muestra cómo crear un entorno de Airflow administrado para Apache.

  2. Proporcione los detalles (configuración de Airflow).

    Captura de pantalla que muestra información del entorno del Administrador de orquestación de flujo de trabajo.

    Importante

    Al usar la autenticación Básica, recuerde el nombre de usuario y la contraseña especificados en esta pantalla. Será necesario iniciar sesión más adelante en la interfaz de usuario del Administrador de orquestación de flujo de trabajo. La opción predeterminada es Microsoft Entra ID y no requiere la creación de un nombre de usuario o contraseña para el entorno de Airflow, sino que usa las credenciales del usuario que ha iniciado sesión en Azure Data Factory para iniciar sesión o supervisar DAG.

  3. Las variables de entorno son un almacén de pares clave-valor simple en Airflow para almacenar y recuperar contenido o configuración arbitrarios.

  4. Los requisitos se pueden usar para instalar previamente las bibliotecas de Python. También puede actualizarlas más adelante.

Importación de DAG

En los pasos siguientes se describe cómo importar DAG en el Administrador de orquestación de flujo de trabajo.

Requisitos previos

Deberá cargar un DAG de ejemplo en una cuenta de almacenamiento accesible (debe estar en la carpeta dags).

Nota:

Durante la versión preliminar no se admite Blob Storage detrás de la red virtual.
No se admite la configuración de KeyVault en storageLinkedServices para importar dags.

Ejemplo de DAG de Airflow de Apache v2.x. Ejemplo de DAG de Airflow de Apache v1.10.

Pasos para importar

  1. Copie y pegue el contenido (v2.x o v1.10 en función del entorno de Airflow que haya configurado) en un nuevo archivo denominado tutorial.py.

    Cargue el archivo tutorial.py en un almacenamiento de blobs. (Procedimientos para cargar un archivo en un blob)

    Nota:

    Tendrá que seleccionar una ruta de acceso de directorio de una cuenta de Blob Storage que contenga carpetas denominadas dags y plugins para importarlos en el entorno de Airflow. Los complementos no son obligatorios. También puede tener un contenedor denominado dags y cargar todos los archivos de Airflow en él.

  2. Seleccione Airflow (versión preliminar) en Administrar centro. Después, mantenga el puntero sobre el entorno de Airflow creado anteriormente y seleccione Importar archivos para importar todos los DAG y dependencias en el entorno de Airflow.

    Captura de pantalla en la que se muestra la importación de archivos en la administración del centro.

  3. Cree un servicio vinculado a la cuenta de almacenamiento accesible mencionada en el requisito previo (o use uno existente si ya tiene sus propios DAG).

    Captura de pantalla en la que se muestra cómo crear un servicio vinculado.

  4. Use la cuenta de almacenamiento donde cargó el DAG (compruebe los requisitos previos). Pruebe la conexión y, después, seleccione Crear.

    Captura de pantalla en la que se muestran algunos detalles del servicio vinculado.

  5. Examine y seleccione Airflow si usa la dirección URL de SAS de ejemplo o seleccione la carpeta que contiene la carpeta dags con archivos DAG.

    Nota:

    Puede importar DAG y sus dependencias mediante esta interfaz. Tendrá que seleccionar una ruta de acceso de directorio de una cuenta de Blob Storage que contenga carpetas denominadas dags y plugins para importarlos en el entorno de Airflow. Los complementos no son obligatorios.

    Captura de pantalla en la que se muestra la navegación del almacenamiento en los archivos de importación.

    Captura de pantalla en la que se muestra la navegación en Airflow.

    Captura de pantalla en la que se muestra la importación en archivos de importación.

    Captura de pantalla en la que se muestra la importación de DAG.

Nota:

La importación de DAG puede tardar un par de minutos durante la versión preliminar. El centro de notificaciones (icono de campana en la interfaz de usuario de ADF) se puede usar para realizar un seguimiento de las actualizaciones del estado de la importación.

Solución de problemas de importación de DAG

  • Problema: la importación de DAG tarda más de 5 minutos. Mitigación: reduzca el tamaño de los DAG importados con una sola importación. Una manera de lograrlo es creando varias carpetas DAG con menos DAG en cada una en varios contenedores.

  • Problema: los DAG importados no aparecen al iniciar sesión en la interfaz de usuario de Airflow. Mitigación: inicie sesión en la interfaz de usuario de Airflow y compruebe si hay errores de análisis de DAG. Esto podría ocurrir si los archivos DAG contienen código incompatible. Encontrará los números de línea exactos y los archivos que tienen el problema mediante la interfaz de usuario de Airflow.

    Captura de pantalla en la que se muestra la importación de problemas de DAG.

Supervisión de ejecuciones de DAG

Para supervisar los DAG de Airflow, inicie sesión en la interfaz de usuario de Airflow con el nombre de usuario y la contraseña creados anteriormente.

  1. Seleccione en el entorno de Airflow creado.

    Captura de pantalla en la que se muestra el entorno de Airflow creado.

  2. Inicie sesión con el nombre de usuario y la contraseña proporcionados durante la creación del entorno de ejecución de integración de Airflow. (Puede restablecer el nombre de usuario o la contraseña editando el entorno de ejecución de integración de Airflow si es necesario).

    Captura de pantalla en la que se muestra el inicio de sesión con el nombre de usuario y la contraseña proporcionados durante la creación del entorno de ejecución de integración de Airflow.

Eliminación de DAG del entorno de Airflow

Si usa la versión 1.x de Airflow, elimine los DAG que se implementan en cualquier entorno de Airflow (IR); deberá eliminar los DAG en dos lugares diferentes.

  1. Eliminar el DAG de la interfaz de usuario de Airflow
  2. Eliminar el DAG en la interfaz de usuario de ADF

Nota:

Esta es la experiencia actual durante la Versión preliminar pública y seguiremos mejorándola.