¿Qué es el Administrador de orquestación de flujo de trabajo?

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!

Nota:

El Administrador de orquestación de flujo de trabajo cuenta con la tecnología de Apache Airflow.

Nota:

Esta característica está en versión preliminar pública. Para preguntas o sugerencias de características, envíe un correo electrónico a ManagedAirflow@microsoft.com con los detalles.

Nota:

El Administrador de orquestación de flujo de trabajo para Azure Data Factory se basa en la aplicación Apache Airflow de código abierto. Puede encontrar documentación y más tutoriales para Airflow en las páginas de documentación o la comunidad de Apache Airflow.

Azure Data Factory ofrece canalizaciones sin servidor para la orquestación de procesos de datos, el movimiento de datos con más de 100 conectores administrados y transformaciones visuales con el flujo de datos de asignación.

El servicio de administrador de orquestación de flujo de trabajo de Azure Data Factory es una manera sencilla y eficaz de crear y administrar entornos de Apache Airflow, lo que le permite ejecutar canalizaciones de datos a gran escala con facilidad. Apache Airflow es una plataforma de código abierto que se usa para crear, programar y supervisar flujos de trabajo de datos complejos mediante programación. Permite definir un conjunto de tareas, denominadas operadores, que se pueden combinar en grafos acíclicos dirigidos (DAG) para representar canalizaciones de datos. Airflow permite ejecutar estos DAG según una programación o en respuesta a un evento, supervisar el progreso de los flujos de trabajo y proporcionar visibilidad sobre el estado de cada tarea. Se usa ampliamente en la ingeniería de datos y la ciencia de datos para organizar canalizaciones de datos, y se conoce por su flexibilidad, extensibilidad y facilidad de uso.

Captura de pantalla en la que se muestra la integración de datos.

¿Cuándo usar el administrador de orquestación de flujo de trabajo?

Azure Data Factory ofrece canalizaciones para orquestar visualmente los procesos de datos (creación basada en la interfaz de usuario). El administrador de orquestación de flujo de trabajo ofrece DAG de Python basados en Airflow (creación centrada en código de Python) para definir el proceso de orquestación de datos. Si tiene el proceso de fondo de Airflow, o actualmente utiliza Apache Airflow, es posible que prefiera usar el administrador de orquestación de flujo de trabajo en lugar de las canalizaciones. Por el contrario, si no quiere escribir ni administrar DAG basados en Python para la orquestación de procesos de datos, es posible que prefiera usar canalizaciones.

Con el administrador de orquestación de flujo de trabajo, Azure Data Factory ahora ofrece funcionalidades de orquestación múltiple que abarcan los requisitos de orquestación visuales, centrados en código y de orquestación de software de código abierto.

Características

El administrador de orquestación de flujo de trabajo en Azure Data Factory ofrece una variedad de características eficaces, entre las que se incluyen:

  • Implementación rápida y sencilla: para configurar rápida y fácilmente Apache Airflow, seleccione una versión de Apache Airflow al crear una instancia del administrador de orquestación de flujo de trabajo.
  • Escala de nube: el administrador de orquestación de flujo de trabajo escala automáticamente los nodos de Apache Airflow cuando sea necesario en función de la especificación del intervalo (mínimo, máximo).
  • Integración de Microsoft Entra: puede habilitar RBAC Microsoft Entra en su entorno de Airflow para obtener una experiencia de inicio de sesión único protegida por Microsoft Entra ID.
  • Cifrado de metadatos: el administrador de orquestación de flujo de trabajo cifra automáticamente los metadatos mediante claves administradas por Azure para asegurarse de que el entorno es seguro de manera predeterminada. Además, admite el cifrado doble con una clave administrada por el cliente (CMK).
  • Supervisión y alertas de Azure: todos los registros generados por el administrador de orquestación de flujo de trabajo se exportan a Azure Monitor. También proporciona métricas para realizar un seguimiento de las condiciones críticas y ayudarle a notificar si es necesario.

Architecture

Captura de pantalla que muestra la arquitectura en el administrador de orquestaciones de flujo de trabajo.

Disponibilidad de regiones (versión preliminar pública)

  • Este de EE. UU.
  • Centro Sur de EE. UU.
  • Oeste de EE. UU.
  • Sur de Brasil
  • Sur de Reino Unido
  • Norte de Europa
  • Oeste de Europa
  • Sudeste de Asia

Nota:

Por disponibilidad general, se admitirán todas las regiones de ADF. De manera predeterminada, la región del entorno de Airflow es la de Data Factory y no se puede configurar, por lo que debe asegurarse de usar una instancia de Data Factory en la región admitida anterior para poder acceder a la versión preliminar del administrador de orquestación de flujo de trabajo.

Versiones compatibles de Apache Airflow

  • 2.6.3

Nota:

No se admite el cambio de la versión de Airflow dentro de un entorno de ejecución de integración existente. En su lugar, la solución recomendada es crear una nueva instancia de IR de Airflow con la versión deseada

Integraciones

Apache Airflow se integra con los servicios de Microsoft Azure mediante el proveedor microsoft.azure.

Puede instalar cualquier paquete de proveedor si edita el entorno de Airflow desde la interfaz de usuario de Azure Data Factory. La instalación del paquete tarda un par de minutos.

Captura de pantalla en la que se muestra la integración de Airflow.

Limitaciones

  • El administrador de orquestaciones de flujo de trabajo en otras regiones está disponible por disponibilidad general.
  • Los orígenes de datos que se conectan a través de Airflow deben ser accesibles mediante el punto de conexión público (red).
  • Actualmente no se admiten los DAG que están dentro de una instancia de Blob Storage en una red virtual o detrás de un firewall. En su lugar, se recomienda usar la característica de sincronización de Git del administrador de orquestación de flujo de trabajo. Consulte Sincronizar un repositorio de GitHub en el Administrador de orquestación de flujo de trabajo
  • La importación de DAG desde Azure Key Vault no se admite en LinkedServices.