Compartir a través de


Migración al trabajo de Apache Airflow en Microsoft Fabric

Nota:

El trabajo de Apache Airflow funciona con Apache Airflow.

Flujos de trabajo de datos, una funcionalidad transformadora dentro de Microsoft Fabric, vuelve a definir el enfoque para construir y administrar canalizaciones de datos. Con tecnología del entorno de ejecución de Apache Airflow, los trabajos de Apache Airflow proporcionan una plataforma integrada basada en la nube para desarrollar, programar y supervisar DAG basados en Python (Gráficos Acíclicos dirigidos). Ofrece una experiencia de software como servicio (SaaS) para el desarrollo y la administración de canalizaciones de datos mediante Apache Airflow. Esto hace que el entorno de ejecución de Apache Airflow sea fácilmente accesible, lo que permite la creación y el funcionamiento de los DAG de Airflow.

Conceptos clave del trabajo de Apache Airflow

  • Aprovisionamiento instantáneo del entorno de ejecución de Apache Airflow: Inicie un nuevo flujo de trabajo de datos y acceda inmediatamente a un entorno de ejecución de Apache Airflow para ejecutar, depurar y poner en funcionamiento sus DAG.
  • Creación versátil basada en la nube (IDE): Además de las herramientas de desarrollo existentes para crear DAG de Apache Airflow, puede usar el entorno de creación basado en la nube proporcionado por los flujos de trabajo de datos para una experiencia de creación y depuración optimizada para SaaS y nativa de nube.
  • Escalado automático dinámico: Ejecute cientos de tareas de Apache Airflow simultáneamente con nuestra característica de escalado automático, diseñada para mitigar la cola de trabajos y mejorar el rendimiento.
  • Pausa automática inteligente: Logre la rentabilidad pausando automáticamente el entorno de ejecución de Apache Airflow minutos después de la inactividad en los flujos de trabajo de datos, optimizando el uso de la capacidad, especialmente durante las fases de desarrollo en las que el entorno de ejecución continuo no es necesario.
  • Seguridad integrada mejorada: Integrado en Microsoft Fabric, el entorno de ejecución de Apache Airflow admite Microsoft Entra ID, lo que facilita las experiencias de inicio de sesión único (SSO) al interactuar con las interfaces de usuario de Apache Airflow. Además, incorpora roles de área de trabajo de Microsoft Fabric para medidas de seguridad sólidas.
  • Compatibilidad con extensiones y bibliotecas de Apache Airflow: Dado que Los flujos de trabajo de datos cuentan con la tecnología de Apache Airflow, admite todas las características, extensiones y bibliotecas de Apache Airflow, lo que ofrece una extensibilidad comparable.
  • Grupos personalizados para mayor flexibilidad: Al crear un nuevo flujo de trabajo de datos, el grupo predeterminado usado es un grupo de inicio. Este grupo está disponible al instante y está optimizado para proporcionar una experiencia en entorno de ejecución de Apache Airflow sin servidor. También se desactiva cuando no está en uso para ahorrar costos, lo que lo convierte en perfecto para escenarios de desarrollo. Si necesita más control sobre los grupos, puede crear un grupo personalizado. Este grupo permite especificar el tamaño, la configuración de autoescalado y mucho más. La configuración de los flujos de trabajo de datos para producción de esta manera permite una operación desatendida con un entorno de ejecución de Apache Airflow siempre activado, lo que admite las funcionalidades de programación de Apache Airflow. Los grupos personalizados se pueden crear mediante la configuración del área de trabajo, lo que garantiza que los flujos de trabajo se adapten a sus necesidades específicas.

Migración desde el administrador de orquestación de flujo de trabajo de Azure

Requisitos previos

Para permitir que los clientes actualicen al trabajo de Apache Airflow de Microsoft Fabric desde el Administrador de orquestación de flujos de trabajo de Azure, tenga en cuenta los dos escenarios siguientes:

Escenario 1: Está usando Blob Storage en el administrador de orquestación de flujo de trabajo de Azure.

En este escenario, nuestro enfoque recomendado es usar Visual Studio Code para una migración sencilla. Abra los archivos de flujo de trabajo en Visual Studio Code y péguelos en el almacenamiento administrado de Fabric. Este método garantiza una transición sencilla y un acceso rápido a las eficaces características de flujos de trabajo de datos.

Escenario 2: Uso del almacenamiento de Sync de Git en el administrador de orquestación de flujo de trabajo de Azure

En este escenario, use la característica de sincronización de Git del trabajo de Apache Airflow para sincronizar sin problemas el repositorio de GitHub. De forma similar al administrador de orquestación de flujo de trabajo de Azure, esta característica garantiza que el repositorio de GitHub permanezca sincronizado, lo que le permite empezar a desarrollar de forma instantánea. Para empezar, siga el tutorial: Sincronizar su repositorio de GitHub en flujos de trabajo de datos.