CI/CD pour Apache Airflow dans Data Factory dans Microsoft Fabric

Important

CI/CD dans Apache Airflow de Data Factory pour Microsoft Fabric est actuellement en préversion. Ces informations concernent un produit en version préliminaire qui peut être sensiblement modifié avant sa commercialisation. Microsoft n’offre aucune garantie, exprimée ou implicite, en ce qui concerne les informations fournies ici.

Note

Le travail Apache Airflow est alimenté par Apache Airflow.

Actuellement, les réseaux privés et les réseaux virtuels ne sont pas pris en charge avec les tâches Apache Airflow sur Fabric.

Vous pouvez utiliser le contrôle de code source, CI/CD et un espace de travail partagé avec Apache Airflow pour gérer vos flux de travail.

Microsoft Fabric comprend deux outils intégrés pour prendre en charge CI/CD : les pipelines d’intégration et de déploiement Git. Ces outils vous aident à organiser vos pipelines Airflow et vos ressources d’espace de travail.

L’intégration Git vous permet de vous connecter à vos propres dépôts dans Azure DevOps ou GitHub. Les pipelines de déploiement vous aident à déplacer des mises à jour entre les environnements, de sorte que vous mettez à jour uniquement ce qui est nécessaire. Ensemble, ils facilitent la génération, le test et le déploiement de vos flux de travail Airflow.

Intégration Git pour Airflow

Suivez ces étapes pour connecter votre flux d’air dans Data Factory à Git. Git vous aide à suivre les modifications, à travailler avec votre équipe et à sécuriser votre travail.

Conditions préalables pour l’intégration git

Étape 1 : Se connecter à un référentiel Git

Pour utiliser l’intégration git à Airflow dans Fabric, vous devez d’abord vous connecter à un dépôt Git :

  1. Connectez-vous à Fabric et accédez à l’espace de travail que vous souhaitez connecter à Git.

  2. Sélectionnez Paramètres de l’espace de travail.

    Capture d’écran montrant où sélectionner les paramètres de l’espace de travail dans l’interface utilisateur Fabric.

  3. Sélectionnez Intégration Git.

  4. Choisissez votre fournisseur Git ( Azure DevOps ou GitHub). Si vous choisissez GitHub, sélectionnez Ajouter un compte pour connecter votre compte GitHub. Une fois connecté, sélectionnez Se connecter afin que Fabric puisse accéder à votre compte GitHub.

    Capture d’écran montrant où ajouter un compte GitHub pour une intégration Git d’espace de travail Fabric.

Étape 2 : Se connecter à un espace de travail

Une fois que vous êtes connecté à un dépôt Git, vous devez vous connecter à votre espace de travail.

  1. Dans le menu déroulant, renseignez les détails sur l’espace de travail et la branche que vous souhaitez utiliser :

    • Pour Azure DevOps :

      • Nom de l’organisation
      • Nom du projet
      • Nom du référentiel
      • Nom de la branche
      • Nom du dossier
    • Pour GitHub :

      • URL du référentiel
      • Nom de la branche
      • Nom du dossier
  2. Sélectionnez Se connecter et synchroniser.

  3. Après la connexion, sélectionnez Contrôle de code source pour obtenir des informations sur la branche liée, l’état de chaque élément et le moment où il a été synchronisé pour la dernière fois.

Étape 3 : Valider les modifications apportées à Git

Vous pouvez valider vos modifications sur Git en procédant comme suit :

  1. Accédez à votre zone de travail.
  2. Sélectionnez l’icône de contrôle de code source . Vous voyez un nombre indiquant le nombre de modifications qui ne sont pas encore validées.
  3. Dans le panneau de configuration source , sélectionnez l’onglet Modifications . Vous voyez une liste de tous les éléments que vous avez modifiés, ainsi que des icônes d’état.
  4. Choisissez les éléments que vous souhaitez valider. Pour tout sélectionner, cochez la case en haut.
  5. (Facultatif) Ajoutez un commentaire de validation sur vos modifications.
  6. Sélectionnez Valider.

Une fois que vous avez validé, ces éléments disparaissent de la liste et votre espace de travail pointe vers le commit le plus récent.

Pipelines de déploiement

Procédez comme suit pour utiliser les pipelines de déploiement avec votre espace de travail Fabric :

  1. Conditions préalables
  2. Créer un pipeline de déploiement
  3. Affecter un espace de travail au pipeline de déploiement
  4. Déployer sur un environnement vide
  5. Déployer du contenu d’une étape vers un autre

Conditions préalables pour les pipelines de déploiement

Avant de commencer, veillez à configurer les conditions préalables suivantes :

Étape 1 : Créer un pipeline de déploiement

  1. Dans le menu Espaces de travail , sélectionnez Pipelines de déploiement.
  2. Lorsque la fenêtre Créer un pipeline de déploiement s’ouvre, entrez un nom et une description pour votre pipeline, puis sélectionnez Suivant.
  3. Choisissez le nombre d’étapes souhaitées dans votre pipeline. Par défaut, trois étapes s’affichent : développement, test et production.

Étape 2 : Affecter un espace de travail au pipeline de déploiement

Après avoir créé un pipeline de déploiement, vous devez ajouter du contenu que vous souhaitez gérer au pipeline de déploiement. L’ajout de contenu au pipeline de déploiement est effectué en affectant un espace de travail à n’importe quelle étape de pipeline de déploiement :

  1. Ouvrez le pipeline de déploiement.

  2. Dans la phase à laquelle vous souhaitez affecter un espace de travail, développez la liste déroulante Intitulée Ajouter du contenu à cette étape.

  3. Sélectionnez l’espace de travail que vous souhaitez affecter à cette étape.

    Une capture d’écran montrant la liste déroulante pour l'assignation d'un espace de travail dans une étape vide des pipelines de déploiement dans la nouvelle interface utilisateur.

  4. Sélectionnez Affecter.

Étape 3 : Déployer sur une étape vide

Lorsque vous êtes prêt à déplacer votre contenu d’une étape de pipeline à l’autre, vous pouvez le déployer à l’aide de l’une des options suivantes :

  • Déploiement complet : sélectionnez cette option pour déployer tout ce qui se trouve à l’étape actuelle à la phase suivante.
  • Déploiement sélectif : choisissez uniquement les éléments que vous souhaitez déployer.
  • Déploiement vers l’arrière : déplacez le contenu d’une étape ultérieure vers une étape antérieure. Vous ne pouvez le faire que si l’étape cible est vide (aucun espace de travail n’est affecté).

Après avoir choisi votre option de déploiement, vous pouvez consulter les détails et laisser une note sur le déploiement si vous le souhaitez.

Étape 4 : Déployer du contenu d’une étape vers une autre

  1. Une fois que vous avez du contenu dans une phase de pipeline, vous pouvez le déployer à la phase suivante, même si l’espace de travail de l’étape suivante contient du contenu. Les éléments jumelés sont remplacés. Vous pouvez en savoir plus sur ce processus, dans l’article Déployer du contenu sur un espace de travail existant
  2. Vous pouvez également consulter l’historique du déploiement pour voir la dernière fois que le contenu a été déployé à chaque étape. Pour examiner les différences entre les deux pipelines avant de déployer, consultez Comparer le contenu dans différentes phases de déploiement.

Limitations connues

Voici quelques-unes des limitations actuelles lors de l’utilisation de CI/CD pour Airflow dans Data Factory dans Microsoft Fabric.

  • L'intégration Git ne prend pas en charge la synchronisation Git d'Airflow (l'exportation avec la synchronisation Git n'exporte pas ses propriétés. Si vous importez vers un élément avec la synchronisation Git activée, la synchronisation Git sera désactivée)
  • Les secrets ne sont pas pris en charge. (L’exportation avec des secrets n’exporte pas les propriétés Git Sync. Si vous importez sur un élément avec des secrets existants, ils ne seront pas supprimés).
  • L’importation/la création d’un pool personnalisé avec des fichiers dans la même opération n’est actuellement pas prise en charge.
  • Limitation souple : nous prenons en charge jusqu’à 50 DAG pour l’instant. Les opérations ALM peuvent échouer si vous avez plus de 50 DAGs.