Partager via


Dataflow Gen2 avec prise en charge de l’intégration CI/CD et Git

Dataflow Gen2 prend désormais en charge l’intégration continue/le déploiement continu (CI/CD) et l’intégration Git. Cette fonctionnalité vous permet de créer, de modifier et de gérer des flux de données dans un référentiel Git connecté à votre espace de travail Fabric. En outre, vous pouvez utiliser la fonctionnalité des pipelines de déploiement pour automatiser le déploiement de flux de données de votre espace de travail vers d’autres espaces de travail. Cet article explique plus en détail comment utiliser Dataflow Gen2 avec l’intégration CI/CD et Git dans Fabric Data Factory.

Nouvelles fonctionnalités

Avec Dataflow Gen2 (CI/CD), vous pouvez désormais :

  • Utilisez la prise en charge de l’intégration Git pour Dataflow Gen2.
  • utiliser la fonctionnalité des pipelines de déploiement pour automatiser le déploiement de flux de données de votre espace de travail vers d’autres espaces de travail.
  • utiliser les paramètres et le planificateur Fabric pour actualiser et modifier les paramètres pour Dataflow Gen2.
  • créer votre Dataflow Gen2 directement dans un dossier d’espace de travail.
  • Utilisez les API publiques (préversion) pour créer et gérer Dataflow Gen2 avec l’intégration CI/CD et Git.

Prérequis

Pour commencer, vous devez remplir les conditions préalables suivantes :

  • Avoir un compte tenant Microsoft Fabric avec un abonnement actif. créer un compte gratuitement.
  • vérifier que vous disposez d’un espace de travail avec Microsoft Fabric activé.
  • Pour profiter de l’intégration Git, assurez-vous qu’elle est activée pour votre espace de travail. Pour en savoir plus sur l’activation de l’intégration Git, accédez à Bien démarrer avec l’intégration Git.

Créer un Dataflow Gen2 avec prise en charge CI/CD et Git

Pour créer un Dataflow Gen2 avec prise en charge CI/CD et Git, procédez comme suit :

  1. Dans l’espace de travail Fabric, sélectionnez Créer un élément, puis Dataflow Gen2.

    Capture d’écran de la fenêtre Nouvel élément avec l’élément Dataflow Gen2 mis en évidence.

  2. Donnez un nom à votre flux de données et activez l’intégration Git. Sélectionnez ensuite Créer.

    Capture d’écran de la fenêtre Nouveau Dataflow Gen2 avec le nom du flux de données défini et l’intégration Git mise en évidence et sélectionnée.

    Le flux de données est créé et vous êtes redirigé vers le canevas de création de flux de données. Vous pouvez maintenant commencer à créer votre flux de données.

  3. Lorsque vous avez terminé de développer votre flux de données, sélectionnez Enregistrer et exécuter.

  4. Une fois publié, le flux de données a un état non validé.

    Capture d’écran du Dataflow Gen2 enregistré avec l’état indiqué comme non validé.

  5. Pour valider le flux de données dans le référentiel Git, sélectionnez l’icône de contrôle de code source dans le coin supérieur droit de la vue de l’espace de travail.

    Capture d’écran du bouton Contrôle de code source.

  6. Sélectionnez toutes les modifications que vous souhaitez valider, puis sélectionnez Valider.

    Capture d’écran de la fenêtre Contrôle de code source avec le flux de données sélectionné et le bouton Valider mis en évidence.

Vous disposez maintenant d’un Dataflow Gen2 avec prise en charge CI/CD et Git. Nous vous suggérons de suivre les meilleures pratiques pour utiliser l’intégration CI/CD et Git dans Fabric décrites dans le tutoriel Scénario 2 : développer à l’aide d’un autre espace de travail.

Actualiser un Dataflow Gen2 ou planifier une actualisation

Vous pouvez actualiser un Dataflow Gen2 avec prise en charge CI/CD et Git de deux manières : manuellement ou en planifiant une actualisation. Les sections suivantes décrivent comment actualiser un Dataflow Gen2 avec prise en charge CI/CD et Git.

Actualiser maintenant

  1. Dans l’espace de travail Fabric, sélectionnez l’icône des points de suspension pour les options supplémentaires à côté du flux de données que vous souhaitez actualiser.

  2. Sélectionnez Actualiser maintenant.

    Capture d’écran du menu déroulant Options supplémentaires avec l’option Actualiser maintenant mise en évidence.

Programmer une actualisation

Si votre flux de données doit être actualisé à intervalles réguliers, vous pouvez planifier l’actualisation à l’aide du planificateur Fabric.

  1. Dans l’espace de travail Fabric, sélectionnez l’icône des options supplémentaires à côté du flux de données que vous souhaitez actualiser.

  2. Sélectionnez Planifier.

    Capture d’écran du menu déroulant des options supplémentaires avec l’option Planifier mise en évidence.

  3. Dans la page de planification, vous pouvez définir la fréquence d’actualisation et l’heure de début et l’heure de fin. Vous pouvez ensuite appliquer les modifications.

    Capture d’écran de l’écran des paramètres du flux de données avec l’onglet Planifier sélectionné et le bouton Actualiser mis en évidence.

  4. Pour démarrer l’actualisation maintenant, sélectionnez le bouton Actualiser.

Rafraîchir l’historique et les paramètres

Pour afficher l’historique d’actualisation du flux de données, vous pouvez sélectionner l’onglet Exécutions récentes dans le menu déroulant ou accéder au hub de surveillance et sélectionner le flux de données dont vous souhaitez afficher l’historique d’actualisation.

Paramètres de Dataflow Gen2 avec CI/CD

L’accès aux paramètres du nouveau Dataflow Gen2 avec prise en charge CI/CD et Git est similaire à tout autre élément Fabric. Vous pouvez accéder aux paramètres en sélectionnant l’icône des options supplémentaires en regard du flux de données et en sélectionnant les paramètres.

L’enregistrement remplace l’opération de publication

Avec dataflow Gen2 avec prise en charge CI/CD et Git, l’opération d’enregistrement remplace l’opération de publication. Cette modification signifie que lorsque vous enregistrez votre dataflow, il publie automatiquement les modifications apportées au flux de données.

L’opération de sauvegarde remplace directement le flux de données dans l’espace de travail. Si vous souhaitez ignorer les modifications, vous pouvez le faire en sélectionnant Ignorer les modifications lors de la fermeture de l’éditeur.

Vérification

Pendant l’opération d’enregistrement, nous vérifions également si le flux de données est dans un état valide. Si le flux de données n’est pas dans un état valide, un message d’erreur s’affiche dans le menu déroulant de l’affichage de l’espace de travail. Nous déterminons la validité du flux de données en exécutant une évaluation « zéro ligne » pour toutes les requêtes du dataflow.

Cette évaluation signifie que nous exécutons toutes les requêtes dans le flux de données d’une manière qui demande uniquement le schéma du résultat de la requête, sans retourner de lignes. Si une évaluation de requête échoue ou si le schéma d’une requête ne peut pas être déterminé dans les 10 minutes, nous ne pouvons pas valider et utiliser la version précédemment enregistrée du flux de données pour les actualisations.

Limitations et problèmes connus

Bien que Dataflow Gen2 avec prise en charge de CI/CD et de Git offre un ensemble puissant de fonctionnalités pour la collaboration adaptée aux entreprises, cela a nécessité de reconstruire le back-end selon l’architecture Fabric. Cela signifie que certaines fonctionnalités ne sont pas encore disponibles ou ont des limitations. Nous travaillons activement à améliorer l’expérience et nous allons mettre à jour cet article à mesure que de nouvelles fonctionnalités sont ajoutées.

  • Lorsque vous supprimez le dernier Dataflow Gen2 avec prise en charge CI/CD et Git, les artefacts intermédiaires deviennent visibles dans l’espace de travail et peuvent être supprimés par l'utilisateur en toute sécurité.
  • La vue de l’espace de travail ne s’affiche pas si une actualisation est en cours pour le flux de données.
  • Lors de la création de branche vers un autre espace de travail, une actualisation d’un Dataflow Gen2 peut échouer avec le message indiquant que le lakehouse intermédiaire n’a pas pu être trouvé. Lorsque cela se produit, créez un Flux de données Gen2 avec CI/CD et une prise en charge Git dans l’espace de travail pour déclencher la création du lakehouse intermédiaire. Après cela, tous les autres flux de données de l’espace de travail devraient recommencer à fonctionner.
  • Lorsque vous synchronisez les modifications de GIT dans l’espace de travail ou utilisez des pipelines de déploiement, vous devez ouvrir le flux de données nouveau ou mis à jour et enregistrer manuellement les modifications avec l’éditeur. Cela déclenche une action de publication en arrière-plan pour permettre l’utilisation des modifications lors de l’actualisation de votre dataflow. Vous pouvez également utiliser l'appel d'API de publication à la demande Dataflow pour automatiser l'opération de publication.
  • Le connecteur Power Automate pour dataflows ne fonctionne pas avec le nouveau Dataflow Gen2, avec prise en charge de CI/CD et Git.