Nouveautés et planifications de Data Factory dans Microsoft Fabric
Important
Les plans de mise en production décrivent les fonctionnalités susceptibles ou non d’avoir été publiées. Les délais de livraison et les fonctionnalités projetées peuvent changer ou ne pas être expédiés. Pour plus d’informations, consultez la stratégie Microsoft.
Data Factory dans Microsoft Fabric combine les fonctionnalités d’intégration des données citoyens et d’intégration de données pro en une expérience d’intégration de données moderne unique. Il fournit une connectivité à plus de 100 bases de données relationnelles et non relationnelles, lakehouses, entrepôts de données, interfaces génériques telles que les API REST, OData, etc.
Dataflows : Dataflow Gen2 vous permet d’effectuer des transformations de données à grande échelle et prend en charge différentes destinations de sortie qui écrivent dans Azure SQL Database, Lakehouse, Data Warehouse, etc. L’éditeur de flux de données offre plus de 300 transformations, notamment des options basées sur l’IA, et vous permet de transformer facilement des données avec une meilleure flexibilité que n’importe quel autre outil. Que vous extrayiez des données d’une source de données non structurée telle qu’une page web ou que vous remodeliez une table existante dans l’éditeur Power Query, vous pouvez facilement appliquer l’extraction de données de Power Query par exemple, qui utilise l’intelligence artificielle (IA) et simplifie le processus.
Pipelines de données : les pipelines de données offrent la possibilité de créer des workflows d’orchestration de données polyvalents qui rassemblent des tâches telles que l’extraction de données, le chargement dans des magasins de données préférés, l’exécution de notebooks, l’exécution de script SQL, etc. Vous pouvez rapidement créer de puissants pipelines de données pilotés par les métadonnées qui automatisent les tâches répétitives. Par exemple, le chargement et l’extraction de données à partir de différentes tables d’une base de données, l’itération via plusieurs conteneurs dans Stockage Blob Azure, etc. En outre, avec des pipelines de données, vous pouvez accéder aux données de Microsoft 365 à l’aide du connecteur Connexion aux données Microsoft Graph ion (MGDC).
Pour plus d’informations, consultez la documentation.
Domaines d’investissement
Au cours des prochains mois, Data Factory dans Microsoft Fabric étendra ses options de connectivité et continuera à s’ajouter à la riche bibliothèque de transformations et d’activités de pipeline de données. De plus, il vous permet d’effectuer une réplication de données en temps réel et hautes performances à partir de bases de données opérationnelles et d’intégrer ces données dans le lac pour l’analytique.
Prise en charge du pipeline de données pour DBT
Chronologie estimée de la publication : Q1 2024
Type de version : préversion publique
Orchestration de l’interface CLI DBT (Outil de génération de données) : incorpore l’outil de génération de données (dbt) pour les flux de travail de transformation de données.
Prise en charge de la copie rapide dans Dataflow Gen2
Chronologie estimée de la publication : Q3 2024
Type de publication : Disponibilité générale
Nous ajoutons la prise en charge de l’ingestion de données à grande échelle directement dans l’expérience Dataflow Gen2, en utilisant la fonctionnalité d’activité de copie des pipelines. Cette amélioration augmente considérablement la capacité de traitement des données de Dataflow Gen2 en fournissant des fonctionnalités ELT (Extract-Load-Transform) à grande échelle.
Gestion des identités de source de données (Identité managée)
Chronologie estimée de la publication : Q3 2024
Type de version : préversion publique
Cela permet à l’identité managée d’être configurée au niveau de l’espace de travail. Vous pouvez utiliser les identités managées Fabric pour vous connecter à votre source de données en toute sécurité.
Intégration Git de Data Factory pour les flux de données
Chronologie estimée de la publication : Q4 2024
Type de version : préversion publique
Vous pouvez vous connecter à un référentiel Git et développer vos dataflows. Cette fonctionnalité permet l’intégration avec le contrôle de version et offre des validations et des demandes de tirage.
Copilot pour Data Factory (pipeline de données)
Chronologie estimée de la publication : Q4 2024
Type de version : préversion publique
Copilot pour Data Factory (pipeline de données) permet aux clients de créer des pipelines de données à l’aide du langage naturel et fournit des conseils de dépannage.
Fonctionnalités livrées
Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données
Expédié (Q3 2024)
Type de publication : Disponibilité générale
Cette fonctionnalité permet aux pipelines de données d’utiliser des passerelles de données Fabric pour accéder aux données locales et derrière un réseau virtuel. Pour les utilisateurs qui utilisent des runtimes d’intégration auto-hébergés (SHIR), ils pourront passer à des passerelles de données locales dans Fabric.
Prise en charge de l’appel de pipelines de données inter-espaces de travail
Expédié (Q3 2024)
Type de version : préversion publique
Appeler la mise à jour de l’activité Pipelines : nous activons de nouvelles mises à jour intéressantes pour l’activité Invoke Pipeline. En réponse à des demandes client et de communauté écrasantes, nous allons activer l’exécution de pipelines de données entre les espaces de travail. Vous pourrez maintenant appeler des pipelines à partir d’autres espaces de travail auxquels vous avez accès. Cela permet des modèles de flux de travail de données très excitants qui peuvent utiliser la collaboration de vos équipes d’ingénierie et d’intégration des données entre les espaces de travail et les équipes fonctionnelles.
Azure Data Factory dans Fabric
Expédié (Q3 2024)
Type de version : préversion publique
Apportez votre azure Data Factory (ADF) existant à votre espace de travail Fabric ! Il s’agit d’une nouvelle fonctionnalité d’aperçu qui vous permet de vous connecter à vos fabriques ADF existantes à partir de votre espace de travail Fabric.
Vous serez maintenant en mesure de gérer entièrement vos fabriques ADF directement à partir de l’interface utilisateur de l’espace de travail Fabric ! Une fois que votre ADF est lié à votre espace de travail Fabric, vous pourrez déclencher, exécuter et surveiller vos pipelines comme vous le faites dans ADF, mais directement à l’intérieur de Fabric.
Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2
Expédié (Q3 2024)
Type de version : préversion publique
Nous ajoutons la prise en charge de l’actualisation incrémentielle dans Dataflow Gen2. Cette fonctionnalité vous permet d’extraire de manière incrémentielle des données à partir de sources de données, d’appliquer des transformations Power Query et de charger dans différentes destinations de sortie.
Prise en charge du pipeline de données pour les travaux Azure Databricks
Expédié (Q3 2024)
Type de version : préversion publique
Nous mettons à jour les pipelines de données Data Factory azure Databricks pour utiliser désormais l’API de travaux la plus récente qui permet des fonctionnalités de flux de travail intéressantes, comme l’exécution de travaux DLT.
Amélioration des Notifications par e-mail pour les échecs d’actualisation
Expédié (Q3 2024)
Type de version : préversion publique
Les notifications par e-mail permettent aux créateurs Dataflow Gen2 de surveiller les résultats (réussite/échec) de l’opération d’actualisation d’un dataflow.
Copier le travail
Expédié (Q3 2024)
Type de version : préversion publique
La tâche de copie simplifie l’expérience pour les clients qui doivent ingérer des données, sans avoir à créer de flux de données ou de pipeline de données. Le travail de copie prend en charge la copie complète et incrémentielle à partir de toutes les sources de données vers toutes les destinations de données. Inscrivez-vous à la préversion privée maintenant.
Copilot pour Data Factory (Dataflow)
Expédié (Q3 2024)
Type de publication : Disponibilité générale
Copilot for Data Factory (Dataflow) permet aux clients d’exprimer leurs exigences à l’aide du langage naturel lors de la création de solutions d’intégration de données avec Dataflows Gen2.
Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2
Expédié (Q2 2024)
Type de version : préversion publique
Dataflow Gen2 offre des fonctionnalités permettant d’ingérer des données à partir d’un large éventail de sources de données dans Fabric OneLake. Lors de la mise en lots de ces données, elles peuvent être transformées à grande échelle en tirant parti du moteur Dataflows Gen2 à grande échelle (basé sur le calcul SQL Fabric Lakehouse/Warehouse).
Le comportement par défaut pour Dataflows Gen2 consiste à mettre en scène des données dans OneLake afin d’activer des transformations de données à grande échelle. Bien que cela fonctionne parfaitement pour les scénarios à grande échelle, il ne fonctionne pas aussi bien pour les scénarios impliquant de petites quantités de données ingérées, étant donné qu’il introduit un tronçon supplémentaire (intermédiaire) pour les données avant qu’elles ne soient finalement chargées dans la destination de sortie du flux de données.
Avec les améliorations planifiées, nous allons ajuster le comportement intermédiaire par défaut à désactiver pour les requêtes avec une destination de sortie qui ne nécessite pas de préproduction (à savoir, Fabric Lakehouse et Azure SQL Database).
Le comportement intermédiaire peut être configuré manuellement par requête via le volet Paramètres de requête ou le menu contextuel de requête dans le volet Requêtes.
Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements
Expédié (Q2 2024)
Type de version : préversion publique
Un cas d’usage courant pour appeler des pipelines de données Data Factory consiste à déclencher le pipeline lors d’événements de fichier tels que l’arrivée du fichier et la suppression de fichiers. Pour les clients provenant d’ADF ou Synapse vers Fabric, l’utilisation d’événements de stockage ADLS/Blog est très courante comme moyen de signaler une nouvelle exécution de pipeline ou de capturer les noms des fichiers créés. Les déclencheurs dans Fabric Data Factory tirent parti des fonctionnalités de plateforme Fabric, notamment les déclencheurs EventStreams et Reflex. À l’intérieur du canevas de conception de pipeline Fabric Data Factory, vous disposez d’un bouton Déclencheur que vous pouvez appuyer pour créer un déclencheur Reflex pour votre pipeline ou créer le déclencheur directement à partir de l’expérience d’activateur de données.
Prise en charge du pipeline de données pour SparkJobDefinition
Expédié (Q2 2024)
Type de publication : Disponibilité générale
Vous pouvez maintenant exécuter votre code Spark, y compris les fichiers JAR, directement à partir d’une activité de pipeline. Pointez simplement sur votre code Spark et le pipeline exécute le travail sur votre cluster Spark dans Fabric. Cette nouvelle activité permet des modèles de flux de travail de données passionnants qui tirent parti de la puissance du moteur Spark de Fabric tout en incluant le flux de contrôle Data Factory et les fonctionnalités de flux de données dans le même pipeline que vos travaux Spark.
Prise en charge du pipeline de données pour Azure HDInsight
Expédié (Q2 2024)
Type de publication : Disponibilité générale
HDInsight est le service PaaS Azure pour Hadoop qui permet aux développeurs de créer des solutions Big Data très puissantes dans le cloud. La nouvelle activité de pipeline HDI permet aux activités de travail HDInsights à l’intérieur de vos pipelines de données Data Factory similaires à la foncationnalité existante que vous avez enhoyée depuis des années dans les pipelines ADF et Synapse. Nous avons maintenant apporté cette fonctionnalité directement dans des pipelines de données Fabric.
Nouveaux connecteurs pour l’activité de copie
Expédié (Q2 2024)
Type de version : préversion publique
De nouveaux connecteurs seront ajoutés pour activité Copy permettre au client d’ingérer à partir des sources suivantes, tout en tirant parti du pipeline de données : Oracle, MySQL, Recherche Azure AI, Azure Files, Dynamics AX, Google BigQuery.
Travail Apache Airflow : Créer des pipelines de données alimentés par Apache Airflow
Expédié (Q2 2024)
Type de version : préversion publique
Le travail Apache Airflow (précédemment appelé flux de travail de données) est alimenté par Apache Airflow et offre un environnement d’exécution Apache Airflow intégré, ce qui vous permet de créer, d’exécuter et de planifier facilement des daGs Python.
Gestion des identités de source de données (SPN)
Expédié (Q2 2024)
Type de publication : Disponibilité générale
Principal de service : pour accéder aux ressources sécurisées par un locataire Azure AD, l’entité qui requiert l’accès doit être représentée par un principal de sécurité. Vous serez en mesure de vous connecter à vos sources de données avec le principal de service.
Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)
Expédié (Q1 2024)
Type de version : préversion publique
La navigation dans les ressources Azure offre une navigation transparente pour parcourir les ressources Azure. Vous pouvez facilement naviguer dans vos abonnements Azure et vous connecter à vos sources de données via une interface utilisateur intuitive. Il vous aide à trouver et à vous connecter rapidement aux données dont vous avez besoin.
Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données
Expédié (Q1 2024)
Type de version : préversion publique
Cette fonctionnalité permet aux pipelines de données d’utiliser des passerelles de données Fabric pour accéder aux données locales et derrière un réseau virtuel. Pour les utilisateurs qui utilisent des runtimes d’intégration auto-hébergés (SHIR), ils pourront passer à des passerelles de données locales dans Fabric.
Intégration Git de Data Factory pour les pipelines de données
Expédié (Q1 2024)
Type de version : préversion publique
Vous pouvez vous connecter à votre dépôt Git pour développer des pipelines de données de manière collaborative. L’intégration de pipelines de données à la fonctionnalité gestion du cycle de vie des applications (ALM) de la plateforme Fabric permet le contrôle de version, la branchement, les validations et les demandes de tirage.
Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)
Expédié (Q1 2024)
Type de version : préversion publique
Nous améliorons les destinations de sortie dans Dataflow Gen2 avec les fonctionnalités hautement demandées suivantes :
- Possibilité de gérer les modifications de schéma de requête après la configuration d’une destination de sortie.
- Paramètres de destination par défaut pour accélérer la création de flux de données.
Pour en savoir plus, consultez les destinations de données Dataflow Gen2 et les paramètres managés
Prise en charge de la copie rapide dans Dataflow Gen2
Expédié (Q1 2024)
Type de version : préversion publique
Nous ajoutons la prise en charge de l’ingestion de données à grande échelle directement dans l’expérience Dataflow Gen2, en utilisant la fonctionnalité d’activité de copie des pipelines. Cela prend en charge les sources telles que les bases de données Azure SQL, les fichiers CSV et Parquet dans Azure Data Lake Storage et le stockage Blob.
Cette amélioration augmente considérablement la capacité de traitement des données de Dataflow Gen2 en fournissant des fonctionnalités ELT (Extract-Load-Transform) à grande échelle.
Annuler la prise en charge de l’actualisation dans Dataflow Gen2
Expédié (Q4 2023)
Type de version : préversion publique
Nous ajoutons la prise en charge de l’annulation des actualisations de Dataflow Gen2 en cours à partir de l’affichage éléments de l’espace de travail.