Nouveautés et planifications de Data Factory dans Microsoft Fabric

Article
11/20/2024

Important

Les plans de mise en production décrivent les fonctionnalités susceptibles ou non d’avoir été publiées. Les délais de livraison et les fonctionnalités projetées peuvent changer ou ne pas être expédiés. Pour plus d’informations, consultez la stratégie Microsoft.

Data Factory dans Microsoft Fabric combine les fonctionnalités d’intégration des données citoyens et d’intégration de données pro en une expérience d’intégration de données moderne unique. Il fournit une connectivité à plus de 100 bases de données relationnelles et non relationnelles, lakehouses, entrepôts de données, interfaces génériques telles que les API REST, OData, etc.

Dataflows : Dataflow Gen2 vous permet d’effectuer des transformations de données à grande échelle et prend en charge différentes destinations de sortie qui écrivent dans Azure SQL Database, Lakehouse, Data Warehouse, etc. L’éditeur de flux de données offre plus de 300 transformations, notamment des options basées sur l’IA, et vous permet de transformer facilement des données avec une meilleure flexibilité que n’importe quel autre outil. Que vous extrayiez des données d’une source de données non structurée telle qu’une page web ou que vous remodeliez une table existante dans l’éditeur Power Query, vous pouvez facilement appliquer l’extraction de données de Power Query par exemple, qui utilise l’intelligence artificielle (IA) et simplifie le processus.

Pipelines de données : les pipelines de données offrent la possibilité de créer des workflows d’orchestration de données polyvalents qui rassemblent des tâches telles que l’extraction de données, le chargement dans des magasins de données préférés, l’exécution de notebooks, l’exécution de script SQL, etc. Vous pouvez rapidement créer de puissants pipelines de données pilotés par les métadonnées qui automatisent les tâches répétitives. Par exemple, le chargement et l’extraction de données à partir de différentes tables d’une base de données, l’itération via plusieurs conteneurs dans Stockage Blob Azure, etc. En outre, avec des pipelines de données, vous pouvez accéder aux données de Microsoft 365 à l’aide du connecteur Connexion aux données Microsoft Graph ion (MGDC).

Travail de copie : le travail de copie simplifie l’expérience d’ingestion des données avec un processus simplifié et convivial, en déplaçant les données à l’échelle pétaoctet de n’importe quelle source vers n’importe quelle destination. Vous pouvez copier des données avec différents styles de remise de données, notamment la copie par lots, la copie incrémentielle et bien plus encore.

Travail Apache Airflow : le travail Apache Airflow est la prochaine génération du Gestionnaire d’orchestration de flux de travail d’Azure Data Factory. Il s’agit d’un moyen simple et efficace de créer et de gérer des travaux d’orchestration Apache Airflow, ce qui vous permet d’exécuter des graphiques Acycliques dirigés (DAGs) à grande échelle avec facilité. Le travail Apache Airflow vous permet d’utiliser une expérience d’intégration de données moderne pour ingérer, préparer, transformer et orchestrer des données à partir d’un ensemble complet de sources de données à l’aide du code.

Mise en miroir de bases de données : la mise en miroir de bases de données dans Fabric est une solution à faible latence, conçue avec des normes ouvertes (par exemple, format de table Delta Lake). Il vous permet de répliquer rapidement des données et des métadonnées à partir de différents systèmes. À l’aide de la mise en miroir de bases de données, vous pouvez répliquer en continu votre patrimoine de données dans Microsoft Fabric OneLake pour l’analytique. Grâce à une expérience hautement intégrée et facile à utiliser, vous pouvez désormais simplifier la façon dont vous pouvez commencer à utiliser vos besoins d’analytique.

Pour plus d’informations, consultez la documentation.

Domaines d’investissement

Au cours des prochains mois, Data Factory dans Microsoft Fabric étendra ses options de connectivité et continuera à s’ajouter à la riche bibliothèque de transformations et d’activités de pipeline de données. De plus, il vous permet d’effectuer une réplication de données en temps réel et hautes performances à partir de bases de données opérationnelles et d’intégrer ces données dans le lac pour l’analytique.

Fonctionnalité	Chronologie estimée des mises en production
Prise en charge des API CI/CD/CD et Public Dataflow Gen2	T4 2024
Tables et partitions d’actualisation du modèle sémantique	T4 2024
Importation et exportation du pipeline Fabric Data Factory	T4 2024
Copilot pour Data Factory (pipeline de données)	T4 2024
Mise en miroir pour Azure SQL DB	T4 2024
Ouvrir la mise en miroir	T4 2024
Prise en charge du SPN des API publiques des pipelines de données	T4 2024
Prise en charge du pipeline de données pour les variables d’espace de travail Fabric	T4 2024
Mise à jour automatique de la passerelle de données locale	Q1 2025
Prise en charge du pipeline de données pour les passerelles de réseau virtuel	Q1 2025
Destination de sortie Dataflow Gen2 vers des fichiers SharePoint	Q1 2025
Prise en charge du pipeline de données pour les déclencheurs de fenêtre bascule	Q1 2025
Élément Azure Data Factory	Q1 2025
Prise en charge de l’activité de copie de pipeline de données pour d’autres sources	Q1 2025
Exécution parallélisée dataflows Gen 2	Q1 2025
Gestion des identités de source de données (Azure Key Vault)	Q1 2025
Mise en miroir pour CosmosDB	Q1 2025
Prise en charge des API CI/CD/CD et Public Dataflow Gen2	Q1 2025
Prise en charge du SPN des API publiques Dataflow Gen2	Q1 2025
Actualisation incrémentielle Dataflow Gen2	Q1 2025
Prise en charge de l’actualisation incrémentielle Dataflow Gen2 pour la destination Lakehouse	Q1 2025
Paramétrage de Dataflow Gen2	Q1 2025
Prise en charge de Dataflow Gen2 pour enregistrer sous un nouvel élément	Q1 2025
Prise en charge de Dataflow Gen1 pour le nouvel élément Save As Dataflow Gen2	Q1 2025
Copier le travail - Copie incrémentielle sans que les utilisateurs doivent spécifier des colonnes de filigrane	Q1 2025
Copier le travail	Q1 2025
Copie de la prise en charge ci/CD du travail	Q1 2025
Prise en charge des API publiques de copie des travaux	Q1 2025
Prise en charge de Dataflow Gen2 pour d’autres sources de copie rapide	Q1 2025
Prise en charge des travaux de copie pour d’autres sources	Q1 2025
Prise en charge des pipelines de données pour les déclencheurs d’événements de stockage OneLake	Q1 2025
Permettre aux clients de paramétrer leurs connexions	Q1 2025
Prise en charge du pipeline de données pour DBT	Q1 2025
Prise en charge des identités managées affectées par l’utilisateur dans Connexions	Q2 2025
Azure Data Factory dans Fabric	Expédié (Q3 2024)
Prise en charge de l’appel de pipelines de données inter-espaces de travail	Expédié (Q3 2024)
Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données	Expédié (Q3 2024)
Copier le travail	Expédié (Q3 2024)
Mise en miroir pour Snowflake	Expédié (Q3 2024)
Amélioration des Notifications par e-mail pour les échecs d’actualisation	Expédié (Q3 2024)
Prise en charge de la copie rapide dans Dataflow Gen2	Expédié (Q3 2024)
Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2	Expédié (Q3 2024)
Gestion des identités de source de données (Identité managée)	Expédié (Q3 2024)
Prise en charge du pipeline de données pour les travaux Azure Databricks	Expédié (Q3 2024)
Copilot pour Data Factory (Dataflow)	Expédié (Q3 2024)
Prise en charge du pipeline de données pour SparkJobDefinition	Expédié (Q2 2024)
Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements	Expédié (Q2 2024)
Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2	Expédié (Q2 2024)
Prise en charge du pipeline de données pour Azure HDInsight	Expédié (Q2 2024)
Nouveaux connecteurs pour l’activité de copie	Expédié (Q2 2024)
Travail Apache Airflow : Créer des pipelines de données alimentés par Apache Airflow	Expédié (Q2 2024)
Gestion des identités de source de données (SPN)	Expédié (Q2 2024)
Intégration Git de Data Factory pour les pipelines de données	Expédié (Q1 2024)
Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)	Expédié (Q1 2024)
Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)	Expédié (Q1 2024)
Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données	Expédié (Q1 2024)
Prise en charge de la copie rapide dans Dataflow Gen2	Expédié (Q1 2024)
Annuler la prise en charge de l’actualisation dans Dataflow Gen2	Expédié (Q4 2023)

Prise en charge des API CI/CD/CD et Public Dataflow Gen2

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Les fonctionnalités Dataflow Gen2 seront améliorées pour prendre en charge les fonctionnalités suivantes dans Fabric, notamment :

Possibilité d’inclure des éléments Dataflow Gen2 dans des pipelines de déploiement ALM.
Pouvoir tirer parti des éléments Dataflow Gen2 avec des fonctionnalités de contrôle de code source (intégration Git).
API CRUDLE publiques pour les éléments Dataflow Gen2.

Ces fonctionnalités sont fortement demandées par de nombreux clients, et nous sommes ravis de les rendre disponibles en tant que fonctionnalité en préversion.

Tables et partitions d’actualisation du modèle sémantique

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Les utilisateurs de pipeline sont très heureux de notre activité de pipeline d’actualisation du modèle sémantique très populaire. Une demande courante a été d’améliorer leur pipeline de traitement ELT en actualisant des tables et des partitions spécifiques dans leurs modèles. Nous avons maintenant activé cette fonctionnalité pour rendre l’activité de pipeline la façon la plus efficace d’actualiser vos modèles sémantiques Fabric !

Importation et exportation du pipeline Fabric Data Factory

Chronologie estimée de la publication : Q4 2024

Type de publication : Disponibilité générale

En tant que développeur de pipelines Data Factory, vous souhaiterez souvent exporter votre définition de pipeline pour la partager avec d’autres développeurs ou pour la réutiliser dans d’autres espaces de travail. Nous avons maintenant ajouté la possibilité d’exporter et d’importer vos pipelines Data Factory à partir de votre espace de travail Fabric. Cette fonctionnalité puissante permet encore plus de collaboration et sera inestimable lors de la résolution des problèmes de vos pipelines avec nos équipes de support.

Copilot pour Data Factory (pipeline de données)

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Copilot pour Data Factory (pipeline de données) permet aux clients de créer des pipelines de données à l’aide du langage naturel et fournit des conseils de dépannage.

Mise en miroir pour Azure SQL DB

Chronologie estimée de la publication : Q4 2024

Type de publication : Disponibilité générale

La mise en miroir offre une expérience sans ETL transparente pour intégrer vos données Azure SQL DB existantes avec le reste de vos données dans Microsoft Fabric. Vous pouvez répliquer en continu vos données Azure SQL DB directement dans Fabric OneLake en quasi temps réel, sans aucun effet sur les performances de vos charges de travail transactionnelles.

En savoir plus sur la mise en miroir dans Microsoft Fabric

Ouvrir la mise en miroir

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Open Mirroring est une fonctionnalité puissante qui améliore l’extensibilité de Fabric en permettant à n’importe quel fournisseur d’applications ou de données d’apporter directement son patrimoine de données dans OneLake avec un effort minimal. En permettant aux fournisseurs de données et aux applications d’écrire des données modifiées directement dans une base de données mise en miroir dans Fabric, Open Mirroring simplifie la gestion des modifications de données complexes, ce qui garantit que toutes les données mises en miroir sont constamment à jour et prêtes à être analysées.

Prise en charge du SPN des API publiques des pipelines de données

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Pour rendre l’utilisation des API REST de pipeline dans Fabric beaucoup plus facile et plus sécurisée, nous allons activer la prise en charge du SPN (principal de service) pour les API publiques.

Prise en charge du pipeline de données pour les variables d’espace de travail Fabric

Chronologie estimée de la publication : Q4 2024

Type de version : préversion publique

Lors de l’implémentation de CICD dans vos environnements de pipeline Fabric Data Factory, il est très important de mettre à jour les valeurs du développement au test vers la production, etc. En utilisant des variables à l’intérieur de Fabric, vous pouvez remplacer les valeurs entre les environnements et partager des valeurs entre des pipelines similaires aux paramètres globaux d’ADF.

Mise à jour automatique de la passerelle de données locale

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

La fonctionnalité de mise à niveau automatique de la passerelle de données locale garantit que la passerelle exécute toujours la dernière version, fournissant des fonctionnalités améliorées, des mises à jour de sécurité et de nouvelles fonctionnalités sans intervention manuelle. Cette fonctionnalité simplifie la gestion de la passerelle en téléchargeant et en installant automatiquement les mises à jour dès qu’elles deviennent disponibles.

Prise en charge du pipeline de données pour les passerelles de réseau virtuel

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

La passerelle de données de réseau virtuel prend en charge le pipeline de données Fabric, notamment l’activité de copie de pipeline et d’autres activités de pipeline. Les clients pourront se connecter en toute sécurité à leurs sources de données dans le pipeline via la passerelle de données de réseau virtuel.

Destination de sortie Dataflow Gen2 vers des fichiers SharePoint

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Après avoir nettoyé et préparé des données avec Dataflow Gen 2, cette fonctionnalité permet de sélectionner des fichiers SharePoint comme destination de données. Cette fonctionnalité permet d’exporter facilement des données transformées dans un fichier CSV et de les stocker dans Microsoft SharePoint pour qu’elles soient mises à la disposition de tous les utilisateurs autorisés à accéder au site.

Prise en charge du pipeline de données pour les déclencheurs de fenêtre bascule

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

La planification des exécutions de pipelines à l’aide de fenêtres de temps qui ne se chevauchent pas et qui peuvent être « relecturées » est une fonctionnalité très importante dans les pipelines que de nombreux utilisateurs ADF ont apprécié d’utiliser. Nous sommes très heureux d’apporter cette fonctionnalité de fenêtre bascule à la planification de pipeline dans Fabric Data Factory.

Élément Azure Data Factory

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

Nous sommes très heureux d’annoncer la disponibilité générale de l’élément Azure Data Factory dans Fabric. Avec cette nouvelle fonctionnalité, les utilisateurs ADF existants peuvent rapidement et facilement rendre leurs fabriques de données à partir d’Azure disponibles pour leur espace de travail Fabric. Vous pouvez maintenant gérer, modifier et appeler vos pipelines ADF directement à partir de Fabric !

Prise en charge de l’activité de copie de pipeline de données pour d’autres sources

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

Nous développons la prise en charge d’autres connecteurs sources dans activité Copy, ce qui permet aux clients de copier en toute transparence des données à partir d’un large éventail de sources, notamment Teradata, Spark, Azure databricks delta lake, HubSpot, Cassandra, Salesforce Service Cloud, Oracle (groupé) et bien plus encore.

Exécution parallélisée dataflows Gen 2

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

« Les utilisateurs souhaitent un moyen flexible de définir la logique de leurs transformations Dataflow Gen2 et de paralléliser l’exécution avec différents arguments. Aujourd’hui, ils doivent créer plusieurs dataflows ou plusieurs requêtes au sein de leur flux de données unique afin d’avoir une logique qui peut être réutilisée avec différents arguments.

Dans le cadre de cette amélioration, nous allons permettre aux utilisateurs de définir une boucle « foreach » pour l’ensemble de leur élément de flux de données piloté par une requête autonome qui agit comme la liste des valeurs de paramètres à itérer et à piloter cette approche conteneurisée pour l’exécution parallélisée et dynamique.

Gestion des identités de source de données (Azure Key Vault)

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Prise en charge d’Azure Key Vault : vous pouvez stocker vos clés et secrets dans Azure Key Vault et vous y connecter. De cette façon, vous pouvez gérer vos clés à un seul endroit.

Mise en miroir pour CosmosDB

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

La mise en miroir offre une expérience sans ETL transparente pour intégrer vos données Azure Cosmos DB existantes avec le reste de vos données dans Microsoft Fabric. Vous pouvez répliquer en continu vos données Azure Cosmos DB directement dans Microsoft Fabric OneLake en quasi-temps réel, sans aucun effet sur l'analyse des performances de vos charges de travail transactionnelles.

Prise en charge des API CI/CD/CD et Public Dataflow Gen2

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

Les éléments Dataflow Gen2 prennent en charge les fonctionnalités CI/CD dans Fabric, notamment le contrôle de code source (intégration Git) ainsi que les pipelines de déploiement ALM. En outre, les clients pourront interagir par programmation avec les éléments Dataflow Gen2 dans Fabric via les API REST Fabric, ce qui prend en charge les opérations CRUDLE sur les éléments Dataflow Gen2.

Prise en charge du SPN des API publiques Dataflow Gen2

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les éléments Dataflow Gen2 seront pris en charge via les API REST Fabric avec la prise en charge de l’authentification du principal de service.

Actualisation incrémentielle Dataflow Gen2

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

À la fin de septembre 2024, nous avons publié l’actualisation incrémentielle Dataflow Gen2 en tant que fonctionnalité en préversion publique. Nous continuerons de surveiller les commentaires des clients et d’améliorer cette fonctionnalité en vue de sa disponibilité générale, prévue pour la fin de Q1CY2025.

Prise en charge de l’actualisation incrémentielle Dataflow Gen2 pour la destination Lakehouse

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

L’actualisation incrémentielle Dataflow Gen2 optimise l’exécution du flux de données afin de récupérer uniquement les données les plus récentes modifiées dans les sources de données de votre dataflow, en fonction d’une colonne de partition datetime. Cela garantit que les données peuvent être chargées de manière incrémentielle dans OneLake pour les transformations en aval ou la sortie vers une destination de sortie de flux de données.

Dans le cadre de cette amélioration, nous fournirons une prise en charge directe de l’actualisation incrémentielle pour générer des données directement dans des tables Fabric Lakehouse.

Paramétrage de Dataflow Gen2

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les utilisateurs sont habitués à exécuter des pipelines pilotés par des métadonnées où ils peuvent injecter des variables ou des paramètres dans différentes activités d’un pipeline et ainsi exécuter des choses de manière plus dynamique : créer une fois, réutiliser plusieurs fois.

Dans le cadre de cette amélioration, nous allons le rendre tel que les flux de données exécutés via un pipeline de données dans Fabric peuvent être fournis avec des valeurs de paramètre pour leurs paramètres de flux de données existants.

Prise en charge de Dataflow Gen2 pour enregistrer sous un nouvel élément

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les clients aimeraient souvent recréer un flux de données existant en tant que nouveau dataflow. Aujourd’hui, pour ce faire, ils doivent créer le nouvel élément Dataflow Gen2 à partir de zéro et copier-coller leurs requêtes existantes, ou tirer parti des fonctionnalités de modèle Export/Import Power Query. Toutefois, cela n’est pas seulement gênant en raison d’étapes inutiles, mais il ne transporte pas non plus de paramètres de flux de données supplémentaires, tels que l’actualisation planifiée et d’autres propriétés d’élément (nom, description, étiquette de confidentialité, etc.).

Dans le cadre de cette amélioration, nous fournirons un mouvement rapide « Enregistrer sous » dans l’expérience d’édition Dataflow Gen2, ce qui permet aux utilisateurs d’enregistrer leur flux de données existant en tant que nouveau dataflow.

Prise en charge de Dataflow Gen1 pour le nouvel élément Save As Dataflow Gen2

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les clients souhaitent souvent recréer un élément Dataflow Gen1 existant comme nouvel élément Dataflow Gen2. Aujourd’hui, pour ce faire, ils doivent créer le nouvel élément Dataflow Gen2 à partir de zéro et copier-coller leurs requêtes existantes, ou tirer parti des fonctionnalités de modèle Export/Import Power Query. Toutefois, cela n’est pas seulement gênant en raison d’étapes inutiles, mais il ne transporte pas non plus de paramètres de flux de données supplémentaires, tels que l’actualisation planifiée et d’autres propriétés d’élément (nom, description, étiquette de confidentialité, etc.).

Dans le cadre de cette amélioration, nous allons fournir un mouvement rapide « Enregistrer sous » dans l’expérience d’édition Dataflow Gen1, ce qui permet aux utilisateurs d’enregistrer leur élément Dataflow Gen1 existant en tant qu’élément Dataflow Gen2 nouveau.

Copier le travail - Copie incrémentielle sans que les utilisateurs doivent spécifier des colonnes de filigrane

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Nous allons introduire la fonctionnalité cdc native (Capture de données modifiées) dans Le travail de copie pour les connecteurs clés. Cela signifie que la copie incrémentielle détecte automatiquement les modifications. Il n’est pas nécessaire que les clients spécifient des colonnes incrémentielles.

Copier le travail

Chronologie estimée de la publication : Q1 2025

Type de publication : Disponibilité générale

Le travail de copie dans Data Factory élève l’expérience d’ingestion des données à un processus plus rationalisé et convivial de n’importe quelle source vers n’importe quelle destination. Désormais, copier vos données est plus facile que jamais. Le travail de copie prend en charge différents styles de remise de données, notamment la copie par lots et la copie incrémentielle, offrant la flexibilité nécessaire pour répondre à vos besoins spécifiques.

Copie de la prise en charge ci/CD du travail

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les éléments de travail de copie prennent en charge les fonctionnalités CI/CD dans Fabric, notamment le contrôle de code source (intégration Git) ainsi que les pipelines de déploiement ALM.

Prise en charge des API publiques de copie des travaux

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les clients pourront interagir par programmation avec des éléments de travail de copie dans Fabric via les API publiques fabric, en fournissant la prise en charge des opérations CRUDLE sur les éléments de travail de copie

Prise en charge de Dataflow Gen2 pour d’autres sources de copie rapide

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Nous développons la copie rapide dans Dataflow Gen2 pour prendre en charge davantage de connecteurs sources, ce qui permet aux clients de charger des données avec des performances plus élevées. Les nouveaux connecteurs incluent les fichiers Fabric Lakehouse, Google BigQuery, Amazon Redshift et bien plus, ce qui permet une intégration des données plus rapide et plus efficace.

Prise en charge des travaux de copie pour d’autres sources

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Nous développons la prise en charge d’un plus grand nombre de connecteurs sources dans le travail de copie, ce qui permet aux clients de copier en toute transparence des données à partir d’un large éventail de sources. En même temps, nous allons conserver l’expérience simplifiée tout en offrant divers modèles de copie, y compris la copie complète et la copie incrémentielle.

Prise en charge des pipelines de données pour les déclencheurs d’événements de stockage OneLake

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Un mécanisme populaire utilisé pour appeler des pipelines dans Fabric Data Factory utilise le déclencheur de fichier. Lorsque des événements de fichier (par exemple, l’arrivée du fichier, la suppression de fichier...) sont détectés par rapport au magasin d’objets blob ou à ADLS Gen2, votre pipeline Fabric Data Factory est appelé. Nous avons maintenant ajouté des événements de fichier OneLake aux types d’événements de déclencheur dans Fabric.

Permettre aux clients de paramétrer leurs connexions

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Les connexions fournissent une infrastructure commune pour définir la connectivité et l’authentification pour vos magasins de données. Ces connexions peuvent être partagées entre différents éléments. Avec la prise en charge du paramétrage, vous pourrez créer des pipelines complexes et réutilisables, des notebooks, des dataflows et d’autres types d’éléments.

Prise en charge du pipeline de données pour DBT

Chronologie estimée de la publication : Q1 2025

Type de version : préversion publique

Orchestration de l’interface CLI DBT (Outil de génération de données) : incorpore l’outil de génération de données (dbt) pour les flux de travail de transformation de données.

Prise en charge des identités managées affectées par l’utilisateur dans Connexions

Chronologie estimée des versions : Q2 2025

Type de version : préversion publique

Cette amélioration pour prendre en charge les identités managées affectées par l’utilisateur dans Connections offre une valeur significative en offrant une méthode d’authentification plus sécurisée et flexible pour accéder aux ressources de données. Il évite le codage en dur des informations d’identification, simplifie la gestion en éliminant la nécessité de faire pivoter les secrets, garantit la conformité avec les stratégies de sécurité, s’intègre en toute transparence aux services Azure et prend en charge l’extensibilité dans les connexions en permettant à plusieurs instances de partager la même identité.

Fonctionnalités livrées

Azure Data Factory dans Fabric

Expédié (Q3 2024)

Type de version : préversion publique

Apportez votre azure Data Factory (ADF) existant à votre espace de travail Fabric ! Il s’agit d’une nouvelle fonctionnalité d’aperçu qui vous permet de vous connecter à vos fabriques ADF existantes à partir de votre espace de travail Fabric.

Vous serez maintenant en mesure de gérer entièrement vos fabriques ADF directement à partir de l’interface utilisateur de l’espace de travail Fabric ! Une fois que votre ADF est lié à votre espace de travail Fabric, vous pourrez déclencher, exécuter et surveiller vos pipelines comme vous le faites dans ADF, mais directement à l’intérieur de Fabric.

Prise en charge de l’appel de pipelines de données inter-espaces de travail

Expédié (Q3 2024)

Type de version : préversion publique

Appeler la mise à jour de l’activité Pipelines : nous activons de nouvelles mises à jour intéressantes pour l’activité Invoke Pipeline. En réponse à des demandes client et de communauté écrasantes, nous allons activer l’exécution de pipelines de données entre les espaces de travail. Vous pourrez maintenant appeler des pipelines à partir d’autres espaces de travail auxquels vous avez accès. Cela permet des modèles de flux de travail de données très excitants qui peuvent utiliser la collaboration de vos équipes d’ingénierie et d’intégration des données entre les espaces de travail et les équipes fonctionnelles.

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Expédié (Q3 2024)

Type de publication : Disponibilité générale

Cette fonctionnalité permet aux pipelines de données d’utiliser des passerelles de données Fabric pour accéder aux données locales et derrière un réseau virtuel. Pour les utilisateurs qui utilisent des runtimes d’intégration auto-hébergés (SHIR), ils pourront passer à des passerelles de données locales dans Fabric.

Copier le travail

Expédié (Q3 2024)

Type de version : préversion publique

La tâche de copie simplifie l’expérience pour les clients qui doivent ingérer des données, sans avoir à créer de flux de données ou de pipeline de données. Le travail de copie prend en charge la copie complète et incrémentielle à partir de toutes les sources de données vers toutes les destinations de données. Inscrivez-vous à la préversion privée maintenant.

Mise en miroir pour Snowflake

Expédié (Q3 2024)

Type de publication : Disponibilité générale

La mise en miroir offre une expérience sans ETL transparente pour intégrer vos données Snowflake existantes au reste de vos données dans Microsoft Fabric. Vous pouvez répliquer en continu vos données Snowflake directement dans Fabric OneLake en quasi temps réel, sans aucun effet sur les performances de vos charges de travail transactionnelles.

Amélioration des Notifications par e-mail pour les échecs d’actualisation

Expédié (Q3 2024)

Type de version : préversion publique

Les notifications par e-mail permettent aux créateurs Dataflow Gen2 de surveiller les résultats (réussite/échec) de l’opération d’actualisation d’un dataflow.

Prise en charge de la copie rapide dans Dataflow Gen2

Expédié (Q3 2024)

Type de publication : Disponibilité générale

Nous ajoutons la prise en charge de l’ingestion de données à grande échelle directement dans l’expérience Dataflow Gen2, en utilisant la fonctionnalité d’activité de copie des pipelines. Cette amélioration augmente considérablement la capacité de traitement des données de Dataflow Gen2 en fournissant des fonctionnalités ELT (Extract-Load-Transform) à grande échelle.

Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2

Expédié (Q3 2024)

Type de version : préversion publique

Nous ajoutons la prise en charge de l’actualisation incrémentielle dans Dataflow Gen2. Cette fonctionnalité vous permet d’extraire de manière incrémentielle des données à partir de sources de données, d’appliquer des transformations Power Query et de charger dans différentes destinations de sortie.

Gestion des identités de source de données (Identité managée)

Expédié (Q3 2024)

Type de version : préversion publique

Cela permet à l’identité managée d’être configurée au niveau de l’espace de travail. Vous pouvez utiliser les identités managées Fabric pour vous connecter à votre source de données en toute sécurité.

Prise en charge du pipeline de données pour les travaux Azure Databricks

Expédié (Q3 2024)

Type de version : préversion publique

Nous mettons à jour les pipelines de données Data Factory azure Databricks pour utiliser désormais l’API de travaux la plus récente qui permet des fonctionnalités de flux de travail intéressantes, comme l’exécution de travaux DLT.

Copilot pour Data Factory (Dataflow)

Expédié (Q3 2024)

Type de publication : Disponibilité générale

Copilot for Data Factory (Dataflow) permet aux clients d’exprimer leurs exigences à l’aide du langage naturel lors de la création de solutions d’intégration de données avec Dataflows Gen2.

Prise en charge du pipeline de données pour SparkJobDefinition

Expédié (Q2 2024)

Type de publication : Disponibilité générale

Vous pouvez maintenant exécuter votre code Spark, y compris les fichiers JAR, directement à partir d’une activité de pipeline. Pointez simplement sur votre code Spark et le pipeline exécute le travail sur votre cluster Spark dans Fabric. Cette nouvelle activité permet des modèles de flux de travail de données passionnants qui tirent parti de la puissance du moteur Spark de Fabric tout en incluant le flux de contrôle Data Factory et les fonctionnalités de flux de données dans le même pipeline que vos travaux Spark.

Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements

Expédié (Q2 2024)

Type de version : préversion publique

Un cas d’usage courant pour appeler des pipelines de données Data Factory consiste à déclencher le pipeline lors d’événements de fichier tels que l’arrivée du fichier et la suppression de fichiers. Pour les clients provenant d’ADF ou Synapse vers Fabric, l’utilisation d’événements de stockage ADLS/Blog est très courante comme moyen de signaler une nouvelle exécution de pipeline ou de capturer les noms des fichiers créés. Les déclencheurs dans Fabric Data Factory tirent parti des fonctionnalités de plateforme Fabric, notamment les déclencheurs EventStreams et Reflex. À l’intérieur du canevas de conception de pipeline Fabric Data Factory, vous disposez d’un bouton Déclencheur que vous pouvez appuyer pour créer un déclencheur Reflex pour votre pipeline ou créer le déclencheur directement à partir de l’expérience d’activateur de données.

Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2

Expédié (Q2 2024)

Type de version : préversion publique

Dataflow Gen2 offre des fonctionnalités permettant d’ingérer des données à partir d’un large éventail de sources de données dans Fabric OneLake. Lors de la mise en lots de ces données, elles peuvent être transformées à grande échelle en tirant parti du moteur Dataflows Gen2 à grande échelle (basé sur le calcul SQL Fabric Lakehouse/Warehouse).

Le comportement par défaut pour Dataflows Gen2 consiste à mettre en scène des données dans OneLake afin d’activer des transformations de données à grande échelle. Bien que cela fonctionne parfaitement pour les scénarios à grande échelle, il ne fonctionne pas aussi bien pour les scénarios impliquant de petites quantités de données ingérées, étant donné qu’il introduit un tronçon supplémentaire (intermédiaire) pour les données avant qu’elles ne soient finalement chargées dans la destination de sortie du flux de données.

Avec les améliorations planifiées, nous allons ajuster le comportement intermédiaire par défaut à désactiver pour les requêtes avec une destination de sortie qui ne nécessite pas de préproduction (à savoir, Fabric Lakehouse et Azure SQL Database).

Le comportement intermédiaire peut être configuré manuellement par requête via le volet Paramètres de requête ou le menu contextuel de requête dans le volet Requêtes.

Prise en charge du pipeline de données pour Azure HDInsight

Expédié (Q2 2024)

Type de publication : Disponibilité générale

HDInsight est le service PaaS Azure pour Hadoop qui permet aux développeurs de créer des solutions Big Data très puissantes dans le cloud. La nouvelle activité de pipeline HDI permet aux activités de travail HDInsights à l’intérieur de vos pipelines de données Data Factory similaires à la foncationnalité existante que vous avez enhoyée depuis des années dans les pipelines ADF et Synapse. Nous avons maintenant apporté cette fonctionnalité directement dans des pipelines de données Fabric.

Nouveaux connecteurs pour l’activité de copie

Expédié (Q2 2024)

Type de version : préversion publique

De nouveaux connecteurs seront ajoutés pour activité Copy permettre au client d’ingérer à partir des sources suivantes, tout en tirant parti du pipeline de données : Oracle, MySQL, Recherche Azure AI, Azure Files, Dynamics AX, Google BigQuery.

Travail Apache Airflow : Créer des pipelines de données alimentés par Apache Airflow

Expédié (Q2 2024)

Type de version : préversion publique

Le travail Apache Airflow (précédemment appelé flux de travail de données) est alimenté par Apache Airflow et offre un environnement d’exécution Apache Airflow intégré, ce qui vous permet de créer, d’exécuter et de planifier facilement des daGs Python.

Gestion des identités de source de données (SPN)

Expédié (Q2 2024)

Type de publication : Disponibilité générale

Principal de service : pour accéder aux ressources sécurisées par un locataire Azure AD, l’entité qui requiert l’accès doit être représentée par un principal de sécurité. Vous serez en mesure de vous connecter à vos sources de données avec le principal de service.

Intégration Git de Data Factory pour les pipelines de données

Expédié (Q1 2024)

Type de version : préversion publique

Vous pouvez vous connecter à votre dépôt Git pour développer des pipelines de données de manière collaborative. L’intégration de pipelines de données à la fonctionnalité gestion du cycle de vie des applications (ALM) de la plateforme Fabric permet le contrôle de version, la branchement, les validations et les demandes de tirage.

Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)

Expédié (Q1 2024)

Type de version : préversion publique

Nous améliorons les destinations de sortie dans Dataflow Gen2 avec les fonctionnalités hautement demandées suivantes :

Possibilité de gérer les modifications de schéma de requête après la configuration d’une destination de sortie.
Paramètres de destination par défaut pour accélérer la création de flux de données.

Pour en savoir plus, consultez les destinations de données Dataflow Gen2 et les paramètres managés

Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)

Expédié (Q1 2024)

Type de version : préversion publique

La navigation dans les ressources Azure offre une navigation transparente pour parcourir les ressources Azure. Vous pouvez facilement naviguer dans vos abonnements Azure et vous connecter à vos sources de données via une interface utilisateur intuitive. Il vous aide à trouver et à vous connecter rapidement aux données dont vous avez besoin.

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Expédié (Q1 2024)

Type de version : préversion publique

Prise en charge de la copie rapide dans Dataflow Gen2

Expédié (Q1 2024)

Type de version : préversion publique

Nous ajoutons la prise en charge de l’ingestion de données à grande échelle directement dans l’expérience Dataflow Gen2, en utilisant la fonctionnalité d’activité de copie des pipelines. Cela prend en charge les sources telles que les bases de données Azure SQL, les fichiers CSV et Parquet dans Azure Data Lake Storage et le stockage Blob.

Cette amélioration augmente considérablement la capacité de traitement des données de Dataflow Gen2 en fournissant des fonctionnalités ELT (Extract-Load-Transform) à grande échelle.

Annuler la prise en charge de l’actualisation dans Dataflow Gen2

Expédié (Q4 2023)

Type de version : préversion publique

Nous ajoutons la prise en charge de l’annulation des actualisations de Dataflow Gen2 en cours à partir de l’affichage éléments de l’espace de travail.

Documentation Data Factory dans Microsoft Fabric

Partager via

Nouveautés et planifications de Data Factory dans Microsoft Fabric

Domaines d’investissement

Prise en charge des API CI/CD/CD et Public Dataflow Gen2

Tables et partitions d’actualisation du modèle sémantique

Importation et exportation du pipeline Fabric Data Factory

Copilot pour Data Factory (pipeline de données)

Mise en miroir pour Azure SQL DB

Ouvrir la mise en miroir

Prise en charge du SPN des API publiques des pipelines de données

Prise en charge du pipeline de données pour les variables d’espace de travail Fabric

Mise à jour automatique de la passerelle de données locale

Prise en charge du pipeline de données pour les passerelles de réseau virtuel

Destination de sortie Dataflow Gen2 vers des fichiers SharePoint

Prise en charge du pipeline de données pour les déclencheurs de fenêtre bascule

Élément Azure Data Factory

Prise en charge de l’activité de copie de pipeline de données pour d’autres sources

Exécution parallélisée dataflows Gen 2

Gestion des identités de source de données (Azure Key Vault)

Mise en miroir pour CosmosDB

Prise en charge des API CI/CD/CD et Public Dataflow Gen2

Prise en charge du SPN des API publiques Dataflow Gen2

Actualisation incrémentielle Dataflow Gen2

Prise en charge de l’actualisation incrémentielle Dataflow Gen2 pour la destination Lakehouse

Paramétrage de Dataflow Gen2

Prise en charge de Dataflow Gen2 pour enregistrer sous un nouvel élément

Prise en charge de Dataflow Gen1 pour le nouvel élément Save As Dataflow Gen2

Copier le travail - Copie incrémentielle sans que les utilisateurs doivent spécifier des colonnes de filigrane

Copier le travail

Copie de la prise en charge ci/CD du travail

Prise en charge des API publiques de copie des travaux

Prise en charge de Dataflow Gen2 pour d’autres sources de copie rapide

Prise en charge des travaux de copie pour d’autres sources

Prise en charge des pipelines de données pour les déclencheurs d’événements de stockage OneLake

Permettre aux clients de paramétrer leurs connexions

Prise en charge du pipeline de données pour DBT

Prise en charge des identités managées affectées par l’utilisateur dans Connexions

Fonctionnalités livrées

Azure Data Factory dans Fabric

Prise en charge de l’appel de pipelines de données inter-espaces de travail

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Copier le travail

Mise en miroir pour Snowflake

Amélioration des Notifications par e-mail pour les échecs d’actualisation

Prise en charge de la copie rapide dans Dataflow Gen2

Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2

Gestion des identités de source de données (Identité managée)

Prise en charge du pipeline de données pour les travaux Azure Databricks

Copilot pour Data Factory (Dataflow)

Prise en charge du pipeline de données pour SparkJobDefinition

Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements

Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2

Prise en charge du pipeline de données pour Azure HDInsight

Nouveaux connecteurs pour l’activité de copie

Travail Apache Airflow : Créer des pipelines de données alimentés par Apache Airflow

Gestion des identités de source de données (SPN)

Intégration Git de Data Factory pour les pipelines de données

Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)

Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Prise en charge de la copie rapide dans Dataflow Gen2

Annuler la prise en charge de l’actualisation dans Dataflow Gen2

Contenu connexe

Ressources supplémentaires