Partager via


Préparer et transformer des données dans Microsoft Fabric

Après avoir ingéré des données dans Microsoft Fabric, vous devez généralement nettoyer, mettre en forme et l’enrichir avant l’analyse. Que votre objectif soit de préparer des tables organisées dans un lakehouse ou des données prêtes à être utilisées dans un entrepôt, Fabric fournit à la fois des options de transformation à faible code et de code traditionnel.

Cet article explique comment utiliser Dataflow Gen2 pour la préparation visuelle et à faible code des données et comment utiliser des notebooks et des fonctions de données utilisateur pour des transformations avancées basées sur le code. Choisissez l’approche qui convient le mieux à votre rôle, à votre ensemble de compétences et à vos besoins en charge de travail.

Transformer des données avec Dataflow Gen2

Pour la préparation des données à faible code, utilisez Dataflow Gen2. Dataflow Gen2 utilise l’expérience Power Query familière, la même technologie utilisée dans Excel et Power BI.

Avec l’interface Power Query, vous pouvez appliquer des filtres, dériver des colonnes, agréger des données, fusionner des requêtes et effectuer d’autres transformations par le biais d’un flux de travail visuel et pas à pas. Dans Fabric, Dataflow Gen2 peut s’exécuter en tant que processus ETL autonome ou en tant qu’activité au sein d’un pipeline.

Par exemple, après avoir ingéré des données de ventes brutes dans un Lakehouse, vous pouvez utiliser un flux de données pour supprimer les doublons, normaliser les noms de colonnes, appliquer des règles d'entreprise et écrire les résultats nettoyés dans des tables organisées au sein d'une couche Gold du Lakehouse ou dans un entrepôt de données.

Dataflow Gen2 s’exécute dans le cloud à l’aide de la capacité Fabric, ce qui lui permet de mettre à l’échelle des jeux de données volumineux et des transformations complexes sans nécessiter de code personnalisé. Les analystes de données et les développeurs décisionnels peuvent préparer les données indépendamment, tout en écrivant des sorties dans des tables Lakehouse ou Warehouse dans le cadre de la base de stockage unifiée de Fabric.

Préparation axée sur le code avec des notebooks et des fonctions de données utilisateur

Pour les scénarios de transformation avancés avec du code, utilisez des notebooks, des jobs Spark et des fonctions de données utilisateur dans l'environnement d'ingénierie des données.

Un notebook Fabric fournit un environnement de style Jupyter dans le portail Fabric. Vous pouvez écrire du code dans des langages tels que Python, T-SQL ou Scala pour travailler avec les données stockées dans OneLake.

Les notebooks conviennent parfaitement aux transformations complexes, aux algorithmes personnalisés, aux flux de travail de science des données et à l’intégration à des bibliothèques externes. Par exemple, vous pouvez charger des fichiers JSON ou Parquet bruts depuis un lakehouse dans un DataFrame Spark, les joindre à d’autres jeux de données, appliquer des agrégations fenêtrées, enrichir les données et enregistrer les résultats sous forme de tables Delta dans OneLake.

Les notebooks s’intègrent directement aux lakehouses et aux entrepôts dans le même espace de travail. Vous pouvez lire et écrire des données sans configuration d’informations d’identification supplémentaires, car les opérations s’exécutent dans le contexte de sécurité Fabric. Vous pouvez également orchestrer et planifier des notebooks à l’aide de l’activité notebook dans les pipelines Data Factory.

Les fonctions de données utilisateur fabric vous permettent d’encapsuler une logique Python réutilisable dans Fabric. Vous pouvez les utiliser pour implémenter des règles métier avancées, appeler des services externes ou créer des composants de transformation modulaire. Les fonctions de données utilisateur prennent en charge les bibliothèques PyPI, peuvent se connecter à des sources de données Fabric et exposer des points de terminaison REST pour l’intégration externe. Ces fonctionnalités les rendent adaptées aux scénarios d’entreprise qui nécessitent une logique de transformation réutilisable et régie.

Vous pouvez appeler des fonctions de données utilisateur à partir de notebooks, de pipelines, de règles d’activateur et dans le cadre de flux de tâches translytiques dans les rapports Power BI.