Qu’est-ce que l’engineering données dans Microsoft Fabric ?

L’engineering données dans Microsoft Fabric permet aux utilisateurs de concevoir, créer et gérer des infrastructures et des systèmes qui permettent à leurs organisations de collecter, stocker, traiter et analyser de grands volumes de données.

Microsoft Fabric fournit diverses fonctionnalités d’engineering données pour veiller à ce vos données soient facilement accessibles, bien organisées et de haute qualité. À partir de la page d’accueil de l’engineering données, vous pouvez :

  • Créer et gérer vos données à l’aide d’une instance de lakehouse

  • Concevoir des pipelines pour copier des données dans votre instance de lakehouse

  • Utiliser les définitions de tâches Spark pour soumettre une tâche par lots/streaming au cluster Spark

  • Utiliser des notebooks afin d’écrire du code pour l’ingestion, la préparation et la transformation des données

    Screenshot showing Data Engineering objects.

Lakehouse

Les instances de lakehouse sont des architectures de données qui permettent aux organisations de stocker et de gérer des données structurées et non structurées dans un emplacement unique, en utilisant différents outils et infrastructures pour traiter et analyser ces données. Ces outils et cadres peuvent inclure des requêtes et des analyses basées sur SQL, ainsi que l'apprentissage automatique et d'autres techniques d'analyse avancées.

Définition de tâche Apache Spark

Les définitions de tâche Spark sont un ensemble d’instructions qui définissent comment exécuter une tâche sur un cluster Spark. Elles comprennent des informations telles que les sources de données d’entrée et de sortie, les transformations et les paramètres de configuration de l’application Spark. La définition de tâche Spark vous permet de soumettre une tâche par lots/en streaming au cluster Spark, d'appliquer une logique de transformation différente aux données hébergées sur votre Lakehouse ainsi que bien d'autres choses.

Notebook

Les notebooks sont des environnements de calcul interactifs qui permettent aux utilisateurs de créer et de partager des documents contenant du code en direct, des équations, des visualisations et du texte narratif. Ils permettent aux utilisateurs d'écrire et d'exécuter du code dans divers langages de programmation, notamment Python, R et Scala. Vous pouvez utiliser des blocs-notes pour l'ingestion des données, la préparation, l'analyse et d'autres tâches liées aux données.

Pipeline de données

Les pipelines de données sont une série d'étapes permettant de collecter, traiter et transformer les données de leur forme brute vers un format que vous pouvez utiliser pour l'analyse et la prise de décision. Ils constituent un composant essentiel de l’engineering données, car ils permettent de déplacer des données de leur source vers leur destination de manière fiable, évolutive et efficace.

Bien démarrer avec l’expérience d’engineering données :