Qu’est-ce que l’engineering données dans Microsoft Fabric ?
L’engineering données dans Microsoft Fabric permet aux utilisateurs de concevoir, créer et gérer des infrastructures et des systèmes qui permettent à leurs organisations de collecter, stocker, traiter et analyser de grands volumes de données.
Microsoft Fabric fournit diverses fonctionnalités d’engineering données pour veiller à ce vos données soient facilement accessibles, bien organisées et de haute qualité. À partir de la page d’accueil de l’engineering données, vous pouvez :
Créer et gérer vos données à l’aide d’une instance de lakehouse
Concevoir des pipelines pour copier des données dans votre instance de lakehouse
Utiliser les définitions de tâches Spark pour soumettre une tâche par lots/streaming au cluster Spark
Utiliser des notebooks afin d’écrire du code pour l’ingestion, la préparation et la transformation des données
Lakehouse
Les instances de lakehouse sont des architectures de données qui permettent aux organisations de stocker et de gérer des données structurées et non structurées dans un emplacement unique, en utilisant différents outils et infrastructures pour traiter et analyser ces données. Ces outils et cadres peuvent inclure des requêtes et des analyses basées sur SQL, ainsi que l'apprentissage automatique et d'autres techniques d'analyse avancées.
Définition de tâche Apache Spark
Les définitions de tâche Spark sont un ensemble d’instructions qui définissent comment exécuter une tâche sur un cluster Spark. Elles comprennent des informations telles que les sources de données d’entrée et de sortie, les transformations et les paramètres de configuration de l’application Spark. La définition de tâche Spark vous permet de soumettre une tâche par lots/en streaming au cluster Spark, d'appliquer une logique de transformation différente aux données hébergées sur votre Lakehouse ainsi que bien d'autres choses.
Notebook
Les notebooks sont des environnements de calcul interactifs qui permettent aux utilisateurs de créer et de partager des documents contenant du code en direct, des équations, des visualisations et du texte narratif. Ils permettent aux utilisateurs d'écrire et d'exécuter du code dans divers langages de programmation, notamment Python, R et Scala. Vous pouvez utiliser des blocs-notes pour l'ingestion des données, la préparation, l'analyse et d'autres tâches liées aux données.
Pipeline de données
Les pipelines de données sont une série d'étapes permettant de collecter, traiter et transformer les données de leur forme brute vers un format que vous pouvez utiliser pour l'analyse et la prise de décision. Ils constituent un composant essentiel de l’engineering données, car ils permettent de déplacer des données de leur source vers leur destination de manière fiable, évolutive et efficace.
Vous pouvez utiliser Ingénieurs de données dans Microsoft Fabric gratuitement lorsque vous vous inscrivez à la version d’évaluation de Fabric. Vous pouvez également acheter une capacité Microsoft Fabric ou une capacité de réserve Fabric
Contenu connexe
Démarrage avec l’ingénierie des données :
- Pour en savoir plus sur les Lakehouses, consultez Qu’est-ce qu’un Lakehouse dans Microsoft Fabric ?
- Pour démarrer avec un Lakehouse, consultez Créer un Lakehouse dans Microsoft Fabric.
- Pour en savoir plus sur les définitions de tâches Apache Spark, consultez Qu'est-ce qu'une définition de tâche Apache Spark ?
- Pour démarrer avec une définition de travail Apache Spark, consultez Comment créer une définition de travail Apache Spark dans Fabric.
- Pour en savoir plus sur les notebooks, consultez Créer et exécuter le notebook.
- Pour démarrer avec l'activité de copie de pipeline, consultez Comment copier des données à l'aide de l'activité de copie.