Expliquer le processus de fabrique de données
Workflows pilotés par les données
Les pipelines (flux de travail orientés données) dans Azure Data Factory effectuent généralement les quatre étapes suivantes :
Se connecter et collecter
La première étape de la génération d’un système d’orchestration consiste à définir et connecter toutes les sources de données nécessaires ensemble, comme des bases de données, des partages de fichiers et des services web FTP. L’étape suivante consiste à ingérer les données en fonction des besoins dans un emplacement centralisé à des fins de traitement ultérieur.
Transformer et enrichir
Les services de calcul comme Databricks et Machine Learning peuvent servir à préparer ou produire des données transformées selon une planification gérable et contrôlée afin d’alimenter des environnements de production avec des données nettoyées et transformées. Dans certains cas, vous pouvez même augmenter les données sources avec des données supplémentaires pour en faciliter l’analyse, voire les fusionner par le biais d’un processus de normalisation utilisé dans une expérience Machine Learning comme exemple.
Publish
Une fois que les données brutes ont été affinées sous une forme utilisable par l’entreprise issue de la phase de transformation et d’enrichissement, vous pouvez les charger dans Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB ou n’importe quel moteur d’analyse auquel vos utilisateurs peuvent accéder à partir de leurs outils d’analyse décisionnelle.
Superviser
Azure Data Factory dispose d’une prise en charge intégrée de la supervision des pipelines via Azure Monitor, l’API, PowerShell, les journaux Azure Monitor et les panneaux de contrôle d’intégrité dans le portail Azure, dans le but de superviser les activités planifiées et les pipelines et d’en déterminer les taux de réussite et d’échec.