Décrire les modèles d’intégration de données

Effectué

Microsoft Azure fournit un large éventail de services de plateforme de données qui vous permettent d’effectuer différents types d’analyse. Qu’il s’agisse d’une solution d’analytique descriptive dans un entrepôt de données ou d’une analyse prédictive au sein de HDInsight, Azure Databricks ou Machine Learning Services, Un service doit gérer l’aspect important de l’intégration de données.

L’intégration de données implique tout d’abord la collecte de données à partir d’une ou plusieurs sources. Éventuellement, il inclut un processus dans lequel les données peuvent être nettoyées et transformées, voire augmentées avec des données supplémentaires et préparées. Enfin, les données amalgamées sont stockées dans un service de plateforme de données qui gère le type d’analyse à effectuer. Ce processus peut être automatisé par Azure Data Factory suivant un modèle connu sous le nom d’ETL (extract, transform, load).

Extraction

Pendant le processus d’extraction, les ingénieurs Données définissent les données ainsi que leur source :

  • Définir la source de données : identifier les détails de la source, notamment le groupe de ressources, l’abonnement et les informations d’identité, par exemple une clé ou un secret.

  • Définir les données : identifier les données à extraire. Définissez les données à l’aide d’une requête de base de données, d’un ensemble de fichiers ou d’un nom de stockage Blob Azure pour le stockage d’objets blob.

Transformation

  • Définir la transformation de données : les opérations de transformation de données peuvent inclure la division, la combinaison, la dérivation, l’ajout, la suppression ou la transposition de colonnes. Mappez des champs entre la source et la destination des données. Vous devrez peut-être agréger ou fusionner des données.

Chargement

  • Définir la destination : durant un chargement, de nombreuses destinations Azure peuvent accepter des données au format JSON (JavaScript Object Notation), au format de fichier ou au format d’objet blob. Vous aurez peut-être besoin d’écrire du code pour interagir avec les API d’application.

    Azure Data Factory offre une prise en charge intégrée d’Azure Functions. De plus, de nombreux langages de programmation sont pris en charge, notamment Node.js, .NET, Python et Java. Il fut un temps où le format XML était très répandu. Cependant, la plupart des systèmes sont désormais passés au type de données JSON, qui est semi-structuré et donc d’une flexibilité accrue.

  • Démarrer le travail : testez la tâche ETL dans un environnement de développement ou de test. Ensuite, effectuez la migration de la tâche vers un environnement de production pour charger le système de production.

  • Superviser la tâche : les opérations ETL peuvent impliquer de nombreux processus complexes. Mettez en place un système de supervision proactif et réactif qui vous alertera en cas de problème. Configurez la journalisation en fonction de la technologie qui l’utilisera.

Outils ETL

Pour un ingénieur Données, plusieurs outils sont disponibles pour le processus ETL. Azure Data Factory fournit presque 100 connecteurs d’entreprise et ressources robustes pour les utilisateurs avec ou sans code afin de répondre à leurs besoins de déplacement et de transformation des données.

Évolution depuis le processus ETL

Azure a ouvert la voie aux technologies capables de traiter des données non structurées à une échelle illimitée. Ce changement a remplacé le paradigme ETL par celui de l’ELT (extraction, chargement, transformation).

L’avantage de l’ELT est qu’il permet de stocker des données dans leur format d’origine, qu’il s’agisse de données JSON, XML, PDF ou d’images. Avec l’ELT, vous allez définir la structure de données pendant la phase de transformation, ce qui vous permet d’utiliser la source de données dans plusieurs systèmes en aval.

Dans un processus ELT, les données sont extraites et chargées dans leur format natif. Ce changement réduit le temps nécessaire pour charger les données dans le système de destination. Il réduit également la contention des ressources dans les sources de données.

Les étapes du processus ELT sont les mêmes que celles du processus ETL. Seul leur ordre d’exécution est différent.

Un autre processus similaire à l’ELT est celui de l’ELTL (extraction, chargement, transformation, chargement). Le processus ELTL comprend une étape finale de chargement des données dans le système de destination.

Il existe deux types courants de modèles d’intégration de données qu’Azure Data Factory peut prendre en charge.

Charges de travail d’entrepôt de données moderne :

Un entrepôt de données moderne est un magasin de données centralisé qui offre des services d’analytique descriptive et d’aide à la décision à l’échelle de l’entreprise en utilisant des sources de données structurées, non structurées ou de streaming. Les données qui arrivent régulièrement dans l’entrepôt de données proviennent de plusieurs systèmes transactionnels, bases de données relationnelles et autres sources de données. Les données stockées sont utilisées à des fins d’analyse historique et de tendances. L’entrepôt de données fait office de référentiel centralisé pour de nombreuses zones de sujet et contient l’« unique source de vérité ».

Azure Data Factory est généralement utilisé pour automatiser le processus d’extraction, de transformation et de chargement des données par le biais d’un processus de traitement par lots sur des sources de données structurées et non structurées.

Charges de travail analytiques avancées

Vous pouvez effectuer des tâches analytiques avancées de type prédictif ou préventif en utilisant un éventail des services de plateforme de données Azure. Azure Data Factory assure l’intégration depuis des systèmes sources dans un magasin Data Lake et peut lancer des ressources de calcul comme Azure Databricks ou HDInsight pour utiliser les données afin d’effectuer le travail analytique avancé.