Concevoir une solution d’intégration et d’analyse de données avec Azure Synapse Analytics

Effectué

Azure Synapse Analytics combine des fonctionnalités d’analyse de Big Data, de stockage de données d’entreprise et d’intégration de données. Le service vous permet d’exécuter des requêtes sur des données serverless ou des données à grande échelle. Azure Synapse prend en charge l’ingestion, l’exploration, la transformation et la gestion des données, ainsi que l’analyse de tous vos besoins décisionnels et de machine learning.

Points à connaître sur Azure Synapse Analytics

Azure Synapse Analytics implémente une architecture de traitement massivement parallèle (MPP) et a les caractéristiques suivantes.

  • L’architecture Azure Synapse Analytics comprend un nœud de contrôle et un pool de nœuds de calcul.

    Diagram that shows the Azure Synapse Analytics architecture.

    Le nœud de contrôle est le cerveau de cette architecture. Il s’agit du front-end qui interagit avec toutes les applications. Les nœuds de calcul fournissent la puissance de calcul. Les données à traiter sont réparties uniformément entre les nœuds.

  • Les requêtes que vous envoyez se présentent sous la forme d’instructions Transact-SQL qui sont exécutées par Azure Synapse Analytics.

  • Azure Synapse utilise une technologie nommée PolyBase qui vous permet de récupérer et d’interroger des données à partir de sources relationnelles et non relationnelles. Vous pouvez enregistrer les données lues dans des tables SQL au sein du service Azure Synapse.

Composants d’Azure Synapse Analytics

Azure Synapse Analytics est constitué de cinq éléments :

Diagram that shows an overview of Azure Synapse Analytics capabilities.

  • Pool Azure Synapse SQL : Synapse SQL offre des modèles de ressources serverless et dédiés pour utiliser une architecture basée sur les nœuds. Pour prévoir les performances et les coûts, vous pouvez créer des pools SQL dédiés. Pour les charges de travail irrégulières et non planifiées, vous pouvez utiliser le point de terminaison SQL serverless toujours disponible.
  • Pool Azure Synapse Spark : ce pool est un cluster de serveurs qui exécutent Apache Spark pour traiter les données. Vous écrivez votre logique de traitement des données en utilisant un des quatre langages pris en charge : Python, Scala, SQL et C# (via .Net pour Apache Spark). Apache Spark pour Azure Synapse intègre Apache Spark (le moteur Big Data open source utilisé pour la préparation des données, l’ingeneering données, ETL et le machine learning).
  • Pipelines Azure Synapse : les pipelines Azure Synapse appliquent les fonctionnalités d’Azure Data Factory. Les pipelines sont le service ETL et d’intégration de données basé sur le cloud qui vous permet de créer des workflows pilotés par les données pour l’orchestration des déplacements de données et la transformation des données à grande échelle. Vous pouvez ajouter des activités qui transforment les données pendant leur transfert, ou combiner des données de plusieurs sources.
  • Azure Synapse Link : ce composant vous permet de vous connecter à Azure Cosmos DB. Vous pouvez l’utiliser pour effectuer une analytique en quasi-temps réel sur les données opérationnelles stockées dans une base de données Azure Cosmos DB.
  • Azure Synapse Studio : il s’agit d’un IDE basé sur le web qui peut être utilisé de manière centralisée pour utiliser toutes les fonctionnalités d’Azure Synapse Analytics. Vous pouvez utiliser Azure Synapse Studio pour créer des pools SQL et Spark, définir et exécuter des pipelines, et configurer des liens vers des sources de données externes.

Options analytiques

Azure Synapse Analytics prend en charge divers scénarios analytiques. Quand vous consultez le tableau, réfléchissez à la façon dont les scénarios s’appliquent à l’organisation Tailwind Traders.

Analyse Scénario Description
Descriptif Ce qui se passe Azure Synapse applique la fonctionnalité de pool SQL dédié qui vous permet de créer un entrepôt de données persistant pour analyser les questions de type et maintenant. Vous pouvez utiliser le pool SQL serverless pour préparer les données de fichiers stockés dans un lac de données afin de créer un entrepôt de données de manière interactive.
Diagnostic Pourquoi cela se passe-t-il ? Vous pouvez utiliser la fonctionnalité de pool SQL serverless dans Azure Synapse pour explorer les données de manière interactive dans un lac de données. Les pools SQL serverless permettent à un utilisateur de rechercher rapidement d’autres données susceptibles de l’aider à répondre aux questions de type pourquoi.
Prédictif Que va-t-il se passer ? Azure Synapse Analytics utilise son moteur Apache Spark intégré et les pools Azure Synapse Spark pour l’analyse prédictive. Il combine cette action avec d’autres services, comme Azure Machine Learning Services et Azure Databricks pour vous aider à répondre aux questions de type et après.
Prescriptif Liste des tâches Vous pouvez utiliser des données analytiques normatives en temps réel ou en quasi-temps réel pour vous aider à identifier des solutions répondant aux questions de type quelle action. Azure Synapse Analytics fournit cette fonctionnalité avec Apache Spark et Azure Synapse Link, ainsi qu’en intégrant des technologies de streaming comme Azure Stream Analytics.

Scénario d'entreprise

Voyons un scénario où l’entreprise sert aux clients des informations sur le marché boursier. Vous devez fournir une combinaison de traitement par lots et de flux pour prendre en charge l’infrastructure de Tailwind Traders. Les données à la seconde peuvent être utilisées pour le monitoring en temps réel, quand une décision instantanée doit être prise pour acheter ou vendre en une fraction de seconde. Les données d’historique sont tout aussi importantes pour un affichage des tendances du niveau de performance. Quel type de solution d’entrepôt de données et d’intégration de données recommandez-vous pour fournir un accès aux flux de données brutes et aux informations métier préparées dérivées de ces données ? Avec Azure Synapse Analytics, vous pouvez ingérer des données provenant de sources externes, puis transformer et agréger ces données dans un format adapté au traitement analytique.

Points à prendre en compte pour choisir entre Azure Data Factory ou Azure Synapse Analytics

Le tableau suivant compare les critères de solution de stockage d’Azure Data Factory et d’Azure Synapse Analytics. Passez en revue les critères et déterminez la solution optimale pour Tailwind Traders.

Comparer Azure Data Factory Azure Synapse Analytics
Partage des données Les données peuvent être partagées entre plusieurs fabriques de données Non pris en charge
Modèles de solution Des modèles de solution sont fournis avec la galerie de modèles Azure Data Factory Des modèles de solution sont fournis dans le Centre de connaissances de l’espace de travail Synapse
Flux interrégionaux du runtime d’intégration Les flux de données interrégionaux sont pris en charge Non pris en charge
Surveiller des données Le monitoring des données est intégré à Azure Monitor Des journaux de diagnostic sont disponibles dans Azure Monitor
Monitorer le flux de données dans les travaux Spark Non pris en charge Le flux de données peut être monitoré dans les travaux Spark en utilisant des pools Synapse Spark

Azure Synapse Analytics est une solution idéale pour de nombreux autres scénarios. Considérez les options suivantes :

  • Prenez en compte les différentes sources de données. Quand vous avez diverses sources de données qui utilisent Azure Synapse Analytics pour des activités sans code ETL et de flux de données.
  • Prenez en compte le machine learning. Quand vous avez besoin d’implémenter des solutions de machine learning avec Apache Spark, vous pouvez utiliser Azure Synapse Analytics pour une prise en charge intégrée d’AzureML.
  • Prenez en compte l’intégration d’un lac de données. Quand vous avez des données stockées sur un lac de données et que vous avez besoin d’une intégration entre Azure Data Lake et d’autres sources d’entrée, Azure Synapse Analytics offre une intégration transparente entre les deux composants.
  • Prenez en compte l’analytique en temps réel. Quand vous avez besoin d’une analytique en temps réel, vous pouvez utiliser des fonctionnalités comme Azure Synapse Link pour analyser les données en temps réel et révéler les insights.