Qu’est-ce qu’Azure Synapse Link pour Azure Cosmos DB ?

S’APPLIQUE À : NoSQL MongoDB Gremlin

Azure Synapse Link pour Azure Cosmos DB est une fonctionnalité de traitement transactionnel et analytique hybride (HTAP) cloud native qui vous permet d’exécuter une analytique en quasi-temps réel sur les données opérationnelles dans Azure Cosmos DB. Azure Synapse Link crée une intégration transparente entre Azure Cosmos DB et Azure Synapse Analytics.

Le magasin analytique Azure Cosmos DB, magasin de colonnes totalement isolé, peut être utilisé avec Azure Synapse Link pour autoriser une analytique ETL (Extract-Transform-Load) dans Azure Synapse Analytics sur vos données opérationnelles à grande échelle. Les analystes d’entreprise, les ingénieurs de données et les scientifiques de données peuvent désormais utiliser Synapse Spark ou Synapse SQL de façon interchangeable pour exécuter des pipelines décisionnels, analytiques et de machine learning en quasi-temps réel. Vous pouvez analyser des données en temps réel sans affecter les performances de vos charges de travail transactionnelles sur Azure Cosmos DB.

L’illustration suivante représente l’intégration d’Azure Synapse Link dans Azure Cosmos DB et Azure Synapse Analytics :

Architecture diagram for Azure Synapse Analytics integration with Azure Cosmos DB

Pour analyser de grands jeux de données opérationnels tout en limitant les effets sur les performances des charges de travail transactionnelles stratégiques, les clients Azure Cosmos DB exportent généralement les données opérationnelles. Ces opérations sont effectuées par des pipelines ETL (Extract-Transform-Load) qui nécessitent de nombreuses couches de gestion des données et des travaux, ce qui entraîne une complexité opérationnelle et des effets sur les performances de vos charges de travail transactionnelles. Cela augmente également la latence d’analyse des données opérationnelles à partir de l’origine.

Comparé aux solutions ETL traditionnelles, Azure Synapse Link pour Azure Cosmos DB offre plusieurs avantages tels que :

Complexité réduite sans tâches ETL à gérer

Azure Synapse Link vous permet d’accéder directement au magasin analytique Azure Cosmos DB à l’aide d’Azure Synapse Analytics sans déplacement de données complexe. Toutes les mises à jour apportées aux données opérationnelles sont visibles dans le magasin analytique quasiment en temps réel, sans ETL ni travaux de flux de modification. Vous pouvez exécuter des traitements analytiques à grande échelle sur le magasin analytique à partir d’Azure Synapse Analytics sans transformation de données supplémentaire.

Insights en temps quasi réel dans vos données opérationnelles

Vous pouvez désormais bénéficier d’insights détaillés sur vos données opérationnelles quasiment en temps réel à l’aide d’Azure Synapse Link. Les systèmes basés sur ETL ont tendance à avoir une latence plus élevée pour l’analyse de vos données opérationnelles, en raison des nombreuses couches nécessaires pour l’extraction, la transformation et le chargement des données opérationnelles. Avec l’intégration native du magasin analytique Azure Cosmos DB à l’aide d’Azure Synapse Analytics, vous pouvez analyser les données opérationnelles en temps quasi-réel en activant de nouveaux scénarios d’entreprise.

Aucune compromission des performances sur les charges de travail opérationnelles

Avec Azure Synapse Link, vous pouvez exécuter des requêtes analytiques sur un magasin analytique Azure Cosmos DB, une représentation de vos données sous forme de magasin de colonnes. Vous pouvez exécuter les requêtes tandis que les opérations transactionnelles sont traitées avec le débit provisionné pour la charge de travail transactionnelle, sur le magasin transactionnel basé sur des lignes Azure Cosmos DB. La charge de travail analytique est indépendante du trafic de la charge de travail transactionnelle, et ne consomme pas le débit que vous avez alloué pour vos données opérationnelles.

Optimisé pour les charges de travail analytiques à grande échelle

Le magasin analytique Azure Cosmos DB est optimisé pour fournir une extensibilité, une élasticité et des performances pour les charges de travail analytiques sans aucune dépendance des runtimes de calcul. La technologie de stockage est auto-gérée pour optimiser vos charges de travail analytiques. Avec la prise en charge intégrée dans Azure Synapse Analytics, l’accès à cette couche de stockage offre une simplicité d’utilisation et des performances élevées.

Rentable

Avec Azure Synapse Link, vous pouvez obtenir une solution complètement managée et optimisée pour l’analytique opérationnelle. Il élimine les couches de stockage et de calcul supplémentaires requises dans les pipelines ETL traditionnels pour l’analyse des données opérationnelles.

Le magasin analytique Azure Cosmos DB s’appuie sur un modèle de tarification basé sur la consommation, qui est basé sur le stockage de données et les opérations et requêtes de lecture/écriture analytiques exécutées. Vous n’avez pas besoin d’allouer un débit comme vous le faites aujourd’hui pour les charges de travail transactionnelles. L’accès à vos données avec des moteurs de calcul hautement élastiques à partir d’Azure Synapse Analytics optimise l’efficacité du stockage et du calcul.

Analytique pour les écritures multirégions disponibles localement et distribuées globalement

Vous pouvez effectuer des recherches analytiques efficaces sur la copie régionale la plus proche des données dans Azure Cosmos DB. Azure Cosmos DB offre l’avantage d’exécuter les charges de travail analytiques distribuées dans le monde entier, ainsi que des charges de travail transactionnelles en mode actif/actif.

Activer les scénarios HTAP pour vos données opérationnelles

Azure Synapse Link regroupe le magasin analytique Azure Cosmos DB et la prise en charge du runtime Azure Synapse Analytics. Cette intégration vous permet de créer des solutions HTAP natives cloud qui génèrent des insights basés sur des mises à jour en temps réel de vos données opérationnelles sur des jeux de données volumineux. Elle permet de mettre en place de nouveaux scénarios d’entreprise pour déclencher des alertes basées sur des tendances en direct, créer des tableaux de bord en temps quasi réel et des expériences métier basées sur le comportement des utilisateurs.

Magasin analytique Azure Cosmos DB

Le magasin analytique Azure Cosmos DB est une représentation orientée colonne de vos données opérationnelles dans Azure Cosmos DB. Ce magasin analytique convient aux requêtes rapides et rentables sur de grands jeux de données opérationnelles. Ce magasin peut interroger des données sans copier de données ni impacter les performances de vos charges de travail transactionnelles.

Le magasin analytique récupère automatiquement les insertions, les mises à jour et les suppressions à haute fréquence dans vos charges de travail transactionnelles en quasi-temps réel, en tant que fonctionnalité complètement managée (« synchronisation automatique ») d’Azure Cosmos DB. Aucun flux de modification ou ETL n’est requis.

Si vous avez un compte Azure Cosmos DB distribué globalement, une fois que vous avez activé le magasin analytique pour un conteneur, il est disponible dans toutes les régions de ce compte. Pour plus d’informations sur le magasin analytique, consultez l’article Vue d’ensemble du magasin analytique Azure Cosmos DB.

Azure Synapse Link vous permet désormais de vous connecter directement à vos conteneurs Azure Cosmos DB à partir d’Azure Synapse Analytics et d’accéder au magasin analytique sans connecteurs distincts. Azure Synapse Analytics prend actuellement en charge Azure Synapse Link avec Synapse Apache Spark et un pool SQL serverless.

Vous pouvez interroger les données à partir du magasin analytique Azure Cosmos DB simultanément en bénéficiant de l’interopérabilité entre les différentes durées d’exécution des traitements analytiques prises en charge par Azure Synapse Analytics. Aucune transformation de données supplémentaire n’est requise pour analyser les données opérationnelles. Vous pouvez interroger et analyser les données du magasin analytique à l’aide des éléments suivants :

  • Synapse Apache Spark avec prise en charge complète de Scala, Python, SparkSQL et C#. Synapse Spark est essentiel à l’engineering données et aux scénarios de science des données

  • Pool SQL serverless avec langage T-SQL et la prise en charge des outils décisionnels courants (par exemple, Power BI Premium, etc.)

Notes

À partir d’Azure Synapse Analytics, vous pouvez accéder aux magasins analytiques et transactionnels dans votre conteneur Azure Cosmos DB. Toutefois, si vous souhaitez exécuter des traitements analytiques ou des analyses à grande échelle sur vos données opérationnelles, nous vous recommandons d’utiliser le magasin analytique pour éviter de subir une dégradation des performances des charges de travail transactionnelles.

Notes

Vous pouvez exécuter des traitements analytiques avec une faible latence dans une région Azure en connectant votre conteneur Azure Cosmos DB au runtime Synapse dans cette région.

Cette intégration active les scénarios HTAP suivants pour des utilisateurs différents :

  • Un ingénieur décisionnel qui souhaite modéliser et publier un rapport Power BI pour accéder aux données opérationnelles d’Azure Cosmos DB directement par le biais de Synapse SQL.

  • Un analyste de données qui souhaite obtenir des insights à partir des données opérationnelles dans un conteneur Azure Cosmos DB en l’interrogeant avec Synapse SQL, lire des données à grande échelle et combiner ces informations avec d’autres sources de données.

  • Un scientifique des données qui souhaite utiliser Synapse Spark pour trouver une fonctionnalité permettant d’améliorer son modèle et d’entraîner ce modèle sans faire appel à l’engineering données complexe. Il peut également écrire les résultats de l’inférence de la publication du modèle dans Azure Cosmos DB pour un scoring en temps réel sur les données par le biais de Spark Synapse.

  • Un ingénieur de données qui souhaite rendre les données accessibles aux consommateurs en créant des tables SQL ou Spark sur des conteneurs Azure Cosmos DB sans processus ETL manuels.

Pour plus d’informations sur la prise en charge du runtime Azure Synapse Analytics pour Azure Cosmos DB, consultez Prise en charge Azure Synapse Analytics pour Azure Cosmos DB.

Azure Synapse Link est recommandée si vous êtes un client Azure Cosmos DB et que vous souhaitez exécuter des analyses, BI et Machine Learning sur vos données opérationnelles. Par exemple :

  • Si aujourd’hui vous exécutez des analyses ou BI sur vos données opérationnelles Azure Cosmos DB directement à l’aide de connecteurs séparés, ou

  • Si vous exécutez des processus ETL pour extraire des données opérationnelles dans un système d’analyse distinct.

Dans ce cas, Azure Synapse Link offre une expérience analytique plus intégrée sans affecter le débit provisionné de votre magasin transactionnel.

Azure Synapse Link n’est pas recommandé dans le cas des exigences d’entrepôt de données traditionnelles. Ces exigences peuvent inclure la concurrence élevée, la gestion des charges de travail et la persistance des agrégats sur des sources de données. Pour plus d’informations, consultez Scénarios courants pouvant être alimentés Azure Synapse Link pour Azure Cosmos DB.

Limites

  • Azure Synapse Link pour Azure Cosmos DB est prise en charge pour les API NoSQL et MongoDB. Elle n’est pas prise en charge pour les API Cassandra ou Table et reste en préversion pour l’API Gremlin.

  • L’accès au magasin d’analytique Azure Cosmos DB avec le pool SQL dédié Azure Synapse n’est actuellement pas pris en charge.

  • Même si les données du magasin analytique ne sont pas sauvegardées et ne peuvent donc pas être restaurées, vous pouvez recréer votre magasin analytique en réactivant Azure Synapse Link dans le conteneur restauré. Pour plus d’informations, consultez la documentation relative au magasin analytique.

  • La fonctionnalité d’activation de Synapse Link dans les comptes de base de données avec la sauvegarde continue activée est désormais disponible. Cependant, la situation inverse, qui consiste à activer la sauvegarde continue dans les comptes de base de données Synapse Link activés, n’est pas encore prise en charge.

  • Le contrôle d’accès en fonction du rôle (RBAC) précis n’est pas pris en charge lors de l’interrogation à partir de Synapse. Les utilisateurs qui ont accès à votre espace de travail Synapse et au compte de base de données Azure Cosmos DB peuvent accéder à tous les conteneurs au sein de ce compte. Nous ne prenons actuellement pas en charge un accès encore plus granulaire aux conteneurs.

  • Les espaces de travail Azure Synapse ne prennent pas en charge les services liés qui utilisent Managed Identity. Utilisez toujours l’option MasterKey.

  • Les comptes en écriture multirégions ne sont actuellement pas recommandés pour les environnements de production.

Sécurité

Azure Synapse Link vous permet d’exécuter une analytique en quasi-temps réel sur vos données stratégiques dans Azure Cosmos DB. Il est essentiel de s’assurer que les données critiques de l’entreprise sont stockées de manière sécurisée à la fois dans le magasin transactionnel et le magasin analytique. Azure Synapse Link pour Azure Cosmos DB est conçu pour vous aider à respecter ces exigences de sécurité grâce aux fonctionnalités suivantes :

  • Isolement réseau à l’aide de points de terminaison privés : vous pouvez contrôler indépendamment l’accès réseau aux données dans le magasin transactionnel et le magasin analytique. L’isolement réseau s’effectue à l’aide de points de terminaison privés managés distincts pour chaque magasin, au sein de réseaux virtuels managés dans les espaces de travail Azure Synapse. Pour plus d’informations, consultez l’article Configurer des points de terminaison privés pour le magasin analytique.

  • Chiffrement des données avec des clés managées par le client : vous pouvez chiffrer les données du magasin transactionnel et du magasin analytique de manière fluide en utilisant les mêmes clés managées par le client, de manière automatique et transparente. Azure Synapse Link prend uniquement en charge la configuration des clés gérées par le client en utilisant l’identité managée de votre compte Azure Cosmos DB. Vous devez configurer l’identité managée de votre compte dans votre stratégie d’accès Azure Key Vault avant d’activer Azure Synapse Link sur votre compte. Pour en savoir plus, consultez l’article Configurer des clés gérées par le client en utilisant les identités managées des comptes Azure Cosmos DB.

  • Gestion sécurisée des clés : l’accès aux données dans le magasin analytique à partir de Synapse Spark et des pools SQL serverless Synapse requiert la gestion des clés Azure Cosmos DB dans les espaces de travail Synapse Analytics. Au lieu d’utiliser les clés de compte Azure Cosmos DB en ligne dans les travaux Spark ou les scripts SQL, Azure Synapse Link offre des fonctionnalités plus sécurisées :

    • Quand vous utilisez des pools SQL serverless Synapse, vous pouvez interroger le magasin analytique Azure Cosmos DB en créant au préalable des informations d’identification SQL qui contiennent les clés de compte et référencent ces clés dans la fonction OPENROWSET. Pour plus d’informations, consultez l’article Requête avec un pool SQL serverless dans Azure Synapse Link.

    • Quand vous utilisez Synapse Spark, vous pouvez stocker les clés de compte dans les objets de service liés pointant vers une base de données Azure Cosmos DB et référencer les clés dans la configuration Spark au moment de l’exécution. Pour plus d’informations, consultez l’article Copier des données dans un pool SQL dédié avec Apache Spark.

Tarifs

Le modèle de facturation d’Azure Synapse Link comprend les coûts engendrés par l’utilisation du magasin analytique Azure Cosmos DB et du runtime Synapse. Pour plus d’informations, consultez la tarification du magasin analytique Azure Cosmos DB et les articles sur la tarification d’Azure Synapse Analytics.

Étapes suivantes

Pour en savoir plus, consultez les documents suivants :