Partager via


Vue d’ensemble de la zone d’atterrissage de gestion des données d’analytique à l’échelle du cloud

La zone d'atterrissage de la gestion des données est une fonction de gestion et est au cœur de l'analyse à l'échelle du cloud. Il est responsable de la gouvernance de votre plateforme d’analytique.

Diagram of data management landing zone overview.

Votre zone d’atterrissage de gestion des données est un abonnement distinct qui possède les mêmes services standard d’une zone d’atterrissage Azure. Cela permet une gouvernance des données, via des robots, qui se connectent à vos lacs de données et au stockage Polyglot dans vos zones d’atterrissage des données. Le peering de réseaux virtuels connecte votre zone d’atterrissage de gestion des données à vos zones d’atterrissage de données et à votre abonnement de connectivité.

Utilisez cette architecture comme point de départ. Téléchargez le fichier Visio et modifiez-le en fonction de vos besoins métier et techniques spécifiques au moment de planifier l’implémentation de votre zone d’atterrissage de gestion des données.

Remarque

La persistance polyglotte est un terme de stockage décrivant votre choix entre différentes technologies de stockage des données/magasins de données pour prendre en charge vos différents types de données et leurs besoins de stockage. La persistance polyglotte illustre essentiellement l’idée qu’une application peut utiliser plus d’une base de données ou d’une technologie de stockage principale.

Important

Votre zone d’atterrissage de gestion des données doit être déployée comme un abonnement distinct sous un groupe d’administration avec la gouvernance adéquate. Vous pouvez ensuite contrôler la gouvernance au sein de votre organisation. L’accélérateur de zone d’atterrissage Azure illustre comment vous devez aborder les zones d’atterrissage Azure.

Data Catalog

Groupe de ressources : governance-rg

Le catalogue de données inscrit et conserve les informations sur les données dans un emplacement centralisé et les met à la disposition de l’organisation. Il garantit que les entreprises évitent les jeux de données en double causés par l’ingestion de données redondantes par différentes équipes de projet.

Nous vous recommandons de provisionner un service de catalogue pour définir les métadonnées des produits de données stockés dans les zones d’atterrissage des données.

L’analytique à l’échelle du cloud s’appuie sur Microsoft Purview pour servir de :

  • Un système d’inscription
  • Une détection des sources de données d’entreprise
  • Un moteur de classification des données
  • Un magasin de stratégies
  • Une API pour l’inscription et la lecture des informations sur les données
  • Un hub du tableau de bord de conformité

Étant donné que le catalogue de données fait partie de la zone d’atterrissage de gestion des données, il peut communiquer avec chaque zone d’atterrissage de données via son peering de réseau virtuel et les runtimes d’intégration auto-hébergés. La détection de produits de données dans des magasins locaux et d’autres clouds publics est obtenue par davantage de déploiements de runtimes d’intégration auto-hébergés.

Remarque

Même si cette documentation se concentre principalement sur l’utilisation de Microsoft Purview pour les fonctionnalités de catalogue de données et la classification des données, les entreprises peuvent avoir investi dans d’autres produits, tels qu’Alation, Okera ou Collibra. Si c’est votre cas, contactez votre fournisseur pour appliquer les principes décrits pour une zone d’atterrissage de gestion des données et obtenir un résultat aussi semblable que possible. N’oubliez pas qu’une intégration personnalisée peut être nécessaire.

Pour plus d’informations, consultez Catalogue de données et Les bonnes pratiques de déploiement de Microsoft Purview pour l’analytique à l’échelle du cloud.

Gestion de la qualité des données

Groupe de ressources : governance-rg2

Poursuivez avec votre solution actuelle.

Vous devez gérer la qualité des données aussi près que possible de votre source de données afin d’éviter les problèmes de qualité qui se répliquent dans votre patrimoine analytique et d’IA. Le déplacement des métriques de qualité et de la validation vers votre intégration des données permet d’aligner le processus de qualité avec les équipes les plus proches de vos données. Ces équipes ont une compréhension approfondie de votre ressource de données.

La traçabilité des données assure également la fiabilité de la qualité des données et vous devez la fournir pour tous les produits de données et tous les produits.

Pour plus d’informations sur la gestion de la qualité des données, consultez Qualité des données.

Référentiel de modélisation des données

Groupe de ressources : governance-rg2

Vous devez capturer et stocker des modèles de relation d’entité dans un emplacement central dans votre zone d’atterrissage de gestion des données. Cela fournit aux consommateurs de données un emplacement unique pour rechercher des diagrammes conceptuels.

De nombreux clients utilisent ER Studio et iServer pour modéliser leurs produits de données avant l’ingestion.

Gestion des données de référence

Groupe de ressources : governance-rg2

Le contrôle de gestion des données de référence réside dans la zone d’atterrissage de gestion des données. La gestion des données de référence dans le maillage de données contient des considérations spécifiques que vous devez appeler pour le maillage de données.

De nombreuses solutions de gestion des données de référence s’intègrent parfaitement à Microsoft Entra ID. Cette intégration vous permet de sécuriser vos données et de fournir des vues différentes pour différents groupes d’utilisateurs.

Pour plus d’informations, consultez Système de gestion des données de référence.

Catalogue d’API

Groupe de ressources : governance-rg2

Vos équipes d’application de données créeront probablement différentes API pour leur application de données. Ces API peuvent être difficiles à détecter au sein de votre organisation. Le fait de placer un catalogue d’API dans votre zone d’atterrissage de gestion des données peut résoudre ce problème.

Un catalogue d’API permet de normaliser votre documentation et offre un emplacement pour la collaboration interne sur les API. Il peut également aider à dynamiser les contrôles de la consommation, de la publication et de la gouvernance au sein de votre organisation.

Partage de données et contrats

Groupe de ressources : governance-rg2

L’analytique à l’échelle du cloud utilise la gestion des droits d’utilisation Microsoft Entra ou des stratégies Microsoft Purview pour contrôler l’accès au partage de données. Même si vous avez besoin d’un référentiel de partage et de contrat. Ce référentiel est une fonction organisationnelle et doit résider dans votre zone d’atterrissage de gestion des données.

Vos contrats doivent fournir des informations sur la validation des données, les modèles et les stratégies de sécurité.

Pour plus d’informations, consultez Contrats de données

Azure Container Registry

Groupe de ressources : containers-rg

Votre zone d’atterrissage de gestion des données héberge une instance Azure Container Registry. Le Azure Container Registry permet à vos opérations de plateforme de données de déployer des conteneurs standard à utiliser dans les projets de science des données que vos équipes d’application de données consomment.

Groupe de ressources : synapse-link-rg

Les hubs Azure Synapse Analytics Private Link sont des ressources Azure qui connectent votre réseau sécurisé et l’expérience web d’Azure Synapse Studio. L’analytique à l’échelle du cloud connecte en toute sécurité votre Réseau virtuel Azure à Azure Synapse Studio à l’aide de liens privés à partir de ces hubs.

Il y a deux étapes pour vous connecter à Azure Synapse Studio à l’aide de liaisons privées.

  1. Créez une ressource hub Private Link.
  2. Créez un point de terminaison privé à partir de votre réseau virtuel Azure vers un hub Private Link.

Vous pouvez ensuite utiliser des points de terminaison privés pour communiquer en toute sécurité avec Azure Synapse Studio. Intégrez les points de terminaison privés à votre solution DNS, soit avec votre solution locale, soit avec Azure DNS privé.

Pour plus d’informations, consultez Se connecter à Azure Synapse Studio à l’aide de liaisons privées.

Interfaces d’automatisation (facultatif)

Votre organisation peut décider de créer de nombreux services d’automatisation pour augmenter les fonctionnalités d’analytique à l’échelle du cloud. Ces services d’automatisation favorisent la conformité et l’intégration de solutions pour votre état d’analyse.

Si vous décidez de créer ces services d’automatisation, vous devez disposer d’une interface utilisateur qui agit à la fois comme une place de marché de données et une console d’opération. Cette interface doit s’appuyer sur un magasin de métadonnées sous-jacent comme nous l’avons vu précédemment dans les normes de métadonnées.

Votre place de marché de données ou votre console opérateur appelle un niveau intermédiaire de microservices pour faciliter l’intégration, l’inscription des métadonnées, l’approvisionnement de sécurité, le cycle de vie des données et l’observabilité.

Vous pouvez provisionner le groupe de ressources automationdb-rg pour héberger votre magasin de métadonnées.

Important

Aucun de ces services d’automatisation n’est produit et n’illustre aucun élément de feuille de route. Ils sont répertoriés pour vous aider à prendre en compte les éléments que vous souhaiterez peut-être automatiser.

Services

Service Étendue du service
Approvisionnement de zone d’atterrissage des données Ce service crée une zone d’atterrissage de données. Il est peu probable qu’elle ait une utilisation élevée, mais elle est incluse pour l’exhaustivité de la solution d’intégration de bout en bout. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud
Intégration de produits de données Ce service crée et modifie des groupes de ressources qui se rapportent à un locataire intégré. Il contient également des fonctionnalités permettant de mettre à niveau et de dégrader les références SKU et d’activer et de désactiver des groupes de ressources pour n’importe quel locataire ou service intégré. Il crée une zone d’atterrissage de données DevOps. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud
Approvisionnement d’accès Ce service crée des packages d’accès, des stratégies d’accès et un processus d’approbation d’accès aux ressources (manuel ou automatique) à l’aide du SPN/UPN. Il peut également exposer une API pour fournir une liste de demandes d’abonnement (ressources) que les utilisateurs ont soumis au cours des 90 derniers jours. Pour plus d’informations, consultez Gestion des accès aux données
Ingestion agnostique de données Ce microservice crée de nouvelles sources de données pour l’ingestion dans vos zones d’atterrissage de données. Elle le fait en communiquant avec un métastore Azure Data Factory SQL Database dans chaque zone d’atterrissage de données. Pour en savoir plus, consultez Comment les infrastructures d'ingestion automatisée prennent en charge l'analyse à l'échelle du cloud dans Azure
Métadonnées Ce service a exposé et crée des métadonnées pour la plateforme. Pour plus d’informations, consultez Normes des métadonnées
Cycle de vie des données Ce service est responsable de la maintenance de votre cycle de vie des données en fonction des métadonnées. Cette maintenance peut inclure le déplacement de données vers le stockage froid et la suppression d’enregistrements qui n’ont plus besoin d’être conservés. Pour plus informations, consultez Gestion de cycle de vie des données
Intégration du domaine de données APPLICABLE UNIQUEMENT À DATA MESH. Ce service capture les métadonnées relatives aux nouveaux domaines et intègre les nouveaux domaines en fonction des besoins. Il peut également créer, mettre à jour, activer et désactiver n’importe quelle ligne de domaine ou de service que vous pouvez générer dans un microservice. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud

Standardisation des données

Bien qu’il ne s’agit pas d’une fonctionnalité ou d’un produit spécifique de votre zone d’atterrissage de gestion des données, vous devez appeler la normalisation des données sur tous les services. La normalisation des données définit le format dans lequel vos données doivent atterrir et être stockées.

Conseil

Utilisez le format delta-lake autant que possible en tant que standard defacto sur tous les services et le stockage.

Pour plus d’informations, consultez Standardisation des données.

Étapes suivantes