Guide sur la gouvernance des données
Ce guide montre comment gérer vos données et l’accès à celles-ci dans Azure Databricks. Pour plus d’informations sur la sécurité d’Azure Databricks, consultez le guide de sécurité. Azure Databricks fournit une gouvernance centralisée pour les données et l’IA avec Unity Catalog et Delta Sharing.
Centralisez le contrôle d’accès à l’aide d’Unity Catalog
Unity Catalog est une solution affinée de gouvernance des données et de l’IA sur la plateforme Databricks. Il simplifie la sécurité et la gouvernance de vos données en fournissant un emplacement central pour administrer et auditer l’accès aux données.
Pour connaître les meilleures pratiques relatives à l’adoption d’Unity Catalog, consultez Meilleures pratiques d’Unity Catalog.
Suivez la traçabilité des données à l’aide d’Unity Catalog
Vous pouvez utiliser le Catalogue Unity pour capturer la traçabilité des données de runtime entre les requêtes dans n’importe quel langage exécuté sur un cluster Azure Databricks ou un entrepôt SQL. La traçabilité est capturée au niveau de la colonne et inclut des notebooks, des flux de travail et des tableaux de bord liés à la requête. Pour plus d’informations, consultez Capturer et afficher la traçabilité des données avec le Catalogue Unity.
Découvrez des données à l’aide de Catalog Explorer
Databricks Catalog Explorer fournit une interface utilisateur permettant d’explorer et de gérer les données, les schémas (bases de données), les tables et les autorisations, les propriétaires de données, les emplacements externes et les informations d’identification. Vous pouvez utiliser l’onglet Insights dans Catalog Explorer pour afficher les requêtes et les utilisateurs récents les plus fréquents de n’importe quelle table inscrite dans Unity Catalog.
Partager des données à l’aide de Delta Sharing
Delta Sharing est un protocole ouvert développé par Databricks pour le partage sécurisé de données avec d’autres organisations, ou avec d’autres équipes au sein de votre organisation, quelle que soit la plateforme de calcul utilisée.
Configurer l’enregistrement d’audit
Databricks permet d’accéder aux journaux d’audit des activités effectuées par les utilisateurs Databricks, ce qui permet à votre entreprise de surveiller les modèles d’utilisation détaillés de Databricks.
Unity Catalog vous permet d’accéder et d’interroger facilement les données opérationnelles de votre compte’, notamment les journaux d’audit, l’utilisation facturable et la traçabilité à l’aide de tables système (préversion publique).
Configurer l’identité
Tout bon projet de gouvernance des données commence par une fondation d’identité solide. Pour savoir comment configurer au mieux l’identité dans Azure Databricks, consultez Bonnes pratiques relatives aux identités.
Solutions de gouvernance des données héritées
Le contrôle d’accès aux tables est un modèle de gouvernance des données hérité qui vous permet d’accorder et de révoquer par programmation l’accès aux objets gérés par le metastore Hive intégré de votre espace de travail. Databricks recommande d’utiliser Unity Catalog au lieu du contrôle d’accès aux tables. Unity Catalog facilite la sécurité et la gouvernance de vos données en fournissant un emplacement central pour administrer et auditer l’accès aux données dans plusieurs espaces de travail de votre compte.
L’authentification directe des informations d’identification Azure Data Lake Storage (hérité) est également une fonctionnalité héritée de gouvernance des données qui vous permet de vous authentifier automatiquement dans le Stockage Azure à partir de clusters Azure Databricks en utilisant la même identité Microsoft Entra ID (anciennement Azure Active Directory) que celle que vous utilisez pour vous connecter à Azure Databricks. Databricks vous recommande d’utiliser Unity Catalog à la place.
En savoir plus
Voici quelques ressources qui vous aideront à créer une solution complète de gouvernance des données qui répond aux besoins de votre organisation :
- Configurer et gérer Unity Catalog, pour obtenir des instructions étape par étape sur la configuration d’Unity Catalog pour votre organisation.
- Centre de sécurité et de confidentialité Databricks : fournit des informations sur la façon dont la sécurité est intégrée à chaque couche de la plateforme Databricks.
- Gestion des secrets : fournit des informations sur l’utilisation des secrets Databricks pour stocker vos informations d’identification et les référencer dans des notebooks et des travaux. Vous ne devez jamais coder en dur les secrets ni les stocker en texte brut.