Partager via


Se connecter à Azure Databricks Unity Catalog et le gérer dans Microsoft Purview (préversion)

Cet article explique comment inscrire Azure Databricks et comment s’authentifier et interagir avec Azure Databricks Unity Catalog dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.

Importante

Cette fonctionnalité est actuellement en préversion. Les conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure incluent des conditions juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure qui sont en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale.

Fonctionnalités prises en charge

Extraction de métadonnées Analyse complète Analyse incrémentielle Analyse délimitée Classification Étiquetage Stratégie d’accès Lignée Partage de données Affichage en direct
Oui Oui Non Oui Non Non Non Non Non Non

Lors de l’analyse d’Azure Databricks Unity Catalog, Microsoft Purview prend en charge :

  • Metastore
  • Catalogues
  • Schémas
  • Tables incluant les colonnes
  • Affichages, y compris les colonnes

Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité du catalogue Unity ou d’étendre l’analyse à un sous-ensemble de catalogues.

Remarque

Ce connecteur apporte des métadonnées d’Azure Databricks Unity Catalog. Pour analyser les métadonnées d’étendue de l’espace de travail Azure Databricks, consultez Connecteur de metastore Hive Azure Databricks.

Limitations connues

  • Actuellement, l’analyse n’est pas prise en charge si votre espace de travail Azure Databricks n’autorise pas l’accès à partir du réseau public ou si votre compte Purview n’active pas l’accès à partir de tous les réseaux. Nous allons bientôt ajouter cette prise en charge.
  • Lorsque l’objet est supprimé de la source de données, l’analyse suivante ne supprime pas automatiquement la ressource correspondante dans Microsoft Purview.

Configuration requise

  • Vous devez disposer d’un compte Azure avec un abonnement actif. Créez un compte gratuitement.

  • Vous devez disposer d’un compte Microsoft Purview actif.

  • Vous avez besoin d’un Key Vault Azure et d’accorder à Microsoft Purview des autorisations d’accès aux secrets.

  • Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.

  • Pour analyser Azure Databricks Unity Catalog, Microsoft Purview se connecte à un entrepôt SQL dans votre espace de travail et utilise le jeton d’accès personnel pour l’authentification. Vous devez disposer d’un espace de travail Azure Databricks qui est activé pour Unity Catalog et attaché au metastore que vous souhaitez analyser. Dans votre espace de travail Azure Databricks :

    • Générez un jeton d’accès personnel et stockez-le en tant que secret dans Azure Key Vault.

      • Pour tous les objets que vous souhaitez importer dans Microsoft Purview, l’utilisateur doit avoir au moins le privilège SELECT sur les tables/vues, USE CATALOG sur le catalogue de l’objet et USE SCHEMA sur le schéma de l’objet.

      • Pour analyser tous les objets d’un metastore Unity Catalog, utilisez un utilisateur disposant du rôle d’administrateur de metastore. Pour plus d’informations, consultez Gérer les privilèges dans Unity Catalog et les privilèges et objets sécurisables Unity Catalog.

    • Créez un entrepôt SQL. Vous pouvez également utiliser l’entrepôt de démarrage créé automatiquement, le cas échéant.

      • Notez le chemin HTTP vers le bas. Vous pouvez le trouver dans l’espace de travail Azure Databricks -> SQL Warehouses -> votre entrepôt - Détails de> la connexion -> Chemin HTTP.

      • Assurez-vous que l’utilisateur dispose de l’autorisation Peut utiliser pour se connecter à l’entrepôt Azure Databricks SQL. Pour en savoir plus, consultez Contrôle d’accès de l’entrepôt SQL.

Inscrire

Cette section explique comment inscrire un espace de travail Azure Databricks dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.

  1. Accédez à votre compte Microsoft Purview.

  2. Sélectionnez Data Map dans le volet gauche.

  3. Sélectionner Inscription.

  4. Dans Inscrire des sources, sélectionnez Azure Databricks>Continuer.

  5. Dans l’écran Inscrire des sources (Azure Databricks), procédez comme suit :

    1. Pour Nom, entrez un nom que Microsoft Purview listera comme source de données.

    2. Pour Abonnement Azure et Nom de l’espace de travail Databricks, sélectionnez l’abonnement et l’espace de travail que vous souhaitez analyser dans la liste déroulante. L’URL de l’espace de travail Databricks est automatiquement remplie.

    3. Pour Sélectionner une collection, choisissez une collection dans la liste ou créez-en une. Cette étape est facultative.

    Capture d’écran de l’inscription de la source Azure Databricks.

  6. Sélectionnez Terminer.

Analyser

Conseil

Pour résoudre les problèmes liés à l’analyse :

  1. Vérifiez que vous avez suivi toutes les conditions préalables.
  2. Consultez notre documentation sur la résolution des problèmes d’analyse.

Procédez comme suit pour analyser Azure Databricks afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez Analyses et ingestion dans Microsoft Purview.

  1. Accédez à Sources.

  2. Sélectionnez l’instance Azure Databricks inscrite.

  3. Sélectionnez + Nouvelle analyse.

  4. Fournissez les détails suivants :

    1. Nom : entrez un nom pour l’analyse.

    2. Méthode d’extraction : Indiquez pour extraire les métadonnées du metastore Hive ou du catalogue Unity. Sélectionnez Unity Catalog.

    3. Se connecter via le runtime d’intégration : choisissez le runtime d’intégration résolu automatiquement par défaut.

    4. Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :

      • Sélectionnez Authentification par jeton d’accès lors de la création d’informations d’identification.
      • Indiquez le nom secret du jeton d’accès personnel que vous avez créé dans Prérequis dans la zone appropriée.

      Pour plus d’informations, consultez Informations d’identification pour l’authentification source dans Microsoft Purview.

    5. Chemin HTTP : Spécifiez le chemin HTTP de Databricks SQL Warehouse auquel Microsoft Purview se connectera et effectuez l’analyse, par exemple /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Vous pouvez le trouver dans l’espace de travail Azure Databricks -> SQL Warehouses -> votre entrepôt - Détails de> la connexion -> Chemin HTTP.

  5. Cliquez sur Tester la connexion pour valider les paramètres.

    Capture d’écran de la configuration de l’analyse Azure Databricks Unity Catalog.

  6. Cliquez sur Continuer.

  7. Dans La page Étendue de votre analyse , sélectionnez le ou les catalogues que vous souhaitez analyser.

    Capture d’écran de la configuration de l’étendue pour l’analyse Azure Databricks.

  8. Pour Déclencheur d’analyse, choisissez de configurer une planification ou d’exécuter l’analyse une seule fois.

  9. Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.

Une fois l’analyse terminée, découvrez comment parcourir et rechercher des ressources.

Afficher vos analyses et exécutions d’analyse

Pour afficher les analyses existantes :

  1. Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
  2. Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
  3. Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
  4. Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.

Gérer vos analyses

Pour modifier, annuler ou supprimer une analyse :

  1. Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.

  2. Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .

  3. Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :

    • Modifiez l’analyse en sélectionnant Modifier l’analyse.
    • Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
    • Supprimez votre analyse en sélectionnant Supprimer l’analyse.

Remarque

  • La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
  • La ressource ne sera plus mise à jour avec des modifications de schéma si votre table source a changé et que vous réexécuterez la table source après avoir modifié la description sous l’onglet Schéma de Microsoft Purview.

Parcourir et rechercher des ressources

Après avoir analysé votre azure Databricks, vous pouvez parcourir le catalogue de données ou rechercher dans le catalogue de données pour afficher les détails de la ressource.

Lorsque vous naviguez par type de source, vous voyez deux entrées pour Azure Databricks Unity Catalog et Azure Databricks respectivement. Le premier contient les artefacts Unity Catalog, y compris le metastore et ses catalogues/schémas/tables/vues, tandis que le second contient l’espace de travail.

Capture d’écran de la navigation des ressources par type de source.

À partir de la ressource de l’espace de travail Azure Databricks, vous pouvez trouver le catalogue Unity associé sous l’onglet Propriétés. L’option inversée s’applique également.

Capture d’écran de la recherche du catalogue Unity associé avec la source Azure Databricks.

Prochaines étapes

Maintenant que vous avez inscrit votre source, utilisez les guides suivants pour en savoir plus sur Microsoft Purview et vos données :