Se connecter et gérer Snowflake dans Microsoft Purview

Article
11/13/2024

Cet article explique comment inscrire Snowflake et comment s’authentifier et interagir avec Snowflake dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.

Fonctionnalités prises en charge

Extraction de métadonnées	Analyse complète	Analyse incrémentielle	Analyse délimitée	Classification	Étiquetage	Stratégie d’accès	Traçabilité	Partage de données	Affichage en direct
Oui	Oui	Non	Oui	Oui	Oui	Non	Oui	Non	Non

Lors de l’analyse de la source Snowflake, Microsoft Purview prend en charge :

Extraction de métadonnées techniques, notamment :
- Serveur
- Bases de données
- Schémas
- Tables incluant les colonnes, les clés étrangères et les contraintes uniques
- Affichages, y compris les colonnes
- Procédures stockées, y compris le jeu de données de paramètres et le jeu de résultats
- Fonctions incluant le jeu de données de paramètres
- Tuyaux
- Stages
- Flux, y compris les colonnes
- Tâches
- Séquences
Extraction de la traçabilité statique sur les relations des ressources entre les tables, les vues, les flux et les procédures stockées.

Pour les procédures stockées, vous pouvez choisir le niveau de détails à extraire sur les paramètres d’analyse. La traçabilité des procédures stockées est prise en charge pour les langages Snowflake Scripting (SQL) et JavaScript, et générée en fonction de la définition de procédure.

Lors de la configuration de l’analyse, vous pouvez choisir d’analyser une ou plusieurs bases de données Snowflake entièrement basées sur le ou les modèles de nom donnés, ou d’étendre l’analyse à un sous-ensemble de schémas correspondant au ou aux modèles de nom donnés.

Limitations connues

Lorsque l’objet est supprimé de la source de données, l’analyse suivante ne supprime pas automatiquement la ressource correspondante dans Microsoft Purview.
La traçabilité des procédures stockées n’est pas prise en charge pour les modèles suivants :
- Procédure stockée définie dans les langages Java, Python et Scala.
- Procédure stockée utilisant SQL EXECUTE IMMEDIATE avec une requête SQL statique en tant que variable.

Configuration requise

Un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Un compte Microsoft Purview actif.
Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.
Choisissez la configuration du runtime d’intégration appropriée pour votre scénario.
- Pour utiliser Integration Runtime de réseau virtuel managé pour vous connecter à Snowflake via une liaison privée, suivez les étapes décrites dans Se connecter à Snowflake via un point de terminaison privé managé pour configurer le point de terminaison privé.
- Pour utiliser des Integration Runtime auto-hébergés pour l’analyse, configurez le dernier runtime d’intégration auto-hébergé. Pour plus d’informations, consultez le guide créer et configurer un runtime d’intégration auto-hébergé.
  - Vérifiez que JDK 11 est installé sur l’ordinateur sur lequel le runtime d’intégration auto-hébergé est installé. Redémarrez la machine après avoir installé le JDK pour qu’il prenne effet.
  - Vérifiez que Visual C++ Redistributable (version Visual Studio 2012 Update 4 ou ultérieure) est installé sur l’ordinateur du runtime d’intégration auto-hébergé. Si cette mise à jour n’est pas installée, vous pouvez la télécharger ici.

Autorisations requises pour l’analyse

Microsoft Purview prend en charge l’authentification de base (nom d’utilisateur et mot de passe) pour l’analyse de Snowflake. Le rôle par défaut de l’utilisateur donné sera utilisé pour effectuer l’analyse. L’utilisateur Snowflake doit disposer de droits d’utilisation sur un entrepôt et les bases de données à analyser, ainsi qu’un accès en lecture aux tables système pour accéder aux métadonnées avancées.

Voici un exemple de procédure pas à pas pour créer un utilisateur spécifiquement pour l’analyse Microsoft Purview et configurer les autorisations. Si vous choisissez d’utiliser un utilisateur existant, vérifiez qu’il dispose des droits appropriés sur les objets d’entrepôt et de base de données.

Configurer un purview_reader rôle. Pour ce faire, vous avez besoin de droits ACCOUNTADMIN .

USE ROLE ACCOUNTADMIN;

--create role to allow read only access - this will later be assigned to the Microsoft Purview user
CREATE OR REPLACE ROLE purview_reader;

--make sysadmin the parent role
GRANT ROLE purview_reader TO ROLE sysadmin;

Créez un entrepôt pour que Microsoft Purview utilise et accorde des droits.

--create warehouse - account admin required
CREATE OR REPLACE WAREHOUSE purview_wh WITH 
    WAREHOUSE_SIZE = 'XSMALL' 
    WAREHOUSE_TYPE = 'STANDARD' 
    AUTO_SUSPEND = 300 
    AUTO_RESUME = TRUE 
    MIN_CLUSTER_COUNT = 1 
    MAX_CLUSTER_COUNT = 2 
    SCALING_POLICY = 'STANDARD';

--grant rights to the warehouse
GRANT USAGE ON WAREHOUSE purview_wh TO ROLE purview_reader;

Créer un utilisateur pour l’analyse purview Microsoft Purview.

CREATE OR REPLACE USER purview 
    PASSWORD = '<password>'; 

--note the default role will be used during scan
ALTER USER purview SET DEFAULT_ROLE = purview_reader;

--add user to purview_reader role
GRANT ROLE purview_reader TO USER purview;

Accordez des droits de lecteur aux objets de base de données.

GRANT USAGE ON DATABASE <your_database_name> TO purview_reader;

--grant reader access to all the database structures that purview can currently scan
GRANT USAGE ON ALL SCHEMAS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE ON ALL FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE ON ALL PROCEDURES IN DATABASE <your_database_name> TO role purview_reader;
GRANT SELECT ON ALL TABLES IN DATABASE <your_database_name> TO role purview_reader;
GRANT SELECT ON ALL VIEWS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE, READ on ALL STAGES IN DATABASE <your_database_name> TO role purview_reader;

--grant reader access to any future objects that could be created
GRANT USAGE ON FUTURE SCHEMAS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE ON FUTURE FUNCTIONS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE ON FUTURE PROCEDURES IN DATABASE <your_database_name> TO role purview_reader;
GRANT SELECT ON FUTURE TABLES IN DATABASE <your_database_name> TO role purview_reader;
GRANT SELECT ON FUTURE VIEWS IN DATABASE <your_database_name> TO role purview_reader;
GRANT USAGE, READ ON FUTURE STAGES IN DATABASE <your_database_name> TO role purview_reader;

Inscrire

Cette section explique comment inscrire Snowflake dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.

Étapes d’inscription

Pour inscrire une nouvelle source Snowflake dans Catalogue unifié Microsoft Purview, procédez comme suit :

Accédez à votre compte Microsoft Purview dans le portail de gouvernance Microsoft Purview.
Sélectionnez Data Map dans le volet de navigation de gauche.
Sélectionnez Inscrire.
Dans Inscrire des sources, sélectionnez Snowflake. Cliquez sur Continuer.

Dans l’écran Inscrire des sources (Snowflake), procédez comme suit :

Entrez un Nom indiquant que la source de données sera répertoriée dans le catalogue.
Entrez l’URL du serveur sous la forme , <account_identifier>.snowflakecomputing.compar exemple. orgname-accountname.snowflakecomputing.com En savoir plus sur l’identificateur de compte Snowflake. Notez que cette URL est utilisée dans le cadre du nom complet des ressources Snowflake et qu’il s’agit du point de terminaison par défaut pour que Microsoft Purview se connecte à Snowflake pendant l’analyse.
Ajoutez des hôtes supplémentaires , le cas échéant. Spécifiez-le lorsque vous souhaitez que les opérations d’analyse se connectent à un point de terminaison Snowflake autre que l’URL du serveur. Vous pouvez choisir l’hôte pour la connexion pendant la configuration de l’analyse.

Conseil

Si vous avez déjà analysé Snowflake, mais que vous souhaitez basculer vers un autre point de terminaison (par exemple, du point de terminaison public au point de terminaison privé), vous pouvez ajouter un hôte supplémentaire dans la source de données et choisir cet hôte pour la connexion dans l’analyse afin de vous assurer que Microsoft Purview génère les ressources avec le même nom complet que précédemment.

Lors de l’inscription d’une source de données, Microsoft Purview effectue unicité case activée que l’URL du serveur et les hôtes supplémentaires ne chevauchent aucune source existante.
Sélectionnez une collection dans la liste.
Terminez l’inscription de la source de données.

Analyser

Suivez les étapes ci-dessous pour analyser Snowflake afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez notre présentation des analyses et de l’ingestion.

Authentification pour une analyse

Le type d’authentification pris en charge pour une source Snowflake est l’authentification de base.

Créer et exécuter une analyse

Pour créer et exécuter une nouvelle analyse, procédez comme suit :

Dans le portail de gouvernance Microsoft Purview, accédez à Sources.
Sélectionnez la source Snowflake inscrite.
Sélectionnez + Nouvelle analyse.
Fournissez les détails ci-dessous :
1. Nom : nom de l’analyse
2. Se connecter via le runtime d’intégration : sélectionnez le runtime d’intégration à résolution automatique Azure, le runtime d’intégration de réseau virtuel managé ou le SHIR en fonction de votre scénario. Pour plus d’informations , consultez Choisir la bonne configuration du runtime d’intégration pour votre scénario. Pour utiliser managed VNet IR pour vous connecter à Snowflake via une liaison privée, suivez les étapes décrites dans Se connecter à Snowflake via un point de terminaison privé managé afin de configurer d’abord le point de terminaison privé.
3. Hôte pour la connexion : choisissez le point de terminaison utilisé pour établir la connexion à Snowflake pendant l’analyse. Vous pouvez choisir parmi l’URL du serveur ou les hôtes supplémentaires que vous avez configurés dans la source de données.
4. Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :
  - Sélectionnez Authentification de base lors de la création d’informations d’identification.
  - Indiquez le nom d’utilisateur utilisé pour se connecter à Snowflake dans le champ d’entrée Nom d’utilisateur.
  - Stockez le mot de passe utilisateur utilisé pour se connecter à Snowflake dans la clé secrète.
5. Entrepôt : spécifiez le nom de l’entrepôt instance utilisé pour permettre l’analyse dans les cas majuscules. Le rôle par défaut attribué à l’utilisateur spécifié dans les informations d’identification doit avoir des droits d’UTILISATION sur cet entrepôt.
6. Bases de données : spécifiez un ou plusieurs noms de instance de base de données à importer en majuscules. Séparez les noms de la liste par un point-virgule (;). Par exemple : DB1;DB2. Le rôle par défaut attribué à l’utilisateur spécifié dans les informations d’identification doit disposer de droits adéquats sur les objets de base de données.
  
  Remarque
  
  La classification n’est pas appliquée aux tables lorsque plusieurs noms de instance de base de données sont spécifiés.
  
  Les modèles de nom de base de données acceptables peuvent être des noms statiques ou contenir des caractères génériques . Par exemple : A%;%B;%C%;D:
  - Commencer par A ou
  - Terminer par B ou
  - Contenir C ou
  - Égal à D
7. Schéma : Liste des sous-ensembles de schémas à importer, exprimés sous la forme d’une liste séparée par des points-virgules. Par exemple : schema1;schema2. Tous les schémas utilisateur sont importés si cette liste est vide. Tous les schémas et objets système sont ignorés par défaut.
  
  Les modèles de nom de schéma acceptables utilisant peuvent être des noms statiques ou contenir des caractères génériques . Par exemple : A%;%B;%C%;D:
  - Commencer par A ou
  - Terminer par B ou
  - Contenir C ou
  - Égal à D
  L’utilisation de NOT et de caractères spéciaux n’est pas acceptable.
8. Détails de la procédure stockée : contrôle le nombre de détails importés à partir des procédures stockées :
  - Signature (par défaut) : nom et paramètres des procédures stockées.
  - Code, signature : nom, paramètres et code des procédures stockées.
  - Traçabilité, code, signature : nom, paramètres et code des procédures stockées, ainsi que la traçabilité des données dérivée du code.
  - Aucun : les détails de la procédure stockée ne sont pas inclus.
  Remarque
  
  Si vous utilisez des Integration Runtime auto-hébergés pour l’analyse, un paramètre personnalisé autre que la signature par défaut est pris en charge depuis la version 5.30.8541.1. Les versions antérieures extraient toujours le nom et les paramètres des procédures stockées.
9. Mémoire maximale disponible (applicable lors de l’utilisation du runtime d’intégration auto-hébergé) : mémoire maximale (en Go) disponible sur la machine virtuelle du client à utiliser par les processus d’analyse. Cela dépend de la taille de la source Snowflake à analyser.
  
  Remarque
  
  En règle générale, fournissez 1 Go de mémoire pour 1 000 tables.
Sélectionnez Tester la connexion pour valider les paramètres (disponibles lors de l’utilisation d’Azure Integration Runtime).
Cliquez sur Continuer.
Sélectionnez un ensemble de règles d’analyse pour la classification. Vous pouvez choisir entre le système par défaut et les ensembles de règles personnalisés existants ou créer un nouvel ensemble de règles inline. Consultez l’article Classification pour en savoir plus.

Remarque

La classification ne sera pas appliquée aux tables ou aux vues lorsque le nom de la table, le nom de la vue, le nom du schéma ou le nom de la base de données contiennent des caractères spéciaux.

Remarque

Si vous utilisez le runtime auto-hébergé, vous devez effectuer une mise à niveau vers la version 5.26.404.1 ou ultérieure pour utiliser la classification Snowflake. Vous trouverez la dernière version du runtime d’intégration Microsoft ici.
Choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.

Afficher vos analyses et exécutions d’analyse

Pour afficher les analyses existantes :

Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.

Gérer vos analyses

Pour modifier, annuler ou supprimer une analyse :

Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.

Remarque

La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.

Traçabilité

Après avoir analysé votre source Snowflake, vous pouvez parcourir Catalogue unifié ou rechercher Catalogue unifié pour afficher les détails de la ressource.

Accédez à l’onglet Ressource -> Traçabilité, vous pouvez voir la relation de ressource le cas échéant. Reportez-vous à la section Fonctionnalités prises en charge pour les scénarios de traçabilité Snowflake pris en charge. Pour plus d’informations sur la traçabilité en général, consultez le guide de l’utilisateur sur la traçabilité et la traçabilité des données.

Vue de traçabilité Snowflake

Remarque

Si une vue a été créée par des tables de différentes bases de données, analysez toutes les bases de données simultanément à l’aide des noms figurant dans le point-virgule (;) liste).

Se connecter à Snowflake via un point de terminaison privé managé

Cette section décrit les étapes requises pour configurer un point de terminaison privé managé (PE) de Microsoft Purview vers Snowflake sur Azure. En savoir plus sur Azure Private Link et Snowflake.

Dans votre compte Snowflake, récupérez les points de terminaison cibles et l’ID de ressource. Exécutez la fonction système SYSTEM$GET_PRIVATELINK_CONFIG() avec account Administration rôle et notez les valeurs des propriétés suivantes :
- privatelink-pls-id
- privatelink-account-url
- regionless-privatelink-account-url
- privatelink_ocsp-url
```
use role accountadmin; 
select key, value::varchar from table(flatten(input=>parse_json(SYSTEM$GET_PRIVATELINK_CONFIG())));
```
Dans Microsoft Purview, créez un point de terminaison privé managé pour Snowflake.
1. Suivez les étapes pour Créer un Réseau virtuel Integration Runtime managé. Si vous en avez déjà un, vérifiez qu’il est dans la version 2 qui prend en charge Snowflake PE.
2. Créez un point de terminaison privé managé pour Snowflake. Accédez à Point de terminaison privé managé ->+ Nouveau ->Snowflake, puis renseignez les informations suivantes.
  - ID de ressource ou alias : renseignez la valeur de privatelink-pls-id que vous avez récupérée.
  - Noms de domaine complets : ajoutez les privatelink_ocsp-url, regionless-privatelink-account-url et privatelink-account-url.
Après avoir créé le pe, vous pouvez voir son état d’approvisionnement comme Réussi et l’état d’approbation comme Étant en attente. Ouvrez le PE et recherchez l’ID de ressource de point de terminaison privé managé dans la page détails.
Contactez le support technique Snowflake et fournissez l’ID de ressource pour permettre à Snowflake d’approuver ce PE.
Une fois que le support snowflake a confirmé que le PE est approuvé, vous devez voir l’état d’approbation de votre point de terminaison privé managé comme Approuvé dans Microsoft Purview.
Inscrivez la source de données et configurez une analyse. Lors de la configuration de l’analyse, choisissez le runtime d’intégration de réseau virtuel managé associé au pe Snowflake.

Conseils de dépannage

Vérifiez l’identificateur de votre compte à l’étape d’inscription de la source. N’incluez pas de https:// partie à l’avant.
Vérifiez que le nom de l’entrepôt et le nom de la base de données sont en majuscules sur la page de configuration de l’analyse.
Vérifiez votre coffre de clés. Vérifiez qu’il n’y a pas de fautes de frappe dans le mot de passe.
Vérifiez les informations d’identification que vous avez configurées dans Microsoft Purview. L’utilisateur que vous spécifiez doit avoir un rôle par défaut avec les droits d’accès nécessaires à l’entrepôt et à la base de données que vous essayez d’analyser. Consultez Autorisations requises pour l’analyse. UTILISEZ DESCRIBE USER; pour vérifier le rôle par défaut de l’utilisateur que vous avez spécifié pour Microsoft Purview.
Utilisez l’historique des requêtes dans Snowflake pour voir si une activité est en cours.
- En cas de problème avec l’identificateur de compte ou le mot de passe, vous ne verrez aucune activité.
- En cas de problème avec le rôle par défaut, vous devez au moins voir une USE WAREHOUSE . . . instruction.
- Vous pouvez utiliser la fonction de table QUERY_HISTORY_BY_USER pour identifier le rôle utilisé par la connexion. La configuration d’un utilisateur Microsoft Purview dédié facilite la résolution des problèmes.

Étapes suivantes

Maintenant que vous avez inscrit votre source, suivez les guides ci-dessous pour en savoir plus sur Microsoft Purview et vos données.

Partage via