Accéder aux données partagées avec vous à l'aide de Delta Sharing (pour les destinataires)

Cet article explique comment accéder aux données qui ont été partagées avec vous à l’aide du Delta Sharing.

Delta Sharing et destinataires de données

Delta Sharing est une norme ouverte pour le partage de données sécurisé. Un utilisateur Databricks, appelé fournisseur de données, peut utiliser Delta Sharing pour partager des données avec une personne ou un groupe en dehors de son organisation, appelé destinataire de données.

Partage Databricks à Databricks et partage ouvert

La façon dont vous accédez aux données dépend du fait que vous êtes vous-même un utilisateur de Databricks et que votre fournisseur de données a configuré ou non les données partagées avec vous pour le partage Databricks à Databricks ou le partage ouvert.

Dans le modèle Databricks à Databricks, vous devez être un utilisateur sur un espace de travail Databricks activé pour Unity Catalog. Un membre de votre équipe attribue au fournisseur de données un identificateur unique pour votre metastore Unity Catalog et le fournisseur de données l’utilise pour créer une connexion de partage sécurisée. Les données partagées deviennent disponibles pour l’accès dans votre espace de travail. Si nécessaire, un membre de votre équipe configure un contrôle d’accès granulaire sur ces données.

Dans le modèle de partage ouvert, vous pouvez utiliser n’importe quel outil de votre choix (y compris Databricks) pour accéder aux données partagées. Le fournisseur de données vous envoie une URL d’activation via un canal sécurisé. Vous le suivez pour télécharger un fichier d’informations d’identification qui vous permet d’accéder aux données partagées avec vous.

Conditions d’utilisation

Les données partagées ne sont pas fournies directement par Databricks, mais par des fournisseurs de données s’exécutant sur Azure Databricks.

Notes

En accédant aux données partagées d’un fournisseur de données en tant que destinataire de données, le destinataire de données indique qu’il a été autorisé à accéder aux partages de données qui lui sont fournis par le fournisseur de données, et reconnaît que (1) Databricks n’est pas responsable de l’utilisation de ces données partagées, y compris par le destinataire de données, et (2) Databricks peut collecter des informations sur l’utilisation et l’accès aux données partagées par le destinataire des données (y compris l’identification de toute personne ou société accédant aux données à l’aide du fichier d’informations d’identification se rapportant à ces informations) et peut les partager avec le fournisseur de données applicable.

Accéder aux données partagées avec vous

La façon dont vous accédez aux données dépend de la façon dont votre fournisseur de données a partagé les données avec vous en utilisant le protocole de partage ouvert ou du protocole de partage Databricks à Databricks. Consultez Partage Databricks à Databricks et partage ouvert.

Obtenir l’accès dans le modèle Databricks à Databricks

Dans le modèle Databricks à Databricks :

  1. Le fournisseur de données vous envoie des instructions pour trouver un identificateur unique pour le metastore Unity Catalog associé à votre espace de travail Databricks, et vous l’envoyez à celui-ci.

    L’identificateur de partage est une chaîne composée du cloud, de la région et de l’UUID (identificateur unique du metastore), au format <cloud>:<region>:<uuid>. Par exemple : aws:eu-west-1:b0c978c8-3e68-4cdf-94af-d05c120ed1ef.

    Pour obtenir l'identifiant de partage à l'aide de l'Explorateur de catalogue :

    1. Dans votre espace de travail Azure Databricks, cliquez sur l'icône CatalogueCatalogue.
    2. Dans le volet gauche, développez le menu Delta Sharing et sélectionnez Partagé avec moi.
    3. Au-dessus de l’onglet Fournisseurs, cliquez sur l’icône de copie Identificateur de partage.

    Pour obtenir l’identificateur de partage à l’aide d’un notebook ou d’une requête SQL Databricks, utilisez la fonction CURRENT_METASTORE SQL par défaut. Si vous utilisez un notebook, il doit s’exécuter sur un cluster partagé ou mono-utilisateur dans l’espace de travail que vous utiliserez pour accéder aux données partagées.

    SELECT CURRENT_METASTORE();
    
  2. Le fournisseur de données crée :

    • Un destinataire dans son compte Databricks pour vous représenter et représenter les utilisateurs de votre organisation qui accéderont aux données.
    • Un partage, qui est une représentation des tables, volumes et vues à partager avec vous.
  3. Vous accédez aux données partagées avec vous. Vous ou un membre de votre équipe pouvez, si nécessaire, configurer l’accès granulaire aux données sur ces données pour vos utilisateurs. Consultez Lire les données partagées à l’aide du partage Delta Databricks-to-Databricks (pour les destinataires).

Obtenir l’accès dans le modèle de partage ouvert

Dans le modèle de partage ouvert :

  1. Le fournisseur de données crée :

    • Un destinataire dans son compte Databricks pour vous représenter et représenter les utilisateurs de votre organisation qui accéderont aux données. Un jeton et un fichier d’informations d’identification sont générés dans le cadre de cette configuration.
    • Un partage, qui est une représentation des tables et des partitions à partager avec vous.
  2. Le fournisseur de données vous envoie une URL d’activation via un canal sécurisé. Vous le suivez pour télécharger un fichier d’informations d’identification qui vous permet d’accéder aux données partagées avec vous.

    Important

    Ne partagez le lien d’activation avec personne. Vous ne pouvez télécharger un fichier d’informations d’identification qu’une seule fois. Si vous revenez au lien d’activation après avoir téléchargé le fichier d’informations d’identification, le bouton Download Credential File (Télécharger le fichier d’informations d’identification) est désactivé.

    Si vous perdez le lien d’activation avant de l’utiliser, contactez le fournisseur de données.

  3. Stockez le fichier d’informations d’identification dans un emplacement sécurisé.

    Ne partagez pas le fichier d’informations d’identification avec des personnes extérieures au groupe d’utilisateurs qui doivent avoir accès aux données partagées. Si vous devez le partager avec une personne de votre organisation, Databricks recommande l’utilisation d’un gestionnaire de mots de passe.

Lire les données partagées

La façon dont vous lisez les données qui ont été partagées en toute sécurité avec vous à l’aide de Delta Sharing dépend du fait que vous avez reçu un fichier d’informations d’identification (le modèle de partage ouvert) ou que vous utilisez un espace de travail Databricks et que vous avez fourni au fournisseur de données votre identificateur de partage (le modèle Databricks à Databricks).

Lire des données partagées à l’aide d’un fichier d’informations d’identification (partage ouvert)

Si des données ont été partagées avec vous à l’aide du protocole de partage ouvert Delta Sharing, vous utilisez le fichier d’informations d’identification que vous avez téléchargé pour vous authentifier auprès du compte Databricks du fournisseur de données et lire les données partagées. L’accès persiste tant que le jeton sous-jacent est valide et que le fournisseur continue de partager les données. Les fournisseurs gèrent l’expiration et la rotation de jetons. Les mises à jour des données sont disponibles en quasi temps réel. Vous pouvez lire et créer des copies des données partagées, mais vous ne pouvez pas modifier les données sources.

Pour savoir comment accéder et lire les données partagées à l'aide du fichier d'informations d'identification dans Azure Databricks, Apache Spark, pandas et Power BI, consultez Lire les données partagées à l'aide du partage ouvert Delta Sharing (pour les destinataires).

Lire des données partagées à l’aide du partage Databricks à Databricks

Si des données ont été partagées avec vous à l’aide du modèle Databricks à Databricks, aucun fichier d’informations d’identification n’est nécessaire pour accéder aux données partagées. Databricks prend en charge la connexion sécurisée et les données partagées sont automatiquement détectables dans votre espace de travail Databricks.

Pour savoir comment rechercher, lire et gérer ces données partagées dans votre espace de travail Databricks, consultez Lire les données partagées à l'aide du partage Delta Databricks-to-Databricks (pour les destinataires).

Auditer l’utilisation des données partagées

Si vous avez accès à un espace de travail Azure Databricks, vous pouvez utiliser les journaux d’audit Azure Databricks pour comprendre qui, dans votre organisation, accède à quelles données à l’aide de Delta Sharing. Consultez Auditer et surveiller le partage de données.

Étapes suivantes