Partager via


Se connecter à Google Cloud Storage

Cet article explique comment configurer un connecteur à partir d’Azure Databricks pour lire et écrire des tables et des données stockées sur Google Cloud Storage (GCS).

Pour lire ou écrire à partir d’un compartiment GCS, vous devez créer un compte de service attaché et y associer le compartiment avec le compte de service. Vous vous connectez directement au compartiment avec une clé que vous générez pour le compte de service.

Accéder à un compartiment GCS directement avec une clé de compte de service Google Cloud

Pour lire et écrire directement dans un compartiment, vous configurez une clé définie dans votre Configuration Spark.

Étape 1 : configurer le compte de service Google Cloud à l’aide de la console Google Cloud

Vous devez créer un compte de service pour le cluster Azure Databricks. Databricks recommande de donner à ce compte de service les privilèges minimum nécessaires pour effectuer ses tâches.

  1. Cliquez sur IAM et Administration dans le volet de navigation gauche.

  2. Cliquez sur Comptes de service.

  3. Cliquez sur + CRÉER UN COMPTE DE SERVICE.

  4. Entrez le nom et la description du compte de service.

    Créer un compte de service Google pour GCS

  5. Cliquez sur CREATE (Créer).

  6. Cliquez sur CONTINUE (Continuer).

  7. Cliquez sur TERMINÉ.

Étape 2 : créer une clé pour accéder directement au compartiment GCS

Avertissement

La clé JSON que vous générez pour le compte de service est une clé privée qui doit être partagée uniquement avec les utilisateurs autorisés, car elle contrôle l’accès aux jeux de données et aux ressources de votre compte Google Cloud.

  1. Dans la console Google Cloud, dans la liste des comptes de service, cliquez sur le compte nouvellement créé.

  2. Dans la section Clés, cliquez sur AJOUTER CLÉ > Créer une clé.

    Google créer une clé

  3. Acceptez le type de clé JSON.

  4. Cliquez sur CREATE (Créer). Le fichier clé est téléchargé sur votre ordinateur.

Étape 3 : configurer le compartiment GCS

Créer un compartiment

Si vous n’avez pas encore de compartiment, créez-en un :

  1. Cliquez sur Stockage dans la colonne de navigation de gauche.

  2. Cliquez sur CRÉER UN COMPARTIMENT.

    Google créer un compartiment

  3. Cliquez sur CREATE (Créer).

Configurer le compartiment

  1. Configurez les détails du compartiment.

  2. Cliquez sur l'onglet Permissions .

  3. En regard de l’étiquette Autorisations, cliquez sur AJOUTER.

    Détails du compartiment Google

  4. Fournissez l’autorisation Administrateur du stockage au compte de service sur le compartiment à partir des rôles stockage cloud.

    Autorisations de compartiment Google

  5. Cliquez sur ENREGISTRER.

Étape 4 : placer la clé de compte de service dans des secrets Databricks

Databricks recommande d’utiliser des étendues de secret pour stocker toutes les informations d’identification. Vous pouvez placer la clé privée et l’ID de clé privée de votre fichier JSON de clé dans des étendues de secrets Databricks. Vous pouvez accorder aux utilisateurs, aux principaux de service et aux groupes de votre espace de travail un accès pour lire les étendues de secret. Cela protège la clé de compte de service tout en permettant aux utilisateurs d’accéder à GCS. Pour créer une étendue de secret, consultez Secrets.

Étape 5 : configurer un cluster Azure Databricks

  1. Sous l’onglet Configuration Spark, utilisez l’extrait de code suivant pour définir les clés stockées dans des étendues de secret :

    spark.hadoop.google.cloud.auth.service.account.enable true
    spark.hadoop.fs.gs.auth.service.account.email <client-email>
    spark.hadoop.fs.gs.project.id <project-id>
    spark.hadoop.fs.gs.auth.service.account.private.key {{secrets/scope/gsa_private_key}}
    spark.hadoop.fs.gs.auth.service.account.private.key.id {{secrets/scope/gsa_private_key_id}}
    

    Remplacez <client-email>, <project-id> par les valeurs de ces noms de champs exacts de votre fichier JSON de clé.

Utilisez à la fois le contrôle d’accès au cluster et le contrôle d’accès au notebook pour protéger l’accès au compte de service et aux données dans le compartiment GCS. Consultez Autorisations de calcul et Collaborer à l’aide de notebooks Databricks.

Étape 6 : lecture à partir de GCS

Pour lire à partir du compartiment GCS, utilisez une commande de lecture Spark dans n’importe quel format pris en charge, par exemple :

df = spark.read.format("parquet").load("gs://<bucket-name>/<path>")

Pour écrire dans le compartiment GCS, utilisez une commande d’écriture Spark dans n’importe quel format pris en charge, par exemple :

df.write.mode("<mode>").save("gs://<bucket-name>/<path>")

Remplacez <bucket-name> par le nom du compartiment créé à l’Étape 3 : configurer le compartiment GCS.

Exemples de notebooks

Lire à partir du notebook Google Cloud Storage

Obtenir le notebook

Écrire dans le notebook Google Cloud Storage

Obtenir le notebook