Partager via


Démarrage rapide : data wrangling interactif avec Apache Spark dans Azure Machine Learning

Pour gérer le data wrangling des notebooks d’Azure Machine Learning interactifs, l’intégration d’Azure Machine Learning à Azure Synapse Analytics permet d’accéder facilement à l’infrastructure Apache Spark. Cet accès permet le data wrangling interactif Azure Machine Learning Notebook.

Dans ce guide de démarrage rapide, vous découvrez comment effectuer du data wrangling interactif avec un calcul Spark serverless Azure Machine Learning, un compte de stockage Azure Data Lake Storage (ADLS) Gen2 et le passthrough d’identité utilisateur.

Prérequis

Stocker les informations d’identification du compte de stockage Azure en tant que secrets dans Azure Key Vault

Pour stocker les informations d’identification du compte de stockage Azure en tant que secrets dans le coffre de clés Azure avec l’interface utilisateur du portail Azure :

  1. Accédez à votre coffre de clés Azure dans le portail Azure.

  2. Dans le volet gauche, sélectionnez Secrets.

  3. Sélectionnez + Générer/importer.

    Capture d’écran montrant l’onglet Générer ou importer des secrets Azure Key Vault.

  4. Dans l’écran Créer un secret, entrez un Nom pour le secret que vous voulez créer.

  5. Dans le portail Azure, accédez au compte Stockage Blob Azure, comme illustré dans cette image :

    Capture d’écran montrant l’écran des valeurs de la clé d’accès et de la chaîne de connexion Azure.

  6. Sélectionnez Clés d’accès dans le volet gauche de la page du compte Stockage Blob Azure.

  7. Sélectionnez Afficher en regard de Clé 1, puis Copier dans le Presse-papiers pour obtenir la clé d’accès du compte de stockage.

    Remarque

    Sélectionnez les options appropriées pour copier

    • Jetons de signature d’accès partagé (SAP) du conteneur de stockage Blob Azure
    • Informations d’identification du principal de service de compte de stockage Azure Data Lake Storage (ADLS) Gen 2
      • ID client
      • ID client et
      • secret

    dans les interfaces utilisateur respectives lors de la création des secrets Azure Key Vault pour ceux-ci.

  8. Revenez à l’écran Créer un secret.

  9. Dans la zone de texte Valeur du secret, entrez les informations d’identification de la clé d’accès pour le compte de stockage Azure, qui ont été copiées dans le Presse-papiers à l’étape précédente.

  10. Sélectionnez Créer

    Capture d’écran montrant l’écran de création de secrets Azure.

Conseil

Azure CLI et Azure Key Vault bibliothèque de client de secrets pour Python peuvent également créer des secrets Azure Key Vault.

Ajouter des attributions de rôles dans des comptes de stockage Azure

Nous devons nous assurer que les chemins d’accès aux données d’entrée et de sortie sont accessibles avant de commencer le data wrangling interactif. Tout d’abord, pour

  • L’identité utilisateur de l’utilisateur connecté à la session Notebooks

    or

  • un principal du service

Attribuez des rôles Lecteur et Lecteur des données BLOB du stockage à l’identité de l’utilisateur connecté. Toutefois, dans certains scénarios, nous pourrions vouloir réécrire les données étranglées dans le compte de stockage Azure. Les rôles Lecteur et Lecteur de données Blob de stockage fournissent un accès en lecture seule à l’identité de l’utilisateur ou au principal de service. Pour activer l’accès en lecture et en écriture, attribuez les rôles Contributeur et Contributeur aux données blob de stockage à l’identité utilisateur ou au principal de service. Pour attribuer des rôles appropriés à l’identité d’utilisateur :

  1. Ouvrez le portail Microsoft Azure.

  2. Recherchez et sélectionnez le service Comptes de stockage.

    Capture d’écran extensible montrant la recherche et la sélection du service Comptes de stockage dans le portail Microsoft Azure.

  3. Dans la page Comptes de stockage, sélectionnez le compte de stockage Azure Data Lake Storage (ADLS) Gen 2 dans la liste. Une page montrant la Vue d’ensemble du compte de stockage s’ouvre.

    Capture d’écran extensible montrant la sélection du compte de stockage Azure Data Lake Storage (ADLS) Gen2.

  4. Dans le volet de gauche, sélectionnez Contrôle d’accès (IAM).

  5. Sélectionnez Ajouter une attribution de rôle.

    Capture d’écran montrant l’écran des clés d’accès Azure.

  6. Recherchez et sélectionnez le rôle Contributeur aux données blob du stockage

  7. Sélectionnez Suivant.

    Capture d’écran montrant l’écran Ajouter une attribution de rôle d’Azure.

  8. Sélectionnez Utilisateur, groupe ou principal de service.

  9. Sélectionnez + Sélectionner des membres.

  10. Recherchez l’identité de l’utilisateur sous Sélectionner

  11. Sélectionnez l’identité de l’utilisateur dans la liste afin qu’elle s’affiche sous Membres sélectionnés

  12. Sélectionner l’identité d’utilisateur appropriée

  13. Sélectionnez Suivant.

    Capture d’écran montrant l’onglet Membres de l’écran Ajouter une attribution de rôle d’Azure.

  14. Sélectionnez Vérifier + attribuer

    Capture d’écran montrant l’onglet Révision et attribution de l’écran d’ajout de rôle Azure.

  15. Répétez les étapes 2 à 13 pour l’attribution du rôle Contributeur.

Une fois que les rôles appropriés ont été attribués à l’identité de l’utilisateur, les données du compte de stockage Azure doivent devenir accessibles.

Remarque

Si un pool Synapse Spark attaché pointe vers un pool Synapse Spark dans un espace de travail Azure Synapse auquel est associé un réseau virtuel managé, vous devez configurer un point de terminaison privé managé pour un compte de stockage de façon à garantir l’accès aux données.

Garantir l’accès aux ressources pour les travaux Spark

Pour accéder aux données et aux autres ressources, les tâches Spark peuvent utiliser une identité managée ou un passthrough d’identité utilisateur. Le tableau suivant résume les différents mécanismes d’accès aux ressources quand vous utilisez un calcul Spark serverless Azure Machine Learning et un pool Spark Synapse attaché.

Pool Spark Identités prises en charge Identité par défaut
Calcul Spark serverless Identité utilisateur, identité managée affectée par l’utilisateur attachée à l’espace de travail Identité de l’utilisateur
Pool Spark Synapse attaché Identité utilisateur, identité managée affectée par l’utilisateur attachée au pool Synapse Spark attaché, identité managée affectée par le système du pool Synapse Spark attaché Identité managée affectée par le système du pool Spark Synapse attaché

Si le code de l’interface CLI ou du kit de développement logiciel (SDK) définit une option pour utiliser l’identité managée, le calcul Spark serverless d’Azure Machine Learning repose sur une identité managée affectée par l’utilisateur attachée à l’espace de travail. Vous pouvez attacher une identité managée affectée par l’utilisateur à un espace de travail Azure Machine Learning existant avec Azure Machine Learning CLI v2 ou avec ARMClient.

Étapes suivantes