Démarrage rapide : data wrangling interactif avec Apache Spark dans Azure Machine Learning

Pour gérer le data wrangling des notebooks d’Azure Machine Learning interactifs, l’intégration d’Azure Machine Learning à Azure Synapse Analytics permet d’accéder facilement à l’infrastructure Apache Spark. Cet accès permet le data wrangling interactif Azure Machine Learning Notebook.

Dans ce guide de démarrage rapide, vous apprenez à réaliser un data wrangling interactif à l’aide du calcul Spark serverless d’Azure Machine Learning, du compte de stockage Azure Data Lake Storage (ADLS) Gen 2 et du passthrough d’identité utilisateur.

Prérequis

Stocker les informations d’identification du compte de stockage Azure en tant que secrets dans Azure Key Vault

Pour stocker les informations d’identification du compte de stockage Azure en tant que secrets dans le Key Vault Azure à l’aide de l’interface utilisateur Portail Azure :

  1. Accédez à votre coffre de clés Azure dans le portail Azure.

  2. Dans le volet gauche, sélectionnez Secrets.

  3. Sélectionnez + Générer/importer.

    Capture d’écran montrant l’onglet Générer ou importer des secrets Azure Key Vault.

  4. Dans l’écran Créer un secret , entrez un Nom pour le secret que vous souhaitez créer.

  5. Accédez au compte Stockage Blob Azure, dans le portail Azure, comme illustré dans cette image :

    Capture d’écran montrant l’écran des valeurs de la clé d’accès et de la chaîne de connexion Azure.

  6. Sélectionnez Clés d’accès dans le volet gauche de la page compte Stockage Blob Azure.

  7. Sélectionnez Afficher en regard de Clé 1, puis Copier dans le Presse-papiers pour obtenir la clé d’accès au compte de stockage.

    Notes

    Sélectionner les options appropriées à copier

    • Jetons de signature d’accès partagé (SAP) du conteneur de stockage Blob Azure
    • Informations d’identification du principal de service de compte de stockage Azure Data Lake Storage (ADLS) Gen 2
      • ID client
      • ID client et
      • secret

    sur les interfaces utilisateur respectives lors de la création de secrets Azure Key Vault pour eux.

  8. Revenez à l’écran Créer un secret .

  9. Dans la zone de texte Valeur du secret , entrez les informations d’identification de la clé d’accès pour le compte de stockage Azure, qui ont été copiées dans le Presse-papiers à l’étape précédente.

  10. Sélectionnez Créer.

    Capture d’écran montrant l’écran de création de secrets Azure.

Conseil

Azure CLI et Azure Key Vault bibliothèque de client de secrets pour Python peuvent également créer des secrets Azure Key Vault.

Ajouter des attributions de rôles dans des comptes de stockage Azure

Nous devons nous assurer que les chemins d’accès aux données d’entrée et de sortie sont accessibles avant de commencer le data wrangling interactif. Tout d’abord, pour

  • l’identité utilisateur de l’utilisateur connecté à la session Notebooks ou
  • un principal du service

Attribuez des rôles Lecteur et Lecteur des données BLOB du stockage à l’identité de l’utilisateur connecté. Toutefois, dans certains scénarios, nous pourrions vouloir réécrire les données étranglées dans le compte de stockage Azure. Les rôles Lecteur et Lecteur de données Blob de stockage fournissent un accès en lecture seule à l’identité de l’utilisateur ou au principal de service. Pour activer l’accès en lecture et en écriture, attribuez les rôles Contributeur et Contributeur aux données blob de stockage à l’identité utilisateur ou au principal de service. Pour attribuer des rôles appropriés à l’identité d’utilisateur :

  1. Ouvrez le Portail Azure Microsoft.

  2. Recherchez et sélectionnez le service Comptes de stockage.

    Capture d’écran extensible montrant la recherche et la sélection du service Comptes de stockage, dans Microsoft Portail Azure.

  3. Dans la page Comptes de stockage, sélectionnez le compte de stockage Azure Data Lake Storage (ADLS) Gen 2 dans la liste. Une page montrant la vue d’ensemble du compte de stockage s’ouvrira.

    Capture d’écran extensible montrant la sélection du compte de stockage Azure Data Lake Storage (ADLS) Gen2.

  4. Dans le volet de gauche, sélectionnez Contrôle d’accès (IAM).

  5. Sélectionnez Ajouter une attribution de rôle.

    Capture d’écran montrant l’écran des touches d’accès Azure.

  6. Recherchez et sélectionnez le rôle Contributeur aux données blob du stockage

  7. Sélectionnez Suivant.

    Capture d’écran montrant l’écran Ajouter une attribution de rôle Azure.

  8. Sélectionnez Utilisateur, groupe ou principal de service.

  9. Sélectionnez + Sélectionner des membres.

  10. Recherchez l’identité de l’utilisateur sous Sélectionner

  11. Sélectionnez l’identité de l’utilisateur dans la liste afin qu’elle s’affiche sous Membres sélectionnés

  12. Sélectionner l’identité d’utilisateur appropriée

  13. Sélectionnez Suivant.

    Capture d’écran montrant l’onglet Membres de l’écran d’ajout de rôle Azure.

  14. Sélectionnez Vérifier + attribuer

    Capture d’écran montrant l’onglet Révision et attribution de l’écran d’ajout de rôle Azure.

  15. Répétez les étapes 2 à 13 pour l’attribution du rôle Contributeur .

Une fois que les rôles appropriés ont été attribués à l’identité de l’utilisateur, les données du compte de stockage Azure doivent devenir accessibles.

Notes

Si un pool Synapse Spark attaché pointe vers un pool Synapse Spark dans un espace de travail Azure Synapse auquel est associé un réseau virtuel managé, un point de terminaison privé managé vers un compte de stockage doit être configuré pour garantir l’accès aux données.

Garantir l’accès aux ressources pour les travaux Spark

Pour accéder aux données et aux autres ressources, les tâches Spark peuvent utiliser une identité managée ou un passthrough d’identité utilisateur. Le tableau suivant résume les différents mécanismes d’accès aux ressources lors de l’utilisation du calcul Spark serverless d’Azure Machine Learning et du pool Spark Synapse attaché.

Pool Spark Identités prises en charge Identité par défaut
Calcul Spark serverless Identité utilisateur, identité managée affectée par l’utilisateur attachée à l’espace de travail Identité de l’utilisateur
Pool Spark Synapse attaché Identité utilisateur, identité managée affectée par l’utilisateur attachée au pool Synapse Spark attaché, identité managée affectée par le système du pool Synapse Spark attaché Identité managée affectée par le système du pool Spark Synapse attaché

Si le code de l’interface CLI ou du kit de développement logiciel (SDK) définit une option pour utiliser l’identité managée, le calcul Spark serverless d’Azure Machine Learning repose sur une identité managée affectée par l’utilisateur attachée à l’espace de travail. Vous pouvez attacher une identité managée affectée par l’utilisateur à un espace de travail Azure Machine Learning existant à l’aide d’Azure Machine Learning CLI v2 ou à l’aide de ARMClient.

Étapes suivantes