Guida di avvio rapido: data wrangling interattivo con Apache Spark in Azure Machine Learning

Per gestire il data wrangling interattivo dei notebook di Azure Machine Learning, l'integrazione di Azure Machine Learning con Azure Synapse Analytics consente di accedere facilmente al framework Apache Spark. Questo accesso consente il data wrangling interattivo del notebook Azure Machine Learning.

Questa guida introduttiva illustra come eseguire il wrangling dei dati interattivi con il calcolo Spark serverless di Azure Machine Learning, l'account di archiviazione azure Data Lake Archiviazione (ADLS) Gen 2 e il pass-through dell'identità utente.

Prerequisiti

  • Una sottoscrizione di Azure; se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Un'area di lavoro di Azure Machine Learning. Vedere Creare risorse dell'area di lavoro.
  • Un account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2. Vedere Creare un account di archiviazione di Azure Data Lake Archiviazione (ADLS) Gen 2.

Archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault

Per archiviare le credenziali dell'account di archiviazione di Azure come segreti in Azure Key Vault, con l'interfaccia utente portale di Azure:

  1. Passare all'insieme di credenziali delle chiavi di Azure nel portale di Azure

  2. Selezionare Segreti nel pannello sinistro

  3. Selezionare + Genera/Importa

    Screenshot che mostra la scheda Genera o importa i segreti di Azure Key Vault.

  4. Nella schermata Crea un segreto immettere un nome per il segreto che si vuole creare

  5. Passare a Archiviazione BLOB di Azure Account, nella portale di Azure, come illustrato in questa immagine:

    Screenshot che mostra la schermata chiave di accesso di Azure e stringa di connessione valori.

  6. Selezionare Chiavi di accesso nel pannello sinistro della pagina account Archiviazione BLOB di Azure

  7. Selezionare Mostra accanto alla chiave 1 e quindi Copia negli Appunti per ottenere la chiave di accesso dell'account di archiviazione

    Nota

    Selezionare le opzioni appropriate da copiare

    • Token di firma di accesso condiviso del contenitore di archiviazione BLOB di Azure
    • Credenziali dell'entità servizio dell'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2
      • ID del tenant
      • ID client e
      • secret

    nelle rispettive interfacce utente durante la creazione dei segreti di Azure Key Vault

  8. Tornare alla schermata Crea un segreto

  9. Nella casella di testo Valore segreto immettere le credenziali della chiave di accesso per l'account di archiviazione di Azure, copiato negli Appunti nel passaggio precedente

  10. Selezionare Crea.

    Screenshot che mostra la schermata di creazione del segreto di Azure.

Aggiungere assegnazioni di ruolo negli account di archiviazione di Azure

È necessario assicurarsi che i percorsi di dati di input e output siano accessibili prima di avviare il data wrangling interattivo. In primo luogo, per

  • l'identità utente della sessione Notebooks che ha eseguito l'accesso

    or

  • Un'entità servizio

per assegnare i ruoli di Lettore e Lettore dei dati del BLOB di archiviazione all'identità utente dell'utente connesso. In alcuni scenari, tuttavia, potrebbe essere necessario scrivere nuovamente i dati scelti nell'account di archiviazione di Azure. I ruoli Lettore e Lettore dei dati del BLOB di archiviazione forniscono l'accesso in sola lettura all'identità utente o all'entità servizio. Per abilitare l'accesso in lettura e scrittura, assegnare i ruoli Collaboratore e Collaboratore ai dati dei BLOB di archiviazione all'identità utente o all'entità servizio. Per assegnare ruoli appropriati all'identità utente:

  1. Aprire microsoft portale di Azure

  2. Cercare e selezionare il servizio account Archiviazione

    Screenshot espandibile che mostra la ricerca e la selezione del servizio account Archiviazione in Microsoft portale di Azure.

  3. Nella pagina Account di archiviazione selezionare l'account di archiviazione di Azure Data Lake Storage (ADLS) Gen 2 nell'elenco. Verrà visualizzata una pagina che mostra la panoramica dell'account di archiviazione

    Screenshot espandibile che mostra la selezione dell'account di archiviazione azure Data Lake Archiviazione (ADLS) Gen 2 Archiviazione.

  4. Selezionare Controllo di accesso (IAM) nel pannello a sinistra

  5. Selezionare Aggiungi assegnazione di ruolo

    Screenshot che mostra la schermata dei tasti di accesso di Azure.

  6. Trovare e selezionare il ruolo Collaboratore ai dati dei BLOB di archiviazione

  7. Selezionare Avanti.

    Screenshot che mostra la schermata Aggiungi assegnazione di ruolo di Azure.

  8. Selezionare Utente, gruppo o entità servizio

  9. Selezionare + Seleziona membri

  10. Cercare l'identità utente sotto Seleziona

  11. Selezionare l'identità utente nell'elenco, in modo che venga visualizzata in Membri selezionati

  12. Selezionare l'identità utente appropriata

  13. Selezionare Avanti.

    Screenshot che mostra la scheda Membri della schermata Aggiungi assegnazione di ruolo di Azure.

  14. Selezionare Rivedi e assegna

    Screenshot che mostra la schermata Aggiungi assegnazione di ruolo di Azure e la scheda Assegna.

  15. Ripetere i passaggi da 2 a 13 per l'assegnazione di ruolo Collaboratore

Una che l'identità utente ha i ruoli appropriati assegnati, i dati nell'account di archiviazione di Azure devono diventare accessibili.

Nota

Se un pool di Synapse Spark collegato punta a un pool di Synapse Spark, in un'area di lavoro di Azure Synapse, a cui è associata una rete virtuale gestita, è necessario configurare un endpoint privato gestito in un account di archiviazione per garantire l'accesso ai dati.

Garantire l'accesso alle risorse per i processi Spark

Per accedere ai dati e ad altre risorse, i processi Spark possono usare un'identità gestita o un pass-through identità utente. La tabella seguente riepiloga i diversi meccanismi per l'accesso alle risorse mentre si usa il calcolo Spark serverless di Azure Machine Learning e il pool di Spark collegato synapse.

Pool Spark Identità supportate Identità predefinita
Calcolo Spark serverless Identità utente, identità gestita assegnata dall'utente collegata all'area di lavoro Identità utente
Pool di Spark Synapse collegato Identità utente, identità gestita assegnata dall'utente collegata al pool di Spark synapse collegato, identità gestita assegnata dal sistema del pool di Spark synapse collegato Identità gestita assegnata dal sistema del pool di Spark synapse collegato

Se il codice dell'interfaccia della riga di comando o del Software Development Kit (SDK) definisce un'opzione per l'uso dell'identità gestita, il calcolo Spark serverless di Azure Machine Learning si basa su un'identità gestita assegnata dall'utente collegata all'area di lavoro. È possibile collegare un'identità gestita assegnata dall'utente a un'area di lavoro di Azure Machine Learning esistente con l'interfaccia della riga di comando di Azure Machine Learning v2 o con ARMClient.

Passaggi successivi