Integrare OneLake con Azure HDInsight

Azure HDInsight è un servizio gestito basato sul cloud per l'analisi di Big Data che consente alle organizzazioni di elaborare grandi quantità di dati. Questa esercitazione illustra come connettersi a OneLake con un notebook jupyter da un cluster Azure HDInsight.

Uso di Azure HDInsight

Per connettersi a OneLake con un notebook jupyter da un cluster HDInsight:

  1. Creare un cluster HDInsight (HDI) Spark. Seguire queste istruzioni: Configurare i cluster in HDInsight.

    1. Quando si forniscono informazioni sul cluster, tenere presente il nome utente e la password dell'account di accesso del cluster, perché saranno necessari per accedere al cluster in un secondo momento.

    2. Creare un'identità gestita assegnata dall'utente : creare per Azure HDInsight - UAMI e sceglierla come identità nella schermata Archiviazione.

      Screenshot che mostra dove immettere l'identità gestita assegnata dall'utente nella schermata Archiviazione.

  2. Concedere a questa interfaccia utente l'accesso all'area di lavoro Infrastruttura che contiene gli elementi. Per informazioni sulla scelta del ruolo migliore, vedere Ruoli dell'area di lavoro.

    Screenshot che mostra dove selezionare un elemento nel pannello Gestisci accesso.

  3. Passare al lakehouse e trovare il nome dell'area di lavoro e del lakehouse. È possibile trovarli nell'URL del lakehouse o nel riquadro Proprietà per un file.

  4. Nella portale di Azure cercare il cluster e selezionare il notebook.

    Screenshot che mostra dove trovare il cluster e il notebook nel portale di Azure.

  5. Immettere le informazioni sulle credenziali specificate durante la creazione del cluster.

    Screenshot che mostra dove immettere le informazioni sulle credenziali.

  6. Creare un nuovo notebook Spark.

  7. Copiare i nomi dell'area di lavoro e del lakehouse nel notebook e compilare l'URL di OneLake per il lakehouse. È ora possibile leggere qualsiasi file da questo percorso di file.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Provare a scrivere alcuni dati nel lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Verificare che i dati siano stati scritti correttamente controllando il lakehouse o leggendo il file appena caricato.

È ora possibile leggere e scrivere dati in OneLake usando il notebook jupyter in un cluster HDI Spark.