Mengintegrasikan OneLake dengan Azure HDInsight

Azure HDInsight adalah layanan berbasis cloud terkelola untuk analitik big data yang membantu organisasi memproses data dalam jumlah besar. Tutorial ini menunjukkan cara menyambungkan ke OneLake dengan notebook Jupyter dari kluster Azure HDInsight.

Menggunakan Azure HDInsight

Untuk menyambungkan ke OneLake dengan notebook Jupyter dari kluster HDInsight:

  1. Buat kluster Spark HDInsight (HDI). Ikuti instruksi berikut: Siapkan kluster di HDInsight.

    1. Saat memberikan informasi kluster, ingat Nama Pengguna dan Kata Sandi login Kluster Anda, karena Anda membutuhkannya untuk mengakses kluster nanti.

    2. Membuat identitas terkelola yang ditetapkan pengguna (UAMI): Buat untuk Azure HDInsight - UAMI dan pilih sebagai identitas di layar Penyimpanan .

      Cuplikan layar memperlihatkan tempat memasukkan identitas terkelola yang ditetapkan pengguna di layar Penyimpanan.

  2. Berikan akses UAMI ini ke ruang kerja Fabric yang berisi item Anda. Untuk bantuan memutuskan peran apa yang terbaik, lihat Peran ruang kerja.

    Cuplikan layar memperlihatkan tempat memilih item di panel Kelola akses.

  3. Navigasi ke lakehouse Anda dan temukan nama untuk ruang kerja dan lakehouse Anda. Anda dapat menemukannya di URL lakehouse atau panel Properti untuk file.

  4. Di portal Azure, cari kluster Anda dan pilih buku catatan.

    Cuplikan layar memperlihatkan tempat menemukan kluster dan buku catatan Anda di portal Azure.

  5. Masukkan informasi kredensial yang Anda berikan saat membuat kluster.

    Cuplikan layar memperlihatkan tempat memasukkan informasi kredensial Anda.

  6. Buat buku catatan Spark baru.

  7. Salin nama ruang kerja dan lakehouse ke notebook Anda dan buat URL OneLake untuk lakehouse Anda. Sekarang Anda dapat membaca file apa pun dari jalur file ini.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Coba tulis beberapa data ke lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Uji bahwa data Anda berhasil ditulis dengan memeriksa lakehouse Anda atau dengan membaca file yang baru dimuat.

Sekarang Anda dapat membaca dan menulis data di OneLake menggunakan notebook Jupyter Anda di kluster HDI Spark.