Bagikan melalui


Mulai Cepat: Manipulasi Data Interaktif dengan Apache Spark di Azure Pembelajaran Mesin

Untuk menangani perselisihan data notebook Azure Pembelajaran Mesin interaktif, integrasi Azure Pembelajaran Mesin dengan Azure Synapse Analytics menyediakan akses mudah ke kerangka kerja Apache Spark. Akses ini memungkinkan manipulasi data interaktif Azure Pembelajaran Mesin Notebook.

Dalam panduan mulai cepat ini, Anda mempelajari cara melakukan manipulasi data interaktif dengan komputasi Spark tanpa server Azure Pembelajaran Mesin, akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2, dan passthrough identitas pengguna.

Prasyarat

  • Langganan Azure; jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
  • Ruang kerja Azure Machine Learning. Kunjungi Membuat sumber daya ruang kerja.
  • Akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2. Kunjungi Membuat akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2.

Menyimpan kredensial akun penyimpanan Azure sebagai rahasia di Azure Key Vault

Untuk menyimpan kredensial akun penyimpanan Azure sebagai rahasia di Azure Key Vault, dengan antarmuka pengguna portal Azure:

  1. Navigasi ke Azure Key Vault Anda di portal Azure

  2. Pilih Rahasia dari panel kiri

  3. Pilih + Hasilkan/Impor

    Cuplikan layar yang memperlihatkan tab Buat atau Impor Rahasia Azure Key Vault.

  4. Di layar Buat rahasia, masukkan Nama untuk rahasia yang ingin Anda buat

  5. Navigasi ke Akun Azure Blob Storage, di portal Azure, seperti yang ditunjukkan pada gambar ini:

    Cuplikan layar yang memperlihatkan kunci akses Azure dan layar nilai string koneksi.

  6. Pilih Kunci akses dari panel kiri halaman Akun Azure Blob Storage

  7. Pilih Perlihatkan di samping Kunci 1, lalu Salin ke clipboard untuk mendapatkan kunci akses akun penyimpanan

    Catatan

    Pilih opsi yang sesuai untuk disalin

    • Token tanda tangan akses bersama (SAS) kontainer penyimpanan Azure Blob
    • Kredensial perwakilan layanan akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2
      • ID penyewa
      • ID klien dan
      • rahasia

    pada antarmuka pengguna masing-masing saat Anda membuat rahasia Azure Key Vault untuk mereka

  8. Menavigasi kembali ke layar Buat rahasia

  9. Di kotak teks Nilai rahasia, masukkan kredensial kunci akses untuk akun penyimpanan Azure, yang disalin ke clipboard di langkah sebelumnya

  10. Pilih Buat

    Cuplikan layar yang memperlihatkan layar pembuatan rahasia Azure.

Tip

Azure CLI dan pustaka klien rahasia Azure Key Vault untuk Python juga dapat membuat rahasia Azure Key Vault.

Menambahkan penetapan peran di akun penyimpanan Azure

Kita harus memastikan bahwa jalur data input dan output dapat diakses sebelum kita mulai manipulasi data interaktif. Pertama, untuk

  • identitas pengguna dari pengguna masuk sesi Notebooks

    or

  • perwakilan layanan

tetapkan peran Pembaca dan Pembaca Data Blob Penyimpanan ke identitas pengguna yang masuk. Namun, dalam skenario tertentu, kita mungkin ingin menulis data yang disusun kembali ke akun penyimpanan Azure. Peran Pembaca dan Pembaca Data Blob Penyimpanan menyediakan akses baca-saja ke identitas pengguna atau perwakilan layanan. Untuk mengaktifkan akses baca dan tulis, tetapkan peran Kontributor dan Kontributor Data Blob Penyimpanan ke identitas pengguna atau perwakilan layanan. Untuk menetapkan peran yang sesuai ke identitas pengguna:

  1. Buka portal Azure Microsoft

  2. Cari dan pilih layanan Akun penyimpanan

    Cuplikan layar yang dapat diperluas yang memperlihatkan pencarian dan pilihan layanan akun Penyimpanan di Microsoft portal Azure.

  3. Pada halaman Akun penyimpanan , pilih akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2 dari daftar. Halaman yang memperlihatkan Gambaran Umum akun penyimpanan terbuka

    Cuplikan layar yang dapat diperluas yang memperlihatkan pilihan akun penyimpanan Azure Data Lake Storage (ADLS) Gen 2 Storage.

  4. Pilih Access Control (IAM) dari panel kiri

  5. Pilih Tambahkan penetapan peran

    Cuplikan layar yang memperlihatkan layar kunci akses Azure.

  6. Temukan dan pilih peran Kontributor Data Blob Penyimpanan

  7. Pilih Selanjutnya

    Cuplikan layar yang memperlihatkan layar penetapan peran tambahkan Azure.

  8. Pilih Pengguna, grup, atau perwakilan layanan

  9. Pilih + Pilih anggota

  10. Cari identitas pengguna di bawah Pilih

  11. Pilih identitas pengguna dari daftar, sehingga identitas tersebut ditampilkan di bawah Anggota yang dipilih

  12. Pilih identitas pengguna yang sesuai

  13. Pilih Selanjutnya

    Cuplikan layar yang memperlihatkan tab Anggota layar tambahkan penetapan peran Azure.

  14. Pilih Tinjau + Tetapkan

    Cuplikan layar memperlihatkan tab tinjau dan tetapkan layar penetapan peran Azure.

  15. Ulangi langkah 2-13 untuk penetapan peran Kontributor

Setelah identitas pengguna memiliki peran yang sesuai yang ditetapkan, data di akun penyimpanan Azure harus dapat diakses.

Catatan

Jika kumpulan Synapse Spark terlampir menunjuk ke kumpulan Synapse Spark, di ruang kerja Azure Synapse, yang memiliki jaringan virtual terkelola yang terkait dengannya, Anda harus mengonfigurasi titik akhir privat terkelola ke akun penyimpanan untuk memastikan akses data.

Memastikan akses sumber daya untuk pekerjaan Spark

Untuk mengakses data dan sumber daya lainnya, pekerjaan Spark dapat menggunakan identitas terkelola atau passthrough identitas pengguna. Tabel berikut ini meringkas berbagai mekanisme untuk akses sumber daya saat Anda menggunakan Komputasi Spark tanpa server Azure Pembelajaran Mesin dan kumpulan Synapse Spark yang terpasang.

Kumpulan Spark Identitas yang didukung Identitas default
Komputasi Spark Tanpa Server Identitas pengguna, identitas terkelola yang ditetapkan pengguna yang dilampirkan ke ruang kerja Identitas pengguna
Kumpulan Synapse Spark Terlampir Identitas pengguna, identitas terkelola yang ditetapkan pengguna yang dilampirkan ke kumpulan Synapse Spark terlampir, identitas terkelola yang ditetapkan sistem dari kumpulan Synapse Spark terlampir Identitas terkelola yang ditetapkan sistem dari kumpulan Synapse Spark terlampir

Jika kode CLI atau SDK menentukan opsi untuk menggunakan identitas terkelola, komputasi Azure Pembelajaran Mesin Spark tanpa server bergantung pada identitas terkelola yang ditetapkan pengguna yang dilampirkan ke ruang kerja. Anda dapat melampirkan identitas terkelola yang ditetapkan pengguna ke ruang kerja Azure Pembelajaran Mesin yang sudah ada dengan Azure Pembelajaran Mesin CLI v2, atau dengan ARMClient.

Langkah berikutnya