Mulai Cepat: Membuat kumpulan Apache Spark tanpa server menggunakan Synapse Studio

Azure Synapse Analytics menawarkan berbagai mesin analitik untuk membantu Anda menyerap, mengubah, membuat model, menganalisis, dan menyajikan data Anda. Kumpulan Apache Spark menawarkan kemampuan komputasi data besar sumber terbuka. Setelah Anda membuat kumpulan Apache Spark di ruang kerja Synapse Anda, data dapat dimuat, dimodelkan, diproses, dan dilayani untuk mendapatkan wawasan.

Mulai cepat ini menjelaskan langkah-langkah untuk membuat kumpulan Apache Spark di ruang kerja Synapse dengan menggunakan Synapse Studio.

Penting

Tagihan untuk instans Spark diprorata per menit, baik digunakan atau tidak. Pastikan Anda mematikan instans Spark setelah selesai menggunakannya, atau atur waktu jangka pendek. Untuk informasi selengkapnya, lihat bagian Membersihkan sumber daya di artikel ini.

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Prasyarat

Masuk ke portal Microsoft Azure.

Masuk ke portal Microsoft Azure.

  1. Buka ruang kerja Synapse, tempat kumpulan Apache Spark akan dibuat dengan mengetik nama layanan (atau nama sumber daya secara langsung) ke bilah pencarian. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. Dari daftar ruang kerja, ketik nama (atau bagian dari nama) ruang kerja untuk membukanya. Untuk contoh ini, kami menggunakan ruang kerja bernama contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Luncurkan Synapse Studio

Dari gambaran umum ruang kerja, pilih URL web Ruang Kerja untuk membuka Synapse Studio.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Membuat kumpulan Apache Spark di Synapse Studio

Penting

Azure Synapse Runtime untuk Apache Spark 2.4 telah ditolak dan secara resmi tidak didukung sejak September 2023. Mengingat Spark 3.1 dan Spark 3.2 juga Merupakan Akhir Dukungan yang diumumkan, kami sarankan pelanggan bermigrasi ke Spark 3.3.

  1. Pada beranda Synapse Studio, buka Hub Manajemen di navigasi kiri dengan memilih ikon Kelola. Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. Setelah berada di Hub Manajemen, navigasi ke bagian kumpulan Apache Spark untuk melihat daftar kumpulan Apache Spark saat ini yang tersedia di ruang kerja. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. Pilih + New dan wizard pembuatan kumpulan Apache Spark baru akan muncul.

  4. Masukkan detail berikut ini pada tab Dasar:

    Pengaturan Nilai yang disarankan Deskripsi
    Nama kumpulan Apache Spark Nama kumpulan yang valid, seperti contosospark Nama ini adalah nama untuk kumpulan Apache Spark.
    Ukuran simpul Kecil (4 vCPU / 32 GB) Atur ke ukuran terkecil untuk mengurangi biaya pada mulai cepat ini
    Skala Otomatis Nonaktif Kita tidak memerlukan skala otomatis dalam mulai cepat ini
    Jumlah node 8 Gunakan ukuran yang kecil untuk membatasi biaya dalam mulai cepat ini
    Mengalokasikan pelaksana secara dinamis Nonaktif Pengaturan ini memetakan ke properti alokasi dinamis dalam konfigurasi Spark untuk alokasi pelaksana Aplikasi Spark. Kita tidak memerlukan skala otomatis dalam mulai cepat ini.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Penting

    Ada batasan khusus untuk nama yang dapat digunakan kumpulan Apache Spark. Nama harus berisi huruf atau angka saja, harus 15 karakter atau kurang, harus dimulai dengan huruf, tidak berisi kata khusus, dan unik di ruang kerja.

  5. Di tab berikutnya, Pengaturan tambahan, biarkan semua pengaturan sebagai default.

  6. Pilih Tag. Pertimbangkan untuk menggunakan tag Azure. Misalnya, tag "Pemilik" atau "CreatedBy" untuk mengidentifikasi siapa yang membuat sumber daya, dan tag "Lingkungan" untuk mengidentifikasi apakah sumber daya ini berada di Produksi, Pengembangan, dll. Untuk informasi selengkapnya, lihat Mengembangkan strategi penamaan dan pemberian tag untuk sumber daya Azure. Setelah siap, pilih Tinjau + buat.

  7. Di tab Tinjau + buat, pastikan bahwa rincian sudah tepat berdasarkan apa yang sebelumnya dimasukkan, kemudian tekan Buat.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Kumpulan Apache Spark akan memulai proses provisi.

  9. Setelah provisi selesai, kumpulan Apache Spark baru akan muncul dalam daftar.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Bersihkan sumber daya kumpulan Apache Spark menggunakan Synapse Studio

Langkah-langkah berikut menghapus kumpulan Apache Spark dari ruang kerja menggunakan Synapse Studio.

Peringatan

Menghapus kumpulan Spark akan menghapus mesin analitik dari ruang kerja. Tidak mungkin lagi terhubung ke kumpulan, dan semua kueri, alur, dan buku catatan yang menggunakan kumpulan Spark ini tidak akan berfungsi lagi.

Jika Anda ingin menghapus kumpulan Apache Spark, lakukan langkah-langkah berikut:

  1. Pilih kumpulan Apache Spark di Pusat Manajemen di Synapse Studio.

  2. Pilih elipsis di samping kumpulan Apache yang akan dihapus (dalam hal ini, contosospark) untuk menampilkan perintah untuk kumpulan Apache Spark.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. Pilih Hapus.

  4. Konfirmasi penghapusan, dan tekan tombol Hapus.

  5. Ketika proses tersebut telah berhasil, kumpulan Apache Spark tidak akan lagi terdaftar di sumber daya ruang kerja.