Bagikan melalui


Mulai Cepat - Menyebarkan Ruang Kerja Azure CycleCloud untuk Slurm menggunakan Azure Marketplace

Azure CycleCloud Workspace for Slurm adalah aplikasi Marketplace gratis yang menyediakan cara sederhana, aman, dan dapat diskalakan untuk mengelola sumber daya komputasi dan penyimpanan untuk beban kerja HPC dan AI. Dalam panduan cepat ini, Anda menginstal CycleCloud Workspace for Slurm menggunakan aplikasi Azure Marketplace.

Langkah utama untuk menyebarkan dan mengonfigurasi Ruang Kerja CycleCloud untuk Slurm dengan autentikasi ID Microsoft Entra meliputi:

  1. Tinjau instruksi ini sebelum memulai: Rencanakan Ruang Kerja CycleCloud Anda untuk Penyebaran Slurm.
  2. Sebarkan Workspace CycleCloud untuk lingkungan Slurm menggunakan Azure Marketplace (panduan singkat ini).
  3. Mendaftarkan aplikasi ID Microsoft Entra: Buat pendaftaran aplikasi Microsoft Entra untuk digunakan dengan Azure CycleCloud dan Ruang Kerja Azure CycleCloud untuk Slurm.
  4. Mengonfigurasi Open OnDemand untuk menggunakan aplikasi MICROSOFT Entra ID: Mengonfigurasi Open OnDemand dengan CycleCloud
  5. Menambahkan pengguna ke aplikasi ID Microsoft Entra terdaftar: Memberi izin pengguna untuk CycleCloud

Prasyarat

Untuk mulai cepat ini, Anda memerlukan:

  1. Akun Azure dengan langganan aktif
  2. Peran Kontributor dan Administrator Akses Pengguna di tingkat langganan
  3. Koneksi langsung ke jaringan virtual yang digunakan oleh kluster (yaitu, tidak menggunakan Azure Bastion), jika Anda perlu menyebarkan Open OnDemand
  4. Izin untuk mendaftarkan aplikasi ID Microsoft Entra jika Anda perlu menyebarkan Open OnDemand

Cara mengimplementasikan

  1. Masuk ke portal Azure.
  2. Pilih + Buat Sumber Daya.
  3. Dalam kotak Cari layanan dan marketplace , masukkan Slurm lalu pilih Ruang Kerja Azure CycleCloud untuk Slurm.
  4. Pada halaman Ruang Kerja Azure CycleCloud untuk Slurm , pilih Buat.

Cuplikan layar Azure CycleCloud Workspace untuk marketplace Slurm.

Dasar

  • Pada halaman Ruang Kerja Azure CycleCloud Baru untuk akun Slurm , masukkan atau pilih detail berikut.
    • Langganan: Pilih langganan yang akan digunakan jika belum dipilih.
    • Wilayah: Pilih wilayah Azure tempat Anda ingin menyebarkan Ruang Kerja CycleCloud untuk lingkungan Slurm.
    • Grup sumber daya: Pilih grup sumber daya untuk akun Azure CycleCloud Workspace for Slurm, atau buat yang baru.
    • Ukuran VM CycleCloud: Pilih Ukuran VM baru atau pertahankan ukuran default.
    • Pengguna Admin: Masukkan nama dan kata sandi untuk akun administrator CycleCloud.
    • Kunci Umum SSH Admin: Pilih kunci SSH publik akun administrator secara langsung atau jika disimpan dalam sumber daya kunci SSH di Azure.

Cuplikan layar opsi Dasar.

Sistem file

Direktori beranda pengguna - Buat baru

Tentukan tempat untuk menempatkan direktori beranda pengguna.

  • NFS bawaan - Menggunakan VM penjadwal sebagai server NFS dengan datadisk terlampir. Cuplikan layar pemasangan sistem berkas untuk /shared dan /home dengan layar opsi baru NFS bawaan.

  • Azure NetApp Files - Membuat akun, kumpulan, dan volume ANF dengan kapasitas dan tingkat layanan yang ditentukan. Cuplikan layar pemasangan Sistem file untuk file /shared dan /home Azure NetApp membuat layar opsi baru.

Direktori beranda pengguna - Gunakan Yang Sudah Ada

Jika Anda memiliki titik pemasangan NFS yang sudah ada, pilih opsi Gunakan yang Ada dan tentukan pengaturan untuk memasangnya. Cuplikan layar untuk pemasangan sistem berkas pada layar opsi NFS eksternal untuk /shared dan /home.

Pemasangan sistem file tambahan - Buat baru

Jika Anda perlu memasang sistem file lain untuk data proyek Anda, Anda dapat membuat yang baru atau menentukan yang sudah ada. Anda dapat membuat volume Azure NetApp Files baru atau Azure Managed Lustre Filesystem.

Cuplikan layar pemasangan sistem File Tambahan untuk membuat Azure NetApp Files baru.

Cuplikan layar pemasangan Sistem file tambahan untuk membuat Azure Managed Lustre baru.

Pemasangan sistem berkas tambahan - Gunakan yang sudah tersedia

Jika Anda memiliki titik pemasangan NFS eksternal atau Azure Managed Lustre Filesystem, Anda dapat menentukan opsi pemasangan.

Cuplikan layar penyambungan sistem file tambahan untuk NFS eksternal yang sudah ada.

Jaringan

Tentukan apakah Anda ingin membuat jaringan virtual dan subnet baru atau menggunakan jaringan virtual yang sudah ada.

Buat jaringan virtual baru

Cuplikan layar opsi Jaringan untuk membuat yang baru.

  • Pilih CIDR yang sesuai dengan jumlah simpul komputasi yang Anda targetkan dan tentukan alamat IP dasar.
  • Buat Bastion jika TI perusahaan Anda tidak menyediakan konektivitas langsung.
  • Buat NAT Gateway untuk menyediakan konektivitas keluar ke internet.
  • Peer ke jaringan virtual yang ada jika Anda sudah memiliki HUB yang dapat memberikan layanan seperti Bastion dan gateway VPN. Pastikan Anda memilih alamat IP dasar yang kompatibel dengan jaringan virtual yang di-peering. Jika jaringan virtual yang di-peering memiliki gateway, centang opsi Izinkan transit gateway.

Menggunakan jaringan virtual yang ada

Sebelum menggunakan jaringan virtual yang ada, periksa prasyarat di Rencanakan Ruang Kerja CycleCloud Anda untuk Penyebaran Slurm.

Cuplikan layar opsi Jaringan untuk menggunakan opsi yang sudah ada.

Tentukan cara mengelola pendaftaran titik akhir privat yang digunakan untuk akun penyimpanan untuk menyimpan proyek CycleCloud dengan zona DNS privat. Anda dapat memilih untuk membuat zona DNS privat baru, menggunakan zona DNS privat yang sudah ada, atau tidak mendaftarkannya.

Cuplikan layar opsi Jaringan untuk zona DNS Privat.

Pengaturan Slurm

Tentukan ukuran dan gambar komputer virtual untuk penjadwal dan simpul autentikasi. Gambar adalah gambar HPC di Azure Marketplace dengan URI berikut:

Nama Gambar URI
Alma Linux 8.10 almalinux:almalinux-hpc:8_10-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Gambar Kustom Anda harus menentukan URN gambar atau ID gambar

Jika Anda memilih Custom Image, tentukan URN gambar untuk gambar marketplace yang ada atau ID gambar untuk gambar di Azure Compute Gallery.

Untuk menggunakan gambar yang sama untuk penjadwal, simpul autentikasi, dan simpul komputasi, pilih Gunakan gambar pada semua simpul.

Tentukan jumlah simpul autentikasi yang ingin Anda provisikan pada awalnya dan jumlah maksimum yang diizinkan. Saat Anda mengaktifkan pemeriksaan kesehatan, solusi secara otomatis menjalankan pemeriksaan kesehatan node untuk partisi HPC dan GPU dan menghapus simpul yang tidak sehat. Anda dapat menunda dimulainya kluster jika Anda perlu mengonfigurasi lebih banyak pengaturan melalui portal CycleCloud.

Cuplikan layar pengaturan Slurm.

Untuk mengaktifkan Akuntansi Pekerjaan Slurm, centang kotak untuk menampilkan opsi konektivitas. Pastikan Anda memiliki sumber daya server fleksibel Azure Database for MySQL yang Anda sebarkan sebelumnya.

Anda dapat terhubung menggunakan FQDN atau IP privat jika Anda menyediakan jaringan virtual Anda sendiri. Anda juga dapat menggunakan peering jaringan virtual saat membuat jaringan virtual baru sebagai bagian dari penyebaran Anda. Jika Anda memilih untuk membuat jaringan virtual baru, Anda juga dapat terhubung melalui titik akhir privat.

Tangkapan layar opsi pengaturan Slurm untuk database akuntansi pekerjaan, FQDN langsung.

Cuplikan layar dari pilihan Pengaturan Slurm untuk database akuntansi pekerjaan dengan Endpoint Pribadi.

Pengaturan partisi

Ruang Kerja Azure CycleCloud untuk Slurm mencakup tiga partisi Slurm yang ditentukan:

  • HTC: Untuk pekerjaan non-MPI yang paralel secara memalukan.
  • HPC: Untuk tugas MPI dengan keterkaitan erat yang sebagian besar menggunakan tipe VM, baik dengan atau tanpa dukungan InfiniBand.
  • GPU: Untuk pekerjaan GPU MPI dan non-MPI yang menggunakan jenis VM dengan atau tanpa dukungan InfiniBand.

Anda dapat mengatur gambar dan jumlah maksimum simpul untuk setiap partisi yang dibuat CycleCloud secara dinamis. Hanya partisi HTC yang memungkinkan Anda menggunakan instans spot, karena instans spot tidak berfungsi dengan baik untuk pekerjaan HPC dan GPU.

Cuplikan layar opsi Pengaturan Partisi.

Buka OnDemand

Untuk menggunakan Open OnDemand, pilih kotak centang dan masukkan informasi berikut:

  • nama gambar,
  • nama domain (contoso.com) yang digunakan sistem untuk mendapatkan nama pengguna (user@contoso.com) dan mencocokkannya dengan akun Linux lokal (user) yang dikelola CycleCloud untuk autentikasi,
  • nama domain yang sepenuhnya memenuhi syarat (FQDN) dari server web Open OnDemand (biarkan kosong jika Anda ingin menggunakan IP privat),
  • apakah Anda berencana untuk menggunakan aplikasi MICROSOFT Entra ID yang ada atau mendaftarkan aplikasi secara manual nanti. Automatically register Entra ID application adalah pilihan tambahan yang hanya muncul saat Anda menggunakan penerapan CLI.

Nota

Autentikasi pengguna memerlukan aplikasi ID Microsoft Entra. Jika skrip kami tidak membuat aplikasi, buat aplikasi secara manual. Untuk informasi selengkapnya, lihat Membuat pendaftaran aplikasi Microsoft Entra untuk digunakan dengan Azure CycleCloud dan Ruang Kerja Azure CycleCloud untuk Slurm.

Cuplikan layar dari opsi di OnDemand.

Tingkat Lanjut

Anda dapat mengaktifkan zona ketersediaan untuk node komputasi kluster dan sumber daya sistem file baru. Menempatkan simpul komputasi dan penyimpanan di zona ketersediaan yang sama memastikan latensi minimal di antara mereka.

Cuplikan layar opsi Tingkat Lanjut.

Tagar

Tetapkan tag yang sesuai ke sumber daya yang diperlukan. CycleCloud secara dinamis menyediakan komputer virtual dan menerapkan tag Node Array padanya.

Cuplikan layar opsi Tag.

Tinjau dan buat

Tinjau opsi Anda. Langkah ini juga mencakup beberapa validasi.

Cuplikan layar Ulasan.

Setelah validasi selesai, pilih Buat untuk menginisialisasi penyebaran.

Cuplikan layar dari proses penerapan yang sedang berlangsung.

Pantau status penyebaran dan langkah-langkahnya.

Periksa penerapan Anda

Sambungkan ke ccw-cyclecloud-vm menggunakan Bastion dengan nama pengguna dan kunci SSH yang Anda tentukan selama penyebaran.

Cuplikan layar menu Sambungkan dengan Bastion.

Cuplikan layar opsi Sambungkan dengan koneksi Bastion.

Setelah menyambungkan, periksa log cloud-init untuk memverifikasi semuanya sudah benar.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Selanjutnya, siapkan konektivitas antara komputer klien Anda dan VM CycleCloud. Departemen IT perusahaan Anda mungkin perlu membantu Anda menyiapkan konektivitas melalui VPN, penerowongan Bastion, atau IP publik yang terlampir jika perusahaan Anda mengizinkannya. Akses antarmuka web dengan menelusuri ke https://<cyclecloud_ip>. Masuk dengan nama pengguna dan kata sandi yang Anda berikan selama penyebaran. Verifikasi bahwa penjadwal dan simpul masuk sedang berjalan.

Sumber daya