Akselerator zona pendaratan komputasi berkinerja tinggi (HPC) Azure
Akselerator zona pendaratan komputasi performa tinggi (HPC) mengotomatiskan penyebaran lingkungan. Lingkungan ini menyediakan kerangka kerja dasar yang dapat Anda sesuaikan untuk membuat mekanisme penyebaran end-to-end untuk solusi kluster HPC lengkap di Azure. Akselerator adalah kumpulan skrip & templat sumber terbuka yang dapat menyiapkan zona pendaratan skala perusahaan Anda. Ini dapat memberikan pendekatan arsitektur tertentu dan implementasi referensi yang mematuhi arsitektur dan praktik terbaik Cloud Adoption Framework.
Pelanggan mengadopsi HPC dengan berbagai cara untuk menyesuaikan kebutuhan bisnis mereka, dan Anda dapat menyesuaikan akselerator zona pendaratan HPC untuk menghasilkan arsitektur yang sesuai dengan cara Anda . Menggunakan akselerator membantu menempatkan organisasi Anda di jalur ke skala berkelanjutan.
Akselerator zona pendaratan HPC mengasumsikan bahwa Anda memulai dengan zona pendaratan skala perusahaan yang berhasil diterapkan. Untuk informasi selengkapnya tentang prasyarat ini, lihat artikel berikut ini:
- Memulai dengan zona arahan skala enterprise Cloud Adoption Framework
- Menerapkan zona arahan skala enterprise Cloud Adoption Framework di Azure
Pendekatan untuk zona pendaratan akselerator zona pendaratan HPC menyediakan aset berikut untuk proyek Anda:
- Pendekatan modular, sehingga Anda dapat menyesuaikan variabel lingkungan
- Pedoman desain untuk membantu mengevaluasi keputusan penting
- Arsitektur zona pendaratan
- Implementasi yang mencakup:
- Referensi yang dapat disebarkan yang mampu membuat lingkungan untuk penyebaran HPC Anda
- Implementasi referensi HPC yang disetujui Microsoft untuk menguji lingkungan yang disebarkan
Arsitektur zona pendaratan bervariasi menurut sektor bisnis, selain bervariasi menurut organisasi. Bagian ini mencantumkan artikel menurut sektor yang menyediakan panduan untuk membuat zona pendaratan Anda:
Energi (Minyak dan Gas)
- Penagihan Azure dan penyewa Microsoft Entra untuk HPC energi
- Manajemen identitas dan akses untuk Azure HPC dalam energi
- Manajemen untuk Azure HPC dalam energi
- Topologi jaringan dan konektivitas untuk Azure HPC dalam energi
- Otomatisasi platform dan DevOps untuk Azure HPC dalam energi
- Organisasi sumber daya untuk HPC di industri energi
- Tata kelola untuk HPC di industri energi
- Keamanan untuk Azure HPC dalam energi
- Menghitung beban kerja aplikasi HPC skala besar di Azure VM
- Penyimpanan untuk lingkungan energi HPC
Manufaktur
- Manufaktur penagihan HPC Azure dan penyewa Direktori Aktif
- Manajemen identitas dan akses Azure untuk HPC dalam manufaktur
- Manajemen untuk HPC di industri manufaktur
- Manufaktur topologi dan konektivitas jaringan HPC
- Otomatisasi platform dan DevOps untuk Azure HPC di industri manufaktur
- Manufaktur organisasi sumber daya HPC
- Tata kelola Azure untuk manufaktur HPC
- Keamanan untuk HPC di industri manufaktur
- Manufaktur penyimpanan HPC
Finance
- Penawaran penagihan Azure dan penyewa Direktori Aktif untuk membiayai HPC
- Membiayai manajemen identitas dan akses HPC Azure
- Pengelolaan HPC di sektor keuangan
- Topologi dan konektivitas jaringan untuk HPC di sektor keuangan
- Otomatisasi platform dan DevOps untuk HPC di sektor keuangan
- Organisasi sumber daya untuk Azure HPC di sektor keuangan
- Tata kelola untuk keuangan HPC
- Keamanan untuk HPC di sektor keuangan
- Penyimpanan untuk HPC di sektor keuangan
Memilih SKU komputasi yang dioptimalkan GPU yang tepat untuk beban kerja AI penting untuk mengoptimalkan performa dan mengontrol biaya. Microsoft menawarkan banyak SKU berbeda yang dioptimalkan untuk beban kerja yang mendapat manfaat dari lebih banyak daya GPU. Ada beberapa pertimbangan saat memilih SKU yang tepat untuk beban kerja AI. Beban kerja yang lebih kecil hanya dapat memanfaatkan sebagian kecil dari CPU, GPU, dan bandwidth SKU yang lebih kuat seperti NDv4. Anda mungkin ingin mempertimbangkan SKU komputasi lain seperti NCv4 dan NDv2 untuk pekerjaan yang lebih kecil. Berikut adalah beberapa pertimbangan saat memilih SKU komputasi yang dioptimalkan GPU yang tepat untuk beban kerja AI:
- Titik pemeriksaan. Pertimbangkan faktor-faktor seperti interval titik pemeriksaan saat menjalankan model pembelajaran mesin Anda. Ini dapat berdampak pada performa GPU selama fase pelatihan. Seimbangkan antara efisiensi penyimpanan dan pertahankan operasi GPU yang lancar. Pantau penggunaan GPU Anda.
- Inferensi. Persyaratan inferensi berbeda dari persyaratan pelatihan, dengan kemungkinan beban CPU yang lebih tinggi yang dapat memaksimalkan performa CPU. Pertimbangkan persyaratan inferensi model Anda saat memilih SKU komputasi. Pantau penggunaan CPU Anda.
- Pelatihan. Pertimbangkan persyaratan model Anda selama pelatihan, memantau penggunaan CPU dan GPU.
- Ukuran Pekerjaan. Saat mempertimbangkan SKU komputasi untuk beban kerja AI Anda, pertimbangkan ukuran pekerjaan. Pekerjaan yang lebih kecil, seperti yang kira-kira OPT 1.3B mungkin tidak memanfaatkan ukuran SKU yang lebih besar dan dapat membuat daya CPU dan GPU menganggur tergantung pada tahap pekerjaan (inferensi, pelatihan).
- Bandwidth. Bandwidth latensi yang lebih besar dan lebih rendah dapat menjadi pengeluaran ketika tidak digunakan. Pertimbangkan InfiniBand hanya untuk model terbesar yang akan memerlukan bandwidth tambahan.
Lihat ukuran komputer virtual yang dioptimalkan GPU Azure.
Arsitektur referensi konseptual berikut adalah contoh yang menunjukkan area desain dan praktik terbaik untuk lingkungan energi .
Arsitektur referensi konseptual berikut adalah contoh yang menunjukkan area desain dan praktik terbaik untuk lingkungan keuangan .
Arsitektur referensi konseptual berikut adalah contoh yang menunjukkan area desain dan praktik terbaik untuk lingkungan manufaktur .
Akselerator zona pendaratan HPC tersedia di GitHub: Azure HPC OnDemand Platform Accelerator
Untuk pertimbangan dan rekomendasi untuk arsitektur akselerator zona pendaratan HPC Anda, tinjau area desain penting akselerator zona pendaratan HPC di Azure Identity and Access Management.