Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.
Halaman ini menyediakan contoh notebook untuk inferensi batch LLM menggunakan Ray Data, pustaka pemrosesan data yang dapat diskalakan untuk beban kerja AI, pada komputasi GPU tanpa server.
Inferensi batch menggunakan vLLM dengan Ray Data
Notebook ini menunjukkan cara menjalankan inferensi LLM dalam skala besar menggunakan Ray Data dan vLLM pada GPU tanpa server. Ini memanfaatkan API GPU tanpa server terdistribusi untuk secara otomatis menyediakan dan mengelola GPU A10 multi-simpul untuk inferensi terdistribusi.
Inferensi Batch vLLM
Inferensi batch menggunakan SGLang dengan Ray Data
SGLang adalah kerangka kerja penyajian berkinerja tinggi untuk LLM. Notebook ini menunjukkan cara menjalankan inferensi batch LLM menggunakan SGLang dan Ray Data pada GPU tanpa server Databricks.