Bagikan melalui


Inferensi batch LLM terdistribusi

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Halaman ini menyediakan contoh notebook untuk inferensi batch LLM menggunakan Ray Data, pustaka pemrosesan data yang dapat diskalakan untuk beban kerja AI, pada komputasi GPU tanpa server.

Inferensi batch menggunakan vLLM dengan Ray Data

Notebook ini menunjukkan cara menjalankan inferensi LLM dalam skala besar menggunakan Ray Data dan vLLM pada GPU tanpa server. Ini memanfaatkan API GPU tanpa server terdistribusi untuk secara otomatis menyediakan dan mengelola GPU A10 multi-simpul untuk inferensi terdistribusi.

Inferensi Batch vLLM

Dapatkan buku catatan

Inferensi batch menggunakan SGLang dengan Ray Data

SGLang adalah kerangka kerja penyajian berkinerja tinggi untuk LLM. Notebook ini menunjukkan cara menjalankan inferensi batch LLM menggunakan SGLang dan Ray Data pada GPU tanpa server Databricks.

Inferensi Batch SGLang

Dapatkan buku catatan