共用方式為


分散式 LLM 批次推論

這很重要

這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參閱 管理 Azure Databricks 預覽。

本頁面提供了使用Ray Data進行批次推論的筆記本範例,Ray Data 是一個適用於 AI 工作負載的可擴展資料處理函式庫,可用於無伺服器 GPU 運算。

Tutorial 說明
利用 vLLM 與光線資料進行批次推論 本筆記本示範如何在無伺服器 GPU 上大規模使用 Ray Data 與 vLLM 進行 LLM 推論。 它利用分散式無伺服器 GPU API 自動配置和管理多節點 A10 GPU 進行分散式推論。
使用 SGLang 與光線資料進行批次推論 SGLang 是一個針對大型語言模型(LLM)的高效能服務框架。 本筆記本示範如何在 Databricks 的無伺服器 GPU 上使用 SGLang 與 Ray Data 執行 LLM 批次推論。