Dela via


Distribuerad LLM-batchinferens

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.

Den här sidan innehåller notebook-exempel för LLM-batchinferens med Ray Data, ett skalbart databehandlingsbibliotek för AI-arbetsbelastningar, på serverlös GPU-beräkning.

Batch-slutsatsdragning med vLLM med Ray Data

Den här notebook-filen visar hur du kör LLM-slutsatsdragning i stor skala med ray data och vLLM på serverlös GPU. Den utnyttjar det distribuerade serverlösa GPU-API:et för att automatiskt etablera och hantera A10-GPU:er med flera noder för distribuerad slutsatsdragning.

vLLM Batch-slutsatsdragning

Hämta anteckningsbok

Batch-slutsatsdragning med SGLang med Ray Data

SGLang är ett högpresterande serviceramverk för LLM:er. Denna notebook visar hur du kör LLM-batchinferens med SGLang och Ray Data på Databricks serverlöst GPU.

SGLang Batch-slutsatsdragning

Hämta anteckningsbok