Sdílet prostřednictvím


Distribuovaná dávková inferenční LLM

Důležité

Tato funkce je v beta verzi. Správci pracovního prostoru můžou řídit přístup k této funkci ze stránky Previews . Podívejte se na Správa náhledů Azure Databricks.

Tato stránka poskytuje příklady hromadné predikce LLM pomocí Ray Data, škálovatelné knihovny pro zpracování dat určenou pro úlohy AI na bezserverových GPU výpočtech.

Dávkové odvozování s využitím vLLM s Ray Data

Tento poznámkový blok ukazuje, jak spustit odvozování LLM ve velkém měřítku pomocí Ray Data a vLLM na bezserverovém GPU. Využívá distribuované bezserverové rozhraní GPU API k automatickému zřizování a správě gpu A10 s více uzly pro distribuované odvozování.

Odvození dávky vLLM

Pořiďte si notebook

Dávkové odvozování pomocí SGLang a Ray Data

SGLang je vysoce výkonná obslužná architektura pro LLM. Tento poznámkový blok ukazuje, jak spustit dávkové odvozování LLM pomocí SGLang a Ray Data v Databricks bezserverové GPU.

Odvození dávky SGLang

Pořiďte si notebook