Udostępnij przez


Rozproszone wsadowe wnioskowanie LLM

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notatników dla wnioskowania wsadowego z LLM przy użyciu Ray Data, skalowalnej biblioteki przetwarzania danych przeznaczonej dla zadań związanych ze sztuczną inteligencją, na bezserwerowych obliczeniach GPU.

Wnioskowanie wsadowe z użyciem vLLM za pomocą Ray Data

W tym notesie pokazano, jak uruchamiać wnioskowanie LLM na dużą skalę przy użyciu technologii Ray Data i vLLM na bezserwerowym procesorze GPU. Wykorzystuje rozproszony bezserwerowy interfejs API procesora graficznego (GPU) do automatycznego aprowizowania i zarządzania wielowęzłowymi procesorami graficznymi A10 na potrzeby rozproszonego wnioskowania.

Wnioskowanie wsadowe vLLM

Pobierz laptopa

Wnioskowanie wsadowe przy użyciu języka SGLang z danymi Ray

SGLang to wysokowydajne środowisko serwowania dla LLM. W tym notatniku pokazano, jak uruchamiać wsadowe wnioskowanie LLM przy użyciu języka SGLang i Ray Data na bezserwerowej platformie GPU usługi Databricks.

SGLang Wnioskowanie wsadowe

Pobierz laptopa