Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.
Questa pagina fornisce esempi di notebook per l'inferenza batch di LLM utilizzando Ray Data, una libreria scalabile per l'elaborazione di dati nei calcoli effettuati su GPU serverless per carichi di lavoro di intelligenza artificiale.
Inferenza batch utilizzando vLLM e Ray Data
Questo notebook illustra come eseguire l'inferenza LLM su larga scala usando Ray Data e vLLM nella GPU serverless. Usa l'API GPU serverless distribuita per effettuare automaticamente il provisioning e la gestione di GPU A10 multinodo per l'inferenza distribuita.
Inferenza batch di vLLM
Inferenza batch con SGLang utilizzando Ray Data
SGLang è un framework a prestazioni elevate per i modelli di linguaggio di grandi dimensioni. Questo notebook illustra come eseguire l'inferenza batch LLM usando SGLang e Ray Data nella GPU serverless di Databricks.