Condividi tramite


Inferenza distribuita batch LLM

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.

Questa pagina fornisce esempi di notebook per l'inferenza batch di LLM utilizzando Ray Data, una libreria scalabile per l'elaborazione di dati nei calcoli effettuati su GPU serverless per carichi di lavoro di intelligenza artificiale.

Inferenza batch utilizzando vLLM e Ray Data

Questo notebook illustra come eseguire l'inferenza LLM su larga scala usando Ray Data e vLLM nella GPU serverless. Usa l'API GPU serverless distribuita per effettuare automaticamente il provisioning e la gestione di GPU A10 multinodo per l'inferenza distribuita.

Inferenza batch di vLLM

Ottieni il notebook

Inferenza batch con SGLang utilizzando Ray Data

SGLang è un framework a prestazioni elevate per i modelli di linguaggio di grandi dimensioni. Questo notebook illustra come eseguire l'inferenza batch LLM usando SGLang e Ray Data nella GPU serverless di Databricks.

Inferenza batch SGLang

Ottieni il notebook