Partilhar via


Inferência em lote distribuída de LLM

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de cadernos para inferência em lote de LLM usando a Ray Data, uma biblioteca escalável de processamento de dados para cargas de trabalho de IA, em computação de GPU serverless.

Inferência em lote usando vLLM com Dados de Raios

Este notebook demonstra como executar uma inferência LLM em escala usando Ray Data e vLLM em GPU serverless. Aproveita a API distribuída de GPU serverless para provisionar e gerir automaticamente GPUs A10 com vários nós para inferência distribuída.

Inferência em Lote vLLM

Obter caderno

Inferência em lote usando SGLang com Dados de Raios

SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este portátil demonstra como executar inferência em lote de LLM usando SGLang e Ray Data em GPU serverless Databricks.

Inferência em Lote SGLang

Obter caderno