Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página fornece exemplos de cadernos para inferência em lote de LLM usando a Ray Data, uma biblioteca escalável de processamento de dados para cargas de trabalho de IA, em computação de GPU serverless.
Inferência em lote usando vLLM com Dados de Raios
Este notebook demonstra como executar uma inferência LLM em escala usando Ray Data e vLLM em GPU serverless. Aproveita a API distribuída de GPU serverless para provisionar e gerir automaticamente GPUs A10 com vários nós para inferência distribuída.
Inferência em Lote vLLM
Inferência em lote usando SGLang com Dados de Raios
SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este portátil demonstra como executar inferência em lote de LLM usando SGLang e Ray Data em GPU serverless Databricks.