Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página fornece exemplos de notebook para inferência em lote llm usando o Ray Data, uma biblioteca de processamento de dados escalonável para cargas de trabalho de IA, na computação de GPU sem servidor.
Inferência em lote usando o vLLM com Ray Data
Este notebook demonstra como executar a inferência de LLM em escala usando o Ray Data e a vLLM na GPU sem servidor. Ele aproveita a API de GPU sem servidor distribuída para provisionar e gerenciar automaticamente GPUs A10 de vários nós para inferência distribuída.
Inferência em lote vLLM
Inferência em lote usando SGLang com Ray Data
O SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este notebook demonstra como executar a inferência em lote LLM usando SGLang e Ray Data na GPU sem servidor do Databricks.