Compartilhar via


Inferência em lote distribuída de LLM

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de notebook para inferência em lote llm usando o Ray Data, uma biblioteca de processamento de dados escalonável para cargas de trabalho de IA, na computação de GPU sem servidor.

Inferência em lote usando o vLLM com Ray Data

Este notebook demonstra como executar a inferência de LLM em escala usando o Ray Data e a vLLM na GPU sem servidor. Ele aproveita a API de GPU sem servidor distribuída para provisionar e gerenciar automaticamente GPUs A10 de vários nós para inferência distribuída.

Inferência em lote vLLM

Obter laptop

Inferência em lote usando SGLang com Ray Data

O SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este notebook demonstra como executar a inferência em lote LLM usando SGLang e Ray Data na GPU sem servidor do Databricks.

Inferência do lote SGLang

Obter laptop