Inferência em lote usando APIs de Modelos Fundamentais
Este artigo fornece blocos de anotações de exemplo que executam inferência em lotes em um ponto de extremidade de taxa de transferência provisionada usando APIs de Modelos Fundamentais. Você precisa de ambos os blocos de anotações para realizar a inferência em lote usando APIs do Modelo Fundamentais.
Os exemplos demonstram inferência em lotes usando o modelo DBRX Instruct para tarefas de chat.
Requisitos
- Um workspace em uma região com suporte de APIs de Modelos Fundamentais
- Databricks Runtime 14.0 ML ou superior
- Os notebooks
provisioned-throughput-batch-inference
echat-batch-inference-api
devem existir no mesmo diretório no workspace
Configurar tabela de entrada, inferência em lote
O notebook a seguir executa as seguintes tarefas usando o Python:
- Lê dados da tabela de entrada e da coluna de entrada
- Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
- Persiste linhas de entrada junto com os dados de resposta para a tabela de saída
Tarefas de inferência do lote do modelo de chat usando o notebook Python
O notebook a seguir executa as mesmas tarefas do notebook acima, mas usando o Spark:
- Lê dados da tabela de entrada e da coluna de entrada
- Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
- Persiste linha de entrada juntamente com os dados de resposta para a tabela de saída
Tarefas de inferência do lote do modelo de chat usando o notebook PySpark Pandas UDF
Criar ponto de extremidade de taxa de transferência provisionada
Se você quiser usar o notebook spark em vez do notebook python, atualize o comando que chama o notebook Python.
- Cria um ponto de extremidade de serviço de taxa de transferência provisionada
- Monitorar o ponto de extremidade até obter um estado pronto
- Chama o notebook
chat-batch-inference-api
para executar tarefas de inferência em lote simultaneamente no ponto de extremidade preparado. Se preferir usar o Spark, altere essa referência para chamar o notebookchat-batch-inference-udf
. - Exclui o ponto de extremidade de serviço de taxa de transferência provisionada após a conclusão da inferência em lote