Compartilhar via


Inferência em lote usando APIs de Modelos Fundamentais

Este artigo fornece blocos de anotações de exemplo que executam inferência em lotes em um ponto de extremidade de taxa de transferência provisionada usando APIs de Modelos Fundamentais. Você precisa de ambos os blocos de anotações para realizar a inferência em lote usando APIs do Modelo Fundamentais.

Os exemplos demonstram inferência em lotes usando o modelo DBRX Instruct para tarefas de chat.

Requisitos

Configurar tabela de entrada, inferência em lote

O notebook a seguir executa as seguintes tarefas usando o Python:

  • Lê dados da tabela de entrada e da coluna de entrada
  • Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
  • Persiste linhas de entrada junto com os dados de resposta para a tabela de saída

Tarefas de inferência do lote do modelo de chat usando o notebook Python

Obter notebook

O notebook a seguir executa as mesmas tarefas do notebook acima, mas usando o Spark:

  • Lê dados da tabela de entrada e da coluna de entrada
  • Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
  • Persiste linha de entrada juntamente com os dados de resposta para a tabela de saída

Tarefas de inferência do lote do modelo de chat usando o notebook PySpark Pandas UDF

Obter notebook

Criar ponto de extremidade de taxa de transferência provisionada

Se você quiser usar o notebook spark em vez do notebook python, atualize o comando que chama o notebook Python.

  • Cria um ponto de extremidade de serviço de taxa de transferência provisionada
  • Monitorar o ponto de extremidade até obter um estado pronto
  • Chama o notebook chat-batch-inference-api para executar tarefas de inferência em lote simultaneamente no ponto de extremidade preparado. Se preferir usar o Spark, altere essa referência para chamar o notebook chat-batch-inference-udf.
  • Exclui o ponto de extremidade de serviço de taxa de transferência provisionada após a conclusão da inferência em lote

Executar inferência em lote em um notebook de ponto de extremidade de taxa de transferência provisionado

Obter notebook

Recursos adicionais