Inferência em lote usando APIs de Modelos Fundamentais

Artigo
04/25/2024

Este artigo fornece blocos de anotações de exemplo que executam inferência em lotes em um ponto de extremidade de taxa de transferência provisionada usando APIs de Modelos Fundamentais. Você precisa de ambos os blocos de anotações para realizar a inferência em lote usando APIs do Modelo Fundamentais.

Os exemplos demonstram inferência em lotes usando o modelo DBRX Instruct para tarefas de chat.

Requisitos

Um workspace em uma região com suporte de APIs de Modelos Fundamentais
Databricks Runtime 14.0 ML ou superior
Os notebooks provisioned-throughput-batch-inference e chat-batch-inference-api devem existir no mesmo diretório no workspace

Configurar tabela de entrada, inferência em lote

O notebook a seguir executa as seguintes tarefas usando o Python:

Lê dados da tabela de entrada e da coluna de entrada
Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
Persiste linhas de entrada junto com os dados de resposta para a tabela de saída

Tarefas de inferência do lote do modelo de chat usando o notebook Python

Obter notebook

O notebook a seguir executa as mesmas tarefas do notebook acima, mas usando o Spark:

Lê dados da tabela de entrada e da coluna de entrada
Constrói as solicitações e as envia para um ponto de extremidade de APIs do Modelos Fundamentais
Persiste linha de entrada juntamente com os dados de resposta para a tabela de saída

Tarefas de inferência do lote do modelo de chat usando o notebook PySpark Pandas UDF

Obter notebook

Criar ponto de extremidade de taxa de transferência provisionada

Se você quiser usar o notebook spark em vez do notebook python, atualize o comando que chama o notebook Python.

Cria um ponto de extremidade de serviço de taxa de transferência provisionada
Monitorar o ponto de extremidade até obter um estado pronto
Chama o notebook chat-batch-inference-api para executar tarefas de inferência em lote simultaneamente no ponto de extremidade preparado. Se preferir usar o Spark, altere essa referência para chamar o notebook chat-batch-inference-udf.
Exclui o ponto de extremidade de serviço de taxa de transferência provisionada após a conclusão da inferência em lote

Executar inferência em lote em um notebook de ponto de extremidade de taxa de transferência provisionado

Obter notebook

Compartilhar via

Inferência em lote usando APIs de Modelos Fundamentais

Requisitos

Configurar tabela de entrada, inferência em lote

Tarefas de inferência do lote do modelo de chat usando o notebook Python

Tarefas de inferência do lote do modelo de chat usando o notebook PySpark Pandas UDF

Criar ponto de extremidade de taxa de transferência provisionada

Executar inferência em lote em um notebook de ponto de extremidade de taxa de transferência provisionado

Recursos adicionais

Recursos adicionais