Partilhar via


Implantar modelos para inferência e previsão em lote

Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.

Para servir o modelo em tempo real no Azure Databricks, consulte Model serving with Azure Databricks.

Use ai_query para inferência de lote

Importante

Esta funcionalidade está em Pré-visualização Pública.

O Databricks recomenda o uso ai_query com o Model Serving para inferência em lote. ai_query é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.

Para experimentação rápida, pode ser usado com pontos de extremidade de pagamento por token, ai_query uma vez que esses pontos de extremidade são pré-configurados em seu espaço de trabalho.

Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs de modelo de base de taxa de transferência provisionada para criar um ponto de extremidade de taxa de transferência provisionada.