Implantar modelos para inferência e previsão em lote
Este artigo descreve o que o Databricks recomenda para inferência em lote e streaming.
Para servir o modelo em tempo real no Azure Databricks, consulte Model serving with Azure Databricks.
Use ai_query para inferência de lote
Importante
Esta funcionalidade está em Pré-visualização Pública.
O Databricks recomenda o uso ai_query
com o Model Serving para inferência em lote. ai_query
é uma função interna do Databricks SQL que permite consultar o modelo existente que serve pontos de extremidade usando SQL. Foi verificado para processar de forma confiável e consistente conjuntos de dados na faixa de bilhões de tokens. Consulte ai_query função para obter mais detalhes sobre essa função de IA.
Para experimentação rápida, pode ser usado com pontos de extremidade de pagamento por token, ai_query
uma vez que esses pontos de extremidade são pré-configurados em seu espaço de trabalho.
Quando você estiver pronto para executar a inferência em lote em dados grandes ou de produção, o Databricks recomenda o uso de pontos de extremidade de taxa de transferência provisionados para um desempenho mais rápido. Consulte APIs de modelo de base de taxa de transferência provisionada para criar um ponto de extremidade de taxa de transferência provisionada.
- Consulte Executar inferência em lote usando ai_query.
- Para começar a usar a inferência em lote com LLMs em tabelas do Catálogo Unity, consulte os exemplos de bloco de anotações em Inferência em lote usando a taxa de transferência provisionada de APIs do Modelo de Base.