Implementación de modelos para la inferencia y la predicción por lotes
En este artículo se describe lo que Databricks recomienda para la inferencia por lotes y streaming.
Para obtener servicios de modelos en tiempo real en Azure Databricks, consulte Model serving with Azure Databricks (Servicio de modelos con Azure Databricks).
Uso de ai_query para la inferencia por lotes
Importante
Esta característica está en versión preliminar pública.
Databricks recomienda usar ai_query
con Model Serving para la inferencia por lotes. ai_query
es una función SQL integrada de Databricks que permite consultar los puntos de conexión de servicio de modelos existentes mediante SQL. Se ha comprobado para procesar conjuntos de datos de forma confiable y coherente en el intervalo de miles de millones de tokens. Consulte ai_query función para obtener más información sobre esta función de IA.
Para la experimentación rápida, ai_query
se puede usar con puntos de conexión de pago por token, ya que estos puntos de conexión están preconfigurados en el área de trabajo.
Cuando esté listo para ejecutar la inferencia por lotes en datos grandes o de producción, Databricks recomienda usar puntos de conexión de rendimiento aprovisionados para un rendimiento más rápido. Consulte Api de modelo de rendimiento aprovisionadas para crear un punto de conexión de rendimiento aprovisionado.
- Consulte Realización de la inferencia por lotes mediante ai_query.
- Para empezar a trabajar con la inferencia por lotes con llms en tablas del catálogo de Unity, consulte los ejemplos de cuadernos de inferencia por lotes mediante las API de Foundation Model aprovisionadas.