Implementación de modelos para la inferencia y la predicción por lotes

Artículo
11/02/2024

En este artículo se describe lo que Databricks recomienda para la inferencia por lotes y streaming.

Para obtener servicios de modelos en tiempo real en Azure Databricks, consulte Model serving with Azure Databricks (Servicio de modelos con Azure Databricks).

Uso de ai_query para la inferencia por lotes

Importante

Esta característica está en versión preliminar pública.

Databricks recomienda usar ai_query con Model Serving para la inferencia por lotes. ai_query es una función SQL integrada de Databricks que permite consultar los puntos de conexión de servicio de modelos existentes mediante SQL. Se ha comprobado para procesar conjuntos de datos de forma confiable y coherente en el intervalo de miles de millones de tokens. Consulte ai_query función para obtener más información sobre esta función de IA.

Para la experimentación rápida, ai_query se puede usar con puntos de conexión de pago por token, ya que estos puntos de conexión están preconfigurados en el área de trabajo.

Cuando esté listo para ejecutar la inferencia por lotes en datos grandes o de producción, Databricks recomienda usar puntos de conexión de rendimiento aprovisionados para un rendimiento más rápido. Consulte Api de modelo de rendimiento aprovisionadas para crear un punto de conexión de rendimiento aprovisionado.

Consulte Realización de la inferencia por lotes mediante ai_query.
Para empezar a trabajar con la inferencia por lotes con llms en tablas del catálogo de Unity, consulte los ejemplos de cuadernos de inferencia por lotes mediante las API de Foundation Model aprovisionadas.

Compartir vía

Implementación de modelos para la inferencia y la predicción por lotes

Uso de ai_query para la inferencia por lotes

Comentarios

Recursos adicionales