Servicio de implementación de modelos con inferencia en tiempo real del modelo Serverless

Importante

  • Esta documentación se ha retirado y es posible que no se actualice. Los productos, servicios o tecnologías mencionados en este contenido ya no se admiten.
  • Las instrucciones de este artículo son para la versión preliminar de la funcionalidad de Servicio de modelos, anteriormente conocida como inferencia en tiempo real sin servidor. Databricks recomienda migrar los flujos de trabajo de servicio del modelo a la funcionalidad disponible con carácter general. Consulte Servicio de modelos con Azure Databricks.

Importante

Esta característica está en versión preliminar pública.

En este artículo se describe el servicio de modelos de la inferencia en tiempo real de Azure Databricks Serverless, incluidas sus ventajas y límites en comparación con el servicio de modelos de MLflow clásico.

La inferencia Real-Time sin servidor expone los modelos de aprendizaje automático de MLflow como puntos de conexión de api REST escalables. Esta funcionalidad usa el proceso sin servidor, lo que significa, los puntos de conexión y los recursos de proceso asociados se administran y se ejecutan en la cuenta en la nube de Databricks. Consulte la página precios de la inferencia en tiempo real sin servidor para obtener más información.

El servicio de modelo clásico de MLflow heredado usa un clúster de nodo único que se ejecuta en su propia cuenta dentro de lo que ahora se denomina plano de datos clásico. Este plano de proceso incluye la red virtual y los recursos de proceso asociados, como clústeres para cuadernos y trabajos, almacenes de SQL clásicos y pro, y puntos de conexión de servicio de modelos heredado.

¿Por qué usar la inferencia en tiempo real sin servidor?

La inferencia en tiempo real sin servidor ofrece:

  • Capacidad para iniciar un punto de conexión con un solo clic: Databricks prepara automáticamente un entorno listo para producción para el modelo y ofrece opciones de configuración sin servidor para el proceso.
  • Alta disponibilidad y escalabilidad: la inferencia en tiempo real sin servidor está pensada para su uso en producción y puede admitir hasta 3000 consultas por segundo (QPS). Los puntos de conexión de la inferencia en tiempo real sin servidor se escalan y reducen verticalmente de manera automática; es decir, los puntos de conexión se ajustan automáticamente en función del volumen de solicitudes de puntuación.
  • Paneles: use el panel integrado de inferencia en tiempo real sin servidor para supervisar el estado de los puntos de conexión del modelo mediante métricas, como QPS, latencia y tasa de errores.
  • Integración del almacén de características: cuando el modelo se entrena con características de Databricks Feature Store, el modelo se empaqueta con metadatos de características. Si configura la tienda en línea, estas características se incorporan en tiempo real a medida que se reciben las solicitudes de puntuación.

Limitaciones

Mientras este servicio se encuentre en versión preliminar, se aplicarán los límites siguientes:

  • El límite del tamaño de carga es de 16 MB por solicitud.
  • Límite predeterminado de 200 QPS de solicitudes de puntuación por área de trabajo inscrita. Para aumentar este límite hasta 3000 QPS por área de trabajo, comuníquese con el contacto de soporte técnico de Databricks.
  • El mejor soporte técnico posible con menos de 100 milisegundos de sobrecarga de latencia y disponibilidad.
  • Model Serving no admite scripts de inicialización.

Los puntos de conexión de inferencia en tiempo real sin servidor están abiertos a Internet para el tráfico entrante, a menos que se habilite una lista de direcciones IP permitidas en el área de trabajo, en cuyo caso esta lista también se aplica a los puntos de conexión.

Disponibilidad regional

La inferencia Real-Time sin servidor está disponible en las siguientes regiones de Azure:

  • eastus2
  • westus
  • eastus
  • westeurope
  • centralus
  • northcentralus
  • northeurope

Expectativas de plazos de ensayo y producción

La transición de un modelo de la fase de ensayo a producción tarda tiempo. La implementación de una versión de modelo recién registrada implica la creación de una imagen de contenedor de modelos y el aprovisionamiento del punto de conexión del modelo. Este proceso puede tardar 5 minutos aproximadamente.

Databricks realiza una actualización de "tiempo de inactividad cero" de los puntos de conexión /staging y /production manteniendo la implementación del modelo existente hasta que el nuevo esté listo. Al hacerlo, se garantiza que no habrá ninguna interrupción de los puntos de conexión del modelo que están en uso.

Si el cálculo del modelo tarda más de 60 segundos, las solicitudes agotarán el tiempo de espera. Si cree que el cálculo del modelo tardará más de 60 segundos, comuníquese con el contacto de soporte técnico de Databricks.

Prerrequisitos

Importante

Durante la versión preliminar pública, debe comunicarse con el contacto de soporte técnico de Databricks para habilitar la inferencia en tiempo real sin servidor en el área de trabajo.

Para poder crear puntos de conexión de inferencia en tiempo real sin servidor, debe habilitarlos en el área de trabajo. Consulte Habilitación de puntos de conexión de inferencia en tiempo real sin servidor para el servicio de modelos.

Una vez habilitados los puntos de conexión de inferencia en tiempo real sin servidor en el área de trabajo, necesita los siguientes permisos para crear puntos de conexión para el servicio de modelos:

Recursos adicionales