Compartir vía


Servicio de predicciones en tiempo real con puntos de conexión de modelo de ML (versión preliminar)

Importante

Esta característica se encuentra en versión preliminar.

Microsoft Fabric le permite proporcionar predicciones en tiempo real a partir de modelos de ML con puntos de conexión en línea seguros, escalables y fáciles de usar. Estos puntos de conexión están disponibles como propiedades integradas de la mayoría de los modelos de Fabric y no requieren ninguna configuración para iniciar implementaciones en tiempo real totalmente administradas.

Puede activar, configurar y consultar los puntos de conexión del modelo con una API REST de acceso público. También puede empezar directamente desde la interfaz de Fabric mediante una experiencia de poco código para activar los puntos de conexión del modelo y obtener una vista previa de las predicciones al instante.

Captura de pantalla que muestra un modelo de ML en Fabric con una propiedad de punto de conexión integrada para atender predicciones en tiempo real.

Prerrequisitos

Limitaciones

  • Los puntos de conexión están disponibles actualmente para un conjunto limitado de tipos de modelos de ML, como Keras, LightGBM, Sklearn y XGBoost.
  • Actualmente, los puntos de conexión no están disponibles para los modelos con esquemas basados en tensor o sin esquemas.

Introducción a los puntos de conexión del modelo

Los modelos de ML de Fabric se crean previamente con puntos de conexión en línea que se pueden usar para proporcionar predicciones en tiempo real. Cada versión del modelo registrado tiene una dirección URL de punto de conexión dedicada, que se puede encontrar en el encabezado "Detalles del punto de conexión" en la interfaz de Fabric. Esta dirección URL termina con una subruta que designa esa versión específica (por ejemplo, /versions/1/score).

Captura de pantalla que muestra las propiedades de un punto de conexión de modelo de ML, que se puede usar para atender predicciones en tiempo real.

Los puntos de conexión de modelo tienen las siguientes propiedades:

Propiedad Descripción Predeterminado
Versión predeterminada Esta propiedad (Yes o No) indica si la versión se establece como el valor predeterminado del modelo para atender predicciones reales. Puede personalizar la versión predeterminada en la configuración del modelo. No
Estado Esta propiedad indica si el punto de conexión está listo para servir predicciones. El estado puede ser Inactive, Activating, Active, Deactivatingo Failed. Solo los puntos de conexión activos pueden servir predicciones. Inactive
Suspensión automática Esta propiedad (On o Off) indica si el extremo, una vez activo, debe reducir el uso de capacidad a cero en ausencia de tráfico. Si la suspensión automática está activada, el punto de conexión entra en un estado inactivo después de cinco minutos sin solicitudes entrantes. La primera llamada para reactivar un punto de conexión inactivo implica un breve retraso. On

Activar los puntos de conexión del modelo

Puede activar los puntos de conexión del modelo directamente desde la interfaz de Fabric. Vaya a la versión que desea proporcionar predicciones en tiempo real y seleccione "Activar punto final de versión" en el menú de opciones.

Captura de pantalla que muestra cómo activar un punto de conexión de modelo de ML desde la interfaz de Fabric.

Un mensaje emergente muestra que Fabric está preparando tu endpoint para proporcionar predicciones y el estado del endpoint cambia a "Activando". En segundo plano, Fabric pone en marcha la infraestructura de contenedor subyacente para alojar tu modelo. En unos minutos, el endpoint está listo para proveer predicciones.

Captura de pantalla que muestra un punto de conexión de modelo de ML que ahora se está activando.

Cada punto de conexión tiene un estado que indica si está listo para servir predicciones en tiempo real:

Estado Descripción
Inactive El punto de conexión no se activa para atender predicciones en tiempo real y no consume capacidad de Fabric.
Activating El punto de conexión se configura para atender predicciones en tiempo real. En segundo plano, Fabric configura la infraestructura de contenedor subyacente para hospedar el modelo. En unos minutos, el punto de conexión está activo.
Active El punto de conexión está listo para servir predicciones en tiempo real. En segundo plano, Fabric administra la infraestructura subyacente, escalando verticalmente el uso de recursos en función del tráfico entrante. Un mayor tráfico da como resultado un mayor uso de la capacidad de Fabric.
Deactivating El punto de conexión se está desactivando, de modo que ya no sirve predicciones en tiempo real ni consume capacidad de Fabric. En segundo plano, Fabric desmonta la infraestructura de contenedor subyacente.

Nota:

Los modelos de ML pueden admitir puntos de conexión activos para hasta cinco versiones a la vez. Para proporcionar predicciones desde una sexta versión, primero debe desactivar un punto de conexión activo.

Administración de puntos de conexión de modelo

Para obtener información general sobre los puntos de conexión activos del modelo, seleccione "Administrar puntos de conexión" en la cinta de opciones de la interfaz. Cada modelo tiene un punto de conexión predeterminado personalizable, que sirve predicciones de una versión que elija. Puede actualizar la versión predeterminada mediante el selector de lista desplegable en el panel de configuración.

Captura de pantalla que muestra la dirección URL predeterminada del punto de conexión del modelo de ML, que puede configurar para proporcionar predicciones desde una versión específica.

Importante

Asegúrese de establecer la propiedad predeterminada en una versión activa si tiene previsto usarla. Si no se establece la propiedad predeterminada o se establece en una versión inactiva, se producirá un error en las llamadas al punto de conexión predeterminado.

Todas las versiones con puntos de conexión activos se muestran en la configuración del punto de conexión del modelo. Para modificar la propiedad de suspensión automática de cada punto de conexión, cambie el conmutador para que sea "Activado" o "Desactivado".

Captura de pantalla que muestra cómo cambiar la propiedad de suspensión automática en los puntos de conexión del modelo de ML.

Sugerencia

Los puntos de conexión activos con suspensión automática activada entran en un estado inactivo después de cinco minutos sin tráfico y la primera llamada para reactivarlas implica un breve retraso. Es posible que quiera desactivar esta propiedad para los puntos de conexión en entornos de producción.

Consultar los endpoints del modelo para predicciones en tiempo real

Los puntos finales del modelo están disponibles para pruebas inmediatas con una experiencia de bajo código en Fabric. Vaya a una versión con un punto de conexión activo y seleccione "Vista previa de predicciones" en la cinta de opciones de la interfaz. Puede enviar solicitudes de ejemplo al punto de conexión y obtener predicciones de ejemplo en tiempo real mediante campos de formulario que coincidan con la firma de entrada del modelo.

Captura de pantalla que muestra la experiencia de vista previa integrada para obtener predicciones de ejemplo desde un punto de conexión de un modelo de ML activo.

Para rellenar los campos de formulario con valores de ejemplo aleatorios, seleccione "Autorrellenar". Puede agregar más conjuntos de valores de formulario para probar el punto de conexión con varias entradas. Seleccione "Obtener predicciones" para enviar su solicitud de ejemplo al endpoint.

Captura de pantalla que muestra la vista basada en formularios para enviar solicitudes de ejemplo a un punto de conexión de modelo de ML activo.

Si prefiere dar formato a las solicitudes de ejemplo como cargas JSON, use el selector desplegable para cambiar la vista.

Captura de pantalla que muestra la vista basada en JSON para enviar solicitudes de ejemplo a un punto de conexión de modelo de ML activo.

Desactivar puntos de conexión del modelo

Puede desactivar los puntos de conexión del modelo directamente desde la interfaz de Fabric. Vaya a una versión que ya no necesite para realizar predicciones en tiempo real y seleccione "Desactivar punto de conexión de versión" en la barra de herramientas de la interfaz.

Captura de pantalla que muestra cómo desactivar un punto de conexión de modelo de ML desde la interfaz de Fabric.

Una notificación muestra que Fabric está desmontando tu implementación activa y el estado del endpoint cambia a "Desactivándose". El endpoint ya no puede atender predicciones en tiempo real a menos que lo reactives.

Captura de pantalla que muestra un punto de conexión de modelo de ML que ahora se está desactivando.

Puede desactivar puntos de conexión para varias versiones a la vez desde el panel de configuración del modelo. Seleccione "Administrar puntos de conexión" en la cinta de opciones de la interfaz y elija uno o varios puntos de conexión activos para desactivar.

Captura de pantalla que muestra cómo desactivar varios puntos de conexión de modelo de ML a la vez desde la interfaz de Fabric.

Tasa de consumo

El hospedaje de puntos de conexión del modelo activo consume unidades de capacidad de tejido (RU). Los puntos de conexión se ejecutan en nodos de cálculo y pueden escalar automáticamente hasta tres nodos según el tráfico entrante. La facturación se calcula por nodo mientras un punto de conexión está activo. En la tabla siguiente se muestra el consumo de CU para un punto de conexión de modelo de Aprendizaje Automático activo.

Operación Unidad de medida de operación tasa de consumo
punto de conexión del modelo 1 punto de conexión de modelo (versión) por segundo por nodo 5 segundos de CU

En la tabla siguiente se muestran escenarios de ejemplo y sus tasas de consumo y costos por hora correspondientes.

Escenario Descripción tasa de consumo Costo por hora
Modelos con puntos de conexión inactivos Estos modelos no tienen puntos de conexión de versión activos ni ningún uso de recursos asociado. No conllevan ningún costo adicional. 0 segundos CU 0 HORA CU
Modelos con puntos de conexión activos pero inactivos Estos modelos tienen uno o varios puntos de conexión de versión activos, pero, sin tráfico regular, todos se reducen a cero, lo que reduce los costos automáticamente. 5 segundos de CU 0,42 horas CU
Modelos con 1 punto de conexión activo y tráfico bajo constante Estos modelos solo tienen un punto de conexión de versión activo para servir predicciones, pero no hay suficiente tráfico para iniciar un escalado completo. Un nodo puede gestionar todo el tráfico. Otros puntos de conexión de versión pueden estar inactivos o en espera. 5 segundos de CU 5 Horas de Créditos Universitarios
Modelos con 1 punto de conexión activo y tráfico elevado constante Estos modelos tienen solo 1 punto de conexión de versión activo que gestiona predicciones, con suficiente tráfico para iniciar un escalado horizontal completo. Otros puntos de conexión de versión pueden estar inactivos o en espera. 15 SEGUNDOS DE UNIDAD DE CRÉDITO 15 Horas de Créditos
Modelos con 5 puntos de conexión activos y tráfico elevado constante Estos modelos tienen cinco puntos de conexión de versión activos (el límite actual) generando predicciones, cada uno con suficiente tráfico para desencadenar un escalado horizontal completo. 75 SEGUNDOS DE CU 75 HORAS CU

La aplicación Fabric Capacity Metrics muestra el uso total de la capacidad para las operaciones del punto de conexión del modelo con el nombre "Punto de conexión de modelo". Además, los usuarios pueden ver un resumen de sus cargos por facturación para el uso del terminal del modelo en el elemento de facturación "ML Model Endpoint Capacity Usage CU".

La operación del punto de conexión de modelo se clasifica como operaciones en segundo plano.

Las tarifas de consumo están sujetas a cambios en cualquier momento. Microsoft hará todo lo posible para avisar por correo electrónico o mediante una notificación en el producto. Los cambios serán efectivos en la fecha indicada en las notas de la versión de Microsoft o en el blog de Microsoft Fabric. Si un cambio en el punto de conexión del modelo en la Tasa de Consumo de Tejido incrementa significativamente las Unidades de Capacidad (CU) necesarias para su uso, los clientes pueden emplear las opciones de cancelación disponibles para el método de pago elegido.