Configuración de los límites de velocidad para los puntos de conexión de Unity AI Gateway

Importante

Esta característica se encuentra en su versión beta. Los administradores de cuentas pueden controlar el acceso a esta característica desde la página Vista previa de la consola de la cuenta. Consulte Administrar Azure Databricks versiones preliminares.

En esta página se describe cómo configurar los límites de velocidad para los puntos de conexión de Unity AI Gateway . Los límites de velocidad permiten aplicar límites de consumo en un punto de conexión para administrar la capacidad y los costos.

Requisitos

Configuración de límites de velocidad en un punto de conexión

Puede administrar y especificar el número de consultas por minuto (QPM) o tokens por minuto (TPM) que el punto de conexión puede admitir.

Para habilitar los límites de velocidad, seleccione Límites de velocidad al configurar el punto de conexión de Unity AI Gateway. Puede definir límites de velocidad basados en consultas y basados en tokens en los siguientes niveles:

Campo Descripción
Punto final Especifique el valor máximo de QPM o TPM que el punto de conexión completo puede manejar. Este límite se aplica a todo el tráfico, independientemente del usuario.
Usuario (valor predeterminado) Especifique un límite de velocidad por usuario predeterminado que se aplique a todos los usuarios del punto de conexión, a menos que se defina un límite de velocidad personalizado más específico.
Límites de velocidad personalizados Se pueden especificar límites de velocidad personalizados para:
  • Usuarios individuales o entidades principales de servicio: tienen prioridad sobre los límites de tasa personalizados del grupo de usuarios.
  • Grupos de usuarios: este límite es un límite de frecuencia compartida para todos los miembros del grupo.

Detalles y comportamiento

  • Los límites de frecuencia solo se aplican a los usuarios con permiso para consultar el punto de conexión.
  • De forma predeterminada, no hay límites de velocidad configurados para los usuarios o el punto de conexión.
  • El límite de velocidad del punto de conexión es un máximo global. Si se supera este límite, todas las solicitudes al punto de conexión se bloquean, independientemente de los límites de velocidad específicos del usuario o de grupos.
  • Si un punto de conexión, usuario o entidad de servicio tiene especificado un límite de velocidad basado en consultas y un límite de velocidad basado en tokens, se aplica el límite de frecuencia más restrictivo.
  • Los límites de velocidad personalizados invalidan el límite de velocidad de usuario (valor predeterminado ).
    • Si un usuario pertenece a un límite específico del usuario y a un límite específico del grupo, se aplica el límite específico del usuario.
    • Si un usuario pertenece a varios grupos de usuarios con diferentes límites de QPM o TPM, el usuario está sujeto a limitación si supera todos los límites de QPM o todos los límites de TPM de sus grupos de usuarios.

Comportamiento del limitador de velocidad

Cuando se supera un límite de velocidad, el punto de conexión devuelve una respuesta HTTP 429 (demasiadas solicitudes). Los clientes deben implementar la lógica de reintento con retroceso exponencial.

El limitador de velocidad está diseñado para una latencia baja, lo que significa que se esperan los siguientes comportamientos:

  • Las solicitudes simultáneas no se comprueban con antelación. El sistema registra el uso después de enviar una respuesta, por lo que si varias solicitudes llegan al mismo momento, todas pueden pasar antes de que se cuente el uso. Después, las solicitudes posteriores se rechazan hasta que se recupere la capacidad. En la práctica, es posible que vea ráfagas de tráfico seguidas de breves pausas en un patrón repetitivo.
  • Los límites se aplican de forma independiente en las instancias de servicio, por lo que se pueden producir ráfagas cortas ligeramente por encima del límite configurado, especialmente justo después de crear o actualizar un punto de conexión.

En un período de tiempo más largo, la tasa de solicitudes media converge con el límite configurado.

Limitaciones

  • Puede especificar un máximo de 20 límites de velocidad por punto de conexión.
  • Puede especificar un máximo de 5 límites de velocidad específicos del grupo por punto de conexión.

Pasos siguientes