Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Importante
Esta característica se encuentra en su versión beta. Los administradores de cuentas pueden controlar el acceso a esta característica desde la página Vista previa de la consola de la cuenta. Consulte Administrar Azure Databricks versiones preliminares.
En esta página se describe cómo configurar los límites de velocidad para los puntos de conexión de Unity AI Gateway . Los límites de velocidad permiten aplicar límites de consumo en un punto de conexión para administrar la capacidad y los costos.
Requisitos
- Versión preliminar de Unity AI Gateway habilitada para su cuenta. Consulte Administrar Azure Databricks versiones preliminares.
- Un área de trabajo de Azure Databricks en una región compatible con Unity AI Gateway.
Configuración de límites de velocidad en un punto de conexión
Puede administrar y especificar el número de consultas por minuto (QPM) o tokens por minuto (TPM) que el punto de conexión puede admitir.
Para habilitar los límites de velocidad, seleccione Límites de velocidad al configurar el punto de conexión de Unity AI Gateway. Puede definir límites de velocidad basados en consultas y basados en tokens en los siguientes niveles:
| Campo | Descripción |
|---|---|
| Punto final | Especifique el valor máximo de QPM o TPM que el punto de conexión completo puede manejar. Este límite se aplica a todo el tráfico, independientemente del usuario. |
| Usuario (valor predeterminado) | Especifique un límite de velocidad por usuario predeterminado que se aplique a todos los usuarios del punto de conexión, a menos que se defina un límite de velocidad personalizado más específico. |
| Límites de velocidad personalizados | Se pueden especificar límites de velocidad personalizados para:
|
Detalles y comportamiento
- Los límites de frecuencia solo se aplican a los usuarios con permiso para consultar el punto de conexión.
- De forma predeterminada, no hay límites de velocidad configurados para los usuarios o el punto de conexión.
- El límite de velocidad del punto de conexión es un máximo global. Si se supera este límite, todas las solicitudes al punto de conexión se bloquean, independientemente de los límites de velocidad específicos del usuario o de grupos.
- Si un punto de conexión, usuario o entidad de servicio tiene especificado un límite de velocidad basado en consultas y un límite de velocidad basado en tokens, se aplica el límite de frecuencia más restrictivo.
- Los límites de velocidad personalizados invalidan el límite de velocidad de usuario (valor predeterminado ).
- Si un usuario pertenece a un límite específico del usuario y a un límite específico del grupo, se aplica el límite específico del usuario.
- Si un usuario pertenece a varios grupos de usuarios con diferentes límites de QPM o TPM, el usuario está sujeto a limitación si supera todos los límites de QPM o todos los límites de TPM de sus grupos de usuarios.
Comportamiento del limitador de velocidad
Cuando se supera un límite de velocidad, el punto de conexión devuelve una respuesta HTTP 429 (demasiadas solicitudes). Los clientes deben implementar la lógica de reintento con retroceso exponencial.
El limitador de velocidad está diseñado para una latencia baja, lo que significa que se esperan los siguientes comportamientos:
- Las solicitudes simultáneas no se comprueban con antelación. El sistema registra el uso después de enviar una respuesta, por lo que si varias solicitudes llegan al mismo momento, todas pueden pasar antes de que se cuente el uso. Después, las solicitudes posteriores se rechazan hasta que se recupere la capacidad. En la práctica, es posible que vea ráfagas de tráfico seguidas de breves pausas en un patrón repetitivo.
- Los límites se aplican de forma independiente en las instancias de servicio, por lo que se pueden producir ráfagas cortas ligeramente por encima del límite configurado, especialmente justo después de crear o actualizar un punto de conexión.
En un período de tiempo más largo, la tasa de solicitudes media converge con el límite configurado.
Limitaciones
- Puede especificar un máximo de 20 límites de velocidad por punto de conexión.
- Puede especificar un máximo de 5 límites de velocidad específicos del grupo por punto de conexión.