Límites y regiones de servicio de modelos
En este artículo se resumen las limitaciones y la disponibilidad de regiones para los tipos de punto de conexión admitidos y el servicio de modelos de Databricks.
Limitaciones
El Servicio de modelos de Databricks impone límites predeterminados para garantizar un rendimiento confiable. Si quiere realizar algún comentario acerca de estos límites, póngase en contacto con el equipo de su cuenta de Databricks.
En la tabla siguiente se resumen las limitaciones de recursos y carga útil para los puntos de conexión del servicio de modelos.
Característica | Granularidad | Límite |
---|---|---|
Tamaño de carga | Por solicitud | 16 MB |
Consultas por segundo (QPS) | Por área de trabajo | 200, pero se puede aumentar a 3000 o más poniéndose en contacto con el representante de su cuenta de Databricks |
Duración de ejecución del modelo | Por solicitud | 120 segundos |
Uso de memoria del modelo de punto de conexión de CPU | Por punto de conexión | 4 GB |
Uso de memoria del modelo de punto de conexión de GPU | Por punto de conexión | Mayor o igual que la memoria de GPU asignada, depende del tamaño de la carga de trabajo de GPU |
Simultaneidad aprovisionada | Por área de trabajo | Simultaneidad de 200. Se puede aumentar poniéndose en contacto con el representante de su cuenta de Databricks. |
Latencia de sobrecarga | Por solicitud | Menos de 50 milisegundos |
Límites de velocidad de las API de Foundation Model (pago por token) | Por área de trabajo | Póngase en contacto con el equipo de la cuenta de Databricks para aumentar los límites siguientes. * El modelo DBRX Instruct tiene un límite de 1 consulta por segundo. * Otros modelos de chat y finalización tienen un límite de velocidad predeterminado de 2 consultas por segundo. * Los modelos de inserción tienen 300 entradas de inserción predeterminadas por segundo. |
Límites de velocidad de las API de Foundation Model (rendimiento aprovisionado) | Por área de trabajo | Igual que el límite de QPS de servicio de modelos enumerado anteriormente. |
Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
También pueden existir limitaciones adicionales:
- Es posible implementar un área de trabajo en una región admitida, pero ser atendida por un plano de control de otra región. Estas áreas de trabajo no admiten Model Serving y generan un mensaje de error que indica que no se admite el área de trabajo. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
- Model Serving no admite scripts de inicialización.
- De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
Límites de las API de Foundation Model
Nota:
Como parte de proporcionar las API de Foundation Model, Databricks puede procesar los datos fuera de la región donde se originaron los datos, pero no fuera de la ubicación geográfica pertinente.
A continuación se muestran los límites pertinentes para las cargas de trabajo de las API de Foundation Model:
- Rendimiento aprovisionado admite el perfil de cumplimiento de HIPAA y debe usarse para cargas de trabajo que requieren certificaciones de cumplimiento. Para cargas de trabajo de Pago por tokens, esta funcionalidad no cumple con la HIPAA ni con el perfil de seguridad de cumplimiento.
- Para los puntos de conexión de las API de Foundation Model, solo los administradores del área de trabajo pueden cambiar la configuración de gobernanza, como los límites de velocidad. Para cambiar los límites de frecuencia, siga estos pasos:
- Abra la interfaz de usuario de servicio en el área de trabajo para ver los puntos de conexión de servicio.
- En el menú kebab del punto de conexión de las API de Foundation Model que desea editar, seleccione Ver detalles.
- En el menú kebab de la parte superior derecha de la página de detalles de los puntos de conexión, seleccione Límite de frecuencia de cambio.
- Para usar la arquitectura del modelo DBRX para una carga de trabajo de rendimiento aprovisionada, el punto de conexión de servicio debe estar en una de las siguientes regiones:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Disponibilidad regional
Nota:
Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.
Para las cargas de trabajo de rendimiento aprovisionadas que usan modelos DBRX, consulte Límites de las API del modelo de Foundation para la disponibilidad de regiones.
Region | Location | Funcionalidad de servicio de modelos principales * | API de Foundation Model (aprovisionadas en todo) ** | API de Foundation Model (pago por token) | Modelos externos |
---|---|---|---|---|---|
australiacentral |
Centro de Australia | ||||
australiacentral2 |
Centro de Australia 2 | ||||
australiaeast |
Este de Australia | x | X | x | |
australiasoutheast |
Sudeste de Australia | ||||
brazilsouth |
Sur de Brasil | x | X | x | |
canadacentral |
Centro de Canadá | x | X | x | |
canadaeast |
Este de Canadá | ||||
centralindia |
Centro de la India | X | X | x | |
centralus |
Centro de EE. UU. | X | X | X | X |
chinaeast2 |
Este de China 2 | ||||
chinaeast3 |
Este de China 3 | ||||
chinanorth2 |
Norte de China 2 | ||||
chinanorth3 |
Norte de China 3 | ||||
eastasia |
Este de Asia | ||||
eastus |
Este de EE. UU. | x | X | X | x |
eastus2 |
Este de EE. UU. 2 | X | X | X | x |
eastus2euap |
EUAP de Este de EE. UU. 2 | ||||
francecentral |
Centro de Francia | ||||
germanywestcentral |
Centro-oeste de Alemania | ||||
japaneast |
Japón Oriental | ||||
japanwest |
Japón Occidental | ||||
koreacentral |
Centro de Corea del Sur | ||||
northcentralus |
Centro-Norte de EE. UU | x | X | X | |
northeurope |
Norte de Europa | X | X | X | |
norwayeast |
Este de Noruega | ||||
qatarcentral |
Centro de Catar | ||||
southafricanorth |
Norte de Sudáfrica | ||||
southcentralus |
Centro-sur de EE. UU. | ||||
southeastasia |
Sudeste de Asia | X | X | ||
southindia |
Sur de la India | ||||
swedencentral |
Centro de Suecia | ||||
switzerlandnorth |
Norte de Suiza | ||||
switzerlandwest |
Oeste de Suiza | ||||
uaenorth |
Norte de Emiratos Árabes Unidos | ||||
uksouth |
Sur de Reino Unido | ||||
ukwest |
Oeste de Reino Unido | ||||
westcentralus |
Centro-Oeste de EE. UU. | ||||
westeurope |
Oeste de Europa | X | X | x | |
westindia |
Oeste de la India | ||||
westus |
Oeste de EE. UU. | x | X | X | x |
westus2 |
Oeste de EE. UU. 2 | X | |||
westus3 |
Oeste de EE. UU. 3 |
- solo proceso de CPU
** incluye compatibilidad con GPU