Compartir a través de


Límites y regiones de servicio de modelos

En este artículo se resumen las limitaciones y la disponibilidad de regiones para los tipos de punto de conexión admitidos y el servicio de modelos de Azure Databricks.

Límites de recursos y carga

Model Serving impone límites predeterminados para garantizar un rendimiento confiable. Si tiene comentarios sobre estos límites, póngase en contacto con el equipo de la cuenta de Databricks.

Los límites de esta sección solo se aplican a los modelos personalizados y los puntos de conexión de agente de IA. Para las API de Foundation Model y los límites de carga y recursos del modelo externo, consulte Límites y cuotas de las API de Foundation Model.

Modelos personalizados y agentes de IA

Característica Granularidad Límite
Endpoints Por área de trabajo 1000. Póngase en contacto con su equipo de cuenta de Databricks para aumentar.
Consultas por segundo (QPS) Por punto de conexión 300 000 mediante la optimización de rutas. Si una simultaneidad de 1024 no es suficiente, póngase en contacto con el equipo de cuentas de Databricks para solicitar un aumento.
Consultas por segundo (QPS) Por área de trabajo 300 000 mediante la optimización de rutas. 200 para no optimizado para rutas, recomendado solo para casos de uso de desarrollo pequeños.
Simultaneidad aprovisionada Por modelo 1024 con opción personalizada y optimización de rutas. Póngase en contacto con el equipo de la cuenta de Databricks para aumentar.
Simultaneidad aprovisionada Por área de trabajo 4096. Póngase en contacto con su equipo de cuentas de Databricks para aumentar.
Creación y actualización de operaciones Por área de trabajo 50 en 5 minutos.
Tamaño de carga Por solicitud 16 MB. Para los puntos de conexión del agente de IA , el límite es de 4 MB.
Tamaño de solicitud/respuesta Por solicitud No se registrará ninguna solicitud o respuesta superior a 1 MB.
Duración de ejecución del modelo Por solicitud 297 segundos
Uso de memoria del modelo de punto de conexión de CPU Por punto de conexión 4 GB
Uso de memoria del modelo de punto de conexión de GPU Por punto de conexión Depende del tipo de GPU
Variables de entorno Modelo servido 30. Póngase en contacto con su equipo de cuenta de Databricks para aumentar.
Latencia por sobrecarga Por solicitud Menos de 20 milisegundos con optimización de rutas.

:::

Limitaciones de redes y seguridad

  • Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
  • La conectividad privada (como Azure Private Link) solo se admite para los puntos de conexión de servicio de modelos que usan el rendimiento aprovisionado o los puntos de conexión que atienden modelos personalizados.
  • De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
  • El Servicio de modelos no proporciona parches de seguridad a las imágenes de modelos existentes debido al riesgo de desestabilización de las implementaciones de producción. Una nueva imagen de modelo creada a partir de una nueva versión del modelo contendrá las revisiones más recientes. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.

Estándares de perfil de seguridad de cumplimiento: cargas de trabajo de CPU

En la tabla siguiente se enumeran los estándares de cumplimiento de perfil de seguridad de cumplimiento admitidos para la funcionalidad principal de servicio de modelos en cargas de trabajo de CPU.

Nota:

Estos estándares de cumplimiento requieren que los contenedores servidos se construyan en los últimos 30 días. Databricks reconstruye automáticamente contenedores obsoletos por usted. Sin embargo, si se produce un error en este trabajo automatizado, aparece un mensaje de registro de eventos como el siguiente y proporciona instrucciones sobre cómo asegurarse de que los puntos de conexión permanecen dentro de los requisitos de cumplimiento:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Región Ubicación HIPAA HITRUST PCI-DSS IRAP Medio CCCS (protegido B) Cyber Essentials Plus de Reino Unido
australiacentral Centro de Australia            
australiacentral2 AustraliaCentral2            
australiaeast AustraliaEast      
australiasoutheast Australia Sudeste            
brazilsouth Brasil Sur      
canadacentral CanadaCentral      
canadaeast Este de Canadá            
centralindia CentralIndia      
centralus CentralUS      
chinaeast2 ChinaEast2            
chinaeast3 Este de China 3            
chinanorth2 Norte de China 2            
chinanorth3 Norte de China 3            
eastasia EastAsia      
eastus EastUS      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral AlemaniaWestCentral      
japaneast JapanEast      
japanwest JapanWest            
koreacentral KoreaCentral      
mexicocentral MéxicoCentral            
northcentralus NorthCentralUS      
northeurope Norte de Europa      
norwayeast Noruega Este            
qatarcentral Centro de Catar            
southafricanorth Sudáfrica Norte            
southcentralus SouthCentralUS      
southeastasia Sudeste Asiático      
southindia India del Sur            
swedencentral SueciaCentral      
switzerlandnorth SuizaNorte      
switzerlandwest SuizaOeste            
uaenorth UAENorth      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope Oeste de Europa      
westindia WestIndia            
westus WestUS      
westus2 Región Oeste de EE.UU 2 (WestUS2)      
westus3 WestUS3      

Límites de las API de Foundation Model

Para obtener información detallada sobre las API de Foundation Model, incluidos los límites de recursos y carga para los modelos básicos y externos, consulte Límites y cuotas de las API de Foundation Model.

Disponibilidad regional

Nota:

Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.

Si el área de trabajo se implementa en una región que admite el servicio de modelos, pero la sirve un plano de control en una región no admitida, el área de trabajo no admite el servicio de modelos. Si intenta usar el servicio de modelos en tal área de trabajo, verá un mensaje de error indicando que su área de trabajo no es compatible. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.

Para obtener más información sobre la disponibilidad regional de cada característica de servicio de modelos, consulte Disponibilidad de características de servicio de modelos.

Para la disponibilidad regional de modelos fundacionales hospedados en Databricks, consulte Modelos fundacionales hospedados en Databricks.