Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se resumen las limitaciones y la disponibilidad de regiones para los tipos de punto de conexión admitidos y el servicio de modelos de Azure Databricks.
Límites de recursos y carga
Model Serving impone límites predeterminados para garantizar un rendimiento confiable. Si tiene comentarios sobre estos límites, póngase en contacto con el equipo de la cuenta de Databricks.
Los límites de esta sección solo se aplican a los modelos personalizados y los puntos de conexión de agente de IA. Para las API de Foundation Model y los límites de carga y recursos del modelo externo, consulte Límites y cuotas de las API de Foundation Model.
Modelos personalizados y agentes de IA
| Característica | Granularidad | Límite |
|---|---|---|
| Endpoints | Por área de trabajo | 1000. Póngase en contacto con su equipo de cuenta de Databricks para aumentar. |
| Consultas por segundo (QPS) | Por punto de conexión | 300 000 mediante la optimización de rutas. Si una simultaneidad de 1024 no es suficiente, póngase en contacto con el equipo de cuentas de Databricks para solicitar un aumento. |
| Consultas por segundo (QPS) | Por área de trabajo | 300 000 mediante la optimización de rutas. 200 para no optimizado para rutas, recomendado solo para casos de uso de desarrollo pequeños. |
| Simultaneidad aprovisionada | Por modelo | 1024 con opción personalizada y optimización de rutas. Póngase en contacto con el equipo de la cuenta de Databricks para aumentar. |
| Simultaneidad aprovisionada | Por área de trabajo | 4096. Póngase en contacto con su equipo de cuentas de Databricks para aumentar. |
| Creación y actualización de operaciones | Por área de trabajo | 50 en 5 minutos. |
| Tamaño de carga | Por solicitud | 16 MB. Para los puntos de conexión del agente de IA , el límite es de 4 MB. |
| Tamaño de solicitud/respuesta | Por solicitud | No se registrará ninguna solicitud o respuesta superior a 1 MB. |
| Duración de ejecución del modelo | Por solicitud | 297 segundos |
| Uso de memoria del modelo de punto de conexión de CPU | Por punto de conexión | 4 GB |
| Uso de memoria del modelo de punto de conexión de GPU | Por punto de conexión | Depende del tipo de GPU |
| Variables de entorno | Modelo servido | 30. Póngase en contacto con su equipo de cuenta de Databricks para aumentar. |
| Latencia por sobrecarga | Por solicitud | Menos de 20 milisegundos con optimización de rutas. |
:::
Limitaciones de redes y seguridad
- Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
- La conectividad privada (como Azure Private Link) solo se admite para los puntos de conexión de servicio de modelos que usan el rendimiento aprovisionado o los puntos de conexión que atienden modelos personalizados.
- De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
- El Servicio de modelos no proporciona parches de seguridad a las imágenes de modelos existentes debido al riesgo de desestabilización de las implementaciones de producción. Una nueva imagen de modelo creada a partir de una nueva versión del modelo contendrá las revisiones más recientes. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.
Estándares de perfil de seguridad de cumplimiento: cargas de trabajo de CPU
En la tabla siguiente se enumeran los estándares de cumplimiento de perfil de seguridad de cumplimiento admitidos para la funcionalidad principal de servicio de modelos en cargas de trabajo de CPU.
Nota:
Estos estándares de cumplimiento requieren que los contenedores servidos se construyan en los últimos 30 días. Databricks reconstruye automáticamente contenedores obsoletos por usted. Sin embargo, si se produce un error en este trabajo automatizado, aparece un mensaje de registro de eventos como el siguiente y proporciona instrucciones sobre cómo asegurarse de que los puntos de conexión permanecen dentro de los requisitos de cumplimiento:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
| Región | Ubicación | HIPAA | HITRUST | PCI-DSS | IRAP | Medio CCCS (protegido B) | Cyber Essentials Plus de Reino Unido |
|---|---|---|---|---|---|---|---|
australiacentral |
Centro de Australia | ||||||
australiacentral2 |
AustraliaCentral2 | ||||||
australiaeast |
AustraliaEast | ✓ | ✓ | ✓ | |||
australiasoutheast |
Australia Sudeste | ||||||
brazilsouth |
Brasil Sur | ✓ | ✓ | ✓ | |||
canadacentral |
CanadaCentral | ✓ | ✓ | ✓ | |||
canadaeast |
Este de Canadá | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
CentralUS | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
Este de China 3 | ||||||
chinanorth2 |
Norte de China 2 | ||||||
chinanorth3 |
Norte de China 3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
EastUS | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
AlemaniaWestCentral | ✓ | ✓ | ✓ | |||
japaneast |
JapanEast | ✓ | ✓ | ✓ | |||
japanwest |
JapanWest | ||||||
koreacentral |
KoreaCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
MéxicoCentral | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
Norte de Europa | ✓ | ✓ | ✓ | |||
norwayeast |
Noruega Este | ||||||
qatarcentral |
Centro de Catar | ||||||
southafricanorth |
Sudáfrica Norte | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
Sudeste Asiático | ✓ | ✓ | ✓ | |||
southindia |
India del Sur | ||||||
swedencentral |
SueciaCentral | ✓ | ✓ | ✓ | |||
switzerlandnorth |
SuizaNorte | ✓ | ✓ | ✓ | |||
switzerlandwest |
SuizaOeste | ||||||
uaenorth |
UAENorth | ✓ | ✓ | ✓ | |||
uksouth |
UKSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
Oeste de Europa | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
WestUS | ✓ | ✓ | ✓ | |||
westus2 |
Región Oeste de EE.UU 2 (WestUS2) | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
Límites de las API de Foundation Model
Para obtener información detallada sobre las API de Foundation Model, incluidos los límites de recursos y carga para los modelos básicos y externos, consulte Límites y cuotas de las API de Foundation Model.
Disponibilidad regional
Nota:
Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.
Si el área de trabajo se implementa en una región que admite el servicio de modelos, pero la sirve un plano de control en una región no admitida, el área de trabajo no admite el servicio de modelos. Si intenta usar el servicio de modelos en tal área de trabajo, verá un mensaje de error indicando que su área de trabajo no es compatible. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
Para obtener más información sobre la disponibilidad regional de cada característica de servicio de modelos, consulte Disponibilidad de características de servicio de modelos.
Para la disponibilidad regional de modelos fundacionales hospedados en Databricks, consulte Modelos fundacionales hospedados en Databricks.