Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se resumen las limitaciones y la disponibilidad de región para Mosaic AI Model Serving y los tipos de punto de conexión admitidos.
Límites de recursos y carga
Mosaic AI Model Serving impone límites predeterminados para garantizar un rendimiento confiable. Si tiene comentarios sobre estos límites, póngase en contacto con el equipo de la cuenta de Databricks.
En la tabla siguiente se resumen las limitaciones de recursos y carga útil para los puntos de conexión del servicio de modelos.
| Característica | Granularidad | Límite |
|---|---|---|
| Tamaño de carga | Por solicitud | 16 MB. En el caso de los puntos de conexión que sirven a modelos básicos, modelos externos, o agentes de IA, el límite es de 4 MB. |
| Tamaño de solicitud/respuesta | Por solicitud | No se registrará ninguna solicitud o respuesta superior a 1 MB. |
| Consultas por segundo (QPS) | Por área de trabajo | 200. Para QPS superior, habilite la optimización de rutas. |
| Duración de ejecución del modelo | Por solicitud | 297 segundos |
| Uso de memoria del modelo de punto de conexión de CPU | Por punto de conexión | 4 GB |
| Uso de memoria del modelo de punto de conexión de GPU | Por punto de conexión | Mayor o igual que la memoria de GPU asignada, depende del tamaño de la carga de trabajo de GPU |
| Simultaneidad aprovisionada | Por modelo y por área de trabajo | Simultaneidad de 200. Puede aumentarse al ponerse en contacto con el equipo de cuentas de Databricks. |
| Latencia por sobrecarga | Por solicitud | Menos de 50 milisegundos |
| Scripts de inicialización | No se admiten scripts de inicialización. | |
| Límites de velocidad de las API de Foundation Model | Por área de trabajo | Consulte Límites de velocidad y cuotas de las API de Foundation Model para obtener información detallada sobre los límites de rendimiento aprovisionados y de pago por token. |
Limitaciones de redes y seguridad
- Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
- La conectividad privada (como Azure Private Link) solo se admite para los puntos de conexión de servicio de modelos que usan el rendimiento aprovisionado o los puntos de conexión que atienden modelos personalizados.
- De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
- El Servicio de modelos no proporciona parches de seguridad a las imágenes de modelos existentes debido al riesgo de desestabilización de las implementaciones de producción. Una nueva imagen de modelo creada a partir de una nueva versión del modelo contendrá las revisiones más recientes. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.
Estándares de perfil de seguridad de cumplimiento: cargas de trabajo de CPU
En la tabla siguiente se enumeran los estándares de cumplimiento de perfil de seguridad de cumplimiento admitidos para la funcionalidad principal de servicio de modelos en cargas de trabajo de CPU.
Nota:
Estos estándares de cumplimiento requieren que los contenedores servidos se construyan en los últimos 30 días. Databricks reconstruye automáticamente contenedores obsoletos por usted. Sin embargo, si se produce un error en este trabajo automatizado, aparece un mensaje de registro de eventos como el siguiente y proporciona instrucciones sobre cómo asegurarse de que los puntos de conexión permanecen dentro de los requisitos de cumplimiento:
"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."
| Región | Ubicación | HIPAA | HITRUST | PCI-DSS | IRAP | Medio CCCS (protegido B) | Cyber Essentials Plus de Reino Unido |
|---|---|---|---|---|---|---|---|
australiacentral |
Centro de Australia | ||||||
australiacentral2 |
AustraliaCentral2 | ||||||
australiaeast |
AustraliaEast | ✓ | ✓ | ✓ | |||
australiasoutheast |
Australia Sudeste | ||||||
brazilsouth |
Brasil Sur | ✓ | ✓ | ✓ | |||
canadacentral |
CanadaCentral | ✓ | ✓ | ✓ | |||
canadaeast |
Este de Canadá | ||||||
centralindia |
CentralIndia | ✓ | ✓ | ✓ | |||
centralus |
CentralUS | ✓ | ✓ | ✓ | |||
chinaeast2 |
ChinaEast2 | ||||||
chinaeast3 |
Este de China 3 | ||||||
chinanorth2 |
Norte de China 2 | ||||||
chinanorth3 |
Norte de China 3 | ||||||
eastasia |
EastAsia | ✓ | ✓ | ✓ | |||
eastus |
EastUS | ✓ | ✓ | ✓ | |||
eastus2 |
EastUS2 | ✓ | ✓ | ✓ | |||
francecentral |
FranceCentral | ✓ | ✓ | ✓ | |||
germanywestcentral |
AlemaniaWestCentral | ✓ | ✓ | ✓ | |||
japaneast |
JapanEast | ✓ | ✓ | ✓ | |||
japanwest |
JapanWest | ||||||
koreacentral |
KoreaCentral | ✓ | ✓ | ✓ | |||
mexicocentral |
MéxicoCentral | ||||||
northcentralus |
NorthCentralUS | ✓ | ✓ | ✓ | |||
northeurope |
Norte de Europa | ✓ | ✓ | ✓ | |||
norwayeast |
Noruega Este | ||||||
qatarcentral |
Centro de Catar | ||||||
southafricanorth |
Sudáfrica Norte | ||||||
southcentralus |
SouthCentralUS | ✓ | ✓ | ✓ | |||
southeastasia |
Sudeste Asiático | ✓ | ✓ | ✓ | |||
southindia |
India del Sur | ||||||
swedencentral |
SueciaCentral | ✓ | ✓ | ✓ | |||
switzerlandnorth |
SuizaNorte | ✓ | ✓ | ✓ | |||
switzerlandwest |
SuizaOeste | ||||||
uaenorth |
UAENorth | ✓ | ✓ | ✓ | |||
uksouth |
UKSouth | ✓ | ✓ | ✓ | ✓ | ||
ukwest |
UKWest | ||||||
westcentralus |
WestCentralUS | ||||||
westeurope |
Oeste de Europa | ✓ | ✓ | ✓ | |||
westindia |
WestIndia | ||||||
westus |
WestUS | ✓ | ✓ | ✓ | |||
westus2 |
Región Oeste de EE.UU 2 (WestUS2) | ✓ | ✓ | ✓ | |||
westus3 |
WestUS3 | ✓ | ✓ | ✓ |
Límites de las API de Foundation Model
Para obtener información detallada sobre las API de Foundation Model, consulte:
- Límites de velocidad y cuotas: Límites de velocidad y cuotas de las API de Foundation Model - Incluye límites de TPM, disponibilidad regional y restricciones específicas del modelo
- Cumplimiento y seguridad: Cumplimiento y seguridad de las API de Foundation Model : cubre los estándares de cumplimiento, el procesamiento de datos y los requisitos de seguridad.
Disponibilidad regional
Nota:
Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.
Si el área de trabajo se implementa en una región que admite el servicio de modelos, pero la sirve un plano de control en una región no admitida, el área de trabajo no admite el servicio de modelos. Si intenta usar el servicio de modelos en tal área de trabajo, verá un mensaje de error indicando que su área de trabajo no es compatible. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
Para obtener más información sobre la disponibilidad regional de cada característica de servicio de modelos, consulte Disponibilidad de características de servicio de modelos.
Para la disponibilidad regional de modelos fundacionales hospedados en Databricks, consulte Modelos fundacionales hospedados en Databricks.