Límites y regiones de servicio de modelos

2025-06-02

En este artículo se resumen las limitaciones y la disponibilidad de región para Mosaic AI Model Serving y los tipos de punto de conexión admitidos.

Límites de recursos y carga

Mosaic AI Model Serving impone límites predeterminados para garantizar un rendimiento confiable. Si tiene comentarios sobre estos límites, póngase en contacto con el equipo de la cuenta de Databricks.

En la tabla siguiente se resumen las limitaciones de recursos y carga útil para los puntos de conexión del servicio de modelos.

Característica	Granularidad	Límite
Tamaño de carga	Por solicitud	16 MB. En el caso de los puntos de conexión que sirven a modelos básicos, modelos externos, o agentes de IA, el límite es de 4 MB.
Tamaño de solicitud/respuesta	Por solicitud	No se registrará ninguna solicitud o respuesta superior a 1 MB.
Consultas por segundo (QPS)	Por área de trabajo	200, pero se puede aumentar a 25 000 o más al ponerse en contacto con el equipo de cuentas de Databricks.
Duración de ejecución del modelo	Por solicitud	120 segundos
Uso de memoria del modelo de punto de conexión de CPU	Por punto de conexión	4 GB
Uso de memoria del modelo de punto de conexión de GPU	Por punto de conexión	Mayor o igual que la memoria de GPU asignada, depende del tamaño de la carga de trabajo de GPU
Simultaneidad aprovisionada	Por modelo y por área de trabajo	Simultaneidad de 200. Puede aumentarse al ponerse en contacto con el equipo de cuentas de Databricks.
Latencia por sobrecarga	Por solicitud	Menos de 50 milisegundos
Scripts de inicialización		No se admiten scripts de inicialización.
Límites de velocidad de las API de Foundation Model (pago por token)	Por área de trabajo	Si los límites siguientes son insuficientes para el caso de uso, Databricks recomienda usar el rendimiento aprovisionado. Claude Sonnet 4 tiene un límite de 2 consultas por segundo. Claude Opus 4 tiene un límite de 2 consultas por segundo. Llama 4 Maverick tiene un límite de 4 consultas por segundo y 2400 consultas por hora. Claude 3.7 Sonnet tiene un límite de 4 consultas por segundo y 2400 consultas por hora. Llama 3.3 70B Instruct tiene un límite de 4 consultas por segundo y 2400 consultas por hora. Llama 3.1 405B Instruct tiene un límite de 1 consulta por segundo y 1200 consultas por hora. Llama 3.1 8B Instruct tiene un límite de 2 consultas por segundo. GTE Large (En) tiene un límite de velocidad de 150 consultas por segundo BGE Large (En) tiene un límite de velocidad de 600 consultas por segundo.
Límites de velocidad de las API de Foundation Model (rendimiento aprovisionado)	Por área de trabajo	200 consultas por segundo.

Limitaciones de redes y seguridad

Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
La conectividad privada (como Azure Private Link) solo se admite para los puntos de conexión de servicio de modelos que usan el rendimiento aprovisionado o los puntos de conexión que atienden modelos personalizados.
De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
El Servicio de modelos no proporciona parches de seguridad a las imágenes de modelos existentes debido al riesgo de desestabilización de las implementaciones de producción. Una nueva imagen de modelo creada a partir de una nueva versión del modelo contendrá las revisiones más recientes. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.

Estándares de perfil de seguridad de cumplimiento: cargas de trabajo de CPU

En la tabla siguiente se enumeran los estándares de cumplimiento de perfil de seguridad de cumplimiento admitidos para la funcionalidad principal de servicio de modelos en cargas de trabajo de CPU.

Nota:

Estos estándares de cumplimiento requieren que los contenedores servidos se construyan en los últimos 30 días. Databricks reconstruye automáticamente contenedores obsoletos por usted. Sin embargo, si se produce un error en este trabajo automatizado, aparece un mensaje de registro de eventos como el siguiente y proporciona instrucciones sobre cómo asegurarse de que los puntos de conexión permanecen dentro de los requisitos de cumplimiento:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Región	Ubicación	HIPAA	HITRUST	PCI-DSS	Cyber Essentials Plus de Reino Unido
`australiacentral`	Centro de Australia
`australiacentral2`	AustraliaCentral2
`australiaeast`	AustraliaEast	✓	✓	✓
`australiasoutheast`	Australia Sudeste
`brazilsouth`	Brasil Sur	✓	✓	✓
`canadacentral`	CanadaCentral	✓	✓	✓
`canadaeast`	Este de Canadá
`centralindia`	CentralIndia	✓	✓	✓
`centralus`	CentralUS	✓	✓	✓
`chinaeast2`	ChinaEast2
`chinaeast3`	Este de China 3
`chinanorth2`	Norte de China 2
`chinanorth3`	Norte de China 3
`eastasia`	EastAsia	✓	✓	✓
`eastus`	EastUS	✓	✓	✓
`eastus2`	EastUS2	✓	✓	✓
`francecentral`	FranceCentral	✓	✓	✓
`germanywestcentral`	AlemaniaWestCentral	✓	✓	✓
`japaneast`	JapanEast	✓	✓	✓
`japanwest`	JapanWest
`koreacentral`	KoreaCentral	✓	✓	✓
`mexicocentral`	MéxicoCentral
`northcentralus`	NorthCentralUS	✓	✓	✓
`northeurope`	Norte de Europa	✓	✓	✓
`norwayeast`	Noruega Este
`qatarcentral`	Centro de Catar
`southafricanorth`	Sudáfrica Norte
`southcentralus`	SouthCentralUS	✓	✓	✓
`southeastasia`	Sudeste Asiático	✓	✓	✓
`southindia`	India del Sur
`swedencentral`	SueciaCentral	✓	✓	✓
`switzerlandnorth`	SuizaNorte	✓	✓	✓
`switzerlandwest`	SuizaOeste
`uaenorth`	UAENorth	✓	✓	✓
`uksouth`	UKSouth	✓	✓	✓	✓
`ukwest`	UKWest
`westcentralus`	WestCentralUS
`westeurope`	Oeste de Europa	✓	✓	✓
`westindia`	WestIndia
`westus`	WestUS	✓	✓	✓
`westus2`	Región Oeste de EE.UU 2 (WestUS2)	✓	✓	✓
`westus3`	WestUS3	✓	✓	✓

Límites de las API de Foundation Model

Nota:

Como parte de proporcionar las API de Foundation Model, Databricks puede procesar los datos fuera de la región donde se originaron los datos, pero no fuera de la ubicación geográfica pertinente.

Tanto para cargas de trabajo de rendimiento de pago por token como para cargas de trabajo de rendimiento aprovisionadas:

Solo los administradores del área de trabajo pueden cambiar la configuración de gobernanza, como los límites de velocidad para los puntos de conexión de las API de Foundation Model. Para cambiar los límites de frecuencia, siga estos pasos:
1. Abra la interfaz de usuario de servicio en el área de trabajo para ver los puntos de conexión de servicio.
2. En el menú kebab del punto de conexión de las API de Foundation Model que desea editar, seleccione Ver detalles.
3. En el menú kebab de la parte superior derecha de la página de detalles de los puntos de conexión, seleccione Límite de frecuencia de cambio.
Los modelos de inserción GTE Large (En) no generan incrustaciones normalizadas.

Límites de pago por token

A continuación se muestran los límites pertinentes para las cargas de trabajo de las API de Foundation Model de pago por token:

Las tareas de pago por token cumplen con HIPAA.
- Para los clientes con el perfil de seguridad de cumplimiento habilitado, las cargas de trabajo de pago por token están disponibles siempre que se seleccione estándar de cumplimientoHIPAA o Ninguno. No se admiten otros estándares de cumplimiento para cargas de trabajo de pago por token.
Los siguientes modelos de pago por tokensolo se admiten en las regiones de EE. UU. compatibles con el pago por token de las API de Foundation Model:
- Antrópico Claude Sonnet 4
- Anthropic Claude Opus 4
- Meta Llama 3.1 405B Instruct
- BGE large (En)
Anthropic Claude 3.7 Sonnet está disponible en regiones de pago por token admitidas en EU y EE. UU. Si el área de trabajo no está en una región de EE. UU. o UE, pero se encuentra en una región de servicio de modelos compatible, puede habilitar el procesamiento de datos entre regiones geográficas para acceder a este modelo.
Si el área de trabajo está en una región de servicio de modelos, pero no en una región de EE. UU. o ue, el área de trabajo debe estar habilitada para el procesamiento de datos entre regiones geográficas. Cuando está habilitada, la carga de trabajo de pago por token se enruta a EE. UU. Databricks Geo. Para ver qué regiones geográficas procesan las cargas de trabajo de pago por token, consulte Servicios designados de Databricks.

Límites de rendimiento aprovisionados

Los siguientes son límites relevantes para las cargas de trabajo de rendimiento aprovisionadas por las API de modelos fundacionales:

Rendimiento aprovisionado admite el perfil de cumplimiento de HIPAA y debe usarse para cargas de trabajo que requieren certificaciones de cumplimiento.
Para implementar un modelo de Meta Llama desde system.ai en el catálogo de Unity, debe elegir la versión correspondiente de Instruct. Las versiones base de los modelos Meta Llama no se admiten para la implementación desde el catálogo de Unity. Vea [Recomendado] Implementación de modelos de base desde Unity Catalog.
Para cargas de trabajo de rendimiento aprovisionado que usan Llama 4 Maverick:
- La compatibilidad con este modelo en cargas de trabajo con rendimiento aprovisionado está en versión preliminar pública.
- No se admite el escalado automático.
- No se admiten paneles de métricas.
- La separación de tráfico no se admite en un punto de conexión que sirva a Llama 4 Maverick. No puede atender varios modelos en un punto de conexión que sirva a Llama 4 Maverick.

Disponibilidad regional

Nota:

Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.

Si el área de trabajo se implementa en una región que admite el servicio de modelos, pero la sirve un plano de control en una región no admitida, el área de trabajo no admite el servicio de modelos. Si intenta usar el servicio de modelos en tal área de trabajo, verá un mensaje de error indicando que su área de trabajo no es compatible. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.

Para obtener más información sobre la disponibilidad regional de cada característica de servicio de modelos, consulte Disponibilidad regional del modelo.

Para la disponibilidad regional de modelos fundacionales hospedados en Databricks, consulte Modelos fundacionales hospedados en Databricks.

Compartir a través de

Límites y regiones de servicio de modelos

Límites de recursos y carga

Limitaciones de redes y seguridad

Estándares de perfil de seguridad de cumplimiento: cargas de trabajo de CPU

Límites de las API de Foundation Model

Límites de pago por token

Límites de rendimiento aprovisionados

Disponibilidad regional

Comentarios

Recursos adicionales