Compartir vía


Límites y regiones de servicio de modelos

En este artículo se resumen las limitaciones y la disponibilidad de regiones para los tipos de punto de conexión admitidos y Mosaic AI Model Serving.

Límites de recursos y carga

Mosaic AI Model Serving impone límites predeterminados para garantizar un rendimiento confiable. Si tiene comentarios sobre estos límites, póngase en contacto con el equipo de la cuenta de Databricks.

En la tabla siguiente se resumen las limitaciones de recursos y carga útil para los puntos de conexión del servicio de modelos.

Característica Granularidad Límite
Tamaño de carga Por solicitud 16 MB. En el caso de los puntos de conexión que sirven a modelos de base o modelos externos, el límite es de 4 MB.
Consultas por segundo (QPS) Por área de trabajo 200, pero se puede aumentar a 25 000 o más al ponerse en contacto con el equipo de cuentas de Databricks.
Duración de ejecución del modelo Por solicitud 120 segundos
Uso de memoria del modelo de punto de conexión de CPU Por punto de conexión 4 GB
Uso de memoria del modelo de punto de conexión de GPU Por punto de conexión Mayor o igual que la memoria de GPU asignada, depende del tamaño de la carga de trabajo de GPU
Simultaneidad aprovisionada Por modelo y por área de trabajo Simultaneidad de 200. Puede aumentarse al ponerse en contacto con el equipo de cuentas de Databricks.
Latencia de sobrecarga Por solicitud Menos de 50 milisegundos
Scripts de inicialización No se admiten scripts de inicialización.
Límites de velocidad de las API de Foundation Model (pago por token) Por área de trabajo Si los límites siguientes son insuficientes para el caso de uso, Databricks recomienda usar el rendimiento aprovisionado.

- Llama 3.1 70B Indica tiene un límite de 2 consultas por segundo y 1200 consultas por hora.
- Llama 3.1 405B Indica tiene un límite de 1 consulta por segundo y 1200 consultas por hora.
- El modelo DBRX Instruct tiene un límite de 1 consulta por segundo.
- Mixtral-8x 7B Indica tiene un límite de velocidad predeterminado de 2 consultas por segundo.
- GTE Large (En) tiene un límite de volumen de 150 consultas por segundo.
- BGE Large (En) tiene un límite de volumen de 600 consultas por segundo.
Límites de velocidad de las API de Foundation Model (rendimiento aprovisionado) Por área de trabajo 200

Limitaciones de redes y seguridad

  • Los puntos de conexión de servicio de modelos están protegidos por el control de acceso y respetan las reglas de entrada relacionadas con las redes configuradas en el área de trabajo, como listas de direcciones IP permitidas y Private Link.
  • La conectividad privada (como Azure Private Link) solo se admite para los puntos de conexión de servicio de modelos que usan el rendimiento aprovisionado o los puntos de conexión que atienden modelos personalizados.
  • De manera predeterminada, Model Serving no admite Private Link a puntos de conexión externos (como Azure OpenAI). La compatibilidad con esta funcionalidad se evalúa e implementa por región. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.
  • El Servicio de modelos no proporciona parches de seguridad a las imágenes de modelos existentes debido al riesgo de desestabilización de las implementaciones de producción. Una nueva imagen de modelo creada a partir de una nueva versión del modelo contendrá las revisiones más recientes. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.

Límites de las API de Foundation Model

Nota:

Como parte de proporcionar las API de Foundation Model, Databricks puede procesar los datos fuera de la región donde se originaron los datos, pero no fuera de la ubicación geográfica pertinente.

Para cargas de trabajo de rendimiento de pago por token y rendimiento aprovisionadas:

  • Solo los administradores del área de trabajo pueden cambiar la configuración de gobernanza, como los límites de velocidad para los puntos de conexión de las API de Foundation Model. Para cambiar los límites de frecuencia, siga estos pasos:
    1. Abra la interfaz de usuario de servicio en el área de trabajo para ver los puntos de conexión de servicio.
    2. En el menú kebab del punto de conexión de las API de Foundation Model que desea editar, seleccione Ver detalles.
    3. En el menú kebab de la parte superior derecha de la página de detalles de los puntos de conexión, seleccione Límite de frecuencia de cambio.
  • Los modelos de inserción GTE Large (En) no generan incrustaciones normalizadas.

Límites de pago por token

A continuación se muestran los límites pertinentes para las cargas de trabajo de pago por token de las API de Foundation Model:

  • Para cargas de trabajo de Pago por tokens, esta funcionalidad no cumple con la HIPAA ni con el perfil de seguridad de cumplimiento.
  • Los modelos GTE Large (En) y Meta Llama 3.1 70B Instruct están disponibles en las regiones compatibles con la UE de pago por token y estados unidos.
  • Los siguientes modelos de pago por token solo se admiten en las regiones de EE. UU. compatibles con el pago por token de las API de Foundation Model:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)

Límites de rendimiento aprovisionados

A continuación se muestran los límites pertinentes para las cargas de trabajo de rendimiento aprovisionadas de foundation Model:

  • El rendimiento aprovisionado admite el perfil de cumplimiento de HIPAA y se recomienda para cargas de trabajo que requieren certificaciones de cumplimiento.
  • Para usar la arquitectura del modelo DBRX para una carga de trabajo de rendimiento aprovisionada, el punto de conexión de servicio debe estar en una de las siguientes regiones:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • En la tabla siguiente se muestra la disponibilidad de regiones de los modelos compatibles de Meta Llama 3.1 y 3.2. Consulte Implementación de modelos básicos optimizados para obtener instrucciones sobre cómo implementar modelos optimizados.
Variante del modelo Meta Llama Regions
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Disponibilidad regional

Nota:

Si necesita un punto de conexión en una región no admitida, póngase en contacto con el equipo de la cuenta de Azure Databricks.

Si el área de trabajo se implementa en una región que admite el servicio de modelos, pero que se atiende mediante un plano de control en una región no admitida, el área de trabajo no admite el servicio de modelos. Si intenta usar el servicio de modelos en este tipo de área de trabajo, verá un mensaje de error que indica que no se admite el área de trabajo. Póngase en contacto con el equipo de la cuenta de Azure Databricks para obtener más información.

Para más información sobre la disponibilidad regional de funciones, consulte Modelo que atiende la disponibilidad regional.