Partager via


Limites et régions de la mise en service de modèles

Cet article résume les limitations et la disponibilité de région pour le service de modèles Mosaic AI et les types de points de terminaison pris en charge.

Limites

Le service de modèles Mosaic AI impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires à formuler sur ces limites, contactez l’équipe en charge de votre compte Databricks.

Le tableau suivant récapitule les limitations en matière de ressources et de charges utiles pour les points de terminaison de service de modèles.

Fonctionnalité Granularité Limite
Taille de charge utile Par demande 16 Mo
Requêtes par seconde Par espace de travail 200, mais vous pouvez porter cette valeur à 3 000 ou plus en accédant à votre compte Databricks
Durée d’exécution du modèle Par demande 120 secondes
Utilisation de la mémoire du modèle de point de terminaison du processeur Par point de terminaison 4 Go
Utilisation de la mémoire du modèle de point de terminaison du GPU Par point de terminaison Supérieure ou égale à la mémoire du GPU affectée, dépend de la taille de la charge de travail du GPU
Accès concurrentiel provisionné Par espace de travail Concurrence de 200. Vous pouvez augmenter cette valeur en accédant à votre compte Databricks.
Latence de surcharge Par demande Moins de 50 millisecondes
Limites du taux de transfert des API Foundation Model (paiement par jeton) Par espace de travail Contactez votre équipe des comptes Databricks pour relever les limites suivantes.

* Le modèle DBRX Instruct a une limite de 1 requête par seconde.
* Les autres modèles de conversation et de saisie semi-automatique ont une limite de débit par défaut de 2 requêtes par seconde.
* Les modèles d’incorporation gèrent par défaut 300 entrées d’incorporation par seconde.
Limites du taux de transfert des API Foundation Model (débit approvisionné) Par espace de travail Identique à la limite QPS de la mise en service de modèle répertoriée ci-dessus.

Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.

Il existe également d’autres limitations :

  • Un espace de travail peut être déployé dans une région prise en charge, mais servi par un plan de contrôle dans une autre région. Ces espaces de travail ne prennent pas en charge la mise en service de modèle et entraînent un message d’erreur indiquant une non-prise en charge de votre espace de travail. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
  • Le Service de modèles ne prend pas en charge les scripts init.
  • Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.

Limites des API Foundation Model

Remarque

Afin de fournir les API Foundation Model, Databricks peut traiter vos données en dehors de la région d’où elles proviennent, mais pas en dehors de l’emplacement géographique correspondant.

Les limites suivantes concernent les charges de travail des API Foundation Model :

  • Le débit approvisionné prend en charge le profil de conformité HIPAA et doit être utilisé pour les charges de travail nécessitant des certifications de conformité. Les charges de travail de paiement par jeton ne sont pas conformes à HIPAA ou au profil de sécurité de conformité.
  • Concernant les points de terminaison des API Foundation Model, seuls les administrateurs d’espace de travail peuvent modifier les paramètres de gouvernance, comme les limites du taux de transfert. Pour modifier les limites du taux de transfert, effectuez les étapes suivantes :
    1. Ouvrez l’interface utilisateur de mise en service dans votre espace de travail pour afficher vos points de terminaison de mise en service.
    2. Dans le menu kebab du point de terminaison des API Foundation Model à modifier, sélectionnez Afficher les détails.
    3. Dans le menu kebab en haut à droite de la page des détails des points de terminaison, sélectionnez Modifier la limite du taux de transfert.
  • Pour utiliser l’architecture de modèle DBRX pour une charge de travail de débit approvisionné, votre point de terminaison de service doit se trouver dans l’une des régions suivantes :
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilité dans les régions

Remarque

Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.

Pour plus d’informations sur la disponibilité régionale des fonctionnalités, consultez Fonctionnalités avec une disponibilité régionale limitée.