Limites et régions de la mise en service de modèles

Cet article résume les limitations et la disponibilité de la région pour les services de modèles Databricks et les types de points de terminaison pris en charge.

Limites

Le service de modèles Databricks impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires à formuler sur ces limites, contactez l’équipe en charge de votre compte Databricks.

Le tableau suivant récapitule les limitations en matière de ressources et de charges utiles pour les points de terminaison de service de modèles.

Fonctionnalité Granularité Limite
Taille de charge utile Par demande 16 Mo
Requêtes par seconde Par espace de travail 200, mais vous pouvez porter cette valeur à 3 000 ou plus en accédant à votre compte Databricks
Durée d’exécution du modèle Par demande 120 secondes
Utilisation de la mémoire du modèle de point de terminaison du processeur Par point de terminaison 4 Go
Utilisation de la mémoire du modèle de point de terminaison du GPU Par point de terminaison Supérieure ou égale à la mémoire du GPU affectée, dépend de la taille de la charge de travail du GPU
Accès concurrentiel provisionné Par espace de travail Concurrence de 200. Vous pouvez augmenter cette valeur en accédant à votre compte Databricks.
Latence de surcharge Par demande Moins de 50 millisecondes
Limites du taux de transfert des API Foundation Model (paiement par jeton) Par espace de travail Contactez votre équipe des comptes Databricks pour relever les limites suivantes.

* Le modèle DBRX Instruct a une limite de 1 requête par seconde.
* Les autres modèles de conversation et de saisie semi-automatique ont une limite de débit par défaut de 2 requêtes par seconde.
* Les modèles d’incorporation gèrent par défaut 300 entrées d’incorporation par seconde.
Limites du taux de transfert des API Foundation Model (débit approvisionné) Par espace de travail Identique à la limite QPS de la mise en service de modèle répertoriée ci-dessus.

Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.

Il existe également d’autres limitations :

  • Un espace de travail peut être déployé dans une région prise en charge, mais servi par un plan de contrôle dans une autre région. Ces espaces de travail ne prennent pas en charge la mise en service de modèle et entraînent un message d’erreur indiquant une non-prise en charge de votre espace de travail. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
  • Le Service de modèles ne prend pas en charge les scripts init.
  • Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.

Limites des API Foundation Model

Remarque

Afin de fournir les API Foundation Model, Databricks peut traiter vos données en dehors de la région d’où elles proviennent, mais pas en dehors de l’emplacement géographique correspondant.

Les limites suivantes concernent les charges de travail des API Foundation Model :

  • Le débit approvisionné prend en charge le profil de conformité HIPAA et doit être utilisé pour les charges de travail nécessitant des certifications de conformité. Les charges de travail de paiement par jetonne sont pas conformes à HIPAA ou au profil de sécurité de conformité.
  • Concernant les points de terminaison des API Foundation Model, seuls les administrateurs d’espace de travail peuvent modifier les paramètres de gouvernance, comme les limites du taux de transfert. Pour modifier les limites du taux de transfert, effectuez les étapes suivantes :
    1. Ouvrez l’interface utilisateur de mise en service dans votre espace de travail pour afficher vos points de terminaison de mise en service.
    2. Dans le menu kebab du point de terminaison des API Foundation Model à modifier, sélectionnez Afficher les détails.
    3. Dans le menu kebab en haut à droite de la page des détails des points de terminaison, sélectionnez Modifier la limite du taux de transfert.
  • Pour utiliser l’architecture de modèle DBRX pour une charge de travail de débit approvisionné, votre point de terminaison de service doit se trouver dans l’une des régions suivantes :
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Disponibilité dans les régions

Remarque

Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.

Pour les charges de travail de débit approvisionné qui utilisent des modèles DBRX, consultez Limites des API Foundation Model pour connaître la disponibilité par région.

Région Emplacement Fonctionnalité principale de la mise en service de modèle * API Foundation Model (débit approvisionné) ** API Foundation Model (paiement par jeton) Modèles externes
australiacentral Centre de l’Australie
australiacentral2 Centre de l’Australie 2
australiaeast Australie Est X X X
australiasoutheast Sud-Australie Est
brazilsouth Brésil Sud X X X
canadacentral Centre du Canada X X X
canadaeast Est du Canada
centralindia Inde centrale X X X
centralus USA Centre X X X X
chinaeast2 Chine orientale 2
chinaeast3 Chine Est 3
chinanorth2 Chine Nord 2
chinanorth3 Chine Nord 3
eastasia Asie Est
eastus USA Est X X X X
eastus2 USA Est 2 X X X X
eastus2euap USA Est 2 (EUAP)
francecentral France Centre
germanywestcentral Allemagne Centre-Ouest
japaneast Japon Est
japanwest OuJapon Est
koreacentral Centre de la Corée
northcentralus Centre-Nord des États-Unis X X X
northeurope Europe Nord X X X
norwayeast Norvège Est
qatarcentral Qatar Central
southafricanorth Afrique du Sud Nord
southcentralus États-Unis - partie centrale méridionale
southeastasia Asie Sud-Est X X
southindia Inde Sud
swedencentral Suède Centre
switzerlandnorth Suisse Nord
switzerlandwest Suisse Ouest
uaenorth Émirats arabes unis Nord
uksouth Sud du Royaume-Uni
ukwest Ouest du Royaume-Uni
westcentralus Centre-USA Ouest
westeurope Europe Ouest X X X
westindia Ouest de l’Inde
westus USA Ouest X X X X
westus2 USA Ouest 2 X
westus3 USA Ouest 3
  • Calcul de l’UC uniquement

** comprend la prise en charge du gpu