Limites et régions de la mise en service de modèles
Cet article résume les limitations et la disponibilité de la région pour les services de modèles Databricks et les types de points de terminaison pris en charge.
Limites
Le service de modèles Databricks impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires à formuler sur ces limites, contactez l’équipe en charge de votre compte Databricks.
Le tableau suivant récapitule les limitations en matière de ressources et de charges utiles pour les points de terminaison de service de modèles.
Fonctionnalité | Granularité | Limite |
---|---|---|
Taille de charge utile | Par demande | 16 Mo |
Requêtes par seconde | Par espace de travail | 200, mais vous pouvez porter cette valeur à 3 000 ou plus en accédant à votre compte Databricks |
Durée d’exécution du modèle | Par demande | 120 secondes |
Utilisation de la mémoire du modèle de point de terminaison du processeur | Par point de terminaison | 4 Go |
Utilisation de la mémoire du modèle de point de terminaison du GPU | Par point de terminaison | Supérieure ou égale à la mémoire du GPU affectée, dépend de la taille de la charge de travail du GPU |
Accès concurrentiel provisionné | Par espace de travail | Concurrence de 200. Vous pouvez augmenter cette valeur en accédant à votre compte Databricks. |
Latence de surcharge | Par demande | Moins de 50 millisecondes |
Limites du taux de transfert des API Foundation Model (paiement par jeton) | Par espace de travail | Contactez votre équipe des comptes Databricks pour relever les limites suivantes. * Le modèle DBRX Instruct a une limite de 1 requête par seconde. * Les autres modèles de conversation et de saisie semi-automatique ont une limite de débit par défaut de 2 requêtes par seconde. * Les modèles d’incorporation gèrent par défaut 300 entrées d’incorporation par seconde. |
Limites du taux de transfert des API Foundation Model (débit approvisionné) | Par espace de travail | Identique à la limite QPS de la mise en service de modèle répertoriée ci-dessus. |
Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.
Il existe également d’autres limitations :
- Un espace de travail peut être déployé dans une région prise en charge, mais servi par un plan de contrôle dans une autre région. Ces espaces de travail ne prennent pas en charge la mise en service de modèle et entraînent un message d’erreur indiquant une non-prise en charge de votre espace de travail. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
- Le Service de modèles ne prend pas en charge les scripts init.
- Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
Limites des API Foundation Model
Remarque
Afin de fournir les API Foundation Model, Databricks peut traiter vos données en dehors de la région d’où elles proviennent, mais pas en dehors de l’emplacement géographique correspondant.
Les limites suivantes concernent les charges de travail des API Foundation Model :
- Le débit approvisionné prend en charge le profil de conformité HIPAA et doit être utilisé pour les charges de travail nécessitant des certifications de conformité. Les charges de travail de paiement par jetonne sont pas conformes à HIPAA ou au profil de sécurité de conformité.
- Concernant les points de terminaison des API Foundation Model, seuls les administrateurs d’espace de travail peuvent modifier les paramètres de gouvernance, comme les limites du taux de transfert. Pour modifier les limites du taux de transfert, effectuez les étapes suivantes :
- Ouvrez l’interface utilisateur de mise en service dans votre espace de travail pour afficher vos points de terminaison de mise en service.
- Dans le menu kebab du point de terminaison des API Foundation Model à modifier, sélectionnez Afficher les détails.
- Dans le menu kebab en haut à droite de la page des détails des points de terminaison, sélectionnez Modifier la limite du taux de transfert.
- Pour utiliser l’architecture de modèle DBRX pour une charge de travail de débit approvisionné, votre point de terminaison de service doit se trouver dans l’une des régions suivantes :
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Disponibilité dans les régions
Remarque
Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.
Pour les charges de travail de débit approvisionné qui utilisent des modèles DBRX, consultez Limites des API Foundation Model pour connaître la disponibilité par région.
Région | Emplacement | Fonctionnalité principale de la mise en service de modèle * | API Foundation Model (débit approvisionné) ** | API Foundation Model (paiement par jeton) | Modèles externes |
---|---|---|---|---|---|
australiacentral |
Centre de l’Australie | ||||
australiacentral2 |
Centre de l’Australie 2 | ||||
australiaeast |
Australie Est | X | X | X | |
australiasoutheast |
Sud-Australie Est | ||||
brazilsouth |
Brésil Sud | X | X | X | |
canadacentral |
Centre du Canada | X | X | X | |
canadaeast |
Est du Canada | ||||
centralindia |
Inde centrale | X | X | X | |
centralus |
USA Centre | X | X | X | X |
chinaeast2 |
Chine orientale 2 | ||||
chinaeast3 |
Chine Est 3 | ||||
chinanorth2 |
Chine Nord 2 | ||||
chinanorth3 |
Chine Nord 3 | ||||
eastasia |
Asie Est | ||||
eastus |
USA Est | X | X | X | X |
eastus2 |
USA Est 2 | X | X | X | X |
eastus2euap |
USA Est 2 (EUAP) | ||||
francecentral |
France Centre | ||||
germanywestcentral |
Allemagne Centre-Ouest | ||||
japaneast |
Japon Est | ||||
japanwest |
OuJapon Est | ||||
koreacentral |
Centre de la Corée | ||||
northcentralus |
Centre-Nord des États-Unis | X | X | X | |
northeurope |
Europe Nord | X | X | X | |
norwayeast |
Norvège Est | ||||
qatarcentral |
Qatar Central | ||||
southafricanorth |
Afrique du Sud Nord | ||||
southcentralus |
États-Unis - partie centrale méridionale | ||||
southeastasia |
Asie Sud-Est | X | X | ||
southindia |
Inde Sud | ||||
swedencentral |
Suède Centre | ||||
switzerlandnorth |
Suisse Nord | ||||
switzerlandwest |
Suisse Ouest | ||||
uaenorth |
Émirats arabes unis Nord | ||||
uksouth |
Sud du Royaume-Uni | ||||
ukwest |
Ouest du Royaume-Uni | ||||
westcentralus |
Centre-USA Ouest | ||||
westeurope |
Europe Ouest | X | X | X | |
westindia |
Ouest de l’Inde | ||||
westus |
USA Ouest | X | X | X | X |
westus2 |
USA Ouest 2 | X | |||
westus3 |
USA Ouest 3 |
- Calcul de l’UC uniquement
** comprend la prise en charge du gpu
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour