Partager via


Limites et régions de la mise en service de modèles

Cet article récapitule les limitations et la disponibilité des régions pour Azure Databricks Model Serving et les types de points de terminaison pris en charge.

Limites des ressources et de la charge utile

Model Service impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires sur ces limites, contactez votre équipe de compte Databricks.

Les limites de cette section s’appliquent uniquement aux points de terminaison d’agent IA et de modèle personnalisé. Pour les API du modèle Foundation et les limites de ressources et de charge utile des modèles externes, consultez les limites et quotas des API du modèle Foundation.

Modèles personnalisés et agents IA

Fonctionnalité Granularité Limite
Endpoints Par espace de travail 1000. Contactez votre responsable de compte Databricks pour augmenter.
Requêtes par seconde Par point de terminaison 300 000 grâce à l’optimisation des itinéraires. Si un niveau de concurrence de 1024 n’est pas suffisant, contactez votre équipe de compte Databricks pour l’augmenter.
Requêtes par seconde Par espace de travail 300 000 avec l’optimisation des itinéraires. 200 pour les cas d'usage non optimisés pour les itinéraires, recommandé uniquement pour de petits projets de développement.
Accès concurrentiel provisionné Par modèle 1024 avec l’option personnalisée et l’optimisation des itinéraires. Contactez votre équipe en charge de votre compte Databricks pour demander une augmentation des ressources.
Accès concurrentiel provisionné Par espace de travail 4096. Contactez l'équipe de votre compte Databricks pour augmenter votre quota.
Opérations de création/mise à jour Par espace de travail 50 en 5 minutes.
Taille de charge utile Par demande 16 MO. Pour les points de terminaison de l’agent IA , la limite est de 4 Mo.
Taille de la demande/réponse Par demande Toute demande/réponse supérieure à 1 Mo n’est pas journalisée.
Durée d’exécution du modèle Par demande 297 secondes
Utilisation de la mémoire du modèle de point de terminaison du processeur Par point de terminaison 4 Go
Utilisation de la mémoire du modèle de point de terminaison du GPU Par point de terminaison Dépend du type GPU
Variables d'environnement Par modèle en service 30. Contactez votre équipe de compte Databricks pour augmenter.
Latence de surcharge Par demande Moins de 20 millisecondes avec optimisation de l’itinéraire.

:::

Limitations de mise en réseau et de sécurité

  • Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.
  • La connectivité privée (par exemple, Azure Private Link) est prise en charge uniquement pour les points de terminaison de service de modèle qui utilisent un débit approvisionné ou des points de terminaison qui servent des modèles personnalisés.
  • Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
  • Model Service ne fournit pas de correctifs de sécurité aux images de modèle existantes en raison du risque de déstabilisation des déploiements de production. Une nouvelle image de modèle créée à partir d’une nouvelle version de modèle contient les derniers correctifs. Contactez votre équipe de compte Databricks pour plus d’informations.

Normes de profil de sécurité de conformité : charges de travail du processeur

Le tableau suivant répertorie les normes de conformité de profil de sécurité prises en charge pour la fonctionnalité principale d’inférence de modèle pour les charges de travail CPU.

Remarque

Ces normes de conformité exigent que les conteneurs déployés soient construits dans les 30 derniers jours. Databricks reconstruit automatiquement les conteneurs obsolètes en votre nom. Toutefois, si ce travail automatisé échoue, un message de journal des événements semblable à ce qui suit s’affiche et fournit des conseils sur la façon de garantir que vos points de terminaison restent conformes aux exigences de conformité :

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Région Emplacement HIPAA HITRUST PCI-DSS IRAP CCCS Moyen (niveau de protection B) Cyber Essentials plus Royaume-Uni
australiacentral AustralieCentre            
australiacentral2 AustraliaCentral2            
australiaeast AustralieEst      
australiasoutheast AustralieSud-Est            
brazilsouth BrésilSud      
canadacentral CanadaCentral      
canadaeast CanadaEst            
centralindia CentralIndia      
centralus CentralUS      
chinaeast2 ChinaEast2            
chinaeast3 ChinaEast3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus EastUS      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral AllemagneOuestCentral      
japaneast JaponEst      
japanwest JapanWest            
koreacentral KoreaCentral      
mexicocentral MexicoCentral            
northcentralus NorthCentralUS      
northeurope NorthEurope      
norwayeast NorvègeEst            
qatarcentral QatarCentral            
southafricanorth SouthAfricaNorth            
southcentralus SouthCentralUS      
southeastasia AsieSudEst      
southindia Sud de l'Inde            
swedencentral SuèdeCentral      
switzerlandnorth SuisseNord      
switzerlandwest SuisseOuest            
uaenorth UAENorth      
uksouth RoyaumeUniSud    
ukwest UKWest            
westcentralus Centre-Ouest des États-Unis            
westeurope WestEurope      
westindia WestIndia            
westus WestUS      
westus2 WestUS2      
westus3 WestUS3      

Limites des API Foundation Model

Pour plus d’informations sur les API Foundation Model, y compris les limites de ressources et de charge utile pour les modèles de base et externes, consultez les limites et quotas des API model foundation.

Disponibilité dans les régions

Remarque

Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.

Si votre espace de travail est déployé dans une région qui prend en charge le service de modèle, mais qu’il est servi par un plan de contrôle dans une région non prise en charge, l’espace de travail ne prend pas en charge le service de modèle. Si vous tentez d’utiliser le modèle servant dans un tel espace de travail, un message d’erreur s’affiche indiquant que votre espace de travail n’est pas pris en charge. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.

Pour plus d’informations sur la disponibilité régionale de chaque fonctionnalité service de modèle, consultez la disponibilité des fonctionnalités de service de modèle.

Pour connaître la disponibilité de la région de modèle de base hébergée par Databricks, consultez les modèles Foundation hébergés sur Databricks.