Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page décrit les limites et les quotas des charges de travail databricks Foundation Model Model.
Les API Databricks Foundation Model appliquent des limites de débit pour garantir des performances fiables et une allocation équitable des ressources pour tous les utilisateurs. Ces limites varient en fonction du niveau de plateforme de l’espace de travail, du type de modèle de base et de la façon dont vous déployez votre modèle de base.
Limites du taux de point de terminaison de paiement par jeton
Les points de terminaison de paiement par jeton sont régis par des limites de débit basées sur des jetons et basées sur des requêtes. Les limites de débit basées sur les jetons contrôlent le nombre maximal de jetons qui peuvent être traités par minute et sont appliqués séparément pour les jetons d’entrée et de sortie.
- Jetons d’entrée par minute (ITPM) : nombre maximal de jetons d’entrée (à partir de vos invites) qui peuvent être traités dans une fenêtre de 60 secondes. Une limite de débit ITPM contrôle le débit du jeton d’entrée d’un point de terminaison.
- Jetons de sortie par minute (OTPM) : nombre maximal de jetons de sortie (à partir des réponses du modèle) qui peuvent être générés dans une fenêtre de 60 secondes. Une limite de débit OTPM contrôle le débit du jeton de sortie d’un point de terminaison.
- Requêtes par heure : nombre maximal de requêtes ou de requêtes qui peuvent être traitées dans une fenêtre de 60 minutes. Pour les applications de production avec des modèles d’utilisation soutenus, Databricks recommande de provisionner des points de terminaison de débit, qui fournissent une capacité garantie.
Suivi et application des limites
La limite de débit la plus restrictive (ITPM, OTPM, QPH) s’applique à tout moment. Par exemple, même si vous n’avez pas atteint votre limite ITPM, vous êtes toujours limité si vous dépassez la limite QPH ou OTPM. Lorsque la limite ITPM ou OTPM est atteinte, les requêtes suivantes reçoivent une erreur 429 indiquant qu’un trop grand nombre de demandes ont été reçues. Ce message persiste jusqu’à ce que la fenêtre limite de débit soit réinitialisée.
Databricks effectue le suivi et applique des jetons par minute (TPM) à l’aide des fonctionnalités suivantes :
| Caractéristique | Détails |
|---|---|
| Vérifications de comptabilité et de pré-admission des jetons |
|
| Capacité de rafale et lissage |
|
Voici un exemple de vérification avant admission et du comportement de crédit back.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Limites de débit par modèle
Les tableaux suivants résument les limites de taux ITPM, OTPM et QPH pour les points de terminaison de l’API modèle de paiement par jeton pour les espaces de travail de niveau Entreprise :
Note
À compter du 15 février 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.
| Modèles de langage volumineux | Limite ITPM | Limite OTPM | Limite QPH | Remarques |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct (bêta) | 200 000 | 10 000 | LLM à usage général | |
| GPT OSS 120B | 200 000 | 10 000 | LLM à usage général | |
| GPT Logiciel libre 20B | 200 000 | 10 000 | Variante GPT plus petite | |
| Gemma 3 12B | 200 000 | 10 000 | 7,200 | Modèle Gemma de Google |
| Llama 4 Maverick | 200 000 | 10 000 | 2 400 | Dernière version de Llama |
| Llama 3.3 70B Instruct | 200 000 | 10 000 | 2 400 | Modèle Llama de taille moyenne |
| Llama 3.1 8B Instruct | 200 000 | 10 000 | 7,200 | Modèle Llama léger |
| Llama 3.1 405B Instruire | 5 000 | 500 | 1,200 |
|
| Modèles Claude anthropice | Limite ITPM | Limite OTPM | Remarques |
|---|---|---|---|
| Claude 3.7 Sonnet | 50 000 | 5 000 | Modèle Claude équilibré |
| Claude Sonnet 4 | 50 000 | 5 000 | |
| Claude Opus 4.1 | 50 000 | 5 000 | |
| Claude Opus 4.5 | 200 000 | 20 000 | Dernière version de Opus |
| Claude Sonnet 4.5 | 50 000 | 5 000 | Dernière version de Sonnet |
| Claude Haiku 4.5 | 50 000 | 5 000 | Dernière version de Haiku |
| Incorporation de modèles | Limite ITPM | Limite OTPM | Limite QPH | Remarques |
|---|---|---|---|---|
| GTE Large (en) | N/A | N/A | 540,000 | Modèle d’incorporation de texte : ne génère pas d’incorporations normalisées |
| BGE Large (en) | N/A | N/A | 2,160,000 | Modèle d’incorporation de texte |
Gérer les limites de taux de module de plateforme sécurisée (TPM) les meilleures pratiques
Étape 1. Surveiller l’utilisation des jetons
Effectuez le suivi des nombres de jetons d’entrée et de sortie séparément dans vos applications :
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Étape 2. Implémenter une logique de nouvelle tentative
Ajoutez une interruption exponentielle lorsque vous rencontrez des erreurs de limite de débit :
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Étape 3. Optimiser l’utilisation des jetons
- Réduire la longueur des invites : utiliser des invites concises et bien structurées
-
Longueur de sortie du contrôle : utiliser un
max_tokensparamètre pour limiter la taille de réponse -
Définissez max_tokens explicitement pour Claude Sonnet 4 : spécifiez
max_tokenstoujours lors de l’utilisation de Claude Sonnet 4 pour éviter la limite par défaut de 1 000 jetons - Traitement par lots efficace : demandes liées au groupe lorsque cela est possible tout en restant dans les limites
Étape 4. Envisager la sélection du modèle
- Modèles plus petits pour les tâches à volume élevé : utilisez des modèles comme Llama 3.1 8B pour les tâches nécessitant un débit plus élevé
- Modèles volumineux pour les tâches complexes : Réserver Llama 3.1 405B pour les tâches nécessitant une capacité maximale
Surveillance et dépannage
Surveillez vos modèles d’utilisation des jetons pour optimiser les performances :
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Gérer les erreurs de limite de débit
Lorsque vous dépassez les limites de débit, l’API retourne une 429 Too Many Requests erreur :
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
La réponse d’erreur inclut :
-
limit_type: Quelle limite spécifique a été dépassée (ITPM, OTPM, QPS ou QPH) -
limit: valeur de limite configurée -
current: Votre utilisation actuelle -
retry_after: Temps d’attente suggéré en secondes
Problèmes courants et solutions
| Problème | Solution |
|---|---|
| Erreurs 429 fréquentes | Implémenter une interruption exponentielle, réduire le taux de demandes et demander des limites de débit plus élevées |
| Limite ITPM atteinte | Optimiser la longueur de l’invite |
| Limite OTPM atteinte | Utiliser max_tokens pour limiter la longueur de réponse |
| Limite QPH atteinte | Distribuer des demandes plus uniformément au fil du temps |
Limites de débit approvisionnées
Pour les charges de travail de production nécessitant des limites plus élevées, les points de terminaison de débit approvisionnés offrent :
- Aucune restriction de module de plateforme sécurisée : capacité de traitement basée sur les ressources approvisionnées
- Limites de débit plus élevées : jusqu’à 200 requêtes par seconde par espace de travail
- Performances prévisibles : les ressources dédiées garantissent une latence cohérente
Limites des jetons de sortie
Note
À compter du 15 mai 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.
Le tableau suivant récapitule les limites des jetons de sortie pour chaque modèle pris en charge :
| Model | Limite des jetons de sortie |
|---|---|
| GPT OSS 120B | 25 000 |
| GPT Logiciel libre 20B | 25 000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4 096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Limites supplémentaires
Voici des limitations pour les charges de travail de débit provisionné :
- Pour déployer un modèle Meta Llama à partir du
system.aicatalogue Unity, vous devez choisir la version Instruct applicable. Les versions de base des modèles Meta Llama ne sont pas prises en charge pour le déploiement à partir du catalogue Unity. Consultez Déployer des points de terminaison de débit provisionnés. - Pour les charges de travail de débit approvisionnées qui utilisent Llama 4 Maverick :
- La prise en charge de ce modèle sur les charges de travail de débit approvisionnées est disponible en préversion publique.
- La mise à l’échelle automatique n’est pas prise en charge.
- Les panneaux de métriques ne sont pas pris en charge.
- Le fractionnement du trafic n’est pas pris en charge sur un point de terminaison qui sert Llama 4 Maverick. Vous ne pouvez pas servir plusieurs modèles sur un point de terminaison qui sert Llama 4 Maverick.
Disponibilité régionale et traitement des données
Pour connaître la disponibilité de la région du modèle de base hébergée par Databricks, consultez la vue d’ensemble du modèle De base.
Pour plus d’informations sur le traitement et la résidence des données, consultez Traitement et résidence des données.