Partager via


Limites et quotas des API de modèles fondamentaux

Cette page décrit les limites et quotas des charges de travail Databricks Foundation Model.

Les API Databricks Foundation Model appliquent des limites de débit pour garantir des performances fiables et une allocation équitable des ressources pour tous les utilisateurs. Ces limites varient en fonction du niveau de plateforme de l’espace de travail, du type de modèle de base et de la façon dont vous déployez votre modèle de base.

Limites du taux de point de terminaison de paiement par jeton

Les points de terminaison à paiement par jeton sont régis par des limites de débit basées tant sur des jetons que sur des requêtes. Les limites de débit basées sur les jetons contrôlent le nombre maximal de jetons qui peuvent être traités par minute et sont appliqués séparément pour les jetons d’entrée et de sortie.

  • Jetons d’entrée par minute (ITPM) : nombre maximal de jetons d’entrée (à partir de vos invites) qui peuvent être traités dans une fenêtre de 60 secondes. Une limite de débit ITPM contrôle le flux des jetons entrants d’un point d'accès.
  • Jetons de sortie par minute (OTPM) : nombre maximal de jetons de sortie (à partir des réponses du modèle) qui peuvent être générés dans une fenêtre de 60 secondes. Une limite de débit OTPM contrôle le débit du jeton de sortie d’un point de terminaison.
  • Requêtes par heure : nombre maximal de requêtes ou de requêtes qui peuvent être traitées dans une fenêtre de 60 minutes. Pour les applications de production avec des modèles d’utilisation soutenus, Databricks recommande de provisionner des points de terminaison de débit, qui fournissent une capacité garantie.

Suivi et application des limites

La limite de débit la plus restrictive (ITPM, OTPM, QPH) s’applique à tout moment. Par exemple, même si vous n’avez pas atteint votre limite ITPM, vous êtes toujours limité si vous dépassez la limite QPH ou OTPM. Lorsque la limite ITPM ou OTPM est atteinte, les requêtes suivantes reçoivent une erreur 429 indiquant qu’un trop grand nombre de demandes ont été reçues. Ce message persiste jusqu’à ce que la fenêtre limite de débit soit réinitialisée.

Databricks effectue le suivi et applique les limites de taux de jetons par minute (TPM) à l’aide des fonctionnalités suivantes :

Caractéristique Détails
Vérifications de comptabilisation et contrôles de pré-admission des jetons
  • Comptage des jetons d’entrée : les jetons d’entrée sont comptabilisés à partir de votre invite réelle au moment de la demande.
  • Estimation du jeton de sortie : si vous fournissez max_tokens dans votre demande, Databricks utilise cette valeur pour estimer et réserver la capacité du jeton de sortie avant que la demande soit admise pour traitement.
  • Validation de pré-admission : Databricks vérifie si votre demande dépasserait les limites ITPM ou OTPM avant le début du traitement. Si max_tokens pourrait vous amener à dépasser les limites OTPM, Databricks rejette immédiatement la requête avec une erreur 429.
  • Sortie réelle et estimée : une fois la réponse générée, les jetons de sortie réels sont comptés. Important, si l’utilisation réelle des jetons est inférieure à la réserve max_tokens, Databricks attribue la différence à votre allocation de limite de taux, rendant ces jetons immédiatement disponibles pour d’autres demandes.
  • Aucune valeur max_tokens spécifiée : si vous ne le spécifiez max_tokenspas, Databricks utilise une réservation par défaut et le nombre de jetons réel est ajusté après la génération. Note : Claude Sonnet 4 a pour valeur par défaut 1 000 jetons de sortie lorsque max_tokens n’est pas défini, et retourne la raison de fin « longueur » lorsque celle-ci est atteinte. Il ne s’agit pas de la longueur maximale du contexte du modèle. Claude 3.7 Sonnet n’a pas de tel défaut.
Capacité de rafale et lissage
  • Mémoire tampon de rafale : le limiteur de débit comprend une petite mémoire tampon pour prendre en charge des rafales courtes de trafic au-dessus du taux nominal.
  • Fenêtre glissante : la consommation de jetons est suivie à l’aide d’un algorithme de fenêtre glissante qui fournit une limitation de débit plus fluide que les limites dures par minute.
  • Algorithme de compartiment de jeton : Databricks utilise une implémentation de compartiment de jetons qui permet une capacité de rafale tout en conservant la limite moyenne de débit au fil du temps.

Voici un exemple de la vérification avant admission et du fonctionnement du comportement de remboursement de crédit.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de débit par modèle

Les tableaux suivants résument les limites de vitesse ITPM, OTPM et QPH pour les points de terminaison de l'API du modèle de base payant par jeton pour les espaces de travail de niveau Entreprise :

Note

À compter du 15 février 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.

Grands modèles de langage Limite ITPM Limite OTPM Limite QPH Remarques
Qwen3-Next 80B A3B Instruct (bêta) 200 000 10 000 LLM à usage général
GPT OSS 120B 200 000 10 000 LLM à usage général
GPT Logiciel libre 20B 200 000 10 000 Variante GPT plus petite
Gemma 3 12B 200 000 10 000 7 200 Modèle Gemma de Google
Llama 4 Maverick 200 000 10 000 2 400 Dernière version de Llama
Llama 3.3 70B Instruct 200 000 10 000 2 400 Modèle Llama de taille moyenne
Llama 3.1 8B Instruct 200 000 10 000 7 200 Modèle Llama léger
Llama 3.1 405B Instruire 5 000 500 1,200
  • Modèle Llama le plus grand - limites réduites en raison de la taille
Modèles Claude anthropice Limite ITPM Limite OTPM Remarques
Claude 3.7 Sonnet 50 000 5 000 Modèle Claude équilibré
Claude Sonnet 4 50 000 5 000
Claude Opus 4.1 50 000 5 000
Claude Opus 4.6 200 000 20 000 Dernière version de Opus
Claude Opus 4.5 200 000 20 000
Claude Sonnet 4.6 200 000 20 000 Dernière version de Sonnet
Claude Sonnet 4.5 50 000 5 000
Claude Haiku 4.5 50 000 5 000 Dernière version de Haiku
Incorporation de modèles Limite ITPM Limite OTPM Limite QPH Remarques
Qwen3-Embedding-0.6B N/A N/A 2,160,000 Compacter le modèle d’incorporation de texte multilingue
GTE Large (en) N/A N/A 540,000 Modèle d’incorporation de texte : ne génère pas d’incorporations normalisées
BGE Large (en) N/A N/A 2,160,000 Modèle d’incorporation de texte

Les meilleures pratiques pour gérer les limitations de taux du module de plateforme sécurisée (TPM)

Étape 1. Surveiller l’utilisation des jetons

Effectuez le suivi des nombres de jetons d’entrée et de sortie séparément dans vos applications :

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Étape 2. Implémenter une logique de nouvelle tentative

Ajoutez un retrait exponentiel lorsque vous rencontrez des erreurs de limitation de taux :

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Étape 3. Optimiser l’utilisation des jetons

  • Réduire la longueur des invites : utiliser des invites concises et bien structurées
  • Longueur de sortie du contrôle : utiliser un max_tokens paramètre pour limiter la taille de réponse
  • Définissez max_tokens explicitement pour Claude Sonnet 4 : spécifiez max_tokens toujours lors de l’utilisation de Claude Sonnet 4 pour éviter la limite par défaut de 1 000 jetons
  • Traitement par lots efficace : regroupez les demandes liées lorsque cela est possible tout en respectant les limites

Étape 4. Envisager la sélection du modèle

  • Modèles plus petits pour les tâches à volume élevé : utilisez des modèles comme Llama 3.1 8B pour les tâches nécessitant un débit plus élevé
  • Modèles volumineux pour les tâches complexes : Réserver Llama 3.1 405B pour les tâches nécessitant une capacité maximale

Surveillance et dépannage

Surveillez vos modèles d’utilisation des jetons pour optimiser les performances :

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Gérer les erreurs de limite de débit

Lorsque vous dépassez les limites de débit, l’API retourne une 429 Too Many Requests erreur :

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

La réponse d’erreur inclut :

  • limit_type: Quelle limite spécifique a été dépassée (ITPM, OTPM, QPS ou QPH)
  • limit: valeur de limite configurée
  • current: Votre utilisation actuelle
  • retry_after: Temps d’attente suggéré en secondes

Problèmes courants et solutions

Problème Solution
Erreurs 429 fréquentes Implémenter une interruption exponentielle, réduire le taux de demandes et demander des limites de débit plus élevées
Limite ITPM atteinte Optimiser la longueur de l’invite
Limite OTPM atteinte Utiliser max_tokens pour limiter la longueur de réponse
Limite QPH atteinte Distribuer des demandes plus uniformément au fil du temps

Limites de débit provisionné

Pour les charges de travail de production nécessitant des limites plus élevées, les points de terminaison de débit approvisionnés offrent :

  • Aucune restriction TPM : capacité de traitement basée sur les ressources approvisionnées
  • Limites de débit plus élevées : jusqu’à 200 requêtes par seconde par espace de travail
  • Performances prévisibles : les ressources dédiées garantissent une latence cohérente

Limites des jetons de sortie

Note

À compter du 15 mai 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.

Le tableau suivant récapitule les limites des jetons de sortie pour chaque modèle pris en charge :

Model Limite des jetons de sortie
GPT OSS 120B 25 000
GPT Logiciel libre 20B 25 000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4 096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Limites supplémentaires

Voici des limitations pour les charges de travail de débit provisionné :

  • Pour déployer un modèle Meta Llama à partir du system.ai catalogue Unity, vous devez choisir la version Instruct applicable. Les versions de base des modèles Meta Llama ne sont pas prises en charge pour le déploiement à partir du catalogue Unity. Consultez Déployer des points de terminaison de débit provisionnés.
  • Pour les charges de travail à débit provisionné qui utilisent Llama 4 Maverick :
    • La prise en charge de ce modèle sur les charges de travail avec débit alloué est en préversion publique disponible.
    • La mise à l’échelle automatique n’est pas prise en charge.
    • Les panneaux de métriques ne sont pas pris en charge.
    • Le fractionnement du trafic n’est pas pris en charge sur un point de terminaison utilisé pour Llama 4 Maverick. Vous ne pouvez pas servir plusieurs modèles sur un point de terminaison qui sert Llama 4 Maverick.

Disponibilité régionale et traitement des données

Pour connaître la disponibilité de la région du modèle de base hébergée par Databricks, consultez la vue d’ensemble du modèle De base.

Pour plus d’informations sur le traitement et la résidence des données, consultez Traitement et résidence des données.

Ressources supplémentaires