Partager via


Limites et quotas des API Foundation Model

Cette page décrit les limites et les quotas des charges de travail databricks Foundation Model Model.

Les API Databricks Foundation Model appliquent des limites de débit pour garantir des performances fiables et une allocation équitable des ressources pour tous les utilisateurs. Ces limites varient en fonction du niveau de plateforme de l’espace de travail, du type de modèle de base et de la façon dont vous déployez votre modèle de base.

Limites du taux de point de terminaison de paiement par jeton

Les points de terminaison de paiement par jeton sont régis par des limites de débit basées sur des jetons et basées sur des requêtes. Les limites de débit basées sur les jetons contrôlent le nombre maximal de jetons qui peuvent être traités par minute et sont appliqués séparément pour les jetons d’entrée et de sortie.

  • Jetons d’entrée par minute (ITPM) : nombre maximal de jetons d’entrée (à partir de vos invites) qui peuvent être traités dans une fenêtre de 60 secondes. Une limite de débit ITPM contrôle le débit du jeton d’entrée d’un point de terminaison.
  • Jetons de sortie par minute (OTPM) : nombre maximal de jetons de sortie (à partir des réponses du modèle) qui peuvent être générés dans une fenêtre de 60 secondes. Une limite de débit OTPM contrôle le débit du jeton de sortie d’un point de terminaison.
  • Requêtes par heure : nombre maximal de requêtes ou de requêtes qui peuvent être traitées dans une fenêtre de 60 minutes. Pour les applications de production avec des modèles d’utilisation soutenus, Databricks recommande de provisionner des points de terminaison de débit, qui fournissent une capacité garantie.

Suivi et application des limites

La limite de débit la plus restrictive (ITPM, OTPM, QPH) s’applique à tout moment. Par exemple, même si vous n’avez pas atteint votre limite ITPM, vous êtes toujours limité si vous dépassez la limite QPH ou OTPM. Lorsque la limite ITPM ou OTPM est atteinte, les requêtes suivantes reçoivent une erreur 429 indiquant qu’un trop grand nombre de demandes ont été reçues. Ce message persiste jusqu’à ce que la fenêtre limite de débit soit réinitialisée.

Databricks effectue le suivi et applique des jetons par minute (TPM) à l’aide des fonctionnalités suivantes :

Caractéristique Détails
Vérifications de comptabilité et de pré-admission des jetons
  • Comptage des jetons d’entrée : les jetons d’entrée sont comptabilisés à partir de votre invite réelle au moment de la demande.
  • Estimation du jeton de sortie : si vous fournissez max_tokens dans votre demande, Databricks utilise cette valeur pour estimer et réserver la capacité du jeton de sortie avant que la demande soit admise pour traitement.
  • Validation de pré-admission : Databricks vérifie si votre demande dépasserait les limites ITPM ou OTPM avant le début du traitement. Si max_tokens vous dépassez les limites OTPM, Databricks rejette immédiatement la requête avec une erreur 429.
  • Sortie réelle et estimée : une fois la réponse générée, les jetons de sortie réels sont comptés. Important, si l’utilisation réelle des jetons est inférieure à la réserve max_tokens, Databricks attribue la différence à votre allocation de limite de taux, rendant ces jetons immédiatement disponibles pour d’autres demandes.
  • Aucune max_tokens spécifiée : si vous ne spécifiez max_tokenspas, Databricks utilise une réservation par défaut et le nombre de jetons réel est rapproché après la génération. Note: Claude Sonnet 4 a pour valeur par défaut 1 000 jetons de sortie lorsqu’il max_tokens n’est pas défini, en retournant la raison de fin « longueur » lorsqu’elle est atteinte. Il ne s’agit pas de la longueur maximale du contexte du modèle. Claude 3.7 Sonnet n’a pas de tel défaut.
Capacité de rafale et lissage
  • Mémoire tampon de rafale : le limiteur de débit comprend une petite mémoire tampon pour prendre en charge des rafales courtes de trafic au-dessus du taux nominal.
  • Fenêtre glissante : la consommation de jetons est suivie à l’aide d’un algorithme de fenêtre glissante qui fournit une limitation de débit plus fluide que les limites dures par minute.
  • Algorithme de compartiment de jeton : Databricks utilise une implémentation de compartiment de jetons qui permet une capacité de rafale tout en conservant la limite moyenne de débit au fil du temps.

Voici un exemple de vérification avant admission et du comportement de crédit back.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limites de débit par modèle

Les tableaux suivants résument les limites de taux ITPM, OTPM et QPH pour les points de terminaison de l’API modèle de paiement par jeton pour les espaces de travail de niveau Entreprise :

Note

À compter du 15 février 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.

Modèles de langage volumineux Limite ITPM Limite OTPM Limite QPH Remarques
Qwen3-Next 80B A3B Instruct (bêta) 200 000 10 000 LLM à usage général
GPT OSS 120B 200 000 10 000 LLM à usage général
GPT Logiciel libre 20B 200 000 10 000 Variante GPT plus petite
Gemma 3 12B 200 000 10 000 7,200 Modèle Gemma de Google
Llama 4 Maverick 200 000 10 000 2 400 Dernière version de Llama
Llama 3.3 70B Instruct 200 000 10 000 2 400 Modèle Llama de taille moyenne
Llama 3.1 8B Instruct 200 000 10 000 7,200 Modèle Llama léger
Llama 3.1 405B Instruire 5 000 500 1,200
  • Modèle Llama le plus grand - limites réduites en raison de la taille
Modèles Claude anthropice Limite ITPM Limite OTPM Remarques
Claude 3.7 Sonnet 50 000 5 000 Modèle Claude équilibré
Claude Sonnet 4 50 000 5 000
Claude Opus 4.1 50 000 5 000
Claude Opus 4.5 200 000 20 000 Dernière version de Opus
Claude Sonnet 4.5 50 000 5 000 Dernière version de Sonnet
Claude Haiku 4.5 50 000 5 000 Dernière version de Haiku
Incorporation de modèles Limite ITPM Limite OTPM Limite QPH Remarques
GTE Large (en) N/A N/A 540,000 Modèle d’incorporation de texte : ne génère pas d’incorporations normalisées
BGE Large (en) N/A N/A 2,160,000 Modèle d’incorporation de texte

Gérer les limites de taux de module de plateforme sécurisée (TPM) les meilleures pratiques

Étape 1. Surveiller l’utilisation des jetons

Effectuez le suivi des nombres de jetons d’entrée et de sortie séparément dans vos applications :

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Étape 2. Implémenter une logique de nouvelle tentative

Ajoutez une interruption exponentielle lorsque vous rencontrez des erreurs de limite de débit :

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Étape 3. Optimiser l’utilisation des jetons

  • Réduire la longueur des invites : utiliser des invites concises et bien structurées
  • Longueur de sortie du contrôle : utiliser un max_tokens paramètre pour limiter la taille de réponse
  • Définissez max_tokens explicitement pour Claude Sonnet 4 : spécifiez max_tokens toujours lors de l’utilisation de Claude Sonnet 4 pour éviter la limite par défaut de 1 000 jetons
  • Traitement par lots efficace : demandes liées au groupe lorsque cela est possible tout en restant dans les limites

Étape 4. Envisager la sélection du modèle

  • Modèles plus petits pour les tâches à volume élevé : utilisez des modèles comme Llama 3.1 8B pour les tâches nécessitant un débit plus élevé
  • Modèles volumineux pour les tâches complexes : Réserver Llama 3.1 405B pour les tâches nécessitant une capacité maximale

Surveillance et dépannage

Surveillez vos modèles d’utilisation des jetons pour optimiser les performances :

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Gérer les erreurs de limite de débit

Lorsque vous dépassez les limites de débit, l’API retourne une 429 Too Many Requests erreur :

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

La réponse d’erreur inclut :

  • limit_type: Quelle limite spécifique a été dépassée (ITPM, OTPM, QPS ou QPH)
  • limit: valeur de limite configurée
  • current: Votre utilisation actuelle
  • retry_after: Temps d’attente suggéré en secondes

Problèmes courants et solutions

Problème Solution
Erreurs 429 fréquentes Implémenter une interruption exponentielle, réduire le taux de demandes et demander des limites de débit plus élevées
Limite ITPM atteinte Optimiser la longueur de l’invite
Limite OTPM atteinte Utiliser max_tokens pour limiter la longueur de réponse
Limite QPH atteinte Distribuer des demandes plus uniformément au fil du temps

Limites de débit approvisionnées

Pour les charges de travail de production nécessitant des limites plus élevées, les points de terminaison de débit approvisionnés offrent :

  • Aucune restriction de module de plateforme sécurisée : capacité de traitement basée sur les ressources approvisionnées
  • Limites de débit plus élevées : jusqu’à 200 requêtes par seconde par espace de travail
  • Performances prévisibles : les ressources dédiées garantissent une latence cohérente

Limites des jetons de sortie

Note

À compter du 15 mai 2026, Meta-Llama-3.1-405B-Instruct sera mis hors service. Consultez les modèles supprimés pour le modèle de remplacement recommandé et pour obtenir des conseils sur la migration pendant la dépréciation.

Le tableau suivant récapitule les limites des jetons de sortie pour chaque modèle pris en charge :

Model Limite des jetons de sortie
GPT OSS 120B 25 000
GPT Logiciel libre 20B 25 000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4 096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Limites supplémentaires

Voici des limitations pour les charges de travail de débit provisionné :

  • Pour déployer un modèle Meta Llama à partir du system.ai catalogue Unity, vous devez choisir la version Instruct applicable. Les versions de base des modèles Meta Llama ne sont pas prises en charge pour le déploiement à partir du catalogue Unity. Consultez Déployer des points de terminaison de débit provisionnés.
  • Pour les charges de travail de débit approvisionnées qui utilisent Llama 4 Maverick :
    • La prise en charge de ce modèle sur les charges de travail de débit approvisionnées est disponible en préversion publique.
    • La mise à l’échelle automatique n’est pas prise en charge.
    • Les panneaux de métriques ne sont pas pris en charge.
    • Le fractionnement du trafic n’est pas pris en charge sur un point de terminaison qui sert Llama 4 Maverick. Vous ne pouvez pas servir plusieurs modèles sur un point de terminaison qui sert Llama 4 Maverick.

Disponibilité régionale et traitement des données

Pour connaître la disponibilité de la région du modèle de base hébergée par Databricks, consultez la vue d’ensemble du modèle De base.

Pour plus d’informations sur le traitement et la résidence des données, consultez Traitement et résidence des données.

Ressources supplémentaires