Freigeben über


Grenzwerte und Kontingente für Foundation-Modell-APIs

Auf dieser Seite werden die Grenzwerte und Kontingente für Databricks Foundation Model-APIs-Workloads beschrieben.

Databricks Foundation Model-APIs erzwingen Ratelimits, um eine zuverlässige Leistung und faire Ressourcenzuordnung für alle Benutzer sicherzustellen. Diese Grenzwerte variieren je nach Arbeitsbereichsplattformebene, Foundation-Modelltyp und Art der Bereitstellung Ihres Foundation-Modells.

Endpunktgrenzwerte für Pay-per-Token

Pay-per-Token-Endpunkte unterliegen tokenbasierten und abfragebasierten Ratengrenzwerten. Tokenbasierte Ratenbeschränkungen steuern die maximale Anzahl von Token, die pro Minute verarbeitet werden können und separat für Eingabe- und Ausgabetoken erzwungen werden.

  • Eingabetoken pro Minute (ITPM): Die maximale Anzahl von Eingabetoken (aus Ihren Eingabeaufforderungen), die innerhalb eines 60-Sekunden-Fensters verarbeitet werden können. Ein ITPM-Ratelimit steuert den Eingabetokendurchsatz eines Endpunkts.
  • Ausgabetoken pro Minute (OTPM): Die maximale Anzahl von Ausgabetoken (aus den Antworten des Modells), die innerhalb eines 60-Sekunden-Fensters generiert werden können. Ein OTPM-Ratelimit steuert den Ausgabetokendurchsatz eines Endpunkts.
  • Abfragen pro Stunde: Die maximale Anzahl von Abfragen oder Anforderungen, die innerhalb eines 60-Minuten-Fensters verarbeitet werden können. Für Produktionsanwendungen mit nachhaltigen Nutzungsmustern empfiehlt Databricks bereitgestellte Durchsatzendpunkte, die eine garantierte Kapazität bieten.

Wie Grenzwerte nachverfolgt und erzwungen werden

Das restriktivste Zinslimit (ITPM, OTPM, QPH) gilt zu einem bestimmten Zeitpunkt. Selbst wenn Sie ihren ITPM-Grenzwert nicht erreicht haben, ist die Rate weiterhin begrenzt, wenn Sie den QPH- oder OTPM-Grenzwert überschreiten. Wenn entweder ITPM- oder OTPM-Grenzwert erreicht ist, erhalten nachfolgende Anforderungen einen Fehler von 429, der angibt, dass zu viele Anforderungen empfangen wurden. Diese Meldung wird beibehalten, bis das Zeitlimitfenster zurückgesetzt wird.

Databricks verfolgt und erzwingt Token pro Minute (TPM)-Geschwindigkeitsbeschränkungen mithilfe der folgenden Features:

Merkmal Einzelheiten
Tokenbuchhaltung und Vorabüberprüfungen
  • Eingabetokenzählung: Eingabetoken werden von Der tatsächlichen Eingabeaufforderung zur Anforderungszeit gezählt.
  • Ausgabetokenschätzung: Wenn Sie in Ihrer Anforderung angeben max_tokens , verwendet Databricks diesen Wert, um die Ausgabetokenkapazität zu schätzen und zu reservieren, bevor die Anforderung zur Verarbeitung zugelassen wird.
  • Überprüfung vor der Zulassung: Databricks überprüft, ob Ihre Anforderung ITPM- oder OTPM-Grenzwerte überschreiten würde, bevor die Verarbeitung beginnt. Wenn max_tokens Sie OTPM-Grenzwerte überschreiten würden, lehnt Databricks die Anforderung sofort mit einem Fehler von 429 ab.
  • Aktuelle und geschätzte Ausgabe: Nachdem die Antwort generiert wurde, werden die tatsächlichen Ausgabetoken gezählt. Wichtig: Wenn die tatsächliche Tokennutzung kleiner als die reservierte max_tokensist, guthaben Databricks die Differenz wieder auf Ihr Zinslimit,wodurch diese Token sofort für andere Anforderungen verfügbar sind.
  • Kein max_tokens angegeben: Wenn Sie nicht angeben max_tokens, verwendet Databricks eine Standardreservierung, und die tatsächliche Tokenanzahl wird nach der Generierung abgeglichen. Anmerkung: Claude Sonnet 4 ist standardmäßig auf 1.000 Ausgabetoken festgelegt, wenn max_tokens sie nicht festgelegt ist, und gibt endende Ursache "Länge" zurück, wenn erreicht. Dies ist nicht die maximale Kontextlänge des Modells. Claude 3.7 Sonnet hat keinen solchen Standardwert.
Platzkapazität und Glättung
  • Burstpuffer: Der Zinsgrenzer enthält einen kleinen Puffer, um kurze Datenverkehrsübergänge über der Nominalrate aufzunehmen.
  • Gleitfenster: Die Tokennutzung wird mithilfe eines Gleitfensteralgorithmus nachverfolgt, der eine gleichmäßigere Begrenzung der Geschwindigkeit als harte Grenzen pro Minute bietet.
  • Token bucket algorithm: Databricks uses a token bucket implementation that allows for some burst capacity while servicing the average rate limit over time.

Im Folgenden sehen Sie ein Beispiel für die Funktionsweise der Überprüfung vor der Zulassung und des Credit-Back-Verhaltens.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Ratengrenzwerte nach Modell

In den folgenden Tabellen sind die Grenzwerte für ITPM- und OTPM- und QPH-Raten für Endpunkte der Foundation Model-API für Enterprise-Ebenen zusammengefasst:

Hinweis

Ab dem 15. Februar 2026 wird Meta-Llama-3.1-405B-Instruct eingestellt. Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.

Große Sprachmodelle ITPM-Grenzwert OTPM-Grenzwert QPH-Grenzwert Hinweise
Qwen3-Next 80B A3B Instruct (Beta) 200,000 10.000 Allgemeine LLM
GPT OSS 120B 200,000 10.000 Allgemeine LLM
GPT OSS 20B 200,000 10.000 Kleinere GPT-Variante
Gemma 3 12B 200,000 10.000 7,200 Das Gemma-Modell von Google
Llama 4 Maverick 200,000 10.000 2\.400 Neueste Llama-Version
Llama 3.3 70B Anweisung 200,000 10.000 2\.400 Mid-Size Llama-Modell
Llama 3.1 8B-Anweisung 200,000 10.000 7,200 Einfaches Llama-Modell
Llama 3.1 405B-Anweisung 5.000 500 1\.200
  • Größtes Llama-Modell - reduzierte Grenzwerte aufgrund der Größe
Anthropische Claude Modelle ITPM-Grenzwert OTPM-Grenzwert Hinweise
Claude 3.7 Sonnet 50,000 5.000 Ausgewogenes Claude-Modell
Claude Sonnet 4 50,000 5.000
Claude Opus 4.1 50,000 5.000
Claude Opus 4.5 200,000 20.000 Neueste Opus-Version
Claude Sonnet 4.5 50,000 5.000 Neueste Sonnet-Version
Claude Haiku 4.5 50,000 5.000 Neueste Haiku-Version
Einbetten von Modellen ITPM-Grenzwert OTPM-Grenzwert QPH-Grenzwert Hinweise
GTE Large (En) N/A N/A 540,000 Texteinbettungsmodell - generiert keine normalisierten Einbettungen
BGE Large (En) N/A N/A 2,160,000 Texteinbettungsmodell

Verwalten von BEWÄHRTEn Methoden für TPM-Geschwindigkeitsbeschränkungen

Schritt 1. Überwachen der Tokenverwendung

Verfolgen Sie die Anzahl von Eingabe- und Ausgabetoken in Ihren Anwendungen separat:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Schritt 2. Implementieren der Wiederholungslogik

Fügen Sie exponentielles Backoff hinzu, wenn Fehler beim Zinsgrenzwert auftreten:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Schritt 3. Optimieren der Tokenverwendung

  • Minimieren der Eingabeaufforderungslänge: Verwenden Sie präzise, gut strukturierte Eingabeaufforderungen
  • Steuern der Ausgabelänge: Verwenden des max_tokens Parameters zum Einschränken der Antwortgröße
  • Legen Sie max_tokens explizit für Claude Sonnet 4 fest: Geben Sie immer an max_tokens , wenn Claude Sonnet 4 verwendet wird, um das standardmäßige Tokenlimit von 1.000 zu vermeiden.
  • Batch effizient: Gruppieren Sie verwandte Anforderungen, wenn möglich, während Sie innerhalb von Grenzwerten bleiben

Schritt 4. Modellauswahl in Betracht ziehen

  • Kleinere Modelle für Vorgänge mit hohem Volumen: Verwenden Sie Modelle wie Llama 3.1 8B für Vorgänge, die einen höheren Durchsatz erfordern
  • Große Modelle für komplexe Aufgaben: Reserve Llama 3.1 405B für Vorgänge, die maximale Leistung erfordern

Überwachung und Problembehandlung

Überwachen Sie Ihre Tokenverwendungsmuster, um die Leistung zu optimieren:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Behandeln von Fehler bei der Häufigkeitsbegrenzung

Wenn Sie Die Ratenbeschränkungen überschreiten, gibt die API einen 429 Too Many Requests Fehler zurück:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Die Fehlerantwort umfasst:

  • limit_type: Welcher spezifische Grenzwert überschritten wurde (ITPM, OTPM, QPS oder QPH)
  • limit: Der konfigurierte Grenzwert
  • current: Ihre aktuelle Nutzung
  • retry_after: Vorgeschlagene Wartezeit in Sekunden

Häufige Probleme und Lösungen

Thema Lösung
Häufige 429 Fehler Implementieren von exponentiellen Backoffs, Verringern der Anforderungsrate und Anfordern höherer Ratelimits
ITPM-Grenzwert erreicht Optimieren der Länge der Eingabeaufforderung
OTPM-Grenzwert erreicht Wird max_tokens verwendet, um die Antwortlänge zu begrenzen
QPH-Grenzwert erreicht Gleichmäßigere Verteilung von Anforderungen im Laufe der Zeit

Bereitgestellte Durchsatzgrenzwerte

Für Produktionsworkloads, die höhere Grenzwerte erfordern, bieten bereitgestellte Durchsatzendpunkte Folgendes:

  • Keine TPM-Einschränkungen: Verarbeitungskapazität basierend auf bereitgestellten Ressourcen
  • Grenzwerte für höhere Raten: Bis zu 200 Abfragen pro Sekunde pro Arbeitsbereich
  • Vorhersehbare Leistung: Dedizierte Ressourcen sorgen für eine konsistente Latenz

Grenzwerte für Ausgabetoken

Hinweis

Ab dem 15. Mai 2026 wird Meta-Llama-3.1-405B-Instruct eingestellt. Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.

In der folgenden Tabelle sind die Ausgabetokengrenzwerte für die einzelnen unterstützten Modelle zusammengefasst:

Model Ausgabetokengrenzwert
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4.096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Zusätzliche Grenzwerte

Die folgenden Einschränkungen gelten für bereitgestellte Durchsatzarbeitslasten:

  • Um ein Meta-Llama-Modell aus system.ai dem Unity-Katalog bereitzustellen, müssen Sie die entsprechende Anweisungsversion auswählen. Basisversionen der Meta llama-Modelle werden für die Bereitstellung aus dem Unity-Katalog nicht unterstützt. Siehe Bereitstellen von bereitgestellten Durchsatzendpunkten.
  • Für bereitgestellte Durchsatzarbeitslasten, die Llama 4 Maverick verwenden:
    • Die Unterstützung für dieses Modell für bereitgestellte Durchsatzarbeitslasten befindet sich in der öffentlichen Vorschau.
    • Die automatische Skalierung wird nicht unterstützt.
    • Metrikbereiche werden nicht unterstützt.
    • Die Datenverkehrsteilung wird für einen Endpunkt, der Llama 4 Maverick dient, nicht unterstützt. Sie können nicht mehrere Modelle auf einem Endpunkt bedienen, der Llama 4 Maverick dient.

Regionale Verfügbarkeit und Datenverarbeitung

Informationen zur Verfügbarkeit von vom Databricks gehosteten Foundation-Modellregionen finden Sie in der Übersicht über das Foundation-Modell.

Details zur Datenverarbeitung und -residency finden Sie unter Datenverarbeitung und Residency.

Weitere Ressourcen