Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Auf dieser Seite werden die Grenzwerte und Kontingente für Databricks Foundation Model-APIs-Workloads beschrieben.
Databricks Foundation Model-APIs erzwingen Ratelimits, um eine zuverlässige Leistung und faire Ressourcenzuordnung für alle Benutzer sicherzustellen. Diese Grenzwerte variieren je nach Arbeitsbereichsplattformebene, Foundation-Modelltyp und Art der Bereitstellung Ihres Foundation-Modells.
Endpunktgrenzwerte für Pay-per-Token
Pay-per-Token-Endpunkte unterliegen tokenbasierten und abfragebasierten Ratengrenzwerten. Tokenbasierte Ratenbeschränkungen steuern die maximale Anzahl von Token, die pro Minute verarbeitet werden können und separat für Eingabe- und Ausgabetoken erzwungen werden.
- Eingabetoken pro Minute (ITPM): Die maximale Anzahl von Eingabetoken (aus Ihren Eingabeaufforderungen), die innerhalb eines 60-Sekunden-Fensters verarbeitet werden können. Ein ITPM-Ratelimit steuert den Eingabetokendurchsatz eines Endpunkts.
- Ausgabetoken pro Minute (OTPM): Die maximale Anzahl von Ausgabetoken (aus den Antworten des Modells), die innerhalb eines 60-Sekunden-Fensters generiert werden können. Ein OTPM-Ratelimit steuert den Ausgabetokendurchsatz eines Endpunkts.
- Abfragen pro Stunde: Die maximale Anzahl von Abfragen oder Anforderungen, die innerhalb eines 60-Minuten-Fensters verarbeitet werden können. Für Produktionsanwendungen mit nachhaltigen Nutzungsmustern empfiehlt Databricks bereitgestellte Durchsatzendpunkte, die eine garantierte Kapazität bieten.
Wie Grenzwerte nachverfolgt und erzwungen werden
Das restriktivste Zinslimit (ITPM, OTPM, QPH) gilt zu einem bestimmten Zeitpunkt. Selbst wenn Sie ihren ITPM-Grenzwert nicht erreicht haben, ist die Rate weiterhin begrenzt, wenn Sie den QPH- oder OTPM-Grenzwert überschreiten. Wenn entweder ITPM- oder OTPM-Grenzwert erreicht ist, erhalten nachfolgende Anforderungen einen Fehler von 429, der angibt, dass zu viele Anforderungen empfangen wurden. Diese Meldung wird beibehalten, bis das Zeitlimitfenster zurückgesetzt wird.
Databricks verfolgt und erzwingt Token pro Minute (TPM)-Geschwindigkeitsbeschränkungen mithilfe der folgenden Features:
| Merkmal | Einzelheiten |
|---|---|
| Tokenbuchhaltung und Vorabüberprüfungen |
|
| Platzkapazität und Glättung |
|
Im Folgenden sehen Sie ein Beispiel für die Funktionsweise der Überprüfung vor der Zulassung und des Credit-Back-Verhaltens.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Ratengrenzwerte nach Modell
In den folgenden Tabellen sind die Grenzwerte für ITPM- und OTPM- und QPH-Raten für Endpunkte der Foundation Model-API für Enterprise-Ebenen zusammengefasst:
Hinweis
Ab dem 15. Februar 2026 wird Meta-Llama-3.1-405B-Instruct eingestellt. Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.
| Große Sprachmodelle | ITPM-Grenzwert | OTPM-Grenzwert | QPH-Grenzwert | Hinweise |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct (Beta) | 200,000 | 10.000 | Allgemeine LLM | |
| GPT OSS 120B | 200,000 | 10.000 | Allgemeine LLM | |
| GPT OSS 20B | 200,000 | 10.000 | Kleinere GPT-Variante | |
| Gemma 3 12B | 200,000 | 10.000 | 7,200 | Das Gemma-Modell von Google |
| Llama 4 Maverick | 200,000 | 10.000 | 2\.400 | Neueste Llama-Version |
| Llama 3.3 70B Anweisung | 200,000 | 10.000 | 2\.400 | Mid-Size Llama-Modell |
| Llama 3.1 8B-Anweisung | 200,000 | 10.000 | 7,200 | Einfaches Llama-Modell |
| Llama 3.1 405B-Anweisung | 5.000 | 500 | 1\.200 |
|
| Anthropische Claude Modelle | ITPM-Grenzwert | OTPM-Grenzwert | Hinweise |
|---|---|---|---|
| Claude 3.7 Sonnet | 50,000 | 5.000 | Ausgewogenes Claude-Modell |
| Claude Sonnet 4 | 50,000 | 5.000 | |
| Claude Opus 4.1 | 50,000 | 5.000 | |
| Claude Opus 4.5 | 200,000 | 20.000 | Neueste Opus-Version |
| Claude Sonnet 4.5 | 50,000 | 5.000 | Neueste Sonnet-Version |
| Claude Haiku 4.5 | 50,000 | 5.000 | Neueste Haiku-Version |
| Einbetten von Modellen | ITPM-Grenzwert | OTPM-Grenzwert | QPH-Grenzwert | Hinweise |
|---|---|---|---|---|
| GTE Large (En) | N/A | N/A | 540,000 | Texteinbettungsmodell - generiert keine normalisierten Einbettungen |
| BGE Large (En) | N/A | N/A | 2,160,000 | Texteinbettungsmodell |
Verwalten von BEWÄHRTEn Methoden für TPM-Geschwindigkeitsbeschränkungen
Schritt 1. Überwachen der Tokenverwendung
Verfolgen Sie die Anzahl von Eingabe- und Ausgabetoken in Ihren Anwendungen separat:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Schritt 2. Implementieren der Wiederholungslogik
Fügen Sie exponentielles Backoff hinzu, wenn Fehler beim Zinsgrenzwert auftreten:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Schritt 3. Optimieren der Tokenverwendung
- Minimieren der Eingabeaufforderungslänge: Verwenden Sie präzise, gut strukturierte Eingabeaufforderungen
-
Steuern der Ausgabelänge: Verwenden des
max_tokensParameters zum Einschränken der Antwortgröße -
Legen Sie max_tokens explizit für Claude Sonnet 4 fest: Geben Sie immer an
max_tokens, wenn Claude Sonnet 4 verwendet wird, um das standardmäßige Tokenlimit von 1.000 zu vermeiden. - Batch effizient: Gruppieren Sie verwandte Anforderungen, wenn möglich, während Sie innerhalb von Grenzwerten bleiben
Schritt 4. Modellauswahl in Betracht ziehen
- Kleinere Modelle für Vorgänge mit hohem Volumen: Verwenden Sie Modelle wie Llama 3.1 8B für Vorgänge, die einen höheren Durchsatz erfordern
- Große Modelle für komplexe Aufgaben: Reserve Llama 3.1 405B für Vorgänge, die maximale Leistung erfordern
Überwachung und Problembehandlung
Überwachen Sie Ihre Tokenverwendungsmuster, um die Leistung zu optimieren:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Behandeln von Fehler bei der Häufigkeitsbegrenzung
Wenn Sie Die Ratenbeschränkungen überschreiten, gibt die API einen 429 Too Many Requests Fehler zurück:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Die Fehlerantwort umfasst:
-
limit_type: Welcher spezifische Grenzwert überschritten wurde (ITPM, OTPM, QPS oder QPH) -
limit: Der konfigurierte Grenzwert -
current: Ihre aktuelle Nutzung -
retry_after: Vorgeschlagene Wartezeit in Sekunden
Häufige Probleme und Lösungen
| Thema | Lösung |
|---|---|
| Häufige 429 Fehler | Implementieren von exponentiellen Backoffs, Verringern der Anforderungsrate und Anfordern höherer Ratelimits |
| ITPM-Grenzwert erreicht | Optimieren der Länge der Eingabeaufforderung |
| OTPM-Grenzwert erreicht | Wird max_tokens verwendet, um die Antwortlänge zu begrenzen |
| QPH-Grenzwert erreicht | Gleichmäßigere Verteilung von Anforderungen im Laufe der Zeit |
Bereitgestellte Durchsatzgrenzwerte
Für Produktionsworkloads, die höhere Grenzwerte erfordern, bieten bereitgestellte Durchsatzendpunkte Folgendes:
- Keine TPM-Einschränkungen: Verarbeitungskapazität basierend auf bereitgestellten Ressourcen
- Grenzwerte für höhere Raten: Bis zu 200 Abfragen pro Sekunde pro Arbeitsbereich
- Vorhersehbare Leistung: Dedizierte Ressourcen sorgen für eine konsistente Latenz
Grenzwerte für Ausgabetoken
Hinweis
Ab dem 15. Mai 2026 wird Meta-Llama-3.1-405B-Instruct eingestellt. Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.
In der folgenden Tabelle sind die Ausgabetokengrenzwerte für die einzelnen unterstützten Modelle zusammengefasst:
| Model | Ausgabetokengrenzwert |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4.096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Zusätzliche Grenzwerte
Die folgenden Einschränkungen gelten für bereitgestellte Durchsatzarbeitslasten:
- Um ein Meta-Llama-Modell aus
system.aidem Unity-Katalog bereitzustellen, müssen Sie die entsprechende Anweisungsversion auswählen. Basisversionen der Meta llama-Modelle werden für die Bereitstellung aus dem Unity-Katalog nicht unterstützt. Siehe Bereitstellen von bereitgestellten Durchsatzendpunkten. - Für bereitgestellte Durchsatzarbeitslasten, die Llama 4 Maverick verwenden:
- Die Unterstützung für dieses Modell für bereitgestellte Durchsatzarbeitslasten befindet sich in der öffentlichen Vorschau.
- Die automatische Skalierung wird nicht unterstützt.
- Metrikbereiche werden nicht unterstützt.
- Die Datenverkehrsteilung wird für einen Endpunkt, der Llama 4 Maverick dient, nicht unterstützt. Sie können nicht mehrere Modelle auf einem Endpunkt bedienen, der Llama 4 Maverick dient.
Regionale Verfügbarkeit und Datenverarbeitung
Informationen zur Verfügbarkeit von vom Databricks gehosteten Foundation-Modellregionen finden Sie in der Übersicht über das Foundation-Modell.
Details zur Datenverarbeitung und -residency finden Sie unter Datenverarbeitung und Residency.