Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka popisuje limity a kvóty pro úlohy rozhraní API modelu Databricks Foundation.
Rozhraní API modelu Databricks Foundation vynucují omezení rychlosti, aby se zajistil spolehlivý výkon a spravedlivé přidělování prostředků napříč všemi uživateli. Tato omezení se liší v závislosti na úrovni platformy pracovního prostoru, typu základního modelu a způsobu nasazení základního modelu.
Limity sazby koncového bodu pro platby za token
Koncové body s průběžnými platbami se řídí limity rychlosti založené na tokenech a dotazech. Limity rychlosti založené na tokenech řídí maximální počet tokenů, které je možné zpracovat za minutu a které se vynucují samostatně pro vstupní a výstupní tokeny.
- Vstupní tokeny za minutu (ITPM):: Maximální počet vstupních tokenů (z výzev), které je možné zpracovat v 60sekundovém okně. Limit rychlosti ITPM řídí propustnost vstupního tokenu koncového bodu.
- Výstupní tokeny za minutu (OTPM): Maximální počet výstupních tokenů (z odpovědí modelu), které je možné vygenerovat během 60sekundového okna. Limit rychlosti jednorázového hesla řídí propustnost výstupního tokenu koncového bodu.
- Dotazy za hodinu: Maximální počet dotazů nebo požadavků, které je možné zpracovat během 60 minut. Pro produkční aplikace se vzory udržitelného využití doporučuje Databricks zřídit koncové body propustnosti, které poskytují zaručenou kapacitu.
Jak se sledují a vynucují limity
Nejvíce omezující limit rychlosti (ITPM, OTPM, QPH) platí v daném okamžiku. I když jste například nedosáhli limitu ITPM, stále platí omezení rychlosti, pokud překročíte limit QPH nebo OTPM. Po dosažení limitu ITPM nebo OTPM se následným požadavkům zobrazí chyba 429, která značí, že bylo přijato příliš mnoho požadavků. Tato zpráva přetrvává, dokud se okno limitu četnosti nena resetuje.
Databricks sleduje a vynucuje limity rychlosti tokenů za minutu (TPM) s využitím následujících funkcí:
| Vlastnost | Podrobnosti |
|---|---|
| Monitorování účtů tokenů a předběžné kontroly přístupu |
|
| Nárazová kapacita a vyhlazování |
|
Následuje příklad toho, jak funguje kontrola předběžného přístupu a chování při vrácení úvěru.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Omezení rychlosti podle modelu
Následující tabulky shrnují omezení sazby ITPM, OTPM a QPH pro koncové body rozhraní API modelu pro platby za token pro pracovní prostory na úrovni Enterprise:
Poznámka:
Od 15. února 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.
| Velké jazykové modely | Limit ITPM | Limit jednorázového hesla | Omezení QPH | Poznámky |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instrukce (Beta verze) | 200 000 | 10,000 | Llm pro obecné účely | |
| Operační systém GPT 120B | 200 000 | 10,000 | Llm pro obecné účely | |
| Operační systém GPT 20B | 200 000 | 10,000 | Menší varianta GPT | |
| Gemma 3 12B | 200 000 | 10,000 | 7,200 | Model Gemma od Googlu |
| Llama 4 Maverick | 200 000 | 10,000 | 2,400 | Nejnovější verze Llama |
| Llama 3.3 70B – Instrukce | 200 000 | 10,000 | 2,400 | Model Llama střední velikosti |
| Llama 3.1 8B – pokyn | 200 000 | 10,000 | 7,200 | Jednoduchý model Llama |
| Llama 3.1 405B: Instrukce | 5 000 | 500 | 1 200 |
|
| Modely Anthropic Claude | Limit ITPM | Limit jednorázového hesla | Poznámky |
|---|---|---|---|
| Claude 3.7 Sonet | 50 000 | 5 000 | Vyvážený model Clauda |
| Claude Sonnet 4 | 50 000 | 5 000 | |
| Claude Opus 4.1 | 50 000 | 5 000 | |
| Claude Opus 4.5 | 200 000 | 20,000 | Nejnovější verze Opus |
| Claude Sonet 4.5 | 50 000 | 5 000 | Nejnovější verze Sonnetu |
| Claude Haiku 4.5 | 50 000 | 5 000 | Nejnovější verze Haiku |
| Vkládání modelů | Limit ITPM | Limit jednorázového hesla | Omezení QPH | Poznámky |
|---|---|---|---|---|
| Gte Large (En) | N/A | N/A | 540,000 | Model vkládání textu – negeneruje normalizované vkládání |
| BGE Large (En) | N/A | N/A | 2,160,000 | Model vkládání textu |
Osvědčené postupy pro správu limitů rychlosti TPM
Krok 1. Monitorování využití tokenů
Sledujte počty vstupních i výstupních tokenů samostatně ve vašich aplikacích:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Krok 2. Implementace logiky opakování
Pokud dojde k chybám omezení rychlosti, přidejte exponenciální zpoždnění:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Krok 3. Optimalizace využití tokenů
- Minimalizovat délku výzvy: Používejte stručné a dobře strukturované výzvy.
-
Délka výstupu ovládacího prvku: Omezení velikosti odpovědi pomocí
max_tokensparametru -
Nastavte max_tokens explicitně pro Claude Sonnet 4: Při použití Clauda Sonnetu 4 vždy zadejte
max_tokens, abyste se vyhnuli výchozímu limitu 1 000 tokenů. - Batch efektivně: Seskupování souvisejících požadavků, pokud je to možné při zachování limitů
Krok 4. Zvážení výběru modelu
- Menší modely pro úlohy s velkým objemem: Pro úlohy, které vyžadují vyšší propustnost, použijte modely, jako je Llama 3.1 8B.
- Velké modely pro složité úlohy: Vyhraďte si Llama 3.1 405B pro úkoly, které vyžadují maximální schopnost
Monitorování a řešení potíží
Monitorování vzorů využití tokenů za účelem optimalizace výkonu:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Zpracování chyb omezení rychlosti
Když překročíte limity rychlosti, rozhraní API vrátí 429 Too Many Requests chybu:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Odpověď na chybu zahrnuje:
-
limit_type: Jaký konkrétní limit byl překročen (ITPM, OTPM, QPS nebo QPH) -
limit: Nakonfigurovaná hodnota limitu -
current: Vaše aktuální využití -
retry_after: Navrhovaná doba čekání v sekundách
Běžné problémy a řešení
| Problém | Solution |
|---|---|
| Časté chyby 429 | Implementace exponenciálního zpochybnění, snížení rychlosti požadavků a vyšších limitů rychlosti požadavků |
| Dosažení limitu ITPM | Optimalizace délky výzvy |
| Dosažení limitu jednorázového hesla | Slouží max_tokens k omezení délky odpovědi. |
| Dosažení limitu QPH | Rovnoměrnější distribuce požadavků v průběhu času |
Limity zřízené propustnosti
Pro produkční úlohy, které vyžadují vyšší limity, nabízejí zřízené koncové body propustnosti:
- Žádná omezení TPM: Zpracování kapacity na základě zřízených prostředků
- Vyšší omezení rychlosti: Až 200 dotazů za sekundu za pracovní prostor
- Předvídatelný výkon: Vyhrazené prostředky zajišťují konzistentní latenci
Limity výstupních tokenů
Poznámka:
Od 15. května 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.
Následující tabulka shrnuje limity výstupních tokenů pro jednotlivé podporované modely:
| Model | Limit výstupního tokenu |
|---|---|
| Operační systém GPT 120B | 25,000 |
| Operační systém GPT 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4,096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Další limity
Pro úlohy zřízené propustnosti platí následující omezení:
- Pokud chcete nasadit model Meta Llama z
system.aikatalogu Unity, musíte zvolit příslušnou verzi s pokyny . Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz Nasazení koncových bodů zřízené propustnosti. - Pro úlohy zřízené propustnosti, které používají Llama 4 Maverick:
- Podpora tohoto modelu u úloh zřízené propustnosti je ve verzi Public Preview.
- Automatické škálování se nepodporuje.
- Panely metrik se nepodporují.
- Rozdělení provozu není podporováno v koncovém bodu, který obsluhuje Llama 4 Maverick. Na koncovém bodu, který obsluhuje Llama 4 Maverick, nemůžete obsluhovat více modelů.
Regionální dostupnost a zpracování dat
Dostupnost oblasti základního modelu hostované službou Databricks najdete v tématu Přehled základního modelu.
Podrobnosti o zpracování a rezidenci dat najdete v tématu Zpracování a rezidence dat.