Omezení a kvóty rozhraní API základního modelu

Tato stránka popisuje limity a kvóty pro úlohy rozhraní API modelu Databricks Foundation.

Rozhraní API modelu Databricks Foundation vynucují omezení rychlosti, aby se zajistil spolehlivý výkon a spravedlivé přidělování prostředků napříč všemi uživateli. Tato omezení se liší v závislosti na úrovni platformy pracovního prostoru, typu základního modelu a způsobu nasazení základního modelu.

Limity sazby koncového bodu pro platby za token

Koncové body s průběžnými platbami se řídí limity rychlosti založené na tokenech a dotazech. Limity rychlosti založené na tokenech řídí maximální počet tokenů, které je možné zpracovat za minutu a které se vynucují samostatně pro vstupní a výstupní tokeny.

Vstupní tokeny za minutu (ITPM):: Maximální počet vstupních tokenů (z výzev), které je možné zpracovat v 60sekundovém okně. Limit rychlosti ITPM řídí propustnost vstupního tokenu koncového bodu.
Výstupní tokeny za minutu (OTPM): Maximální počet výstupních tokenů (z odpovědí modelu), které je možné vygenerovat během 60sekundového okna. Limit rychlosti jednorázového hesla řídí propustnost výstupního tokenu koncového bodu.
Dotazy za hodinu: Maximální počet dotazů nebo požadavků, které je možné zpracovat během 60 minut. Pro produkční aplikace se vzory udržitelného využití doporučuje Databricks zřídit koncové body propustnosti, které poskytují zaručenou kapacitu.

Jak se sledují a vynucují limity

Nejvíce omezující limit rychlosti (ITPM, OTPM, QPH) platí v daném okamžiku. I když jste například nedosáhli limitu ITPM, stále platí omezení rychlosti, pokud překročíte limit QPH nebo OTPM. Po dosažení limitu ITPM nebo OTPM se následným požadavkům zobrazí chyba 429, která značí, že bylo přijato příliš mnoho požadavků. Tato zpráva přetrvává, dokud se okno limitu četnosti nena resetuje.

Databricks sleduje a vynucuje limity rychlosti tokenů za minutu (TPM) s využitím následujících funkcí:

Vlastnost Podrobnosti

Monitorování účtů tokenů a předběžné kontroly přístupu

Vlastnost	Podrobnosti
Monitorování účtů tokenů a předběžné kontroly přístupu	Počítání vstupních tokenů: Vstupní tokeny se počítají z vaší skutečné výzvy v době požadavku. Odhad výstupního tokenu: Pokud v požadavku zadáte `max_tokens` , Databricks tuto hodnotu použije k odhadu a rezervaci kapacity výstupního tokenu před přijetím požadavku ke zpracování. Ověření předběžného přístupu: Databricks před zahájením zpracování zkontroluje, jestli vaše žádost překročí limity ITPM nebo OTPM. Pokud `max_tokens` by došlo k překročení limitů OTPM, Databricks žádost okamžitě odmítne s chybou 429. Skutečný a odhadovaný výstup: Po vygenerování odpovědi se počítají skutečné výstupní tokeny. Důležité je, že pokud je skutečné využití tokenu menší než rezervované `max_tokens`, Databricks kredituje rozdíl zpět k vašemu limitu sazby, aby tyto tokeny byly okamžitě k dispozici pro jiné žádosti. Není zadán žádný max_tokens: Pokud nezadáte`max_tokens`, Databricks použije výchozí rezervaci a skutečný počet tokenů se odsouhlasí po generování. Poznámka: Claude Sonnet 4 konkrétně ve výchozím nastavení používá 1 000 výstupních tokenů, pokud `max_tokens` není nastaven, a vrací důvod dokončení "délka" při dosažení. Nejedná se o maximální délku kontextu modelu. Claude 3.7 Sonnet nemá takové výchozí nastavení.
Nárazová kapacita a vyhlazování	Nárazová vyrovnávací paměť: Omezovač rychlosti zahrnuje malou vyrovnávací paměť pro přizpůsobení krátkým nárůstům provozu nad nominální rychlostí. Posuvné okno: Spotřeba tokenů se sleduje pomocí algoritmu posuvného okna, který poskytuje plynulejší omezování rychlosti než pevné hranice za minutu. Algoritmus kontejneru tokenů: Databricks používá implementaci kontejneru tokenů, která umožňuje určité nárazové kapacitě při zachování průměrného limitu rychlosti v průběhu času.

Počítání vstupních tokenů: Vstupní tokeny se počítají z vaší skutečné výzvy v době požadavku.
Odhad výstupního tokenu: Pokud v požadavku zadáte max_tokens , Databricks tuto hodnotu použije k odhadu a rezervaci kapacity výstupního tokenu před přijetím požadavku ke zpracování.
Ověření předběžného přístupu: Databricks před zahájením zpracování zkontroluje, jestli vaše žádost překročí limity ITPM nebo OTPM. Pokud max_tokens by došlo k překročení limitů OTPM, Databricks žádost okamžitě odmítne s chybou 429.
Skutečný a odhadovaný výstup: Po vygenerování odpovědi se počítají skutečné výstupní tokeny. Důležité je, že pokud je skutečné využití tokenu menší než rezervované max_tokens, Databricks kredituje rozdíl zpět k vašemu limitu sazby, aby tyto tokeny byly okamžitě k dispozici pro jiné žádosti.
Není zadán žádný max_tokens: Pokud nezadátemax_tokens, Databricks použije výchozí rezervaci a skutečný počet tokenů se odsouhlasí po generování. Poznámka: Claude Sonnet 4 konkrétně ve výchozím nastavení používá 1 000 výstupních tokenů, pokud max_tokens není nastaven, a vrací důvod dokončení "délka" při dosažení. Nejedná se o maximální délku kontextu modelu. Claude 3.7 Sonnet nemá takové výchozí nastavení.

Nárazová kapacita a vyhlazování

Nárazová vyrovnávací paměť: Omezovač rychlosti zahrnuje malou vyrovnávací paměť pro přizpůsobení krátkým nárůstům provozu nad nominální rychlostí.
Posuvné okno: Spotřeba tokenů se sleduje pomocí algoritmu posuvného okna, který poskytuje plynulejší omezování rychlosti než pevné hranice za minutu.
Algoritmus kontejneru tokenů: Databricks používá implementaci kontejneru tokenů, která umožňuje určité nárazové kapacitě při zachování průměrného limitu rychlosti v průběhu času.

Následuje příklad toho, jak funguje kontrola předběžného přístupu a chování při vrácení úvěru.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Omezení rychlosti podle modelu

Následující tabulky shrnují omezení sazby ITPM, OTPM a QPH pro koncové body rozhraní API modelu pro platby za token pro pracovní prostory na úrovni Enterprise:

Poznámka:

Od 15. února 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.

Velké jazykové modely	Limit ITPM	Limit jednorázového hesla	Omezení QPH	Poznámky
Qwen3-Next 80B A3B Instrukce (Beta verze)	200 000	10,000		Llm pro obecné účely
Operační systém GPT 120B	200 000	10,000		Llm pro obecné účely
Operační systém GPT 20B	200 000	10,000		Menší varianta GPT
Gemma 3 12B	200 000	10,000	7,200	Model Gemma od Googlu
Llama 4 Maverick	200 000	10,000	2,400	Nejnovější verze Llama
Llama 3.3 70B – Instrukce	200 000	10,000	2,400	Model Llama střední velikosti
Llama 3.1 8B – pokyn	200 000	10,000	7,200	Jednoduchý model Llama
Llama 3.1 405B: Instrukce	5 000	500	1 200	Největší model Llama – snížené limity z důvodu velikosti

Modely Anthropic Claude	Limit ITPM	Limit jednorázového hesla	Poznámky
Claude 3.7 Sonet	50 000	5 000	Vyvážený model Clauda
Claude Sonnet 4	50 000	5 000
Claude Opus 4.1	50 000	5 000
Claude Opus 4.5	200 000	20,000	Nejnovější verze Opus
Claude Sonet 4.5	50 000	5 000	Nejnovější verze Sonnetu
Claude Haiku 4.5	50 000	5 000	Nejnovější verze Haiku

Vkládání modelů	Limit ITPM	Limit jednorázového hesla	Omezení QPH	Poznámky
Gte Large (En)	N/A	N/A	540,000	Model vkládání textu – negeneruje normalizované vkládání
BGE Large (En)	N/A	N/A	2,160,000	Model vkládání textu

Osvědčené postupy pro správu limitů rychlosti TPM

Krok 1. Monitorování využití tokenů

Sledujte počty vstupních i výstupních tokenů samostatně ve vašich aplikacích:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Krok 2. Implementace logiky opakování

Pokud dojde k chybám omezení rychlosti, přidejte exponenciální zpoždnění:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Krok 3. Optimalizace využití tokenů

Minimalizovat délku výzvy: Používejte stručné a dobře strukturované výzvy.
Délka výstupu ovládacího prvku: Omezení velikosti odpovědi pomocí max_tokens parametru
Nastavte max_tokens explicitně pro Claude Sonnet 4: Při použití Clauda Sonnetu 4 vždy zadejte max_tokens , abyste se vyhnuli výchozímu limitu 1 000 tokenů.
Batch efektivně: Seskupování souvisejících požadavků, pokud je to možné při zachování limitů

Krok 4. Zvážení výběru modelu

Menší modely pro úlohy s velkým objemem: Pro úlohy, které vyžadují vyšší propustnost, použijte modely, jako je Llama 3.1 8B.
Velké modely pro složité úlohy: Vyhraďte si Llama 3.1 405B pro úkoly, které vyžadují maximální schopnost

Monitorování a řešení potíží

Monitorování vzorů využití tokenů za účelem optimalizace výkonu:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Zpracování chyb omezení rychlosti

Když překročíte limity rychlosti, rozhraní API vrátí 429 Too Many Requests chybu:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Odpověď na chybu zahrnuje:

limit_type: Jaký konkrétní limit byl překročen (ITPM, OTPM, QPS nebo QPH)
limit: Nakonfigurovaná hodnota limitu
current: Vaše aktuální využití
retry_after: Navrhovaná doba čekání v sekundách

Běžné problémy a řešení

Problém	Solution
Časté chyby 429	Implementace exponenciálního zpochybnění, snížení rychlosti požadavků a vyšších limitů rychlosti požadavků
Dosažení limitu ITPM	Optimalizace délky výzvy
Dosažení limitu jednorázového hesla	Slouží `max_tokens` k omezení délky odpovědi.
Dosažení limitu QPH	Rovnoměrnější distribuce požadavků v průběhu času

Limity zřízené propustnosti

Pro produkční úlohy, které vyžadují vyšší limity, nabízejí zřízené koncové body propustnosti:

Žádná omezení TPM: Zpracování kapacity na základě zřízených prostředků
Vyšší omezení rychlosti: Až 200 dotazů za sekundu za pracovní prostor
Předvídatelný výkon: Vyhrazené prostředky zajišťují konzistentní latenci

Limity výstupních tokenů

Poznámka:

Od 15. května 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.

Následující tabulka shrnuje limity výstupních tokenů pro jednotlivé podporované modely:

Model	Limit výstupního tokenu
Operační systém GPT 120B	25,000
Operační systém GPT 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Další limity

Pro úlohy zřízené propustnosti platí následující omezení:

Pokud chcete nasadit model Meta Llama z system.ai katalogu Unity, musíte zvolit příslušnou verzi s pokyny . Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz Nasazení koncových bodů zřízené propustnosti.
Pro úlohy zřízené propustnosti, které používají Llama 4 Maverick:
- Podpora tohoto modelu u úloh zřízené propustnosti je ve verzi Public Preview.
- Automatické škálování se nepodporuje.
- Panely metrik se nepodporují.
- Rozdělení provozu není podporováno v koncovém bodu, který obsluhuje Llama 4 Maverick. Na koncovém bodu, který obsluhuje Llama 4 Maverick, nemůžete obsluhovat více modelů.

Regionální dostupnost a zpracování dat

Dostupnost oblasti základního modelu hostované službou Databricks najdete v tématu Přehled základního modelu.

Podrobnosti o zpracování a rezidenci dat najdete v tématu Zpracování a rezidence dat.

Dodatečné zdroje

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-01-07