Sdílet prostřednictvím


Omezení a kvóty rozhraní API základního modelu

Tato stránka popisuje limity a kvóty pro úlohy rozhraní API modelu Databricks Foundation.

Rozhraní API modelu Databricks Foundation vynucují omezení rychlosti, aby se zajistil spolehlivý výkon a spravedlivé přidělování prostředků napříč všemi uživateli. Tato omezení se liší v závislosti na úrovni platformy pracovního prostoru, typu základního modelu a způsobu nasazení základního modelu.

Limity sazby koncového bodu pro platby za token

Koncové body s průběžnými platbami se řídí limity rychlosti založené na tokenech a dotazech. Limity rychlosti založené na tokenech řídí maximální počet tokenů, které je možné zpracovat za minutu a které se vynucují samostatně pro vstupní a výstupní tokeny.

  • Vstupní tokeny za minutu (ITPM):: Maximální počet vstupních tokenů (z výzev), které je možné zpracovat v 60sekundovém okně. Limit rychlosti ITPM řídí propustnost vstupního tokenu koncového bodu.
  • Výstupní tokeny za minutu (OTPM): Maximální počet výstupních tokenů (z odpovědí modelu), které je možné vygenerovat během 60sekundového okna. Limit rychlosti jednorázového hesla řídí propustnost výstupního tokenu koncového bodu.
  • Dotazy za hodinu: Maximální počet dotazů nebo požadavků, které je možné zpracovat během 60 minut. Pro produkční aplikace se vzory udržitelného využití doporučuje Databricks zřídit koncové body propustnosti, které poskytují zaručenou kapacitu.

Jak se sledují a vynucují limity

Nejvíce omezující limit rychlosti (ITPM, OTPM, QPH) platí v daném okamžiku. I když jste například nedosáhli limitu ITPM, stále platí omezení rychlosti, pokud překročíte limit QPH nebo OTPM. Po dosažení limitu ITPM nebo OTPM se následným požadavkům zobrazí chyba 429, která značí, že bylo přijato příliš mnoho požadavků. Tato zpráva přetrvává, dokud se okno limitu četnosti nena resetuje.

Databricks sleduje a vynucuje limity rychlosti tokenů za minutu (TPM) s využitím následujících funkcí:

Vlastnost Podrobnosti
Monitorování účtů tokenů a předběžné kontroly přístupu
  • Počítání vstupních tokenů: Vstupní tokeny se počítají z vaší skutečné výzvy v době požadavku.
  • Odhad výstupního tokenu: Pokud v požadavku zadáte max_tokens , Databricks tuto hodnotu použije k odhadu a rezervaci kapacity výstupního tokenu před přijetím požadavku ke zpracování.
  • Ověření předběžného přístupu: Databricks před zahájením zpracování zkontroluje, jestli vaše žádost překročí limity ITPM nebo OTPM. Pokud max_tokens by došlo k překročení limitů OTPM, Databricks žádost okamžitě odmítne s chybou 429.
  • Skutečný a odhadovaný výstup: Po vygenerování odpovědi se počítají skutečné výstupní tokeny. Důležité je, že pokud je skutečné využití tokenu menší než rezervované max_tokens, Databricks kredituje rozdíl zpět k vašemu limitu sazby, aby tyto tokeny byly okamžitě k dispozici pro jiné žádosti.
  • Není zadán žádný max_tokens: Pokud nezadátemax_tokens, Databricks použije výchozí rezervaci a skutečný počet tokenů se odsouhlasí po generování. Poznámka: Claude Sonnet 4 konkrétně ve výchozím nastavení používá 1 000 výstupních tokenů, pokud max_tokens není nastaven, a vrací důvod dokončení "délka" při dosažení. Nejedná se o maximální délku kontextu modelu. Claude 3.7 Sonnet nemá takové výchozí nastavení.
Nárazová kapacita a vyhlazování
  • Nárazová vyrovnávací paměť: Omezovač rychlosti zahrnuje malou vyrovnávací paměť pro přizpůsobení krátkým nárůstům provozu nad nominální rychlostí.
  • Posuvné okno: Spotřeba tokenů se sleduje pomocí algoritmu posuvného okna, který poskytuje plynulejší omezování rychlosti než pevné hranice za minutu.
  • Algoritmus kontejneru tokenů: Databricks používá implementaci kontejneru tokenů, která umožňuje určité nárazové kapacitě při zachování průměrného limitu rychlosti v průběhu času.

Následuje příklad toho, jak funguje kontrola předběžného přístupu a chování při vrácení úvěru.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Omezení rychlosti podle modelu

Následující tabulky shrnují omezení sazby ITPM, OTPM a QPH pro koncové body rozhraní API modelu pro platby za token pro pracovní prostory na úrovni Enterprise:

Poznámka:

Od 15. února 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.

Velké jazykové modely Limit ITPM Limit jednorázového hesla Omezení QPH Poznámky
Qwen3-Next 80B A3B Instrukce (Beta verze) 200 000 10,000 Llm pro obecné účely
Operační systém GPT 120B 200 000 10,000 Llm pro obecné účely
Operační systém GPT 20B 200 000 10,000 Menší varianta GPT
Gemma 3 12B 200 000 10,000 7,200 Model Gemma od Googlu
Llama 4 Maverick 200 000 10,000 2,400 Nejnovější verze Llama
Llama 3.3 70B – Instrukce 200 000 10,000 2,400 Model Llama střední velikosti
Llama 3.1 8B – pokyn 200 000 10,000 7,200 Jednoduchý model Llama
Llama 3.1 405B: Instrukce 5 000 500 1 200
  • Největší model Llama – snížené limity z důvodu velikosti
Modely Anthropic Claude Limit ITPM Limit jednorázového hesla Poznámky
Claude 3.7 Sonet 50 000 5 000 Vyvážený model Clauda
Claude Sonnet 4 50 000 5 000
Claude Opus 4.1 50 000 5 000
Claude Opus 4.5 200 000 20,000 Nejnovější verze Opus
Claude Sonet 4.5 50 000 5 000 Nejnovější verze Sonnetu
Claude Haiku 4.5 50 000 5 000 Nejnovější verze Haiku
Vkládání modelů Limit ITPM Limit jednorázového hesla Omezení QPH Poznámky
Gte Large (En) N/A N/A 540,000 Model vkládání textu – negeneruje normalizované vkládání
BGE Large (En) N/A N/A 2,160,000 Model vkládání textu

Osvědčené postupy pro správu limitů rychlosti TPM

Krok 1. Monitorování využití tokenů

Sledujte počty vstupních i výstupních tokenů samostatně ve vašich aplikacích:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Krok 2. Implementace logiky opakování

Pokud dojde k chybám omezení rychlosti, přidejte exponenciální zpoždnění:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Krok 3. Optimalizace využití tokenů

  • Minimalizovat délku výzvy: Používejte stručné a dobře strukturované výzvy.
  • Délka výstupu ovládacího prvku: Omezení velikosti odpovědi pomocí max_tokens parametru
  • Nastavte max_tokens explicitně pro Claude Sonnet 4: Při použití Clauda Sonnetu 4 vždy zadejte max_tokens , abyste se vyhnuli výchozímu limitu 1 000 tokenů.
  • Batch efektivně: Seskupování souvisejících požadavků, pokud je to možné při zachování limitů

Krok 4. Zvážení výběru modelu

  • Menší modely pro úlohy s velkým objemem: Pro úlohy, které vyžadují vyšší propustnost, použijte modely, jako je Llama 3.1 8B.
  • Velké modely pro složité úlohy: Vyhraďte si Llama 3.1 405B pro úkoly, které vyžadují maximální schopnost

Monitorování a řešení potíží

Monitorování vzorů využití tokenů za účelem optimalizace výkonu:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Zpracování chyb omezení rychlosti

Když překročíte limity rychlosti, rozhraní API vrátí 429 Too Many Requests chybu:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Odpověď na chybu zahrnuje:

  • limit_type: Jaký konkrétní limit byl překročen (ITPM, OTPM, QPS nebo QPH)
  • limit: Nakonfigurovaná hodnota limitu
  • current: Vaše aktuální využití
  • retry_after: Navrhovaná doba čekání v sekundách

Běžné problémy a řešení

Problém Solution
Časté chyby 429 Implementace exponenciálního zpochybnění, snížení rychlosti požadavků a vyšších limitů rychlosti požadavků
Dosažení limitu ITPM Optimalizace délky výzvy
Dosažení limitu jednorázového hesla Slouží max_tokens k omezení délky odpovědi.
Dosažení limitu QPH Rovnoměrnější distribuce požadavků v průběhu času

Limity zřízené propustnosti

Pro produkční úlohy, které vyžadují vyšší limity, nabízejí zřízené koncové body propustnosti:

  • Žádná omezení TPM: Zpracování kapacity na základě zřízených prostředků
  • Vyšší omezení rychlosti: Až 200 dotazů za sekundu za pracovní prostor
  • Předvídatelný výkon: Vyhrazené prostředky zajišťují konzistentní latenci

Limity výstupních tokenů

Poznámka:

Od 15. května 2026 bude meta-llama-3.1-405B-Instruct vyřazena. Informace o tom, jak migrovat během vyřazení, najdete v části Vyřazené modely s doporučeným náhradním modelem a pokyny k migraci.

Následující tabulka shrnuje limity výstupních tokenů pro jednotlivé podporované modely:

Model Limit výstupního tokenu
Operační systém GPT 120B 25,000
Operační systém GPT 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4,096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Další limity

Pro úlohy zřízené propustnosti platí následující omezení:

  • Pokud chcete nasadit model Meta Llama z system.ai katalogu Unity, musíte zvolit příslušnou verzi s pokyny . Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz Nasazení koncových bodů zřízené propustnosti.
  • Pro úlohy zřízené propustnosti, které používají Llama 4 Maverick:
    • Podpora tohoto modelu u úloh zřízené propustnosti je ve verzi Public Preview.
    • Automatické škálování se nepodporuje.
    • Panely metrik se nepodporují.
    • Rozdělení provozu není podporováno v koncovém bodu, který obsluhuje Llama 4 Maverick. Na koncovém bodu, který obsluhuje Llama 4 Maverick, nemůžete obsluhovat více modelů.

Regionální dostupnost a zpracování dat

Dostupnost oblasti základního modelu hostované službou Databricks najdete v tématu Přehled základního modelu.

Podrobnosti o zpracování a rezidenci dat najdete v tématu Zpracování a rezidence dat.

Dodatečné zdroje