Udostępnij za pośrednictwem


Limity i przydziały API modelu fundamentowego

Na tej stronie opisano limity i kwoty przydziału dla obciążeń interfejsów API modelu usługi Databricks Foundation.

Interfejsy API modelu usługi Databricks Foundation wymuszają limity szybkości w celu zapewnienia niezawodnej wydajności i sprawiedliwej alokacji zasobów dla wszystkich użytkowników. Te limity różnią się w zależności od warstwy platformy obszaru roboczego, typu modelu podstawowego i sposobu wdrażania modelu podstawowego.

Limity stawek punktów końcowych z płatnością za token

Punkty końcowe płatności za token podlegają limitom szybkości opartym na tokenach i zapytaniach. Limity szybkości oparte na tokenach kontrolują maksymalną liczbę tokenów, które mogą być przetwarzane na minutę i są wymuszane oddzielnie dla tokenów wejściowych i wyjściowych.

  • Tokeny wejściowe na minutę (ITPM): maksymalna liczba tokenów wejściowych (z monitów), które mogą być przetwarzane w 60-sekundowym oknie. Limit szybkości itpm kontroluje przepływność tokenu wejściowego punktu końcowego.
  • Tokeny wyjściowe na minutę (OTPM): maksymalna liczba tokenów wyjściowych (z odpowiedzi modelu), które można wygenerować w 60-sekundowym oknie. Limit szybkości OTPM kontroluje przepływność tokenu wyjściowego punktu końcowego.
  • Zapytania na godzinę: maksymalna liczba zapytań lub żądań, które można przetworzyć w ciągu 60 minut. W przypadku aplikacji produkcyjnych ze stałymi wzorcami użycia, Databricks zaleca korzystanie z punktów końcowych o aprowizowanej przepustowości, które zapewniają gwarantowaną pojemność.

Jak są śledzone i wymuszane limity

Najbardziej restrykcyjny limit szybkości (ITPM, OTPM, QPH) ma zastosowanie w danym momencie. Na przykład, nawet jeśli nie osiągnąłeś limitu ITPM, możesz być ograniczony limitem prędkości, jeśli przekroczysz limit QPH lub OTPM. Po osiągnięciu limitu ITPM lub OTPM kolejne żądania otrzymają błąd 429, który wskazuje, że odebrano zbyt wiele żądań. Ten komunikat będzie się powtarzać do momentu zresetowania okna limitu szybkości.

Usługa Databricks śledzi i wymusza limity szybkości tokenów na minutę (TPM), korzystając z następujących funkcji:

Funkcja Szczegóły
Ewidencja tokenów i kontrole wstępne
  • Zliczanie tokenów wejściowych: tokeny wejściowe są zliczane na podstawie rzeczywistego zapytania w momencie żądania.
  • Szacowanie tokenu wyjściowego: jeśli podasz max_tokens w żądaniu, usługa Databricks użyje tej wartości do oszacowania i zarezerwowania pojemności tokenu wyjściowego , zanim żądanie zostanie przyjęte do przetwarzania.
  • Walidacja przed przyjęciem: usługa Databricks sprawdza, czy żądanie przekroczy limity ITPM lub OTPM przed rozpoczęciem przetwarzania. Jeśli max_tokens spowodowałoby przekroczenie limitów OTPM, usługa Databricks natychmiast odrzuci żądanie z błędem 429.
  • Rzeczywiste a szacowane dane wyjściowe: po wygenerowaniu odpowiedzi rzeczywiste tokeny wyjściowe są liczone. Co ważne, jeśli rzeczywiste użycie tokenu jest mniejsze niż zarezerwowane max_tokens, usługa Databricks uznaje różnicę na poczet limitu przydziału, dzięki czemu te tokeny są natychmiast dostępne dla innych żądań.
  • Nie określono max_tokens: jeśli nie określisz max_tokenswartości, usługa Databricks używa domyślnej rezerwacji, a rzeczywista liczba tokenów zostanie zbilansowana po wygenerowaniu. Uwaga: Claude Sonnet 4 domyślnie ma 1000 tokenów wyjściowych, gdy max_tokens nie jest ustawione, zwracając powód zakończenia "długość" po osiągnięciu. Nie jest to maksymalna długość kontekstu modelu. Claude 3.7 Sonnet nie ma takiego ustawienia domyślnego.
Pojemność szczytowa i wygładzanie
  • Bufor wybuchowy: Ogranicznik szybkości zawiera mały bufor, aby pomieścić krótkie wybuchy ruchu powyżej nominalnej stawki.
  • Przesuwane okno: Użycie tokenów jest śledzone przy użyciu algorytmu przesuwanego okna, który zapewnia bardziej płynne ograniczanie szybkości niż twarde granice na minutę.
  • Algorytm kubełkowy: Usługa Databricks korzysta z implementacji algorytmu kubełkowego, która umożliwia zdolność do gwałtownego wzrostu, przy jednoczesnym zachowaniu średniego limitu szybkości w dłuższym okresie czasu.

Poniżej przedstawiono przykład działania sprawdzania przed przyjęciem i zachowania zwrotu środków.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limity szybkości według modelu

W poniższych tabelach podsumowano limity stawek ITPM, OTPM i QPH interfejsu API modelu platformy pay-per-token dla obszarów roboczych warstwy Enterprise:

Uwaga / Notatka

Od 15 lutego 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofane. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.

Duże modele językowe Limit itpm Limit OTPM Limit QPH Notatki
Gemini 3.1 Flash Lite 200,000 20,000 360 000
Qwen3-Next 80B A3B Instruowanie (beta) 200,000 10,000 Model LLM ogólnego zastosowania
GPT OSS 120B 200,000 10,000 Model LLM ogólnego zastosowania
GPT OSS 20B 200,000 10,000 Mniejszy wariant GPT
Gemma 3 12B 200,000 10,000 7 200 Model Gemma firmy Google
Llama 4 Maverick 200,000 10,000 2,400 Najnowsza wersja Llama
Llama 3.3 70B Instrukcja 200,000 10,000 2,400 Model Llama średniej wielkości
Llama 3.1 8B Poinstruuj 200,000 10,000 7 200 Lekki model Llama
Llama 3.1 405B Instrukcja 5,000 500 1,200
  • Największy model Llama — zmniejszone limity ze względu na rozmiar
Modele antropotyczne Claude'a Limit itpm Limit OTPM Notatki
Claude 3.7 Sonet 50,000 5,000 Model Zrównoważonego Claude'a
Claude Sonet 4 50,000 5,000
Claude Opus 4.1 50,000 5,000
Claude Opus 4.6 200,000 20,000 Najnowsza wersja Firmy Opus
Claude Opus 4.5 200,000 20,000
Sonet Claude'a 4.6 200,000 20,000 Najnowsza wersja Sonnet
Claude Sonnet 4.5 50,000 5,000
Claude Haiku 4.5 50,000 5,000 Najnowsza wersja Haiku
Osadzanie modeli Limit itpm Limit OTPM Limit QPH Notatki
Qwen3-Embedding-0.6B N/A N/A 2,160,000 Kompaktowy model osadzania tekstu wielojęzycznego
GTE Duży (En) N/A N/A 540 000 Model osadzania tekstu — nie generuje znormalizowanych osadzeń
Large BGE (en) N/A N/A 2,160,000 Model osadzania tekstu

Zarządzanie limitami szybkości modułu TPM — najlepsze rozwiązania

Krok 1. Monitorowanie użycia tokenu

Śledź zarówno liczbę tokenów wejściowych, jak i wyjściowych oddzielnie w aplikacjach:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Krok 2. Implementowanie logiki ponawiania prób

Dodaj wycofywanie wykładnicze, gdy wystąpią błędy limitu szybkości:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Krok 3. Optymalizowanie użycia tokenu

  • Minimalizuj długość monitu: używaj zwięzłych, dobrze ustrukturyzowanych monitów
  • Długość danych wyjściowych kontrolki: użyj max_tokens parametru, aby ograniczyć rozmiar odpowiedzi
  • Ustaw jawnie max_tokens dla Claude'a Sonnet 4: zawsze określaj max_tokens , kiedy używasz claude'a Sonnet 4, aby uniknąć domyślnego limitu tokenu 1000
  • Efektywne wsadowe przetwarzanie: Grupuj powiązane żądania, jeśli to możliwe, nie przekraczając limitów

Krok 4. Rozważ wybór modelu

  • Mniejsze modele dla zadań o dużej ilości: używaj modeli takich jak Llama 3.1 8B dla zadań wymagających wyższej przepływności
  • Duże modele dla złożonych zadań: Zarezerwuj Llama 3.1 405B dla zadań wymagających maksymalnej wydajności

Monitorowanie i rozwiązywanie problemów

Monitoruj wzorce użycia tokenów, aby zoptymalizować wydajność:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Obsługa błędów limitu szybkości

Po przekroczeniu limitów częstotliwości interfejs API zwraca błąd 429 Too Many Requests:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Odpowiedź na błąd obejmuje:

  • limit_type: Który określony limit został przekroczony (ITPM, OTPM, QPS lub QPH)
  • limit: skonfigurowana wartość limitu
  • current: Bieżące użycie
  • retry_after: Sugerowany czas oczekiwania w sekundach

Typowe problemy i rozwiązania

Problematyka Rozwiązanie
Częste błędy 429 Zastosuj wykładnicze opóźnienia, zmniejsz szybkość żądań i występuj o wyższe limity zapytań.
Osiągnięto limit tego ITPM Optymalizowanie długości monitu
Osiągnięto limit OTPM Użyj max_tokens polecenia , aby ograniczyć długość odpowiedzi
Osiągnięto limit QPH Równomierne dystrybuowanie żądań w czasie

Aprowizowane limity przepływności

W przypadku obciążeń produkcyjnych, które wymagają wyższych limitów, punkty końcowe z zarezerwowaną przepustowością oferują:

  • Brak ograniczeń modułu TPM: Pojemność przetwarzania na podstawie zaaprowizowanych zasobów
  • Wyższe limity szybkości: maksymalnie 200 zapytań na sekundę na obszar roboczy
  • Przewidywalna wydajność: Zasoby dedykowane zapewniają spójne opóźnienie

Limity tokenów wyjściowych

Uwaga / Notatka

Od 15 maja 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofany. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.

W poniższej tabeli podsumowano limity tokenów wyjściowych dla każdego obsługiwanego modelu:

Model Limit tokenu wyjściowego
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4,096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Dodatkowe limity

Poniżej przedstawiono ograniczenia dotyczące obciążeń związanych z przydzieloną przepływnością:

  • Aby wdrożyć model Meta Llama z system.ai Unity Catalog, należy wybrać odpowiednią wersję Instruct. Podstawowe wersje modeli Meta Llama nie są obsługiwane do wdrażania z Unity Catalog. Zobacz Wdrażanie przydzielonych punktów końcowych przepustowości.
  • W przypadku obciążeń aprowizowanej przepływności korzystających z Llama 4 Maverick:
    • Obsługa tego modelu w przypadku obciążeń zarezerwowanej przepustowości jest dostępna w publicznej wersji zapoznawczej.
    • Skalowanie automatyczne nie jest obsługiwane.
    • Panele metryk nie są obsługiwane.
    • Dzielenie ruchu nie jest obsługiwane w punkcie końcowym, który obsługuje Llama 4 Maverick. Nie można obsługiwać wielu modeli na punkcie końcowym, który obsługuje Llama 4 Maverick.

Dostępność regionalna i przetwarzanie danych

Aby uzyskać informacje o dostępności regionu modelu podstawowego hostowanego w usłudze Databricks, zobacz Omówienie modelu foundation.

Aby uzyskać szczegółowe informacje na temat przetwarzania i rezydencji danych, zobacz Przetwarzanie i rezydencja danych.

Limity zasobów i ładunków dla modeli podstawowych i modeli zewnętrznych

W poniższych tabelach podsumowano limity zasobów i ładunków dla punktów końcowych obsługujących modele podstawowe i modele zewnętrzne.

Funkcja Granularność Limit
Rozmiar ładunku Na żądanie 4 MB
Rozmiar żądania/odpowiedzi Na żądanie Żadne żądanie/odpowiedź w ciągu 1 MB nie zostaną zarejestrowane.
Zapytania na sekundę (QPS) Na obszar roboczy 200
Czas trwania wykonywania modelu Na żądanie 297 sekund
Opóźnienie związane z obciążeniem Na żądanie Mniej niż 50 milisekund

Dodatkowe zasoby