Limity i przydziały API modelu fundamentowego

Na tej stronie opisano limity i kwoty przydziału dla obciążeń interfejsów API modelu usługi Databricks Foundation.

Interfejsy API modelu usługi Databricks Foundation wymuszają limity szybkości w celu zapewnienia niezawodnej wydajności i sprawiedliwej alokacji zasobów dla wszystkich użytkowników. Te limity różnią się w zależności od warstwy platformy obszaru roboczego, typu modelu podstawowego i sposobu wdrażania modelu podstawowego.

Limity stawek punktów końcowych z płatnością za token

Punkty końcowe płatności za token podlegają limitom szybkości opartym na tokenach i zapytaniach. Limity szybkości oparte na tokenach kontrolują maksymalną liczbę tokenów, które mogą być przetwarzane na minutę i są wymuszane oddzielnie dla tokenów wejściowych i wyjściowych.

Tokeny wejściowe na minutę (ITPM): maksymalna liczba tokenów wejściowych (z monitów), które mogą być przetwarzane w 60-sekundowym oknie. Limit szybkości itpm kontroluje przepływność tokenu wejściowego punktu końcowego.
Tokeny wyjściowe na minutę (OTPM): maksymalna liczba tokenów wyjściowych (z odpowiedzi modelu), które można wygenerować w 60-sekundowym oknie. Limit szybkości OTPM kontroluje przepływność tokenu wyjściowego punktu końcowego.
Zapytania na godzinę: maksymalna liczba zapytań lub żądań, które można przetworzyć w ciągu 60 minut. W przypadku aplikacji produkcyjnych ze stałymi wzorcami użycia, Databricks zaleca korzystanie z punktów końcowych o aprowizowanej przepustowości, które zapewniają gwarantowaną pojemność.

Jak są śledzone i wymuszane limity

Najbardziej restrykcyjny limit szybkości (ITPM, OTPM, QPH) ma zastosowanie w danym momencie. Na przykład, nawet jeśli nie osiągnąłeś limitu ITPM, możesz być ograniczony limitem prędkości, jeśli przekroczysz limit QPH lub OTPM. Po osiągnięciu limitu ITPM lub OTPM kolejne żądania otrzymają błąd 429, który wskazuje, że odebrano zbyt wiele żądań. Ten komunikat będzie się powtarzać do momentu zresetowania okna limitu szybkości.

Usługa Databricks śledzi i wymusza limity szybkości tokenów na minutę (TPM), korzystając z następujących funkcji:

Funkcja Szczegóły

Ewidencja tokenów i kontrole wstępne

Funkcja	Szczegóły
Ewidencja tokenów i kontrole wstępne	Zliczanie tokenów wejściowych: tokeny wejściowe są zliczane na podstawie rzeczywistego zapytania w momencie żądania. Szacowanie tokenu wyjściowego: jeśli podasz `max_tokens` w żądaniu, usługa Databricks użyje tej wartości do oszacowania i zarezerwowania pojemności tokenu wyjściowego , zanim żądanie zostanie przyjęte do przetwarzania. Walidacja przed przyjęciem: usługa Databricks sprawdza, czy żądanie przekroczy limity ITPM lub OTPM przed rozpoczęciem przetwarzania. Jeśli `max_tokens` spowodowałoby przekroczenie limitów OTPM, usługa Databricks natychmiast odrzuci żądanie z błędem 429. Rzeczywiste a szacowane dane wyjściowe: po wygenerowaniu odpowiedzi rzeczywiste tokeny wyjściowe są liczone. Co ważne, jeśli rzeczywiste użycie tokenu jest mniejsze niż zarezerwowane `max_tokens`, usługa Databricks uznaje różnicę na poczet limitu przydziału, dzięki czemu te tokeny są natychmiast dostępne dla innych żądań. Nie określono max_tokens: jeśli nie określisz `max_tokens`wartości, usługa Databricks używa domyślnej rezerwacji, a rzeczywista liczba tokenów zostanie zbilansowana po wygenerowaniu. Uwaga: Claude Sonnet 4 domyślnie ma 1000 tokenów wyjściowych, gdy `max_tokens` nie jest ustawione, zwracając powód zakończenia "długość" po osiągnięciu. Nie jest to maksymalna długość kontekstu modelu. Claude 3.7 Sonnet nie ma takiego ustawienia domyślnego.
Pojemność szczytowa i wygładzanie	Bufor wybuchowy: Ogranicznik szybkości zawiera mały bufor, aby pomieścić krótkie wybuchy ruchu powyżej nominalnej stawki. Przesuwane okno: Użycie tokenów jest śledzone przy użyciu algorytmu przesuwanego okna, który zapewnia bardziej płynne ograniczanie szybkości niż twarde granice na minutę. Algorytm kubełkowy: Usługa Databricks korzysta z implementacji algorytmu kubełkowego, która umożliwia zdolność do gwałtownego wzrostu, przy jednoczesnym zachowaniu średniego limitu szybkości w dłuższym okresie czasu.

Zliczanie tokenów wejściowych: tokeny wejściowe są zliczane na podstawie rzeczywistego zapytania w momencie żądania.
Szacowanie tokenu wyjściowego: jeśli podasz max_tokens w żądaniu, usługa Databricks użyje tej wartości do oszacowania i zarezerwowania pojemności tokenu wyjściowego , zanim żądanie zostanie przyjęte do przetwarzania.
Walidacja przed przyjęciem: usługa Databricks sprawdza, czy żądanie przekroczy limity ITPM lub OTPM przed rozpoczęciem przetwarzania. Jeśli max_tokens spowodowałoby przekroczenie limitów OTPM, usługa Databricks natychmiast odrzuci żądanie z błędem 429.
Rzeczywiste a szacowane dane wyjściowe: po wygenerowaniu odpowiedzi rzeczywiste tokeny wyjściowe są liczone. Co ważne, jeśli rzeczywiste użycie tokenu jest mniejsze niż zarezerwowane max_tokens, usługa Databricks uznaje różnicę na poczet limitu przydziału, dzięki czemu te tokeny są natychmiast dostępne dla innych żądań.
Nie określono max_tokens: jeśli nie określisz max_tokenswartości, usługa Databricks używa domyślnej rezerwacji, a rzeczywista liczba tokenów zostanie zbilansowana po wygenerowaniu. Uwaga: Claude Sonnet 4 domyślnie ma 1000 tokenów wyjściowych, gdy max_tokens nie jest ustawione, zwracając powód zakończenia "długość" po osiągnięciu. Nie jest to maksymalna długość kontekstu modelu. Claude 3.7 Sonnet nie ma takiego ustawienia domyślnego.

Pojemność szczytowa i wygładzanie

Bufor wybuchowy: Ogranicznik szybkości zawiera mały bufor, aby pomieścić krótkie wybuchy ruchu powyżej nominalnej stawki.
Przesuwane okno: Użycie tokenów jest śledzone przy użyciu algorytmu przesuwanego okna, który zapewnia bardziej płynne ograniczanie szybkości niż twarde granice na minutę.
Algorytm kubełkowy: Usługa Databricks korzysta z implementacji algorytmu kubełkowego, która umożliwia zdolność do gwałtownego wzrostu, przy jednoczesnym zachowaniu średniego limitu szybkości w dłuższym okresie czasu.

Poniżej przedstawiono przykład działania sprawdzania przed przyjęciem i zachowania zwrotu środków.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Limity szybkości według modelu

W poniższych tabelach podsumowano limity stawek ITPM, OTPM i QPH interfejsu API modelu platformy pay-per-token dla obszarów roboczych warstwy Enterprise:

Uwaga / Notatka

Od 15 lutego 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofane. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.

Duże modele językowe	Limit itpm	Limit OTPM	Limit QPH	Notatki
Gemini 3.1 Flash Lite	200,000	20,000	360 000
Qwen3-Next 80B A3B Instruowanie (beta)	200,000	10,000		Model LLM ogólnego zastosowania
GPT OSS 120B	200,000	10,000		Model LLM ogólnego zastosowania
GPT OSS 20B	200,000	10,000		Mniejszy wariant GPT
Gemma 3 12B	200,000	10,000	7 200	Model Gemma firmy Google
Llama 4 Maverick	200,000	10,000	2,400	Najnowsza wersja Llama
Llama 3.3 70B Instrukcja	200,000	10,000	2,400	Model Llama średniej wielkości
Llama 3.1 8B Poinstruuj	200,000	10,000	7 200	Lekki model Llama
Llama 3.1 405B Instrukcja	5,000	500	1,200	Największy model Llama — zmniejszone limity ze względu na rozmiar

Modele antropotyczne Claude'a	Limit itpm	Limit OTPM	Notatki
Claude 3.7 Sonet	50,000	5,000	Model Zrównoważonego Claude'a
Claude Sonet 4	50,000	5,000
Claude Opus 4.1	50,000	5,000
Claude Opus 4.6	200,000	20,000	Najnowsza wersja Firmy Opus
Claude Opus 4.5	200,000	20,000
Sonet Claude'a 4.6	200,000	20,000	Najnowsza wersja Sonnet
Claude Sonnet 4.5	50,000	5,000
Claude Haiku 4.5	50,000	5,000	Najnowsza wersja Haiku

Osadzanie modeli	Limit itpm	Limit OTPM	Limit QPH	Notatki
Qwen3-Embedding-0.6B	N/A	N/A	2,160,000	Kompaktowy model osadzania tekstu wielojęzycznego
GTE Duży (En)	N/A	N/A	540 000	Model osadzania tekstu — nie generuje znormalizowanych osadzeń
Large BGE (en)	N/A	N/A	2,160,000	Model osadzania tekstu

Zarządzanie limitami szybkości modułu TPM — najlepsze rozwiązania

Krok 1. Monitorowanie użycia tokenu

Śledź zarówno liczbę tokenów wejściowych, jak i wyjściowych oddzielnie w aplikacjach:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Krok 2. Implementowanie logiki ponawiania prób

Dodaj wycofywanie wykładnicze, gdy wystąpią błędy limitu szybkości:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Krok 3. Optymalizowanie użycia tokenu

Minimalizuj długość monitu: używaj zwięzłych, dobrze ustrukturyzowanych monitów
Długość danych wyjściowych kontrolki: użyj max_tokens parametru, aby ograniczyć rozmiar odpowiedzi
Ustaw jawnie max_tokens dla Claude'a Sonnet 4: zawsze określaj max_tokens , kiedy używasz claude'a Sonnet 4, aby uniknąć domyślnego limitu tokenu 1000
Efektywne wsadowe przetwarzanie: Grupuj powiązane żądania, jeśli to możliwe, nie przekraczając limitów

Krok 4. Rozważ wybór modelu

Mniejsze modele dla zadań o dużej ilości: używaj modeli takich jak Llama 3.1 8B dla zadań wymagających wyższej przepływności
Duże modele dla złożonych zadań: Zarezerwuj Llama 3.1 405B dla zadań wymagających maksymalnej wydajności

Monitorowanie i rozwiązywanie problemów

Monitoruj wzorce użycia tokenów, aby zoptymalizować wydajność:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Obsługa błędów limitu szybkości

Po przekroczeniu limitów częstotliwości interfejs API zwraca błąd 429 Too Many Requests:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Odpowiedź na błąd obejmuje:

limit_type: Który określony limit został przekroczony (ITPM, OTPM, QPS lub QPH)
limit: skonfigurowana wartość limitu
current: Bieżące użycie
retry_after: Sugerowany czas oczekiwania w sekundach

Typowe problemy i rozwiązania

Problematyka	Rozwiązanie
Częste błędy 429	Zastosuj wykładnicze opóźnienia, zmniejsz szybkość żądań i występuj o wyższe limity zapytań.
Osiągnięto limit tego ITPM	Optymalizowanie długości monitu
Osiągnięto limit OTPM	Użyj `max_tokens` polecenia , aby ograniczyć długość odpowiedzi
Osiągnięto limit QPH	Równomierne dystrybuowanie żądań w czasie

Aprowizowane limity przepływności

W przypadku obciążeń produkcyjnych, które wymagają wyższych limitów, punkty końcowe z zarezerwowaną przepustowością oferują:

Brak ograniczeń modułu TPM: Pojemność przetwarzania na podstawie zaaprowizowanych zasobów
Wyższe limity szybkości: maksymalnie 200 zapytań na sekundę na obszar roboczy
Przewidywalna wydajność: Zasoby dedykowane zapewniają spójne opóźnienie

Limity tokenów wyjściowych

Uwaga / Notatka

Od 15 maja 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofany. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.

W poniższej tabeli podsumowano limity tokenów wyjściowych dla każdego obsługiwanego modelu:

Model	Limit tokenu wyjściowego
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Dodatkowe limity

Poniżej przedstawiono ograniczenia dotyczące obciążeń związanych z przydzieloną przepływnością:

Aby wdrożyć model Meta Llama z system.ai Unity Catalog, należy wybrać odpowiednią wersję Instruct. Podstawowe wersje modeli Meta Llama nie są obsługiwane do wdrażania z Unity Catalog. Zobacz Wdrażanie przydzielonych punktów końcowych przepustowości.
W przypadku obciążeń aprowizowanej przepływności korzystających z Llama 4 Maverick:
- Obsługa tego modelu w przypadku obciążeń zarezerwowanej przepustowości jest dostępna w publicznej wersji zapoznawczej.
- Skalowanie automatyczne nie jest obsługiwane.
- Panele metryk nie są obsługiwane.
- Dzielenie ruchu nie jest obsługiwane w punkcie końcowym, który obsługuje Llama 4 Maverick. Nie można obsługiwać wielu modeli na punkcie końcowym, który obsługuje Llama 4 Maverick.

Dostępność regionalna i przetwarzanie danych

Aby uzyskać informacje o dostępności regionu modelu podstawowego hostowanego w usłudze Databricks, zobacz Omówienie modelu foundation.

Aby uzyskać szczegółowe informacje na temat przetwarzania i rezydencji danych, zobacz Przetwarzanie i rezydencja danych.

Limity zasobów i ładunków dla modeli podstawowych i modeli zewnętrznych

W poniższych tabelach podsumowano limity zasobów i ładunków dla punktów końcowych obsługujących modele podstawowe i modele zewnętrzne.

Funkcja	Granularność	Limit
Rozmiar ładunku	Na żądanie	4 MB
Rozmiar żądania/odpowiedzi	Na żądanie	Żadne żądanie/odpowiedź w ciągu 1 MB nie zostaną zarejestrowane.
Zapytania na sekundę (QPS)	Na obszar roboczy	200
Czas trwania wykonywania modelu	Na żądanie	297 sekund
Opóźnienie związane z obciążeniem	Na żądanie	Mniej niż 50 milisekund

Dodatkowe zasoby

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-17

Udostępnij za pośrednictwem

Limity i przydziały API modelu fundamentowego

Limity stawek punktów końcowych z płatnością za token

Jak są śledzone i wymuszane limity

Limity szybkości według modelu

Zarządzanie limitami szybkości modułu TPM — najlepsze rozwiązania

Krok 1. Monitorowanie użycia tokenu

Krok 2. Implementowanie logiki ponawiania prób

Krok 3. Optymalizowanie użycia tokenu

Krok 4. Rozważ wybór modelu

Monitorowanie i rozwiązywanie problemów

Obsługa błędów limitu szybkości

Typowe problemy i rozwiązania

Aprowizowane limity przepływności

Limity tokenów wyjściowych

Dodatkowe limity

Dostępność regionalna i przetwarzanie danych

Limity zasobów i ładunków dla modeli podstawowych i modeli zewnętrznych

Dodatkowe zasoby

Opinia

Dodatkowe zasoby