Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano limity i kwoty przydziału dla obciążeń interfejsów API modelu usługi Databricks Foundation.
Interfejsy API modelu usługi Databricks Foundation wymuszają limity szybkości w celu zapewnienia niezawodnej wydajności i sprawiedliwej alokacji zasobów dla wszystkich użytkowników. Te limity różnią się w zależności od warstwy platformy obszaru roboczego, typu modelu podstawowego i sposobu wdrażania modelu podstawowego.
Limity stawek punktów końcowych z płatnością za token
Punkty końcowe płatności za token podlegają limitom szybkości opartym na tokenach i zapytaniach. Limity szybkości oparte na tokenach kontrolują maksymalną liczbę tokenów, które mogą być przetwarzane na minutę i są wymuszane oddzielnie dla tokenów wejściowych i wyjściowych.
- Tokeny wejściowe na minutę (ITPM): maksymalna liczba tokenów wejściowych (z monitów), które mogą być przetwarzane w 60-sekundowym oknie. Limit szybkości itpm kontroluje przepływność tokenu wejściowego punktu końcowego.
- Tokeny wyjściowe na minutę (OTPM): maksymalna liczba tokenów wyjściowych (z odpowiedzi modelu), które można wygenerować w 60-sekundowym oknie. Limit szybkości OTPM kontroluje przepływność tokenu wyjściowego punktu końcowego.
- Zapytania na godzinę: maksymalna liczba zapytań lub żądań, które można przetworzyć w ciągu 60 minut. W przypadku aplikacji produkcyjnych ze stałymi wzorcami użycia, Databricks zaleca korzystanie z punktów końcowych o aprowizowanej przepustowości, które zapewniają gwarantowaną pojemność.
Jak są śledzone i wymuszane limity
Najbardziej restrykcyjny limit szybkości (ITPM, OTPM, QPH) ma zastosowanie w danym momencie. Na przykład, nawet jeśli nie osiągnąłeś limitu ITPM, możesz być ograniczony limitem prędkości, jeśli przekroczysz limit QPH lub OTPM. Po osiągnięciu limitu ITPM lub OTPM kolejne żądania otrzymają błąd 429, który wskazuje, że odebrano zbyt wiele żądań. Ten komunikat będzie się powtarzać do momentu zresetowania okna limitu szybkości.
Usługa Databricks śledzi i wymusza limity szybkości tokenów na minutę (TPM), korzystając z następujących funkcji:
| Funkcja | Szczegóły |
|---|---|
| Ewidencja tokenów i kontrole wstępne |
|
| Pojemność szczytowa i wygładzanie |
|
Poniżej przedstawiono przykład działania sprawdzania przed przyjęciem i zachowania zwrotu środków.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Limity szybkości według modelu
W poniższych tabelach podsumowano limity stawek ITPM, OTPM i QPH interfejsu API modelu platformy pay-per-token dla obszarów roboczych warstwy Enterprise:
Uwaga / Notatka
Od 15 lutego 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofane. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.
| Duże modele językowe | Limit itpm | Limit OTPM | Limit QPH | Notatki |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite | 200,000 | 20,000 | 360 000 | |
| Qwen3-Next 80B A3B Instruowanie (beta) | 200,000 | 10,000 | Model LLM ogólnego zastosowania | |
| GPT OSS 120B | 200,000 | 10,000 | Model LLM ogólnego zastosowania | |
| GPT OSS 20B | 200,000 | 10,000 | Mniejszy wariant GPT | |
| Gemma 3 12B | 200,000 | 10,000 | 7 200 | Model Gemma firmy Google |
| Llama 4 Maverick | 200,000 | 10,000 | 2,400 | Najnowsza wersja Llama |
| Llama 3.3 70B Instrukcja | 200,000 | 10,000 | 2,400 | Model Llama średniej wielkości |
| Llama 3.1 8B Poinstruuj | 200,000 | 10,000 | 7 200 | Lekki model Llama |
| Llama 3.1 405B Instrukcja | 5,000 | 500 | 1,200 |
|
| Modele antropotyczne Claude'a | Limit itpm | Limit OTPM | Notatki |
|---|---|---|---|
| Claude 3.7 Sonet | 50,000 | 5,000 | Model Zrównoważonego Claude'a |
| Claude Sonet 4 | 50,000 | 5,000 | |
| Claude Opus 4.1 | 50,000 | 5,000 | |
| Claude Opus 4.6 | 200,000 | 20,000 | Najnowsza wersja Firmy Opus |
| Claude Opus 4.5 | 200,000 | 20,000 | |
| Sonet Claude'a 4.6 | 200,000 | 20,000 | Najnowsza wersja Sonnet |
| Claude Sonnet 4.5 | 50,000 | 5,000 | |
| Claude Haiku 4.5 | 50,000 | 5,000 | Najnowsza wersja Haiku |
| Osadzanie modeli | Limit itpm | Limit OTPM | Limit QPH | Notatki |
|---|---|---|---|---|
| Qwen3-Embedding-0.6B | N/A | N/A | 2,160,000 | Kompaktowy model osadzania tekstu wielojęzycznego |
| GTE Duży (En) | N/A | N/A | 540 000 | Model osadzania tekstu — nie generuje znormalizowanych osadzeń |
| Large BGE (en) | N/A | N/A | 2,160,000 | Model osadzania tekstu |
Zarządzanie limitami szybkości modułu TPM — najlepsze rozwiązania
Krok 1. Monitorowanie użycia tokenu
Śledź zarówno liczbę tokenów wejściowych, jak i wyjściowych oddzielnie w aplikacjach:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Krok 2. Implementowanie logiki ponawiania prób
Dodaj wycofywanie wykładnicze, gdy wystąpią błędy limitu szybkości:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Krok 3. Optymalizowanie użycia tokenu
- Minimalizuj długość monitu: używaj zwięzłych, dobrze ustrukturyzowanych monitów
-
Długość danych wyjściowych kontrolki: użyj
max_tokensparametru, aby ograniczyć rozmiar odpowiedzi -
Ustaw jawnie max_tokens dla Claude'a Sonnet 4: zawsze określaj
max_tokens, kiedy używasz claude'a Sonnet 4, aby uniknąć domyślnego limitu tokenu 1000 - Efektywne wsadowe przetwarzanie: Grupuj powiązane żądania, jeśli to możliwe, nie przekraczając limitów
Krok 4. Rozważ wybór modelu
- Mniejsze modele dla zadań o dużej ilości: używaj modeli takich jak Llama 3.1 8B dla zadań wymagających wyższej przepływności
- Duże modele dla złożonych zadań: Zarezerwuj Llama 3.1 405B dla zadań wymagających maksymalnej wydajności
Monitorowanie i rozwiązywanie problemów
Monitoruj wzorce użycia tokenów, aby zoptymalizować wydajność:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Obsługa błędów limitu szybkości
Po przekroczeniu limitów częstotliwości interfejs API zwraca błąd 429 Too Many Requests:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Odpowiedź na błąd obejmuje:
-
limit_type: Który określony limit został przekroczony (ITPM, OTPM, QPS lub QPH) -
limit: skonfigurowana wartość limitu -
current: Bieżące użycie -
retry_after: Sugerowany czas oczekiwania w sekundach
Typowe problemy i rozwiązania
| Problematyka | Rozwiązanie |
|---|---|
| Częste błędy 429 | Zastosuj wykładnicze opóźnienia, zmniejsz szybkość żądań i występuj o wyższe limity zapytań. |
| Osiągnięto limit tego ITPM | Optymalizowanie długości monitu |
| Osiągnięto limit OTPM | Użyj max_tokens polecenia , aby ograniczyć długość odpowiedzi |
| Osiągnięto limit QPH | Równomierne dystrybuowanie żądań w czasie |
Aprowizowane limity przepływności
W przypadku obciążeń produkcyjnych, które wymagają wyższych limitów, punkty końcowe z zarezerwowaną przepustowością oferują:
- Brak ograniczeń modułu TPM: Pojemność przetwarzania na podstawie zaaprowizowanych zasobów
- Wyższe limity szybkości: maksymalnie 200 zapytań na sekundę na obszar roboczy
- Przewidywalna wydajność: Zasoby dedykowane zapewniają spójne opóźnienie
Limity tokenów wyjściowych
Uwaga / Notatka
Od 15 maja 2026 r. Meta-Llama-3.1-405B-Instruct zostanie wycofany. Zobacz Wycofane modele, aby zapoznać się z zalecanym modelem zastępczym i wskazówkami dotyczącymi sposobu migracji w trakcie wycofywania.
W poniższej tabeli podsumowano limity tokenów wyjściowych dla każdego obsługiwanego modelu:
| Model | Limit tokenu wyjściowego |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4,096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Dodatkowe limity
Poniżej przedstawiono ograniczenia dotyczące obciążeń związanych z przydzieloną przepływnością:
- Aby wdrożyć model Meta Llama z
system.aiUnity Catalog, należy wybrać odpowiednią wersję Instruct. Podstawowe wersje modeli Meta Llama nie są obsługiwane do wdrażania z Unity Catalog. Zobacz Wdrażanie przydzielonych punktów końcowych przepustowości. - W przypadku obciążeń aprowizowanej przepływności korzystających z Llama 4 Maverick:
- Obsługa tego modelu w przypadku obciążeń zarezerwowanej przepustowości jest dostępna w publicznej wersji zapoznawczej.
- Skalowanie automatyczne nie jest obsługiwane.
- Panele metryk nie są obsługiwane.
- Dzielenie ruchu nie jest obsługiwane w punkcie końcowym, który obsługuje Llama 4 Maverick. Nie można obsługiwać wielu modeli na punkcie końcowym, który obsługuje Llama 4 Maverick.
Dostępność regionalna i przetwarzanie danych
Aby uzyskać informacje o dostępności regionu modelu podstawowego hostowanego w usłudze Databricks, zobacz Omówienie modelu foundation.
Aby uzyskać szczegółowe informacje na temat przetwarzania i rezydencji danych, zobacz Przetwarzanie i rezydencja danych.
Limity zasobów i ładunków dla modeli podstawowych i modeli zewnętrznych
W poniższych tabelach podsumowano limity zasobów i ładunków dla punktów końcowych obsługujących modele podstawowe i modele zewnętrzne.
| Funkcja | Granularność | Limit |
|---|---|---|
| Rozmiar ładunku | Na żądanie | 4 MB |
| Rozmiar żądania/odpowiedzi | Na żądanie | Żadne żądanie/odpowiedź w ciągu 1 MB nie zostaną zarejestrowane. |
| Zapytania na sekundę (QPS) | Na obszar roboczy | 200 |
| Czas trwania wykonywania modelu | Na żądanie | 297 sekund |
| Opóźnienie związane z obciążeniem | Na żądanie | Mniej niż 50 milisekund |