Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfada Databricks Foundation Model API'leri iş yüklerinin sınırları ve kotaları açıklanmaktadır.
Databricks Foundation Model API'leri, tüm kullanıcılar arasında güvenilir performans ve adil kaynak ayırma sağlamak için hız sınırları uygular. Bu sınırlar çalışma alanı platform katmanına, temel model türüne ve temel modelinizi nasıl dağıttığınıza bağlı olarak değişir.
Jeton başına ödeme uç noktası oran sınırları
Belirteç başına ödeme uç noktaları, belirteç tabanlı ve sorgu tabanlı hız sınırlarına tabidir. Belirteç tabanlı hız sınırları, dakika başına işlenebilen ve giriş ve çıkış belirteçleri için ayrı ayrı uygulanan en fazla belirteç sayısını denetler.
- Dakika başına giriş belirteçleri (ITPM): 60 saniyelik bir pencerede işlenebilen en fazla giriş belirteci sayısı (istemlerinizden). ITPM hız sınırı, bir uç noktanın giriş belirteci aktarım hızını denetler.
- Dakika başına çıkış belirteçleri (OTPM): 60 saniyelik bir pencerede oluşturulabilen en fazla çıkış belirteci sayısı (modelin yanıtlarından). OTPM hız sınırı, bir uç noktanın çıkış belirteci aktarım hızını denetler.
- Saat başına sorgu sayısı: 60 dakikalık bir süre içinde işlenebilen en fazla sorgu veya istek sayısı. Sürekli kullanım desenlerine sahip üretim uygulamaları için Databricks, garantili kapasite sağlayan sağlanan aktarım hızı uç noktalarını önerir.
Sınırlar nasıl izlenir ve uygulanır?
En kısıtlayıcı hız sınırı (ITPM, OTPM, QPH) herhangi bir zamanda geçerlidir. Örneğin, ITPM sınırınıza ulaşmamış olsanız bile, QPH veya OTPM sınırını aşarsanız hala hız sınırlamasına tabi olabilirsiniz. ITPM veya OTPM sınırına ulaşıldığında, izleyen istekler çok fazla istek alındığını belirten bir 429 hatası alır. Hız sınırı penceresi sıfırlanıncaya kadar bu ileti devam eder.
Databricks, aşağıdaki özellikleri kullanarak dakika başına belirteç (TPM) hız sınırlarını izler ve uygular:
| Özellik | Ayrıntılar |
|---|---|
| Jeton muhasebesi ve kabul öncesi denetimler |
|
| Patlama kapasitesi ve düzgünleştirme |
|
Aşağıda, ön giriş denetiminin ve kredi geri alma davranışının nasıl çalıştığına ilişkin bir örnek verilmiştir.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Modele göre hız sınırları
Aşağıdaki tablolar, Kurumsal seviye çalışma alanları için belirteç başına ödeme modeli Temel Model API uç noktalarındaki ITPM, OTPM ve QPH hız sınırlarını özetlemektedir.
Uyarı
15 Şubat 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .
| Büyük dil modelleri | ITPM sınırı | OTPM sınırı | QPH sınırı | Notes |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Yönerge (Beta) | 200,000 | 10.000 | Genel amaçlı LLM | |
| GPT OSS 120B | 200,000 | 10.000 | Genel amaçlı LLM | |
| GPT OSS 20B | 200,000 | 10.000 | Daha küçük GPT varyantı | |
| Gemma 3 12B | 200,000 | 10.000 | 7,200 | Google'ın Gemma modeli |
| Lama 4 Maverick | 200,000 | 10.000 | 2,400 | En son Llama sürümü |
| Llama 3.3 70B Talimat | 200,000 | 10.000 | 2,400 | Orta boy Lama modeli |
| Llama 3.1 8B Yönergesi | 200,000 | 10.000 | 7,200 | Hafif Lama modeli |
| Llama 3.1 405B Yönerge | 5.000 | beş yüz | 1.200 |
|
| Antropik Claude modelleri | ITPM sınırı | OTPM sınırı | Notes |
|---|---|---|---|
| Claude 3.7 Sonet | 50,000 | 5.000 | Dengeli Claude modeli |
| Claude Sonnet 4 | 50,000 | 5.000 | |
| Claude Opus 4.1 | 50,000 | 5.000 | |
| Claude Opus 4.6 | 200,000 | 20,000 | En son Opus sürümü |
| Claude Opus 4.5 | 200,000 | 20,000 | |
| Claude Sonnet 4.5 | 50,000 | 5.000 | En son Sonnet sürümü |
| Claude Haiku 4.5 | 50,000 | 5.000 | En son Haiku sürümü |
| Modelleri ekleme | ITPM sınırı | OTPM sınırı | QPH sınırı | Notes |
|---|---|---|---|---|
| GTE Large (Eng) | Yok | Yok | 540.000 | Metin ekleme modeli - normalleştirilmiş eklemeler oluşturmaz |
| BGE Büyük (En) | Yok | Yok | 2,160,000 | Metin ekleme modeli |
TPM hız sınırlarını yönetme en iyi yöntemleri
Adım 1. Belirteç kullanımını izleme
Uygulamalarınızda hem giriş hem de çıkış belirteci sayılarını ayrı ayrı izleyin:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Adım 2. Yeniden deneme mantığını uygulama
Hız sınırı hatalarıyla karşılaştığınızda üstel geri çekilmeyi kullanın.
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Adım 3. Belirteç kullanımını iyileştirme
- İstem uzunluğunu en aza indirme: Kısa ve iyi yapılandırılmış istemler kullanın
-
Denetim çıktısı uzunluğu: Yanıt boyutunu sınırlamak için parametresini kullanın
max_tokens -
Claude Sonnet 4 için max_tokens açıkça ayarlayın: Varsayılan 1.000 belirteç sınırından kaçınmak için Her zaman Claude Sonnet 4 kullanırken belirtin
max_tokens - Verimli bir şekilde gruplandırma: Mümkün olduğunda sınırlar dahilinde ilgili istekleri gruplandırın
Adım 4. Model seçimini göz önünde bulundurun
- Yüksek hacimli görevler için daha küçük modeller: Daha yüksek aktarım hızı gerektiren görevler için Llama 3.1 8B gibi modelleri kullanın
- Karmaşık görevler için büyük modeller: Maksimum özellik gerektiren görevler için Llama 3.1 405B ayırın
İzleme ve sorun giderme
Performansı iyileştirmek için belirteç kullanım desenlerinizi izleyin:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Hız sınırı hatalarını işleme
Hız sınırlarını aştığınızda API bir 429 Too Many Requests hata döndürür:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Hata yanıtı şunları içerir:
-
limit_type: Belirli bir sınır aşıldı (ITPM, OTPM, QPS veya QPH) -
limit: Yapılandırılan sınır değeri -
current: Mevcut kullanımınız -
retry_after: Saniye cinsinden önerilen bekleme süresi
Yaygın sorunlar ve çözümler
| Sorun | Çözüm |
|---|---|
| Sık karşılaşılan 429 hataları | Üstel geri çekilme uygulayın, istek oranını azaltın ve daha yüksek hız limitlerini talep edin |
| ITPM sınırına ulaşıldı | İstem uzunluğunu iyileştirme |
| OTPM sınırına ulaşıldı | Yanıt uzunluğunu sınırlamak için kullanın max_tokens |
| QPH sınırına ulaşıldı | İstekleri zaman içinde daha eşit bir şekilde dağıtma |
Sağlanan aktarım hızı sınırları
Daha yüksek sınırlar gerektiren üretim iş yükleri için sağlanan aktarım hızı uç noktaları şunları sunar:
- TPM kısıtlaması yok: Sağlanan kaynaklara dayalı işleme kapasitesi
- Daha yüksek hız sınırları: Çalışma alanı başına saniyede en fazla 200 sorgu
- Tahmin edilebilir performans: Ayrılmış kaynaklar tutarlı gecikme süresi sağlar
Çıkış belirteci sınırları
Uyarı
15 Mayıs 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .
Aşağıdaki tabloda desteklenen her model için çıkış belirteci sınırları özetlenmektedir:
| Model | Çıkış belirteci sınırı |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Lama 4 Maverick | 8,192 |
| Lama 3.1 405B | 4,096 |
| Lama 3.1 70B | 8,192 |
| Lama 3.1 8B | 8,192 |
Ek sınırlar
Sağlanan aktarım hızı iş yükleri için sınırlamalar şunlardır:
- Bir Meta Llama modelini
system.aiUnity Kataloğu'nda dağıtmak için ilgili Yönerge sürümünü seçmeniz gerekir. Meta Llama modellerinin temel sürümleri Unity Kataloğu'ndan dağıtım için desteklenmez. Bkz Sağlanan aktarım hızı uç noktalarını dağıtma. - Tanımlanmış aktarım kapasitesini kullanan iş yükleri için Llama 4 Maverick:
- Sağlanan aktarım hızı iş yüklerinde bu modelin desteği Genel Önizleme aşamasındadır.
- Otomatik ölçeklendirme desteklenmez.
- Ölçüm panelleri desteklenmez.
- Trafik bölme, Lama 4 Maverick'e hizmet veren bir uç noktada desteklenmez. Lama 4 Maverick'e hizmet veren bir uç noktada birden çok modele hizmet veremezsiniz.
Bölgesel kullanılabilirlik ve veri işleme
Databricks tarafından barındırılan temel model bölgesi kullanılabilirliği için bkz. Temel Modele genel bakış.
Veri işleme ve yerleşim ayrıntıları için bkz. Veri işleme ve yerleşim.