Temel Model API'leri sınırları ve kotaları

Bu sayfada Databricks Foundation Model API'leri iş yüklerinin sınırları ve kotaları açıklanmaktadır.

Databricks Foundation Model API'leri, tüm kullanıcılar arasında güvenilir performans ve adil kaynak ayırma sağlamak için hız sınırları uygular. Bu sınırlar çalışma alanı platform katmanına, temel model türüne ve temel modelinizi nasıl dağıttığınıza bağlı olarak değişir.

Jeton başına ödeme uç noktası oran sınırları

Belirteç başına ödeme uç noktaları, belirteç tabanlı ve sorgu tabanlı hız sınırlarına tabidir. Belirteç tabanlı hız sınırları, dakika başına işlenebilen ve giriş ve çıkış belirteçleri için ayrı ayrı uygulanan en fazla belirteç sayısını denetler.

Dakika başına giriş belirteçleri (ITPM): 60 saniyelik bir pencerede işlenebilen en fazla giriş belirteci sayısı (istemlerinizden). ITPM hız sınırı, bir uç noktanın giriş belirteci aktarım hızını denetler.
Dakika başına çıkış belirteçleri (OTPM): 60 saniyelik bir pencerede oluşturulabilen en fazla çıkış belirteci sayısı (modelin yanıtlarından). OTPM hız sınırı, bir uç noktanın çıkış belirteci aktarım hızını denetler.
Saat başına sorgu sayısı: 60 dakikalık bir süre içinde işlenebilen en fazla sorgu veya istek sayısı. Sürekli kullanım desenlerine sahip üretim uygulamaları için Databricks, garantili kapasite sağlayan sağlanan aktarım hızı uç noktalarını önerir.

Sınırlar nasıl izlenir ve uygulanır?

En kısıtlayıcı hız sınırı (ITPM, OTPM, QPH) herhangi bir zamanda geçerlidir. Örneğin, ITPM sınırınıza ulaşmamış olsanız bile, QPH veya OTPM sınırını aşarsanız hala hız sınırlamasına tabi olabilirsiniz. ITPM veya OTPM sınırına ulaşıldığında, izleyen istekler çok fazla istek alındığını belirten bir 429 hatası alır. Hız sınırı penceresi sıfırlanıncaya kadar bu ileti devam eder.

Databricks, aşağıdaki özellikleri kullanarak dakika başına belirteç (TPM) hız sınırlarını izler ve uygular:

Özellik Ayrıntılar

Jeton muhasebesi ve kabul öncesi denetimler

Özellik	Ayrıntılar
Jeton muhasebesi ve kabul öncesi denetimler	Giriş token sayımı: Giriş tokenleri, istek anında gerçek isteminiz üzerinden sayılır. Çıktı belirteci tahmini: İsteğinizde sağlarsanız `max_tokens` Databricks, istek işleme için kabul edilmeden önce çıkış belirteci kapasitesini tahmin etmek ve ayırmak için bu değeri kullanır. Ön erişim doğrulaması: Databricks, işleme başlamadan önce isteğinizin ITPM veya OTPM sınırlarını aşıp aşmayacağını denetler. `max_tokens` OTPM sınırlarını aşmanıza neden olursa Databricks isteği 429 hatasıyla hemen reddeder. Gerçek ve tahmini çıkış: Yanıt oluşturulduktan sonra gerçek çıkış belirteçleri sayılır. Önemli olan, eğer gerçek belirteç kullanımı ayrılmış `max_tokens` değerinden azsa Databricks farkı oran sınırı ödeneğinize geri yükler ve bu belirteçlerin diğer istekler için hemen kullanılabilir olmasını sağlar. max_tokens belirtilmedi: belirtmediğiniz takdirde `max_tokens`, Databricks varsayılan bir rezervasyon kullanır ve gerçek belirteç sayısı oluşturma işleminden sonra hesaplanır. Not: Claude Sonnet 4 özellikle ayarlanmadığında `max_tokens` varsayılan olarak 1.000 çıkış belirtecidir ve ulaşıldığında "uzunluk" bitiş nedenini döndürür. Bu, modelin maksimum bağlam uzunluğu değildir. Claude 3.7 Sonnet'in böyle bir varsayılan değeri yoktur.
Patlama kapasitesi ve düzgünleştirme	Ani artış arabelleği: Hız sınırlayıcı, nominal oranın üzerindeki kısa trafik artışlarını karşılamak için küçük bir arabellek içerir. Kayan pencere: Belirteç tüketimi, dakika başına sabit sınırlardan daha yumuşak hız sınırlaması sağlayan kayan pencere algoritması kullanılarak izlenir. Belirteç demet algoritması: Databricks, zaman içindeki ortalama hız sınırını korurken bir miktar ani artış kapasitesi sağlayan bir belirteç demeti uygulaması kullanır.

Giriş token sayımı: Giriş tokenleri, istek anında gerçek isteminiz üzerinden sayılır.
Çıktı belirteci tahmini: İsteğinizde sağlarsanız max_tokens Databricks, istek işleme için kabul edilmeden önce çıkış belirteci kapasitesini tahmin etmek ve ayırmak için bu değeri kullanır.
Ön erişim doğrulaması: Databricks, işleme başlamadan önce isteğinizin ITPM veya OTPM sınırlarını aşıp aşmayacağını denetler. max_tokens OTPM sınırlarını aşmanıza neden olursa Databricks isteği 429 hatasıyla hemen reddeder.
Gerçek ve tahmini çıkış: Yanıt oluşturulduktan sonra gerçek çıkış belirteçleri sayılır. Önemli olan, eğer gerçek belirteç kullanımı ayrılmış max_tokens değerinden azsa Databricks farkı oran sınırı ödeneğinize geri yükler ve bu belirteçlerin diğer istekler için hemen kullanılabilir olmasını sağlar.
max_tokens belirtilmedi: belirtmediğiniz takdirde max_tokens, Databricks varsayılan bir rezervasyon kullanır ve gerçek belirteç sayısı oluşturma işleminden sonra hesaplanır. Not: Claude Sonnet 4 özellikle ayarlanmadığında max_tokens varsayılan olarak 1.000 çıkış belirtecidir ve ulaşıldığında "uzunluk" bitiş nedenini döndürür. Bu, modelin maksimum bağlam uzunluğu değildir. Claude 3.7 Sonnet'in böyle bir varsayılan değeri yoktur.

Patlama kapasitesi ve düzgünleştirme

Ani artış arabelleği: Hız sınırlayıcı, nominal oranın üzerindeki kısa trafik artışlarını karşılamak için küçük bir arabellek içerir.
Kayan pencere: Belirteç tüketimi, dakika başına sabit sınırlardan daha yumuşak hız sınırlaması sağlayan kayan pencere algoritması kullanılarak izlenir.
Belirteç demet algoritması: Databricks, zaman içindeki ortalama hız sınırını korurken bir miktar ani artış kapasitesi sağlayan bir belirteç demeti uygulaması kullanır.

Aşağıda, ön giriş denetiminin ve kredi geri alma davranışının nasıl çalıştığına ilişkin bir örnek verilmiştir.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Modele göre hız sınırları

Aşağıdaki tablolar, Kurumsal seviye çalışma alanları için belirteç başına ödeme modeli Temel Model API uç noktalarındaki ITPM, OTPM ve QPH hız sınırlarını özetlemektedir.

Uyarı

15 Şubat 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .

Büyük dil modelleri	ITPM sınırı	OTPM sınırı	QPH sınırı	Notes
Qwen3-Next 80B A3B Yönerge (Beta)	200,000	10.000		Genel amaçlı LLM
GPT OSS 120B	200,000	10.000		Genel amaçlı LLM
GPT OSS 20B	200,000	10.000		Daha küçük GPT varyantı
Gemma 3 12B	200,000	10.000	7,200	Google'ın Gemma modeli
Lama 4 Maverick	200,000	10.000	2,400	En son Llama sürümü
Llama 3.3 70B Talimat	200,000	10.000	2,400	Orta boy Lama modeli
Llama 3.1 8B Yönergesi	200,000	10.000	7,200	Hafif Lama modeli
Llama 3.1 405B Yönerge	5.000	beş yüz	1.200	En büyük Llama modeli - boyutundan dolayı azaltılmış sınırlar

Antropik Claude modelleri	ITPM sınırı	OTPM sınırı	Notes
Claude 3.7 Sonet	50,000	5.000	Dengeli Claude modeli
Claude Sonnet 4	50,000	5.000
Claude Opus 4.1	50,000	5.000
Claude Opus 4.6	200,000	20,000	En son Opus sürümü
Claude Opus 4.5	200,000	20,000
Claude Sonnet 4.5	50,000	5.000	En son Sonnet sürümü
Claude Haiku 4.5	50,000	5.000	En son Haiku sürümü

Modelleri ekleme	ITPM sınırı	OTPM sınırı	QPH sınırı	Notes
GTE Large (Eng)	Yok	Yok	540.000	Metin ekleme modeli - normalleştirilmiş eklemeler oluşturmaz
BGE Büyük (En)	Yok	Yok	2,160,000	Metin ekleme modeli

TPM hız sınırlarını yönetme en iyi yöntemleri

Adım 1. Belirteç kullanımını izleme

Uygulamalarınızda hem giriş hem de çıkış belirteci sayılarını ayrı ayrı izleyin:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Adım 2. Yeniden deneme mantığını uygulama

Hız sınırı hatalarıyla karşılaştığınızda üstel geri çekilmeyi kullanın.

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Adım 3. Belirteç kullanımını iyileştirme

İstem uzunluğunu en aza indirme: Kısa ve iyi yapılandırılmış istemler kullanın
Denetim çıktısı uzunluğu: Yanıt boyutunu sınırlamak için parametresini kullanın max_tokens
Claude Sonnet 4 için max_tokens açıkça ayarlayın: Varsayılan 1.000 belirteç sınırından kaçınmak için Her zaman Claude Sonnet 4 kullanırken belirtin max_tokens
Verimli bir şekilde gruplandırma: Mümkün olduğunda sınırlar dahilinde ilgili istekleri gruplandırın

Adım 4. Model seçimini göz önünde bulundurun

Yüksek hacimli görevler için daha küçük modeller: Daha yüksek aktarım hızı gerektiren görevler için Llama 3.1 8B gibi modelleri kullanın
Karmaşık görevler için büyük modeller: Maksimum özellik gerektiren görevler için Llama 3.1 405B ayırın

İzleme ve sorun giderme

Performansı iyileştirmek için belirteç kullanım desenlerinizi izleyin:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Hız sınırı hatalarını işleme

Hız sınırlarını aştığınızda API bir 429 Too Many Requests hata döndürür:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Hata yanıtı şunları içerir:

limit_type: Belirli bir sınır aşıldı (ITPM, OTPM, QPS veya QPH)
limit: Yapılandırılan sınır değeri
current: Mevcut kullanımınız
retry_after: Saniye cinsinden önerilen bekleme süresi

Yaygın sorunlar ve çözümler

Sorun	Çözüm
Sık karşılaşılan 429 hataları	Üstel geri çekilme uygulayın, istek oranını azaltın ve daha yüksek hız limitlerini talep edin
ITPM sınırına ulaşıldı	İstem uzunluğunu iyileştirme
OTPM sınırına ulaşıldı	Yanıt uzunluğunu sınırlamak için kullanın `max_tokens`
QPH sınırına ulaşıldı	İstekleri zaman içinde daha eşit bir şekilde dağıtma

Sağlanan aktarım hızı sınırları

Daha yüksek sınırlar gerektiren üretim iş yükleri için sağlanan aktarım hızı uç noktaları şunları sunar:

TPM kısıtlaması yok: Sağlanan kaynaklara dayalı işleme kapasitesi
Daha yüksek hız sınırları: Çalışma alanı başına saniyede en fazla 200 sorgu
Tahmin edilebilir performans: Ayrılmış kaynaklar tutarlı gecikme süresi sağlar

Çıkış belirteci sınırları

Uyarı

15 Mayıs 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .

Aşağıdaki tabloda desteklenen her model için çıkış belirteci sınırları özetlenmektedir:

Model	Çıkış belirteci sınırı
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Lama 4 Maverick	8,192
Lama 3.1 405B	4,096
Lama 3.1 70B	8,192
Lama 3.1 8B	8,192

Ek sınırlar

Sağlanan aktarım hızı iş yükleri için sınırlamalar şunlardır:

Bir Meta Llama modelini system.ai Unity Kataloğu'nda dağıtmak için ilgili Yönerge sürümünü seçmeniz gerekir. Meta Llama modellerinin temel sürümleri Unity Kataloğu'ndan dağıtım için desteklenmez. Bkz Sağlanan aktarım hızı uç noktalarını dağıtma.
Tanımlanmış aktarım kapasitesini kullanan iş yükleri için Llama 4 Maverick:
- Sağlanan aktarım hızı iş yüklerinde bu modelin desteği Genel Önizleme aşamasındadır.
- Otomatik ölçeklendirme desteklenmez.
- Ölçüm panelleri desteklenmez.
- Trafik bölme, Lama 4 Maverick'e hizmet veren bir uç noktada desteklenmez. Lama 4 Maverick'e hizmet veren bir uç noktada birden çok modele hizmet veremezsiniz.

Bölgesel kullanılabilirlik ve veri işleme

Databricks tarafından barındırılan temel model bölgesi kullanılabilirliği için bkz. Temel Modele genel bakış.

Veri işleme ve yerleşim ayrıntıları için bkz. Veri işleme ve yerleşim.

Ek kaynaklar

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-02-05

Aracılığıyla paylaş

Temel Model API'leri sınırları ve kotaları

Jeton başına ödeme uç noktası oran sınırları

Sınırlar nasıl izlenir ve uygulanır?

Modele göre hız sınırları

TPM hız sınırlarını yönetme en iyi yöntemleri

Adım 1. Belirteç kullanımını izleme

Adım 2. Yeniden deneme mantığını uygulama

Adım 3. Belirteç kullanımını iyileştirme

Adım 4. Model seçimini göz önünde bulundurun

İzleme ve sorun giderme

Hız sınırı hatalarını işleme

Yaygın sorunlar ve çözümler

Sağlanan aktarım hızı sınırları

Çıkış belirteci sınırları

Ek sınırlar

Bölgesel kullanılabilirlik ve veri işleme

Ek kaynaklar

Geri Bildirim

Ek kaynaklar