Aracılığıyla paylaş


Temel Model API'leri sınırları ve kotaları

Bu sayfada Databricks Foundation Model API'leri iş yüklerinin sınırları ve kotaları açıklanmaktadır.

Databricks Foundation Model API'leri, tüm kullanıcılar arasında güvenilir performans ve adil kaynak ayırma sağlamak için hız sınırları uygular. Bu sınırlar çalışma alanı platform katmanına, temel model türüne ve temel modelinizi nasıl dağıttığınıza bağlı olarak değişir.

Jeton başına ödeme uç noktası oran sınırları

Belirteç başına ödeme uç noktaları, belirteç tabanlı ve sorgu tabanlı hız sınırlarına tabidir. Belirteç tabanlı hız sınırları, dakika başına işlenebilen ve giriş ve çıkış belirteçleri için ayrı ayrı uygulanan en fazla belirteç sayısını denetler.

  • Dakika başına giriş belirteçleri (ITPM): 60 saniyelik bir pencerede işlenebilen en fazla giriş belirteci sayısı (istemlerinizden). ITPM hız sınırı, bir uç noktanın giriş belirteci aktarım hızını denetler.
  • Dakika başına çıkış belirteçleri (OTPM): 60 saniyelik bir pencerede oluşturulabilen en fazla çıkış belirteci sayısı (modelin yanıtlarından). OTPM hız sınırı, bir uç noktanın çıkış belirteci aktarım hızını denetler.
  • Saat başına sorgu sayısı: 60 dakikalık bir süre içinde işlenebilen en fazla sorgu veya istek sayısı. Sürekli kullanım desenlerine sahip üretim uygulamaları için Databricks, garantili kapasite sağlayan sağlanan aktarım hızı uç noktalarını önerir.

Sınırlar nasıl izlenir ve uygulanır?

En kısıtlayıcı hız sınırı (ITPM, OTPM, QPH) herhangi bir zamanda geçerlidir. Örneğin, ITPM sınırınıza ulaşmamış olsanız bile, QPH veya OTPM sınırını aşarsanız hala hız sınırlamasına tabi olabilirsiniz. ITPM veya OTPM sınırına ulaşıldığında, izleyen istekler çok fazla istek alındığını belirten bir 429 hatası alır. Hız sınırı penceresi sıfırlanıncaya kadar bu ileti devam eder.

Databricks, aşağıdaki özellikleri kullanarak dakika başına belirteç (TPM) hız sınırlarını izler ve uygular:

Özellik Ayrıntılar
Jeton muhasebesi ve kabul öncesi denetimler
  • Giriş token sayımı: Giriş tokenleri, istek anında gerçek isteminiz üzerinden sayılır.
  • Çıktı belirteci tahmini: İsteğinizde sağlarsanız max_tokens Databricks, istek işleme için kabul edilmeden önce çıkış belirteci kapasitesini tahmin etmek ve ayırmak için bu değeri kullanır.
  • Ön erişim doğrulaması: Databricks, işleme başlamadan önce isteğinizin ITPM veya OTPM sınırlarını aşıp aşmayacağını denetler. max_tokens OTPM sınırlarını aşmanıza neden olursa Databricks isteği 429 hatasıyla hemen reddeder.
  • Gerçek ve tahmini çıkış: Yanıt oluşturulduktan sonra gerçek çıkış belirteçleri sayılır. Önemli olan, eğer gerçek belirteç kullanımı ayrılmış max_tokens değerinden azsa Databricks farkı oran sınırı ödeneğinize geri yükler ve bu belirteçlerin diğer istekler için hemen kullanılabilir olmasını sağlar.
  • max_tokens belirtilmedi: belirtmediğiniz takdirde max_tokens, Databricks varsayılan bir rezervasyon kullanır ve gerçek belirteç sayısı oluşturma işleminden sonra hesaplanır. Not: Claude Sonnet 4 özellikle ayarlanmadığında max_tokens varsayılan olarak 1.000 çıkış belirtecidir ve ulaşıldığında "uzunluk" bitiş nedenini döndürür. Bu, modelin maksimum bağlam uzunluğu değildir. Claude 3.7 Sonnet'in böyle bir varsayılan değeri yoktur.
Patlama kapasitesi ve düzgünleştirme
  • Ani artış arabelleği: Hız sınırlayıcı, nominal oranın üzerindeki kısa trafik artışlarını karşılamak için küçük bir arabellek içerir.
  • Kayan pencere: Belirteç tüketimi, dakika başına sabit sınırlardan daha yumuşak hız sınırlaması sağlayan kayan pencere algoritması kullanılarak izlenir.
  • Belirteç demet algoritması: Databricks, zaman içindeki ortalama hız sınırını korurken bir miktar ani artış kapasitesi sağlayan bir belirteç demeti uygulaması kullanır.

Aşağıda, ön giriş denetiminin ve kredi geri alma davranışının nasıl çalıştığına ilişkin bir örnek verilmiştir.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Modele göre hız sınırları

Aşağıdaki tablolar, Kurumsal seviye çalışma alanları için belirteç başına ödeme modeli Temel Model API uç noktalarındaki ITPM, OTPM ve QPH hız sınırlarını özetlemektedir.

Uyarı

15 Şubat 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .

Büyük dil modelleri ITPM sınırı OTPM sınırı QPH sınırı Notes
Qwen3-Next 80B A3B Yönerge (Beta) 200,000 10.000 Genel amaçlı LLM
GPT OSS 120B 200,000 10.000 Genel amaçlı LLM
GPT OSS 20B 200,000 10.000 Daha küçük GPT varyantı
Gemma 3 12B 200,000 10.000 7,200 Google'ın Gemma modeli
Lama 4 Maverick 200,000 10.000 2,400 En son Llama sürümü
Llama 3.3 70B Talimat 200,000 10.000 2,400 Orta boy Lama modeli
Llama 3.1 8B Yönergesi 200,000 10.000 7,200 Hafif Lama modeli
Llama 3.1 405B Yönerge 5.000 beş yüz 1.200
  • En büyük Llama modeli - boyutundan dolayı azaltılmış sınırlar
Antropik Claude modelleri ITPM sınırı OTPM sınırı Notes
Claude 3.7 Sonet 50,000 5.000 Dengeli Claude modeli
Claude Sonnet 4 50,000 5.000
Claude Opus 4.1 50,000 5.000
Claude Opus 4.6 200,000 20,000 En son Opus sürümü
Claude Opus 4.5 200,000 20,000
Claude Sonnet 4.5 50,000 5.000 En son Sonnet sürümü
Claude Haiku 4.5 50,000 5.000 En son Haiku sürümü
Modelleri ekleme ITPM sınırı OTPM sınırı QPH sınırı Notes
GTE Large (Eng) Yok Yok 540.000 Metin ekleme modeli - normalleştirilmiş eklemeler oluşturmaz
BGE Büyük (En) Yok Yok 2,160,000 Metin ekleme modeli

TPM hız sınırlarını yönetme en iyi yöntemleri

Adım 1. Belirteç kullanımını izleme

Uygulamalarınızda hem giriş hem de çıkış belirteci sayılarını ayrı ayrı izleyin:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Adım 2. Yeniden deneme mantığını uygulama

Hız sınırı hatalarıyla karşılaştığınızda üstel geri çekilmeyi kullanın.

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Adım 3. Belirteç kullanımını iyileştirme

  • İstem uzunluğunu en aza indirme: Kısa ve iyi yapılandırılmış istemler kullanın
  • Denetim çıktısı uzunluğu: Yanıt boyutunu sınırlamak için parametresini kullanın max_tokens
  • Claude Sonnet 4 için max_tokens açıkça ayarlayın: Varsayılan 1.000 belirteç sınırından kaçınmak için Her zaman Claude Sonnet 4 kullanırken belirtin max_tokens
  • Verimli bir şekilde gruplandırma: Mümkün olduğunda sınırlar dahilinde ilgili istekleri gruplandırın

Adım 4. Model seçimini göz önünde bulundurun

  • Yüksek hacimli görevler için daha küçük modeller: Daha yüksek aktarım hızı gerektiren görevler için Llama 3.1 8B gibi modelleri kullanın
  • Karmaşık görevler için büyük modeller: Maksimum özellik gerektiren görevler için Llama 3.1 405B ayırın

İzleme ve sorun giderme

Performansı iyileştirmek için belirteç kullanım desenlerinizi izleyin:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Hız sınırı hatalarını işleme

Hız sınırlarını aştığınızda API bir 429 Too Many Requests hata döndürür:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Hata yanıtı şunları içerir:

  • limit_type: Belirli bir sınır aşıldı (ITPM, OTPM, QPS veya QPH)
  • limit: Yapılandırılan sınır değeri
  • current: Mevcut kullanımınız
  • retry_after: Saniye cinsinden önerilen bekleme süresi

Yaygın sorunlar ve çözümler

Sorun Çözüm
Sık karşılaşılan 429 hataları Üstel geri çekilme uygulayın, istek oranını azaltın ve daha yüksek hız limitlerini talep edin
ITPM sınırına ulaşıldı İstem uzunluğunu iyileştirme
OTPM sınırına ulaşıldı Yanıt uzunluğunu sınırlamak için kullanın max_tokens
QPH sınırına ulaşıldı İstekleri zaman içinde daha eşit bir şekilde dağıtma

Sağlanan aktarım hızı sınırları

Daha yüksek sınırlar gerektiren üretim iş yükleri için sağlanan aktarım hızı uç noktaları şunları sunar:

  • TPM kısıtlaması yok: Sağlanan kaynaklara dayalı işleme kapasitesi
  • Daha yüksek hız sınırları: Çalışma alanı başına saniyede en fazla 200 sorgu
  • Tahmin edilebilir performans: Ayrılmış kaynaklar tutarlı gecikme süresi sağlar

Çıkış belirteci sınırları

Uyarı

15 Mayıs 2026'dan itibaren Meta-Llama-3.1-405B-Instruct kullanımdan kaldırılacaktır. Önerilen değiştirme modeli için kullanımdan kaldırılan modeller ve kullanımdan kaldırma sırasında geçişin nasıl yapılacağını gösteren yönergeler için bkz. Kullanımdan kaldırılan modeller .

Aşağıdaki tabloda desteklenen her model için çıkış belirteci sınırları özetlenmektedir:

Model Çıkış belirteci sınırı
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Lama 4 Maverick 8,192
Lama 3.1 405B 4,096
Lama 3.1 70B 8,192
Lama 3.1 8B 8,192

Ek sınırlar

Sağlanan aktarım hızı iş yükleri için sınırlamalar şunlardır:

  • Bir Meta Llama modelini system.ai Unity Kataloğu'nda dağıtmak için ilgili Yönerge sürümünü seçmeniz gerekir. Meta Llama modellerinin temel sürümleri Unity Kataloğu'ndan dağıtım için desteklenmez. Bkz Sağlanan aktarım hızı uç noktalarını dağıtma.
  • Tanımlanmış aktarım kapasitesini kullanan iş yükleri için Llama 4 Maverick:
    • Sağlanan aktarım hızı iş yüklerinde bu modelin desteği Genel Önizleme aşamasındadır.
    • Otomatik ölçeklendirme desteklenmez.
    • Ölçüm panelleri desteklenmez.
    • Trafik bölme, Lama 4 Maverick'e hizmet veren bir uç noktada desteklenmez. Lama 4 Maverick'e hizmet veren bir uç noktada birden çok modele hizmet veremezsiniz.

Bölgesel kullanılabilirlik ve veri işleme

Databricks tarafından barındırılan temel model bölgesi kullanılabilirliği için bkz. Temel Modele genel bakış.

Veri işleme ve yerleşim ayrıntıları için bkz. Veri işleme ve yerleşim.

Ek kaynaklar