Batas dan kuota API Model Foundation

Halaman ini menjelaskan batas dan kuota untuk beban kerja API Model Databricks Foundation.

API Model Databricks Foundation memberlakukan batas laju untuk memastikan performa yang andal dan alokasi sumber daya yang adil di semua pengguna. Batas ini bervariasi berdasarkan tingkat platform ruang kerja, jenis model fondasi, dan cara Anda menyebarkan model fondasi Anda.

Batas tarif titik akhir bayar per token

Titik akhir bayar per token diatur oleh batas tarif berbasis token dan berbasis kueri. Batas laju berbasis token mengontrol jumlah maksimum token yang dapat diproses per menit dan diberlakukan secara terpisah untuk token input dan output.

  • Token input per menit (ITPM): Jumlah maksimum token input (dari perintah Anda) yang dapat diproses dalam jendela 60 detik. Batas laju ITPM mengontrol laju token input di suatu endpoint.
  • Token output per menit (OTPM): Jumlah maksimum token output (dari respons model) yang dapat dihasilkan dalam jendela 60 detik. Batas laju OTPM mengontrol throughput token output dari titik akhir.
  • Kueri per jam: Jumlah maksimum kueri atau permintaan yang dapat diproses dalam jangka waktu 60 menit. Untuk aplikasi produksi dengan pola penggunaan berkelanjutan, Databricks merekomendasikan titik akhir throughput yang disediakan, yang memberikan kapasitas terjamin.

Bagaimana batas dilacak dan diberlakukan

Batas tarif paling ketat (ITPM, OTPM, QPH) berlaku pada waktu tertentu. Misalnya, bahkan jika Anda belum mencapai batas ITPM, Anda mungkin masih dibatasi tarif jika Anda melebihi batas QPH atau OTPM. Ketika batas ITPM atau OTPM tercapai, permintaan berikutnya menerima kesalahan 429 yang menunjukkan terlalu banyak permintaan yang diterima. Pesan ini berlanjut hingga jendela batas laju direset.

Databricks melacak dan memberlakukan batas tarif token per menit (TPM) menggunakan fitur berikut:

Fitur Detail lebih lanjut
Pemeriksaan akuntansi dan pra-penerimaan token
  • Penghitungan token input: Token input dihitung dari perintah aktual Anda pada waktu permintaan.
  • Estimasi token output: Jika Anda memberikan max_tokens dalam permintaan Anda, Databricks menggunakan nilai ini untuk memperkirakan dan mencadangkan kapasitas token output sebelum permintaan diakui untuk diproses.
  • Validasi pra-penerimaan: Databricks memeriksa apakah permintaan Anda akan melebihi batas ITPM atau OTPM sebelum pemrosesan dimulai. Jika max_tokens akan menyebabkan Anda melebihi batas OTPM, Databricks segera menolak permintaan dengan kesalahan 429.
  • Output aktual vs perkiraan: Setelah respons dihasilkan, token output aktual dihitung. Yang penting, jika penggunaan token aktual kurang dari yang dipesan max_tokens, Databricks mengkreditkan selisih kembali ke jatah batas tarif Anda, membuat token tersebut segera tersedia untuk permintaan lain.
  • Tidak ada max_tokens yang ditentukan: Jika Anda tidak menentukan max_tokens, Databricks menggunakan reservasi default, dan jumlah token aktual direkonsiliasi setelah pembuatan. Catatan: Claude Sonnet 4 secara khusus default ke 1.000 token output ketika max_tokens tidak diatur, mengembalikan alasan akhir "panjang" ketika tercapai. Ini bukan panjang konteks maksimum model.
Kapasitas ledakan dan penghalusan
  • Buffer ledakan: Pembatas laju mencakup penyangga kecil untuk mengakomodasi ledakan lalu lintas pendek di atas tingkat nominal.
  • Jendela geser: Konsumsi token dilacak menggunakan algoritma jendela geser yang memberikan pembatasan laju yang lebih lancar daripada batas keras per menit.
  • Algoritma wadah token: Databricks menggunakan implementasi wadah token yang memungkinkan beberapa kapasitas ledakan sambil mempertahankan batas laju rata-rata dari waktu ke waktu.

Berikut ini adalah contoh cara kerja pemeriksaan pra-penerimaan dan perilaku pengembalian kredit.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The system credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Batas tarif menurut model

Tabel berikut ini merangkum batas tarif ITPM, OTPM, dan QPH untuk endpoint API yang berbayar per token untuk Model Dasar pada ruang kerja tingkat Perusahaan:

Nota

Mulai Februari, 15 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.

Model bahasa skala besar Batas ITPM Batas OTPM Batas QPH Catatan
Gemini 3.1 Flash Lite 200,000 20.000 360.000
Qwen3-Next 80B A3B Instruksi (Beta) 200,000 10,000 LLM tujuan umum
GPT OSS 120B 200,000 10,000 LLM tujuan umum
GPT OSS 20B 200,000 10,000 Varian GPT yang lebih kecil
Gemma 3 12B 200,000 10,000 7,200 Model Gemma Google
Llama 4 Maverick 200,000 10,000 2,400 Rilis Llama terbaru
Llama 3.3 70B Instruksi 200,000 10,000 2,400 Model Llama ukuran menengah
Instruksi Llama 3.1 8B 200,000 10,000 7,200 Model Llama yang ringan
Llama Instruct 3.1 405B 5.000 500 1,200
  • Model Llama terbesar - batas berkurang karena ukuran
Model Claude Antropis Batas ITPM Batas OTPM Batas QPH Catatan
Sonnet Claude 4 200,000 20.000 360.000
Claude Opus 4.1 200,000 20.000 360.000
Claude Opus 4.7 200,000 20.000 360.000 Versi Opus terbaru
Claude Opus 4.6 200,000 20.000 360.000
Claude Opus 4.5 200,000 20.000 360.000
Soneta Claude 4.6 200,000 20.000 360.000 Versi Sonnet terbaru
Soneta Claude 4.5 200,000 20.000 360.000
Claude Haiku 4.5 200,000 20.000 360.000 Versi Haiku terbaru
Menyematkan model Batas ITPM Batas OTPM Batas QPH Catatan
Qwen3-Embedding-0.6B N/A N/A 2,160,000 Model penyematan teks multibahasa yang ringkas
GTE Large (En) N/A N/A 540,000 Model penyematan teks - tidak menghasilkan penyematan yang dinormalisasi
BGE Besar (En) N/A N/A 2,160,000 Model penyematan teks

Praktik terbaik untuk mengelola batas tarif TPM

Langkah 1. Memantau penggunaan token

Lacak jumlah token input dan output secara terpisah dalam aplikasi Anda:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Langkah 2. Menerapkan fungsi coba ulang

Tambahkan backoff eksponensial saat Anda mengalami kesalahan batas laju:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Langkah 3. Mengoptimalkan penggunaan token

  • Meminimalkan panjang prompt: Gunakan prompt ringkas dan terstruktur dengan baik
  • Panjang output kontrol: Gunakan max_tokens parameter untuk membatasi ukuran respons
  • Atur max_tokens secara eksplisit untuk Claude Sonnet 4: Selalu tentukan max_tokens saat menggunakan Claude Sonnet 4 untuk menghindari batas token default 1.000
  • Batch secara efisien: Kelompokkan permintaan terkait jika memungkinkan sambil tetap sesuai batas

Langkah 4. Pertimbangkan pemilihan model

  • Model yang lebih kecil untuk tugas volume tinggi: Gunakan model seperti Llama 3.1 8B untuk tugas yang memerlukan throughput yang lebih tinggi
  • Model besar untuk tugas kompleks: Gunakan Llama 3.1 405B untuk tugas yang memerlukan kemampuan maksimum

Pemantauan dan pemecahan masalah

Pantau pola penggunaan token Anda untuk mengoptimalkan performa:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Mengatasi kesalahan batas laju

Ketika Anda melebihi batas laju, API mengembalikan 429 Too Many Requests kesalahan:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Respons kesalahan meliputi:

  • limit_type: Batas spesifik mana yang terlampaui (ITPM, OTPM, QPS, atau QPH)
  • limit: Nilai batas yang dikonfigurasi
  • current: Penggunaan Anda saat ini
  • retry_after: Waktu tunggu yang disarankan dalam detik

Masalah dan solusi umum

Masalah Solusi
Kesalahan 429 yang sering terjadi Menerapkan penundaan eksponensial, mengurangi laju permintaan, dan meminta batas laju yang lebih tinggi
Batas ITPM tercapai Mengoptimalkan panjang perintah
Batas OTPM tercapai Gunakan max_tokens untuk membatasi panjang respons
Batas QPH tercapai Mendistribusikan permintaan lebih merata dari waktu ke waktu

Batas throughput yang disediakan

Untuk beban kerja produksi yang memerlukan batas yang lebih tinggi, titik akhir throughput yang disediakan menawarkan:

  • Tidak ada pembatasan TPM: Memproses kapasitas berdasarkan sumber daya yang disediakan
  • Batas tarif yang lebih tinggi: Hingga 200 kueri per detik per ruang kerja
  • Performa yang dapat diprediksi: Sumber daya khusus memastikan latensi yang konsisten

Batas maksimum token output

Nota

Mulai 15 Mei 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.

Tabel berikut ini meringkas batas token output untuk setiap model yang didukung:

Model Batas token output
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4,096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Batas tambahan

Berikut ini adalah batasan untuk beban kerja throughput yang disediakan:

  • Untuk menyebarkan model Meta Llama dari system.ai di Unity Catalog, Anda harus memilih versi Instruksi yang berlaku. Versi dasar model Meta Llama tidak didukung untuk penyebaran dari Unity Catalog. Lihat Gunakan titik akhir throughput yang disediakan.
  • Untuk beban kerja throughput yang disediakan yang menggunakan Llama 4 Maverick:
    • Dukungan untuk model ini pada beban kerja throughput yang disediakan ada di Pratinjau Umum.
    • Autoscaling tidak didukung.
    • Panel metrik tidak didukung.
    • Pemisahan lalu lintas tidak didukung pada titik akhir yang melayani Llama 4 Maverick. Anda tidak dapat menyajikan beberapa model pada endpoint yang menyajikan Llama 4 Maverick.

Ketersediaan regional dan pemrosesan data

Untuk ketersediaan wilayah Model Foundation yang dihosting Databricks, lihat Gambaran umum Model Foundation.

Untuk detail pemrosesan dan residensi data, lihat Pemrosesan dan residensi data.

Batas sumber daya dan payload untuk model Foundation dan model eksternal

Tabel berikut ini meringkas batas sumber daya dan payload untuk titik akhir yang melayani model fondasi dan model eksternal.

Fitur Granularitas Limit
Ukuran muatan Per permintaan 4 MB
Ukuran permintaan/respons Per permintaan Setiap permintaan/respons lebih dari 1 MB tidak akan dicatat.
Kueri per detik (QPS) Per ruang kerja 200
Durasi pelaksanaan model Per permintaan 597 detik
Latensi akibat overhead Per permintaan Kurang dari 50 milidetik

Sumber daya tambahan