Batas dan kuota API Model Foundation

Halaman ini menjelaskan batas dan kuota untuk beban kerja API Model Databricks Foundation.

API Model Databricks Foundation memberlakukan batas laju untuk memastikan performa yang andal dan alokasi sumber daya yang adil di semua pengguna. Batas ini bervariasi berdasarkan tingkat platform ruang kerja, jenis model fondasi, dan cara Anda menyebarkan model fondasi Anda.

Batas tarif titik akhir bayar per token

Titik akhir bayar per token diatur oleh batas tarif berbasis token dan berbasis kueri. Batas laju berbasis token mengontrol jumlah maksimum token yang dapat diproses per menit dan diberlakukan secara terpisah untuk token input dan output.

Token input per menit (ITPM): Jumlah maksimum token input (dari perintah Anda) yang dapat diproses dalam jendela 60 detik. Batas laju ITPM mengontrol laju token input di suatu endpoint.
Token output per menit (OTPM): Jumlah maksimum token output (dari respons model) yang dapat dihasilkan dalam jendela 60 detik. Batas laju OTPM mengontrol throughput token output dari titik akhir.
Kueri per jam: Jumlah maksimum kueri atau permintaan yang dapat diproses dalam jangka waktu 60 menit. Untuk aplikasi produksi dengan pola penggunaan berkelanjutan, Databricks merekomendasikan titik akhir throughput yang disediakan, yang memberikan kapasitas terjamin.

Bagaimana batas dilacak dan diberlakukan

Batas tarif paling ketat (ITPM, OTPM, QPH) berlaku pada waktu tertentu. Misalnya, bahkan jika Anda belum mencapai batas ITPM, Anda mungkin masih dibatasi tarif jika Anda melebihi batas QPH atau OTPM. Ketika batas ITPM atau OTPM tercapai, permintaan berikutnya menerima kesalahan 429 yang menunjukkan terlalu banyak permintaan yang diterima. Pesan ini berlanjut hingga jendela batas laju direset.

Databricks melacak dan memberlakukan batas tarif token per menit (TPM) menggunakan fitur berikut:

Fitur Detail lebih lanjut

Pemeriksaan akuntansi dan pra-penerimaan token

Fitur	Detail lebih lanjut
Pemeriksaan akuntansi dan pra-penerimaan token	Penghitungan token input: Token input dihitung dari perintah aktual Anda pada waktu permintaan. Estimasi token output: Jika Anda memberikan `max_tokens` dalam permintaan Anda, Databricks menggunakan nilai ini untuk memperkirakan dan mencadangkan kapasitas token output sebelum permintaan diakui untuk diproses. Validasi pra-penerimaan: Databricks memeriksa apakah permintaan Anda akan melebihi batas ITPM atau OTPM sebelum pemrosesan dimulai. Jika `max_tokens` akan menyebabkan Anda melebihi batas OTPM, Databricks segera menolak permintaan dengan kesalahan 429. Output aktual vs perkiraan: Setelah respons dihasilkan, token output aktual dihitung. Yang penting, jika penggunaan token aktual kurang dari yang dipesan `max_tokens`, Databricks mengkreditkan selisih kembali ke jatah batas tarif Anda, membuat token tersebut segera tersedia untuk permintaan lain. Tidak ada max_tokens yang ditentukan: Jika Anda tidak menentukan `max_tokens`, Databricks menggunakan reservasi default, dan jumlah token aktual direkonsiliasi setelah pembuatan. Catatan: Claude Sonnet 4 secara khusus default ke 1.000 token output ketika `max_tokens` tidak diatur, mengembalikan alasan akhir "panjang" ketika tercapai. Ini bukan panjang konteks maksimum model.
Kapasitas ledakan dan penghalusan	Buffer ledakan: Pembatas laju mencakup penyangga kecil untuk mengakomodasi ledakan lalu lintas pendek di atas tingkat nominal. Jendela geser: Konsumsi token dilacak menggunakan algoritma jendela geser yang memberikan pembatasan laju yang lebih lancar daripada batas keras per menit. Algoritma wadah token: Databricks menggunakan implementasi wadah token yang memungkinkan beberapa kapasitas ledakan sambil mempertahankan batas laju rata-rata dari waktu ke waktu.

Penghitungan token input: Token input dihitung dari perintah aktual Anda pada waktu permintaan.
Estimasi token output: Jika Anda memberikan max_tokens dalam permintaan Anda, Databricks menggunakan nilai ini untuk memperkirakan dan mencadangkan kapasitas token output sebelum permintaan diakui untuk diproses.
Validasi pra-penerimaan: Databricks memeriksa apakah permintaan Anda akan melebihi batas ITPM atau OTPM sebelum pemrosesan dimulai. Jika max_tokens akan menyebabkan Anda melebihi batas OTPM, Databricks segera menolak permintaan dengan kesalahan 429.
Output aktual vs perkiraan: Setelah respons dihasilkan, token output aktual dihitung. Yang penting, jika penggunaan token aktual kurang dari yang dipesan max_tokens, Databricks mengkreditkan selisih kembali ke jatah batas tarif Anda, membuat token tersebut segera tersedia untuk permintaan lain.
Tidak ada max_tokens yang ditentukan: Jika Anda tidak menentukan max_tokens, Databricks menggunakan reservasi default, dan jumlah token aktual direkonsiliasi setelah pembuatan. Catatan: Claude Sonnet 4 secara khusus default ke 1.000 token output ketika max_tokens tidak diatur, mengembalikan alasan akhir "panjang" ketika tercapai. Ini bukan panjang konteks maksimum model.

Kapasitas ledakan dan penghalusan

Buffer ledakan: Pembatas laju mencakup penyangga kecil untuk mengakomodasi ledakan lalu lintas pendek di atas tingkat nominal.
Jendela geser: Konsumsi token dilacak menggunakan algoritma jendela geser yang memberikan pembatasan laju yang lebih lancar daripada batas keras per menit.
Algoritma wadah token: Databricks menggunakan implementasi wadah token yang memungkinkan beberapa kapasitas ledakan sambil mempertahankan batas laju rata-rata dari waktu ke waktu.

Berikut ini adalah contoh cara kerja pemeriksaan pra-penerimaan dan perilaku pengembalian kredit.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The system credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Batas tarif menurut model

Tabel berikut ini merangkum batas tarif ITPM, OTPM, dan QPH untuk endpoint API yang berbayar per token untuk Model Dasar pada ruang kerja tingkat Perusahaan:

Nota

Mulai Februari, 15 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.

Model bahasa skala besar	Batas ITPM	Batas OTPM	Batas QPH	Catatan
Gemini 3.1 Flash Lite	200,000	20.000	360.000
Qwen3-Next 80B A3B Instruksi (Beta)	200,000	10,000		LLM tujuan umum
GPT OSS 120B	200,000	10,000		LLM tujuan umum
GPT OSS 20B	200,000	10,000		Varian GPT yang lebih kecil
Gemma 3 12B	200,000	10,000	7,200	Model Gemma Google
Llama 4 Maverick	200,000	10,000	2,400	Rilis Llama terbaru
Llama 3.3 70B Instruksi	200,000	10,000	2,400	Model Llama ukuran menengah
Instruksi Llama 3.1 8B	200,000	10,000	7,200	Model Llama yang ringan
Llama Instruct 3.1 405B	5.000	500	1,200	Model Llama terbesar - batas berkurang karena ukuran

Model Claude Antropis	Batas ITPM	Batas OTPM	Batas QPH	Catatan
Sonnet Claude 4	200,000	20.000	360.000
Claude Opus 4.1	200,000	20.000	360.000
Claude Opus 4.7	200,000	20.000	360.000	Versi Opus terbaru
Claude Opus 4.6	200,000	20.000	360.000
Claude Opus 4.5	200,000	20.000	360.000
Soneta Claude 4.6	200,000	20.000	360.000	Versi Sonnet terbaru
Soneta Claude 4.5	200,000	20.000	360.000
Claude Haiku 4.5	200,000	20.000	360.000	Versi Haiku terbaru

Menyematkan model	Batas ITPM	Batas OTPM	Batas QPH	Catatan
Qwen3-Embedding-0.6B	N/A	N/A	2,160,000	Model penyematan teks multibahasa yang ringkas
GTE Large (En)	N/A	N/A	540,000	Model penyematan teks - tidak menghasilkan penyematan yang dinormalisasi
BGE Besar (En)	N/A	N/A	2,160,000	Model penyematan teks

Praktik terbaik untuk mengelola batas tarif TPM

Langkah 1. Memantau penggunaan token

Lacak jumlah token input dan output secara terpisah dalam aplikasi Anda:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Langkah 2. Menerapkan fungsi coba ulang

Tambahkan backoff eksponensial saat Anda mengalami kesalahan batas laju:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Langkah 3. Mengoptimalkan penggunaan token

Meminimalkan panjang prompt: Gunakan prompt ringkas dan terstruktur dengan baik
Panjang output kontrol: Gunakan max_tokens parameter untuk membatasi ukuran respons
Atur max_tokens secara eksplisit untuk Claude Sonnet 4: Selalu tentukan max_tokens saat menggunakan Claude Sonnet 4 untuk menghindari batas token default 1.000
Batch secara efisien: Kelompokkan permintaan terkait jika memungkinkan sambil tetap sesuai batas

Langkah 4. Pertimbangkan pemilihan model

Model yang lebih kecil untuk tugas volume tinggi: Gunakan model seperti Llama 3.1 8B untuk tugas yang memerlukan throughput yang lebih tinggi
Model besar untuk tugas kompleks: Gunakan Llama 3.1 405B untuk tugas yang memerlukan kemampuan maksimum

Pemantauan dan pemecahan masalah

Pantau pola penggunaan token Anda untuk mengoptimalkan performa:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Mengatasi kesalahan batas laju

Ketika Anda melebihi batas laju, API mengembalikan 429 Too Many Requests kesalahan:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Respons kesalahan meliputi:

limit_type: Batas spesifik mana yang terlampaui (ITPM, OTPM, QPS, atau QPH)
limit: Nilai batas yang dikonfigurasi
current: Penggunaan Anda saat ini
retry_after: Waktu tunggu yang disarankan dalam detik

Masalah dan solusi umum

Masalah	Solusi
Kesalahan 429 yang sering terjadi	Menerapkan penundaan eksponensial, mengurangi laju permintaan, dan meminta batas laju yang lebih tinggi
Batas ITPM tercapai	Mengoptimalkan panjang perintah
Batas OTPM tercapai	Gunakan `max_tokens` untuk membatasi panjang respons
Batas QPH tercapai	Mendistribusikan permintaan lebih merata dari waktu ke waktu

Batas throughput yang disediakan

Untuk beban kerja produksi yang memerlukan batas yang lebih tinggi, titik akhir throughput yang disediakan menawarkan:

Tidak ada pembatasan TPM: Memproses kapasitas berdasarkan sumber daya yang disediakan
Batas tarif yang lebih tinggi: Hingga 200 kueri per detik per ruang kerja
Performa yang dapat diprediksi: Sumber daya khusus memastikan latensi yang konsisten

Batas maksimum token output

Nota

Mulai 15 Mei 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.

Tabel berikut ini meringkas batas token output untuk setiap model yang didukung:

Model	Batas token output
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Batas tambahan

Berikut ini adalah batasan untuk beban kerja throughput yang disediakan:

Untuk menyebarkan model Meta Llama dari system.ai di Unity Catalog, Anda harus memilih versi Instruksi yang berlaku. Versi dasar model Meta Llama tidak didukung untuk penyebaran dari Unity Catalog. Lihat Gunakan titik akhir throughput yang disediakan.
Untuk beban kerja throughput yang disediakan yang menggunakan Llama 4 Maverick:
- Dukungan untuk model ini pada beban kerja throughput yang disediakan ada di Pratinjau Umum.
- Autoscaling tidak didukung.
- Panel metrik tidak didukung.
- Pemisahan lalu lintas tidak didukung pada titik akhir yang melayani Llama 4 Maverick. Anda tidak dapat menyajikan beberapa model pada endpoint yang menyajikan Llama 4 Maverick.

Ketersediaan regional dan pemrosesan data

Untuk ketersediaan wilayah Model Foundation yang dihosting Databricks, lihat Gambaran umum Model Foundation.

Untuk detail pemrosesan dan residensi data, lihat Pemrosesan dan residensi data.

Batas sumber daya dan payload untuk model Foundation dan model eksternal

Tabel berikut ini meringkas batas sumber daya dan payload untuk titik akhir yang melayani model fondasi dan model eksternal.

Fitur	Granularitas	Limit
Ukuran muatan	Per permintaan	4 MB
Ukuran permintaan/respons	Per permintaan	Setiap permintaan/respons lebih dari 1 MB tidak akan dicatat.
Kueri per detik (QPS)	Per ruang kerja	200
Durasi pelaksanaan model	Per permintaan	597 detik
Latensi akibat overhead	Per permintaan	Kurang dari 50 milidetik

Sumber daya tambahan

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-24