Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini menjelaskan batas dan kuota untuk beban kerja API Model Databricks Foundation.
API Model Databricks Foundation memberlakukan batas laju untuk memastikan performa yang andal dan alokasi sumber daya yang adil di semua pengguna. Batas ini bervariasi berdasarkan tingkat platform ruang kerja, jenis model fondasi, dan cara Anda menyebarkan model fondasi Anda.
Batas tarif titik akhir bayar per token
Titik akhir bayar per token diatur oleh batas tarif berbasis token dan berbasis kueri. Batas laju berbasis token mengontrol jumlah maksimum token yang dapat diproses per menit dan diberlakukan secara terpisah untuk token input dan output.
- Token input per menit (ITPM): Jumlah maksimum token input (dari perintah Anda) yang dapat diproses dalam jendela 60 detik. Batas laju ITPM mengontrol laju token input di suatu endpoint.
- Token output per menit (OTPM): Jumlah maksimum token output (dari respons model) yang dapat dihasilkan dalam jendela 60 detik. Batas laju OTPM mengontrol throughput token output dari titik akhir.
- Kueri per jam: Jumlah maksimum kueri atau permintaan yang dapat diproses dalam jangka waktu 60 menit. Untuk aplikasi produksi dengan pola penggunaan berkelanjutan, Databricks merekomendasikan titik akhir throughput yang disediakan, yang memberikan kapasitas terjamin.
Bagaimana batas dilacak dan diberlakukan
Batas tarif paling ketat (ITPM, OTPM, QPH) berlaku pada waktu tertentu. Misalnya, bahkan jika Anda belum mencapai batas ITPM, Anda mungkin masih dibatasi tarif jika Anda melebihi batas QPH atau OTPM. Ketika batas ITPM atau OTPM tercapai, permintaan berikutnya menerima kesalahan 429 yang menunjukkan terlalu banyak permintaan yang diterima. Pesan ini berlanjut hingga jendela batas laju direset.
Databricks melacak dan memberlakukan batas tarif token per menit (TPM) menggunakan fitur berikut:
| Fitur | Detail lebih lanjut |
|---|---|
| Pemeriksaan akuntansi dan pra-penerimaan token |
|
| Kapasitas ledakan dan penghalusan |
|
Berikut ini adalah contoh cara kerja pemeriksaan pra-penerimaan dan perilaku pengembalian kredit.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The system credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Batas tarif menurut model
Tabel berikut ini merangkum batas tarif ITPM, OTPM, dan QPH untuk endpoint API yang berbayar per token untuk Model Dasar pada ruang kerja tingkat Perusahaan:
Nota
Mulai Februari, 15 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.
| Model bahasa skala besar | Batas ITPM | Batas OTPM | Batas QPH | Catatan |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite | 200,000 | 20.000 | 360.000 | |
| Qwen3-Next 80B A3B Instruksi (Beta) | 200,000 | 10,000 | LLM tujuan umum | |
| GPT OSS 120B | 200,000 | 10,000 | LLM tujuan umum | |
| GPT OSS 20B | 200,000 | 10,000 | Varian GPT yang lebih kecil | |
| Gemma 3 12B | 200,000 | 10,000 | 7,200 | Model Gemma Google |
| Llama 4 Maverick | 200,000 | 10,000 | 2,400 | Rilis Llama terbaru |
| Llama 3.3 70B Instruksi | 200,000 | 10,000 | 2,400 | Model Llama ukuran menengah |
| Instruksi Llama 3.1 8B | 200,000 | 10,000 | 7,200 | Model Llama yang ringan |
| Llama Instruct 3.1 405B | 5.000 | 500 | 1,200 |
|
| Model Claude Antropis | Batas ITPM | Batas OTPM | Batas QPH | Catatan |
|---|---|---|---|---|
| Sonnet Claude 4 | 200,000 | 20.000 | 360.000 | |
| Claude Opus 4.1 | 200,000 | 20.000 | 360.000 | |
| Claude Opus 4.7 | 200,000 | 20.000 | 360.000 | Versi Opus terbaru |
| Claude Opus 4.6 | 200,000 | 20.000 | 360.000 | |
| Claude Opus 4.5 | 200,000 | 20.000 | 360.000 | |
| Soneta Claude 4.6 | 200,000 | 20.000 | 360.000 | Versi Sonnet terbaru |
| Soneta Claude 4.5 | 200,000 | 20.000 | 360.000 | |
| Claude Haiku 4.5 | 200,000 | 20.000 | 360.000 | Versi Haiku terbaru |
| Menyematkan model | Batas ITPM | Batas OTPM | Batas QPH | Catatan |
|---|---|---|---|---|
| Qwen3-Embedding-0.6B | N/A | N/A | 2,160,000 | Model penyematan teks multibahasa yang ringkas |
| GTE Large (En) | N/A | N/A | 540,000 | Model penyematan teks - tidak menghasilkan penyematan yang dinormalisasi |
| BGE Besar (En) | N/A | N/A | 2,160,000 | Model penyematan teks |
Praktik terbaik untuk mengelola batas tarif TPM
Langkah 1. Memantau penggunaan token
Lacak jumlah token input dan output secara terpisah dalam aplikasi Anda:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Langkah 2. Menerapkan fungsi coba ulang
Tambahkan backoff eksponensial saat Anda mengalami kesalahan batas laju:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Langkah 3. Mengoptimalkan penggunaan token
- Meminimalkan panjang prompt: Gunakan prompt ringkas dan terstruktur dengan baik
-
Panjang output kontrol: Gunakan
max_tokensparameter untuk membatasi ukuran respons -
Atur max_tokens secara eksplisit untuk Claude Sonnet 4: Selalu tentukan
max_tokenssaat menggunakan Claude Sonnet 4 untuk menghindari batas token default 1.000 - Batch secara efisien: Kelompokkan permintaan terkait jika memungkinkan sambil tetap sesuai batas
Langkah 4. Pertimbangkan pemilihan model
- Model yang lebih kecil untuk tugas volume tinggi: Gunakan model seperti Llama 3.1 8B untuk tugas yang memerlukan throughput yang lebih tinggi
- Model besar untuk tugas kompleks: Gunakan Llama 3.1 405B untuk tugas yang memerlukan kemampuan maksimum
Pemantauan dan pemecahan masalah
Pantau pola penggunaan token Anda untuk mengoptimalkan performa:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Mengatasi kesalahan batas laju
Ketika Anda melebihi batas laju, API mengembalikan 429 Too Many Requests kesalahan:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
Respons kesalahan meliputi:
-
limit_type: Batas spesifik mana yang terlampaui (ITPM, OTPM, QPS, atau QPH) -
limit: Nilai batas yang dikonfigurasi -
current: Penggunaan Anda saat ini -
retry_after: Waktu tunggu yang disarankan dalam detik
Masalah dan solusi umum
| Masalah | Solusi |
|---|---|
| Kesalahan 429 yang sering terjadi | Menerapkan penundaan eksponensial, mengurangi laju permintaan, dan meminta batas laju yang lebih tinggi |
| Batas ITPM tercapai | Mengoptimalkan panjang perintah |
| Batas OTPM tercapai | Gunakan max_tokens untuk membatasi panjang respons |
| Batas QPH tercapai | Mendistribusikan permintaan lebih merata dari waktu ke waktu |
Batas throughput yang disediakan
Untuk beban kerja produksi yang memerlukan batas yang lebih tinggi, titik akhir throughput yang disediakan menawarkan:
- Tidak ada pembatasan TPM: Memproses kapasitas berdasarkan sumber daya yang disediakan
- Batas tarif yang lebih tinggi: Hingga 200 kueri per detik per ruang kerja
- Performa yang dapat diprediksi: Sumber daya khusus memastikan latensi yang konsisten
Batas maksimum token output
Nota
Mulai 15 Mei 2026, Meta-Llama-3.1-405B-Instruct akan dihentikan. Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.
Tabel berikut ini meringkas batas token output untuk setiap model yang didukung:
| Model | Batas token output |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4,096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Batas tambahan
Berikut ini adalah batasan untuk beban kerja throughput yang disediakan:
- Untuk menyebarkan model Meta Llama dari
system.aidi Unity Catalog, Anda harus memilih versi Instruksi yang berlaku. Versi dasar model Meta Llama tidak didukung untuk penyebaran dari Unity Catalog. Lihat Gunakan titik akhir throughput yang disediakan. - Untuk beban kerja throughput yang disediakan yang menggunakan Llama 4 Maverick:
- Dukungan untuk model ini pada beban kerja throughput yang disediakan ada di Pratinjau Umum.
- Autoscaling tidak didukung.
- Panel metrik tidak didukung.
- Pemisahan lalu lintas tidak didukung pada titik akhir yang melayani Llama 4 Maverick. Anda tidak dapat menyajikan beberapa model pada endpoint yang menyajikan Llama 4 Maverick.
Ketersediaan regional dan pemrosesan data
Untuk ketersediaan wilayah Model Foundation yang dihosting Databricks, lihat Gambaran umum Model Foundation.
Untuk detail pemrosesan dan residensi data, lihat Pemrosesan dan residensi data.
Batas sumber daya dan payload untuk model Foundation dan model eksternal
Tabel berikut ini meringkas batas sumber daya dan payload untuk titik akhir yang melayani model fondasi dan model eksternal.
| Fitur | Granularitas | Limit |
|---|---|---|
| Ukuran muatan | Per permintaan | 4 MB |
| Ukuran permintaan/respons | Per permintaan | Setiap permintaan/respons lebih dari 1 MB tidak akan dicatat. |
| Kueri per detik (QPS) | Per ruang kerja | 200 |
| Durasi pelaksanaan model | Per permintaan | 597 detik |
| Latensi akibat overhead | Per permintaan | Kurang dari 50 milidetik |