Bagikan melalui


Kuota dan batasan Microsoft Foundry Models

Artikel ini menyediakan referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Model Foundry yang dijual langsung oleh Azure. Untuk kuota dan batasan khusus untuk Azure OpenAI dalam Model Foundry, lihat Quotas dan batasan dalam Azure OpenAI.

Referensi Kuota dan Pembatasan

Bagian berikut ini menyediakan panduan cepat untuk kuota dan batasan default yang berlaku untuk Model Foundry:

Batas sumber daya (per langganan Azure, per wilayah)

Pembatasan nama Nilai batas
Sumber daya foundry per wilayah per langganan Azure 100
Proyek maks per sumber daya 250
Penyebaran maksimum per sumber daya (penyebaran model dalam satu sumber daya Foundry) 32

Pembatasan laju

Tabel berikut ini mencantumkan batasan untuk Model Foundry untuk tarif berikut:

  • Token per menit
  • Permintaan per menit
  • Permintaan bersamaan
Models Token per menit Permintaan per menit Permintaan bersamaan
Azure model OpenAI Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. Beragam. Lihat batas Azure OpenAI.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5.000 300
- Llama 3.3 70B Instruksi
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro tidak berlaku - Rendah (Default): 15
- Sedang: 30
- Tinggi (Perusahaan): 100
tidak berlaku
- Flux-Pro 1.1
- Flux.1-Kontext Pro
tidak berlaku 2 unit kapasitas (6 permintaan per menit) tidak berlaku
Sisa dari model 400,000 1,000 300

Untuk menambah kuota Anda:

Karena permintaan tinggi, permintaan peningkatan batas dievaluasi secara individual.

Pembatasan lainnya

Pembatasan nama Nilai batas
Jumlah maksimum header kustom dalam permintaanAPI 1 10

1 API saat ini memungkinkan hingga 10 header kustom, yang diteruskan dan dikembalikan oleh alur. Jika Anda melebihi jumlah header ini, permintaan Anda menghasilkan kesalahan HTTP 431. Untuk mengatasi kesalahan ini, kurangi volume header. Versi API di masa mendatang tidak akan melewati header kustom. Jangan bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Tingkat Penggunaan Layanan

Penyebaran Standar Global menggunakan infrastruktur global Azure untuk merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Infrastruktur ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan berdasarkan per model dan merupakan total token yang digunakan di semua penyebaran, semua langganan, dan semua wilayah untuk setiap penyewa tertentu.

Permintaan meningkat ke batas default

Kirimkan formulir permintaan peningkatan quota untuk meminta peningkatan kuota untuk Foundry Models yang dijual langsung oleh Azure, Azure OpenAI models, dan Anthropic models. Kecuali untuk model Antropik, Model dari mitra dan komunitas tidak mendukung peningkatan kuota.

Permintaan penambahan kuota diproses dalam urutan yang diterima, dan prioritas diberikan kepada pelanggan yang secara aktif menggunakan alokasi kuota yang ada. Permintaan yang tidak memenuhi kondisi ini mungkin ditolak.

Praktik terbaik umum untuk tetap berada dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, gunakan teknik berikut:

  • Terapkan logika coba lagi di aplikasi Anda.
  • Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
  • Uji pola peningkatan beban yang berbeda.
  • Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.

Mengatur batas waktu pada sisi klien

Atur batas waktu sisi klien secara eksplisit berdasarkan panduan berikut.

Nota

Jika tidak diatur secara eksplisit, batas waktu sisi klien ada sesuai pustaka yang digunakan, dan mungkin bukan batas yang sama seperti di atas.

  • Model penalaran (model yang menghasilkan token penalaran menengah sebelum menghasilkan respons ringkasan): hingga 29 menit.
  • Model non-penalaran:
    • Untuk streaming, hingga 60 detik.
    • Untuk permintaan non-streaming, hingga 29 menit.

29 menit di sini tidak berarti semua permintaan akan memakan waktu 29 menit melainkan tergantung pada token konteks, token yang dihasilkan, dan tingkat hit cache, permintaan dapat memakan waktu hingga 29 menit.

Atur batas waktu yang di bawah nilai-nilai ini, disesuaikan dengan pola lalu lintas Anda.

Untuk model penalaran termasuk permintaan streaming, semua token penalaran dibuat terlebih dahulu dan kemudian dirangkum sebelum mengirim token respons pertama kembali kepada pengguna.

Anda dapat memodifikasi parameter upaya penalaran untuk mengontrol jumlah token penalaran yang dihasilkan dalam proses.

Troubleshooting

Gejala Penyebab Resolusi
HTTP 429 Terlalu Banyak Permintaan Batas token per menit atau permintaan per menit terlampaui Terapkan logika pengulangan dengan penundaan eksponensial. Gunakan nilai header Retry-After.
Bidang Header Permintaan HTTP 431 Terlalu Besar Lebih dari 10 header kustom dikirim Kurangi header kustom menjadi 10 atau lebih sedikit.
Halaman kuota memperlihatkan 0 tersedia Kuota langganan atau regional dialokasikan sepenuhnya Pindahkan kuota yang tidak terpakai dari penyebaran lain. Untuk meningkatkan batas Anda, minta penambahan kuota.
Model tidak tersedia di wilayah Model tidak disebarkan atau didukung di wilayah yang dipilih Periksa ketersediaan model dan pilih wilayah yang tersedia.