Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menyediakan referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Model Foundry yang dijual langsung oleh Azure. Untuk kuota dan batasan khusus untuk Azure OpenAI dalam Model Foundry, lihat Quotas dan batasan dalam Azure OpenAI.
Referensi Kuota dan Pembatasan
Bagian berikut ini menyediakan panduan cepat untuk kuota dan batasan default yang berlaku untuk Model Foundry:
Batas sumber daya (per langganan Azure, per wilayah)
| Pembatasan nama | Nilai batas |
|---|---|
| Sumber daya foundry per wilayah per langganan Azure | 100 |
| Proyek maks per sumber daya | 250 |
| Penyebaran maksimum per sumber daya (penyebaran model dalam satu sumber daya Foundry) | 32 |
Pembatasan laju
Tabel berikut ini mencantumkan batasan untuk Model Foundry untuk tarif berikut:
- Token per menit
- Permintaan per menit
- Permintaan bersamaan
| Models | Token per menit | Permintaan per menit | Permintaan bersamaan |
|---|---|---|---|
| Azure model OpenAI | Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. | Bervariasi per model dan SKU. Lihat batasan untuk Azure OpenAI. | Beragam. Lihat batas Azure OpenAI. |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5.000 | 300 |
| - Llama 3.3 70B Instruksi - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1,000 | 300 |
| - Flux.2-Pro | tidak berlaku | - Rendah (Default): 15 - Sedang: 30 - Tinggi (Perusahaan): 100 |
tidak berlaku |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
tidak berlaku | 2 unit kapasitas (6 permintaan per menit) | tidak berlaku |
| Sisa dari model | 400,000 | 1,000 | 300 |
Untuk menambah kuota Anda:
- Untuk Azure OpenAI, gunakan layanan Foundry: Minta Peningkatan Kuota untuk mengirimkan permintaan Anda.
- Untuk model lain, lihat permintaan meningkat ke batas default.
Karena permintaan tinggi, permintaan peningkatan batas dievaluasi secara individual.
Pembatasan lainnya
| Pembatasan nama | Nilai batas |
|---|---|
| Jumlah maksimum header kustom dalam permintaanAPI 1 | 10 |
1 API saat ini memungkinkan hingga 10 header kustom, yang diteruskan dan dikembalikan oleh alur. Jika Anda melebihi jumlah header ini, permintaan Anda menghasilkan kesalahan HTTP 431. Untuk mengatasi kesalahan ini, kurangi volume header. Versi API di masa mendatang tidak akan melewati header kustom. Jangan bergantung pada header kustom dalam arsitektur sistem di masa mendatang.
Tingkat Penggunaan Layanan
Penyebaran Standar Global menggunakan infrastruktur global Azure untuk merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Infrastruktur ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.
Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan berdasarkan per model dan merupakan total token yang digunakan di semua penyebaran, semua langganan, dan semua wilayah untuk setiap penyewa tertentu.
Permintaan meningkat ke batas default
Kirimkan formulir permintaan peningkatan quota untuk meminta peningkatan kuota untuk Foundry Models yang dijual langsung oleh Azure, Azure OpenAI models, dan Anthropic models. Kecuali untuk model Antropik, Model dari mitra dan komunitas tidak mendukung peningkatan kuota.
Permintaan penambahan kuota diproses dalam urutan yang diterima, dan prioritas diberikan kepada pelanggan yang secara aktif menggunakan alokasi kuota yang ada. Permintaan yang tidak memenuhi kondisi ini mungkin ditolak.
Praktik terbaik umum untuk tetap berada dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, gunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.
Mengatur batas waktu pada sisi klien
Atur batas waktu sisi klien secara eksplisit berdasarkan panduan berikut.
Nota
Jika tidak diatur secara eksplisit, batas waktu sisi klien ada sesuai pustaka yang digunakan, dan mungkin bukan batas yang sama seperti di atas.
- Model penalaran (model yang menghasilkan token penalaran menengah sebelum menghasilkan respons ringkasan): hingga 29 menit.
- Model non-penalaran:
- Untuk streaming, hingga 60 detik.
- Untuk permintaan non-streaming, hingga 29 menit.
29 menit di sini tidak berarti semua permintaan akan memakan waktu 29 menit melainkan tergantung pada token konteks, token yang dihasilkan, dan tingkat hit cache, permintaan dapat memakan waktu hingga 29 menit.
Atur batas waktu yang di bawah nilai-nilai ini, disesuaikan dengan pola lalu lintas Anda.
Untuk model penalaran termasuk permintaan streaming, semua token penalaran dibuat terlebih dahulu dan kemudian dirangkum sebelum mengirim token respons pertama kembali kepada pengguna.
Anda dapat memodifikasi parameter upaya penalaran untuk mengontrol jumlah token penalaran yang dihasilkan dalam proses.
Troubleshooting
| Gejala | Penyebab | Resolusi |
|---|---|---|
| HTTP 429 Terlalu Banyak Permintaan | Batas token per menit atau permintaan per menit terlampaui | Terapkan logika pengulangan dengan penundaan eksponensial. Gunakan nilai header Retry-After. |
| Bidang Header Permintaan HTTP 431 Terlalu Besar | Lebih dari 10 header kustom dikirim | Kurangi header kustom menjadi 10 atau lebih sedikit. |
| Halaman kuota memperlihatkan 0 tersedia | Kuota langganan atau regional dialokasikan sepenuhnya | Pindahkan kuota yang tidak terpakai dari penyebaran lain. Untuk meningkatkan batas Anda, minta penambahan kuota. |
| Model tidak tersedia di wilayah | Model tidak disebarkan atau didukung di wilayah yang dipilih | Periksa ketersediaan model dan pilih wilayah yang tersedia. |