Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.
Cakupan kuota
Kuota dan batasan tidak diberlakukan di tingkat penyewa. Sebaliknya, tingkat pembatasan kuota tertinggi dilingkup pada tingkat langganan Azure.
Alokasi kuota regional
Batas token per menit (TPM) dan permintaan per menit (RPM) ditentukan per wilayah, per langganan, dan per model atau jenis penyebaran.
Misalnya, jika model gpt-4.1 Global Standard tercantum dengan kuota 5 juta TPM dan 5.000 RPM, kemudian each wilayah di mana jenis model atau penyebaran tersedia memiliki kumpulan kuota khusus sendiri dengan jumlah tersebut untuk each langganan Azure Anda. Dalam satu langganan Azure, Anda dapat menggunakan kuantitas total kuota TPM dan RPM yang lebih besar untuk model dan jenis penyebaran tertentu, selama Anda memiliki sumber daya dan penyebaran model yang tersebar di beberapa wilayah.
Lapisan kuota
Kami memperkenalkan Tingkat Kuota untuk memperbaiki pengalaman menggunakan Model Foundry dan mengurangi hambatan saat beban kerja diskalakan. Kuota sekarang akan meningkat secara otomatis dengan penggunaan, membantu menghindari kesalahan batas tarif sambil juga menciptakan lingkungan yang lebih adil untuk semua pengguna. Tujuh tingkatan akan tersedia: Tingkat gratis dan Tingkat 1 hingga 6 - dengan Tingkat 6 menawarkan kuota tertinggi. Tingkat awal pelanggan yang ditetapkan didasarkan pada penggunaan model tersebut saat ini dan hubungan mereka saat ini dengan Microsoft, seperti status Enterprise Agreement (EA atau MCA-E).
Apa yang berubah untukku?
Sebelumnya, Foundry hanya menawarkan tingkat kuota Default dan Enterprise untuk jenis penawaran bayar sesuai pemakaian, dengan kesenjangan besar antara setiap tingkat dan proses yang lebih lama untuk meminta peningkatan. Dengan Tingkat Kuota, semua pengguna diberi tingkat dengan kuota yang sama dengan atau lebih tinggi dari tingkat sebelumnya. Peningkatan kuota yang disetujui sebelumnya dipertahankan dan tidak akan dikurangi. Seiring bertambahnya penggunaan, Foundry secara otomatis meningkatkan kuota dengan memindahkan pengguna ke tingkat yang lebih tinggi, dan kuota tambahan masih dapat diminta melalui formulir kuota.
Bagaimana pelanggan akan secara otomatis berpindah dari satu tingkat ke tingkat lainnya, misalnya apa kriteria perubahan tingkat?
Peningkatan tingkat otomatis terutama didasarkan pada tren konsumsi pelanggan di seluruh Model Foundry dari waktu ke waktu. Jika penggunaan pelanggan meningkat sedih sehingga tingkat kuota mereka saat ini membatasi kemampuan mereka untuk menggunakan Model Foundry, sistem akan secara otomatis meningkatkan pelanggan ke tingkat yang lebih tinggi berikutnya. Hubungan pelanggan dengan Microsoft juga diperhitungkan. Pelanggan dengan hubungan Enterprise (termasuk EA dan MCA-E) dengan Microsoft diberi tingkat kuota yang lebih tinggi. Selain itu, Microsoft juga akan mempertimbangkan riwayat pembayaran pelanggan untuk menentukan kelayakan untuk peningkatan otomatis.
Dapatkah saya menolak peningkatan otomatis?
Ya, Anda dapat menolak peningkatan otomatis dan Anda akan tetap berada di tingkat Anda saat ini terlepas dari perubahan konsumsi Anda. Kami menyadari bahwa beberapa pelanggan kami menggunakan kuota untuk mengelola penagihan mereka. Namun, ini bukan praktik terbaik Azure, kami memahami bahwa jika sistem Anda dikonfigurasi dengan cara itu, kami tidak ingin merusaknya. Anda dapat mempelajari selengkapnya tentang manajemen penagihan dan praktik terbaik di sini: Cost Management.
Untuk menolak, Anda dapat mengatur bendera berikut ke :
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Nota
Fitur penolakan adalah pratinjau dan dapat berubah/dihapus di masa mendatang.
Dapatkah saya meminta lebih banyak kuota?
Ya, menggunakan formulir permintaan kuota , Anda selalu dapat meminta lebih banyak kuota. Jika permintaan disetujui, tingkat saat ini akan tetap sama, tetapi dengan lebih banyak kuota yang ditetapkan.
Referensi tingkatan kuota
- Tingkat 1
- Tingkat 2
- Tingkat 3
- Tingkat 4
- Tingkat 5
- Tingkat 6
Tingkat 1
| Nama Model | Jenis Penyebaran | Permintaan Per Menit (RPM) | Token Per Menit (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| computer-use-preview | GlobalStandard | 4,500 | 450.000 |
| gpt-4.1 | DataZoneStandard | 300 | 300.000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5.000 | 5,000,000 |
| gpt-4.1-mini | Standar | 6.000 | 6.000.000 |
| gpt-4.1-nano | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5.000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300 / 10s | 300.000 |
| gpt-4o-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20.000 | 2,000,000 |
| gpt-4o-mini-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6.000 |
| gpt-4o-pratinjau-waktu-nyata | GlobalStandard | 36 | 6.000 |
| gpt-5 | DataZoneStandard | 3.000 | 300.000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300.000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2,000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5.000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1.600 | 160.000 |
| gpt-5.1 | DataZoneStandard | 3.000 | 300.000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3.000 | 300.000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3.000 | 300.000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 150 | 150.000 |
| o1 | DataZoneStandard | 100 | 600.000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300.000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| penelitian mendalam tentang o3 | GlobalStandard | 3.000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1.600.000 |
| o4-mini | DataZoneStandard | 300 / 10s | 300.000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| penyisipan-teks-3-besar | DataZoneStandard | 1,000 | 1,000,000 |
| penyisipan-teks-3-besar | GlobalStandard | 1000 / 10 detik | 1,000,000 |
| teks-penanaman-3-kecil | DataZoneStandard | 1,000 | 1,000,000 |
| teks-penanaman-3-kecil | GlobalStandard | 1000 / 10 detik | 1,000,000 |
Referensi Kuota dan Pembatasan
Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:
| Pembatasan nama | Nilai batas |
|---|---|
| Sumber Daya Azure OpenAI per wilayah, per langganan Azure | 30. |
| Batas kuota bawaan DALL-E 2 | 2 permintaan bersamaan. |
| Batas kuota standar DALL-E 3 | 6 permintaan per menit |
| Batas kuota standar GPT-image-1 | 9 permintaan per menit |
| Batas kuota standar GPT-image-1-mini | 12 permintaan per menit |
| Batas kuota GPT-image-1.5 default | 9 permintaan per menit |
| Batas kuota Sora default | 60 permintaan per menit. |
| Batas kuota Sora 2 default | 2 permintaan pekerjaan1 per menit |
| Batas kuota API audio pengubah ucapan ke teks bawaan | 3 permintaan per menit. |
| Jumlah token prompt maksimum per permintaan | Bervariasi tergantung pada model. Untuk informasi selengkapnya, lihat Azure model OpenAI. |
| Penyebaran standar maksimum per sumber daya | 32. |
| Penyebaran model maksimum yang disempurnakan | 10. |
| Jumlah total pekerjaan pelatihan per sumber daya | 100. |
| Maksimum menjalankan pekerjaan pelatihan secara bersamaan per sumber daya | Pelatihan standar dan global: 3; Pelatihan pengembang: 5 |
| Antrian maksimum pekerjaan pelatihan | 20. |
| Jumlah file maksimum per sumber daya (penyesuaian) | 100. |
| Ukuran total semua file untuk setiap sumber daya (penyempurnaan) | 1 GB. |
| Waktu pekerjaan pelatihan maksimum (pekerjaan gagal jika terlampaui) | 720 jam. |
| Ukuran pekerjaan pelatihan maksimum | 2 miliar. |
| Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda) | 16 MB. |
| Jumlah maksimum input dalam array dengan | 2,048. |
| Jumlah pesan maksimum | 2,048. |
| Jumlah maksimum fungsi | 128. |
| Jumlah maksimum alat | 128. |
| Jumlah maksimum unit throughput yang disediakan per penyebaran | 100,000. |
| Jumlah maksimum file per asisten atau utas | 10.000 saat menggunakan API atau portal Microsoft Foundry. |
| Ukuran file maksimum untuk asisten dan penyempurnaan | 512 MB melalui API 200 MB melalui portal Foundry. |
| Permintaan unggahan file maksimum per sumber daya | 30 permintaan per detik. |
| Ukuran maksimum untuk semua file yang diunggah untuk asisten | 200 GB. |
| Batas token untuk asisten | 2.000.000 batas token. |
| dan gambar maksimum per permintaan (jumlah gambar dalam array pesan atau riwayat percakapan) | 50. |
| dan token maksimum default | 16. Tingkatkan nilai parameter untuk menghindari respons terpotong. jumlah token maksimum menjadi 4.096 secara default. |
| Jumlah maksimum header kustom dalam permintaan API2 | 10. |
| Batas jumlah karakter pesan | 1,048,576. |
| Ukuran pesan untuk file audio | 20 MB. |
1 Kuota RPM Sora 2 hanya memperhitungkan permintaan tugas video. Jenis permintaan lainnya tidak terbatas pada tarif.
2 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini, yang menghasilkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan melewati header kustom. Kami menyarankan agar pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.
Nota
Batas kuota dapat berubah.
batas laju router model
| Model | Jenis Penyebaran | Pengaturan Standar RPM | Standar TPM | RPM perusahaan dan MCA-E | Perusahaan dan MCA-E TPM |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150.000 | 300 | 300.000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250.000 | 400 | 400,000 |
Batas Batch
| Pembatasan nama | Nilai batas |
|---|---|
| File input Batch maksimum - (tidak ada kedaluwarsa) | 500 |
| File input Batch maksimal - (pengaturan kedaluwarsa) | 10.000 |
| Ukuran file input maksimum | 200 MB |
| Ukuran file input maksimum - Bawa penyimpanan Anda sendiri (BYOS) | 1 GB |
| Jumlah maksimum permintaan per file | 100,000 |
Nota
Batas file batch tidak berlaku untuk file output (misalnya, , dan ). Untuk menghapus batas file input batch, gunakan Batch dengan Azure Blob Storage.
Kuota kelompok
Tabel memperlihatkan batas kuota kelompok. Nilai kuota untuk batch global diwakili dalam satuan token yang diantrekan. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token dalam file dihitung. Hingga job batch mencapai status final, token tersebut dihitung terhadap batas token antrean total Anda.
Batch secara global
| Model | Enterprise dan MCA-E | Default | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure untuk Siswa, uji coba gratis |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50M | 90K | N/A |
gpt-4.1 mini |
15B | 1B | 50M | 90K | N/A |
gpt-4.1-nano |
15B | 1B | 50M | 90K | N/A |
gpt-4o |
5B | 200M | 50M | 90K | N/A |
gpt-4o-mini |
15B | 1B | 50M | 90K | N/A |
gpt-4-turbo |
300 juta | 80M | 40M | 90K | N/A |
gpt-4 |
150 juta | 30 juta | 5M | 100 K | N/A |
o3-mini |
15B | 1B | 50M | 90K | N/A |
o4-mini |
15B | 1B | 50M | 90K | N/A |
gpt-5 |
5B | 200M | 50M | 90K | N/A |
gpt-5.1 |
5B | 200M | 50M | 90K | N/A |
B = miliar | M = juta | K = ribu
Pengelompokan zona data
| Model | Enterprise dan MCA-E | Default | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure untuk Siswa, uji coba gratis |
|---|---|---|---|---|---|
gpt-4.1 |
500 Juta | 30 juta | 30 juta | 90K | N/A |
gpt-4.1-mini |
1,5B | 100M | 50M | 90K | N/A |
gpt-4o |
500 Juta | 30 juta | 30 juta | 90K | N/A |
gpt-4o-mini |
1,5B | 100M | 50M | 90K | N/A |
o3-mini |
1,5B | 100M | 50M | 90K | N/A |
gpt-5 |
5B | 200M | 50M | 90K | N/A |
gpt-5.1 |
5B | 200M | 50M | 90K | N/A |
gpt-oss
| Model | Jumlah token per menit (TPM) | Permintaan per menit (RPM) |
|---|---|---|
gpt-oss-120b |
5 juta | 5 K |
Tingkat Penggunaan Layanan
Penyebaran Standar Global menggunakan infrastruktur global Azure. Mereka secara dinamis merutekan lalu lintas pelanggan ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Demikian pula, penyebaran Standar Zona Data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Praktik ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.
Azure tingkat penggunaan OpenAI dirancang untuk memberikan performa yang konsisten bagi sebagian besar pelanggan dengan tingkat lalu lintas rendah hingga menengah. Setiap tingkat penggunaan menentukan throughput maksimum (token per menit) yang dapat Anda harapkan dengan latensi yang dapat diprediksi. Saat penggunaan Anda tetap berada dalam tingkat yang ditetapkan, latensi tetap stabil dan waktu respons konsisten.
Apa yang terjadi jika Anda melebihi tingkat penggunaan Anda?
- Jika throughput permintaan Anda melebihi tingkat penggunaan Anda—terutama selama periode permintaan tinggi—latensi respons Anda dapat meningkat secara signifikan.
- Latensi dapat bervariasi dan, dalam beberapa kasus, mungkin lebih dari dua kali lebih tinggi daripada saat beroperasi dalam tingkat penggunaan Anda.
- Variabilitas ini paling terlihat bagi pelanggan dengan penggunaan tinggi yang berkelanjutan atau pola lalu lintas yang tiba-tiba meningkat.
Tindakan yang direkomendasikan jika Anda melebihi tingkat penggunaan Anda
Jika Anda mengalami 429 kesalahan atau melihat peningkatan varianbilitas latensi, inilah yang harus Anda lakukan:
- Minta penambahan kuota: kunjungi Azure portal untuk meminta kuota yang lebih tinggi untuk langganan Anda.
- Pertimbangkan untuk meningkatkan ke penawaran premium (PTU): untuk beban kerja penting latensi atau volume tinggi, tingkatkan ke Unit Throughput yang Disediakan (PTU). PTU menyediakan sumber daya khusus, kapasitas terjamin, dan latensi yang dapat diprediksi—bahkan dalam skala besar. Ini adalah pilihan terbaik untuk aplikasi misi penting yang membutuhkan performa yang konsisten.
- Pantau penggunaan Anda: tinjau metrik penggunaan Anda secara teratur di Azure portal untuk memastikan Anda beroperasi dalam batas tingkat Anda. Sesuaikan beban kerja atau strategi penyebaran Anda sesuai kebutuhan.
Batas penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model. Ini adalah jumlah total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.
Nota
Tingkat penggunaan hanya berlaku untuk jenis penyebaran Standar, Zona Data, dan Standar Global. Tingkat penggunaan tidak berlaku untuk penyebaran batch global dan throughput terprovisi.
Standar Global, Standar Zona Data, dan Standar
| Model | Kategori penggunaan per bulan |
|---|---|
gpt-5 |
32 miliar token |
gpt-5-mini |
160 miliar token |
gpt-5-nano |
800 miliar token |
gpt-5-chat |
32 miliar token |
| (semua versi) | 6 miliar token |
gpt-4o |
12 miliar token |
gpt-4o-mini |
85 miliar token |
o3-mini |
50 miliar token |
o1 |
4 miliar token |
o4-mini |
50 miliar token |
o3 |
5 miliar token |
gpt-4.1 |
30 miliar token |
gpt-4.1-mini |
150 miliar token |
gpt-4.1-nano |
550 miliar token |
Praktik terbaik umum untuk tetap dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.
Permintaan peningkatan kuota
Kirimkan formulir permintaan peningkatan quota untuk meminta peningkatan kuota untuk model Foundry yang dijual langsung oleh Azure, model Azure OpenAI, dan model Antropik. Kecuali untuk model Antropik, Model dari mitra dan komunitas tidak mendukung peningkatan kuota.
Permintaan penambahan kuota diproses dalam urutan yang diterima, dan prioritas diberikan kepada pelanggan yang secara aktif menggunakan alokasi kuota yang ada. Permintaan yang tidak memenuhi kondisi ini mungkin ditolak.
Batas kapasitas kuota regional
Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Foundry.
Untuk melihat kapasitas kuota menurut wilayah untuk model atau versi tertentu, Anda dapat mengkueri API kapasitas untuk langganan Anda. , , dan dan API menyediakan informasi kapasitas yang tersedia dari model tersebut di semua wilayah dan jenis tata letak untuk langganan Anda.
Nota
Saat ini, portal Foundry dan API kapasitas mengembalikan informasi kuota/kapasitas untuk model yang dihentikan dan tidak lagi tersedia.
Lihat referensi API.
Sebelum Anda menjalankan contoh:
- Pasang dependensi:
pip install azure-identity requests - Masuk dengan identitas Azure yang dapat mengakses kapasitas model untuk langganan Azure.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Konten terkait
- Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda.
- Pelajari selengkapnya tentang model dasar yang mendukung Azure OpenAI.