Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.
Referensi Kuota dan Pembatasan
Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:
Nama Batasan | Nilai Batas |
---|---|
Sumber daya Azure OpenAI per wilayah per langganan Azure | 30 |
Batas kuota bawaan DALL-E 2 | 2 permintaan bersamaan |
Batas kuota standar DALL-E 3 | 2 unit kapasitas (6 permintaan per menit) |
Batas kuota standar GPT-image-1 | 2 unit kapasitas (6 permintaan per menit) |
Batas kuota Sora default | 60 permintaan per menit |
Batas kuota API audio ucapan ke teks yang default | 3 permintaan per menit |
Jumlah token prompt maksimum per permintaan | Bervariasi tergantung pada model. Untuk informasi selengkapnya, lihat Model Azure OpenAI |
Penyebaran Standar Maks per sumber daya | 32 |
Penyebaran model yang disesuaikan maksimum | 5 |
Jumlah total pekerjaan pelatihan per sumber daya | 100 |
Batas maksimal pekerjaan pelatihan simultan per sumber daya | 1 |
Maksimum jumlah pekerjaan pelatihan yang diantrekan | 20 |
Jumlah Maksimal File per Sumber Daya (Penyesuaian) | 50 |
Ukuran total semua file untuk setiap sumber daya (penyempurnaan) | 1 GB |
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui) | 720 jam |
Ukuran pekerjaan pelatihan maksimum (token dalam file pelatihan) x (jumlah epoch) | 2 Miliar |
Ukuran maksimum semua file per unggahan (Azure OpenAI terhadap data Anda) | 16 MB |
Jumlah maksimum input dalam array dengan /embeddings |
2048 |
Jumlah maksimum pesan /chat/completions |
2048 |
Jumlah maksimum fungsi /chat/completions |
128 |
Maksimum jumlah alat /chat completions |
128 |
Jumlah maksimum unit throughput yang disediakan untuk setiap penerapan | 100,000 |
Maksimum file per Asisten/percakapan | 10.000 saat menggunakan API atau portal Azure AI Foundry. |
Ukuran file maksimum untuk Pembantu & Penyempurnaan | 512 MB 200 MB melalui portal Azure AI Foundry |
Ukuran maksimum untuk semua file yang diunggah untuk Asisten | 200 GB |
Batas token untuk asisten | Batas token adalah 2.000.000 |
Jumlah gambar maksimum untuk GPT-4o dan GPT-4.1 per permintaan (# jumlah gambar dalam array pesan/sejarah percakapan) | 50 |
Jumlah token maksimum default GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Tingkatkan nilai parameter max_tokens untuk menghindari respons terpotong. Token maksimum GPT-4o secara bawaan adalah 4096. |
Jumlah maksimum header kustom dalam permintaanAPI 1 | 10 |
Batas jumlah karakter pesan | 1048576 |
Ukuran pesan untuk file audio | 20 MB |
1 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.
Nota
Batas kuota dapat berubah.
Batas Batch
Nama Batasan | Nilai Batas |
---|---|
File maksimum per sumber daya | 500 |
Ukuran maksimal file input | 200 MB |
Permintaan maksimal per file | 100,000 |
Kuota kelompok
Tabel memperlihatkan batas kuota kelompok. Nilai kuota untuk batch global diwakili dalam satuan token yang diantrekan. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token yang ada dalam file dihitung. Selama proses batch mencapai keadaan terminal, token-token tersebut akan dihitung terhadap batas total token yang dimasukkan Anda.
Batch secara global
Modél | Perjanjian Enterprise | Bawaan | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure for Students, Uji Coba Gratis |
---|---|---|---|---|---|
gpt-4.1 |
5 B | 200 juta | 50 Juta | 90 K | Tidak tersedia |
gpt-4.1 mini |
15B | 1B | 50M | 90k | Tidak tersedia |
gpt-4.1-nano |
15 B | 1 B | 50 Juta | 90 K | Tidak tersedia |
gpt-4o |
5 B | 200 juta | 50 Juta | 90 K | Tidak tersedia |
gpt-4o-mini |
15 B | 1 B | 50 Juta | 90 K | Tidak tersedia |
gpt-4-turbo |
300 juta | 80 juta | 40 M | 90 K | Tidak tersedia |
gpt-4 |
150 M | 30 M | 5 juta | 100 K | Tidak tersedia |
gpt-35-turbo |
10 B | 1 B | 100 M | 2 juta | 50 ribu |
o3-mini |
15 B | 1 B | 50 Juta | 90 K | Tidak tersedia |
o4-mini |
15 B | 1 B | 50 Juta | 90 K | Tidak tersedia |
B = miliar | M = juta | K = ribu
Pengelompokan zona data
Modél | Perjanjian Enterprise | Bawaan | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure for Students, Uji Coba Gratis |
---|---|---|---|---|---|
gpt-4.1 |
500 juta | 30 M | 30 M | 90 K | Tidak tersedia |
gpt-4.1-mini |
1,5 B | 100 M | 50 Juta | 90 K | Tidak tersedia |
gpt-4o |
500 juta | 30 M | 30 M | 90 K | Tidak tersedia |
gpt-4o-mini |
1,5 B | 100 M | 50 Juta | 90 K | Tidak tersedia |
o3-mini |
1,5 B | 100 M | 50 Juta | 90 K | Tidak tersedia |
Batas penggunaan GPT-4
Pratinjau standar global GPT-4.5
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4.5 |
Tingkat Perusahaan | 200 K | 200 |
gpt-4.5 |
Bawaan | 150 K | 150 |
Standar global seri GPT-4.1
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Tingkat Perusahaan | 5 juta | 5 K |
gpt-4.1 (2025-04-14) |
Bawaan | 1 juta | 1 K |
gpt-4.1-nano (2025-04-14) |
Tingkat Perusahaan | 150 M | 150 K |
gpt-4.1-nano (2025-04-14) |
Bawaan | 5 juta | 5 K |
gpt-4.1-mini (2025-04-14) |
Tingkat Perusahaan | 150 M | 150 K |
gpt-4.1-mini (2025-04-14) |
Bawaan | 5 juta | 5 K |
Standar zona data seri GPT-4.1
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4.1 (2025-04-14) |
Tingkat Perusahaan | 2 juta | 2 K |
gpt-4.1 (2025-04-14) |
Bawaan | 300 Kelvin | 300 |
gpt-4.1-nano (2025-04-14) |
Tingkat Perusahaan | 50 Juta | 50 ribu |
gpt-4.1-nano (2025-04-14) |
Bawaan | 2 juta | 2 K |
gpt-4.1-mini (2025-04-14) |
Tingkat Perusahaan | 50 Juta | 50 ribu |
gpt-4.1-mini (2025-04-14) |
Bawaan | 2 juta | 2 K |
GPT-4 Turbo
gpt-4
(turbo-2024-04-09
) memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Perjanjian Enterprise | 2 juta | 12 K |
gpt-4 (turbo-2024-04-09) |
Bawaan | 450 K | 2,7 K |
batas laju router model
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
model-router (2025-05-19) |
Tingkat Perusahaan | 10 M | 10 K |
model-router (2025-05-19) |
Bawaan | 1 juta | 1 K |
batas rasio standar global untuk penggunaan-pratinjau komputer
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
computer-use-preview |
Tingkat Perusahaan | 30 M | 300 Kelvin |
computer-use-preview |
Bawaan | 450 K | 4,5 K |
batas laju seri o
Penting
Rasio Permintaan Per Menit (RPM) terhadap Token Per Menit (TPM) untuk kuota dapat bervariasi menurut model. Saat Anda menyebarkan model secara terprogram atau meminta peningkatan kuota , Anda tidak memiliki kontrol terperinci atas TPM dan RPM sebagai nilai independen. Kuota dialokasikan berdasarkan satuan kapasitas yang memiliki jumlah RPM & TPM yang sesuai.
Modél | Kapasitas | Permintaan Per Menit (RPM) | Token Per Menit (TPM) |
---|---|---|---|
Model obrolan yang lebih lama: | 1 Satuan | 6 RPM | 1.000 TPM |
o1 & o1-pratinjau: | 1 Satuan | 1 putaran per menit (RPM) | 6.000 TPM |
o3 | 1 Satuan | 1 putaran per menit (RPM) | 1.000 TPM |
o4-mini | 1 Satuan | 1 putaran per menit (RPM) | 1.000 TPM |
o3-mini: | 1 Satuan | 1 putaran per menit (RPM) | 10.000 TPM |
o1-mini: | 1 Satuan | 1 putaran per menit (RPM) | 10.000 TPM |
o3-pro: | 1 Satuan | 1 putaran per menit (RPM) | 10.000 TPM |
Ini sangat penting untuk penyebaran model terprogram karena perubahan rasio RPM/TPM dapat mengakibatkan kesalahan alokasi kuota yang tidak disengaja.
standar global seri o
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
codex-mini |
Perjanjian Enterprise | 10 M | 10 K |
o3-pro |
Perjanjian Enterprise | 16 M | 1,6 K |
o4-mini |
Perjanjian Enterprise | 10 M | 10 K |
o3 |
Perjanjian Enterprise | 10 M | 10 K |
o3-mini |
Perjanjian Enterprise | 50 Juta | 5 K |
o1 & o1-preview |
Perjanjian Enterprise | 30 M | 5 K |
o1-mini |
Perjanjian Enterprise | 50 Juta | 5 K |
codex-mini |
Bawaan | 1 juta | 1 K |
o3-pro |
Bawaan | 1,6 juta | 160 |
o4-mini |
Bawaan | 1 juta | 1 K |
o3 |
Bawaan | 1 juta | 1 K |
o3-mini |
Bawaan | 5 juta | 500 |
o1 & o1-preview |
Bawaan | 3 juta | 500 |
o1-mini |
Bawaan | 5 juta | 500 |
standar seri data zona o
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
o3-mini |
Perjanjian Enterprise | 20 M | 2 K |
o3-mini |
Bawaan | 2 juta | 200 |
o1 |
Perjanjian Enterprise | 6 juta | 1 K |
o1 |
Bawaan | 600 K | 100 |
o1 pratinjau & standar o1-mini
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
o1-preview |
Perjanjian Enterprise | 600 K | 100 |
o1-mini |
Perjanjian Enterprise | 1 juta | 100 |
o1-preview |
Bawaan | 300 Kelvin | 50 |
o1-mini |
Bawaan | 500 K | 50 |
pembatasan kecepatan gpt-4o
gpt-4o
dan gpt-4o-mini
memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.
gpt-4o standar global
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4o |
Perjanjian Enterprise | 30 M | 180 K |
gpt-4o-mini |
Perjanjian Enterprise | 50 Juta | 300 Kelvin |
gpt-4o |
Bawaan | 450 K | 2,7 K |
gpt-4o-mini |
Bawaan | 2 juta | 12 K |
M = juta | K = ribu
standar data zona gpt-4o
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4o |
Perjanjian Enterprise | 10 M | 60 K |
gpt-4o-mini |
Perjanjian Enterprise | 20 M | 120 K |
gpt-4o |
Bawaan | 300 Kelvin | 1,8 K |
gpt-4o-mini |
Bawaan | 1 juta | 6 K |
M = juta | K = ribu
gpt-4o standar
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4o |
Perjanjian Enterprise | 1 juta | 6 K |
gpt-4o-mini |
Perjanjian Enterprise | 2 juta | 12 K |
gpt-4o |
Bawaan | 150 K | 900 |
gpt-4o-mini |
Bawaan | 450 K | 2,7 K |
M = juta | K = ribu
audio gpt-4o
Batas laju untuk setiap gpt-4o
penyebaran model audio adalah 100 K TPM dan 1 K RPM. Selama pratinjau, portal Azure AI Foundry dan API mungkin secara tidak akurat menunjukkan batas tingkat yang berbeda. Bahkan jika Anda mencoba menetapkan batas tarif yang berbeda, batas tarif aktual adalah 100 K TPM dan RPM 1 K.
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-4o-audio-preview |
Bawaan | 450 K | 1 K |
gpt-4o-realtime-preview |
Bawaan | 800 K | 1 K |
gpt-4o-mini-audio-preview |
Bawaan | 2 juta | 1 K |
gpt-4o-mini-realtime-preview |
Bawaan | 800 K | 1 K |
M = juta | K = ribu
Pembatasan tingkat GPT-image-1
Standar global GPT0-image-1
Modél | Tier | Batas Kuota dalam satuan token per menit (TPM) | Permintaan per menit |
---|---|---|---|
gpt-image-1 |
Perjanjian Enterprise | Tidak tersedia | 20 |
gpt-image-1 |
Bawaan | Tidak tersedia | 6 |
Tingkat Penggunaan Layanan
Penerapan standar global memanfaatkan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk memenuhi permintaan inferensi pelanggan. Demikian pula, Penyebaran standar zona data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.
Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penerapan di semua langganan di semua wilayah untuk tenant tertentu.
Nota
Tingkat penggunaan hanya berlaku untuk jenis penyebaran standar, zona data, dan standar global. Tingkat penggunaan tidak berlaku untuk penyebaran batch global dan throughput terprovisi.
Standar global, standar zona data, & standar
Modél | Tingkatan Penggunaan per Bulan |
---|---|
gpt-4
+
gpt-4-32k (semua versi) |
6 Miliar token |
gpt-4o |
12 Miliar token |
gpt-4o-mini |
85 Miliar token |
o3-mini |
50 Miliar token |
o1 |
4 Miliar token |
o4-mini |
50 Miliar token |
o3 |
5 Miliar token |
gpt-4.1 |
30 Miliar token |
gpt-4.1-mini |
150 Miliar token |
gpt-4.1-nano |
550 Miliar token |
Jenis penawaran lainnya
Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.
Tier | Batas Kuota dalam satuan token per menit (TPM) |
---|---|
Azure for Students |
1 K (semua model) Seri Istimewa o & GPT-4.1 & Pratinjau GPT 4.5: 0 |
MSDN |
GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K pratinjau-penggunaan-komputer: 8 K gpt-4o-realtime-preview: 1 K Seri O: 0 Tinjauan GPT 4.5: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Standard |
GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K pratinjau-penggunaan-komputer: 30 K Seri O: 0 Tinjauan GPT 4.5: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K |
CSP Integration Sandbox
*
|
Semua model: 0 |
Lightweight trial Free Trials Azure Pass |
Semua model: 0 |
*Ini hanya berlaku untuk sejumlah kecil langganan CSP sandbox tipe lama. Gunakan kueri di bawah ini untuk menentukan apa yang quotaId
terkait dengan langganan Anda.
Untuk menentukan jenis penawaran yang terkait dengan langganan Anda, Anda dapat memeriksa quotaId
. Jika Anda quotaId
tidak tercantum dalam tabel ini, langganan Anda memenuhi syarat untuk kuota default.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Keluaran
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
Alokasi kuota/Jenis penawaran | ID kuota langganan |
---|---|
Enterprise | EnterpriseAgreement_2014-09-01 |
Bayar per penggunaan | PayAsYouGo_2014-09-01 |
MSDN | MSDN_2014-09-01 |
Sandbox Integrasi CSP | CSPDEVTEST_2018-05-01 |
Azure for Students | AzureForStudents_2018-01-01 |
Coba Gratis | FreeTrial_2014-09-01 |
Azure Pass | AzurePass_2014-09-01 |
Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
Bawaan | ID kuota apa pun yang tidak tercantum dalam tabel ini |
Praktik terbaik umum untuk tetap dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.
Cara meminta penambahan kuota
Permintaan penambahan kuota dapat diajukan melalui formulir permintaan penambahan kuota. Karena permintaan yang tinggi, permintaan peningkatan kuota diterima dan diisi dalam urutan yang diterima. Prioritas diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.
Untuk batas tarif lainnya, kirimkan permintaan layanan.
Batas kapasitas kuota regional
Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Azure AI Foundry.
Atau untuk melihat kapasitas kuota menurut wilayah untuk model/versi tertentu, Anda dapat mengkueri API kapasitas untuk langganan Anda. Sediakan subscriptionId
, model_name
, dan model_version
, lalu API akan mengembalikan kapasitas yang tersedia untuk model tersebut di semua wilayah dan jenis penyebaran dalam langganan Anda.
Nota
Saat ini portal Azure AI Foundry dan API kapasitas mengembalikan informasi kuota/kapasitas untuk model yang dihentikan dan tidak lagi tersedia.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Langkah selanjutnya
Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.