Kuota dan batasan Azure OpenAI di Azure AI Foundry Models

2025-07-02

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.

Referensi Kuota dan Pembatasan

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Nama Batasan	Nilai Batas
Sumber daya Azure OpenAI per wilayah per langganan Azure	30
Batas kuota bawaan DALL-E 2	2 permintaan bersamaan
Batas kuota standar DALL-E 3	2 unit kapasitas (6 permintaan per menit)
Batas kuota standar GPT-image-1	2 unit kapasitas (6 permintaan per menit)
Batas kuota Sora default	60 permintaan per menit
Batas kuota API audio ucapan ke teks yang default	3 permintaan per menit
Jumlah token prompt maksimum per permintaan	Bervariasi tergantung pada model. Untuk informasi selengkapnya, lihat Model Azure OpenAI
Penyebaran Standar Maks per sumber daya	32
Penyebaran model yang disesuaikan maksimum	5
Jumlah total pekerjaan pelatihan per sumber daya	100
Batas maksimal pekerjaan pelatihan simultan per sumber daya	1
Maksimum jumlah pekerjaan pelatihan yang diantrekan	20
Jumlah Maksimal File per Sumber Daya (Penyesuaian)	50
Ukuran total semua file untuk setiap sumber daya (penyempurnaan)	1 GB
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui)	720 jam
Ukuran pekerjaan pelatihan maksimum (token dalam file pelatihan) x (jumlah epoch)	2 Miliar
Ukuran maksimum semua file per unggahan (Azure OpenAI terhadap data Anda)	16 MB
Jumlah maksimum input dalam array dengan `/embeddings`	2048
Jumlah maksimum pesan `/chat/completions`	2048
Jumlah maksimum fungsi `/chat/completions`	128
Maksimum jumlah alat `/chat completions`	128
Jumlah maksimum unit throughput yang disediakan untuk setiap penerapan	100,000
Maksimum file per Asisten/percakapan	10.000 saat menggunakan API atau portal Azure AI Foundry.
Ukuran file maksimum untuk Pembantu & Penyempurnaan	512 MB 200 MB melalui portal Azure AI Foundry
Ukuran maksimum untuk semua file yang diunggah untuk Asisten	200 GB
Batas token untuk asisten	Batas token adalah 2.000.000
Jumlah gambar maksimum untuk GPT-4o dan GPT-4.1 per permintaan (# jumlah gambar dalam array pesan/sejarah percakapan)	50
Jumlah token maksimum default GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Tingkatkan nilai parameter `max_tokens` untuk menghindari respons terpotong. Token maksimum GPT-4o secara bawaan adalah 4096.
Jumlah maksimum header kustom dalam permintaan^{API 1}	10
Batas jumlah karakter pesan	1048576
Ukuran pesan untuk file audio	20 MB

¹ API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Nota

Batas kuota dapat berubah.

Batas Batch

Nama Batasan	Nilai Batas
File maksimum per sumber daya	500
Ukuran maksimal file input	200 MB
Permintaan maksimal per file	100,000

Kuota kelompok

Tabel memperlihatkan batas kuota kelompok. Nilai kuota untuk batch global diwakili dalam satuan token yang diantrekan. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token yang ada dalam file dihitung. Selama proses batch mencapai keadaan terminal, token-token tersebut akan dihitung terhadap batas total token yang dimasukkan Anda.

Batch secara global

Modél	Perjanjian Enterprise	Bawaan	Langganan berbasis kartu kredit bulanan	Langganan MSDN	Azure for Students, Uji Coba Gratis
`gpt-4.1`	5 B	200 juta	50 Juta	90 K	Tidak tersedia
`gpt-4.1 mini`	15B	1B	50M	90k	Tidak tersedia
`gpt-4.1-nano`	15 B	1 B	50 Juta	90 K	Tidak tersedia
`gpt-4o`	5 B	200 juta	50 Juta	90 K	Tidak tersedia
`gpt-4o-mini`	15 B	1 B	50 Juta	90 K	Tidak tersedia
`gpt-4-turbo`	300 juta	80 juta	40 M	90 K	Tidak tersedia
`gpt-4`	150 M	30 M	5 juta	100 K	Tidak tersedia
`gpt-35-turbo`	10 B	1 B	100 M	2 juta	50 ribu
`o3-mini`	15 B	1 B	50 Juta	90 K	Tidak tersedia
`o4-mini`	15 B	1 B	50 Juta	90 K	Tidak tersedia

B = miliar | M = juta | K = ribu

Pengelompokan zona data

Modél	Perjanjian Enterprise	Bawaan	Langganan berbasis kartu kredit bulanan	Langganan MSDN	Azure for Students, Uji Coba Gratis
`gpt-4.1`	500 juta	30 M	30 M	90 K	Tidak tersedia
`gpt-4.1-mini`	1,5 B	100 M	50 Juta	90 K	Tidak tersedia
`gpt-4o`	500 juta	30 M	30 M	90 K	Tidak tersedia
`gpt-4o-mini`	1,5 B	100 M	50 Juta	90 K	Tidak tersedia
`o3-mini`	1,5 B	100 M	50 Juta	90 K	Tidak tersedia

Batas penggunaan GPT-4

Pratinjau standar global GPT-4.5

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4.5`	Tingkat Perusahaan	200 K	200
`gpt-4.5`	Bawaan	150 K	150

Standar global seri GPT-4.1

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4.1` (2025-04-14)	Tingkat Perusahaan	5 juta	5 K
`gpt-4.1` (2025-04-14)	Bawaan	1 juta	1 K
`gpt-4.1-nano` (2025-04-14)	Tingkat Perusahaan	150 M	150 K
`gpt-4.1-nano` (2025-04-14)	Bawaan	5 juta	5 K
`gpt-4.1-mini` (2025-04-14)	Tingkat Perusahaan	150 M	150 K
`gpt-4.1-mini` (2025-04-14)	Bawaan	5 juta	5 K

Standar zona data seri GPT-4.1

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4.1` (2025-04-14)	Tingkat Perusahaan	2 juta	2 K
`gpt-4.1` (2025-04-14)	Bawaan	300 Kelvin	300
`gpt-4.1-nano` (2025-04-14)	Tingkat Perusahaan	50 Juta	50 ribu
`gpt-4.1-nano` (2025-04-14)	Bawaan	2 juta	2 K
`gpt-4.1-mini` (2025-04-14)	Tingkat Perusahaan	50 Juta	50 ribu
`gpt-4.1-mini` (2025-04-14)	Bawaan	2 juta	2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4` (turbo-2024-04-09)	Perjanjian Enterprise	2 juta	12 K
`gpt-4` (turbo-2024-04-09)	Bawaan	450 K	2,7 K

batas laju router model

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`model-router` (2025-05-19)	Tingkat Perusahaan	10 M	10 K
`model-router` (2025-05-19)	Bawaan	1 juta	1 K

batas rasio standar global untuk penggunaan-pratinjau komputer

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`computer-use-preview`	Tingkat Perusahaan	30 M	300 Kelvin
`computer-use-preview`	Bawaan	450 K	4,5 K

batas laju seri o

Penting

Rasio Permintaan Per Menit (RPM) terhadap Token Per Menit (TPM) untuk kuota dapat bervariasi menurut model. Saat Anda menyebarkan model secara terprogram atau meminta peningkatan kuota , Anda tidak memiliki kontrol terperinci atas TPM dan RPM sebagai nilai independen. Kuota dialokasikan berdasarkan satuan kapasitas yang memiliki jumlah RPM & TPM yang sesuai.

Modél	Kapasitas	Permintaan Per Menit (RPM)	Token Per Menit (TPM)
Model obrolan yang lebih lama:	1 Satuan	6 RPM	1.000 TPM
o1 & o1-pratinjau:	1 Satuan	1 putaran per menit (RPM)	6.000 TPM
o3	1 Satuan	1 putaran per menit (RPM)	1.000 TPM
o4-mini	1 Satuan	1 putaran per menit (RPM)	1.000 TPM
o3-mini:	1 Satuan	1 putaran per menit (RPM)	10.000 TPM
o1-mini:	1 Satuan	1 putaran per menit (RPM)	10.000 TPM
o3-pro:	1 Satuan	1 putaran per menit (RPM)	10.000 TPM

Ini sangat penting untuk penyebaran model terprogram karena perubahan rasio RPM/TPM dapat mengakibatkan kesalahan alokasi kuota yang tidak disengaja.

standar global seri o

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`codex-mini`	Perjanjian Enterprise	10 M	10 K
`o3-pro`	Perjanjian Enterprise	16 M	1,6 K
`o4-mini`	Perjanjian Enterprise	10 M	10 K
`o3`	Perjanjian Enterprise	10 M	10 K
`o3-mini`	Perjanjian Enterprise	50 Juta	5 K
`o1` & `o1-preview`	Perjanjian Enterprise	30 M	5 K
`o1-mini`	Perjanjian Enterprise	50 Juta	5 K
`codex-mini`	Bawaan	1 juta	1 K
`o3-pro`	Bawaan	1,6 juta	160
`o4-mini`	Bawaan	1 juta	1 K
`o3`	Bawaan	1 juta	1 K
`o3-mini`	Bawaan	5 juta	500
`o1` & `o1-preview`	Bawaan	3 juta	500
`o1-mini`	Bawaan	5 juta	500

standar seri data zona o

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`o3-mini`	Perjanjian Enterprise	20 M	2 K
`o3-mini`	Bawaan	2 juta	200
`o1`	Perjanjian Enterprise	6 juta	1 K
`o1`	Bawaan	600 K	100

o1 pratinjau & standar o1-mini

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`o1-preview`	Perjanjian Enterprise	600 K	100
`o1-mini`	Perjanjian Enterprise	1 juta	100
`o1-preview`	Bawaan	300 Kelvin	50
`o1-mini`	Bawaan	500 K	50

pembatasan kecepatan gpt-4o

gpt-4o dan gpt-4o-mini memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

gpt-4o standar global

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	30 M	180 K
`gpt-4o-mini`	Perjanjian Enterprise	50 Juta	300 Kelvin
`gpt-4o`	Bawaan	450 K	2,7 K
`gpt-4o-mini`	Bawaan	2 juta	12 K

M = juta | K = ribu

standar data zona gpt-4o

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	10 M	60 K
`gpt-4o-mini`	Perjanjian Enterprise	20 M	120 K
`gpt-4o`	Bawaan	300 Kelvin	1,8 K
`gpt-4o-mini`	Bawaan	1 juta	6 K

M = juta | K = ribu

gpt-4o standar

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4o`	Perjanjian Enterprise	1 juta	6 K
`gpt-4o-mini`	Perjanjian Enterprise	2 juta	12 K
`gpt-4o`	Bawaan	150 K	900
`gpt-4o-mini`	Bawaan	450 K	2,7 K

M = juta | K = ribu

audio gpt-4o

Batas laju untuk setiap gpt-4o penyebaran model audio adalah 100 K TPM dan 1 K RPM. Selama pratinjau, portal Azure AI Foundry dan API mungkin secara tidak akurat menunjukkan batas tingkat yang berbeda. Bahkan jika Anda mencoba menetapkan batas tarif yang berbeda, batas tarif aktual adalah 100 K TPM dan RPM 1 K.

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-4o-audio-preview`	Bawaan	450 K	1 K
`gpt-4o-realtime-preview`	Bawaan	800 K	1 K
`gpt-4o-mini-audio-preview`	Bawaan	2 juta	1 K
`gpt-4o-mini-realtime-preview`	Bawaan	800 K	1 K

M = juta | K = ribu

Pembatasan tingkat GPT-image-1

Standar global GPT0-image-1

Modél	Tier	Batas Kuota dalam satuan token per menit (TPM)	Permintaan per menit
`gpt-image-1`	Perjanjian Enterprise	Tidak tersedia	20
`gpt-image-1`	Bawaan	Tidak tersedia	6

Tingkat Penggunaan Layanan

Penerapan standar global memanfaatkan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk memenuhi permintaan inferensi pelanggan. Demikian pula, Penyebaran standar zona data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penerapan di semua langganan di semua wilayah untuk tenant tertentu.

Nota

Tingkat penggunaan hanya berlaku untuk jenis penyebaran standar, zona data, dan standar global. Tingkat penggunaan tidak berlaku untuk penyebaran batch global dan throughput terprovisi.

Standar global, standar zona data, & standar

Modél	Tingkatan Penggunaan per Bulan
`gpt-4` + `gpt-4-32k` (semua versi)	6 Miliar token
`gpt-4o`	12 Miliar token
`gpt-4o-mini`	85 Miliar token
`o3-mini`	50 Miliar token
`o1`	4 Miliar token
`o4-mini`	50 Miliar token
`o3`	5 Miliar token
`gpt-4.1`	30 Miliar token
`gpt-4.1-mini`	150 Miliar token
`gpt-4.1-nano`	550 Miliar token

Jenis penawaran lainnya

Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.

Tier	Batas Kuota dalam satuan token per menit (TPM)
`Azure for Students`	1 K (semua model) Seri Istimewa o & GPT-4.1 & Pratinjau GPT 4.5: 0
`MSDN`	GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K pratinjau-penggunaan-komputer: 8 K gpt-4o-realtime-preview: 1 K Seri O: 0 Tinjauan GPT 4.5: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K pratinjau-penggunaan-komputer: 30 K Seri O: 0 Tinjauan GPT 4.5: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K Seri GPT 3.5 Turbo: 200 K Seri GPT-4: 50 K
`CSP Integration Sandbox` ^*	Semua model: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Semua model: 0

^*Ini hanya berlaku untuk sejumlah kecil langganan CSP sandbox tipe lama. Gunakan kueri di bawah ini untuk menentukan apa yang quotaId terkait dengan langganan Anda.

Untuk menentukan jenis penawaran yang terkait dengan langganan Anda, Anda dapat memeriksa quotaId. Jika Anda quotaId tidak tercantum dalam tabel ini, langganan Anda memenuhi syarat untuk kuota default.

REST
CLI

Referensi API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Keluaran

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Alokasi kuota/Jenis penawaran	ID kuota langganan
Enterprise	`EnterpriseAgreement_2014-09-01`
Bayar per penggunaan	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
Sandbox Integrasi CSP	`CSPDEVTEST_2018-05-01`
Azure for Students	`AzureForStudents_2018-01-01`
Coba Gratis	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
Bawaan	ID kuota apa pun yang tidak tercantum dalam tabel ini

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

Terapkan logika coba lagi di aplikasi Anda.
Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
Uji pola peningkatan beban yang berbeda.
Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.

Cara meminta penambahan kuota

Permintaan penambahan kuota dapat diajukan melalui formulir permintaan penambahan kuota. Karena permintaan yang tinggi, permintaan peningkatan kuota diterima dan diisi dalam urutan yang diterima. Prioritas diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.

Untuk batas tarif lainnya, kirimkan permintaan layanan.

Batas kapasitas kuota regional

Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Azure AI Foundry.

Atau untuk melihat kapasitas kuota menurut wilayah untuk model/versi tertentu, Anda dapat mengkueri API kapasitas untuk langganan Anda. Sediakan subscriptionId, model_name, dan model_version, lalu API akan mengembalikan kapasitas yang tersedia untuk model tersebut di semua wilayah dan jenis penyebaran dalam langganan Anda.

Nota

Saat ini portal Azure AI Foundry dan API kapasitas mengembalikan informasi kuota/kapasitas untuk model yang dihentikan dan tidak lagi tersedia.

Referensi API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Langkah selanjutnya

Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.

Bagikan melalui

Kuota dan batasan Azure OpenAI di Azure AI Foundry Models

Referensi Kuota dan Pembatasan

Batas Batch

Kuota kelompok

Batch secara global

Pengelompokan zona data

Batas penggunaan GPT-4

Pratinjau standar global GPT-4.5

Standar global seri GPT-4.1

Standar zona data seri GPT-4.1

GPT-4 Turbo

batas laju router model

batas rasio standar global untuk penggunaan-pratinjau komputer

batas laju seri o

standar global seri o

standar seri data zona o

o1 pratinjau & standar o1-mini

pembatasan kecepatan gpt-4o

gpt-4o standar global

standar data zona gpt-4o

gpt-4o standar

audio gpt-4o

Pembatasan tingkat GPT-image-1

Standar global GPT0-image-1

Tingkat Penggunaan Layanan

Standar global, standar zona data, & standar

Jenis penawaran lainnya

Keluaran

Praktik terbaik umum untuk tetap dalam batas tarif

Cara meminta penambahan kuota

Batas kapasitas kuota regional

Langkah selanjutnya

Saran dan Komentar

Sumber Daya Tambahan: