Bagikan melalui


Kuota dan batasan Azure OpenAI di dalam Microsoft Foundry Models

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.

Cakupan kuota

Kuota dan batasan tidak diberlakukan di tingkat penyewa. Sebaliknya, tingkat pembatasan kuota tertinggi dilingkup pada tingkat langganan Azure.

Alokasi kuota regional

Batas token per menit (TPM) dan permintaan per menit (RPM) ditentukan per wilayah, per langganan, dan per model atau jenis penyebaran.

Misalnya, jika model gpt-4.1 Global Standard tercantum dengan kuota 5 juta TPM dan 5.000 RPM, kemudian each wilayah di mana jenis model atau penyebaran tersedia memiliki kumpulan kuota khusus sendiri dengan jumlah tersebut untuk each langganan Azure Anda. Dalam satu langganan Azure, Anda dapat menggunakan kuantitas total kuota TPM dan RPM yang lebih besar untuk model dan jenis penyebaran tertentu, selama Anda memiliki sumber daya dan penyebaran model yang tersebar di beberapa wilayah.

Lapisan kuota

Kami memperkenalkan Tingkat Kuota untuk memperbaiki pengalaman menggunakan Model Foundry dan mengurangi hambatan saat beban kerja diskalakan. Kuota sekarang akan meningkat secara otomatis dengan penggunaan, membantu menghindari kesalahan batas tarif sambil juga menciptakan lingkungan yang lebih adil untuk semua pengguna. Tujuh tingkatan akan tersedia: Tingkat gratis dan Tingkat 1 hingga 6 - dengan Tingkat 6 menawarkan kuota tertinggi. Tingkat awal pelanggan yang ditetapkan didasarkan pada penggunaan model tersebut saat ini dan hubungan mereka saat ini dengan Microsoft, seperti status Enterprise Agreement (EA atau MCA-E). 

Apa yang berubah untukku?

Sebelumnya, Foundry hanya menawarkan tingkat kuota Default dan Enterprise untuk jenis penawaran bayar sesuai pemakaian, dengan kesenjangan besar antara setiap tingkat dan proses yang lebih lama untuk meminta peningkatan. Dengan Tingkat Kuota, semua pengguna diberi tingkat dengan kuota yang sama dengan atau lebih tinggi dari tingkat sebelumnya. Peningkatan kuota yang disetujui sebelumnya dipertahankan dan tidak akan dikurangi. Seiring bertambahnya penggunaan, Foundry secara otomatis meningkatkan kuota dengan memindahkan pengguna ke tingkat yang lebih tinggi, dan kuota tambahan masih dapat diminta melalui formulir kuota.

Bagaimana pelanggan akan secara otomatis berpindah dari satu tingkat ke tingkat lainnya, misalnya apa kriteria perubahan tingkat? 

Peningkatan tingkat otomatis terutama didasarkan pada tren konsumsi pelanggan di seluruh Model Foundry dari waktu ke waktu. Jika penggunaan pelanggan meningkat sedih sehingga tingkat kuota mereka saat ini membatasi kemampuan mereka untuk menggunakan Model Foundry, sistem akan secara otomatis meningkatkan pelanggan ke tingkat yang lebih tinggi berikutnya. Hubungan pelanggan dengan Microsoft juga diperhitungkan. Pelanggan dengan hubungan Enterprise (termasuk EA dan MCA-E) dengan Microsoft diberi tingkat kuota yang lebih tinggi. Selain itu, Microsoft juga akan mempertimbangkan riwayat pembayaran pelanggan untuk menentukan kelayakan untuk peningkatan otomatis. 

Dapatkah saya menolak peningkatan otomatis?

Ya, Anda dapat menolak peningkatan otomatis dan Anda akan tetap berada di tingkat Anda saat ini terlepas dari perubahan konsumsi Anda. Kami menyadari bahwa beberapa pelanggan kami menggunakan kuota untuk mengelola penagihan mereka. Namun, ini bukan praktik terbaik Azure, kami memahami bahwa jika sistem Anda dikonfigurasi dengan cara itu, kami tidak ingin merusaknya. Anda dapat mempelajari selengkapnya tentang manajemen penagihan dan praktik terbaik di sini: Cost Management.

Untuk menolak, Anda dapat mengatur bendera berikut ke :

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

Fitur penolakan adalah pratinjau dan dapat berubah/dihapus di masa mendatang.

Dapatkah saya meminta lebih banyak kuota?

Ya, menggunakan formulir permintaan kuota , Anda selalu dapat meminta lebih banyak kuota. Jika permintaan disetujui, tingkat saat ini akan tetap sama, tetapi dengan lebih banyak kuota yang ditetapkan.

Referensi tingkatan kuota

  • Tingkat 1
  • Tingkat 2
  • Tingkat 3
  • Tingkat 4
  • Tingkat 5
  • Tingkat 6

Tingkat 1

Nama Model Jenis Penyebaran Permintaan Per Menit (RPM) Token Per Menit (TPM)
codex-mini GlobalStandard 1,000 1,000,000
computer-use-preview GlobalStandard 4,500 450.000
gpt-4.1 DataZoneStandard 300 300.000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2,000 2,000,000
gpt-4.1-mini GlobalStandard 5.000 5,000,000
gpt-4.1-mini Standar 6.000 6.000.000
gpt-4.1-nano DataZoneStandard 2,000 2,000,000
gpt-4.1-nano GlobalStandard 5.000 5,000,000
gpt-4o DataZoneStandard 300 / 10s 300.000
gpt-4o-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini DataZoneStandard 10.000 1,000,000
gpt-4o-mini GlobalStandard 20.000 2,000,000
gpt-4o-mini-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-realtime-preview GlobalStandard 36 6.000
gpt-4o-pratinjau-waktu-nyata GlobalStandard 36 6.000
gpt-5 DataZoneStandard 3.000 300.000
gpt-5 GlobalStandard 10.000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300.000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2,000 2,000,000
gpt-5-nano GlobalStandard 5.000 5,000,000
gpt-5-pro GlobalStandard 1.600 160.000
gpt-5.1 DataZoneStandard 3.000 300.000
gpt-5.1 GlobalStandard 10.000 1,000,000
gpt-5.1-chat GlobalStandard 10.000 1,000,000
gpt-5.1-codex DataZoneStandard 3.000 300.000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10.000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3.000 300.000
gpt-5.2 GlobalStandard 10.000 1,000,000
gpt-5.2-chat GlobalStandard 10.000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10.000 1,000,000
gpt-5.3-codex GlobalStandard 10.000 1,000,000
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 GlobalStandard 9 -
gpt-realtime GlobalStandard 200 100,000
model-router DataZoneStandard 150 150.000
o1 DataZoneStandard 100 600.000
o1 GlobalStandard 500 3,000,000
o3 DataZoneStandard 300 300.000
o3 GlobalStandard 1,000 1,000,000
penelitian mendalam tentang o3 GlobalStandard 3.000 3,000,000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1.600.000
o4-mini DataZoneStandard 300 / 10s 300.000
o4-mini GlobalStandard 1,000 1,000,000
penyisipan-teks-3-besar DataZoneStandard 1,000 1,000,000
penyisipan-teks-3-besar GlobalStandard 1000 / 10 detik 1,000,000
teks-penanaman-3-kecil DataZoneStandard 1,000 1,000,000
teks-penanaman-3-kecil GlobalStandard 1000 / 10 detik 1,000,000

Referensi Kuota dan Pembatasan

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Pembatasan nama Nilai batas
Sumber Daya Azure OpenAI per wilayah, per langganan Azure 30.
Batas kuota bawaan DALL-E 2 2 permintaan bersamaan.
Batas kuota standar DALL-E 3 6 permintaan per menit
Batas kuota standar GPT-image-1 9 permintaan per menit
Batas kuota standar GPT-image-1-mini 12 permintaan per menit
Batas kuota GPT-image-1.5 default 9 permintaan per menit
Batas kuota Sora default 60 permintaan per menit.
Batas kuota Sora 2 default 2 permintaan pekerjaan1 per menit
Batas kuota API audio pengubah ucapan ke teks bawaan 3 permintaan per menit.
Jumlah token prompt maksimum per permintaan Bervariasi tergantung pada model. Untuk informasi selengkapnya, lihat Azure model OpenAI.
Penyebaran standar maksimum per sumber daya 32.
Penyebaran model maksimum yang disempurnakan 10.
Jumlah total pekerjaan pelatihan per sumber daya 100.
Maksimum menjalankan pekerjaan pelatihan secara bersamaan per sumber daya Pelatihan standar dan global: 3;
Pelatihan pengembang: 5
Antrian maksimum pekerjaan pelatihan 20.
Jumlah file maksimum per sumber daya (penyesuaian) 100.
Ukuran total semua file untuk setiap sumber daya (penyempurnaan) 1 GB.
Waktu pekerjaan pelatihan maksimum (pekerjaan gagal jika terlampaui) 720 jam.
Ukuran pekerjaan pelatihan maksimum 2 miliar.
Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda) 16 MB.
Jumlah maksimum input dalam array dengan 2,048.
Jumlah pesan maksimum 2,048.
Jumlah maksimum fungsi 128.
Jumlah maksimum alat 128.
Jumlah maksimum unit throughput yang disediakan per penyebaran 100,000.
Jumlah maksimum file per asisten atau utas 10.000 saat menggunakan API atau portal Microsoft Foundry.
Ukuran file maksimum untuk asisten dan penyempurnaan 512 MB melalui API

200 MB melalui portal Foundry.
Permintaan unggahan file maksimum per sumber daya 30 permintaan per detik.
Ukuran maksimum untuk semua file yang diunggah untuk asisten 200 GB.
Batas token untuk asisten 2.000.000 batas token.
dan gambar maksimum per permintaan (jumlah gambar dalam array pesan atau riwayat percakapan) 50.
dan token maksimum default 16.

Tingkatkan nilai parameter untuk menghindari respons terpotong. jumlah token maksimum menjadi 4.096 secara default.
Jumlah maksimum header kustom dalam permintaan API2 10.
Batas jumlah karakter pesan 1,048,576.
Ukuran pesan untuk file audio 20 MB.

1 Kuota RPM Sora 2 hanya memperhitungkan permintaan tugas video. Jenis permintaan lainnya tidak terbatas pada tarif.

2 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini, yang menghasilkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan melewati header kustom. Kami menyarankan agar pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Nota

Batas kuota dapat berubah.

batas laju router model

Model Jenis Penyebaran Pengaturan Standar RPM Standar TPM RPM perusahaan dan MCA-E Perusahaan dan MCA-E TPM
model-router
(2025-11-18)
DataZoneStandard 150 150.000 300 300.000
model-router
(2025-11-18)
GlobalStandard 250 250.000 400 400,000

Batas Batch

Pembatasan nama Nilai batas
File input Batch maksimum - (tidak ada kedaluwarsa) 500
File input Batch maksimal - (pengaturan kedaluwarsa) 10.000
Ukuran file input maksimum 200 MB
Ukuran file input maksimum - Bawa penyimpanan Anda sendiri (BYOS) 1 GB
Jumlah maksimum permintaan per file 100,000

Nota

Batas file batch tidak berlaku untuk file output (misalnya, , dan ). Untuk menghapus batas file input batch, gunakan Batch dengan Azure Blob Storage.

Kuota kelompok

Tabel memperlihatkan batas kuota kelompok. Nilai kuota untuk batch global diwakili dalam satuan token yang diantrekan. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token dalam file dihitung. Hingga job batch mencapai status final, token tersebut dihitung terhadap batas token antrean total Anda.

Batch secara global

Model Enterprise dan MCA-E Default Langganan berbasis kartu kredit bulanan Langganan MSDN Azure untuk Siswa, uji coba gratis
gpt-4.1 5B 200M 50M 90K N/A
gpt-4.1 mini 15B 1B 50M 90K N/A
gpt-4.1-nano 15B 1B 50M 90K N/A
gpt-4o 5B 200M 50M 90K N/A
gpt-4o-mini 15B 1B 50M 90K N/A
gpt-4-turbo 300 juta 80M 40M 90K N/A
gpt-4 150 juta 30 juta 5M 100 K N/A
o3-mini 15B 1B 50M 90K N/A
o4-mini 15B 1B 50M 90K N/A
gpt-5 5B 200M 50M 90K N/A
gpt-5.1 5B 200M 50M 90K N/A

B = miliar | M = juta | K = ribu

Pengelompokan zona data

Model Enterprise dan MCA-E Default Langganan berbasis kartu kredit bulanan Langganan MSDN Azure untuk Siswa, uji coba gratis
gpt-4.1 500 Juta 30 juta 30 juta 90K N/A
gpt-4.1-mini 1,5B 100M 50M 90K N/A
gpt-4o 500 Juta 30 juta 30 juta 90K N/A
gpt-4o-mini 1,5B 100M 50M 90K N/A
o3-mini 1,5B 100M 50M 90K N/A
gpt-5 5B 200M 50M 90K N/A
gpt-5.1 5B 200M 50M 90K N/A

gpt-oss

Model Jumlah token per menit (TPM) Permintaan per menit (RPM)
gpt-oss-120b 5 juta 5 K

Tingkat Penggunaan Layanan

Penyebaran Standar Global menggunakan infrastruktur global Azure. Mereka secara dinamis merutekan lalu lintas pelanggan ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Demikian pula, penyebaran Standar Zona Data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Praktik ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.

Azure tingkat penggunaan OpenAI dirancang untuk memberikan performa yang konsisten bagi sebagian besar pelanggan dengan tingkat lalu lintas rendah hingga menengah. Setiap tingkat penggunaan menentukan throughput maksimum (token per menit) yang dapat Anda harapkan dengan latensi yang dapat diprediksi. Saat penggunaan Anda tetap berada dalam tingkat yang ditetapkan, latensi tetap stabil dan waktu respons konsisten.

Apa yang terjadi jika Anda melebihi tingkat penggunaan Anda?

  • Jika throughput permintaan Anda melebihi tingkat penggunaan Anda—terutama selama periode permintaan tinggi—latensi respons Anda dapat meningkat secara signifikan.
  • Latensi dapat bervariasi dan, dalam beberapa kasus, mungkin lebih dari dua kali lebih tinggi daripada saat beroperasi dalam tingkat penggunaan Anda.
  • Variabilitas ini paling terlihat bagi pelanggan dengan penggunaan tinggi yang berkelanjutan atau pola lalu lintas yang tiba-tiba meningkat.

Jika Anda mengalami 429 kesalahan atau melihat peningkatan varianbilitas latensi, inilah yang harus Anda lakukan:

  • Minta penambahan kuota: kunjungi Azure portal untuk meminta kuota yang lebih tinggi untuk langganan Anda.
  • Pertimbangkan untuk meningkatkan ke penawaran premium (PTU): untuk beban kerja penting latensi atau volume tinggi, tingkatkan ke Unit Throughput yang Disediakan (PTU). PTU menyediakan sumber daya khusus, kapasitas terjamin, dan latensi yang dapat diprediksi—bahkan dalam skala besar. Ini adalah pilihan terbaik untuk aplikasi misi penting yang membutuhkan performa yang konsisten.
  • Pantau penggunaan Anda: tinjau metrik penggunaan Anda secara teratur di Azure portal untuk memastikan Anda beroperasi dalam batas tingkat Anda. Sesuaikan beban kerja atau strategi penyebaran Anda sesuai kebutuhan.

Batas penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model. Ini adalah jumlah total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.

Nota

Tingkat penggunaan hanya berlaku untuk jenis penyebaran Standar, Zona Data, dan Standar Global. Tingkat penggunaan tidak berlaku untuk penyebaran batch global dan throughput terprovisi.

Standar Global, Standar Zona Data, dan Standar

Model Kategori penggunaan per bulan
gpt-5 32 miliar token
gpt-5-mini 160 miliar token
gpt-5-nano 800 miliar token
gpt-5-chat 32 miliar token
(semua versi) 6 miliar token
gpt-4o 12 miliar token
gpt-4o-mini 85 miliar token
o3-mini 50 miliar token
o1 4 miliar token
o4-mini 50 miliar token
o3 5 miliar token
gpt-4.1 30 miliar token
gpt-4.1-mini 150 miliar token
gpt-4.1-nano 550 miliar token

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

  • Terapkan logika coba lagi di aplikasi Anda.
  • Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
  • Uji pola peningkatan beban yang berbeda.
  • Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.

Permintaan peningkatan kuota

Kirimkan formulir permintaan peningkatan quota untuk meminta peningkatan kuota untuk model Foundry yang dijual langsung oleh Azure, model Azure OpenAI, dan model Antropik. Kecuali untuk model Antropik, Model dari mitra dan komunitas tidak mendukung peningkatan kuota.

Permintaan penambahan kuota diproses dalam urutan yang diterima, dan prioritas diberikan kepada pelanggan yang secara aktif menggunakan alokasi kuota yang ada. Permintaan yang tidak memenuhi kondisi ini mungkin ditolak.

Batas kapasitas kuota regional

Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Foundry.

Untuk melihat kapasitas kuota menurut wilayah untuk model atau versi tertentu, Anda dapat mengkueri API kapasitas untuk langganan Anda. , , dan dan API menyediakan informasi kapasitas yang tersedia dari model tersebut di semua wilayah dan jenis tata letak untuk langganan Anda.

Nota

Saat ini, portal Foundry dan API kapasitas mengembalikan informasi kuota/kapasitas untuk model yang dihentikan dan tidak lagi tersedia.

Lihat referensi API.

Sebelum Anda menjalankan contoh:

  • Pasang dependensi: pip install azure-identity requests
  • Masuk dengan identitas Azure yang dapat mengakses kapasitas model untuk langganan Azure.
import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))