Bagikan melalui


Kuota dan batasan Azure OpenAI di Azure AI Foundry Models

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.

Referensi Kuota dan Pembatasan

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Nama Batasan Nilai Batas
Sumber daya Azure OpenAI per wilayah per langganan Azure 30
Batas kuota bawaan DALL-E 2 2 permintaan bersamaan
Batas kuota standar DALL-E 3 2 unit kapasitas (6 permintaan per menit)
Batas kuota standar GPT-image-1 2 unit kapasitas (6 permintaan per menit)
Batas kuota Sora default 60 permintaan per menit
Batas kuota API audio ucapan ke teks yang default 3 permintaan per menit
Jumlah token prompt maksimum per permintaan Bervariasi tergantung pada model. Untuk informasi selengkapnya, lihat Model Azure OpenAI
Penyebaran Standar Maks per sumber daya 32
Penyebaran model yang disesuaikan maksimum 5
Jumlah total pekerjaan pelatihan per sumber daya 100
Batas maksimal pekerjaan pelatihan simultan per sumber daya 1
Maksimum jumlah pekerjaan pelatihan yang diantrekan 20
Jumlah Maksimal File per Sumber Daya (Penyesuaian) 50
Ukuran total semua file untuk setiap sumber daya (penyempurnaan) 1 GB
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui) 720 jam
Ukuran pekerjaan pelatihan maksimum (token dalam file pelatihan) x (jumlah epoch) 2 Miliar
Ukuran maksimum semua file per unggahan (Azure OpenAI terhadap data Anda) 16 MB
Jumlah maksimum input dalam array dengan /embeddings 2048
Jumlah maksimum pesan /chat/completions 2048
Jumlah maksimum fungsi /chat/completions 128
Maksimum jumlah alat /chat completions 128
Jumlah maksimum unit throughput yang disediakan untuk setiap penerapan 100,000
Maksimum file per Asisten/percakapan 10.000 saat menggunakan API atau portal Azure AI Foundry.
Ukuran file maksimum untuk Pembantu & Penyempurnaan 512 MB

200 MB melalui portal Azure AI Foundry
Ukuran maksimum untuk semua file yang diunggah untuk Asisten 200 GB
Batas token untuk asisten Batas token adalah 2.000.000
Jumlah gambar maksimum untuk GPT-4o dan GPT-4.1 per permintaan (# jumlah gambar dalam array pesan/sejarah percakapan) 50
Jumlah token maksimum default GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Tingkatkan nilai parameter max_tokens untuk menghindari respons terpotong. Token maksimum GPT-4o secara bawaan adalah 4096.
Jumlah maksimum header kustom dalam permintaanAPI 1 10
Batas jumlah karakter pesan 1048576
Ukuran pesan untuk file audio 20 MB

1 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Nota

Batas kuota dapat berubah.

Batas Batch

Nama Batasan Nilai Batas
File maksimum per sumber daya 500
Ukuran maksimal file input 200 MB
Permintaan maksimal per file 100,000

Kuota kelompok

Tabel memperlihatkan batas kuota kelompok. Nilai kuota untuk batch global diwakili dalam satuan token yang diantrekan. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token yang ada dalam file dihitung. Selama proses batch mencapai keadaan terminal, token-token tersebut akan dihitung terhadap batas total token yang dimasukkan Anda.

Batch secara global

Modél Perjanjian Enterprise Bawaan Langganan berbasis kartu kredit bulanan Langganan MSDN Azure for Students, Uji Coba Gratis
gpt-4.1 5 B 200 juta 50 Juta 90 K Tidak tersedia
gpt-4.1 mini 15B 1B 50M 90k Tidak tersedia
gpt-4.1-nano 15 B 1 B 50 Juta 90 K Tidak tersedia
gpt-4o 5 B 200 juta 50 Juta 90 K Tidak tersedia
gpt-4o-mini 15 B 1 B 50 Juta 90 K Tidak tersedia
gpt-4-turbo 300 juta 80 juta 40 M 90 K Tidak tersedia
gpt-4 150 M 30 M 5 juta 100 K Tidak tersedia
gpt-35-turbo 10 B 1 B 100 M 2 juta 50 ribu
o3-mini 15 B 1 B 50 Juta 90 K Tidak tersedia
o4-mini 15 B 1 B 50 Juta 90 K Tidak tersedia

B = miliar | M = juta | K = ribu

Pengelompokan zona data

Modél Perjanjian Enterprise Bawaan Langganan berbasis kartu kredit bulanan Langganan MSDN Azure for Students, Uji Coba Gratis
gpt-4.1 500 juta 30 M 30 M 90 K Tidak tersedia
gpt-4.1-mini 1,5 B 100 M 50 Juta 90 K Tidak tersedia
gpt-4o 500 juta 30 M 30 M 90 K Tidak tersedia
gpt-4o-mini 1,5 B 100 M 50 Juta 90 K Tidak tersedia
o3-mini 1,5 B 100 M 50 Juta 90 K Tidak tersedia

Batas penggunaan GPT-4

Pratinjau standar global GPT-4.5

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4.5 Tingkat Perusahaan 200 K 200
gpt-4.5 Bawaan 150 K 150

Standar global seri GPT-4.1

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4.1 (2025-04-14) Tingkat Perusahaan 5 juta 5 K
gpt-4.1 (2025-04-14) Bawaan 1 juta 1 K
gpt-4.1-nano (2025-04-14) Tingkat Perusahaan 150 M 150 K
gpt-4.1-nano (2025-04-14) Bawaan 5 juta 5 K
gpt-4.1-mini (2025-04-14) Tingkat Perusahaan 150 M 150 K
gpt-4.1-mini (2025-04-14) Bawaan 5 juta 5 K

Standar zona data seri GPT-4.1

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4.1 (2025-04-14) Tingkat Perusahaan 2 juta 2 K
gpt-4.1 (2025-04-14) Bawaan 300 Kelvin 300
gpt-4.1-nano (2025-04-14) Tingkat Perusahaan 50 Juta 50 ribu
gpt-4.1-nano (2025-04-14) Bawaan 2 juta 2 K
gpt-4.1-mini (2025-04-14) Tingkat Perusahaan 50 Juta 50 ribu
gpt-4.1-mini (2025-04-14) Bawaan 2 juta 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4 (turbo-2024-04-09) Perjanjian Enterprise 2 juta 12 K
gpt-4 (turbo-2024-04-09) Bawaan 450 K 2,7 K

batas laju router model

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
model-router (2025-05-19) Tingkat Perusahaan 10 M 10 K
model-router (2025-05-19) Bawaan 1 juta 1 K

batas rasio standar global untuk penggunaan-pratinjau komputer

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
computer-use-preview Tingkat Perusahaan 30 M 300 Kelvin
computer-use-preview Bawaan 450 K 4,5 K

batas laju seri o

Penting

Rasio Permintaan Per Menit (RPM) terhadap Token Per Menit (TPM) untuk kuota dapat bervariasi menurut model. Saat Anda menyebarkan model secara terprogram atau meminta peningkatan kuota , Anda tidak memiliki kontrol terperinci atas TPM dan RPM sebagai nilai independen. Kuota dialokasikan berdasarkan satuan kapasitas yang memiliki jumlah RPM & TPM yang sesuai.

Modél Kapasitas Permintaan Per Menit (RPM) Token Per Menit (TPM)
Model obrolan yang lebih lama: 1 Satuan 6 RPM 1.000 TPM
o1 & o1-pratinjau: 1 Satuan 1 putaran per menit (RPM) 6.000 TPM
o3 1 Satuan 1 putaran per menit (RPM) 1.000 TPM
o4-mini 1 Satuan 1 putaran per menit (RPM) 1.000 TPM
o3-mini: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM
o1-mini: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM
o3-pro: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM

Ini sangat penting untuk penyebaran model terprogram karena perubahan rasio RPM/TPM dapat mengakibatkan kesalahan alokasi kuota yang tidak disengaja.

standar global seri o

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
codex-mini Perjanjian Enterprise 10 M 10 K
o3-pro Perjanjian Enterprise 16 M 1,6 K
o4-mini Perjanjian Enterprise 10 M 10 K
o3 Perjanjian Enterprise 10 M 10 K
o3-mini Perjanjian Enterprise 50 Juta 5 K
o1 & o1-preview Perjanjian Enterprise 30 M 5 K
o1-mini Perjanjian Enterprise 50 Juta 5 K
codex-mini Bawaan 1 juta 1 K
o3-pro Bawaan 1,6 juta 160
o4-mini Bawaan 1 juta 1 K
o3 Bawaan 1 juta 1 K
o3-mini Bawaan 5 juta 500
o1 & o1-preview Bawaan 3 juta 500
o1-mini Bawaan 5 juta 500

standar seri data zona o

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
o3-mini Perjanjian Enterprise 20 M 2 K
o3-mini Bawaan 2 juta 200
o1 Perjanjian Enterprise 6 juta 1 K
o1 Bawaan 600 K 100

o1 pratinjau & standar o1-mini

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
o1-preview Perjanjian Enterprise 600 K 100
o1-mini Perjanjian Enterprise 1 juta 100
o1-preview Bawaan 300 Kelvin 50
o1-mini Bawaan 500 K 50

pembatasan kecepatan gpt-4o

gpt-4o dan gpt-4o-mini memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

gpt-4o standar global

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4o Perjanjian Enterprise 30 M 180 K
gpt-4o-mini Perjanjian Enterprise 50 Juta 300 Kelvin
gpt-4o Bawaan 450 K 2,7 K
gpt-4o-mini Bawaan 2 juta 12 K

M = juta | K = ribu

standar data zona gpt-4o

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4o Perjanjian Enterprise 10 M 60 K
gpt-4o-mini Perjanjian Enterprise 20 M 120 K
gpt-4o Bawaan 300 Kelvin 1,8 K
gpt-4o-mini Bawaan 1 juta 6 K

M = juta | K = ribu

gpt-4o standar

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4o Perjanjian Enterprise 1 juta 6 K
gpt-4o-mini Perjanjian Enterprise 2 juta 12 K
gpt-4o Bawaan 150 K 900
gpt-4o-mini Bawaan 450 K 2,7 K

M = juta | K = ribu

audio gpt-4o

Batas laju untuk setiap gpt-4o penyebaran model audio adalah 100 K TPM dan 1 K RPM. Selama pratinjau, portal Azure AI Foundry dan API mungkin secara tidak akurat menunjukkan batas tingkat yang berbeda. Bahkan jika Anda mencoba menetapkan batas tarif yang berbeda, batas tarif aktual adalah 100 K TPM dan RPM 1 K.

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-4o-audio-preview Bawaan 450 K 1 K
gpt-4o-realtime-preview Bawaan 800 K 1 K
gpt-4o-mini-audio-preview Bawaan 2 juta 1 K
gpt-4o-mini-realtime-preview Bawaan 800 K 1 K

M = juta | K = ribu

Pembatasan tingkat GPT-image-1

Standar global GPT0-image-1

Modél Tier Batas Kuota dalam satuan token per menit (TPM) Permintaan per menit
gpt-image-1 Perjanjian Enterprise Tidak tersedia 20
gpt-image-1 Bawaan Tidak tersedia 6

Tingkat Penggunaan Layanan

Penerapan standar global memanfaatkan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk memenuhi permintaan inferensi pelanggan. Demikian pula, Penyebaran standar zona data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penerapan di semua langganan di semua wilayah untuk tenant tertentu.

Nota

Tingkat penggunaan hanya berlaku untuk jenis penyebaran standar, zona data, dan standar global. Tingkat penggunaan tidak berlaku untuk penyebaran batch global dan throughput terprovisi.

Standar global, standar zona data, & standar

Modél Tingkatan Penggunaan per Bulan
gpt-4 + gpt-4-32k (semua versi) 6 Miliar token
gpt-4o 12 Miliar token
gpt-4o-mini 85 Miliar token
o3-mini 50 Miliar token
o1 4 Miliar token
o4-mini 50 Miliar token
o3 5 Miliar token
gpt-4.1 30 Miliar token
gpt-4.1-mini 150 Miliar token
gpt-4.1-nano 550 Miliar token

Jenis penawaran lainnya

Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.

Tier Batas Kuota dalam satuan token per menit (TPM)
Azure for Students 1 K (semua model)
Seri Istimewa o & GPT-4.1 & Pratinjau GPT 4.5: 0
MSDN GPT-4o-mini: 200 K
Seri GPT 3.5 Turbo: 200 K
Seri GPT-4: 50 K
pratinjau-penggunaan-komputer: 8 K
gpt-4o-realtime-preview: 1 K
Seri O: 0
Tinjauan GPT 4.5: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
Seri GPT 3.5 Turbo: 200 K
Seri GPT-4: 50 K
pratinjau-penggunaan-komputer: 30 K
Seri O: 0
Tinjauan GPT 4.5: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
Seri GPT 3.5 Turbo: 200 K
Seri GPT-4: 50 K
CSP Integration Sandbox * Semua model: 0
Lightweight trial
Free Trials
Azure Pass
Semua model: 0

*Ini hanya berlaku untuk sejumlah kecil langganan CSP sandbox tipe lama. Gunakan kueri di bawah ini untuk menentukan apa yang quotaId terkait dengan langganan Anda.

Untuk menentukan jenis penawaran yang terkait dengan langganan Anda, Anda dapat memeriksa quotaId. Jika Anda quotaId tidak tercantum dalam tabel ini, langganan Anda memenuhi syarat untuk kuota default.

Referensi API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Keluaran

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Alokasi kuota/Jenis penawaran ID kuota langganan
Enterprise EnterpriseAgreement_2014-09-01
Bayar per penggunaan PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Sandbox Integrasi CSP CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Coba Gratis FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Bawaan ID kuota apa pun yang tidak tercantum dalam tabel ini

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

  • Terapkan logika coba lagi di aplikasi Anda.
  • Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
  • Uji pola peningkatan beban yang berbeda.
  • Tingkatkan kuota yang ditetapkan untuk penyebaran Anda. Pindahkan kuota dari penempatan lain, jika perlu.

Cara meminta penambahan kuota

Permintaan penambahan kuota dapat diajukan melalui formulir permintaan penambahan kuota. Karena permintaan yang tinggi, permintaan peningkatan kuota diterima dan diisi dalam urutan yang diterima. Prioritas diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.

Untuk batas tarif lainnya, kirimkan permintaan layanan.

Batas kapasitas kuota regional

Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Azure AI Foundry.

Atau untuk melihat kapasitas kuota menurut wilayah untuk model/versi tertentu, Anda dapat mengkueri API kapasitas untuk langganan Anda. Sediakan subscriptionId, model_name, dan model_version, lalu API akan mengembalikan kapasitas yang tersedia untuk model tersebut di semua wilayah dan jenis penyebaran dalam langganan Anda.

Nota

Saat ini portal Azure AI Foundry dan API kapasitas mengembalikan informasi kuota/kapasitas untuk model yang dihentikan dan tidak lagi tersedia.

Referensi API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Langkah selanjutnya

Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.