Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI.
Cakupan kuota
Kuota dan batasan tidak diberlakukan di tingkat penyewa. Sebaliknya, tingkat pembatasan kuota tertinggi dilingkup pada tingkat langganan Azure.
Alokasi kuota regional
Batas token per menit (TPM) dan permintaan per menit (RPM) ditentukan per wilayah, per langganan, dan per model atau jenis penyebaran.
Misalnya, jika model gpt-4.1 Global Standard tercantum dengan kuota 5 juta TPM dan 5.000 RPM, kemudian each wilayah di mana jenis model atau penyebaran tersedia memiliki kumpulan kuota khusus sendiri dengan jumlah tersebut untuk each langganan Azure Anda. Dalam satu langganan Azure, Anda dapat menggunakan kuantitas total kuota TPM dan RPM yang lebih besar untuk model dan jenis penyebaran tertentu, selama Anda memiliki sumber daya dan penyebaran model yang tersebar di beberapa wilayah.
Lapisan kuota
Kami memperkenalkan Tingkat Kuota untuk meningkatkan pengalaman Model Foundry dan mengurangi hambatan seiring dengan peningkatan beban kerja. Kuota sekarang akan meningkat secara otomatis dengan penggunaan, membantu menghindari kesalahan batas tarif sambil juga menciptakan lingkungan yang lebih adil untuk semua pengguna. Tujuh tingkatan akan tersedia: Tingkat gratis dan Tingkat 1 hingga 6 - dengan Tingkat 6 menawarkan kuota tertinggi. Tingkat awal yang ditetapkan pelanggan didasarkan pada penggunaan model tersebut saat ini dan hubungan mereka saat ini dengan Microsoft, seperti status Perjanjian Enterprise (EA atau MCA-E).
Apa yang berubah untukku?
Sebelumnya, Foundry hanya menawarkan tingkat kuota Default dan Enterprise untuk jenis penawaran bayar sesuai pemakaian, dengan kesenjangan besar antara setiap tingkat dan proses yang lebih lama untuk meminta peningkatan. Dengan Tingkat Kuota, semua pengguna diberi tingkat dengan kuota yang sama dengan atau lebih tinggi dari tingkat sebelumnya. Peningkatan kuota yang disetujui sebelumnya dipertahankan dan tidak akan dikurangi. Seiring bertambahnya penggunaan, Foundry secara otomatis meningkatkan kuota dengan memindahkan pengguna ke tingkat yang lebih tinggi, dan kuota tambahan masih dapat diminta melalui formulir kuota.
Bagaimana pelanggan akan secara otomatis berpindah dari satu tingkat ke tingkat lainnya, misalnya apa kriteria perubahan tingkat?
Peningkatan tingkat otomatis terutama didasarkan pada tren konsumsi pelanggan di seluruh Model Foundry dari waktu ke waktu. Jika penggunaan pelanggan meningkat sedih sehingga tingkat kuota mereka saat ini membatasi kemampuan mereka untuk menggunakan Model Foundry, sistem akan secara otomatis meningkatkan pelanggan ke tingkat yang lebih tinggi berikutnya. Hubungan pelanggan dengan Microsoft juga diperhitungkan. Pelanggan dengan hubungan Enterprise (termasuk EA dan MCA-E) dengan Microsoft diberi tingkat kuota yang lebih tinggi. Selain itu, Microsoft juga akan mempertimbangkan riwayat pembayaran pelanggan untuk menentukan kelayakan untuk peningkatan otomatis.
Dapatkah saya menolak peningkatan otomatis?
Ya, Anda dapat menolak peningkatan otomatis dan Anda akan tetap berada di tingkat Anda saat ini terlepas dari perubahan konsumsi Anda. Kami menyadari bahwa beberapa pelanggan kami menggunakan kuota untuk mengelola penagihan mereka. Namun, ini bukan praktik terbaik Azure, kami memahami bahwa jika sistem Anda dikonfigurasi dengan cara itu, kami tidak ingin merusaknya. Anda dapat mempelajari selengkapnya tentang manajemen penagihan dan praktik terbaik di sini: Cost Management.
Untuk menolak, Anda dapat mengatur bendera berikut ke NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Catatan
Fitur penolakan adalah pratinjau dan dapat berubah/dihapus di masa mendatang.
Dapatkah saya meminta lebih banyak kuota?
Ya, menggunakan formulir permintaan kuota , Anda selalu dapat meminta lebih banyak kuota. Jika permintaan disetujui, tingkat saat ini akan tetap sama, tetapi dengan lebih banyak kuota yang ditetapkan.
Bagaimana cara memeriksa tingkat kuota langganan saya?
Saat ini Anda dapat memeriksa tingkat kuota Anda dengan API sarana kontrol:
curl -X GET \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Referensi tingkat kuota
Tingkat 1
| Nama Model | Jenis Penyebaran | Permintaan Per Menit (RPM) | Token Per Menit (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| pratinjau-penggunaan-komputer | GlobalStandard | 4,500 | 450.000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4.1-mini | Standar | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300 / 10 detik | 300,000 |
| gpt-4o-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-mini-audio-preview | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-4o-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1,600 | 160,000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1 | Standar | 3,000 | 300,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160,000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5.5 | DataZoneStandard | 0 | 0 |
| gpt-5.5 | GlobalStandard | 0 | 0 |
| gpt-chat-terbaru | GlobalStandard | 10.000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000 / 10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 2 | - |
| gpt-image-2 | GlobalStandard | 6 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 300 | 300,000 |
| model-router | GlobalStandard | 1,000 | 1,000,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| penelitian mendalam o3 | GlobalStandard | 3,000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300 / 10 detik | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | GlobalStandard | 1000 / 10 detik | 1,000,000 |
| text-embedding-3-small | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-small | GlobalStandard | 1000 / 10 detik | 1,000,000 |
Referensi kuota dan batasan
Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:
| Nama batasan | Nilai batas |
|---|---|
| Azure sumber daya OpenAI per wilayah, per langganan Azure | 30. |
| Batas kuota GPT-image-1 default | 9 permintaan per menit |
| Batas kuota GPT-image-1-mini default | 12 permintaan per menit |
| Batas kuota GPT-image-1.5 standar | 9 permintaan per menit |
| Batas kuota GPT-image-2 default | 9 permintaan per menit |
| Batas kuota Sora default | 60 permintaan per menit. |
| Batas kuota bawaan Sora 2 | 2 permintaan pekerjaan1 per menit |
| Batas kuota API audio ucapan ke teks default | 3 permintaan per menit. |
| Token prompt maksimum dalam setiap permintaan | Bervariasi untuk setiap model. Untuk informasi selengkapnya, lihat Azure model OpenAI. |
| Penyebaran standar maksimum per sumber daya | 32. |
| Penyebaran maksimum model yang disempurnakan | 10. |
| Jumlah total pekerjaan pelatihan per sumber daya | 100. |
| Jumlah maksimum pekerjaan pelatihan yang berjalan secara bersamaan per sumber daya | Pelatihan standar dan global: 3; Pelatihan pengembang: 5 |
| Maksimum pekerjaan pelatihan yang diantrikan | 20. |
| Jumlah maksimum file per sumber daya (penyesuaian) | 100. |
| Ukuran total semua file per sumber daya (pengoptimalan) | 1 GB. |
| Waktu pekerjaan pelatihan maksimum (pekerjaan gagal jika terlampaui) | 720 jam. |
Ukuran pekerjaan pelatihan maksimum (tokens in training file) x (# of epochs) |
2 miliar. |
| Ukuran total maksimum semua file untuk setiap unggahan (Azure OpenAI pada data Anda) | 16 MB. |
Jumlah maksimum input dalam array dengan /embeddings |
2,048. |
Jumlah token maksimum per permintaan /embeddings (total dari semua input) |
300,000. |
Jumlah maksimum /chat/completions pesan |
2,048. |
Jumlah maksimum fungsi /chat/completions |
128. |
Jumlah maksimum /chat/completions alat |
128. |
| Jumlah maksimum unit throughput yang disediakan per penyebaran | 100,000. |
| Jumlah maksimum file untuk setiap asisten atau utas | 10.000 saat menggunakan API atau portal Microsoft Foundry. |
| Ukuran file maksimum untuk asisten dan penyempurnaan | 512 MB melalui API 200 MB melalui portal Foundry. |
| Permintaan unggahan file maksimum per sumber daya | 30 permintaan per detik. |
| Ukuran maksimum untuk semua file yang diunggah untuk asisten | 200 GB. |
| Batas token dari asisten | 2.000.000 batas token. |
GPT-4o dan GPT-4.1 gambar maksimum per permintaan (jumlah gambar dalam array pesan atau riwayat percakapan) |
50. |
GPT-4 vision-preview dan GPT-4 turbo-2024-04-09 token maksimum default |
16. Tingkatkan nilai parameter max_tokens untuk menghindari respons yang terpotong.
GPT-4o nilai default token maksimum adalah 4.096. |
| Jumlah maksimum header kustom dalam permintaan API2 | 10. |
| Batas karakter pesan | 1,048,576. |
| Ukuran pesan untuk file audio | 20 MB. |
1 Kuota RPM Sora 2 hanya menghitung permintaan pekerjaan video. Jenis permintaan lainnya tidak terbatas pada tarif.
2 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur dan dikembalikan. Beberapa pelanggan sekarang melebihi jumlah header ini, yang menghasilkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan melewati header kustom. Kami menyarankan agar pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.
Catatan
Batas kuota dapat berubah.
Batas batch
| Nama batasan | Nilai batas |
|---|---|
| File input Batch maksimum - (tidak ada kedaluwarsa) | 500 |
| File input batch maksimum - (tanggal kedaluwarsa ditetapkan) | 10.000 |
| Ukuran file input maksimum | 200 MB |
| Ukuran file input maksimum - Bawa penyimpanan Anda sendiri (BYOS) | 1 GB |
| Permintaan maksimum per file | 100,000 |
Catatan
Batas file batch tidak berlaku untuk file output (misalnya, result.jsonl, dan error.jsonl). Untuk menghapus batas file input batch, gunakan Batch dengan Azure Blob Storage.
Kuota kelompok
Tabel menunjukkan batas kuota batch yang ditetapkan. Nilai kuota untuk batch global dinyatakan sebagai token yang diletakkan dalam antrean. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token dalam file dihitung. Hingga pekerjaan batch mencapai status terminal, token tersebut dihitung terhadap batas token antrean total Anda.
Batch global
| Model | Perusahaan dan MCA-E | Default | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure untuk Siswa, uji coba gratis |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200 juta | 50M | 90K | N/A |
gpt-4.1 mini |
15B | 1B | 50M | 90K | N/A |
gpt-4.1-nano |
15B | 1B | 50M | 90K | N/A |
gpt-4o |
5B | 200 juta | 50M | 90K | N/A |
gpt-4o-mini |
15B | 1B | 50M | 90K | N/A |
gpt-4-turbo |
300 Juta | 80M | 40M | 90K | N/A |
gpt-4 |
150 juta | 30 juta | 5M | 100K | N/A |
o3-mini |
15B | 1B | 50M | 90K | N/A |
o4-mini |
15B | 1B | 50M | 90K | N/A |
gpt-5 |
5B | 200 juta | 50M | 90K | N/A |
gpt-5.1 |
5B | 200 juta | 50M | 90K | N/A |
B = miliar | M = juta | K = ribu
Zona data batch
| Model | Perusahaan dan MCA-E | Default | Langganan berbasis kartu kredit bulanan | Langganan MSDN | Azure untuk Siswa, uji coba gratis |
|---|---|---|---|---|---|
gpt-4.1 |
500 juta | 30 juta | 30 juta | 90K | N/A |
gpt-4.1-mini |
1,5B | 100 juta | 50M | 90K | N/A |
gpt-4o |
500 juta | 30 juta | 30 juta | 90K | N/A |
gpt-4o-mini |
1,5B | 100 juta | 50M | 90K | N/A |
o3-mini |
1,5B | 100 juta | 50M | 90K | N/A |
gpt-5 |
5B | 200 juta | 50M | 90K | N/A |
gpt-5.1 |
5B | 200 juta | 50M | 90K | N/A |
gpt-oss
| Model | Token per menit (TPM) | Permintaan per menit (RPM) |
|---|---|---|
gpt-oss-120b |
5 juta | 5 K |
Tingkat penggunaan
Penyebaran Standar Global menggunakan infrastruktur global Azure. Mereka secara dinamis merutekan lalu lintas pelanggan ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Demikian pula, penyebaran Standar Zona Data memungkinkan Anda menggunakan infrastruktur global Azure untuk merutekan lalu lintas secara dinamis ke pusat data dalam zona data yang ditentukan Microsoft dengan ketersediaan terbaik untuk setiap permintaan. Praktik ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan yang tinggi mungkin melihat varianbilitas yang lebih besar dalam latensi respons.
Azure tingkat penggunaan OpenAI dirancang untuk memberikan performa yang konsisten bagi sebagian besar pelanggan dengan tingkat lalu lintas rendah hingga menengah. Setiap tingkat penggunaan menentukan throughput maksimum (token per menit) yang dapat Anda harapkan dengan latensi yang dapat diprediksi. Saat penggunaan Anda tetap berada dalam tingkat yang ditetapkan, latensi tetap stabil dan waktu respons konsisten.
Apa yang terjadi jika Anda melebihi tingkat penggunaan Anda?
- Jika throughput permintaan Anda melebihi tingkat penggunaan Anda—terutama selama periode permintaan tinggi—latensi respons Anda dapat meningkat secara signifikan.
- Keterlambatan dapat bervariasi dan, dalam beberapa kasus, mungkin lebih dari dua kali lipat dibandingkan saat beroperasi dalam level penggunaan Anda.
- Variabilitas ini paling terlihat bagi pelanggan dengan penggunaan berkelanjutan tinggi atau pola lalu lintas yang bersifat mendadak.
Tindakan yang direkomendasikan jika Anda melebihi tingkat penggunaan Anda
Jika Anda mengalami 429 kesalahan atau melihat peningkatan varianbilitas latensi, inilah yang harus Anda lakukan:
- Minta penambahan kuota: kunjungi portal Azure untuk meminta kuota yang lebih tinggi untuk langganan Anda.
- Pertimbangkan untuk meningkatkan ke penawaran premium (PTU): untuk beban kerja penting latensi atau volume tinggi, tingkatkan ke Unit Throughput yang Disediakan (PTU). PTU menyediakan sumber daya khusus, kapasitas terjamin, dan latensi yang dapat diprediksi—bahkan dalam skala besar. Ini adalah pilihan terbaik untuk aplikasi misi penting yang membutuhkan performa yang konsisten.
- Pantau penggunaan Anda: tinjau metrik penggunaan Anda secara teratur di portal Azure untuk memastikan Anda beroperasi dalam batas tingkat Anda. Sesuaikan beban kerja atau strategi penyebaran Anda sesuai kebutuhan.
Anda mungkin menerima respons 429 (Terlalu Banyak Permintaan) bahkan ketika metrik penggunaan token muncul di bawah kuota Anda. Untuk penjelasan mengapa hal ini terjadi, lihat Mengapa Anda mungkin melihat 429 bahkan ketika metrik penggunaan token berada di bawah kuota.
Batas penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model. Ini adalah jumlah total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.
Catatan
Tingkat penggunaan hanya berlaku untuk jenis penyebaran Standar, Zona Data, dan Standar Global. Tingkat penggunaan tidak berlaku untuk penyebaran kelompok global dan kecepatan aliran yang dialokasikan.
Standar Global, Standar Zona Data, dan Standar
| Model | Kategori penggunaan per bulan |
|---|---|
gpt-5 |
32 miliar token |
gpt-5-mini |
160 miliar token |
gpt-5-nano |
800 miliar token |
gpt-5-chat |
32 miliar token |
gpt-4
+
gpt-4-32k (semua versi) |
6 miliar token |
gpt-4o |
12 miliar token |
gpt-4o-mini |
85 miliar token |
o3-mini |
50 miliar token |
o1 |
4 miliar token |
o4-mini |
50 miliar token |
o3 |
5 miliar token |
gpt-4.1 |
30 miliar token |
gpt-4.1-mini |
150 miliar token |
gpt-4.1-nano |
550 miliar token |
Praktik terbaik umum untuk tetap dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan tajam dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.
Untuk praktik terbaik secara terperinci, contoh kode percobaan ulang dengan backoff, dan panduan pemecahan masalah 429, lihat Mengelola Azure OpenAI dalam kuota Microsoft Foundry Models.
Kuota permintaan meningkat
Kirimkan formulir permintaan peningkatan kuota untuk mengajukan peningkatan kuota bagi Model Foundry yang dijual oleh Azure, model Azure OpenAI, dan model Anthropic. Kecuali untuk model Anthropic, model dari mitra dan komunitas tidak mendukung peningkatan kuota.
Permintaan penambahan kuota diproses dalam urutan yang diterima, dan prioritas diberikan kepada pelanggan yang secara aktif menggunakan alokasi kuota yang ada. Permintaan yang tidak memenuhi kondisi ini mungkin ditolak.
Batas kapasitas kuota regional
Anda dapat melihat ketersediaan kuota menurut wilayah untuk langganan Anda di portal Foundry.
Untuk memeriksa kuota dan kapasitas secara terprogram, lihat Memeriksa kuota dan kapasitas secara terprogram dalam panduan manajemen kuota. Bagian itu mencakup dua REST API pelengkap: API Penggunaan untuk memeriksa konsumsi terhadap batas, dan API Kapasitas Model untuk memeriksa kapasitas penyebaran yang tersedia berdasarkan model dan wilayah.
Catatan
Saat ini, portal Foundry dan API kapasitas mengembalikan kuota dan informasi kapasitas untuk model yang dihentikan dan tidak lagi tersedia untuk penyebaran baru.
Konten terkait
- Jelajahi cara mengelola kuota untuk penggelaran OpenAI Azure Anda.
- Pelajari lebih lanjut tentang model dasar yang mendukung Azure OpenAI.