Kuota dan batas Azure OpenAI Service
Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI di layanan Azure AI.
Referensi kuota dan batas
Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:
Nama Batas | Nilai Batas |
---|---|
Sumber daya OpenAI per wilayah per langganan Azure | 30 |
Batas kuota DALL-E 2 default | 2 permintaan bersamaan |
Batas kuota DALL-E 3 default | 2 unit kapasitas (6 permintaan per menit) |
Batas kuota Bisikan Default | 3 permintaan per menit |
Token prompt maksimum per permintaan | Bervariasi per model. Untuk informasi selengkapnya, lihat Model Layanan Azure OpenAI |
Maks penyebaran model yang disesuaikan | 5 |
Jumlah total pekerjaan pelatihan per sumber daya | 100 |
Maks pekerjaan pelatihan yang berjalan secara simultan per sumber daya | 1 |
Maks pekerjaan pelatihan yang diantrekan | 20 |
File Maks per sumber daya (penyempurnaan) | 50 |
Ukuran total semua file per sumber daya (penyempurnaan) | 1 GB |
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui) | 720 jam |
Ukuran pekerjaan pelatihan maks (token dalam file pelatihan) x (# dari epoch) | 2 Miliar |
Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda) | 16 MB |
Jumlah maksimum atau input dalam array dengan /embeddings |
2048 |
Jumlah /chat/completions maksimum pesan |
2048 |
Jumlah /chat/completions maksimum fungsi |
128 |
Jumlah maksimum /chat completions alat |
128 |
Jumlah maksimum unit throughput yang disediakan per penyebaran | 100.000 |
File maks per Asisten/utas | 10.000 saat menggunakan API atau AI Studio. 20 saat menggunakan Azure OpenAI Studio. |
Ukuran file maksimum untuk Asisten & penyempurnaan | 512 MB |
Batas token asisten | Batas token 2.000.000 |
Gambar maks GPT-4o per permintaan (# gambar dalam array pesan/riwayat percakapan) | 10 |
Token maks default GPT-4 vision-preview & GPT-4 turbo-2024-04-09 |
16 Tingkatkan max_tokens nilai parameter untuk menghindari respons terpotong. Token maks GPT-4o default ke 4096. |
Batas kuota regional
Wilayah | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
FranceCentral | 20 K | 60 K | 80 K | - | - | 450 K 10 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | 450 K 10 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 10 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 10 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 10 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 10 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 10 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 10 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
batas laju gpt-4o
gpt-4o
memperkenalkan tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.
gpt-4o standar global
Tingkat | Batas Kuota dalam token per menit (TPM) | Permintaan per menit |
---|---|---|
Perjanjian Enterprise | 10 M | 60 K |
Default | 450 K | 2,7 K |
M = juta | K = ribu
standar gpt-4o
Tingkat | Batas Kuota dalam token per menit (TPM) | Permintaan per menit |
---|---|---|
Perjanjian Enterprise | 1 M | 6 K |
Default | 150 K | 900 |
M = juta | K = ribu
Tingkat penggunaan
Penyebaran Standar Global menggunakan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.
Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.
Standar & standar global GPT-4o
Model | Tingkat Penggunaan per bulan |
---|---|
GPT-4o |
1,5 Miliar token |
Jenis penawaran lainnya
Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.
Tingkat | Batas Kuota dalam token per menit (TPM) |
---|---|
Azure for Students, Uji Coba Gratis | 1 K (semua model) |
Langganan MSDN | Seri GPT 3.5 Turbo: 30 K Seri GPT-4: 8 K |
Langganan berbasis kartu kredit bulanan 1 | Seri GPT 3.5 Turbo: 30 K Seri GPT-4: 8 K |
1 Saat ini berlaku untuk jenis penawaran 0003P
Di portal Azure Anda bisa melihat jenis penawaran apa yang terkait dengan langganan Anda dengan menavigasi ke langganan Anda dan memeriksa panel gambaran umum langganan. Jenis penawaran sesuai dengan bidang paket dalam gambaran umum langganan.
Praktik terbaik umum untuk tetap dalam batas tarif
Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:
- Terapkan logika coba lagi di aplikasi Anda.
- Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
- Uji pola peningkatan beban yang berbeda.
- Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.
Cara meminta peningkatan ke kuota dan batas default
Permintaan penambahan kuota dapat dikirimkan dari halaman Kuota Azure OpenAI Studio. Perhatikan bahwa karena permintaan yang luar biasa, permintaan peningkatan kuota diterima dan akan diisi dalam urutan yang mereka terima. Prioritas akan diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.
Untuk batas tarif lainnya, kirimkan permintaan layanan.
Langkah berikutnya
Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk