Bagikan melalui


Kuota dan batas Azure OpenAI Service

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI di layanan Azure AI.

Referensi kuota dan batas

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Nama Batas Nilai Batas
Sumber daya OpenAI per wilayah per langganan Azure 30
Batas kuota DALL-E 2 default 2 permintaan bersamaan
Batas kuota DALL-E 3 default 2 unit kapasitas (6 permintaan per menit)
Batas kuota Bisikan Default 3 permintaan per menit
Token prompt maksimum per permintaan Bervariasi per model. Untuk informasi selengkapnya, lihat Model Layanan Azure OpenAI
Penyebaran Standar Maks per sumber daya 32
Maks penyebaran model yang disesuaikan 5
Jumlah total pekerjaan pelatihan per sumber daya 100
Maks pekerjaan pelatihan yang berjalan secara simultan per sumber daya 1
Maks pekerjaan pelatihan yang diantrekan 20
File Maks per sumber daya (penyempurnaan) 50
Ukuran total semua file per sumber daya (penyempurnaan) 1 GB
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui) 720 jam
Ukuran pekerjaan pelatihan maks (token dalam file pelatihan) x (# dari epoch) 2 Miliar
Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda) 16 MB
Jumlah maksimum atau input dalam array dengan /embeddings 2048
Jumlah /chat/completions maksimum pesan 2048
Jumlah /chat/completions maksimum fungsi 128
Jumlah maksimum /chat completions alat 128
Jumlah maksimum unit throughput yang disediakan per penyebaran 100.000
File maks per Asisten/utas 10.000 saat menggunakan API atau AI Studio. 20 saat menggunakan Azure OpenAI Studio.
Ukuran file maksimum untuk Asisten & penyempurnaan 512 MB
Ukuran maksimum untuk semua file yang diunggah untuk Asisten 100 GB
Batas token asisten Batas token 2.000.000
Gambar maks GPT-4o per permintaan (# gambar dalam array pesan/riwayat percakapan) 10
Token maks default GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Tingkatkan max_tokens nilai parameter untuk menghindari respons terpotong. Token maks GPT-4o default ke 4096.
Jumlah maksimum header kustom dalam permintaanAPI 1 10

1 API kami saat ini memungkinkan hingga 10 header kustom, yang diteruskan melalui alur, dan dikembalikan. Kami telah melihat beberapa pelanggan sekarang melebihi jumlah header ini yang mengakibatkan kesalahan HTTP 431. Tidak ada solusi untuk kesalahan ini, selain mengurangi volume header. Dalam versi API yang akan datang, kita tidak akan lagi melewati header kustom. Sebaiknya pelanggan tidak bergantung pada header kustom dalam arsitektur sistem di masa mendatang.

Batas kuota regional

Wilayah GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Global-Batch GPT-4o-mini - Global-Batch GPT-4 - Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - finetune GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast 40 K 80 K 80 K 30 K - - 300 K - 30 M - 2 M - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - 30 M - 2 M - - - - - 350 K - - - - - - - - - - - -
canadaeast 40 K 80 K 80 K - - - 300 K - 30 M - 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus - - 80 K - 1 M 2 M 240 K 240 K 30 M 50 M 2 M 5 B 5 B 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 - - 80 K - 1 M 2 M 300 K - 30 M 50 M 2 M - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
FranceCentral 20 K 60 K 80 K - - - 240 K - 30 M - 2 M - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - 30 M - 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - 30 K - - 300 K - 30 M - 2 M - - - - - 350 K 350 K 350 K - - - - - - - - - -
koreacentral - - - - - - - - 30 M - 2 M - - - - - - - - - - - - - - - - - -
northcentralus - - 80 K - 1 M 2 M 300 K - 30 M 50 M 2 M - - - - - 350 K - - 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - - - 30 M - 2 M - - - - - 350 K - 350 K - - - - - - - - - -
polandcentral - - - - - - - - 30 M - 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - 30 M - 2 M - - - - - 350 K - - - - - - - - - - - -
southcentralus - - 80 K - 1 M - 240 K - 30 M - 2 M - - - - - 240 K - - - - - - - - - - - -
southindia - - 150 K - - - 300 K - 30 M - 2 M - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - 30 M - 2 M - - - - - - - - - - - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 1 M 2 M 300 K 240 K 30 M 50 M 2 M 5 B 5 B 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 K 80 K - 30 K - - 300 K - 30 M 50 M 2 M - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - - - 240 K - 30 M - 2 M - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - 240 K - 30 M 50 M 2 M - - - - - 240 K - - - - - - - - - - - -
westus - - 80 K 30 K 1 M 2 M 300 K - 30 M 50 M 2 M 5 B 5 B 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 - - 80 K - 1 M 2 M 300 K - 30 M 50 M 2 M - - - - - 350 K - 350 K - - - - - - - - - -

Batas batch global

Nama Batas Nilai Batas
File maks per sumber daya 500
Ukuran file input maks 200 MB
Permintaan maks per file 100.000

Kuota batch global

Tabel memperlihatkan batas kuota batch. Nilai kuota untuk batch global diwakili dalam hal token antrean. Saat Anda mengirimkan file untuk pemrosesan batch, jumlah token yang ada dalam file dihitung. Hingga pekerjaan batch mencapai status terminal, token tersebut akan dihitung terhadap batas token antrean total Anda.

Model Perjanjian Enterprise Default Langganan berbasis kartu kredit bulanan Langganan MSDN Azure for Students, Uji Coba Gratis
gpt-4o 5 B 50 M 1,35 M 90 K T/A
gpt-4o-mini 5 B 50 M 1,35 M 90 K T/A
gpt-4-turbo 300 M 40 M 1,35 M 90 K T/A
gpt-4 150 M 5 M 200 K 100 K T/A
gpt-35-turbo 10 B 100 M 5 M 2 M 50 rb

B = miliar | M = juta | K = ribu

pratinjau o1 & batas tarif o1-mini

pratinjau o1 & standar global o1-mini

Model Tingkat Batas Kuota dalam token per menit (TPM) Permintaan per menit
o1-preview Perjanjian Enterprise 15 M 2,5 K
o1-mini Perjanjian Enterprise 50 M 5 K
o1-preview Default 1,5 M 250
o1-mini Default 1 M 100

pratinjau o1 & standar o1-mini

Model Tingkat Batas Kuota dalam token per menit (TPM) Permintaan per menit
o1-preview Perjanjian Enterprise 600 K 100
o1-mini Perjanjian Enterprise 1 M 100
o1-preview Default 300 K 50
o1-mini Default 500 K 50

batas tarif gpt-4o & GPT-4 Turbo

gpt-4o dan gpt-4o-mini, dan gpt-4 (turbo-2024-04-09) memiliki tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

gpt-4o & GPT-4 Turbo standar global

Model Tingkat Batas Kuota dalam token per menit (TPM) Permintaan per menit
gpt-4o Perjanjian Enterprise 30 M 180 K
gpt-4o-mini Perjanjian Enterprise 50 M 300 K
gpt-4 (turbo-2024-04-09) Perjanjian Enterprise 2 M 12 K
gpt-4o Default 450 K 2,7 K
gpt-4o-mini Default 2 M 12 K
gpt-4 (turbo-2024-04-09) Default 450 K 2,7 K

M = juta | K = ribu

standar gpt-4o

Model Tingkat Batas Kuota dalam token per menit (TPM) Permintaan per menit
gpt-4o Perjanjian Enterprise 1 M 6 K
gpt-4o-mini Perjanjian Enterprise 2 M 12 K
gpt-4o Default 150 K 900
gpt-4o-mini Default 450 K 2,7 K

M = juta | K = ribu

Tingkat penggunaan

Penyebaran Standar Global menggunakan infrastruktur global Azure, merutekan lalu lintas pelanggan secara dinamis ke pusat data dengan ketersediaan terbaik untuk permintaan inferensi pelanggan. Ini memungkinkan latensi yang lebih konsisten bagi pelanggan dengan tingkat lalu lintas rendah hingga menengah. Pelanggan dengan tingkat penggunaan berkelanjutan tinggi mungkin melihat lebih banyak varianbilitas dalam latensi respons.

Batas Penggunaan menentukan tingkat penggunaan di atas tempat pelanggan mungkin melihat varianbilitas yang lebih besar dalam latensi respons. Penggunaan pelanggan ditentukan per model dan merupakan total token yang digunakan di semua penyebaran di semua langganan di semua wilayah untuk penyewa tertentu.

Catatan

Tingkat penggunaan hanya berlaku untuk jenis penyebaran standar dan global. Tingkat penggunaan tidak berlaku untuk penyebaran throughput batch global dan yang disediakan.

Standar & standar global GPT-4o

Model Tingkat Penggunaan per bulan
gpt-4o 8 Miliar token
gpt-4o-mini 45 Miliar token

Standar GPT-4

Model Tingkat Penggunaan per bulan
gpt-4 + gpt-4-32k (semua versi) 4 Miliar

Jenis penawaran lainnya

Jika langganan Azure Anda ditautkan ke jenis penawaran tertentu, nilai kuota maks Anda lebih rendah dari nilai yang ditunjukkan dalam tabel di atas.

Tingkat Batas Kuota dalam token per menit (TPM)
Azure for Students, Uji Coba Gratis 1 K (semua model)
Langganan MSDN Seri GPT 3.5 Turbo: 30 K
Seri GPT-4: 8 K
Langganan berbasis kartu kredit bulanan 1 Seri GPT 3.5 Turbo: 30 K
Seri GPT-4: 8 K

1 Saat ini berlaku untuk jenis penawaran 0003P

Di portal Azure Anda bisa melihat jenis penawaran apa yang terkait dengan langganan Anda dengan menavigasi ke langganan Anda dan memeriksa panel gambaran umum langganan. Jenis penawaran sesuai dengan bidang paket dalam gambaran umum langganan.

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

  • Terapkan logika coba lagi di aplikasi Anda.
  • Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
  • Uji pola peningkatan beban yang berbeda.
  • Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.

Cara meminta peningkatan ke kuota dan batas default

Permintaan penambahan kuota dapat dikirimkan dari halaman Kuota Azure OpenAI Studio. Perhatikan bahwa karena permintaan yang luar biasa, permintaan peningkatan kuota diterima dan akan diisi dalam urutan yang mereka terima. Prioritas akan diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.

Untuk batas tarif lainnya, kirimkan permintaan layanan.

Langkah berikutnya

Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.