Bagikan melalui


Mengelola kuota Model Azure AI Foundry di Azure OpenAI

Kuota memberikan fleksibilitas untuk secara aktif mengelola alokasi batas tarif di seluruh penyebaran dalam langganan Anda. Artikel ini menjelaskan proses pengelolaan kuota Azure OpenAI Anda.

Prasyarat

Penting

Untuk tugas apa pun yang memerlukan akses untuk melihat kuota yang tersedia, kami merekomendasikan menggunakan peran Cognitive Services Usages Reader. Peran ini menyediakan akses minimal yang diperlukan untuk melihat penggunaan kuota di seluruh langganan Azure. Untuk mempelajari selengkapnya tentang peran ini dan peran lain yang anda perlukan untuk mengakses Azure OpenAI, lihat panduan kontrol akses berbasis peran Azure kami.

Peran ini dapat ditemukan di portal Azure di bawah Langganan>Kontrol akses (IAM)>Tambahkan penetapan peran>, cari Pembaca Penggunaan Cognitive Services. Peran ini harus diterapkan di tingkat langganan, peran tersebut tidak ada di tingkat sumber daya.

Jika Anda tidak ingin menggunakan peran ini, peran Pembaca langganan akan memberikan akses yang setara, tetapi juga akan memberikan akses baca lebih dari yang diperlukan untuk melihat kuota dan penyebaran model.

Pengantar kuota

Fitur kuota Azure OpenAI memungkinkan penugasan batas penggunaan untuk penyebaran Anda, hingga batas global yang disebut kuota Anda. Kuota diberikan kepada langganan Anda berdasarkan per wilayah dan per model dalam satuan Token per Menit (TPM). Saat Anda melakukan onboarding langganan ke Azure OpenAI, Anda akan menerima kuota default untuk sebagian besar model yang tersedia. Kemudian, Anda akan menetapkan TPM ke setiap penyebaran saat dibuat, dan kuota yang tersedia untuk model tersebut akan dikurangi dengan jumlah tersebut. Anda dapat terus membuat penyebaran dan menetapkannya sebagai TPM hingga mencapai batas kuota Anda. Setelah itu terjadi, Anda hanya dapat membuat penyebaran baru model tersebut dengan mengurangi TPM yang ditetapkan ke penyebaran lain dari model yang sama (sehingga membebaskan TPM untuk digunakan), atau dengan meminta dan disetujui untuk peningkatan kuota model di wilayah yang diinginkan.

Nota

Dengan kuota 240.000 TPM untuk GPT-4o di US Timur, pelanggan dapat membuat satu penyebaran 240 K TPM, dua penyebaran masing-masing 120 K TPM, atau sejumlah penyebaran dalam satu atau beberapa resource Azure OpenAI selama TPM mereka berjumlah kurang dari 240 K total di wilayah tersebut.

Saat penyebaran dibuat, TPM yang ditetapkan akan langsung memetakan ke batas tarif token per menit yang diberlakukan pada permintaan inferensinya. Batas tarif Requests-Per-Minute (RPM) juga akan diberlakukan yang nilainya ditetapkan secara proporsional ke penugasan TPM menggunakan rasio berikut:

Penting

Rasio Permintaan Per Menit (RPM) terhadap Token Per Menit (TPM) untuk kuota dapat bervariasi menurut model. Saat Anda menyebarkan model secara terprogram atau meminta peningkatan kuota , Anda tidak memiliki kontrol terperinci atas TPM dan RPM sebagai nilai independen. Kuota dialokasikan berdasarkan satuan kapasitas yang memiliki jumlah RPM & TPM yang sesuai.

Modél Kapasitas Permintaan Per Menit (RPM) Token Per Menit (TPM)
Model obrolan yang lebih lama: 1 Satuan 6 RPM 1.000 TPM
o1 & o1-pratinjau: 1 Satuan 1 putaran per menit (RPM) 6.000 TPM
o3 1 Satuan 1 putaran per menit (RPM) 1.000 TPM
o4-mini 1 Satuan 1 putaran per menit (RPM) 1.000 TPM
o3-mini: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM
o1-mini: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM
o3-pro: 1 Satuan 1 putaran per menit (RPM) 10.000 TPM

Ini sangat penting untuk penyebaran model terprogram karena perubahan rasio RPM/TPM dapat mengakibatkan kesalahan alokasi kuota yang tidak disengaja. Untuk informasi selengkapnya, lihat kuota, dan batasan.

Fleksibilitas untuk mendistribusikan TPM secara global dalam langganan dan wilayah telah memungkinkan Azure OpenAI untuk melonggarkan pembatasan lain:

  • Sumber daya maksimum per wilayah ditingkatkan menjadi 30.
  • Batas untuk membuat lebih dari satu pendistribusian model yang sama dalam satu sumber daya telah dihapus.

Menetapkan kuota

Saat membuat penyebaran model, Anda memiliki opsi untuk menetapkan Tokens-Per-Menit (TPM) ke penyebaran tersebut. TPM dapat dimodifikasi dengan kenaikan 1.000, dan akan memetakan ke batas tarif TPM dan RPM yang diberlakukan pada penyebaran Anda, seperti yang dibahas di atas.

Untuk membuat penyebaran baru dari dalam portal Azure AI Foundry, pilih Penyebaran>Deploy model>Pilih Model Dasar>Pilih Model>Konfirmasi.

Cuplikan layar antarmuka pengguna penyebaran Azure AI Foundry

Pasca penyebaran, Anda dapat menyesuaikan alokasi TPM dengan memilih dan mengedit model Anda dari halaman Penyebaran di portal Azure AI Foundry. Anda juga dapat mengubah pengaturan ini dari halaman Model Manajemen>kuota.

Penting

Kuota dan batasan dapat berubah, untuk informasi terbaru, lihat artikel kuota dan batasan kami.

Minta lebih banyak kuota

Permintaan penambahan kuota dapat diajukan melalui formulir permintaan penambahan kuota. Karena permintaan yang tinggi, permintaan peningkatan kuota diterima dan akan diisi dalam urutan yang diterima. Prioritas diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda mungkin ditolak jika kondisi ini tidak terpenuhi.

Pengaturan spesifik model

Penyebaran model yang berbeda, juga disebut kelas model memiliki nilai TPM maks unik yang sekarang dapat Anda kontrol. Ini mewakili jumlah maksimum TPM yang dapat dialokasikan untuk jenis penyebaran model tersebut di wilayah tertentu.

Semua kelas model lainnya memiliki nilai TPM maks umum.

Nota

Token KuotaPer-Minute (TPM) tidak ada hubungannya dengan batas maksimum token input untuk model. Batas token input model ditentukan dalam tabel model dan tidak terpengaruh oleh perubahan yang dilakukan pada TPM.

Lihat dan minta kuota

Untuk tampilan semua alokasi kuota Anda pada semua penyebaran di wilayah tertentu, pilih Manajemen>Kuota di portal Azure AI Foundry:

Cuplikan layar kuota Azure AI Foundry UI

  • Penyebaran: Penyebaran model dibagi berdasarkan kelas model.
  • Jenis kuota: Ada satu nilai kuota untuk setiap wilayah dan jenis model. Kuota mencakup semua versi model tersebut.
  • Alokasi kuota: Nama kuota ini menunjukkan berapa banyak kuota yang digunakan oleh penyebaran aplikasi dan total kuota yang disetujui untuk langganan dan wilayah ini. Jumlah kuota yang digunakan ini juga diwakili dalam grafik batang.
  • Permintaan Kuota: Ikon ini menavigasi ke formulir ini di mana permintaan untuk meningkatkan kuota dapat diajukan.

Pemindahan penerapan yang ada

Sebagai bagian dari transisi ke sistem kuota baru dan alokasi berbasis TPM, semua penyebaran model Azure OpenAI yang ada telah secara otomatis dimigrasikan untuk menggunakan kuota. Dalam kasus di mana alokasi TPM/RPM yang ada melebihi nilai default karena peningkatan batas tarif kustom sebelumnya, TPM yang setara ditetapkan ke penyebaran yang terkena dampak.

Memahami batas tarif

Menetapkan TPM ke penyebaran menetapkan batas tarif Tokens-Per-Minute (TPM) dan Requests-Per-Minute (RPM) untuk penyebaran, seperti yang dijelaskan di atas. Batas tarif TPM didasarkan pada jumlah maksimum token yang diperkirakan diproses oleh permintaan pada saat permintaan diterima. Ini tidak sama dengan jumlah token yang digunakan untuk penagihan, yang dihitung setelah semua pemrosesan selesai.

Saat setiap permintaan diterima, Azure OpenAI menghitung perkiraan jumlah token maksimum yang diproses yang mencakup hal berikut:

  • Teks dan hitungan perintah
  • Pengaturan parameter max_tokens
  • Pengaturan parameter best_of

Saat permintaan masuk ke titik akhir penyebaran, perkiraan jumlah token yang diproses maks ditambahkan ke jumlah token yang sedang berjalan dari semua permintaan yang diatur ulang setiap menit. Jika sewaktu-waktu selama menit tersebut, nilai batas tarif TPM tercapai, maka permintaan lebih lanjut akan menerima kode respons 429 hingga penghitung diatur ulang.

Penting

Jumlah token yang digunakan dalam perhitungan batas tarif adalah perkiraan berdasarkan sebagian pada jumlah karakter permintaan API. Perkiraan token batas laju tidak sama dengan perhitungan token yang digunakan untuk penagihan atau menentukan bahwa permintaan berada di bawah batas token masukan model. Karena sifat perkiraan dari perhitungan token batas laju, diharapkan bahwa batas laju dapat terpicu sebelum yang diperkirakan jika dibandingkan dengan pengukuran jumlah token yang tepat untuk setiap permintaan.

Batas tarif RPM didasarkan pada jumlah permintaan yang diterima dari waktu ke waktu. Batas tarif mengharapkan bahwa permintaan didistribusikan secara merata selama periode satu menit. Jika aliran rata-rata ini tidak dipertahankan, permintaan mungkin menerima respons 429 meskipun batas tidak terpenuhi saat diukur selama satu menit. Untuk menerapkan perilaku ini, Azure OpenAI mengevaluasi tingkat permintaan masuk selama jangka waktu kecil, biasanya 1 atau 10 detik. Jika jumlah permintaan yang diterima selama waktu tersebut melebihi apa yang akan diharapkan pada batas RPM yang ditetapkan, permintaan baru akan menerima kode respons 429 hingga periode evaluasi berikutnya. Misalnya, jika Azure OpenAI memantau tingkat permintaan pada interval 1 detik, maka pembatasan tarif akan terjadi untuk penyebaran 600 RPM jika lebih dari 10 permintaan diterima selama setiap periode 1 detik (600 permintaan per menit = 10 permintaan per detik).

Praktik terbaik pembatasan kecepatan

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

  • Atur max_tokens dan best_of ke nilai minimum yang melayani kebutuhan skenario Anda. Misalnya, jangan tetapkan nilai token maks besar jika Anda mengharapkan respons Anda kecil.
  • Gunakan manajemen kuota untuk meningkatkan TPM pada penyebaran dengan lalu lintas tinggi, dan untuk mengurangi TPM pada penyebaran dengan kebutuhan terbatas.
  • Terapkan logika coba lagi di aplikasi Anda.
  • Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
  • Uji pola peningkatan beban yang berbeda.

Mengotomatiskan penyebaran

Bagian ini berisi contoh templat singkat untuk membantu Anda mulai membuat penyebaran secara terprogram yang menggunakan kuota untuk mengatur batas tarif TPM. Dengan pengenalan kuota, Anda harus menggunakan versi 2023-05-01 API untuk aktivitas terkait manajemen sumber daya. Versi API ini hanya untuk mengelola sumber daya Anda, dan tidak memengaruhi versi API yang digunakan untuk menyimpulkan panggilan seperti penyelesaian, penyelesaian obrolan, penyematan, pembuatan gambar, dll.

Penyebaran

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Parameter jalur

Pengaturan Tipe Diperlukan? Deskripsi
accountName string Diperlukan Nama Sumber Daya Azure OpenAI Anda.
deploymentName string Diperlukan Nama penyebaran yang Anda pilih saat menyebarkan model yang sudah ada atau nama yang Anda inginkan untuk penyebaran model baru.
resourceGroupName string Diperlukan Nama grup sumber daya terkait untuk penyebaran model ini.
subscriptionId string Diperlukan ID Langganan untuk langganan terkait.
api-version string Diperlukan Versi API yang digunakan untuk operasi ini. Ini mengikuti format YYYY-MM-DD.

Versi yang didukung

Badan permintaan

Ini hanya subset dari parameter isi permintaan yang tersedia. Untuk daftar lengkap parameter, Anda dapat merujuk ke dokumentasi referensi REST API.

Pengaturan Tipe Deskripsi
nomor stok (SKU) SKU (Kode Barang) Definisi model sumber daya yang mewakili SKU.
kapasitas bilangan bulat Ini menunjukkan jumlah kuota yang Anda tetapkan untuk penyebaran ini. Nilai 1 sama dengan 1.000 Token per Menit (TPM). Nilai 10 sama dengan Token 10k per Menit (TPM).

Contoh permintaan

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-4o-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-4o","version": "2024-11-20"}}}'

Nota

Ada beberapa cara untuk menghasilkan token otorisasi. Metode term mudah untuk pengujian awal adalah meluncurkan Cloud Shell dari portal Azure. Kemudian jalankan az account get-access-token. Anda dapat menggunakan token ini sebagai token otorisasi sementara untuk pengujian API.

Untuk informasi selengkapnya, lihat dokumentasi referensi REST API untuk penggunaan dan penyebaran.

Penggunaan

Untuk mengkueri penggunaan kuota Anda di wilayah tertentu, untuk langganan tertentu

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Parameter jalur

Pengaturan Tipe Diperlukan? Deskripsi
subscriptionId string Diperlukan ID Langganan untuk langganan terkait.
location string Diperlukan Lokasi untuk melihat penggunaan misalnya: eastus
api-version string Diperlukan Versi API yang digunakan untuk operasi ini. Ini mengikuti format YYYY-MM-DD.

Versi yang didukung

Contoh permintaan

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' 

Penghapusan sumber daya

Saat upaya untuk menghapus sumber daya Azure OpenAI dilakukan dari portal Azure, jika ada penyebaran yang masih ada, penghapusan akan diblokir hingga penyebaran terkait dihapus. Menghapus penyebaran terlebih dahulu memungkinkan alokasi kuota dibebaskan dengan benar sehingga dapat digunakan pada penyebaran baru.

Namun, jika Anda menghapus sumber daya menggunakan REST API atau beberapa metode terprogram lainnya, ini melewati kebutuhan untuk menghapus penyebaran terlebih dahulu. Ketika ini terjadi, alokasi kuota terkait akan tetap tidak tersedia untuk ditetapkan ke penyebaran baru selama 48 jam, sampai sumber daya dibersihkan. Untuk mengaktifkan penghapusan langsung sumber daya yang dihapus untuk membebaskan kuota, ikuti instruksi penghapusan sumber daya yang dihapus.

Langkah selanjutnya

  • Untuk memeriksa default kuota untuk Azure OpenAI, lihat artikel kuota & batasan