Bagikan melalui


Kuota Dinamis Azure OpenAI (Pratinjau)

Kuota dinamis adalah fitur Azure OpenAI yang memungkinkan penyebaran standar (bayar sesuai penggunaan) untuk secara oportunistik memanfaatkan lebih banyak kuota ketika kapasitas tambahan tersedia. Ketika kuota dinamis diatur ke nonaktif, penyebaran Anda akan dapat memproses throughput maksimum yang dibuat oleh pengaturan Token Per Menit (TPM) Anda. Ketika Anda melebihi TPM prasetel, permintaan akan mengembalikan respons HTTP 429. Ketika kuota dinamis diaktifkan, penyebaran memiliki kemampuan untuk mengakses throughput yang lebih tinggi sebelum mengembalikan 429 respons, memungkinkan Anda melakukan lebih banyak panggilan sebelumnya. Permintaan tambahan masih ditagih dengan tarif harga reguler.

Kuota dinamis hanya dapat menambah kuota yang tersedia untuk sementara waktu: kuota tidak akan pernah berkurang di bawah nilai yang dikonfigurasi.

Kapan menggunakan kuota dinamis

Kuota dinamis berguna dalam sebagian besar skenario, terutama ketika aplikasi Anda dapat menggunakan kapasitas ekstra secara oportunistik atau aplikasi itu sendiri mendorong laju di mana Azure OpenAI API dipanggil.

Biasanya, situasi di mana Anda mungkin lebih suka menghindari kuota dinamis adalah ketika aplikasi Anda akan memberikan pengalaman buruk jika kuota volatil atau meningkat.

Untuk kuota dinamis, pertimbangkan skenario seperti:

  • Pemrosesan massal,
  • Membuat ringkasan atau penyematan untuk Pengambilan Augmented Generation (RAG),
  • Analisis offline log untuk pembuatan metrik dan evaluasi,
  • Penelitian berprioritas rendah,
  • Aplikasi yang memiliki sejumlah kecil kuota yang dialokasikan.

Kapan kuota dinamis mulai berlaku?

Backend Azure OpenAI memutuskan apakah, kapan, dan berapa banyak kuota dinamis tambahan yang ditambahkan atau dihapus dari penyebaran yang berbeda. Ini tidak diperkirakan atau diumumkan sebelumnya, dan tidak dapat diprediksi. Untuk memanfaatkan kuota dinamis, kode aplikasi Anda harus dapat mengeluarkan lebih banyak permintaan karena respons HTTP 429 jarang terjadi. Azure OpenAI memberi tahu aplikasi Anda ketika Anda telah mencapai batas kuota dengan merespons dengan HTTP 429 dan tidak membiarkan lebih banyak panggilan API melalui.

Bagaimana kuota dinamis mengubah biaya?

  • Panggilan yang dilakukan di atas kuota dasar Anda memiliki biaya yang sama dengan panggilan reguler.

  • Tidak ada biaya tambahan untuk mengaktifkan kuota dinamis pada penyebaran, meskipun peningkatan throughput pada akhirnya dapat mengakibatkan peningkatan biaya tergantung pada jumlah lalu lintas yang diterima penyebaran Anda.

Catatan

Dengan kuota dinamis, tidak ada penegakan panggilan kuota atau throughput "ceiling". Azure OpenAI akan memproses permintaan sebanyak mungkin di atas kuota garis besar Anda. Jika Anda perlu mengontrol tingkat pengeluaran bahkan ketika kuota kurang dibatasi, kode aplikasi Anda perlu menahan permintaan yang sesuai.

Cara menggunakan kuota dinamis

Untuk menggunakan kuota dinamis, Anda harus:

  • Aktifkan properti kuota dinamis di penyebaran Azure OpenAI Anda.
  • Pastikan aplikasi Anda dapat memanfaatkan kuota dinamis.

Aktifkan kuota dinamis

Untuk mengaktifkan kuota dinamis untuk penyebaran, Anda dapat membuka properti tingkat lanjut dalam konfigurasi sumber daya, dan mengaktifkannya:

Cuplikan layar antarmuka pengguna konfigurasi tingkat lanjut untuk penyebaran.

Atau, Anda dapat mengaktifkannya secara terprogram dengan Azure CLI az rest:

{subscriptionId}Ganti , , {resourceGroupName}{accountName}, dan {deploymentName} dengan nilai yang relevan untuk sumber daya Anda. Dalam hal ini, accountName sama dengan nama sumber daya Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Bagaimana cara mengetahui berapa banyak kuota dinamis throughput yang ditambahkan ke aplikasi saya?

Untuk memantau cara kerjanya, Anda dapat melacak throughput aplikasi Anda di Azure Monitor. Selama Pratinjau kuota dinamis, tidak ada metrik atau log tertentu untuk menunjukkan apakah kuota telah ditingkatkan atau dikurangi secara dinamis. kuota dinamis cenderung tidak terlibat untuk penyebaran Anda jika berjalan di wilayah yang sangat digunakan, dan selama jam sibuk penggunaan untuk wilayah tersebut.

Langkah berikutnya