Manajemen token
- 5 menit
Bayangkan Anda mendapatkan lonjakan lalu lintas yang tiba-tiba menuju API Anda, mungkin ada penjualan atau alasan lain. Untuk menghindari konsumsi berlebih dan kemungkinan gangguan layanan, Anda perlu mencari tahu cara mengelolanya.
Kebijakan Batas Token Azure OpenAI
Seperti disebutkan di awal unit ini, lonjakan tiba-tiba adalah sesuatu, Anda perlu menangani. Kabar baiknya adalah bahwa Azure API Management memiliki sesuatu yang disebut Kebijakan Batas Token.
Kebijakan ini memungkinkan pelanggan untuk menetapkan batasan konsumsi token, yang dinyatakan dalam token per menit (TPM) dan memastikan pemanfaatan sumber daya OpenAI yang adil dan efisien.
Fitur utama
Fitur utama kebijakan ini adalah:
- Kontrol Tepat: Pelanggan dapat menetapkan batas berbasis token pada berbagai kunci penghitung, seperti Kunci langganan atau Alamat IP, menyesuaikan penerapan dengan kasus penggunaan tertentu.
- Pemantauan Real Time: Kebijakan bergantung pada metrik penggunaan token yang dikembalikan dari titik akhir OpenAI, memungkinkan pemantauan dan penegakan batas yang akurat secara real-time.
- Pra-Perhitungan Token: Ini memungkinkan prakalkulasi token prompt di sisi Azure API Management, meminimalkan permintaan yang tidak perlu ke backend OpenAI jika batasnya sudah terlampaui.
- Penyesuaian yang Ditingkatkan: Pelanggan dapat menerapkan header dan variabel seperti token yang digunakan dan token yang tersisa dalam kebijakan untuk kontrol dan kustomisasi yang lebih baik.
Ss yang dapat Anda lihat, ada beberapa fitur yang membantu Anda mengelola biaya dan berkat pemantauan real time, Anda dapat memastikan bahwa Anda tidak melebihi batas.
Cara menggunakannya
Untuk menggunakan kebijakan ini, Anda perlu menambahkannya ke alur pemrosesan masuk dari operasi API. Berikut adalah cara Anda dapat melakukannya:
<azure-openai-token-limit counter-key="key value"
tokens-per-minute="number"
estimate-prompt-tokens="true | false"
retry-after-header-name="custom header name, replaces default 'Retry-After'"
retry-after-variable-name="policy expression variable name"
remaining-tokens-header-name="header name"
remaining-tokens-variable-name="policy expression variable name"
tokens-consumed-header-name="header name"
tokens-consumed-variable-name="policy expression variable name" />
Ada beberapa atribut yang dapat Anda tetapkan, tetapi yang paling penting adalah:
- counter-key: Kunci yang digunakan untuk menghitung token. Nilai ini dapat berupa kunci langganan atau alamat IP.
- token per menit: Jumlah token yang diizinkan per menit.
- estimate-prompt-tokens: Apakah akan memperkirakan token prompt atau tidak.
Azure OpenAI Memancarkan Kebijakan Metrik Token
Kebijakan ini membahas kebutuhan akan pemantauan terperinci dan analisis penggunaan token dalam aplikasi menggunakan model Azure OpenAI.
Dengan menyediakan metrik yang komprehensif, ini membantu organisasi:
- Optimalkan Alokasi Sumber Daya: Memahami dan mengelola konsumsi token secara efektif.
- Tingkatkan Pengambilan Keputusan: Dapatkan wawasan tentang pola penggunaan untuk membuat keputusan berdasarkan informasi tentang penskalakan dan manajemen sumber daya.
- Meningkatkan Pemantauan Performa: Melacak dan menganalisis penggunaan token untuk mengidentifikasi dan mengatasi potensi masalah secara proaktif
Cara menggunakan Kebijakan Metrik Emit Token
Untuk menggunakan kebijakan ini, Anda perlu menambahkannya ke alur pemrosesan masuk dari operasi API. Berikut cara Anda mengodekannya di XML:
<azure-openai-emit-token-metric
namespace="metric namespace" >
<dimension name="dimension name" value="dimension value" />
...additional dimensions...
</azure-openai-emit-token-metric>
Berikut adalah contoh menggunakan beberapa dimensi:
<policies>
<inbound>
<azure-openai-emit-token-metric
namespace="AzureOpenAI">
<dimension name="User ID" />
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" />
</azure-openai-emit-token-metric>
</inbound>
<outbound>
</outbound>
</policies>
Dalam contoh sebelumnya:
- kebijakan dikonfigurasi untuk memancarkan metrik token ke namespace Layanan AzureOpenAI dengan dimensi untuk ID Pengguna, IP Klien, dan ID API.
- Nilai dimensi IP Klien diatur ke alamat IP klien yang membuat permintaan.
Bayangkan sekarang setelah Anda dapat menampilkan metrik ini di dasbor dan Anda dapat memantau penggunaan API Anda secara real time. Misalnya, Anda dapat melihat berapa banyak token yang digunakan oleh pengguna tertentu atau berapa banyak token yang digunakan oleh API tertentu. Fitur canggih ini yang dapat membantu Anda mengoptimalkan sumber daya dan membuat keputusan berdasarkan informasi tentang penskalakan dan manajemen sumber daya.
Uji pengetahuan Anda
Saran dan Komentar
Apakah halaman ini membantu?
Tidak
Perlu bantuan dengan topik ini?
Ingin mencoba menggunakan Ask Learn untuk mengklarifikasi atau memandu Anda melalui topik ini?