Mendapatkan respons cache permintaan Azure OpenAI API
BERLAKU UNTUK: Dasar v2 | Standar v2
azure-openai-semantic-cache-lookup
Gunakan kebijakan untuk melakukan pencarian cache respons terhadap permintaan Api Penyelesaian Obrolan Azure OpenAI dan API Penyelesaian dari cache eksternal yang dikonfigurasi, berdasarkan kedekatan vektor permintaan ke permintaan sebelumnya dan ambang skor kesamaan yang ditentukan. Penembolokan respons mengurangi bandwidth dan persyaratan pemrosesan yang diberlakukan pada API Azure OpenAI backend dan menurunkan latensi yang dirasakan oleh konsumen API.
Catatan
- Kebijakan ini harus memiliki respons Cache yang sesuai dengan kebijakan permintaan Azure OpenAI API.
- Untuk prasyarat dan langkah-langkah untuk mengaktifkan penembolokan semantik, lihat Mengaktifkan penembolokan semantik untuk API Azure OpenAI di Azure API Management.
- Saat ini, kebijakan ini sedang dalam pratinjau.
Catatan
Tetapkan elemen kebijakan dan elemen turunan dalam urutan yang disediakan dalam pernyataan kebijakan. Pelajari lebih lanjut cara mengatur atau mengedit kebijakan API Management.
Pernyataan kebijakan
<azure-openai-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>
Atribut
Atribut | Deskripsi | Wajib diisi | Default |
---|---|---|---|
ambang skor | Ambang batas skor kesamaan yang digunakan untuk menentukan apakah akan mengembalikan respons cache ke perintah. Nilai adalah desimal antara 0,0 dan 1,0. Pelajari selengkapnya. | Ya | T/A |
embeddings-backend-id | ID backend untuk panggilan API penyematan OpenAI. | Ya | T/A |
embeddings-backend-auth | Autentikasi yang digunakan untuk backend API penyematan Azure OpenAI. | Ya. Harus diatur ke system-assigned . |
T/A |
ignore-system-messages | Boolean. Jika diatur ke true , menghapus pesan sistem dari perintah penyelesaian obrolan GPT sebelum menilai kesamaan cache. |
No | salah |
jumlah pesan maks | Jika ditentukan, jumlah pesan dialog yang tersisa setelah penembolokan dilewati. | No | T/A |
Elemen
Nama | Deskripsi | Wajib diisi |
---|---|---|
bervariasi-oleh | Ekspresi kustom ditentukan pada runtime yang nilainya mempartisi penembolokan. Jika beberapa vary-by elemen ditambahkan, nilai digabungkan untuk membuat kombinasi unik. |
No |
Penggunaan
- Bagian kebijakan: masuk
- Cakupan kebijakan: global, ruang kerja, produk, API, operasi
- Gateway: v2
Catatan penggunaan
- Kebijakan ini hanya dapat digunakan sekali di bagian kebijakan.
Contoh
Contoh dengan kebijakan azure-openai-semantic-cache-store yang sesuai
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Kebijakan terkait
Konten terkait
Untuk informasi selengkapnya tentang bekerja dengan kebijakan, lihat:
- Tutorial: Mengubah dan melindungi API Anda
- Referensi Kebijakan untuk daftar lengkap pernyataan kebijakan dan pengaturannya
- Ekspresi kebijakan
- Mengatur atau mengedit kebijakan
- Menggunakan kembali konfigurasi kebijakan
- Repositori cuplikan kebijakan
- Kebijakan penulis menggunakan Microsoft Copilot untuk Azure
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk