Mendapatkan respons cache permintaan Azure OpenAI API

BERLAKU UNTUK: Semua tingkatAN API Management

azure-openai-semantic-cache-lookup Gunakan kebijakan untuk melakukan pencarian cache respons terhadap permintaan Api Penyelesaian Obrolan Azure OpenAI dari cache eksternal yang dikonfigurasi, berdasarkan kedekatan vektor permintaan ke permintaan sebelumnya dan ambang batas skor kesamaan yang ditentukan. Penembolokan respons mengurangi bandwidth dan persyaratan pemrosesan yang diberlakukan pada API Azure OpenAI backend dan menurunkan latensi yang dirasakan oleh konsumen API.

Catatan

Kebijakan ini harus memiliki respons Cache yang sesuai dengan kebijakan permintaan Azure OpenAI API.
Untuk prasyarat dan langkah-langkah untuk mengaktifkan penembolokan semantik, lihat Mengaktifkan penembolokan semantik untuk API LLM di Azure API Management.

Catatan

Tetapkan elemen kebijakan dan elemen turunan dalam urutan yang disediakan dalam pernyataan kebijakan. Pelajari lebih lanjut cara mengatur atau mengedit kebijakan API Management.

Azure OpenAI yang didukung di model Azure AI Foundry

Kebijakan ini digunakan dengan API yang ditambahkan ke API Management dari Azure OpenAI dalam model AI Foundry dari jenis berikut:

Tipe API	Model yang didukung
Penyelesaian obrolan	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
Penyematan	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
Respons (pratinjau)	`gpt-4o` (Versi: `2024-11-20`, `2024-08-06`, `2024-05-13`) `gpt-4o-mini` (Versi: `2024-07-18`) `gpt-4.1` (Versi: `2025-04-14`) `gpt-4.1-nano` (Versi: `2025-04-14`) `gpt-4.1-mini` (Versi: `2025-04-14`) `gpt-image-1` (Versi: `2025-04-15`) `o3` (Versi: `2025-04-16`) `o4-mini` (Versi: '2025-04-16)

Catatan

API penyelesaian tradisional hanya tersedia dengan versi model lama dan dukungan terbatas.

Untuk informasi saat ini tentang model dan kemampuannya, lihat Azure OpenAI di Model Foundry.

Pernyataan kebijakan

<azure-openai-semantic-cache-lookup
    score-threshold="score threshold to return cached response"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Atribut

Atribut	Deskripsi	Wajib diisi	Bawaan
ambang skor	Ambang skor menentukan seberapa dekat prompt masuk harus cocok dengan perintah yang di-cache untuk mengembalikan respons tersimpannya. Nilai berkisar dari 0,0 hingga 1,0. Nilai yang lebih rendah memerlukan kesamaan semantik yang lebih tinggi untuk kecocokan. Pelajari selengkapnya.	Ya	T/A
embeddings-backend-id	Backend ID untuk penyematan panggilan API.	Ya	T/A
embeddings-backend-auth	Autentikasi yang digunakan untuk menyematkan backend API.	Ya. Harus diatur ke `system-assigned`.	T/A
ignore-system-messages	Boolean. Saat diatur ke `true` (disarankan), menghapus pesan sistem dari prompt penyelesaian obrolan sebelum menilai kesamaan cache.	Tidak.	salah
jumlah pesan maks	Jika ditentukan, jumlah pesan dialog yang tersisa setelah penembolokan dilewati.	Tidak.	T/A

Elemen

Nama	Deskripsi	Wajib diisi
bervariasi-oleh	Ekspresi kustom ditentukan pada runtime yang nilainya mempartisi penembolokan. Jika beberapa `vary-by` elemen ditambahkan, nilai digabungkan untuk membuat kombinasi unik.	Tidak.

Penggunaan

Bagian kebijakan: masuk
Cakupan kebijakan: global, produk, API, operasi
Gateway: klasik, v2, konsumsi, dihost sendiri

Catatan penggunaan

Kebijakan ini hanya dapat digunakan sekali di bagian kebijakan.
Sesuaikan nilai score-threshold berdasarkan aplikasi Anda untuk memastikan bahwa sensitivitas yang tepat digunakan untuk menentukan kapan mengembalikan respons cache untuk kueri. Mulailah dengan nilai rendah seperti 0,05 dan sesuaikan untuk mengoptimalkan rasio temuan cache untuk melewatkan.
Ambang skor di atas 0,2 dapat menyebabkan ketidakcocokan cache. Pertimbangkan untuk menggunakan nilai yang lebih rendah untuk kasus penggunaan sensitif.
Kontrol akses lintas pengguna ke entri cache dengan menentukan vary-by dengan pengidentifikasi pengguna atau grup pengguna tertentu.
Model penyematan harus memiliki kapasitas yang cukup dan ukuran konteks yang memadai untuk mengakomodasi volume dan perintah prompt.
Pertimbangkan untuk menambahkan kebijakan keamanan konten llm dengan perisai cepat untuk melindungi dari serangan cepat.
Sebaiknya konfigurasikan kebijakan batas tarif (atau kebijakan batas-demi-kunci tarif ) segera setelah pencarian cache apa pun. Ini membantu menjaga agar layanan backend Anda tidak kelebihan beban jika cache tidak tersedia.

Contoh

Contoh dengan kebijakan azure-openai-semantic-cache-store yang sesuai

Contoh berikut menunjukkan cara menggunakan azure-openai-semantic-cache-lookup kebijakan bersama dengan azure-openai-semantic-cache-store kebijakan untuk mengambil respons cache yang serupa secara semantik dengan ambang skor kesamaan 0,05. Nilai yang di-cache dipartisi oleh ID langganan pemanggil.

Catatan

Tambahkan kebijakan batas tarif (atau kebijakan batas tarif berdasarkan kunci ) setelah pencarian cache untuk membantu membatasi jumlah panggilan dan mencegah kelebihan beban pada layanan backend jika cache tidak tersedia.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Untuk informasi selengkapnya tentang bekerja dengan kebijakan, lihat:

Tutorial: Mengubah dan melindungi API Anda
Referensi Kebijakan untuk daftar lengkap pernyataan kebijakan dan pengaturannya
Ekspresi kebijakan
Mengatur atau mengedit kebijakan
Menggunakan kembali konfigurasi kebijakan
Repositori cuplikan kebijakan
Repositori taman bermain kebijakan
Toolkit kebijakan Azure API Management
Mendapatkan bantuan Copilot untuk membuat, menjelaskan, dan memecahkan masalah kebijakan

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-10-31

Bagikan melalui

Mendapatkan respons cache permintaan Azure OpenAI API

Azure OpenAI yang didukung di model Azure AI Foundry

Pernyataan kebijakan

Atribut

Elemen

Penggunaan

Catatan penggunaan

Contoh

Contoh dengan kebijakan azure-openai-semantic-cache-store yang sesuai

Kebijakan terkait

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: