Bagikan melalui


Respons cache terhadap permintaan API model bahasa besar

BERLAKU UNTUK: Semua tingkatAN API Management

Kebijakan ini llm-semantic-cache-store menyimpan respons terhadap permintaan API penyelesaian obrolan ke cache eksternal yang dikonfigurasi. Penembolokan respons mengurangi bandwidth dan persyaratan pemrosesan yang diberlakukan pada API Azure OpenAI backend dan menurunkan latensi yang dirasakan oleh konsumen API.

Catatan

Catatan

Tetapkan elemen kebijakan dan elemen turunan dalam urutan yang disediakan dalam pernyataan kebijakan. Pelajari lebih lanjut cara mengatur atau mengedit kebijakan API Management.

Model yang didukung

Gunakan kebijakan dengan API LLM yang ditambahkan ke Azure API Management yang tersedia melalui Azure AI Model Inference API atau dengan model yang kompatibel dengan OpenAI yang dilayani melalui penyedia inferensi pihak ketiga.

Pernyataan kebijakan

<llm-semantic-cache-store duration="seconds"/>

Atribut

Atribut Deskripsi Wajib diisi Bawaan
durasi Waktu nyala dari entri cache, dinyatakan dalam detik. Ekspresi kebijakan diizinkan. Ya T/A

Penggunaan

Catatan penggunaan

  • Kebijakan ini hanya dapat digunakan sekali di bagian kebijakan.
  • Jika pencarian cache gagal, panggilan API yang menggunakan operasi terkait cache tidak menimbulkan kesalahan, dan operasi cache berhasil diselesaikan.
  • Sebaiknya konfigurasikan kebijakan batas tarif (atau kebijakan batas-demi-kunci tarif ) segera setelah pencarian cache apa pun. Ini membantu menjaga agar layanan backend Anda tidak kelebihan beban jika cache tidak tersedia.

Contoh

Contoh dengan kebijakan llm-semantic-cache-lookup yang sesuai

Contoh berikut menunjukkan cara menggunakan llm-semantic-cache-lookup kebijakan bersama dengan llm-semantic-cache-store kebijakan untuk mengambil respons cache yang serupa secara semantik dengan ambang skor kesamaan 0,05. Nilai yang di-cache dipartisi oleh ID langganan pemanggil.

Catatan

Tambahkan kebijakan batas tarif (atau kebijakan batas tarif berdasarkan kunci ) setelah pencarian cache untuk membantu membatasi jumlah panggilan dan mencegah kelebihan beban pada layanan backend jika cache tidak tersedia.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Untuk informasi selengkapnya tentang bekerja dengan kebijakan, lihat: