Respons cache terhadap permintaan API model bahasa besar

Artikel
10/16/2024

BERLAKU UNTUK: Semua tingkatAN API Management

Kebijakan ini llm-semantic-cache-store menyimpan respons terhadap API penyelesaian obrolan dan permintaan API penyelesaian ke cache eksternal yang dikonfigurasi. Penembolokan respons mengurangi bandwidth dan persyaratan pemrosesan yang diberlakukan pada API Azure OpenAI backend dan menurunkan latensi yang dirasakan oleh konsumen API.

Catatan

Kebijakan ini harus memiliki respons Get cache yang sesuai terhadap kebijakan permintaan API model bahasa besar.
Untuk prasyarat dan langkah-langkah untuk mengaktifkan penembolokan semantik, lihat Mengaktifkan penembolokan semantik untuk API Azure OpenAI di Azure API Management.
Saat ini, kebijakan ini sedang dalam pratinjau.

Catatan

Tetapkan elemen kebijakan dan elemen turunan dalam urutan yang disediakan dalam pernyataan kebijakan. Pelajari lebih lanjut cara mengatur atau mengedit kebijakan API Management.

Model yang didukung

Gunakan kebijakan dengan API LLM yang ditambahkan ke Azure API Management yang tersedia melalui Azure AI Model Inference API.

Pernyataan kebijakan

<llm-semantic-cache-store duration="seconds"/>

Atribut

Atribut	Deskripsi	Wajib diisi	Default
durasi	Waktu nyala dari entri cache, dinyatakan dalam detik. Ekspresi kebijakan diizinkan.	Ya	T/A

Penggunaan

Bagian kebijakan: keluar
Cakupan kebijakan: global, produk, API, operasi
Gateway: v2

Catatan penggunaan

Kebijakan ini hanya dapat digunakan sekali di bagian kebijakan.
Jika pencarian cache gagal, panggilan API yang menggunakan operasi terkait cache tidak menimbulkan kesalahan, dan operasi cache berhasil diselesaikan.

Contoh

Contoh dengan kebijakan llm-semantic-cache-lookup yang sesuai

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Untuk informasi selengkapnya tentang bekerja dengan kebijakan, lihat:

Tutorial: Mengubah dan melindungi API Anda
Referensi Kebijakan untuk daftar lengkap pernyataan kebijakan dan pengaturannya
Ekspresi kebijakan
Mengatur atau mengedit kebijakan
Menggunakan kembali konfigurasi kebijakan
Repositori cuplikan kebijakan
Kebijakan penulis menggunakan Microsoft Copilot di Azure

Bagikan melalui

Respons cache terhadap permintaan API model bahasa besar

Model yang didukung

Pernyataan kebijakan

Atribut

Penggunaan

Catatan penggunaan

Contoh

Contoh dengan kebijakan llm-semantic-cache-lookup yang sesuai

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Respons cache terhadap permintaan API model bahasa besar

Model yang didukung

Pernyataan kebijakan

Atribut

Penggunaan

Catatan penggunaan

Contoh

Contoh dengan kebijakan llm-semantic-cache-lookup yang sesuai

Kebijakan terkait

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: