Azure OpenAI API isteklerine yönelik yanıtları önbelleğe alma

UYGULANANLAR: Tüm API Management katmanları

İlke, azure-openai-semantic-cache-store Azure OpenAI Sohbet Tamamlama API'sinin yapılandırılmış bir dış önbelleğe yönelik isteklerine yönelik yanıtları önbelleğe alır. Yanıt önbelleğe alma, arka uç Azure OpenAI API'sine uygulanan bant genişliğini ve işleme gereksinimlerini azaltır ve API tüketicileri tarafından algılanan gecikme süresini azaltır.

Not

Bu ilkenin, Azure OpenAI API isteklerine karşılık gelen Önbelleğe alınmış yanıtları al ilkesi olmalıdır.
Semantik önbelleğe almayı etkinleştirme önkoşulları ve adımları için bkz . Azure API Management'ta Azure OpenAI API'leri için anlamsal önbelleğe almayı etkinleştirme.

Not

İlkenin öğelerini ve alt öğelerini ilke bildiriminde sağlanan sırayla ayarlayın. API Management ilkelerini ayarlama veya düzenleme hakkında daha fazla bilgi edinin.

Azure AI Foundry modellerinde desteklenen Azure OpenAI

İlke, aşağıdaki türlerdeki AI Foundry modellerinde Azure OpenAI'den API Management'a eklenen API'lerle kullanılır:

API türü	Desteklenen modeller
Sohbet tamamlama	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
Eklemeler	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
Yanıtlar (önizleme)	`gpt-4o` (Sürümler: `2024-11-20`, `2024-08-06`, `2024-05-13`) `gpt-4o-mini` (Sürüm: `2024-07-18`) `gpt-4.1` (Sürüm: `2025-04-14`) `gpt-4.1-nano` (Sürüm: `2025-04-14`) `gpt-4.1-mini` (Sürüm: `2025-04-14`) `gpt-image-1` (Sürüm: `2025-04-15`) `o3` (Sürüm: `2025-04-16`) `o4-mini` (Sürüm: '2025-04-16)

Not

Geleneksel tamamlama API'leri yalnızca eski model sürümleriyle kullanılabilir ve destek sınırlıdır.

Modeller ve özellikleri hakkında güncel bilgiler için bkz. Foundry Modellerinde Azure OpenAI.

İlke bildirimi

<azure-openai-semantic-cache-store duration="seconds"/>

Özellikler

Öznitelik	Açıklama	Zorunlu	Varsayılan
süre	Saniye cinsinden belirtilen önbelleğe alınan girdilerin yaşam süresi. İlke ifadelerine izin verilir.	Evet	Yok

Kullanım

İlke bölümleri: giden
İlke kapsamları: genel, ürün, API, işlem
Ağ geçitleri: klasik, v2, tüketim, şirket içinde barındırılan

Kullanım notları

Bu ilke, ilke bölümünde yalnızca bir kez kullanılabilir.
Önbellek araması başarısız olursa, önbellekle ilgili işlemi kullanan API çağrısı hata vermez ve önbellek işlemi başarıyla tamamlanır.
Herhangi bir önbellek aramadan hemen sonra hız sınırı ilkesi (veya anahtara göre hız sınırı ilkesi) yapılandırmanızı öneririz. Bu, önbellek kullanılamıyorsa arka uç hizmetinizin aşırı yüklenmesini engeller.

Örnekler

İlgili azure-openai-semantic-cache-lookup ilkesine sahip örnek

Aşağıdaki örnekte, benzerlik puanı eşiği 0,05 olan benzer önbelleğe alınmış yanıtları almak için ilkeyle birlikte azure-openai-semantic-cache-lookup ilkenin nasıl kullanılacağı azure-openai-semantic-cache-store gösterilmektedir. Önbelleğe alınan değerler çağıranın abonelik kimliğine göre bölümlenir.

Not

Önbellek aramasının ardından, çağrı sayısını sınırlamaya ve önbelleğin kullanılabilir olmaması durumunda arka uç hizmetinde aşırı yüklemeyi önlemeye yardımcı olmak için bir hız sınırı ilkesi (veya anahtara göre hız sınırı ilkesi) ekleyin.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

İlkelerle çalışma hakkında daha fazla bilgi için bkz:

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-11-27