Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
UYGULANANLAR: Tüm API Management katmanları
İlke, llm-semantic-cache-store sohbet tamamlama API'sinin yapılandırılmış bir dış önbelleğe isteklerine verilen yanıtları önbelleğe alır. Yanıt önbelleğe alma, arka uç Azure OpenAI API'sine uygulanan bant genişliğini ve işleme gereksinimlerini azaltır ve API tüketicileri tarafından algılanan gecikme süresini azaltır.
Not
- Bu ilkenin büyük dil modeli API isteklerine karşılık gelen Önbelleğe alınmış yanıtları al ilkesi olmalıdır.
- Semantik önbelleğe almayı etkinleştirme önkoşulları ve adımları için bkz . Azure API Management'ta Azure OpenAI API'leri için anlamsal önbelleğe almayı etkinleştirme.
- Anlamsal önbelleğe alma, benzerliğe dayalı yanıtlar döndürdüğünden (tam eşleşme olmadığından), geçerli istek için yanlış, güncel olmayan veya güvenli olmayan yanıtları ortaya çıkarır. Bu özelliği iş yükünüz için dikkatle değerlendirin ve korumalar ekleyin.
Not
İlkenin öğelerini ve alt öğelerini ilke bildiriminde sağlanan sırayla ayarlayın. API Management ilkelerini ayarlama veya düzenleme hakkında daha fazla bilgi edinin.
Desteklenen model API'leri
Bu ilke, aşağıdaki API şemalarından birine uyan API Management'a eklenen LLM API'leriyle çalışır:
- OpenAI Sohbet Tamamlamaları veya Yanıtlar API'si
- Anthropic İletiler API'si (şu anda API Management v2 katmanlarında desteklenmektedir)
İlke bildirimi
<llm-semantic-cache-store duration="seconds"/>
Özellikler
| Öznitelik | Açıklama | Zorunlu | Varsayılan |
|---|---|---|---|
| süre | Saniye cinsinden belirtilen önbelleğe alınan girdilerin yaşam süresi. İlke ifadelerine izin verilir. | Evet | Yok |
Kullanım
- İlke bölümleri: giden
- İlke kapsamları: genel, ürün, API, işlem
- Ağ geçitleri: klasik, v2, tüketim, şirket içinde barındırılan
Kullanım notları
- Bu ilke, ilke bölümünde yalnızca bir kez kullanılabilir.
- Önbellek araması başarısız olursa, önbellekle ilgili işlemi kullanan API çağrısı hata vermez ve önbellek işlemi başarıyla tamamlanır.
- Herhangi bir önbellek aramadan hemen sonra hız sınırı ilkesi (veya anahtara göre hız sınırı ilkesi) yapılandırmanızı öneririz. Bu, önbellek kullanılamıyorsa arka uç hizmetinizin aşırı yüklenmesini engeller.
Örnekler
karşılık gelen llm-semantic-cache-lookup ilkesine sahip örnek
Aşağıdaki örnekte, benzerlik puanı eşiği 0,05 olan benzer önbelleğe alınmış yanıtları almak için ilkeyle birlikte llm-semantic-cache-lookup ilkenin nasıl kullanılacağı llm-semantic-cache-store gösterilmektedir. Önbelleğe alınan değerler çağıranın abonelik kimliğine göre bölümlenir.
Not
Önbellek aramasının ardından, çağrı sayısını sınırlamaya ve önbelleğin kullanılabilir olmaması durumunda arka uç hizmetinde aşırı yüklemeyi önlemeye yardımcı olmak için bir hız sınırı ilkesi (veya anahtara göre hız sınırı ilkesi) ekleyin.
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
İlgili ilkeler
İlgili içerik
İlkelerle çalışma hakkında daha fazla bilgi için bkz:
- Öğretici: API'nizi dönüştürme ve koruma
- İlke deyimlerinin ve ayarlarının tam listesi için ilke başvurusu
- İlke ifadeleri
- İlkeleri ayarlama veya düzenleme
- İlke yapılandırmalarını yeniden kullanma
- İlke kod parçacıkları deposu
- Policy örnekleri deposu
- Azure API Management ilke araç seti
- Politikalar oluşturmak, açıklamak ve sorun gidermek için Copilot yardımı alın