إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ينطبق على: جميع مستويات إدارة واجهة برمجة التطبيقات
استخدم النهج azure-openai-semantic-cache-lookup لإجراء بحث ذاكرة التخزين المؤقت للاستجابات لطلبات Azure OpenAI Chat Completion API من ذاكرة تخزين مؤقت خارجية مكونة، استنادا إلى تقارب المتجه من المطالبة بالطلبات السابقة وحد نقاط التشابه المحدد. يقلل التخزين المؤقت للاستجابة من متطلبات النطاق الترددي والمعالجة المفروضة على واجهة برمجة تطبيقات Azure OpenAI الخلفية ويقلل من زمن الانتقال الذي يراه مستهلكو واجهة برمجة التطبيقات.
إشعار
- يجب أن يكون لهذا النهج استجابات ذاكرة التخزين المؤقت المقابلة لنهج طلبات واجهة برمجة تطبيقات Azure OpenAI.
- للحصول على المتطلبات الأساسية والخطوات لتمكين التخزين المؤقت الدلالي، راجع تمكين التخزين المؤقت الدلالي لواجهات برمجة تطبيقات LLM في Azure API Management.
إشعار
تعيين عناصر النهج والعناصر التابعة بالترتيب الوارد في بيان النهج. تعلم كيفية إعداد نُهج APIM أو تعديلها.
Azure OpenAI المدعوم في نماذج Azure الذكاء الاصطناعي Foundry
يتم استخدام النهج مع واجهات برمجة التطبيقات المضافة إلى APIM من Azure OpenAI في نماذج الذكاء الاصطناعي Foundry من الأنواع التالية:
| نوع API | النماذج المدعومة |
|---|---|
| إكمال الدردشة | gpt-3.5gpt-4gpt-4ogpt-4o-minio1o3 |
| التضمينات | text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002 |
| الاستجابات (معاينة) |
gpt-4o (الإصدارات: 2024-11-20، 2024-08-06، 2024-05-13)gpt-4o-mini (الإصدار: 2024-07-18)gpt-4.1 (الإصدار: 2025-04-14)gpt-4.1-nano (الإصدار: 2025-04-14)gpt-4.1-mini (الإصدار: 2025-04-14)gpt-image-1 (الإصدار: 2025-04-15)o3 (الإصدار: 2025-04-16)o4-mini (الإصدار: '2025-04-16) |
إشعار
تتوفر واجهات برمجة تطبيقات الإكمال التقليدية فقط مع إصدارات النموذج القديمة والدعم محدود.
للحصول على معلومات حالية حول النماذج وقدراتها، راجع Azure OpenAI في نماذج Foundry.
نهج السياسة
<azure-openai-semantic-cache-lookup
score-threshold="score threshold to return cached response"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>
سمات
| السمة | الوصف | مطلوبة | افتراضي |
|---|---|---|---|
| حد الدرجة | يحدد حد النتيجة مدى تطابق المطالبة الواردة مع مطالبة مخزنة مؤقتا لإرجاع استجابتها المخزنة. تتراوح القيمة من 0.0 إلى 1.0. تتطلب القيم الأقل تشابها دلاليا أعلى للمطابقة. اعرف المزيد. | نعم | غير متوفر |
| تضمين معرف الخلفية | الخلفية معرف استدعاء واجهة برمجة التطبيقات للتضمين. | نعم | غير متوفر |
| embeddings-backend-auth | المصادقة المستخدمة لتضمين واجهة برمجة التطبيقات الخلفية. | نعم. يجب تعيينه إلى system-assigned. |
غير متوفر |
| تجاهل رسائل النظام | منطقي. عند التعيين إلى true (مستحسن)، يزيل رسائل النظام من مطالبة إكمال الدردشة قبل تقييم تشابه ذاكرة التخزين المؤقت. |
لا | true |
| الحد الأقصى لعدد الرسائل | إذا تم تحديده، عدد رسائل مربع الحوار المتبقية التي يتم بعد ذلك تخطي التخزين المؤقت. | لا | غير متوفر |
عناصر
| اسم | الوصف | مطلوبة |
|---|---|---|
| تختلف حسب | تعبير مخصص يتم تحديده في وقت التشغيل الذي تقسم قيمته التخزين المؤقت. إذا تمت إضافة عناصر متعددة vary-by ، يتم تسلسل القيم لإنشاء تركيبة فريدة. |
لا |
الاستخدام
- أقسام النهج:الواردة.
- نطاقات النهج: العمومية، والمنتج، وواجهة برمجة التطبيقات، والتشغيل
- البوابات: الكلاسيكية، الإصدار 2، الاستهلاك، المستضافة ذاتيا
ملاحظات الاستخدام
- يمكن استخدام هذا النهج مرة واحدة فقط في قسم النهج.
- قم بضبط قيمة
score-thresholdاستنادا إلى التطبيق الخاص بك للتأكد من استخدام الحساسية الصحيحة لتحديد وقت إرجاع الاستجابات المخزنة مؤقتا للاستعلامات. ابدأ بقيمة منخفضة مثل 0.05 واضبط لتحسين نسبة مرات الوصول إلى ذاكرة التخزين المؤقت إلى مرات النقص. - قد يؤدي حد النتيجة أعلى من 0.2 إلى عدم تطابق ذاكرة التخزين المؤقت. ضع في اعتبارك استخدام قيمة أقل لحالات الاستخدام الحساسة.
- التحكم في الوصول عبر المستخدمين إلى إدخالات ذاكرة التخزين المؤقت عن طريق تحديد
vary-byمع معرفات مستخدم أو مجموعة مستخدمين محددة. - يجب أن يكون لنموذج التضمين سعة كافية وحجم سياق كاف لاستيعاب حجم المطالبة والمطالبات.
- ضع في اعتبارك إضافة نهج أمان محتوى llm مع درع موجه للحماية من الهجمات الفورية.
- نوصي بتكوين نهج حد المعدل (أو نهج حد المعدل حسب المفتاح ) مباشرة بعد أي بحث في ذاكرة التخزين المؤقت. يساعد هذا في منع تحميل خدمة الواجهة الخلفية بشكل زائد إذا لم تكن ذاكرة التخزين المؤقت متوفرة.
الأمثلة
مثال مع نهج azure-openai-semantic-cache-store المقابل
يوضح المثال التالي كيفية استخدام azure-openai-semantic-cache-lookup النهج جنبا إلى جنب مع azure-openai-semantic-cache-store النهج لاسترداد الاستجابات المخزنة مؤقتا المتشابهة دلاليا مع حد درجة التشابه 0.05. يتم تقسيم القيم المخزنة مؤقتا بواسطة معرف الاشتراك للمتصل.
إشعار
أضف سياسة تحديد المعدل (أو سياسة تحديد المعدل حسب المفتاح ) بعد البحث في ذاكرة التخزين المؤقت للمساعدة في تقليل عدد المكالمات ومنع التحميل الزائد على خدمة الواجهة الخلفية في حال عدم توفر الذاكرة المؤقتة.
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
النهج ذات الصلة
المحتوى ذو الصلة
لمزيد من المعلومات حول العمل مع النُهج، راجع:
- البرنامج التعليمي: تحويل واجهة برمجة التطبيقات الخاصة بك وحمايتها
- Policy reference لقائمة كاملة من بيانات النُهج وإعداداتها
- تعبيرات النهج
- تعيين النهج أو تحريرها
- إعادة استخدام التكوينات الخاصة بالنهج
- مستودع القصاصات البرمجية للنهج
- مستودع ملعب النهج
- مجموعة أدوات نهج إدارة واجهة برمجة تطبيقات Azure
- الحصول على مساعدة Copilot لإنشاء النهج وشرحها واستكشاف الأخطاء وإصلاحها