الترتيب الدلالي في Azure الذكاء الاصطناعي Search

في Azure الذكاء الاصطناعي Search، يحسن الترتيب الدلالي بشكل قابل للقياس صلة البحث باستخدام فهم اللغة لإعادة ترتيب نتائج البحث. هذه المقالة هي مقدمة عالية المستوى. يغطي القسم في النهاية التوفر والتسعير.

Ranker الدلالي هو ميزة متميزة، تتم فوترتها حسب الاستخدام. نوصي بهذه المقالة للخلفية، ولكن إذا كنت تفضل البدء، فاتبع الخطوات التالية:

إشعار

لا يستخدم الترتيب الدلالي الذكاء الاصطناعي أو المتجهات التوليدية. إذا كنت تبحث عن دعم المتجه والبحث عن التشابه؟ راجع البحث عن المتجهات في Azure الذكاء الاصطناعي Search للحصول على التفاصيل.

ما هو الترتيب الدلالي؟

Ranker الدلالي هو مجموعة من القدرات المتعلقة بالاستعلام التي تحسن جودة نتيجة بحث أولية مرتبة من BM25 أو RRF للاستعلامات المستندة إلى النص. عند تمكينه على خدمة البحث، يوسع الترتيب الدلالي مسار تنفيذ الاستعلام بطريقتين:

  • أولا، يضيف الترتيب الثانوي على مجموعة نتائج أولية تم تسجيلها باستخدام BM25 أو RRF. يستخدم هذا الترتيب الثانوي نماذج التعلم العميق متعددة اللغات والمكيفة من Microsoft Bing لتعزيز النتائج الأكثر صلة بالدلالة.

  • ثانيا، يقوم باستخراج التسميات التوضيحية والإجابات وإرجاعها في الاستجابة، والتي يمكنك عرضها في صفحة بحث لتحسين تجربة بحث المستخدم.

فيما يلي قدرات إعادة التدرن الدلالي.

الميزة ‏‏الوصف
الترتيب الدلالي يستخدم السياق أو المعنى الدلالي للاستعلام لحساب درجة صلة جديدة على النتائج السابقة.
التسميات التوضيحية الدلالية وتسليط الضوء عليها يستخرج الجمل والعبارات الحرفية من مستند يلخص المحتوى على أفضل نحو، مع تمييز عبر المقاطع الرئيسية لسهولة المسح الضوئي. تكون التسميات التوضيحية التي تلخص النتيجة مفيدة عندما تكون حقول المحتوى الفردية كثيفة جدا بالنسبة لصفحة نتائج البحث. يرفع النص المميز المصطلحات والعبارات الأكثر صلة بحيث يمكن للمستخدمين تحديد سبب اعتبار المطابقة ذات صلة بسرعة.
إجابات دلالية بنية فرعية اختيارية وفوقية تم إرجاعها من استعلام دلالي. يوفر إجابة مباشرة على استعلام يبدو كسؤال. يتطلب أن يحتوي المستند على نص مع خصائص الإجابة.

كيفية عمل المصنف الدلالي

يغذي الترتيب الدلالي استعلاما ونتائج لنماذج فهم اللغة التي تستضيفها Microsoft ويفحص بحثا عن تطابقات أفضل.

يوضح الرسم التوضيحي التالي المفهوم. ضع في اعتبارك مصطلح "رأس المال". له معان مختلفة اعتمادا على ما إذا كان السياق هو التمويل أو القانون أو الجغرافيا أو النحو. من خلال فهم اللغة، يمكن للمرتب الدلالي اكتشاف السياق وتعزيز النتائج التي تناسب هدف الاستعلام.

Illustration of vector representation for context.

الترتيب الدلالي هو مورد ووقت مكثف على حد سواء. لإكمال المعالجة ضمن زمن الانتقال المتوقع لعملية استعلام، يتم دمج المدخلات إلى المصنف الدلالي وتقليلها بحيث يمكن إكمال خطوة إعادة التشغيل في أسرع وقت ممكن.

هناك خطوتان للتصنيف الدلالي: التلخيص والتهديف. تتكون المخرجات من نتائج أعيد تسجيلها وتسميات توضيحية وإجابات.

كيفية جمع المدخلات وتلخيصها

في الترتيب الدلالي، يمرر النظام الفرعي للاستعلام نتائج البحث كمدخل لنماذج التلخيص والترتيب. نظرا لأن نماذج تحديد المرتبة لها قيود على حجم الإدخال وتعالج بشكل مكثف، يجب تغيير حجم نتائج البحث وهيكلتها (تلخيصها) للتعامل الفعال.

  1. يبدأ الترتيب الدلالي بنتيجة مصنفة حسب BM25 من استعلام نصي أو نتيجة مصنفة حسب RRF من استعلام مختلط. يتم استخدام الحقول النصية فقط في تمرين إعادة النسخ، وتقدم أفضل 50 نتيجة فقط إلى الترتيب الدلالي، حتى إذا كانت النتائج تتضمن أكثر من 50. عادة ما تكون الحقول المستخدمة في الترتيب الدلالي إعلامية ووصفية.

  2. لكل مستند في نتيجة البحث، يقبل نموذج التلخيص ما يصل إلى 2000 رمز مميز، حيث يبلغ الرمز المميز حوالي 10 أحرف. يتم تجميع الإدخالات من حقول "العنوان" و"الكلمة الأساسية" و"المحتوى" المدرجة في التكوين الدلالي.

  3. يتم اقتطاع السلاسل الطويلة بشكل مفرط لضمان أن الطول الإجمالي يفي بمتطلبات الإدخال لخطوة التلخيص. هذا التمرين الاقتطاع هو السبب في أنه من المهم إضافة حقول إلى التكوين الدلالي الخاص بك بترتيب الأولوية. إذا كان لديك مستندات كبيرة جدا مع حقول نصية ثقيلة، يتم تجاهل أي شيء بعد الحد الأقصى.

    الحقل الدلالي حد الرمز المميز
    "العنوان" 128 رمزا مميزا
    "الكلمات الأساسية 128 رمزا مميزا
    "المحتوى" الرموز المميزة المتبقية
  4. إخراج التلخيص هو سلسلة ملخص لكل مستند، تتكون من المعلومات الأكثر صلة من كل حقل. يتم إرسال سلاسل الملخص إلى المصنف لتسجيل النقاط، وإلى نماذج فهم القراءة الآلية للتسميات التوضيحية والأجوبة.

    الحد الأقصى لطول كل سلسلة ملخص تم إنشاؤها تم تمريرها إلى المصنف الدلالي هو 256 رمزا مميزا.

مخرجات المصنف الدلالي

من كل سلسلة ملخصة، تجد نماذج فهم القراءة الآلية مقاطع الأكثر تمثيلا.

المخرجات هي:

  • تسمية توضيحية دلالية للمستند. تتوفر كل تسمية توضيحية في إصدار نص عادي وإصدار تمييز، وغالبا ما تكون أقل من 200 كلمة لكل مستند.

  • إجابة دلالية اختيارية، بافتراض أنك حددت answers المعلمة، وتم طرح الاستعلام كسؤال، وتم العثور على مقطع في السلسلة الطويلة التي توفر إجابة مرجحة على السؤال.

التسميات التوضيحية والأجوبة هي دائما نص حرفي من الفهرس الخاص بك. لا يوجد نموذج الذكاء الاصطناعي إنشاءي في سير العمل هذا يقوم بإنشاء محتوى جديد أو إنشائه.

كيفية تسجيل الملخصات

يتم تسجيل النقاط فوق التسمية التوضيحية، وأي محتوى آخر من سلسلة التلخيص التي تملأ طول الرمز المميز 256.

  1. يتم تقييم التسميات التوضيحية لصلتها المفاهيمية والدلالية، بالنسبة للاستعلام المقدم.

  2. يتم تعيين @search.rerankerScore لكل مستند استنادا إلى الصلة الدلالية للمستند للاستعلام المحدد. تتراوح الدرجات من 4 إلى 0 (عالية إلى منخفضة)، حيث تشير الدرجة الأعلى إلى أهمية أعلى.

  3. يتم سرد التطابقات بترتيب تنازلي حسب الدرجة ويتم تضمينها في حمولة استجابة الاستعلام. تتضمن الحمولة إجابات ونصا عاديا وتسميات توضيحية مميزة وأي حقول وضعت عليها علامة قابلة للاسترداد أو محددة في عبارة تحديد.

إشعار

بدءا من 14 يوليو 2023، يتغير توزيع @search.rerankerScore . لا يمكن تحديد التأثير على الدرجات إلا من خلال الاختبار. إذا كان لديك تبعية عتبة ثابتة على خاصية الاستجابة هذه، أعد تشغيل الاختبارات لفهم ما يجب أن تكون عليه القيم الجديدة للعتبة الخاصة بك.

القدرات والقيود الدلالية

Ranker الدلالي هو أحدث تكنولوجيا لذلك من المهم وضع توقعات حول ما يمكن وما لا يمكن القيام به. ما يمكن أن تفعله:

  • ترقية التطابقات الأقرب دلاليا إلى هدف الاستعلام الأصلي.

  • ابحث عن سلاسل لاستخدامها كتسميات توضيحية وإجابات. يتم إرجاع التسميات التوضيحية والإجابات في الاستجابة ويمكن عرضها في صفحة نتائج البحث.

ما لا يمكن أن يفعله الترتيب الدلالي هو إعادة تشغيل الاستعلام على المجموعة بأكملها للعثور على نتائج ذات صلة دلاليا. يعيد الترتيب الدلالي ترتيب مجموعة النتائج الحالية، التي تتكون من أفضل 50 نتيجة كما تم تسجيلها بواسطة خوارزمية الترتيب الافتراضية. علاوة على ذلك، لا يمكن للتصنيف الدلالي إنشاء معلومات أو سلاسل جديدة. يتم استخراج التسميات التوضيحية والإجابات حرفيا من المحتوى الخاص بك، لذلك إذا لم تتضمن النتائج نصا يشبه الإجابة، فلن تنتج نماذج اللغة نصا.

على الرغم من أن الترتيب الدلالي ليس مفيدا في كل سيناريو، إلا أن محتوى معين يمكن أن يستفيد بشكل كبير من قدراته. تعمل نماذج اللغة في الترتيب الدلالي على أفضل نحو على المحتوى القابل للبحث الغني بالمعلومات والمهيكل كنثر. ترى قاعدة المعارف (KB) أو الوثائق عبر الإنترنت أو المستندات التي تحتوي على محتوى وصفي أكبر قدر من المكاسب من قدرات الترتيب الدلالي.

التكنولوجيا الأساسية هي من Bing وMicrosoft Research، ومدمجة في البنية الأساسية ل Azure الذكاء الاصطناعي Search كميزة إضافية. لمزيد من المعلومات حول البحث والاستثمارات الذكاء الاصطناعي التي تدعم الترتيب الدلالي، راجع كيفية تشغيل الذكاء الاصطناعي من Bing ل Azure الذكاء الاصطناعي Search (مدونة أبحاث Microsoft) .

يوفر الفيديو التالي نظرة عامة على الإمكانات.

التوفر والتسعير

يتوفر المرتب الدلالي على خدمات البحث في المستويات الأساسية والأعلى، رهنا بالتوافر الإقليمي.

عند تمكين ranker الدلالي، اختر خطة تسعير للميزة:

  • في وحدات تخزين الاستعلام الأقل (أقل من 1000 شهريا)، يكون الترتيب الدلالي مجانيا.
  • في وحدات تخزين استعلام أعلى، اختر خطة التسعير القياسية.

تعرض صفحة تسعير Azure الذكاء الاصطناعي Search معدل الفوترة لعملات وفواصل زمنية مختلفة.

يتم فرض رسوم الترتيب الدلالي عندما تتضمن queryType=semantic طلبات الاستعلام وتكون سلسلة البحث غير فارغة (على سبيل المثال، search=pet friendly hotels in New York). إذا كانت سلسلة البحث فارغة (search=*)، فلن يتم تحصيل رسوم منك، حتى إذا تم تعيين نوع الاستعلام إلى دلالي.

(راجع أيضًا )