مشاركة عبر


الترتيب الدلالي في Azure الذكاء الاصطناعي Search

في Azure الذكاء الاصطناعي Search، يعد المصنف الدلالي ميزة تعمل على تحسين صلة البحث بشكل قابل للقياس باستخدام نماذج فهم اللغة من Microsoft لإعادة نسخ نتائج البحث. هذه المقالة هي مقدمة عالية المستوى لمساعدتك على فهم سلوكيات وفوائد المرتب الدلالي.

Ranker الدلالي هو ميزة متميزة، تتم فوترتها حسب الاستخدام. نوصي بهذه المقالة للخلفية، ولكن إذا كنت تفضل البدء، فاتبع هذه الخطوات.

ملاحظة

لا يستخدم المصنف الدلالي الذكاء الاصطناعي أو المتجهات التوليدية لترتيب المستوى الثانوي 2 (L2). إذا كنت تبحث عن المتجهات والبحث عن التشابه، فشاهد بحث المتجهات في Azure الذكاء الاصطناعي Search.

ما هو الترتيب الدلالي؟

Ranker الدلالي هو مجموعة من القدرات من جانب الاستعلام التي تحسن جودة نتيجة بحث أولية مرتبة من BM25 أو RRF للاستعلامات المستندة إلى النص وجزء النص من استعلامات المتجهات والاستعلامات المختلطة. يوسع الترتيب الدلالي مسار تنفيذ الاستعلام بثلاث طرق:

  • أولا، يضيف دائما ترتيبا ثانويا على مجموعة نتائج أولية تم تسجيلها باستخدام BM25 أو Fusion Rank Fusion (RRF). يستخدم هذا الترتيب الثانوي نماذج التعلم العميق متعددة اللغات والمكيفة من Microsoft Bing لتعزيز النتائج الأكثر صلة بالدلالة.

  • ثانيا، تقوم بإرجاع التسميات التوضيحية واستخراج الإجابات اختياريا في الاستجابة، والتي يمكنك عرضها في صفحة بحث لتحسين تجربة بحث المستخدم.

  • ثالثا، إذا قمت بتمكين إعادة كتابة الاستعلام، فإنه يوسع سلسلة استعلام أولية إلى سلاسل استعلام متعددة مشابهة دلاليا.

يتم تطبيق الترتيب الثانوي و"الإجابات" على استجابة الاستعلام. إعادة كتابة الاستعلام هي جزء من طلب الاستعلام.

فيما يلي قدرات إعادة التدرن الدلالي.

تمكن الوصف
ترتيب L2 يستخدم السياق أو المعنى الدلالي للاستعلام لحساب درجة صلة جديدة على النتائج السابقة.
التسميات التوضيحية الدلالية وتسليط الضوء عليها يستخرج الجمل والعبارات الحرفية من الحقول التي تلخص المحتوى على أفضل نحو، مع تمييز عبر المقاطع الرئيسية لسهولة المسح الضوئي. تكون التسميات التوضيحية التي تلخص النتيجة مفيدة عندما تكون حقول المحتوى الفردية كثيفة جدا بالنسبة لصفحة نتائج البحث. يرفع النص المميز المصطلحات والعبارات الأكثر صلة بحيث يمكن للمستخدمين تحديد سبب اعتبار المطابقة ذات صلة بسرعة.
إجابات دلالية بنية فرعية اختيارية وفوقية تم إرجاعها من استعلام دلالي. يوفر إجابة مباشرة على استعلام يبدو كسؤال. يتطلب أن يحتوي المستند على نص مع خصائص الإجابة.
إعادة كتابة الاستعلام باستخدام استعلامات نصية أو جزء النص من استعلام متجه، ينشئ ranker الدلالي ما يصل إلى 10 متغيرات للاستعلام، وربما تصحيح الأخطاء المطبعية أو الأخطاء الإملائية، أو إعادة صياغة استعلام باستخدام المرادفات التي تم إنشاؤها. يتم تشغيل الاستعلام المعاد كتابته على محرك البحث. يتم تسجيل النتائج باستخدام تسجيل BM25 أو RRF، ثم إعادة تسجيلها بواسطة ranker الدلالي.

كيفية عمل المصنف الدلالي

يغذي Ranker الدلالي استعلاما ونتائج لنماذج فهم اللغة التي تستضيفها Microsoft ويفحص بحثا عن تطابقات أفضل.

يوضح الرسم التوضيحي التالي المفهوم. ضع في اعتبارك مصطلح "رأس المال". له معان مختلفة اعتمادا على ما إذا كان السياق هو التمويل أو القانون أو الجغرافيا أو النحو. من خلال فهم اللغة، يمكن للمرتب الدلالي اكتشاف السياق وتعزيز النتائج التي تناسب هدف الاستعلام.

رسم توضيحي لتمثيل المتجهات للسياق.

الترتيب الدلالي هو مورد ووقت مكثف على حد سواء. لإكمال المعالجة ضمن زمن الانتقال المتوقع لعملية استعلام، يتم دمج المدخلات إلى المصنف الدلالي وتقليلها بحيث يمكن إكمال خطوة إعادة التشغيل في أسرع وقت ممكن.

هناك ثلاث خطوات للتصنيف الدلالي:

  • جمع المدخلات وتلخيصها
  • تسجيل النتائج باستخدام المصنف الدلالي
  • نتائج إعادة تسجيل الإخراج والتسميات التوضيحية والإجابات

كيفية جمع المدخلات وتلخيصها

في الترتيب الدلالي، يمرر النظام الفرعي للاستعلام نتائج البحث كمدخل لنماذج التلخيص والترتيب. نظرا لأن نماذج تحديد المرتبة لها قيود على حجم الإدخال وتعالج بشكل مكثف، يجب تغيير حجم نتائج البحث وهيكلتها (تلخيصها) للتعامل الفعال.

  1. يبدأ ranker الدلالي بنتيجة مرتبة BM25 من استعلام نصي أو نتيجة مرتبة RRF من متجه أو استعلام مختلط. يتم استخدام النص فقط في تمرين إعادة النسخ، وتقدم أفضل 50 نتيجة فقط إلى الترتيب الدلالي، حتى إذا كانت النتائج تتضمن أكثر من 50. عادة ما تكون الحقول المستخدمة في الترتيب الدلالي إعلامية ووصفية.

  2. لكل مستند في نتيجة البحث، يقبل نموذج التلخيص ما يصل إلى 2000 رمز مميز، حيث يبلغ الرمز المميز حوالي 10 أحرف. يتم تجميع الإدخالات من حقول "العنوان" و"الكلمة الأساسية" و"المحتوى" المدرجة في التكوين الدلالي.

  3. يتم اقتطاع السلاسل الطويلة بشكل مفرط لضمان أن الطول الإجمالي يفي بمتطلبات الإدخال لخطوة التلخيص. هذا التمرين الاقتطاع هو السبب في أنه من المهم إضافة حقول إلى التكوين الدلالي الخاص بك بترتيب الأولوية. إذا كان لديك مستندات كبيرة جدا مع حقول نصية ثقيلة، يتم تجاهل أي شيء بعد الحد الأقصى.

    الحقل الدلالي حد الرمز المميز
    "العنوان" 128 رمزا مميزا
    "الكلمات الأساسية 128 رمزا مميزا
    "المحتوى" الرموز المميزة المتبقية
  4. إخراج التلخيص هو سلسلة ملخص لكل مستند، تتكون من المعلومات الأكثر صلة من كل حقل. يتم إرسال سلاسل الملخص إلى المصنف لتسجيل النقاط، وإلى نماذج فهم القراءة الآلية للتسميات التوضيحية والأجوبة.

    اعتبارا من نوفمبر 2024، يكون الحد الأقصى لطول كل سلسلة ملخص تم إنشاؤها وتم تمريرها إلى المصنف الدلالي هو 2048 رمزا مميزا. في السابق، كان 256 رمزا مميزا.

كيفية تسجيل الترتيب

يتم تسجيل النقاط عبر التسمية التوضيحية، وأي محتوى آخر من سلسلة التلخيص التي تملأ طول الرمز المميز 2048.

  1. يتم تقييم التسميات التوضيحية لصلتها المفاهيمية والدلالية، بالنسبة للاستعلام المقدم.

  2. يتم تعيين @search.rerankerScore لكل مستند استنادا إلى الصلة الدلالية للمستند للاستعلام المحدد. تتراوح الدرجات من 4 إلى 0 (عالية إلى منخفضة)، حيث تشير الدرجة الأعلى إلى أهمية أعلى.

    الدرجة المعنى
    4.0 المستند ذو صلة وثيقة ويجيب على السؤال تماما، على الرغم من أن المقطع قد يحتوي على نص إضافي غير مرتبط بالسؤال.
    3.0 الوثيقة ذات صلة ولكنها تفتقر إلى التفاصيل التي من شأنها أن تجعلها كاملة.
    2.0 الوثيقة ذات صلة إلى حد ما؛ فإنه يجيب على السؤال إما جزئيا أو فقط يعالج بعض جوانب السؤال.
    1.0 يرتبط المستند بالسؤال، ويجيب على جزء صغير منه.
    0.0 المستند غير ذي صلة.
  3. يتم سرد التطابقات بترتيب تنازلي حسب الدرجة ويتم تضمينها في حمولة استجابة الاستعلام. تتضمن الحمولة إجابات ونصا عاديا وتسميات توضيحية مميزة وأي حقول وضعت عليها علامة قابلة للاسترداد أو محددة في عبارة تحديد.

ملاحظة

بالنسبة لأي استعلام معين، يمكن أن تعرض توزيعات @search.rerankerScore اختلافات طفيفة بسبب الظروف على مستوى البنية الأساسية. ومن المعروف أيضا أن تحديثات نموذج تحديد المرتبة تؤثر على التوزيع. لهذه الأسباب، إذا كنت تكتب تعليمات برمجية مخصصة للحد الأدنى، أو تعيين خاصية الحد للاستعلامات المتجهة والمختلطة، فلا تجعل الحدود دقيقة جدا.

مخرجات المصنف الدلالي

من كل سلسلة ملخصة، تجد نماذج فهم القراءة الآلية مقاطع الأكثر تمثيلا.

المخرجات هي:

  • تسمية توضيحية دلالية للمستند. تتوفر كل تسمية توضيحية في إصدار نص عادي وإصدار تمييز، وغالبا ما تكون أقل من 200 كلمة لكل مستند.

  • إجابة دلالية اختيارية، بافتراض أنك حددت answers المعلمة، وتم طرح الاستعلام كسؤال، وتم العثور على مقطع في السلسلة الطويلة التي توفر إجابة مرجحة على السؤال.

التسميات التوضيحية والأجوبة هي دائما نص حرفي من الفهرس الخاص بك. لا يوجد نموذج الذكاء الاصطناعي إنشاءي في سير العمل هذا يقوم بإنشاء محتوى جديد أو إنشائه.

القدرات والقيود الدلالية

ما يمكن للمرتب الدلالي القيام به:

  • ترقية التطابقات الأقرب دلاليا إلى هدف الاستعلام الأصلي.

  • ابحث عن سلاسل لاستخدامها كتسميات توضيحية وإجابات. يتم إرجاع التسميات التوضيحية والإجابات في الاستجابة ويمكن عرضها في صفحة نتائج البحث.

ما لا يمكن للمرتب الدلالي القيام به هو إعادة تشغيل الاستعلام على المجموعة بأكملها للعثور على نتائج ذات صلة دلاليا. يعيد الترتيب الدلالي ترتيب مجموعة النتائج الحالية، التي تتكون من أفضل 50 نتيجة كما تم تسجيلها بواسطة خوارزمية الترتيب الافتراضية. علاوة على ذلك، لا يمكن للمرتب الدلالي إنشاء معلومات أو سلاسل جديدة. يتم استخراج التسميات التوضيحية والإجابات حرفيا من المحتوى الخاص بك، لذلك إذا لم تتضمن النتائج نصا يشبه الإجابة، فلن تنتج نماذج اللغة نصا.

على الرغم من أن الترتيب الدلالي ليس مفيدا في كل سيناريو، إلا أن محتوى معين يمكن أن يستفيد بشكل كبير من قدراته. تعمل نماذج اللغة في ranker الدلالي على أفضل نحو على المحتوى القابل للبحث الغني بالمعلومات والمهيكل كنثر. ترى قاعدة المعارف أو الوثائق عبر الإنترنت أو المستندات التي تحتوي على محتوى وصفي أكبر قدر من المكاسب من قدرات ranker الدلالية.

التكنولوجيا الأساسية هي من Bing وMicrosoft Research، ومدمجة في البنية الأساسية ل Azure الذكاء الاصطناعي Search كميزة إضافية. لمزيد من المعلومات حول البحث والاستثمارات الذكاء الاصطناعي التي تدعم المصنف الدلالي، راجع كيف يعمل الذكاء الاصطناعي من Bing على تشغيل Azure الذكاء الاصطناعي Search (مدونة أبحاث Microsoft).

يوفر الفيديو التالي نظرة عامة على الإمكانات.

كيف يستخدم مصنف الدلالي خرائط المرادفات

إذا قمت بالفعل بتمكين الدعم لخرائط المرادفات المقترنة بالحقل في فهرس البحث، وتم تضمين هذا الحقل في تكوين المصنف الدلالي، فسيطبق المصنف الدلالي المرادفات المكونة تلقائيا أثناء عملية إعادة التعيين.

التوفر والتسعير

يتوفر المرتب الدلالي على خدمات البحث في المستويات الأساسية والأعلى، رهنا بالتوافر الإقليمي.

عند تكوين ranker الدلالي، اختر خطة تسعير للميزة:

  • في وحدات تخزين الاستعلام الأقل (أقل من 1000 شهريا)، يكون الترتيب الدلالي مجانيا.
  • في وحدات تخزين استعلام أعلى، اختر خطة التسعير القياسية.

تعرض صفحة تسعير Azure الذكاء الاصطناعي Search معدل الفوترة لعملات وفواصل زمنية مختلفة.

يتم فرض رسوم للمرتب الدلالي عندما تتضمن queryType=semantic طلبات الاستعلام وسلسلة البحث غير فارغة (على سبيل المثال، search=pet friendly hotels in New York). إذا كانت سلسلة البحث فارغة (search=*)، فلن يتم تحصيل رسوم منك، حتى إذا تم تعيين نوع الاستعلام إلى دلالي.

كيفية البدء باستخدام المرتب الدلالي

  1. تحقق من التوفر الإقليمي.

  2. سجل الدخول إلى مدخل Microsoft Azure للتحقق من أن خدمة البحث الخاصة بك أساسية أو أعلى.

  3. قم بتكوين ranker الدلالي لخدمة البحث، واختيار خطة تسعير.

  4. تكوين مصنف دلالي في فهرس بحث.

  5. إعداد الاستعلامات لإرجاع التسميات التوضيحية الدلالية وتسليط الضوء عليها.

  6. اختياريا، قم بإعادة الإجابات الدلالية.

راجع أيضًا