تجميع البيانات المتكاملة وتضمينها في Azure الذكاء الاصطناعي Search

هام

هذه الميزة في المعاينة العامة ضمن شروط الاستخدام التكميلية. تدعم واجهة برمجة تطبيقات REST 2023-10-01-Preview هذه الميزة.

يضيف التوجيه المتكامل تقسيم البيانات وتضمين النص إلى متجه إلى المهارات في الفهرسة المستندة إلى المفهرس. كما يضيف تحويلات من نص إلى متجه إلى استعلامات.

هذه الإمكانية معاينة فقط. في الإصدار المتوفر بشكل عام من البحث عن المتجهات وفي إصدارات المعاينة السابقة، يعتمد تجميع البيانات والتحويل على المكونات الخارجية للتقسيم والمتجهات، ويجب أن تتعامل التعليمات البرمجية للتطبيق مع كل خطوة وتنسيقها. في هذه المعاينة، يتم تضمين التقسيم والتحجيم في الفهرسة من خلال المهارات والمفهرسات. يمكنك إعداد مجموعة مهارات تقسم البيانات باستخدام مهارة تقسيم النص، ثم استدعاء نموذج تضمين باستخدام مهارة AzureOpenAIEmbedding أو مهارة مخصصة. يمكن أيضا استدعاء أي متجهات مستخدمة أثناء الفهرسة على الاستعلامات لتحويل النص إلى متجهات.

للفهرسة، يتطلب التوجيه المتكامل ما يلي:

  • مفهرس يقوم باسترداد البيانات من مصدر بيانات مدعوم.
  • مجموعة مهارات تستدعي مهارة تقسيم النص لتقسيم البيانات، وإما مهارة AzureOpenAIEmbedding أو مهارة مخصصة لتحجيم البيانات.
  • فهرس واحد أو أكثر لتلقي المحتوى المكتنز والمتجه.

للاستعلامات:

  • متجه معرف في مخطط الفهرس، تم تعيينه إلى حقل متجه، ويستخدم تلقائيا في وقت الاستعلام لتحويل استعلام نصي إلى متجه.

تحويلات المتجهات أحادية الاتجاه: تحويل النص إلى متجه. لا يوجد تحويل متجه إلى نص للاستعلامات أو النتائج (على سبيل المثال، لا يمكنك تحويل نتيجة متجه إلى سلسلة يمكن للبشر قراءتها).

رسم تخطيطي للمكون

يوضح الرسم التخطيطي التالي مكونات المتجهات المتكاملة.

رسم تخطيطي للمكونات في سير عمل متجه متكامل.

فيما يلي قائمة مرجعية بالمكونات المسؤولة عن التوجيه المتكامل:

  • مصدر بيانات مدعوم للفهرسة المستندة إلى المفهرس.
  • فهرس يحدد حقول المتجهات، وتعريف المتجه المعين لحقول المتجهات.
  • مجموعة مهارات توفر مهارة تقسيم النص لتقسيم البيانات، ومهارة للتوجهات (إما مهارة AzureOpenAiEmbedding أو مهارة مخصصة تشير إلى نموذج تضمين خارجي).
  • اختياريا، إسقاطات الفهرس (المعرفة أيضا في مجموعة المهارات) لدفع البيانات المكتنزة إلى فهرس ثانوي
  • نموذج تضمين، يتم نشره على Azure OpenAI أو متوفر من خلال نقطة نهاية HTTP.
  • مفهرس لقيادة العملية من طرف إلى طرف. يحدد المفهرس أيضا جدولا وتعيينات حقول وخصائص للكشف عن التغيير.

تركز قائمة الاختيار هذه على المتجهات المتكاملة، ولكن الحل الخاص بك لا يقتصر على هذه القائمة. يمكنك إضافة المزيد من المهارات لإثراء الذكاء الاصطناعي، وإنشاء مخزن معارف، وإضافة ترتيب دلالي، وإضافة ضبط الصلة، وميزات الاستعلام الأخرى.

التوفر والتسعير

يعتمد توفر المتجهات المتكامل على نموذج التضمين. إذا كنت تستخدم Azure OpenAI، فتحقق من التوفر الإقليمي.

إذا كنت تستخدم مهارة مخصصة وآلية استضافة Azure (مثل تطبيق وظائف Azure وAzure Web App وAzure Kubernetes)، فتحقق من صفحة المنتج حسب المنطقة للحصول على توفر الميزة.

يعد تقسيم البيانات (مهارة تقسيم النص) مجانيا ومتاحا على جميع خدمات Azure الذكاء الاصطناعي في جميع المناطق.

إشعار

يتم نشر بعض خدمات البحث القديمة التي تم إنشاؤها قبل 1 يناير 2019 على البنية الأساسية التي لا تدعم أحمال عمل المتجهات. إذا حاولت إضافة حقل متجه إلى مخطط والحصول على خطأ، فهذا نتيجة لخدمات قديمة. في هذه الحالة، يجب إنشاء خدمة بحث جديدة لتجربة ميزة المتجه.

ما هي السيناريوهات التي يمكن أن تدعم المتجهات المتكاملة؟

  • تقسيم المستندات الكبيرة إلى مجموعات، وهي مفيدة للسيناريوهات المتجهة وغير المتجهة. بالنسبة إلى المتجهات، تساعدك المجموعات على تلبية قيود الإدخال لتضمين النماذج. بالنسبة للسيناريوهات غير المتجهة، قد يكون لديك تطبيق بحث على نمط الدردشة حيث يقوم GPT بتجميع الاستجابات من مجموعات مفهرسة. يمكنك استخدام المجموعات المتجهة أو غير المتجهة للبحث بنمط الدردشة.

  • إنشاء مخزن متجهات حيث تكون كافة الحقول عبارة عن حقول متجهات، ومعرف المستند (مطلوب لفهرس البحث) هو حقل السلسلة الوحيد. استعلم عن مخزن المتجهات لاسترداد معرفات المستندات، ثم أرسل حقول المتجهات الخاصة بالمستند إلى نموذج آخر.

  • اجمع بين الحقول المتجهة والنص للبحث المختلط، مع الترتيب الدلالي أو بدونه. يعمل التوجيه المتكامل على تبسيط جميع السيناريوهات التي يدعمها البحث في المتجهات.

متى تستخدم المتجهات المتكاملة

نوصي باستخدام دعم المتجهات المضمن في Azure الذكاء الاصطناعي Studio. إذا لم يفي هذا الأسلوب باحتياجاتك، يمكنك إنشاء مفهرسات ومجموعات مهارات تستدعي المتجهات المتكاملة باستخدام الواجهات البرمجية ل Azure الذكاء الاصطناعي Search.

كيفية استخدام المتجهات المتكاملة

بالنسبة إلى المتجهات للاستعلام فقط:

  1. إضافة متجه إلى فهرس. يجب أن يكون نفس نموذج التضمين المستخدم لإنشاء متجهات في الفهرس.
  2. قم بتعيين المتجه إلى ملف تعريف متجه، ثم قم بتعيين ملف تعريف متجه إلى حقل المتجه.
  3. صياغة استعلام متجه يحدد السلسلة النصية الموجهة.

سيناريو أكثر شيوعا - تجميع البيانات وتعميمها أثناء الفهرسة:

  1. إنشاء اتصال مصدر بيانات بمصدر بيانات مدعوم للفهرسة المستندة إلى المفهرس.
  2. إنشاء مجموعة مهارات تستدعي مهارة تقسيم النص للتقسيم وAzureOpenAIEmbeddingModel أو مهارة مخصصة لتحجيم المجموعات.
  3. إنشاء فهرس يحدد المتجه لوقت الاستعلام، وتعيينه إلى حقول المتجهات.
  4. إنشاء مفهرس لدفع كل شيء، من استرداد البيانات، إلى تنفيذ مجموعة المهارات، من خلال الفهرسة.

بشكل اختياري، قم بإنشاء فهارس ثانوية للسيناريوهات المتقدمة حيث يكون المحتوى المكتتب في فهرس واحد، وغير مقطع في فهرس آخر. الفهارس المكتظة (أو الفهارس الثانوية) مفيدة لتطبيقات RAG.

تلميح

جرب معالج استيراد البيانات واتجاهها الجديد في مدخل Microsoft Azure لاستكشاف المتجهات المتكاملة قبل كتابة أي تعليمة برمجية.

أو قم بتكوين دفتر ملاحظات Jupyter لتشغيل نفس سير العمل، خلية تلو خلية، لمعرفة كيفية عمل كل خطوة.

القيود

تأكد من معرفة حصص وحدود Azure OpenAI لتضمين النماذج. يحتوي Azure الذكاء الاصطناعي Search على نهج إعادة المحاولة، ولكن إذا تم استنفاد الحصة النسبية، تفشل إعادة المحاولة.

حدود الرمز المميز ل Azure OpenAI لكل دقيقة هي لكل نموذج، لكل اشتراك. ضع هذا في اعتبارك إذا كنت تستخدم نموذج تضمين لكل من أحمال عمل الاستعلام والفهرسة. اتبع أفضل الممارسات، إن أمكن. لديك نموذج تضمين لكل حمل عمل، وحاول توزيعه في اشتراكات مختلفة.

في Azure الذكاء الاصطناعي Search، تذكر أن هناك حدود للخدمة حسب الطبقة وأحمال العمل.

وأخيرا، الميزات التالية غير مدعومة حاليا:

فوائد المتجهات المتكاملة

فيما يلي بعض الفوائد الرئيسية للخطوط المتجهة المتكاملة:

  • لا يوجد خط أنابيب منفصل لتقسيم البيانات والخطوط المتجهة. التعليمات البرمجية أبسط للكتابة والصيانة.

  • أتمتة الفهرسة من طرف إلى طرف. عندما تتغير البيانات في المصدر (كما هو الحال في Azure Storage أو Azure SQL أو Cosmos DB)، يمكن للمفهرس نقل هذه التحديثات عبر المسار بأكمله، من الاسترداد، إلى تكسير المستندات، من خلال إثراء الذكاء الاصطناعي الاختياري، وتقسيم البيانات، واتجاهها، والفهرسة.

  • عرض المحتوى المكتنز على الفهارس الثانوية. يتم إنشاء الفهارس الثانوية كما تفعل مع أي فهرس بحث (مخطط مع حقول وبنيات أخرى)، ولكن يتم ملؤها جنبا إلى جنب مع فهرس أساسي بواسطة مفهرس. يتدفق المحتوى من كل مستند مصدر إلى الحقول في الفهارس الأساسية والثانوية أثناء تشغيل الفهرسة نفسه.

    الفهارس الثانوية مخصصة لتطبيقات تجميع البيانات واسترجاع الجيل المعزز (RAG). بافتراض وجود ملف PDF كبير كمستند مصدر، قد يحتوي الفهرس الأساسي على معلومات أساسية (العنوان والتاريخ والكاتب والوصف)، ويحتوي الفهرس الثانوي على أجزاء من المحتوى. يجعل التوجيه على مستوى مجموعة البيانات من السهل العثور على المعلومات ذات الصلة (كل مجموعة قابلة للبحث) وإرجاع استجابة ذات صلة، خاصة في تطبيق بحث على غرار الدردشة.

فهارس متقسيمة

التقسيم هو عملية تقسيم المحتوى إلى أجزاء أصغر يمكن إدارتها (مجموعات) يمكن معالجتها بشكل مستقل. يعد التقسيم مطلوبا إذا كانت مستندات المصدر كبيرة جدا بالنسبة إلى الحد الأقصى لحجم الإدخال للتضمين أو نماذج اللغة الكبيرة، ولكن قد تجد أنه يمنحك بنية فهرس أفضل لأنماط RAG والبحث على غرار الدردشة.

يوضح الرسم التخطيطي التالي مكونات الفهرسة المقسمة.

رسم تخطيطي لسير عمل التقسيم واتجاه البيانات المتجهة.

الخطوات التالية