إثراء الذكاء الاصطناعي في Azure الذكاء الاصطناعي Search

في Azure الذكاء الاصطناعي Search، يشير الإثراء الذكاء الاصطناعي إلى التكامل مع خدمات Azure الذكاء الاصطناعي لمعالجة المحتوى غير القابل للبحث في شكله الخام. من خلال الإثراء والتحليل والاستدلال يتم استخدام لإنشاء محتوى وبنية قابلة للبحث حيث لم يكن هناك أي وجود من قبل.

نظرا لأن Azure الذكاء الاصطناعي Search هو حل بحث نصي ومتجه، فإن الغرض من الإثراء الذكاء الاصطناعي هو تحسين أداة المحتوى في السيناريوهات المتعلقة بالبحث. يجب أن يكون محتوى المصدر نصيا (لا يمكنك إثراء المتجهات)، ولكن يمكن توجيه المحتوى الذي تم إنشاؤه بواسطة مسار الإثراء وفهرسته في فهرس متجه باستخدام مهارات مثل مهارة تقسيم النص للتقسيم ومهارة AzureOpenAIEmbedding للترميز.

وتستند الذكاء الاصطناعي الإثراء إلى المهارات.

تضغط المهارات المضمنة على خدمات Azure الذكاء الاصطناعي. وهي تطبق التحويلات والمعالجة التالية على المحتوى الخام:

  • الترجمة والكشف عن اللغة للبحث متعدد اللغات
  • التعرف على الكيان لاستخراج أسماء الأشخاص والأماكن والكيانات الأخرى من أجزاء كبيرة من النص
  • استخراج العبارة الرئيسية لتحديد المصطلحات المهمة وإخراجها
  • التعرف البصري على الحروف (OCR) للتعرف على النص المطبوع والمكتوب بخط اليد في الملفات الثنائية
  • تحليل الصور لوصف محتوى الصورة، وإخراج الأوصاف كالحقول النصية القابلة للبحث

تقوم المهارات المخصصة بتشغيل التعليمات البرمجية الخارجية الخاصة بك. يمكن استخدام المهارات المخصصة لأي معالجة مخصصة تريد تضمينها في البنية الأساسية لبرنامج ربط العمليات التجارية.

الذكاء الاصطناعي الإثراء هو امتداد لمسار المفهرس الذي يتصل بمصادر بيانات Azure. يحتوي مسار الإثراء على جميع مكونات مسار المفهرس (المفهرس ومصدر البيانات والفهرس)، بالإضافة إلى مجموعة المهارات التي تحدد خطوات الإثراء الذري.

يوضح الرسم التخطيطي التالي تقدم الإثراء الذكاء الاصطناعي:

رسم تخطيطي لمسار الإثراء.

الاستيراد هو الخطوة الأولى. هنا، يتصل المفهرس بمصدر بيانات ويسحب المحتوى (المستندات) إلى خدمة البحث. Azure Blob Storage هو المورد الأكثر شيوعا المستخدم في سيناريوهات الإثراء الذكاء الاصطناعي، ولكن يمكن لأي مصدر بيانات مدعوم توفير محتوى.

يغطي الإثراء والفهرس معظم البنية الأساسية لبرنامج ربط العمليات التجارية للإثراء الذكاء الاصطناعي:

  • يبدأ الإثراء عندما يقوم المفهرس "بتكسير المستندات" واستخراج الصور والنصوص. يعتمد نوع المعالجة التي تحدث بعد ذلك على بياناتك والمهارات التي أضفتها إلى مجموعة المهارات. إذا كان لديك صور، يمكن إعادة توجيهها إلى المهارات التي تقوم بمعالجة الصور. يتم وضع محتوى النص في قائمة الانتظار لمعالجة النص واللغة الطبيعية. داخليا، تنشئ المهارات "وثيقة ثرية" تجمع التحويلات عند حدوثها.

  • يتم إنشاء المحتوى الذي تم إثرائه أثناء تنفيذ مجموعة المهارات، وهو مؤقت ما لم تحفظه. يمكنك تمكين ذاكرة التخزين المؤقت للإثراء لاستمرار المستندات المتشققة ومخرجات المهارات لإعادة استخدامها لاحقا أثناء تنفيذ مجموعة المهارات المستقبلية.

  • للحصول على محتوى في فهرس بحث، يجب أن يكون لدى المفهرس معلومات تعيين لإرسال محتوى تم إثرائه إلى الحقل الهدف. تعين تعيينات الحقول (صريحة أو ضمنية) مسار البيانات من بيانات المصدر إلى فهرس بحث. تعيينات حقل الإخراج تعيين مسار البيانات من المستندات التي تم إثراؤها إلى فهرس.

  • الفهرسة هي العملية التي يتم فيها استيعاب المحتوى الخام والمثري في بنيات البيانات الفعلية لفهرس البحث (ملفاته ومجلداته). يحدث التحليل المعجمي والرمز المميز في هذه الخطوة.

الاستكشاف هو الخطوة الأخيرة. الإخراج هو دائما فهرس بحث يمكنك الاستعلام عنه من تطبيق عميل. يمكن أن يكون الإخراج اختياريا مخزن معارف يتكون من الكائنات الثنائية كبيرة الحجم والجداول في Azure Storage التي يتم الوصول إليها من خلال أدوات استكشاف البيانات أو عمليات انتقال البيانات من الخادم. إذا كنت تقوم بإنشاء مخزن معارف، فإن الإسقاطات تحدد مسار البيانات للمحتوى الذي تم إثرائه. يمكن أن يظهر نفس المحتوى الذي تم إثرائه في كل من الفهارس ومخازن المعرفة.

متى تستخدم الإثراء الذكاء الاصطناعي

يعد الإثراء مفيدا إذا كان المحتوى الخام عبارة عن نص غير منظم أو محتوى صورة أو محتوى يحتاج إلى الكشف عن اللغة وترجمتها. يمكن لتطبيق الذكاء الاصطناعي من خلال المهارات المضمنة إلغاء تأمين هذا المحتوى للبحث عن النص الكامل وتطبيقات علوم البيانات.

يمكنك أيضا إنشاء مهارات مخصصة لتوفير معالجة خارجية. يمكن دمج التعليمات البرمجية مفتوحة المصدر أو الخارجية أو الطرف الأول في البنية الأساسية لبرنامج ربط العمليات التجارية كمهارة مخصصة. تندرج نماذج التصنيف التي تحدد الخصائص البارزة بأنواع المستندات المختلفة في هذه الفئة، ولكن يمكن استخدام أي حزمة خارجية تضيف قيمة إلى المحتوى الخاص بك.

حالات الاستخدام للمهارات المضمنة

تستند المهارات المضمنة إلى واجهات برمجة التطبيقات لخدمات Azure الذكاء الاصطناعي: Azure الذكاء الاصطناعي Computer Vision and Language Service. ما لم يكن إدخال المحتوى صغيرا، فتوقع إرفاق مورد خدمات Azure الذكاء الاصطناعي قابل للفوترة لتشغيل أحمال عمل أكبر.

مجموعة المهارات التي يتم تجميعها باستخدام المهارات المضمنة مناسبة تماما لسيناريوهات التطبيق التالية:

  • تتضمن مهارات معالجة الصور التعرف البصري على الحروف (OCR) وتحديد الميزات المرئية، مثل الكشف عن الوجه أو تفسير الصورة أو التعرف على الصور (الأشخاص المشهورين والمعالم) أو سمات مثل اتجاه الصورة. تنشئ هذه المهارات تمثيلات نصية لمحتوى الصورة للبحث عن النص الكامل في Azure الذكاء الاصطناعي Search.

  • يتم توفير الترجمة الآلية من خلال مهارة الترجمة النصية، وغالبا ما يتم إقرانها بالكشف عن اللغة للحلول متعددة اللغات.

  • تحلل معالجة اللغة الطبيعية أجزاء من النص. تتضمن المهارات في هذه الفئة التعرف على الكيان، والكشف عن المشاعر (بما في ذلك استخراج الآراء) واكتشاف معلومات التعريف الشخصية. باستخدام هذه المهارات، يتم تعيين النص غير المهيكل كالحقول القابلة للبحث والتصفية في الفهرس.

حالات الاستخدام للمهارات المخصصة

تنفذ المهارات المخصصة التعليمات البرمجية الخارجية التي توفرها وتلتف في واجهة ويب المهارة المخصصة. يمكن العثور على العديد من الأمثلة على المهارات المخصصة في مستودع GitHub azure-search-power-skills .

المهارات المخصصة ليست معقدة دائما. على سبيل المثال، إذا كان لديك حزمة موجودة توفر مطابقة النمط أو نموذج تصنيف المستندات، يمكنك تضمينها في مهارة مخصصة.

تخزين الإخراج

في Azure الذكاء الاصطناعي Search، يحفظ المفهرس الإخراج الذي يقوم بإنشائه. يمكن أن يقوم تشغيل مفهرس واحد بإنشاء ما يصل إلى ثلاث بنيات بيانات تحتوي على مخرجات ثرية ومفهرسة.

مخزن البيانات المطلوب الموقع ‏‏الوصف
فهرس قابل للبحث المطلوب خدمة البحث يستخدم للبحث عن النص الكامل ونماذج الاستعلام الأخرى. تحديد فهرس هو أحد متطلبات المفهرس. يتم ملء محتوى الفهرس من مخرجات المهارة، بالإضافة إلى أي حقول مصدر يتم تعيينها مباشرة إلى الحقول في الفهرس.
مخزن المعلومات اختياري تخزين Azure يستخدم لتطبيقات انتقال البيانات من الخادم مثل التنقيب المعرفي أو علم البيانات. يتم تعريف مخزن المعرفة ضمن مجموعة المهارات. يحدد تعريفه ما إذا كان يتم عرض المستندات التي تم إثراؤها كجداول أو كائنات (ملفات أو كائنات ثنائية كبيرة الحجم) في Azure Storage.
ذاكرة التخزين المؤقت للإثراء اختياري تخزين Azure يستخدم للتخزين المؤقت لعمليات الإثراء لإعادة استخدامها في عمليات تنفيذ مجموعة المهارات اللاحقة. تخزن ذاكرة التخزين المؤقت المحتوى المستورد وغير المعالج (المستندات المتشققة). كما أنه يخزن المستندات التي تم إثراؤها التي تم إنشاؤها أثناء تنفيذ مجموعة المهارات. التخزين المؤقت مفيد إذا كنت تستخدم تحليل الصور أو التعرف البصري على الحروف ، وتريد تجنب الوقت والنفقات لإعادة معالجة ملفات الصور.

الفهارس ومخازن المعرفة مستقلة تماما عن بعضها البعض. بينما يجب إرفاق فهرس لتلبية متطلبات المفهرس، إذا كان هدفك الوحيد هو مخزن المعرفة، يمكنك تجاهل الفهرس بعد ملؤه.

استكشاف المحتوى

بعد تحديد فهرس بحث أو مخزن معارف وتحميله، يمكنك استكشاف بياناته.

الاستعلام عن فهرس بحث

قم بتشغيل الاستعلامات للوصول إلى المحتوى الذي تم إثرائه الذي تم إنشاؤه بواسطة البنية الأساسية لبرنامج ربط العمليات التجارية. الفهرس مثل أي فهرس آخر قد تقوم بإنشائه ل Azure الذكاء الاصطناعي Search: يمكنك تكملة تحليل النص باستخدام محللات مخصصة، أو استدعاء استعلامات بحث غامضة، أو إضافة عوامل تصفية، أو تجربة ملفات تعريف تسجيل النقاط لضبط صلة البحث.

استخدام أدوات استكشاف البيانات في مخزن المعرفة

في Azure Storage، يمكن لمخزن المعرفة أن يفترض النماذج التالية: حاوية كائن ثنائي كبير الحجم من مستندات JSON، أو حاوية كائن ثنائي كبير الحجم من كائنات الصورة، أو الجداول في Table Storage. يمكنك استخدام Storage Explorer أو Power BI أو أي تطبيق يتصل ب Azure Storage للوصول إلى المحتوى الخاص بك.

  • تلتقط حاوية كائن ثنائي كبير الحجم المستندات التي تم إثراؤها بالكامل، وهو أمر مفيد إذا كنت تقوم بإنشاء موجز في عمليات أخرى.

  • الجدول مفيد إذا كنت بحاجة إلى شرائح من المستندات التي تم إثراؤها، أو إذا كنت تريد تضمين أجزاء معينة من الإخراج أو استبعادها. للتحليل في Power BI، الجداول هي مصدر البيانات الموصى به لاستكشاف البيانات والتصور في Power BI.

التوفر والتسعير

يتوفر الإثراء في المناطق التي تحتوي على خدمات Azure الذكاء الاصطناعي. يمكنك التحقق من توفر الإثراء على منتجات Azure المتوفرة حسب صفحة المنطقة .

تتبع الفوترة نموذج تسعير الدفع أولا بأول. يتم تمرير تكاليف استخدام المهارات المضمنة عند تحديد مفتاح خدمات Azure الذكاء الاصطناعي متعدد المناطق في مجموعة المهارات. هناك أيضا تكاليف مرتبطة باستخراج الصور، كما تم قياسها بواسطة Azure الذكاء الاصطناعي Search. ومع ذلك، فإن مهارات استخراج النص والأدوات المساعدة غير قابلة للفوترة. لمزيد من المعلومات، راجع كيفية تحصيل رسوم منك مقابل Azure الذكاء الاصطناعي Search.

قائمة الاختيار: سير عمل نموذجي

يتكون مسار الإثراء من مفهرسات لديها مجموعات مهارات. بعد الفهرسة، يمكنك الاستعلام عن فهرس للتحقق من صحة النتائج.

ابدأ مع مجموعة فرعية من البيانات في مصدر بيانات مدعوم. يعد تصميم المفهرس ومجموعة المهارات عملية تكرارية. يسير العمل بشكل أسرع مع مجموعة بيانات تمثيلية صغيرة.

  1. إنشاء مصدر بيانات يحدد اتصالا ببياناتك.

  2. إنشاء مجموعة مهارات. ما لم يكن مشروعك صغيرا، يجب إرفاق مورد Azure الذكاء الاصطناعي متعدد الخدمات. إذا كنت تقوم بإنشاء مخزن معارف، فحدده ضمن مجموعة المهارات.

  3. إنشاء مخطط فهرس يعرف فهرس بحث.

  4. إنشاء المفهرس وتشغيله لجمع جميع المكونات المذكورة أعلاه معا. تسترد هذه الخطوة البيانات، وتشغل مجموعة المهارات، وتحمل الفهرس.

    المفهرس هو أيضا المكان الذي تحدد فيه تعيينات الحقول وتعيينات حقول الإخراج التي تقوم بإعداد مسار البيانات إلى فهرس بحث.

    اختياريا، قم بتمكين التخزين المؤقت للإثراء في تكوين المفهرس. تسمح لك هذه الخطوة بإعادة استخدام عمليات الإثراء الموجودة لاحقا.

  5. قم بتشغيل الاستعلامات لتقييم النتائج أو بدء جلسة تصحيح الأخطاء للعمل من خلال أي مشكلات في مجموعة المهارات.

لتكرار أي من الخطوات المذكورة أعلاه، أعد تعيين المفهرس قبل تشغيله. أو، احذف الكائنات وأعد إنشائها على كل تشغيل (يوصى به إذا كنت تستخدم المستوى المجاني). إذا قمت بتمكين التخزين المؤقت، يسحب المفهرس من ذاكرة التخزين المؤقت إذا لم تتغير البيانات في المصدر، وإذا لم تبطل عمليات التحرير التي أجريتها على البنية الأساسية لبرنامج ربط العمليات التجارية ذاكرة التخزين المؤقت.

الخطوات التالية