التضمينات متعددة الوسائط (الإصدار 4.0)

التضمين متعدد الوسائط هو عملية إنشاء تمثيل رقمي لصورة تلتقط ميزاتها وخصائصها بتنسيق متجه. تقوم هذه المتجهات بترميز محتوى الصورة وسياقها بطريقة متوافقة مع البحث عن النص عبر نفس مساحة الخط المتجه.

تستخدم أنظمة استرداد الصور عادة الميزات المستخرجة من الصور، مثل تسميات المحتوى والعلامات وواصفات الصور، لمقارنة الصور وترتيبها حسب التشابه. ومع ذلك، يكتسب البحث عن تشابه المتجهات شعبية أكبر بسبب عدد من الفوائد على البحث التقليدي المستند إلى الكلمة الأساسية ويصبح مكونا حيويا في خدمات البحث عن المحتوى الشائعة.

البحث عن الكلمات الأساسية هو الأسلوب الأساسي والتقليدي لاسترداد المعلومات. في هذا الأسلوب، يبحث محرك البحث عن المطابقة الدقيقة للكلمات الأساسية أو العبارات التي أدخلها المستخدم في استعلام البحث ويقارنها بالتسميات والعلامات المقدمة للصور. ثم يقوم محرك البحث بإرجاع الصور التي تحتوي على تلك الكلمات الأساسية الدقيقة كعلامات محتوى وتسميات صور. يعتمد البحث عن الكلمات الأساسية بشكل كبير على قدرة المستخدم على استخدام مصطلحات البحث ذات الصلة والمحددة.

يبحث بحث المتجهات في مجموعات كبيرة من المتجهات في مساحة عالية الأبعاد للعثور على متجهات مشابهة لاستعلام معين. يبحث البحث عن المتجهات عن أوجه التشابه الدلالي من خلال التقاط سياق ومعنى استعلام البحث. غالبا ما يكون هذا النهج أكثر كفاءة من تقنيات استرداد الصور التقليدية، لأنه يمكن أن يقلل من مساحة البحث ويحسن دقة النتائج.

تطبيقات الأعمال

يحتوي التضمين متعدد الوسائط على مجموعة متنوعة من التطبيقات في مجالات مختلفة، بما في ذلك:

  • إدارة الأصول الرقمية: يمكن استخدام التضمين متعدد الوسائط لإدارة مجموعات كبيرة من الصور الرقمية، كما هو الحال في المتاحف أو الأرشيفات أو المعارض عبر الإنترنت. يمكن للمستخدمين البحث عن الصور استنادا إلى الميزات المرئية واسترداد الصور التي تطابق معاييرهم.
  • الأمان والمراقبة: يمكن استخدام التوجيه في أنظمة الأمان والمراقبة للبحث عن الصور استنادا إلى ميزات أو أنماط محددة، كما هو الحال في، أو تعقب الأشخاص والكائنات، أو الكشف عن التهديدات.
  • استرداد الصور الجنائية: يمكن استخدام التوجيه في التحقيقات الجنائية للبحث عن الصور استنادا إلى محتواها المرئي أو بيانات التعريف الخاصة بها، كما هو الحال في حالات الجريمة الإلكترونية.
  • التجارة الإلكترونية: يمكن استخدام المتجهات في تطبيقات التسوق عبر الإنترنت للبحث عن منتجات مماثلة استنادا إلى ميزاتها أو أوصافها أو تقديم توصيات بناء على عمليات الشراء السابقة.
  • الموضة والتصميم: يمكن استخدام التوجيه في الموضة والتصميم للبحث عن الصور استنادا إلى ميزاتها المرئية، مثل اللون أو النمط أو الملمس. يمكن أن يساعد هذا المصممين أو تجار التجزئة على تحديد المنتجات أو الاتجاهات المماثلة.

تنبيه

التضمين متعدد الوسائط غير مصمم لتحليل الصور الطبية لميزات التشخيص أو أنماط المرض. يرجى عدم استخدام التضمين متعدد الوسائط للأغراض الطبية.

ما هي تضمينات المتجهات؟

تعد تضمينات المتجهات طريقة لتمثيل المحتوى - النص أو الصور - كخطوط متجهة للأرقام الحقيقية في مساحة عالية الأبعاد. غالبا ما يتم تعلم تضمينات المتجهات من كميات كبيرة من البيانات النصية والبصرية باستخدام خوارزميات التعلم الآلي، مثل الشبكات العصبية.

يتوافق كل بعد من أبعاد المتجه مع ميزة أو سمة مختلفة للمحتوى، مثل معناه الدلالي أو دوره التركيبي أو السياق الذي يظهر فيه بشكل شائع. في Azure الذكاء الاصطناعي Vision، تحتوي تضمينات متجهات الصور والنص على 1024 بعدا.

هام

لا يمكن مقارنة تضمينات المتجهات ومطابقتها إلا إذا كانت من نفس نوع النموذج. لن تكون الصور الموجهة بواسطة نموذج واحد قابلة للبحث من خلال نموذج مختلف. توفر أحدث واجهة برمجة تطبيقات لتحليل الصور نموذجين، الإصدار 2023-04-15 الذي يدعم البحث عن النص في العديد من اللغات، والنموذج القديم 2022-04-11 الذي يدعم اللغة الإنجليزية فقط.

كيف تعمل هذه الوظيفة؟

فيما يلي الخطوات الرئيسية لعملية استرداد الصور باستخدام التضمينات متعددة الوسائط.

Diagram of image retrieval process.

  1. تحويل الصور والنص: يمكن استخدام واجهات برمجة التطبيقات للتضمينات متعددة الوسائط و VectorizeImage و VectorizeText لاستخراج متجهات الميزات من صورة أو نص على التوالي. ترجع واجهات برمجة التطبيقات متجه ميزة واحد يمثل الإدخال بأكمله.

    إشعار

    التضمين متعدد الوسائط لا يقوم بأي معالجة بيومترية للوجوه البشرية. للكشف عن الوجه والتعرف عليه، راجع خدمة Azure الذكاء الاصطناعي Face.

  2. قياس التشابه: تستخدم أنظمة بحث المتجهات عادة مقاييس المسافة، مثل مسافة جيب التمام أو مسافة الإقليدية، لمقارنة المتجهات وترتيبها حسب التشابه. يستخدم العرض التوضيحي في Vision studio مسافة جيب التمام لقياس التشابه.

  3. استرداد الصور: استخدم متجهات N العلوية المشابهة لاستعلام البحث واسترداد الصور المقابلة لتلك المتجهات من مكتبة الصور لتوفيرها كنتيجة نهائية.

درجة الصلة

ترجع خدمات استرداد الصور والفيديو حقلا يسمى "الصلة". يشير مصطلح "الصلة" إلى مقياس درجة التشابه بين الاستعلام وتضمين إطار الصورة أو الفيديو. تتكون درجة الصلة من جزأين:

  1. تشابه التمام (الذي يقع في نطاق [0,1]) بين تضمينات إطارات الاستعلام والصورة أو الفيديو.
  2. درجة بيانات التعريف، والتي تعكس التشابه بين الاستعلام وبيانات التعريف المقترنة بإطار الصورة أو الفيديو.

هام

درجة الصلة هي مقياس جيد لترتيب النتائج مثل الصور أو إطارات الفيديو فيما يتعلق باستعلام واحد. ومع ذلك، لا يمكن مقارنة درجة الصلة بدقة عبر الاستعلامات. لذلك، لا يمكن تعيين درجة الصلة بسهولة إلى مستوى الثقة. كما أنه ليس من الممكن إنشاء خوارزمية عتبة تافهة للقضاء على النتائج غير ذات الصلة استنادا فقط إلى درجة الصلة.

متطلبات الإدخال

إدخال الصورة

  • يجب أن يكون حجم ملف الصورة أقل من 20 ميغابايت (ميغابايت)
  • يجب أن تكون أبعاد الصورة أكبر من 10 × 10 بكسل وأقل من 16000 × 16000 بكسل

إدخال النص

  • يجب أن تكون السلسلة النصية بين كلمة واحدة و70 كلمة (شاملة).

الخطوات التالية

قم بتمكين التضمينات متعددة الوسائط لخدمة البحث واتبع الخطوات لإنشاء تضمينات متجهات للنصوص والصور.