تصنيف الصورة على Azure

Azure Blob Storage
Azure Computer Vision
Azure Cosmos DB
Azure Event Grid
Azure Functions

أفكار الحل

تصف هذه المقالة فكرة الحل. يمكن لمهندس السحابة الخاص بك استخدام هذه الإرشادات للمساعدة في تصور المكونات الرئيسية لتنفيذ نموذجي لهذه البنية. استخدم هذه المقالة كنقطة بداية لتصميم حل جيد التصميم يتوافق مع المتطلبات المحددة لحمل العمل الخاص بك.

باستخدام خدمات Azure، مثل Computer Vision API وAzure Functions، يمكن للشركات التخلص من الحاجة إلى إدارة الخوادم الفردية، مع تقليل التكاليف والاستفادة من الخبرة التي طورتها Microsoft بالفعل مع معالجة الصور باستخدام خدمات Azure الذكاء الاصطناعي. تتناول فكرة الحل هذه حالة استخدام معالجة الصور على وجه التحديد. إذا كانت لديك احتياجات الذكاء الاصطناعي مختلفة، ففكر في المجموعة الكاملة من خدمات Azure الذكاء الاصطناعي.

بناء الأنظمة

رسم تخطيطي لبنية تستخدم لمهام تصنيف الصور.

قم بتنزيل ملف Visio لفكرة الحل هذه.

تدفق البيانات

يغطي هذا السيناريو المكونات الخلفية لتطبيق ويب أو هاتف محمول. تتدفق البيانات عبر السيناريو كما يلي:

  1. تؤدي إضافة ملفات جديدة (تحميلات الصور) في تخزين Blob إلى تشغيل حدث في شبكة أحداث Azure. يمكن تنسيق عملية التحميل عبر الويب أو تطبيق الهاتف المحمول. بدلا من ذلك، يمكن تحميل الصور بشكل منفصل إلى تخزين Azure Blob.
  2. ترسل Event Grid إعلاما يؤدي إلى تشغيل وظائف Azure.
  3. تستدعي Azure Functions واجهة برمجة تطبيقات Azure الذكاء الاصطناعي Vision لتحليل الصورة التي تم تحميلها حديثا. يصل Azure الذكاء الاصطناعي Vision إلى الصورة عبر عنوان URL للكائن الثنائي كبير الحجم الذي يتم تحليله بواسطة Azure Functions.
  4. تستمر Azure Functions في استجابة الذكاء الاصطناعي Vision API في Azure Cosmos DB. تتضمن هذه الاستجابة نتائج التحليل، جنبا إلى جنب مع بيانات تعريف الصورة.
  5. يمكن استهلاك النتائج وتنعكس على الويب أو الواجهة الأمامية للجوال. لاحظ أن هذا الأسلوب يسترد نتائج التصنيف ولكن ليس الصورة التي تم تحميلها.

المكونات

  • Azure الذكاء الاصطناعي Vision هي جزء من مجموعة خدمات Azure الذكاء الاصطناعي وتستخدم لاسترداد معلومات حول كل صورة.
  • توفر Azure Functions واجهة برمجة التطبيقات الخلفية لتطبيق الويب. يوفر هذا النظام الأساسي أيضا معالجة الأحداث للصور التي تم تحميلها.
  • شبكة أحداث Azure تقوم بتشغيل حدث عند تحميل صورة جديدة إلى تخزين كائن ثنائي كبير الحجم. ثم تتم معالجة الصورة باستخدام Azure Functions.
  • يخزن Azure Blob Storage جميع ملفات الصور التي يتم تحميلها في تطبيق الويب، بالإضافة إلى أي ملفات ثابتة يستهلكها تطبيق الويب.
  • يخزن Azure Cosmos DB بيانات التعريف حول كل صورة يتم تحميلها، بما في ذلك نتائج المعالجة من واجهة برمجة تطبيقات Computer Vision.

البدائل

  • Azure OpenAI GPT-4 Turbo مع الرؤية (معاينة). GPT-4 Turbo with Vision هو نموذج متعدد الوسائط يمكنه تحليل الصور والإجابة عن الأسئلة المتعلقة بها.
  • خدمة الرؤية المخصصة. ترجع واجهة برمجة تطبيقات رؤية الكمبيوتر مجموعة من الفئات المستندة إلى التصنيف. إذا كنت بحاجة إلى معالجة المعلومات التي لم يتم إرجاعها بواسطة واجهة برمجة تطبيقات رؤية الكمبيوتر، ففكر في خدمة الرؤية المخصصة، والتي تتيح لك إنشاء مصنفات صور مخصصة.
  • Azure الذكاء الاصطناعي Search (سابقا Azure Search). إذا كانت حالة الاستخدام تتضمن الاستعلام عن بيانات التعريف للعثور على الصور التي تفي بمعايير محددة، ففكر في استخدام Azure الذكاء الاصطناعي Search. يدمج بحث Azure الذكاء الاصطناعي سير العمل هذا بسلاسة.
  • تطبيقات منطقية. إذا لم تكن بحاجة إلى التفاعل في الوقت الحقيقي على الملفات المضافة إلى كائن ثنائي كبير الحجم، فقد تفكر في استخدام Logic Apps. قد يبدأ تطبيق المنطق الذي يمكنه التحقق مما إذا تمت إضافة ملف بواسطة مشغل التكرار أو مشغل النوافذ المنزلقة.
  • إذا كانت لديك صور مضمنة في المستندات، فاستخدم Azure الذكاء الاصطناعي Document Intelligence لتحديد موقع هذه الصور. باستخدام هذه المعلومات، يمكنك استخراج وتنفيذ المزيد من مهام رؤية الكمبيوتر على الصور المضمنة. استخدم Document Intelligence لجمع بيانات حول تلك الصور المضمنة، مثل رقم الصفحة أو نص التسمية التوضيحية الذي يمكن تخزينه مع بيانات التعريف الأخرى للصور التي تم تلقيها من خلال واجهة برمجة تطبيقات Computer Vision.

تفاصيل السيناريو

هذا السيناريو مناسب للشركات التي تحتاج إلى معالجة الصور.

تتضمن التطبيقات المحتملة تصنيف الصور لموقع ويب للأزياء، أو تحليل النص والصور لمطالبات التأمين، أو فهم بيانات تتبع الاستخدام من لقطات شاشة اللعبة. تقليدياً، ستحتاج الشركات إلى تطوير الخبرة في نماذج التعلم الآلي، وتدريب النماذج، وأخيرا تشغيل الصور من خلال عمليتها المخصصة للحصول على البيانات من الصور.

حالات الاستخدام المحتملة

يعد هذا الحل مثالياً لمجالات البيع بالتجزئة والألعاب والشؤون المالية والتأمين. وتشمل حالات الاستخدام الأخرى ذات الصلة ما يلي:

  • تصنيف الصور على موقع ويب للأزياء. يمكن استخدام تصنيف الصور من قبل البائعين أثناء تحميل صور المنتجات على النظام الأساسي للبيع. يمكنهم بعد ذلك أتمتة العلامات اليدوية اللاحقة المعنية. يمكن للعملاء أيضاً البحث من خلال الانطباع المرئي للمنتجات.

  • تصنيف بيانات تتبع الاستخدام من لقطات شاشة للألعاب. يتطور تصنيف ألعاب الفيديو من لقطات الشاشة إلى مشكلة ذات صلة في وسائل التواصل الاجتماعي، إلى جانب رؤية الكمبيوتر. على سبيل المثال، عندما تلعب Twitch Streamers ألعابًا مختلفة بشكل متعاقب، فقد يتخطون تحديث معلومات الدفق يدويًا. قد يؤدي الفشل في تحديث معلومات الدفق إلى سوء تصنيف التدفقات في عمليات بحث المستخدم وقد يؤدي إلى فقدان المشاهدة المحتملة لكل من منشئي المحتوى والأنظمة الأساسية للدفق. أثناء تقديم ألعاب جديدة، يمكن أن يكون مسار نموذج مخصص مفيدا لتقديم القدرة على الكشف عن الصور الجديدة من تلك الألعاب.

  • تصنيف الصور لمطالبات التأمين. يمكن أن يساعد تصنيف الصور في تقليل وقت وتكلفة معالجة المطالبات والكتابة. ويمكن أن يساعد في تحليل الأضرار الناجمة عن الكوارث الطبيعية، والأضرار الناجمة عن المركبات، وتحديد الممتلكات السكنية والتجارية.

الخطوات التالية

وثائق المنتج

للحصول على مسار تعلم موجه، راجع:

استخدام الإثراء الذكاء الاصطناعي مع معالجة الصور والنصوص