ما هو تحليل الصور؟

يمكن لخدمة Azure AI Vision لتحليل الصورة استخراج مجموعة كبيرة من الميزات المرئية من صورك. على سبيل المثال، يمكن تحديد ما إذا كانت الصورة تتضمن محتوى للبالغين، أو العثور على علامات تجارية أو أشياء محددة، أو العثور على وجوه بشرية.

يحتوي الإصدار الأخير من Image Analysis، 4.0، والذي يتوفر الآن بشكل عام، على ميزات جديدة مثل التعرف البصري على الحروف المتزامنة والكشف عن الأشخاص. نوصي باستخدام هذا الإصدار من الآن فصاعدا.

يمكنك استخدام تحليل الصور من خلال SDK مكتبة العميل أو عن طريق استدعاء API REST مباشرةً. اتبع التشغيل السريع للبدء.

أو يمكنك تجربة إمكانات تحليل الصور بسرعة وسهولة في متصفحك باستخدام Vision Studio.

تحتوي هذه المستندات على أنواع المقالات التالية:

  • يُعد برنامج quickstarts بمثابة إرشادات خطوة بخطوة تسمح لك بإجراء مكالمات مع الخدمة والحصول على النتائج في فترة زمنية قصيرة.
  • تحتوي أدلة الاستخدامعلى إرشادات لاستخدام الخدمة بطرق أكثر تحديداً أو تخصيصاً.
  • توفر المقالات المفاهيمية تفسيرات متعمقة لوظائف الخدمة وميزاتها.
  • تُعد البرامج التعليمية بمثابة أدلة أطول نسبيًا توضح لك كيفية استخدام الخدمة كمكون في حلول الأعمال الأوسع نطاقًا.

للحصول على نهج أكثر تنظيما، اتبع وحدة تدريب لتحليل الصور.

إصدارات تحليل الصور

هام

حدد إصدار واجهة برمجة تطبيقات تحليل الصور الذي يناسب متطلباتك على أفضل نحو.

إصدار الميزات المتوفرة التوصيه
الإصدار 4.0 قراءة النص، التسميات التوضيحية، التسميات التوضيحية الكثيفة، العلامات، الكشف عن الكائنات، تصنيف الصور المخصصة / الكشف عن الكائنات، الأشخاص، الاقتصاص الذكي نماذج أفضل؛ استخدم الإصدار 4.0 إذا كان يدعم حالة الاستخدام الخاصة بك.
الإصدار 3.2 العلامات والكائنات والأوصاف والعلامات التجارية والوجوه ونوع الصورة ونظام الألوان والمعالم والمشاهير ومحتوى البالغين والقص الذكي نطاق أوسع من الميزات؛ استخدام الإصدار 3.2 إذا كانت حالة الاستخدام غير مدعومة بعد في الإصدار 4.0

نوصي باستخدام واجهة برمجة تطبيقات تحليل الصور 4.0 إذا كانت تدعم حالة الاستخدام الخاصة بك. استخدم الإصدار 3.2 إذا كانت حالة الاستخدام الخاصة بك غير مدعومة بعد من قبل 4.0.

ستحتاج أيضا إلى استخدام الإصدار 3.2 إذا كنت تريد إجراء تسمية توضيحية للصور وكان مورد الرؤية خارج مناطق Azure هذه: شرق الولايات المتحدة وفرنسا الوسطى وكوريا الوسطى وشمال أوروبا وجنوب شرق آسيا وغرب أوروبا وغرب الولايات المتحدة وشرق آسيا. يتم دعم ميزة التسمية التوضيحية للصورة في Image Analysis 4.0 فقط في مناطق Azure هذه. تتوفر التسمية التوضيحية للصورة في الإصدار 3.2 في جميع مناطق Azure الذكاء الاصطناعي Vision.

تحليل الصورة

يمكنك تحليل الصور لتقديم رؤى حول ميزاتها وخصائصها البصرية. يتم توفير جميع الميزات في هذه القائمة بواسطة واجهة برمجة تطبيقات تحليل الصور. اتبع التشغيل السريع للبدء.

Name ‏‏الوصف صفحة المفهوم
تخصيص النموذج (معاينة الإصدار 4.0 فقط) يمكنك إنشاء نماذج مخصصة وتدريبها للقيام بتصنيف الصور أو الكشف عن الكائنات. أحضر صورك الخاصة، وقم بتسميةها بعلامات مخصصة، ويدرب تحليل الصور نموذجا مخصصا لحالة الاستخدام الخاصة بك. تخصيص النموذج
قراءة النص من الصور (الإصدار 4.0 فقط) توفر معاينة الإصدار 4.0 من Image Analysis القدرة على استخراج نص قابل للقراءة من الصور. بالمقارنة مع واجهة برمجة تطبيقات القراءة غير المتزامنة ل Computer Vision 3.2، يوفر الإصدار الجديد محرك القراءة OCR المألوف في واجهة برمجة تطبيقات متزامنة محسنة للأداء تجعل من السهل الحصول على التعرف البصري على الحروف مع رؤى أخرى في استدعاء واجهة برمجة تطبيقات واحد. التعرف البصري على الحروف للصور
الكشف عن الأشخاص في الصور (الإصدار 4.0 فقط) يوفر الإصدار 4.0 من Image Analysis القدرة على اكتشاف الأشخاص الذين يظهرون في الصور. يتم إرجاع إحداثيات المربع المحيط لكل شخص تم اكتشافه، جنبا إلى جنب مع درجة الثقة. الكشف عن الأشخاص
إنشاء تسميات توضيحية للصور إنشاء تسمية توضيحية لصورة بلغة يمكن للبشر قراءتها، باستخدام الجمل الكاملة. تنشئ خوارزميات Computer Vision تسميات توضيحية استنادا إلى الكائنات المحددة في الصورة.

يعد نموذج التسمية التوضيحية للصورة الإصدار 4.0 تطبيقا أكثر تقدما ويعمل مع مجموعة أوسع من صور الإدخال. وهي متوفرة فقط في المناطق الجغرافية التالية: شرق الولايات المتحدة، وفرنسا الوسطى، وكوريا الوسطى، وشمال أوروبا، وجنوب شرق آسيا، وغرب أوروبا، وغرب الولايات المتحدة.

يتيح لك الإصدار 4.0 أيضا استخدام التسمية التوضيحية الكثيفة، والتي تنشئ تسميات توضيحية مفصلة للكائنات الفردية الموجودة في الصورة. تقوم واجهة برمجة التطبيقات بإرجاع إحداثيات المربع المحيط (بالبكسل) لكل كائن موجود في الصورة، بالإضافة إلى تسمية توضيحية. يمكنك استخدام هذه الوظيفة لإنشاء أوصاف لأجزاء منفصلة من الصورة.

صورة الأبقار مع وصف بسيط على اليمين.
إنشاء تسميات توضيحية للصور (الإصدار 3.2)
(v4.0)
اكتشاف الكائنات يشبه الكشف عن الكائنات وضع العلامات، ولكن API ترجع إحداثيات المربع المحيط لكل علامة مطبقة. على سبيل المثال، إذا كانت الصورة تحتوي على كلب وقطة وشخص، فإن عملية الكشف تسرد هذه العناصر مع إحداثياتها في الصورة. يمكنك استخدام هذه الوظيفة لمعالجة علاقات أخرى بين الكائنات في صورة. كما تتيح لك معرفة متى توجد مثيلات متعددة لنفس العلامة في صورة.

صورة لمكتب مع مستطيل مرسوم حول كمبيوتر محمول.
الكشف عن الكائنات (الإصدار 3.2)
(v4.0)
تمييز الميزات المرئية حدد الميزات المرئية وضع علامة عليها في صورة، من مجموعة من آلاف الأشياء التي يمكن التعرف عليها، والكائنات الحية، والمناظر الطبيعية، والإجراءات. عندما تكون العلامات غامضة أو غير معروفة، توفر استجابة API تلميحات لتوضيح سياق العلامة. لا يقتصر وضع العلامات على الموضوع الرئيسي، مثل شخص في المقدمة، ولكنه يتضمن أيضا البيئة (داخلية أو خارجية)، والأثاث، والأدوات، والنباتات، والحيوانات، والملحقات، والأدوات، وما إلى ذلك.

صورة لمتزلج مع علامات مدرجة على اليمين.
وضع علامة على الميزات المرئية (الإصدار 3.2)
(v4.0)
الحصول على منطقة الاهتمام / الاقتصاص الذكي تحليل محتويات صورة لإرجاع إحداثيات منطقة الاهتمام التي تطابق نسبة عرض إلى ارتفاع محددة. ترجع Computer Vision إحداثيات مربع الإحاطة للمنطقة، بحيث يمكن لتطبيق الاستدعاء تعديل الصورة الأصلية حسب الرغبة.

يعد نموذج الاقتصاص الذكي للإصدار 4.0 تطبيقا أكثر تقدما ويعمل مع مجموعة أوسع من صور الإدخال. وهي متوفرة فقط في المناطق الجغرافية التالية: شرق الولايات المتحدة، وفرنسا الوسطى، وكوريا الوسطى، وشمال أوروبا، وجنوب شرق آسيا، وغرب أوروبا، وغرب الولايات المتحدة.
إنشاء صورة مصغرة (إصدار 3.2)
(معاينة الإصدار 4.0)
الكشف عن العلامات التجارية (الإصدار 3.2 فقط) تحديد العلامات التجارية في الصور أو مقاطع الفيديو من قاعدة بيانات لآلاف الشعارات العالمية. يمكنك استخدام هذه الميزة، على سبيل المثال، لاكتشاف العلامات التجارية الأكثر شيوعًا على وسائل التواصل الاجتماعي أو الأكثر انتشارًا في وضع منتج الوسائط. الكشف عن العلامات التجارية
تصنيف صورة (إصدار 3.2 فقط) تحديد وتصنيف صورة بالكامل، باستخدام تصنيف الفئات مع التسلسلات الهرمية الموروثة الأصلية/التابعة. يمكن استخدام الفئات وحدها، أو مع نماذج العلامات الجديدة.

حاليًا، اللغة الإنجليزية هي اللغة الوحيدة المعتمدة لوضع العلامات وتصنيف الصور.
تصنيف صورة
الكشف عن الوجوه (الإصدار 3.2 فقط) الكشف عن الوجوه في صورة وتقديم معلومات حول كل وجه تم اكتشافه. ترجع Azure الذكاء الاصطناعي Vision الإحداثيات والمستطيل والجنس والعمر لكل وجه تم اكتشافه.

يمكنك أيضاً استخدام Face API لهذه الأغراض. يوفر تحليلاً أكثر تفصيلاً، مثل تحديد الوجه واكتشاف الوضع.
الكشف عن وجوه
الكشف عن أنواع الصور (الإصدار 3.2 فقط) اكتشف خصائص الصورة، مثل ما إذا كانت الصورة رسمًا تخطيطيًا أو احتمالية ما إذا كانت الصورة قصاصة فنية أم لا. الكشف عن أنواع الصور
الكشف عن المحتوى الخاص بالمجال (الإصدار 3.2 فقط) استخدم نماذج النطاقات للكشف عن المحتوى الخاص بالمجال وتحديده في صورة، مثل المشاهير والمعالم. على سبيل المثال، إذا كانت الصورة تحتوي على أشخاص، فيمكن ل Azure الذكاء الاصطناعي Vision استخدام نموذج مجال للمشاهير لتحديد ما إذا كان الأشخاص الذين تم اكتشافهم في الصورة من المشاهير المعروفين. الكشف عن محتوى خاص بالمجال
الكشف عن نظام الألوان (الإصدار 3.2 فقط) تحليل استخدام الألوان داخل صورة. يمكن ل Azure الذكاء الاصطناعي Vision تحديد ما إذا كانت الصورة باللون الأسود والأبيض أو اللون، وبالنسبة للصور الملونة، حدد الألوان المهيمنة واللهجة. الكشف عن نظام الألوان
الإشراف على المحتوى في الصور (الإصدار 3.2 فقط) يمكنك استخدام Azure الذكاء الاصطناعي Vision للكشف عن محتوى البالغين في صورة وإرجاع درجات الثقة لتصنيفات مختلفة. يمكن تعيين حد وضع علامة على المحتوى على مقياس منزلق لاستيعاب تفضيلاتك. الكشف عن محتوى البالغين

تلميح

يمكنك استخدام ميزات قراءة النص والكشف عن الكائنات لتحليل الصور من خلال خدمة Azure OpenAI . يتيح لك نموذج GPT-4 Turbo with Vision الدردشة مع مساعد الذكاء الاصطناعي يمكنه تحليل الصور التي تشاركها، ويستخدم خيار تحسين الرؤية تحليل الصور لمنح المساعدة الذكاء الاصطناعي المزيد من التفاصيل (النص القابل للقراءة ومواقع الكائنات) حول الصورة. لمزيد من المعلومات، راجع GPT-4 Turbo with Vision quickstart.

التعرف على المنتج (معاينة الإصدار 4.0 فقط)

تتيح لك واجهات برمجة التطبيقات التعرف على المنتجات تحليل صور الرفوف في متجر بيع بالتجزئة. يمكنك الكشف عن وجود المنتجات أو غيابها والحصول على إحداثيات المربع المحيط بها. استخدمه بالاشتراك مع تخصيص النموذج لتدريب نموذج لتحديد منتجاتك المحددة. يمكنك أيضا مقارنة نتائج التعرف على المنتجات بمستند مخطط مخطط متجرك.

التعرف على المنتج

التضمينات متعددة الوسائط (الإصدار 4.0 فقط)

تمكن واجهات برمجة تطبيقات التضمينات متعددة الوسائط من توجيه الصور واستعلامات النص. إنها تحول الصور إلى إحداثيات في مساحة متجه متعددة الأبعاد. بعد ذلك، يمكن أيضا تحويل استعلامات النص الواردة إلى خطوط متجهة، ويمكن مطابقة الصور مع النص استنادا إلى التقارب الدلالي. يسمح هذا للمستخدم بالبحث في مجموعة من الصور باستخدام النص، دون الحاجة إلى استخدام علامات الصور أو بيانات التعريف الأخرى. غالبا ما ينتج عن التقارب الدلالي نتائج أفضل في البحث.

2024-02-01 تتضمن واجهة برمجة التطبيقات نموذجا متعدد اللغات يدعم البحث عن النص ب 102 لغة. لا يزال النموذج الأصلي باللغة الإنجليزية فقط متوفرا، ولكن لا يمكن دمجه مع النموذج الجديد في نفس فهرس البحث. إذا قمت بتصوير النصوص والصور الموجهة باستخدام النموذج باللغة الإنجليزية فقط، فلن تكون هذه المتجهات متوافقة مع متجهات النص والصور متعددة اللغات.

تتوفر واجهات برمجة التطبيقات هذه فقط في المناطق الجغرافية التالية: شرق الولايات المتحدة وفرنسا الوسطى وكوريا الوسطى وشمال أوروبا وجنوب شرق آسيا وغرب أوروبا وغرب الولايات المتحدة.

التضمينات متعددة الوسائط

إزالة الخلفية (معاينة الإصدار 4.0 فقط)

يوفر تحليل الصورة 4.0 (معاينة) القدرة على إزالة خلفية الصورة. يمكن لهذه الميزة إما إخراج صورة للكائن الأمامي المكتشف بخلفية شفافة، أو صورة ألفا غير لامعة ذات تدرج رمادي تظهر شفافية الكائن الأمامي المكتشف.

إزالة الخلفية

الصورة الأصلية مع إزالة الخلفية ألفا غير لامع
صورة لمجموعة من الأشخاص يستخدمون كمبيوتر لوحي. صورة لمجموعة من الأشخاص يستخدمون كمبيوتر لوحي؛ الخلفية شفافة. ألفا لامعة من مجموعة من الناس.

متطلبات الصور

يعمل تحليل الصور على الصور التي تلبي المتطلبات التالية:

  • يجب تقديم الصورة بتنسيق JPEG أو PNG أو GIF أو BMP أو WEBP أو ICO أو TIFF أو MPO
  • يجب أن يكون حجم ملف الصورة أقل من 20 ميغابايت (ميغابايت)
  • يجب أن تكون أبعاد الصورة أكبر من 50 × 50 بكسل وأقل من 16000 × 16000 بكسل

تلميح

متطلبات الإدخال للتضمينات متعددة الوسائط مختلفة ويتم سردها في التضمينات متعددة الوسائط

خصوصية البيانات وأمنها

كما هو الحال مع جميع خدمات Azure الذكاء الاصطناعي، يجب أن يكون المطورون الذين يستخدمون خدمة Azure الذكاء الاصطناعي Vision على دراية بسياسات Microsoft بشأن بيانات العملاء. راجع صفحة خدمات الذكاء الاصطناعي Azure في مركز توثيق Microsoft لمعرفة المزيد.

الخطوات التالية

ابدأ باستخدام تحليل الصور باتباع دليل التشغيل السريع بلغة التطوير المفضلة لديك: