فهم رؤية الكمبيوتر

مكتمل

رؤية الكمبيوتر هي مجال الذكاء الاصطناعي الذي يتعامل مع المعالجة المرئية. دعونا نستكشف بعض الإمكانيات التي تجلبها رؤية الكمبيوتر.

يعد تطبيق "رؤية الذكاء الاصطناعي" مثالا رائعا على قوة رؤية الكمبيوتر. تم تصميم تطبيق Seeing AI للمكفوفين وضعاف البصر، ويسخر قوة الذكاء الاصطناعي لفتح العالم المرئي ووصف الأشخاص والنصوص والعناصر.

يمكنك عرض الفيديو التالي لمعرفة المزيد حول Seeing AI.

لمعرفة المزيد، راجع صفحة ويب رؤية الذكاء الاصطناعي.

نماذج وقدرات رؤية الكمبيوتر

تعتمد معظم حلول رؤية الكمبيوتر على نماذج التعلّم الآلي التي يمكن تطبيقها على الإدخال المرئي من الكاميرات أو مقاطع الفيديو أو الصور. يصف الجدول التالي مهام رؤية الكمبيوتر الشائعة.

مهمة ‏‏الوصف
تصنيف الصورة An image of a taxi with the label
يتضمن تصنيف الصور تدريب نموذج التعلّم الآلي لتصنيف الصور استنادًا إلى محتوياتها. على سبيل المثال، في حل مراقبة حركة المرور، قد تستخدم نموذج تصنيف الصور لتصنيف الصور استنادًا إلى نوع السيارة التي تحتوي عليها، مثل سيارات الأجرة والحافلات وراكبي الدراجات وما إلى ذلك.
اكتشاف الكائنات An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
يتم تدريب نماذج التعلّم الآلي للكشف عن العنصر على تصنيف العناصر الفردية داخل صورة ما، وتحديد موقعها باستخدام مربع إحاطة. على سبيل المثال، قد يستخدم حل مراقبة حركة المرور الكشف عن العنصر لتحديد موقع فئات مختلفة من المركبات.
التجزئة الدلالية An image of a street with the pixels belonging to buses, cars, and cyclists identified.
التجزئة الدلالية هي تقنية متقدمة للتعلّم الآلي، حيث يتم تصنيف وحدات البكسل الفردية في الصورة وفقًا للعنصر الذي تنتمي إليه. على سبيل المثال، قد يؤدي حل مراقبة حركة المرور إلى تراكب صور حركة المرور بطبقات "قناع" لتسليط الضوء على مركبات مختلفة باستخدام ألوان محددة.
تحليل الصور An image of a person with a dog on a street and the caption
يمكنك إنشاء حلول تجمع بين نماذج التعلّم الآلي وتقنيات تحليل الصور المتقدمة لاستخراج المعلومات من الصور، بما في ذلك "العلامات" التي يمكن أن تساعد في فهرسة الصورة أو حتى الأوصاف التوضيحية التي تلخص المشهد المعروض في الصورة.
الكشف عن الأشخاص والتحليل، والتعرف An image of multiple people on a city street with their faces highlighted.
الكشف عن الأشخاص هو نموذج متخصص من الكشف عن العنصر الذي تحدد موقع الوجوه البشرية في صورة. يمكن دمج هذا مع تقنيات تحليل هندسة الوجه والتصنيف للتعرف على الأفراد بناءً على ملامح وجههم.
التعرّف البصري على الحروف (OCR) An image of a building with the sign
التعرف البصري على الحروف هو تقنية تستخدم للكشف عن النص في الصور وقراءته. يمكنك استخدام OCR لقراءة النص في الصور الفوتوغرافية (على سبيل المثال، علامات الطريق أو واجهات المتاجر) أو لاستخراج المعلومات من المستندات الممسوحة ضوئيًا مثل الرسائل أو الفواتير أو النماذج.

خدمات رؤية الكمبيوتر في Microsoft Azure

يمكنك استخدام Azure الذكاء الاصطناعي Vision من Microsoft لتطوير حلول رؤية الكمبيوتر. تتوفر ميزات الخدمة للاستخدام والاختبار في Azure Vision Studio ولغات البرمجة الأخرى. تتضمن بعض ميزات Azure الذكاء الاصطناعي Vision ما يلي:

  • تحليل الصور: إمكانات لتحليل الصور والفيديو واستخراج الأوصاف والعلامات والعناصر والنص.
  • الوجه: القدرات التي تمكنك من بناء حلول الكشف عن الوجه والتعرف على الوجه.
  • التعرف البصري على الحروف (OCR): إمكانات استخراج النص المطبوع أو المكتوب بخط اليد من الصور، ما يتيح الوصول إلى إصدار رقمي من النص الممسوح ضوئيا.