اختيار تقنية معالجة الصور والفيديو في Azure الذكاء الاصطناعي

2024-10-01

تساعد خدمات Azure الذكاء الاصطناعي المطورين والمؤسسات على إنشاء تطبيقات ذكية ومحدثة وجاهزة للسوق ومسؤولة باستخدام واجهات برمجة تطبيقات ونماذج جاهزة ومنشأة مسبقا وقابلة للتخصيص.

تتناول هذه المقالة خدمات Azure الذكاء الاصطناعي التي توفر قدرات معالجة الفيديو والصور، مثل التحليل المرئي وإنشاء الصور واكتشاف الكائنات وتصنيف الصور والتعرف على الوجه.

الخدمات

توفر الخدمات التالية قدرات معالجة الفيديو والصور لخدمات Azure الذكاء الاصطناعي:

Azure OpenAI
- استخدم Azure OpenAI لإنشاء الصور من اللغة الطبيعية باستخدام نماذج التصوير التوليدية المدربة مسبقا. على سبيل المثال، إنشاء الفن المخصص عند الطلب.
- استخدم Azure OpenAI عندما تحتاج إلى إجراء تحليل واسع غير محدد على الصور. على سبيل المثال، إنشاء أوصاف إمكانية وصول ذوي الاحتياجات الخاصة.
- لا تستخدم Azure OpenAI إذا كنت تريد استخدام نماذج إنشاء الصور مصدر مفتوح المتوفرة في Azure التعلم الآلي.
- لا تستخدم Azure OpenAI إذا كنت بحاجة إلى إجراء أنواع محددة من معالجة الصور مثل استخراج النماذج أو التعرف على الوجه أو الكشف عن خصائص الصورة المتخصصة بالمجال. لهذه السيناريوهات، استخدم أو أنشئ حلول الذكاء الاصطناعي مصممة خصيصا لهذه الأغراض بدلا من ذلك.
رؤية Azure الذكاء الاصطناعي
- استخدم خدمة Vision عندما تحتاج إلى التعرف البصري على الحروف (OCR) أو تحليل الصور أو تحليل الفيديو الأساسي للكشف عن الحركة والأحداث الأخرى.
- لا تستخدم خدمة الرؤية للتحليل الذي تدعمه بالفعل النماذج الأساسية الكبيرة متعددة الوسائط.
- لا تستخدم خدمة Vision لاعتدال المحتوى. استخدم خدمة أمان المحتوى بدلا من ذلك.
Azure الذكاء الاصطناعي Custom Vision
- استخدم الخدمة عندما يكون لديك متطلبات محددة لا يمكن أن يوفرها تحليل الصور لخدمة الرؤية الأساسية. على سبيل المثال، من الجيد التعرف على الكائنات غير العادية أو عيوب التصنيع أو توفير تصنيفات مخصصة مفصلة.
- لا تستخدم الخدمة إذا كنت بحاجة إلى الكشف عن الكائنات الأساسية أو الكشف عن الوجه. استخدم خدمات Face أو Vision بدلا من ذلك.
- لا تستخدم الخدمة للتحليل المرئي الأساسي. استخدم نماذج قادرة على الرؤية من Azure OpenAI أو نماذج مفتوحة المصدر في Azure التعلم الآلي بدلا من ذلك.
Azure الذكاء الاصطناعي Face
- استخدم خدمة Face عندما تحتاج إلى التحقق مما إذا كانت الوجوه حية أو منتحلة/مزيفة، أو لتحديد الوجوه المماثلة أو تجميعها أو العثور عليها.
- لا تستخدم خدمة Face للكشف عن العواطف في الوجوه أو إجراء أسباب أخرى عالية المستوى حول الوجوه. استخدم نماذج اللغات متعددة الوسائط لتلك المهام بدلا من ذلك.
مفهرس فيديو Azure الذكاء الاصطناعي
- استخدم خدمة مفهرس الفيديو Azure للمهام ذات الصلة بتحليل الفيديو الأكثر تقدما التي لا يمكن أن يوفرها تحليل الفيديو الأساسي لخدمة Vision.
- لا تستخدم خدمة Azure Video Indexer لمهام تحليل الفيديو الأساسية مثل عد الأشخاص والحركة واكتشاف الأحداث. يعد تحليل الفيديو الأساسي لخدمة Vision أكثر فعالية من حيث التكلفة لهذه المهام.

Azure OpenAI

يوفر Azure OpenAI الوصول إلى نماذج اللغة القوية ل OpenAI، بما في ذلك أحدث جيل من نماذج GPT. تدعم هذه التحليلات المرئية وأجيال الصور، ويدعم DALL-E إنشاء الصور.

الرؤية في الذكاء الاصطناعي في Azure

يوفر Azure الذكاء الاصطناعي Vision خوارزميات متقدمة تعالج الصور وتعيد المعلومات استنادا إلى الميزات المرئية التي تهتم بها. ويوفر أربع خدمات: التعرف البصري على الحروف وخدمة الوجه والصورة والتحليل المكاني.

القدرات

يوفر الجدول التالي قائمة بالإمكانيات المتوفرة في خدمة Azure الذكاء الاصطناعي Vision.

القدرة	‏‏الوصف
التعرف البصري على الحروف (OCR)	تستخرج خدمة التعرف الضوئي على الحروف (OCR) نصاً من الصور. يمكنك استخدام واجهة برمجة تطبيقات Read لاستخراج النص المطبوع والمكتوب بخط اليد من الصور والمستندات. ويستخدم نماذج تستند إلى التعلم العميق ويعمل مع النص على الأسطح والخلفيات المختلفة. وتشمل هذه الوثائق التجارية والفواتير والإيصالات والملصقات وبطاقات العمل والرسائل ولوحات المعلومات. تدعم واجهات برمجة تطبيقات التعرف البصري على الحروف استخراج النص المطبوع بعدة لغات.
تحليل الصور	تستخرج خدمة تحليل الصور العديد من الميزات المرئية من الصور، مثل الكائنات والوجوه ووصف النص الذي تم إنشاؤه تلقائيا. باستخدام Image Analysis 4.0 الذي يستند إلى نموذج فلورنسا التأسيسي، يمكنك أيضا إنشاء نماذج معرف صورة مخصصة.
تحليل الفيديو	يتضمن Video Analysis ميزات متعلقة بالفيديو مثل التحليل المكاني واسترجاع الفيديو. يحلل التحليل المكاني وجود الأشخاص وحركهم على موجز فيديو وينتج الأحداث التي يمكن للأنظمة الأخرى الاستجابة لها.

خدمة الذكاء الاصطناعي Azure AI Custom Vision

خدمة Azure الذكاء الاصطناعي Custom Vision هي خدمة التعرف على الصور التي تتيح لك إنشاء نماذج معرف الصور ونشرها وتحسينها. يطبق معرف الصورة الملصقات على الصور، وفقًا لخصائصها المرئية. كل تسمية تمثل تصنيفًا أو كائنًا. تسمح لك الرؤية المخصصة بتحديد التسميات الخاصة بك وتدريب النماذج المخصصة للكشف عنها.

تستخدم خدمة Custom Vision خوارزمية التعلم الآلي لتحليل الصور للميزات المخصصة. يمكنك إرسال مجموعات من الصور التي لا تحتوي على الخصائص المرئية التي تبحث عنها. ثم تقوم بتسمية الصور بتسمياتك الخاصة (العلامات) في وقت الإرسال. تتدرب الخوارزمية على هذه البيانات وتحسب دقتها الخاصة عن طريق اختبار نفسها على نفس الصور. بمجرد تدريب النموذج، يمكنك اختباره وإعادة تدريبه واستخدامه في النهاية في تطبيق التعرف على الصور الخاص بك لتصنيف الصور أو للكشف عن العناصر. يمكنك أيضًا ⁧⁩تصدير النموذج⁧⁩ نفسه للاستخدام دون اتصال.

القدرات

يوفر الجدول التالي قائمة بالقدرات المتوفرة في خدمة Azure الذكاء الاصطناعي Custom Vision.

القدرة	‏‏الوصف
تصنيف الصور	توقع فئة، أو فئة، استنادا إلى مجموعة من المدخلات، والتي تسمى الميزات. حساب درجة الاحتمال لكل فئة ممكنة وإرجاع تسمية تشير إلى الفئة التي ينتمي إليها العنصر على الأرجح. لاستخدام هذا النموذج، تحتاج إلى بيانات تتكون من الميزات وتسمياتها.
اكتشاف الكائنات	احصل على إحداثيات كائن في صورة. لاستخدام هذا النموذج، تحتاج إلى بيانات تتكون من الميزات وتسمياتها

القدرة

‏‏الوصف

تصنيف الصور

توقع فئة، أو فئة، استنادا إلى مجموعة من المدخلات، والتي تسمى الميزات. حساب درجة الاحتمال لكل فئة ممكنة وإرجاع تسمية تشير إلى الفئة التي ينتمي إليها العنصر على الأرجح. لاستخدام هذا النموذج، تحتاج إلى بيانات تتكون من الميزات وتسمياتها.

اكتشاف الكائنات

احصل على إحداثيات كائن في صورة. لاستخدام هذا النموذج، تحتاج إلى بيانات تتكون من الميزات وتسمياتها

حالات الاستخدام

يوفر الجدول التالي قائمة بحالات الاستخدام المحتملة لخدمة Azure الذكاء الاصطناعي Custom Vision.

حالة الاستخدام	‏‏الوصف
استخدام Custom Vision مع جهاز IoT للإبلاغ عن الحالات المرئية	استخدم Custom Vision لتدريب جهاز باستخدام كاميرا للكشف عن الحالات المرئية. يمكنك تشغيل سيناريو الكشف هذا على جهاز IoT باستخدام نموذج ONNX تم تصديره. تصف الحالة المرئية محتوى الصورة: غرفة فارغة أو غرفة مع أشخاص، ممر فارغ أو ممر مع شاحنة، وما إلى ذلك.
التعرف على الشعارات في صور الكاميرا	تحليل الصور، والبحث عن شعارات محددة.

حالة الاستخدام

‏‏الوصف

استخدام Custom Vision مع جهاز IoT للإبلاغ عن الحالات المرئية

استخدم Custom Vision لتدريب جهاز باستخدام كاميرا للكشف عن الحالات المرئية. يمكنك تشغيل سيناريو الكشف هذا على جهاز IoT باستخدام نموذج ONNX تم تصديره. تصف الحالة المرئية محتوى الصورة: غرفة فارغة أو غرفة مع أشخاص، ممر فارغ أو ممر مع شاحنة، وما إلى ذلك.

التعرف على الشعارات في صور الكاميرا

تحليل الصور، والبحث عن شعارات محددة.

الذكاء الاصطناعي للوجوه في Azure

توفر خدمة Azure الذكاء الاصطناعي Face خوارزميات الذكاء الاصطناعي تكتشف الوجوه البشرية وتتعرف عليها وتحللها في الصور. تعد برامج التعرف على الوجه مهمة في العديد من السيناريوهات، مثل التعريف والتحكم في الوصول بدون لمس والتمويه التلقائي للوجه للخصوصية.

القدرات

يوفر الجدول التالي قائمة بالإمكانيات المتوفرة في خدمة Azure الذكاء الاصطناعي Face.

القدرة	‏‏الوصف
الكشف عن الوجه وتحليله	تحديد مناطق الصورة التي تحتوي على وجه بشري، عادة عن طريق إرجاع إحداثيات مربع الإحاطة التي تشكل مستطيلا حول الوجه.
العثور على وجوه متشابهة	تواجه عملية البحث عن مماثلة مطابقة بين الوجه المستهدف ومجموعة من وجوه المرشحين، والعثور على مجموعة أصغر من الوجوه التي تبدو مشابهة للوجه المستهدف. ما يمكن الاستفادة منه في سبيل البحث عن الوجه بالصورة.
وجوه المجموعة	تقسم عملية المجموعة مجموعة من الوجوه المجهولة إلى عدة مجموعات أصغر استنادًا إلى التشابه. كل مجموعة عبارة عن مجموعة فرعية مناسبة غير مرتبطة من المجموعة الأصلية من الوجوه. كما يتم إرجاع صفيف "messyGroup" منفرد يحتوي على معرفات الوجه التي لم يتم العثور على أوجه التشابه بينها.
تعريف	يمكن للتعرف على الوجه معالجة المطابقة "واحد إلى متعدد" لوجه واحد في صورة مع مجموعة من الوجوه في مستودع آمن. يتم إرجاع المرشحين المطابقين استنادًا إلى مدى تطابق بيانات الوجه مع وجه الاستعلام.
عمليات التعرف على الوجه	يمكن للمؤسسات والتطبيقات الحديثة استخدام تقنيات التعرف على الوجه، بما في ذلك التحقق من الوجه (مطابقة "واحد إلى واحد") وتحديد الوجه (مطابقة "واحد إلى متعدد") للتأكد من أن المستخدم هو الشخص الذي يدعي أنه هو.
الكشف عن الحياة	الكشف عن الحياة هو ميزة مضادة للانتحال تتحقق مما إذا كان المستخدم موجودا فعليا أمام الكاميرا. يتم استخدامه لمنع هجمات تزييف هوية باستخدام صورة مطبوعة أو فيديو مسجل أو قناع ثلاثي الأبعاد لوجه المستخدم.

حالات الاستخدام

يوفر الجدول التالي قائمة بحالات الاستخدام المحتملة لخدمة Azure الذكاء الاصطناعي Face.

حالة الاستخدام	‏‏الوصف
تحقق من هوية المستخدم.	تحقق من شخص مقابل صورة وجه موثوق بها. يمكن استخدام هذا التحقق لمنح حق الوصول إلى الخصائص الرقمية أو المادية. في معظم الحالات، يمكن أن تأتي صورة الوجه الموثوق بها من هوية صادرة عن الحكومة مثل جواز السفر أو رخصة القيادة، أو قد تأتي من صورة تسجيل تم التقاطها شخصيا. أثناء التحقق، يمكن أن يلعب الكشف عن الحياة دورا حاسما في التحقق من أن الصورة تأتي من شخص حقيقي، وليس صورة مطبوعة أو قناعا.
تغيير الوجه	تنقيح أو تمويه الوجوه المكتشفة للأشخاص المسجلين في مقطع فيديو لحماية خصوصيتهم.
التحكم في الوصول بدون لمس.	بالمقارنة مع أساليب مثل البطاقات أو التذاكر، يتيح الاشتراك في التعرف على الوجه تجربة محسنة للتحكم في الوصول مع تقليل مخاطر النظافة والأمان من مشاركة الوسائط المادية أو فقدانها أو سرقتها. يساعد التعرف على الوجه عملية تسجيل الوصول مع إنسان في الحلقة لتسجيل الوصول في المطارات أو الملاعب أو الحدائق الترفيهية أو المباني أو أكشاك الاستقبال في المكاتب أو المستشفيات أو الصالات الرياضية أو النوادي أو المدارس.

أداة فهرسة الفيديو من الذكاء الاصطناعي في Azure

Azure الذكاء الاصطناعي Video Indexer هو تطبيق سحابي، وهو جزء من خدمات Azure الذكاء الاصطناعي، مبني على خدمات Azure الذكاء الاصطناعي (مثل Face و Translator و Azure الذكاء الاصطناعي Vision و Speech). إنه يمكّنك من استخراج المعلومات من مقاطع الفيديو الخاصة بك باستخدام نماذج الفيديو والصوت الخاصة بـ Azure AI Video Indexer.

القدرات

يوفر الجدول التالي قائمة ببعض الإمكانات المتوفرة في خدمة Azure الذكاء الاصطناعي Video Indexer.

القدرة	‏‏الوصف
تعريف الكلام متعدد اللغات وكتابته	يحدد اللغة المنطوقة في أجزاء مختلفة من الصوت. يرسل كل جزء من ملف الوسائط ليتم نسخه ثم يجمع كتابة الحديث مرة أخرى إلى نسخة واحدة موحدة.
الكشف عن الوجه	يكتشف الوجوه التي تظهر في الفيديو ويجموعها.
تعريف المشاهير	تعرف على أكثر من مليون من المشاهير - مثل قادة العالم والممثلين والفنانين والرياضيين والباحثين والأعمال وقادة التكنولوجيا في جميع أنحاء العالم. يمكن أيضا العثور على البيانات حول هؤلاء المشاهير على مواقع ويب مختلفة (IMDB، ويكيبيديا، وما إلى ذلك.)
تعريف الوجه المستند إلى الحساب	تدريب نموذج لحساب معين. ثم يتعرف على الوجوه في الفيديو بناءً على النموذج المدرب.
تعقب الأشخاص الذين تمت ملاحظته (معاينة)	يكتشف الأشخاص الذين تمت ملاحظته في مقاطع الفيديو ويوفر معلومات مثل موقع الشخص في إطار الفيديو (باستخدام مربعات الإحاطة) والطوابع الزمنية الدقيقة (البدء والنهاية) والثقة عند ظهور شخص ما.
النسخ الصوتي	تحويل الكلام إلى نص أكثر من 50 لغة ويسمح بالملحقات.
اكتشاف اللغات	يحدد اللغة المنطوقة المهيمنة.
الحد من الضوضاء	مسح الصوت الهتفي أو التسجيلات الصوتية صاخبة (استنادا إلى عوامل تصفية Skype).
ترجمة	FCreates ترجمات النسخة الصوتية إلى العديد من اللغات المختلفة.

لمراجعة المزيد من قدرات خدمة Azure الذكاء الاصطناعي Video Indexer، راجع وثائق Azure الذكاء الاصطناعي Video Indexer.

حالات الاستخدام

يوفر الجدول التالي قائمة بحالات الاستخدام المحتملة لخدمة Azure الذكاء الاصطناعي Video Indexer.

حالة الاستخدام	‏‏الوصف
بحث عميق	استخدم الرؤى المستخرجة من الفيديو لتحسين تجربة البحث عبر مكتبة فيديو. على سبيل المثال، يمكن أن تتيح فهرسة الكلمات المنطوقة والوجوه تجربة البحث للعثور على لحظات في مقطع فيديو يتحدث فيه شخص ما بكلمات معينة أو عندما شوهد شخصان معًا. البحث على أساس نتيجة هذه التحليلات من أشرطة الفيديو ينطبق على وكالات الأنباء والمعاهد التعليمية والمذيعين وأصحاب المحتوى الترفيهي، وتطبيقات LOB للمؤسسة، وبشكل عام على أي صناعة لديها مكتبة فيديو يحتاج المستخدمون إلى البحث ضدها.
إنشاء المحتوى	إنشاء مقطورات أو تمييز بكرات أو محتوى وسائل التواصل الاجتماعي أو مقاطع الأخبار استنادا إلى نتائج التحليلات التي يستخرجها Azure الذكاء الاصطناعي Video Indexer من المحتوى الخاص بك. تجعل الإطارات الرئيسية وعلامات المشاهد والطوابع الزمنية للأشخاص ومظهرات التسميات عملية الإنشاء أكثر سلاسة وسهولة، مما يتيح لك الوصول بسهولة إلى أجزاء الفيديو التي تحتاجها عند إنشاء المحتوى.
إمكانية الوصول	سواء كنت تريد توفير المحتوى الخاص بك للأشخاص ذوي الاحتياجات الخاصة أو إذا كنت تريد توزيع المحتوى الخاص بك إلى مناطق مختلفة باستخدام لغات مختلفة، يمكنك استخدام النسخ والترجمة التي يوفرها Azure الذكاء الاصطناعي Video Indexer بلغات متعددة.
تسييل	يمكن أن يساعد Azure الذكاء الاصطناعي Video Indexer في زيادة قيمة مقاطع الفيديو. على سبيل المثال، يمكن للصناعات التي تعتمد على إيرادات الإعلانات (وسائل الإعلام الإخبارية ووسائل التواصل الاجتماعي وما إلى ذلك) تقديم إعلانات ذات صلة باستخدام نتيجة التحليلات المستخلصة كإشارات إضافية إلى خادم الإعلانات.
إشراف على المحتوى	استخدم نماذج الإشراف على المحتوى النصي والمرئي للحفاظ على المستخدمين في مأمن من المحتوى غير اللائق والتحقق من أن المحتوى الذي تنشره يطابق قيم مؤسستك. يمكنك حظر مقاطع فيديو معينة تلقائيًا أو تنبيه المستخدمين حول المحتوى.
التوصيات	يمكن استخدام رؤى الفيديو لتحسين تفاعل المستخدم من خلال تمييز لحظات الفيديو ذات الصلة للمستخدمين. من خلال وضع علامات على كل فيديو ببيانات تعريف إضافية، يمكنك التوصية للمستخدمين بمقاطع الفيديو الأكثر صلة وتمييز أجزاء الفيديو التي تطابق احتياجاتهم.

مشاركة عبر

اختيار تقنية معالجة الصور والفيديو في Azure الذكاء الاصطناعي

الخدمات

Azure OpenAI

الرؤية في الذكاء الاصطناعي في Azure

القدرات

خدمة الذكاء الاصطناعي Azure AI Custom Vision

القدرات

حالات الاستخدام

الذكاء الاصطناعي للوجوه في Azure

القدرات

حالات الاستخدام

أداة فهرسة الفيديو من الذكاء الاصطناعي في Azure

القدرات

حالات الاستخدام

الخطوات التالية

الموارد ذات الصلة

الملاحظات

الموارد الإضافية