مشاركة عبر


حلول فيديو Azure الذكاء الاصطناعي Content Understanding (معاينة)

هام

  • يتوفر Azure الذكاء الاصطناعي Content Understanding في المعاينة. توفر إصدارات المعاينة العامة وصولا مبكرا إلى الميزات قيد التطوير النشط.
  • يمكن أن تتغير الميزات والنهج والعمليات أو لديها قدرات محدودة قبل التوفر العام (GA).
  • لمزيد من المعلومات، راجعشروط الاستخدام التكميلية لمعاينات Microsoft Azure.

يسمح لك Azure الذكاء الاصطناعي Content Understanding بإنشاء مجموعة قياسية من بيانات تعريف الفيديو وإنشاء حقول مخصصة لحالة الاستخدام المحددة باستخدام قوة النماذج التوليدية. يساعد فهم المحتوى على إدارة مهام سير العمل وتصنيفها واستردادها وبناءها بكفاءة لأصول الفيديو. فهو يعزز مكتبة أصول الوسائط الخاصة بك، ويدعم مهام سير العمل مثل إنشاء التمييز، ويصنف المحتوى، ويسهل التطبيقات مثل إنشاء الاسترداد المعزز (RAG).

رسم توضيحي لتدفق معالجة الفيديو لفهم المحتوى.

يقوم محلل الفيديو الذي تم إنشاؤه مسبقا لإخراج Markdown الجاهز ل RAG الذي يتضمن:

  • نسخه: النسخ المضمنة بتنسيق WEBVTT القياسي
  • وصف: أوصاف مقطع اللغة الطبيعية مع سياق المرئيات والكلام
  • تجزئه: تقسيم المشهد التلقائي لتقسيم الفيديو إلى أجزاء منطقية
  • الإطارات الرئيسية: الصور المصغرة لإطار المفتاح التي تم ترتيبها مما يتيح تحليلا أعمق

يمكن أن يسقط هذا التنسيق مباشرة في مخزن متجه لتمكين مهام سير عمل عامل أو RAG - لا حاجة إلى المعالجة اللاحقة.

من هناك يمكنك تخصيص المحلل لمزيد من التحكم الدقيق في الإخراج. يمكنك تعريف الحقول أو المقاطع المخصصة أو تمكين تعريف الوجه. يسمح لك التخصيص باستخدام القوة الكاملة للنماذج التوليدية لاستخراج رؤى عميقة من التفاصيل المرئية والصوتية للفيديو.

على سبيل المثال، يسمح لك التخصيص ب:

  • تحديد الحقول المخصصة: لتحديد المنتجات والعلامات التجارية التي يتم رؤيتها أو ذكرها في الفيديو.
  • إنشاء شرائح مخصصة: لتقسيم بث إخباري إلى فصول استنادا إلى الموضوعات أو القصص الإخبارية التي تمت مناقشتها.
  • تحديد الأشخاص الذين يستخدمون دليل شخص يمكن العميل من تسمية المتحدثين في المؤتمرات في لقطات باستخدام تعريف الوجه، على سبيل المثال، CEO John Doe، . CFO Jane Smith

لماذا تستخدم فهم المحتوى للفيديو؟

فهم المحتوى للفيديو له استخدامات محتملة واسعة. على سبيل المثال، يمكنك تخصيص بيانات التعريف لوضع علامة على مشاهد معينة في فيديو تدريبي، ما يسهل على الموظفين تحديد الأقسام المهمة وإعادة النظر فيها. يمكنك أيضا استخدام تخصيص بيانات التعريف لتحديد موضع المنتج في مقاطع الفيديو الترويجية، مما يساعد فرق التسويق على تحليل التعرض للعلامة التجارية. تتضمن حالات الاستخدام الأخرى ما يلي:

  • بث وسائل الإعلام والترفيه: إدارة مكتبات كبيرة من العروض والأفلام والمقاطع من خلال إنشاء بيانات تعريف مفصلة لكل أصل.
  • التعليم والتعلم الإلكتروني: فهرسة واسترداد لحظات محددة في مقاطع الفيديو التعليمية أو المحاضرات.
  • تدريب الشركات: تنظيم مقاطع الفيديو التدريبية حسب الموضوعات الرئيسية أو المشاهد أو اللحظات المهمة.
  • التسويق والإعلان: تحليل مقاطع الفيديو الترويجية لاستخراج مواضع المنتجات ومظهر العلامة التجارية والرسائل الرئيسية.

مثال محلل فيديو تم إنشاؤه مسبقا

باستخدام محلل الفيديو الذي تم إنشاؤه مسبقا (videoAnalyzer مسبق الإنشاء)، يمكنك تحميل فيديو والحصول على أصل معرفي قابل للاستخدام على الفور. تحزم الخدمة كل قصاصة في كل من Markdown المنسقة بغنى وJSON. تسمح هذه العملية لفهرس البحث أو وكيل الدردشة بال استيعاب دون تعليمة برمجية مخصصة لللصق.

  • على سبيل المثال، إنشاء القاعدة prebuilt-videoAnalyzer كما يلي:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • بعد ذلك، تحليل فيديو إعلاني 30 ثانية، سيؤدي إلى الإخراج التالي:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

التنقل

نشرنا مؤخرا معاينة ل RAG على الفيديو باستخدام فهم المحتوى. https://www.youtube.com/watch?v=fafneWnT2kw& lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

القدرات

  1. استخراج المحتوى
  2. استخراج الحقل
  3. تعريف الوجه

تحت غطاء محرك السيارة، تحول مرحلتان وحدات البكسل الخام إلى رؤى جاهزة للأعمال. يوضح الرسم التخطيطي أدناه كيفية إنشاء موجز الاستخراج، مع ضمان أن كل خطوة في المراحل النهائية لها السياق الذي تحتاجه.

لقطة شاشة لتدفق محلل الفيديو.

تعمل الخدمة على مرحلتين. تتضمن المرحلة الأولى، استخراج المحتوى، التقاط بيانات التعريف الأساسية مثل النسخ واللقطات والوجوه. المرحلة الثانية، استخراج الحقل، تستخدم نموذج إنشاء لإنتاج حقول مخصصة وتنفيذ التجزئة. بالإضافة إلى ذلك، يمكنك تمكين الوظيفة الإضافية Face اختياريا لتحديد الأفراد ووصفهم في الفيديو.

قدرات استخراج المحتوى

يتعلق التمرير الأول باستخراج مجموعة أولى من التفاصيل - من يتحدث، وأين هي الجروح، وأي الوجوه تتكرر. فإنه ينشئ العمود الفقري لبيانات التعريف الصلبة التي الخطوات اللاحقة يمكن أن سبب أكثر.

  • نسخ: تحويل صوت المحادثة إلى نسخ نصية قابلة للبحث وقابلة للتحليل بتنسيق WebVTT. تتوفر الطوابع الزمنية على مستوى الجملة إذا "returnDetails": true تم تعيينها. يدعم فهم المحتوى المجموعة الكاملة من لغات تحويل الكلام إلى نص في Azure الذكاء الاصطناعي. تفاصيل دعم اللغة للفيديو هي نفسها الصوت، راجعمعالجة لغة الصوت للحصول على التفاصيل. من المهم مراعاة تفاصيل النسخ التالية:

    • يوميات: يميز بين المتكلمين في محادثة في الإخراج، وينسب أجزاء من النص إلى متحدثين محددين.

    • النسخ متعدد اللغات: إنشاء نسخ متعددة اللغات. يتم تطبيق اللغة/اللغة المحلية لكل عبارة في النسخة المكتوبة. إخراج العبارات عند "returnDetails": true تعيين. الانحراف عن الكشف عن اللغة، يتم تمكين هذه الميزة عند عدم تحديد لغة/لغة أو تعيين لغة إلى auto.

      ملاحظة

      عند استخدام النسخ متعدد اللغات، تنتج أي ملفات ذات لغات غير مدعومة نتيجة استنادا إلى أقرب الإعدادات المحلية المدعومة، والتي من المحتمل أن تكون غير صحيحة. هذه النتيجة هي سلوك معروف. تجنب مشكلات جودة النسخ عن طريق التأكد من تكوين الإعدادات المحلية عند عدم استخدام الإعدادات المحلية المدعومة للنسخ متعدد اللغات!

    • استخراج إطار المفتاح: استخراج الإطارات الرئيسية من مقاطع الفيديو لتمثيل كل لقطة تماما، مما يضمن أن كل لقطة تحتوي على إطارات مفتاح كافية لتمكين استخراج الحقل من العمل بفعالية.

    • الكشف عن اللقطات: يحدد مقاطع الفيديو التي تمت محاذاتها مع حدود اللقطات حيثما أمكن، ما يسمح بتحرير المحتوى بدقة وإعادة حزمه مع فواصل عمليات التحرير الموجودة بالضبط. الإخراج هو قائمة بالطوابع الزمنية بالمللي ثانية في cameraShotTimesMs. يتم إرجاع الإخراج فقط عند "returnDetails": true تعيين.

استخراج الحقول وتجزئتها

بعد ذلك، يعني طبقات النموذج التوليدي - وضع علامات على المشاهد، وتلخيص الإجراءات، وتقطيع اللقطات إلى مقاطع وفقا لطلبك. هذا الإجراء هو المكان الذي تتحول فيه المطالبات إلى بيانات منظمة.

الحقول المخصصة

تشكيل الإخراج لمطابقة مفردات عملك. استخدم كائنا fieldSchema حيث يعرف كل إدخال اسم الحقل ونوعه ووصفه. في وقت التشغيل، يملأ النموذج التوليدي هذه الحقول لكل مقطع.

أمثلة:

  • إدارة أصول الوسائط:

    • فئة الفيديو: يساعد المحررين والمنتجين على تنظيم المحتوى، من خلال تصنيفه على أنه الأخبار والرياضة والمقابلة والوثائقية والإعلان وما إلى ذلك. مفيد لوضع علامات على بيانات التعريف وتصفية المحتوى واسترداده بشكل أسرع.
    • نظام الألوان: ينقل المزاج والجو، وهو أمر ضروري للاتساق السردي ومشاركة المشاهد. يساعد تحديد نسق الألوان في العثور على مقاطع مطابقة لتحرير الفيديو المتسارع.
  • الاعلان:

    • وسم: يحدد وجود العلامة التجارية، وهو أمر بالغ الأهمية لتحليل تأثير الإعلان، ورؤية العلامة التجارية، والارتباط بالمنتجات. تسمح هذه الإمكانية للمعلنين بتقييم أهمية العلامة التجارية وضمان الامتثال لإرشادات العلامة التجارية.
    • فئات الإعلان: تصنيف أنواع الإعلانات حسب الصناعة أو نوع المنتج أو مقطع الجمهور، والذي يدعم استراتيجيات الإعلانات المستهدفة وتصنيفها وتحليل الأداء.

مثال:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

وضع التجزئة

ملاحظة

يؤدي تعيين التجزئة إلى تشغيل استخراج الحقل حتى إذا لم يتم تعريف أي حقول.

يوفر فهم المحتوى ثلاث طرق لقسمة مقطع فيديو، ما يتيح لك الحصول على الإخراج الذي تحتاجه لمقاطع الفيديو الكاملة أو المقاطع القصيرة. يمكنك استخدام هذه الخيارات عن طريق تعيين الخاصية SegmentationMode على محلل مخصص.

  • فيديو كامل - segmentationMode : noSegmentation تتعامل الخدمة مع ملف الفيديو بأكمله كمقطع واحد وتستخرج بيانات التعريف طوال مدتها الكاملة.

    مثال:

    • التحقق من التوافق الذي يبحث عن مشكلات معينة تتعلق بسلامة العلامة التجارية في أي مكان في الإعلان
    • ملخصات وصفية كاملة الطول
  • التجزئة التلقائيةsegmentationMode = auto تقوم الخدمة بتحليل المخطط الزمني وتقسيمه نيابة عنك. تجميع اللقطات المتتالية في مشاهد متماسكة، في دقيقة واحدة لكل منها.

    مثال:

    • إنشاء لوحات عمل من عرض
    • إدراج إعلانات متوسطة المدى عند الإيقاف المؤقت المنطقي.
  • التجزئة المخصصة - segmentationMode : custom تصف المنطق باللغة الطبيعية وينشئ النموذج مقاطع لمطابقتها. قم بتعيين segmentationDefinition بسلسلة تصف كيف تريد تقسيم الفيديو. يسمح Custom بشرائح ذات طول متفاوت من ثوان إلى دقائق اعتمادا على المطالبة.

    مثال:

    • نقل الأخبار إلى قصص.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

الوظيفة الإضافية لتحديد هوية الوجه ووصفه

ملاحظة

هذه الميزة محدودة الوصول وتتضمن تحديد الوجه وتجميعه؛ يحتاج العملاء إلى التسجيل للوصول إلى Face Recognition. تتحمل ميزات Face تكاليف إضافية.

وصف تعريف الوجه هو وظيفة إضافية توفر سياقا لاستخراج المحتوى واستخراج الحقل باستخدام معلومات الوجه.

استخراج المحتوى - التجميع والتعريف

تتيح الوظيفة الإضافية للوجه التجميع والتعريف كإخراج من قسم استخراج المحتوى. لتمكين قدرات الوجه المعينة "enableFace":true في تكوين المحلل.

  • تجميع: تظهر الوجوه المجمعة في مقطع فيديو لاستخراج صورة وجه تمثيلية واحدة لكل شخص وتوفر شرائح حيث يوجد كل وجه. تتوفر بيانات الوجه المجمعة كبيانات تعريف ويمكن استخدامها لإنشاء حقول بيانات تعريف مخصصة عندما returnDetails: true يكون للمحلل.
  • تعريف: تسمية الأفراد في الفيديو بأسماء تستند إلى دليل Face API person. يمكن للعملاء تمكين هذه الميزة عن طريق توفير اسم لدليل Face API في المورد الحالي في personDirectoryId خاصية المحلل. لاستخدام هذه الإمكانية، يجب أولا إنشاء personDirectory ثم الرجوع إليه في المحلل. للحصول على تفاصيل حول كيفية القيام بذلك، راجع كيفية إنشاء دليل شخص

استخراج الحقل – وصف الوجه

يتم تحسين إمكانية استخراج الحقل من خلال توفير أوصاف مفصلة للوجوه المحددة في الفيديو. وتشمل هذه الإمكانية سمات مثل شعر الوجه والعواطف ووجود المشاهير، والتي يمكن أن تكون حاسمة لمختلف الأغراض التحليلية والفهرسة. لتمكين قدرات وصف الوجه التي تم تعيينها disableFaceBlurring : true في تكوين المحلل.

أمثلة:

  • مثال على الحقل: emotionDescription: يوفر وصفا للحالة العاطفية للشخص الأساسي في هذا المقطع (على سبيل المثال، happy، ، sadangry)
  • مثال على الحقل: الوجهHairDescription: يصف نوع شعر الوجه (على سبيل المثال، ، beard، mustacheclean-shaven)

المزايا الرئيسية

يوفر فهم المحتوى العديد من الفوائد الرئيسية بالمقارنة مع حلول تحليل الفيديو الأخرى:

  • تحليل متعدد الإطارات المستند إلى المقطع: تحديد الإجراءات والأحداث والموضوعات والنسق من خلال تحليل إطارات متعددة من كل مقطع فيديو، بدلا من الإطارات الفردية.
  • التخصيص: تخصيص الحقول والتجزئة التي تنشئها عن طريق تعديل المخطط وفقا لحالة الاستخدام المحددة.
  • النماذج التوليدية: وصف المحتوى الذي تريد استخراجه باللغة الطبيعية، ويستخدم فهم المحتوى نماذج إنشاء لاستخراج بيانات التعريف هذه.
  • المعالجة المسبقة المحسنة: قم بتنفيذ العديد من خطوات المعالجة المسبقة لاستخراج المحتوى، مثل النسخ والكشف عن المشهد، محسنة لتوفير سياق غني الذكاء الاصطناعي النماذج التوليدية.

القيود والقيود التقنية

القيود المحددة لمعالجة الفيديو التي يجب مراعاتها:

  • أخذ عينات الإطار (~ 1 إطارا في الثانية): يقوم المحلل بفحص إطار واحد تقريبا في الثانية. قد تفوت حركات سريعة أو أحداث ذات إطار واحد.
  • دقة الإطار (512 × 512 بكسل): يتم تغيير حجم الإطارات العينة إلى 512 بكسل مربع. يمكن فقدان النص الصغير أو الكائنات البعيدة.
  • الكلام: يتم نسخ الكلمات المنطوقة فقط. يتم تجاهل الموسيقى والتأثيرات الصوتية والضوضاء المحيطة.

متطلبات الإدخال

للحصول على التنسيقات المدعومة، راجع حصص الخدمة وحدودها.

اللغات والمناطق المدعومة

راجع دعم اللغة والمنطقة.

خصوصية البيانات وأمنها

كما هو الحال مع جميع خدمات Azure الذكاء الاصطناعي، راجع وثائق البيانات والحماية والخصوصية من Microsoft.

هام

إذا قمت بمعالجة البيانات البيومترية (على سبيل المثال، تمكين تجميع الوجه أو تحديد الوجه)، فيجب عليك تلبية جميع متطلبات الإشعار والموافقة والحذف بموجب القانون العام لحماية البيانات (GDPR) أو القوانين المعمول بها الأخرى. راجع البيانات والخصوصية ل Face.

الخطوات التالية