تحليل ملفات الفيديو والصوت باستخدام خدمات وسائط Azure

مقالة
06/30/2023

تحذير

سيتم إيقاف Azure Media Services في 30 يونيو 2024. لمزيد من المعلومات، راجع دليل إيقاف AMS.

هام

كما توضح معايير الذكاء الاصطناعي المسؤولة من Microsoft، تلتزم Microsoft بالإنصاف والخصوصية والأمان والشفافية فيما يتعلق بالأنظمة الذكاء الاصطناعي. للتوافق مع هذه المعايير، تقوم Azure Media Services بإيقاف الإعداد المسبق لمحلل الفيديو في 14 سبتمبر 2023. يسمح لك هذا الإعداد المسبق حاليا باستخراج رؤى متعددة للفيديو والصوت من ملف فيديو. يمكن للعملاء استبدال مهام سير العمل الحالية الخاصة بهم باستخدام مجموعة الميزات الأكثر تقدما التي يقدمها Azure Video Indexer.

تتيح لك خدمات الوسائط استخراج نتائج التحليلات من ملفات الفيديو والصوت باستخدام الإعدادات المسبقة لمحلل الصوت والفيديو. توضح هذه المقالة الإعدادات المسبقة للمحلل المستخدمة لاستخراج نتائج التحليلات. إذا كنت تريد رؤى أكثر تفصيلا من مقاطع الفيديو الخاصة بك، فاستخدم خدمة Azure Video Indexer. لفهم وقت استخدام الإعدادات المسبقة لمفهرس الفيديو مقابل محلل خدمات الوسائط، راجع مستند المقارنة.

هناك وضعان لمحلل الصوت المعد مسبقاً، الأساسي والقياسي. انظر وصف الاختلافات في الجدول أدناه.

لتحليل المحتوى الخاص بك باستخدام الإعدادات المسبقة لخدمات الوسائط الإصدار 3، يمكنك إنشاء تحويل وإرسال مهمة تستخدم إحدى هذه الإعدادات المسبقة: VideoAnalyzerPreset أو AudioAnalyzerPreset.

ملاحظة

AudioAnalyzerPreset غير مدعوم إذا لم يكن لحساب التخزين حق الوصول إلى الشبكة العامة.

الامتثال والخصوصية والأمان

يجب عليك الامتثال لجميع القوانين المعمول بها في استخدامك لمفهرس الفيديو، ولا يجوز لك استخدام مفهرس الفيديو أو أي خدمة Azure أخرى بطريقة تنتهك حقوق الآخرين أو قد تضر بالآخرين. قبل تحميل أي مقاطع فيديو، بما في ذلك أي بيانات بيومترية، إلى خدمة مفهرس الفيديو للمعالجة والتخزين، يجب أن يكون لديك جميع الحقوق المناسبة، بما في ذلك جميع الموافقات المناسبة، من الفرد (الأفراد) في الفيديو. للتعرف على التوافق والخصوصية والأمان في Video Indexer، شروط الخدمات المعرفية Azure. بالنسبة لالتزامات خصوصية Microsoft ومعالجة بياناتك،، راجع بيان خصوصية Microsoft و بنود الخدمات عبر الإنترنت (OST) و ملحق معالجة البيانات ("DPA"). يتوفر المزيد من معلومات الخصوصية، بما في ذلك حول استبقاء البيانات أو حذفها أو تدميرها، في OST. باستخدام مفهرس الفيديو، فإنك توافق على الالتزام بشروط الخدمات المعرفية وOST وDPA وبيان الخصوصية.

الإعدادات المسبقة المضمنة

تدعم خدمات الوسائط حالياً إعدادات المحلل المسبقة المضمنة التالية:

اسم محدد مسبقاً	السيناريو / الوضع	التفاصيل
AudioAnalyzerPreset	تحليل الوضع القياسي للصوت	يطبق الإعداد المسبق مجموعة محددة مسبقاً من عمليات التحليل المستندة إلى الذكاء الاصطناعي، بما في ذلك كتابة الكلام. حالياً، يدعم الإعداد المسبق معالجة المحتوى بمسار صوتي واحد يحتوي على الكلام بلغة واحدة. حدد لغة البيانات الأساسية للصوت في الإدخال باستخدام تنسيق BCP-47 من "منطقة علامة اللغة". راجع قائمة اللغات المدعومة أدناه للحصول على التعليمات البرمجية لللغات المتوفرة. يختار الكشف التلقائي عن اللغة الأولى التي تم اكتشافها ويستمر مع اللغة المحددة للملف بأكمله إذا لم يتم تعيينه، أو تعيينه إلى خالٍ. تدعم ميزة الكشف التلقائي عن اللغة حالياً: الإنجليزية والصينية والفرنسية والألمانية والإيطالية واليابانية والإسبانية والروسية والبرتغالية البرازيلية. لا يدعم التبديل الديناميكي بين اللغات بعد اكتشاف اللغة الأولى. تعمل ميزة الكشف التلقائي عن اللغة بشكل أفضل مع التسجيلات الصوتية مع الكلام الواضح. إذا فشل الكشف التلقائي عن اللغة في العثور على اللغة، فإن الكتابة تعود إلى اللغة الإنجليزية.
AudioAnalyzerPreset	تحليل الوضع الأساسي للصوت	يؤدي هذا الوضع المسبق الكتابة لتحويل الكلام إلى نص وإنشاء ملف نص التسمية التوضيحية/شريط الترجمة لـ VTT. يتضمن إخراج هذا الوضع ملف JSON لنتيجة التحليلات بما في ذلك الكلمات الأساسية والكتابة ومعلومات التوقيت فقط. لا يتم تضمين الكشف التلقائي للغة وتسجيل السماعات في هذا الوضع. قائمة اللغات المدعومة مطابقة للوضع القياسي أعلاه.
VideoAnalyzerPreset	تحليل الصوت والفيديو	استخراج نتيجة التحليلات (بيانات التعريف الغنية) من كل من الصوت والفيديو، وإخراج ملف تنسيق JSON. يمكنك تحديد ما إذا كنت تريد استخراج نتيجة تحليلات الصوت فقط عند معالجة ملف فيديو.
FaceDetectorPreset	الكشف عن الوجوه الموجودة في الفيديو	يصف الإعدادات التي سيتم استخدامها عند تحليل مقطع فيديو للكشف عن جميع الوجوه الموجودة.

ملاحظة

AudioAnalyzerPreset غير مدعوم إذا لم يكن لحساب التخزين حق الوصول إلى الشبكة العامة.

اللغات المعتمدة

العربية ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' and 'ar-SY')
البرتغالية البرازيلية ('pt-BR')
الصينية ('zh-CN')
الدانماركية ('da-DK')
الإنجليزية ('en-US', 'en-GB' and 'en-AU')
الفنلندية ('fi-FI')
الفرنسية ('fr-FR' و'fr-CA')
الألمانية ('de-DE')
العبرية (He-IL)
الهندية ('hi-IN')، الكورية ('ko-KR')
الإيطالية ('it-IT')
اليابانية ('ja-JP')
النرويجية ('nb-NO')
الفارسية ('fa-IR')
البرتغالية ('pt-PT')
الروسية ('ru-RU')
الإسبانية ('es-ES' و'es-MX')
السويدية ('sv-SE')
التايلاندية ('th-TH')
التركية ('tr-TR')

ملاحظة

AudioAnalyzerPreset غير مدعوم إذا لم يكن لحساب التخزين حق الوصول إلى الشبكة العامة.

الوضع القياسي لـ AudioAnalyzerPreset

يتيح لك الإعداد المسبق استخراج العديد من نتيجة التحليلات الصوتية من ملف صوت أو فيديو.

يتضمن الإخراج ملف JSON (مع كل نتائج تحليلات) وملف VTT للنص المنطوق الصوتي. يقبل هذا الإعداد المسبق خاصية تحدد لغة ملف الإدخال في شكل سلسلة BCP47. تتضمن نتائج التحليلات الصوتية ما يلي:

الكتابة الصوتية: نص منطوق للكلمات المنطوقة مع الطوابع الزمنية. يتم دعم لغات متعددة.
الكلمات الأساسية: الكلمات الأساسية التي يتم استخراجها من الكتابة الصوتية.

الوضع الأساسي AudioAnalyzerPreset

يتيح لك الإعداد المسبق استخراج العديد من نتيجة التحليلات الصوتية من ملف صوت أو فيديو.

يتضمن الإخراج ملف JSON وملف VTT للنص المنطوق الصوتي. يقبل هذا الإعداد المسبق خاصية تحدد لغة ملف الإدخال في شكل سلسلة BCP47. يتضمن الإخراج:

الكتابة الصوتية: نص منطوق للكلمات المنطوقة مع الطوابع الزمنية. يتم دعم لغات متعددة، ولكن لا يتم تضمين الكشف التلقائي عن اللغة وتدوين المتحدث.
الكلمات الأساسية: الكلمات الأساسية التي يتم استخراجها من الكتابة الصوتية.

VideoAnalyzerPreset

يتيح لك الإعداد المسبق استخراج العديد من نتائج تحليلات الصوت والفيديو من ملف فيديو. يتضمن الإخراج ملف JSON (مع جميع نتائج التحليلات)، وملف VTT لنسخة الفيديو المكتوبة، ومجموعة من الصور المصغرة. يقبل هذا الإعداد المسبق أيضاً سلسلة BCP47 (تمثل لغة الفيديو) كخاصية. تتضمن نتائج تحليلات الفيديو جميع نتائج تحليلات الصوت المذكورة أعلاه والعناصر الإضافية التالية:

تعقب الوجه: الوقت الذي تتواجد فيه الوجوه في الفيديو. كل وجه له معرف وجه ومجموعة صور مصغرة متطابقة.
النص المرئي: النص الذي يتم اكتشافه عبر التعرف البصري على الحروف. النص مختوم زمنياً ويستخدم أيضاً لاستخراج الكلمات الأساسية (بالإضافة إلى النسخة المكتوبة الصوتية).
الإطارات الرئيسية: مجموعة من الإطارات الرئيسية المستخرجة من الفيديو.
الإشراف على المحتوى المرئي: جزء مقاطع الفيديو التي تم وضع علامة عليها على أنها بالغة أو نابعة من الطبيعة.
التعليق التوضيحي: نتيجة التعليق التوضيحي لمقاطع الفيديو استناداً إلى نموذج عنصر محدد مسبقاً

عناصر insights.json

يتضمن الإخراج ملف JSON (insights.json) مع جميع نتائج التحليلات الموجودة في الفيديو أو الصوت. قد تحتوي JSON على العناصر التالية:

نسخة مكتوبة

الاسم	الوصف
المعرف	معرف الخط.
نص	النسخة المكتوبة نفسها.
اللغة	لغة النسخة المكتوبة. تهدف إلى دعم النسخة المكتوبة حيث يمكن أن يكون لكل خط لغة مختلفة.
المثيلات	قائمة النطاقات الزمنية حيث ظهر هذا الخط. إذا كان المثيل نسخة مكتوبة، فسيكون له مثيل واحد فقط.

مثال:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

التعرف البصري على الحروف

الاسم	الوصف
المعرف	معرف خط التعرف البصري على الحروف.
نص	نص التعرف البصري على الحروف.
الثقة	الاعتراف بالثقة.
اللغة	لغة التعرف البصري على الحروف.
المثيلات	قائمة بالنطاقات الزمنية التي ظهر فيها التعرف البصري على الحروف (يمكن أن يظهر نفس التعرف البصري على الحروف عدة مرات).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

الوجوه

الاسم	الوصف
المعرف	معرف الوجه.
الاسم	اسم الوجه. يمكن أن يكون "غير معروف # 0"، أو أحد المشاهير المعروفين، أو شخصاً مدرباً للعملاء.
الثقة	ثقة تحديد الوجه.
الوصف	وصف المشاهير.
معرف الصورة المصغرة	معرف الصورة المصغرة لهذا الوجه.
knownPersonId	المعرف الداخلي (إذا كان شخصاً معروفاً).
referenceId	معرف Bing (إذا كان من المشاهير Bing).
referenceType	حالياً، فقط Bing.
العنوان	العنوان (إذا كان أحد المشاهير - على سبيل المثال، "الرئيس التنفيذي لشركة Microsoft").
imageUrl	عنوان URL للصورة، إذا كان من المشاهير.
المثيلات	المثيلات التي ظهر فيها الوجه في النطاق الزمني المحدد. يحتوي كل مثيل أيضاً على معرف صورة مصغرة.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

اللقطات

الاسم	الوصف
المعرف	معرف اللقطة.
الإطارات الرئيسية	قائمة الإطارات الرئيسية داخل اللقطة (لكل منها معرف وقائمة بالنطاقات الزمنية للمثيلات). تحتوي مثيلات الإطارات الرئيسية على حقل معرف صورة مصغرة مع معرف الصورة المصغرة للإطار الرئيسي.
المثيلات	قائمة النطاقات الزمنية لهذه اللقطة (اللقطات لها مثيل واحد فقط).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

الإحصائيات

الاسم	الوصف
CorrespondenceCount	عدد المراسلات في الفيديو.
WordCount	عدد الكلمات لكل متحدث.
SpeakerNumberOfFragments	كمية الأجزاء التي يحتوي عليها المتحدث في مقطع فيديو.
SpeakerLongestMonolog	أطول مونولوج للمتحدث. إذا كان المتحدث لديه صمت داخل المونولوج يتم تضمينه. تتم إزالة الصمت في بداية ونهاية المونولوج.
SpeakerTalkToListenRatio	يعتمد الحساب على الوقت الذي يقضيه المتحدث في مونولوج (بدون الصمت بينهما) مقسوماً على الوقت الإجمالي للفيديو. تم تقريب الوقت إلى العلامة العشرية الثالثة.

التسميات

الاسم	الوصف
المعرف	معرف التسمية.
الاسم	اسم التسمية (على سبيل المثال، 'الكمبيوتر'، 'التليفزيون').
اللغة	لغة اسم التسمية (عند ترجمتها). BCP-47
المثيلات	قائمة النطاقات الزمنية التي ظهرت فيها هذه التسمية (يمكن أن تظهر تسمية عدة مرات). كل مثيل له حقل ثقة.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

الكلمات الأساسية

الاسم	الوصف
المعرف	معرف الكلمة الرئيسية.
نص	نص الكلمة الأساسية.
الثقة	ثقة التعرف على الكلمة الرئيسية.
اللغة	لغة الكلمة الأساسية (عند ترجمتها).
المثيلات	قائمة النطاقات الزمنية التي ظهرت فيها هذه الكلمة الأساسية (يمكن أن تظهر كلمة أساسية عدة مرات).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

تحتوي كتلة visualContentModeration على نطاقات زمنية وجد Video Indexer أنها تحتوي على محتوى للبالغين. إذا كان visualContentModeration فارغاً، فلا يوجد محتوى للبالغين تم تحديده.

قد تكون مقاطع الفيديو التي تم العثور عليها تحتوي على محتوى بالغ أو مفعم بالحيوية متاحة للعرض الخاص فقط. يمكن للمستخدمين إرسال طلب لمراجعة بشرية للمحتوى، وفي هذه الحالة ستحتوي السمة IsAdult على نتيجة المراجعة البشرية.

الاسم	الوصف
المعرف	معرف الإشراف على المحتوى المرئي.
adultScore	درجة الكبار (من مشرف المحتوى).
racyScore	النتيجة المفعم بالحيوية (من الإشراف على المحتوى).
المثيلات	قائمة بالنطاقات الزمنية التي ظهر فيها هذا الإشراف على المحتوى المرئي.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

الحصول على التعليمات والدعم

يمكنك الاتصال بخدمات الوسائط مع الأسئلة أو متابعة تحديثاتنا بإحدى الطرق التالية:

س & أ
موقع Stack Overflow. وضع علامة على الأسئلة باستخدام azure-media-services.
@MSFTAzureMedia أو استخدم @AzureSupport لطلب الدعم.
افتح تذكرة دعم من خلال مدخل Microsoft Azure.

مشاركة عبر

تحليل ملفات الفيديو والصوت باستخدام خدمات وسائط Azure

الامتثال والخصوصية والأمان

الإعدادات المسبقة المضمنة

اللغات المعتمدة

الوضع القياسي لـ AudioAnalyzerPreset

الوضع الأساسي AudioAnalyzerPreset

VideoAnalyzerPreset

عناصر insights.json

نسخة مكتوبة

التعرف البصري على الحروف

الوجوه

اللقطات

الإحصائيات

التسميات

الكلمات الأساسية

visualContentModeration

الحصول على التعليمات والدعم

الموارد الإضافية