Azure AI Video Indexer 分析情報

2025-06-09

ビデオのインデックスが作成されると、Azure AI Video Indexer は 30 以上の AI モデルを実行してビデオとオーディオのコンテンツを分析します。トランスクリプト、光学式文字認識要素 (OCR)、顔、トピック、感情などのビデオ分析情報を含む JSON が生成されます。各分析情報の種類には、ビデオに分析情報が表示されるタイミングを示す時間範囲のインスタンスが含まれます。

分析情報テーブルのリンクに従って、Web ポータルで API を使用して各分析情報 JSON 応答を取得する方法を確認します。

インサイト

インサイト	説明
顔検出	顔検出では、メディアファイル内の顔が検出され、類似した顔がグループ分けされます。システムは、顔検出の分析情報を JSON ファイル内の分類されたリストとして生成します。各エントリには、サムネイルと各顔の名前または ID が含まれます。 Web ポータルでは、顔のサムネイルを選択すると、人物の名前 (認識されている場合)、人物が表示されるビデオの割合、著名人の場合は人物の伝記などの詳細が表示されます。ユーザーが表示されるビデオ内のインスタンスをスクロールできます。
ラベルの識別:	ラベルの識別は、メディアファイルのビデオ映像で、サングラスなどのビジュアルオブジェクトや、水泳などのアクションを識別する Azure AI Video Indexer 機能です。この機能には、多くのラベルカテゴリが含まれています。抽出後、[分析情報] タブにラベルインスタンスが表示され、50 を超える言語に翻訳できます。ラベルを選択して、メディアファイル内のインスタンスを開きます。その他のインスタンスを表示するには、[ 前に再生 ] または [次に再生 ] を選択します。
物体検出	Azure AI Video Indexer は、自動車、バッグ、バックパック、ノート PC などのビデオ内のオブジェクトを検出します。
監視型人物検出	監視型人物検出と顔照合では、メディアファイル内の人物を自動的に検出し、照合します。監視型人物検出と顔照合は、人物、服装、正確な出現時間枠に関する情報を表示するように設定できます。
OCR	光学式文字認識 (OCR) は、画像、道路標識、メディアファイル内の製品などの画像からテキストを抽出して分析情報を作成します。
ポストプロダクション:クラッパーボード検出	クラッパーボード検出機能では、撮影中に使用されるクラッパーボードが検出され、制作、ロール、シーン、テイクといったメタデータとしてクラッパーボードに関する情報が提供されます。 Clapper ボードは、ファイルをアップロードしてインデックスを作成するときに、Web ポータルの詳細設定で選択する運用後の分析情報の一部です。
ポストプロダクション:デジタルパターン	デジタルパターン検出では、撮影中に使用されるカラーバーが検出されます。デジタルパターンは、ファイルをアップロードしてインデックスを作成するときに Web ポータルの詳細設定で選択する運用後の分析情報の一部です。
シーン、ショット、キーフレーム	シーン検出は、視覚的な手掛かりに基づいてビデオ内でシーンが変化したときに検出します。シーンには 1 つのイベントが表示され、関連する一連のショットがあります。ショットは、隣接するフレームの配色の急激な変化や段階的な変化など、視覚的な手掛かりによって異なる一連のフレームです。ショットメタデータには、開始時刻、終了時刻、ショット内のキーフレームの一覧が含まれます。キーフレームは、ショットを最もよく表すショットのフレームです。

オーディオの分析情報

インサイト	説明
オーディオ効果検出	オーディオ効果検出では、音響イベントが検出され、笑い、群衆の反応、アラーム、サイレンなどのカテゴリに分類されます。
キーワードの抽出:	キーワード抽出は、メディアファイル内の重要なキーワードを検索し、単一言語メディアファイルと複数言語メディアファイルの両方で分析情報を提供します。
名前付きエンティティ	名前付きエンティティ抽出では、自然言語処理 (NLP) を使用して、メディアファイル内のオーディオおよび画像内の場所、ユーザー、ブランドを検索します。名前付きエンティティ抽出では、文字起こしと光学式文字認識 (OCR) が使用されます。
テキストベースの感情検出	感情検出は、ビデオのトランスクリプト行で感情を検出します。他の感情が見つからない場合、各文は怒り、恐怖、喜び、悲しみ、またはなしとして検出されます。
トピックの推定	トピック推論は、変換されたオーディオ、ビジュアルテキスト内の OCR コンテンツ、および Video Indexer 顔認識モデルがビデオで認識する著名人から推論された分析情報を作成します。
文字起こし、翻訳、言語識別	文字起こし、翻訳、言語識別機能は、メディアファイル内の音声を検出し、文字起こしし、50 を超える言語に翻訳します。

Azure AI Video Indexer のドキュメント

次の方法で共有

Azure AI Video Indexer 分析情報

インサイト

オーディオの分析情報

関連コンテンツ

フィードバック

その他のリソース