次の方法で共有


Azure AI Video Indexer 分析情報

ビデオのインデックスが作成されると、Azure AI Video Indexer は 30 以上の AI モデルを実行してビデオとオーディオのコンテンツを分析します。 トランスクリプト、光学式文字認識要素 (OCR)、顔、トピック、感情などのビデオ分析情報を含む JSON が生成されます。 各分析情報の種類には、ビデオに分析情報が表示されるタイミングを示す時間範囲のインスタンスが含まれます。

分析情報テーブルのリンクに従って、Web ポータルで API を使用して各分析情報 JSON 応答を取得する方法を確認します。

インサイト

インサイト 説明
顔検出 顔検出では、メディア ファイル内の顔が検出され、類似した顔がグループ分けされます。 システムは、顔検出の分析情報を JSON ファイル内の分類されたリストとして生成します。 各エントリには、サムネイルと各顔の名前または ID が含まれます。 Web ポータルでは、顔のサムネイルを選択すると、人物の名前 (認識されている場合)、人物が表示されるビデオの割合、著名人の場合は人物の伝記などの詳細が表示されます。 ユーザーが表示されるビデオ内のインスタンスをスクロールできます。
ラベルの識別: ラベルの識別は、メディア ファイルのビデオ映像で、サングラスなどのビジュアル オブジェクトや、水泳などのアクションを識別する Azure AI Video Indexer 機能です。 この機能には、多くのラベル カテゴリが含まれています。 抽出後、[分析情報] タブにラベル インスタンスが表示され、50 を超える言語に翻訳できます。 ラベルを選択して、メディア ファイル内のインスタンスを開きます。 その他のインスタンスを表示するには、[ 前に再生 ] または [次に再生 ] を選択します。
物体検出 Azure AI Video Indexer は、自動車、バッグ、バックパック、ノート PC などのビデオ内のオブジェクトを検出します。
監視型人物検出 監視型人物検出と顔照合では、メディア ファイル内の人物を自動的に検出し、照合します。 監視型人物検出と顔照合は、人物、服装、正確な出現時間枠に関する情報を表示するように設定できます。
OCR 光学式文字認識 (OCR) は、画像、道路標識、メディア ファイル内の製品などの画像からテキストを抽出して分析情報を作成します。
ポストプロダクション:クラッパーボード検出 クラッパーボード検出機能では、撮影中に使用されるクラッパーボードが検出され、制作ロールシーンテイクといったメタデータとしてクラッパーボードに関する情報が提供されます。 Clapper ボードは、ファイルをアップロードしてインデックスを作成するときに、Web ポータルの 詳細設定 で選択する運用後の分析情報の一部です。
ポストプロダクション:デジタルパターン デジタル パターン検出では、撮影中に使用される カラー バー が検出されます。 デジタル パターンは、ファイルをアップロードしてインデックスを作成するときに Web ポータルの 詳細設定 で選択する運用後の分析情報の一部です。
シーン、ショット、キーフレーム シーン検出は、視覚的な手掛かりに基づいてビデオ内でシーンが変化したときに検出します。 シーン には 1 つのイベントが表示され、関連する一連のショットがあります。 ショット は、隣接するフレームの配色の急激な変化や段階的な変化など、視覚的な手掛かりによって異なる一連のフレームです。 ショット メタデータには、開始時刻、終了時刻、ショット内のキーフレームの一覧が含まれます。 キーフレームは、ショットを最もよく表すショットのフレームです。

オーディオの分析情報

インサイト 説明
オーディオ効果検出 オーディオ効果検出では、音響イベントが検出され、笑い、群衆の反応、アラーム、サイレンなどのカテゴリに分類されます。
キーワードの抽出: キーワード抽出は、メディア ファイル内の重要なキーワードを検索し、単一言語メディア ファイルと複数言語メディア ファイルの両方で分析情報を提供します。
名前付きエンティティ 名前付きエンティティ抽出では、自然言語処理 (NLP) を使用して、メディア ファイル内のオーディオおよび画像内の場所、ユーザー、ブランドを検索します。 名前付きエンティティ抽出では、文字起こしと光学式文字認識 (OCR) が使用されます。
テキストベースの感情検出 感情検出は、ビデオのトランスクリプト行で感情を検出します。 他の感情が見つからない場合、各文は 怒り恐怖喜び悲しみ、または なし として検出されます。
トピックの推定 トピック推論は、変換されたオーディオ、ビジュアル テキスト内の OCR コンテンツ、および Video Indexer 顔認識モデルがビデオで認識する著名人から推論された分析情報を作成します。
文字起こし、翻訳、言語識別 文字起こし、翻訳、言語識別機能は、メディア ファイル内の音声を検出し、文字起こしし、50 を超える言語に翻訳します。