この記事では、Azure AI Video Indexer (VI) からキーワード抽出の分析情報を取得する方法について説明します。 キーワード抽出は、メディア ファイル内の重要なキーワードを検索し、単一言語メディア ファイルと複数言語メディア ファイルの両方で分析情報を提供します。
キーワード抽出のユース ケース
- 顧客の関心に合わせたキーワードのパーソナル化。 たとえば、イギリスに関する Web サイトでは、英語の映画やフェスティバルに関するプロモーションを投稿しています。
- 特定のキーワードに関する洞察を深く検索し、企業、人物、または技術に関する特集記事を作成します。たとえば、ニュース機関によって作成される場合があります。
Web ポータルで分析情報 JSON を表示する
ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。
- Library タブを選択します。
- 目的のメディアを選択します。
- [ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザー タブで開きます。
- 応答例で説明されているキー ペアを見つけます。
API の使用
-
ビデオ インデックスの取得要求を使用します。
&includeSummarizedInsights=false
を渡す。 - 応答例で説明されているキー ペアを見つけます。
応答の例
"keywords": [
{
"id": 1,
"text": "office insider",
"confidence": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
},
{
"adjustedStart": "0:01:21.82",
"adjustedEnd": "0:01:24.7",
"start": "0:01:21.82",
"end": "0:01:24.7"
},
{
"adjustedStart": "0:01:31.32",
"adjustedEnd": "0:01:32.76",
"start": "0:01:31.32",
"end": "0:01:32.76"
},
{
"adjustedStart": "0:01:35.8",
"adjustedEnd": "0:01:37.84",
"start": "0:01:35.8",
"end": "0:01:37.84"
}
]
},
{
"id": 2,
"text": "insider tip",
"confidence": 0.9975,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:01:14.91",
"adjustedEnd": "0:01:19.51",
"start": "0:01:14.91",
"end": "0:01:19.51"
}
]
}
重要
すべてのVI機能の 透明度に関する注意事項の概要 をお読みください。 各分析情報には、独自の透明性に関するメモもあります。
キーワード抽出に関するメモ
常に高品質のオーディオおよびビデオ コンテンツをアップロードします。 推奨される最大フレーム サイズは HD で、フレーム レートは 30 FPS です。 1 つのフレームに含まれる人物は 10 人以下にする必要があります。 ビデオから AI モデルにフレームを出力する場合は、1 秒あたり約 2 または 3 フレームのみを送信します。 10 個以上のフレームを処理すると、AI の結果が遅れる可能性があります。 分析を実行するには、1 分以上の自然な会話音声が必要です。 オーディオ効果は、非音声区間でのみ検出されます。 無音セクションの最小継続時間は2秒です。 音声コマンドや歌はサポートされていません。
キーワード抽出コンポーネント
キーワードの作業手順において、メディア ファイル内の音声と画像は以下のように処理されます。
コンポーネント | 定義 |
---|---|
ソース言語 | ユーザーは、インデックス作成のためにソース ファイルをアップロードします。 |
文字起こし API | オーディオ ファイルが Azure AI サービスに送信され、文字起こしと翻訳が行われた出力が返されます。 言語が指定されている場合は、その処理が行われます。 |
動画の OCR | メディア ファイル内の画像は、Azure AI Vision Read API を使用して処理され、テキストの内容と出現場所、その他の分析情報が抽出されます。 |
キーワードの抽出: | 文字起こしされた音声は抽出アルゴリズムによって処理されます。 その結果は、OCR プロセスで動画から検出された分析情報と組み合わされます。 次に、キーワードとそれらがメディア内に出現する場所が、検出および識別されます。 |
信頼レベル | 各キーワードの推定信頼度レベルは、0 ~ 1 の範囲で計算されます。 信頼度スコアは、結果の精度の確実性を表しています。 たとえば、82% の確実性はスコア 0.82 として表されます。 |