次の方法で共有


キーワード抽出の分析情報を取得する

この記事では、Azure AI Video Indexer (VI) からキーワード抽出の分析情報を取得する方法について説明します。 キーワード抽出は、メディア ファイル内の重要なキーワードを検索し、単一言語メディア ファイルと複数言語メディア ファイルの両方で分析情報を提供します。

キーワード抽出のユース ケース

  • 顧客の関心に合わせたキーワードのパーソナル化。 たとえば、イギリスに関する Web サイトでは、英語の映画やフェスティバルに関するプロモーションを投稿しています。
  • 特定のキーワードに関する洞察を深く検索し、企業、人物、または技術に関する特集記事を作成します。たとえば、ニュース機関によって作成される場合があります。

Web ポータルで分析情報 JSON を表示する

ビデオをアップロードしてインデックスを作成したら、Web ポータルから JSON 形式で分析情報をダウンロードします。

  1. Library タブを選択します。
  2. 目的のメディアを選択します。
  3. [ ダウンロード] を選択し、[ Insights (JSON)] を選択します。 JSON ファイルが新しいブラウザー タブで開きます。
  4. 応答例で説明されているキー ペアを見つけます。

API の使用

  1. ビデオ インデックスの取得要求を使用します。 &includeSummarizedInsights=falseを渡す。
  2. 応答例で説明されているキー ペアを見つけます。

応答の例

    "keywords": [
      {
        "id": 1,
        "text": "office insider",
        "confidence": 1,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:00:05.75",
            "start": "0:00:00",
            "end": "0:00:05.75"
          },
          {
            "adjustedStart": "0:01:21.82",
            "adjustedEnd": "0:01:24.7",
            "start": "0:01:21.82",
            "end": "0:01:24.7"
          },
          {
            "adjustedStart": "0:01:31.32",
            "adjustedEnd": "0:01:32.76",
            "start": "0:01:31.32",
            "end": "0:01:32.76"
          },
          {
            "adjustedStart": "0:01:35.8",
            "adjustedEnd": "0:01:37.84",
            "start": "0:01:35.8",
            "end": "0:01:37.84"
          }
        ]
      },
      {
        "id": 2,
        "text": "insider tip",
        "confidence": 0.9975,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:14.91",
            "adjustedEnd": "0:01:19.51",
            "start": "0:01:14.91",
            "end": "0:01:19.51"
          }
        ]
      }

重要

すべてのVI機能の 透明度に関する注意事項の概要 をお読みください。 各分析情報には、独自の透明性に関するメモもあります。

キーワード抽出に関するメモ

常に高品質のオーディオおよびビデオ コンテンツをアップロードします。 推奨される最大フレーム サイズは HD で、フレーム レートは 30 FPS です。 1 つのフレームに含まれる人物は 10 人以下にする必要があります。 ビデオから AI モデルにフレームを出力する場合は、1 秒あたり約 2 または 3 フレームのみを送信します。 10 個以上のフレームを処理すると、AI の結果が遅れる可能性があります。 分析を実行するには、1 分以上の自然な会話音声が必要です。 オーディオ効果は、非音声区間でのみ検出されます。 無音セクションの最小継続時間は2秒です。 音声コマンドや歌はサポートされていません。

キーワード抽出コンポーネント

キーワードの作業手順において、メディア ファイル内の音声と画像は以下のように処理されます。

コンポーネント 定義
ソース言語 ユーザーは、インデックス作成のためにソース ファイルをアップロードします。
文字起こし API オーディオ ファイルが Azure AI サービスに送信され、文字起こしと翻訳が行われた出力が返されます。 言語が指定されている場合は、その処理が行われます。
動画の OCR メディア ファイル内の画像は、Azure AI Vision Read API を使用して処理され、テキストの内容と出現場所、その他の分析情報が抽出されます。
キーワードの抽出: 文字起こしされた音声は抽出アルゴリズムによって処理されます。 その結果は、OCR プロセスで動画から検出された分析情報と組み合わされます。 次に、キーワードとそれらがメディア内に出現する場所が、検出および識別されます。
信頼レベル 各キーワードの推定信頼度レベルは、0 ~ 1 の範囲で計算されます。 信頼度スコアは、結果の精度の確実性を表しています。 たとえば、82% の確実性はスコア 0.82 として表されます。

サンプル コード

VIのすべてのサンプルを見る