インデックス作成の構成ガイド

重要

Azure Media Services の 提供終了の発表により、Azure AI Video Indexer は Azure AI Video Indexer の 機能の調整を発表します。 Azure AI Video Indexer アカウントの意味を理解するには、Azure Media Service (AMS) の提供終了に関連する変更に関するページを参照してください。 AMS 提供 終了の準備: VI の更新と移行に関するガイドを参照してください。

インデックス作成の目標を確実に満たしながら、効率的にインデックスを作成するための構成オプションを理解することが重要です。 ビデオのインデックス作成時に、ユーザーは既定の設定を使用することも、多くの設定を調整することもできます。 Azure AI Video Indexer を使用すると、生成される分析情報、コスト、パフォーマンスに影響を与える、言語、インデックス作成、カスタム モデル、ストリーミングに関するさまざまな設定を選択できます。

この記事では、インデックス作成時に情報に基づいた意思決定ができるように、各オプションと各オプションの影響について説明します。 この記事では、Azure AI Video Indexer Web サイトのエクスペリエンスについて説明しますが、API を介してジョブを送信する場合も同じオプションが適用されます (API ガイドを参照)。 大量のインデックスを作成する場合は、大規模な場合のガイドに従ってください。

最初のアップロード画面には、ビデオ名、ソース言語、プライバシー設定を定義するためのオプションが表示されます。

ビデオ名、ソース言語、プライバシー設定を定義するオプションを示すスクリーンショット。

[詳細オプション] を選択すると、他のすべての設定オプションが表示されます。

ビデオ名、ソース言語、プライバシー設定を定義するための詳細オプションを示すスクリーンショット。

既定の設定

既定では、Azure AI Video Indexer は、[ビデオのソース言語] が英語、[プライバシー] がプライベート、音声とビデオの設定が [標準][ストリーミングの品質] がシングル ビットレートに構成されています。

ヒント

このトピックでは、各インデックス作成オプションについて詳しく説明します。

既定の設定を使用することが適していない可能性があるいくつかの例を次に示します。

  • 詳細ビデオでのみ利用できる、観察対象人物または一致した人物の分析情報が必要な場合。
  • 文字起こしと翻訳のみのために Azure AI Video Indexer を使用している場合、音声とビデオの両方のインデックス作成は必要ありません。音声に [基本] を選択するだけで十分です。
  • Azure AI Video Indexer の分析情報を使用していても、新しいメディア ファイルを生成する必要がない場合は、ストリーミングは必要ありません。エンコード ジョブとそれに関連するコストを回避するために、[ストリーミングなし] を選択する必要があります。
  • ビデオが主に英語ではない言語である場合。

ビデオのソース言語

ビデオで話されている言語がわかっている場合は、ビデオ ソース言語の一覧から言語を選択します。 ビデオの言語が不明な場合は、[単一言語の自動検出] を選択します。 Azure AI Video Indexer でビデオをアップロードしてインデックスを作成する場合、言語識別 (LID) を使用してビデオ言語が検出され、検出された言語で文字起こしと分析情報が生成されます。

ビデオに複数の言語が含まれている可能性があり、どの言語なのかが不明な場合は、[多言語の自動検出] を選択します。 この場合、ビデオのアップロードとインデックス作成時に多言語 (MLID) 検出が適用されます。

自動検出はビデオの言語がさまざまである場合に最適なオプションですが、LID または MLID を使用する場合は、次の 2 つの点を考慮する必要があります。

  • Azure AI Video Indexer でサポートされているすべての言語が LID または MLID でサポートされているわけではありません。
  • ビデオの適切な言語を事前に選択すると、文字起こしの品質が高くなります。

言語サポートとサポートされている言語については、こちらを参照してください。

プライバシー

このオプションを使用すると、Azure AI Video Indexer アカウントのユーザーまたはリンクを知っているすべてのユーザーのみが分析情報にアクセスできるようにするかどうかを決定できます。

インデックス作成のオプション

既定の設定でビデオのインデックスを作成する場合は、音声とビデオのインデックス作成の各オプションの価格が異なる場合があります。 詳細については、「Azure AI Video Indexer の価格」を参照してください。

インデックス作成の種類のオプションと提供される分析情報の詳細を次に示します。 インデックス作成の種類を変更するには、[詳細設定] を選択します。

オーディオのみ ビデオのみ オーディオとビデオ
Basic Basic Basic
Standard Standard Standard
上級 上級 上級

詳細設定

オーディオのみ

  • 基本: 音声のみを使用 (ビデオを無視) してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: 文字起こし、翻訳、出力キャプションと字幕 (クローズド キャプション) の書式設定。
  • 標準: 音声のみを使用 (ビデオを無視) してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: 文字起こし、翻訳、出力キャプションと字幕 (クローズド キャプション) の書式設定、自動言語検出、感情、キーワード、名前付きエンティティ (ブランド、場所、人物)、センチメント、話者、トピックの抽出、テキスト コンテンツ モデレーション。
  • 詳細: 音声のみを使用 (ビデオを無視) してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: 文字起こし、翻訳、出力キャプションと字幕 (クローズド キャプション) の書式設定、自動言語検出、音声イベント検出、感情、キーワード、名前付きエンティティ (ブランド、場所、人物)、センチメント、話者、トピックの抽出、テキスト コンテンツ モデレーション。

ビデオのみ

  • 基本: ビデオのみを使用して分析情報のインデックスを作成して抽出し (オーディオを無視する)、ラベル、オブジェクト検出、OCR、シーン (キーフレームとショット)、黒フレーム検出などの分析情報を提供します。
  • 標準: ビデオのみを使用 (音声を無視) してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: ラベル (OCR)、名前付きエンティティ (OCR - ブランド、場所、人物)、OCR、人物、シーン (キーフレームとショット)、ブラック フレーム、ビジュアル コンテンツ モデレーション、トピックの抽出 (OCR)。
  • 詳細: ビデオのみを使用 (音声を無視) してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: ラベル (OCR)、一致した人物 (プレビュー)、名前付きエンティティ (OCR - ブランド、場所、人物)、OCR、観察された人物 (プレビュー)、人物、シーン (キーフレームとショット)、クラッパーボード検出、デジタル パターン検出、お勧めの服の分析情報、テキストレス スレート検出、テキスト ロゴ検出、ブラック フレーム、ビジュアル コンテンツ モデレーション、トピックの抽出 (OCR)。

音声とビデオ

  • 基本: オーディオとビデオを使用して分析情報のインデックス作成と抽出を行い、文字起こし、翻訳、出力キャプションと字幕の書式設定 (閉じたキャプション)、オブジェクト検出、OCR、シーン (キーフレームとショット)、黒いフレームなどの分析情報を提供します。
  • 標準: 音声とビデオを使用してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: 文字起こし、翻訳、出力キャプションと字幕 (クローズド キャプション) の書式設定、自動言語検出、感情、キーワード、名前付きエンティティ (ブランド、場所、人物)、OCR、シーン (キーフレームとショット)、ブラック フレーム、ビジュアル コンテンツ モデレーション、人物、センチメント、話者、トピックの抽出、テキスト コンテンツ モデレーション。
  • 詳細: 音声とビデオを使用してインデックス作成と分析情報の抽出を行い、次の分析情報を提供します: 文字起こし、翻訳、出力キャプションと字幕 (クローズド キャプション) の書式設定、自動言語検出、テキスト コンテンツ モデレーション、音声イベント検出、感情、キーワード、一致した人物、名前付きエンティティ (ブランド、場所、人物)、OCR、観察された人物 (プレビュー)、人物、クラッパーボード検出、デジタル パターン検出、お勧めの服の分析情報、テキストレス スレート検出、センチメント、話者、シーン (キーフレームとショット)、テキスト ロゴ検出、ブラック フレーム、ビジュアル コンテンツ モデレーション、トピックの抽出。

ストリーミングの品質オプション

インデックス付きビデオをストリーミングするには、次の 2 つのオプションがあります。

  • シングル ビットレート: ビデオの高さが 720p HD 以上の場合、Azure AI Video Indexer は解像度 1280 x 720 でエンコードします。 それ以外の場合は、640 x 468 としてエンコードされます。
  • ストリーミングなし: 分析情報は生成されますが、ストリーミング操作は実行されず、Azure AI Video Indexer Web サイトでビデオは使用できません。 [ストリーミングなし] が選択されている場合、エンコードに対する課金は行われません。

コンテンツ モデルのカスタマイズ

Azure AI Video Indexer を使うと、モデルの一部をカスタマイズして、特定のユース ケースに適合させることができます。 これらのモデルには、ブランド、言語、および人物などがあります。 モデルをカスタマイズした場合は、作成したモデルの 1 つをインデックス作成に使用するかどうかをこのセクションで構成できます。