Azure Video Indexer とは?

警告

2020 年 6 月 11 日に、Microsoft は、人権に基づく厳格な法令が制定されない限り、米国内の警察に顔認識テクノロジを販売しないことを発表しました。 そのため、Face や Azure Video Indexer などの Azureサービスに含まれる顔認識機能は、お客様が米国内の警察であるか、警察によってまたは警察のために当該サービスの使用を認められている場合、使用できません。

重要

責任ある AI の原則をサポートするために、顔識別、カスタマイズ、および著名人認識機能のアクセスは、適格性と使用基準に基づいて制限されています。 顔識別、カスタマイズ、および著名人認識機能は、Microsoft が管理するお客様とパートナーのみが利用できます。 顔認識受付フォームを使用して利用申請を行ってください。

Azure Video Indexer は、Azure Media Services と Azure Cognitive Services (Face、Translator、Computer Vision、音声 など) にビルドされた Azure Applied AI Services のパーツであるクラウド アプリケーションです。 Azure Video Indexer のビデオとオーディオのモデルを使用して、ビデオから分析情報を抽出することができます。

Azure Video Indexer では、30 個以上の AI モデルを実行して、ビデオとオーディオのコンテンツを分析し、豊富な分析情報を生成します。 以下の図は、Azure Video Indexer によってバックグラウンドで実行されるオーディオとビデオの分析を示しています。

Azure Video Indexer フローの図。

Azure Video Indexer を使用して分析情報の抽出を開始するには、以下の「作業の開始方法」セクションを参照してください。

Azure Video Indexer で何ができますか?

Azure Video Indexer の分析情報は、次のような多くのシナリオに適用できます。

  • ディープ検索: ビデオから抽出された分析情報を使用して、ビデオ ライブラリ全体での検索エクスペリエンスを強化します。 たとえば、話されている語句と顔にインデックスを作成すると、人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。 ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメント コンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオ ライブラリを保有するすべての業界が対象になります。
  • コンテンツの作成: Azure Video Indexer によってコンテンツから抽出する分析情報に基づいて、トレーラー、ハイライト リール、ソーシャル メディア コンテンツまたはニュース クリップを作成します。 人物とラベルの外観用のキーフレーム、シーン マーカー、タイムスタンプにより、作成プロセスがより円滑で簡単になり、コンテンツの作成中に必要なビデオの部分に容易にアクセスできるようになります。
  • アクセシビリティ: 障碍のあるユーザーがコンテンツを利用できるようにする場合も、コンテンツをさまざまな言語を使用して異なるリージョンに配布する場合も、複数の言語の Azure Video Indexer によって提供される文字起こしと翻訳を使用できます。
  • 収益化: Azure Video Indexer は、ビデオの値の向上に役立ちます。 たとえば、広告収入に依存している業界 (ニュース メディア、ソーシャル メディアなど) では、抽出した分析情報を広告サーバーへの追加のシグナルとして利用することで、関連広告を提供できます。
  • コンテンツ モデレーション: テキストとビジュアルのコンテンツ モデレーション モデルを使用して、不適切なコンテンツからユーザーの安全を維持し、公開したコンテンツが組織の値と一致することを検証します。 コンテンツに関して、特定のビデオを自動的にブロックしたり、ユーザーに通知したりすることができます。
  • 推奨事項:ビデオの分析情報は、ユーザーに関連のあるビデオ モーメントを強調表示することで、ユーザー エンゲージメントを向上させるために使用できます。 各ビデオに追加のメタデータをタグ付けすることで、ユーザーに最も関連性の高いビデオをお勧めし、ニーズに合うビデオの部分を強調表示することができます。

ビデオ/オーディオの AI 機能

次の一覧は、Azure Video Indexer のビデオとオーディオの AI 機能 (モデル) を使用して、ビデオまたはオーディオ ファイルから取得できる分析情報を示しています。

特に指定がない限り、モデルは一般提供されます。

ビデオ モデル

  • 顔検出:ビデオに表示される顔を検出し、グループ化します。

  • 著名人の識別: 世界中のリーダー、俳優、アーティスト、アスリート、研究者、ビジネス リーダー、技術リーダーなど、100 万人を超える著名人を識別します。 これらの著名人に関するデータは、さまざまな Web サイト (IMDB、Wikipedia など) でも見つけることができます。

  • アカウントベースの顔識別: 特定のアカウントのモデルをトレーニングします。 その後、トレーニングされたモデルに基づいてビデオ内の顔を認識します。 詳細については、「Azure Video Indexer Web サイトから人物モデルをカスタマイズする」と「Azure Video Indexer API を使用して人物モデルをカスタマイズする」をご覧ください。

  • 顔のサムネイルの抽出: 顔の各グループでキャプチャされた最適な顔を (品質、サイズ、正面位置に基づいて) 識別し、それをイメージ アセットとして抽出します。

  • 光学式文字認識 (OCR): メディア ファイル内の写真、道路標識、商品などの画像からテキストを抽出し、分析情報を作成します。

  • ビジュアル コンテンツ モデレーション:成人向けやわいせつなビジュアルを検出します。

  • ラベルの識別:表示されるビジュアル オブジェクトとアクションを識別します。

  • シーンのセグメント化: 視覚的な手掛かりに基づいて、ビデオ内でシーンが変化するタイミングを決定します。シーンは単一のイベントを表し、意味的に関連する一連の連続したショットで構成されます。

  • ショット検出:視覚的な手掛かりに基づいて、ビデオ内のショットが変化するタイミングを決定します。ショットは、同じ動画カメラから撮影された一連のフレームです。 詳細については、「Scenes, shots, and keyframes」(シーン、ショット、キーフレーム) を参照してください。

  • 黒フレームの検出:ビデオに表示された黒フレームを識別します。

  • キーフレームの抽出:ビデオ内の安定したキーフレームを検出します。

  • ローリング クレジット: テレビ番組や映画の終わりにあるローリング クレジットの始まりと終わりを識別します。

  • 編集ショット タイプの検出: タイプに基づいてショットをタグ付けします (ワイド ショット、ミディアム ショット、クローズアップ、エクストリーム クローズアップ、2 ショット、複数の人物、屋外、室内など)。 詳細については、「編集ショット タイプの検出」を参照してください。

  • 観察対象人物の追跡 (プレビュー): ビデオ内の観察対象人物を検出し、ビデオ フレーム内の人物の位置情報 (境界ボックス使用) や、正確なタイムスタンプ (開始、終了)、人物が表示されたときの信頼度などの情報を提供します。 詳細については、「Trace observed people in a video」(ビデオ内で確認されたユーザーを追跡する)を参照してください。

    • 検出された人物の衣服 (プレビュー): ビデオに登場する人の衣服の種類を検出し、長袖または半袖、長ズボンまたは半ズボン、スカートまたはワンピースなどの情報を提供します。 検出された衣服はそれを着ている人に関連付けられ、正確なタイムスタンプ (開始、終了) と検出の信頼度が提供されます。 詳細については、検出された衣服に関する記事を参照してください。
    • 特徴化した衣服 (プレビュー): ビデオに出現する特徴化した衣服の画像をキャプチャします。 特徴化した衣服の分析情報を利用して、ターゲット広告を改善することができます。 特徴化した衣服の画像のランク付けと分析情報の取得方法については、特徴化した衣服に関する記事を参照してください。
  • 一致した人物 (プレビュー): ビデオ内の観察対象人物と、検出された対応する顔を照合します。 観察された人物と顔との照合には、信頼レベルが含まれます。

  • スレート検出 (プレビュー):高度なインデックス作成オプションを使用してビデオのインデックスを作成すると、次の映画の制作後の分析情報が指定されます:

    • メタデータ抽出によるカチンコの検出。
    • カラー バーを含むデジタル パターン検出。
    • シーン マッチングを含むテキストレス スレート検出。

    詳細については、スレート検出に関する記事を参照してください。

  • テキスト ロゴ検出 (プレビュー): Azure Video Indexer OCR を使用して、特定の定義済みテキストと照合します。 たとえば、ユーザーが "Microsoft" というテキスト ロゴを作成した場合、外観が異なる Microsoft という単語が "Microsoft" ロゴとして検出されます。 詳細については、「テキスト ロゴを検出する」を参照してください。

オーディオ モデル

  • 音声の文字起こし: 50 を超える言語で音声をテキストに変換します。拡張機能を使用できます。 詳細については、「Azure Video Indexer での言語サポート」を参照してください。

  • 自動言語検出: 主要な音声言葉を識別します。 詳細については、「Azure Video Indexer での言語サポート」を参照してください。 言語を確実に識別できない場合、Azure Video Indexer では音声言語が英語と想定されます。 詳細については、言語識別モデルに関する記事を参照してください。

  • 複数言語の音声識別と文字起こし: 音声からさまざまな区分にある音声言語を識別します。 書き起こされるようにメディア ファイルの各セグメントを送信した後、文字起こしが 1 つの統合された文字起こしに結合されます。 詳細については、「複数言語のコンテンツを自動的に識別および文字起こしする」を参照してください。

  • 字幕:VTT、TML、SRT という 3 つの形式で字幕を作成します。

  • 2 チャネル処理:個別のトランスクリプトを自動検出し、1 つのタイムラインに結合します。

  • ノイズリダクション:(Skype フィルターに基づいて) テレフォニー音声やノイズの多い録音を明瞭にします。

  • トランスクリプトのカスタマイズ (CRIS):音声テキスト変換のカスタム モデルをトレーニングして、業界固有のトランスクリプトを作成します。 詳細については、「Azure Video Indexer Web サイトから言語モデルをカスタマイズする」と「Azure Video Indexer API を使用して言語モデルをカスタマイズする」をご覧ください。

  • 話者の列挙:どの話者がどの言葉をいつ話したかをマップして認識します。 16 人の話者を 1 つの音声ファイルで検出できます。

  • 話者の統計情報:話者の音声率の統計情報を提供します。

  • テキストのコンテンツ モデレーション:音声トランスクリプト内の明示的なテキストを検出します。

  • 感情の検出:音声 (話されている内容) と口調 (話し方) に基づいて感情を識別します。 この感情は、喜び、悲しみ、怒り、または恐怖の可能性があります。

  • 翻訳: 音声トランスクリプトの、多くの異なる言語への翻訳を作成します。 詳細については、「Azure Video Indexer での言語サポート」を参照してください。

  • オーディオ効果検出 (プレビュー): コンテンツの非音声セグメントで以下の音声効果を検出します。警報、サイレン、犬の鳴き声、観衆の反応 (歓声、拍手、ブーイング)、銃声や爆発、笑い声、ガラスの破砕音、沈黙。

    検出される音響イベントはクローズド キャプション ファイルにあります。 このファイルは、Azure Video Indexer の Web サイトからダウンロードできます。 詳細については、「オーディオ効果の検出」を参照してください。

    Note

    イベントの完全なセットは、アップロード プリセットでファイルをアップロードするときに高度な音声分析を選択した場合にのみ使用できます。 既定では、無音のみが検出されます。

オーディオとビデオのモデル (マルチチャンネル)

1 つのチャンネルでインデックスを付けるときは、これらのモデルの部分的な結果を利用できます

  • キーワードの抽出:音声と視覚テキストからキーワードを抽出します。
  • 名前付きエンティティの抽出:自然言語処理 (NLP) を使用して、音声および視覚テキストからブランド、場所、および人物を抽出します。
  • トピックの推定: さまざまなキーワードに基づいて、トピックを抽出します (つまり、"証券取引"、"ウォール街" というキーワードから "経済" というトピックが生成されます)。 このモデルでは、3 つの異なるオントロジー (IPTCWikipedia、および Video Indexer の階層型トピック オントロジー) を使用します。 このモデルでは、文字起こし (話し言葉)、OCR コンテンツ (ビジュアル テキスト)、および Video Indexer の顔認識モデルを使用してビデオで認識された著名人を使用します。
  • 成果物:各モデルについて、"次のレベルの詳細情報" 成果物の豊富なセットを抽出します。
  • センチメント分析:音声と視覚テキストから、ポジティブ、ネガティブ、ニュートラルのセンチメントを識別します。

Azure Video Indexer を使い始めるにはどうすればよいですか?

Azure Video Indexer の使用を開始する方法の説明。

設定したら、分析情報の使用を開始し、他のハウツー ガイドを確認してください。

コンプライアンス、プライバシー、セキュリティ

重要な注意事項として、Azure Video Indexer の使用に適用されるすべての法律に従う必要があります。また、他の人の権利を犯したり、他の人に害を及ぼしたりする可能性のある方法で Azure Video Indexer または何らかの Azure サービスを使用することはできません。

Azure Video Indexer にビデオまたは画像をアップロードする前に、ビデオまたは画像を使用するための適切な権限をすべて取得している必要があります。これには、法律で義務づけられている場合において、ビデオまたは画像に含まれる人物から、Azure Video Indexer および Azure でのデータの使用、処理、および保存について、必要なすべての同意を得ることが含まれます (このような人物が存在する場合)。 一部の法的管轄区域では、生体認証データなどの特定のカテゴリのデータの収集、オンライン処理、および保管に関して特別な法的要件が課せられる場合があります。 特別な法的要件の対象となるデータの処理と保管のために Azure Video Indexer と Azure を使用する前に、適用される可能性のあるこのような法的要件に準拠していることを確認する必要があります。

Azure Video Indexer のコンプライアンス、プライバシー、およびセキュリティについては、Microsoft セキュリティ センターにアクセスしてください。 Microsoft のプライバシー義務、データの取り扱いと保持の慣行 (データの削除方法など) については、Microsoft のプライバシー ステートメントオンライン サービス規約 ("OST")、およびデータ処理の補遺 ("DPA") に関するページをご確認ください。 Azure Video Indexer を使用することによって、OST、DPA およびプライバシーに関する声明に従うことに同意したものとみなされます。

次のステップ

これで、Azure Video Indexer の使用を開始する準備ができました。 詳細については、次の記事を参照してください。

最新の更新プログラムについては、「Azure Video Indexer リリース ノート」を参照してください。