Azure AI Video Indexer は、組織がビデオ (ライブおよびアップロード) とオーディオ コンテンツから深い分析情報を抽出できるようにする包括的な AI ソリューションです。 高度な機械学習と生成 AI モデルを使用し、文字起こし、翻訳、物体検出、ビデオ要約など、幅広い機能をサポートしています。 柔軟性を高めるために設計された Video Indexer は、クラウドで使用することも、Azure Arc 経由でエッジの場所にデプロイすることもできます。そのため、運用とコンプライアンスのニーズに最適なデプロイ モデルを選択できます。
Video Indexer には、Azure Arc 拡張機能として、またはクラウドベースの Web アプリケーションとして、2 つの使用オプションが用意されています。 これらの提供物は同じではありません。 機能、サポートされているビデオ ソース、使用可能な AI モデルが異なります。
お客様のニーズに最適なオプションを見つけるために読み続けてください。
緑のボックスは、Azure Arc で有効になっている Video Indexer で使用できる機能を表します。
Azure Arc によって有効化された Video Indexer
Arc で有効になっている Azure AI Video Indexer は、エッジ デバイスでビデオとオーディオの分析と 生成 AI を実行する Azure Arc 拡張機能対応サービスです。 このハイブリッド デプロイ モデルは、Azure Arc 対応 Kubernetes クラスターを介して VI の機能をエッジ環境に拡張します。 このソリューションは Azure Local で検証されましたが、任意の Kubernetes インフラストラクチャと互換性があります。 アップロードされたビデオ ストリームとライブ ビデオ ストリームの両方をサポートし、データ ソースで直接リアルタイム分析を可能にします。 また、両方の種類のビデオをサポートする Arc 拡張機能を作成することも、1 つだけをサポートすることもできます。 使用可能な AI 分析情報は、選択したビデオの種類によって異なる点に注意してください。 このモデルは、データ所在地の要件が厳しい業界や、運用ニーズの待機時間が短い業界に特に適しています。
ライブ ビデオ ストリーム
ライブ ビデオ映像からリアルタイムの分析情報を抽出できるため、特定のニーズに合わせて分析をカスタマイズできます。 検出されたオブジェクトが境界ボックスで強調表示されている状態で、ライブ分析情報をビデオ ストリームの上に直接表示できます。 ストリームと分析情報をファイルとして保存することもできます。 また、外部メディア ファイルのアップロードとインデックス作成を行うことができます。 Azure AI Video Indexer を使用すると、録画したビデオ映像のセグメントの簡潔な概要を生成でき、ビデオ全体を見ずに重要なイベントにすばやく追いつくことができます。
Arc で有効になっている Azure AI Video Indexer で分析情報の抽出を開始するには、Arc で有効になっている Application for Azure AI Video Indexer にサインアップします。詳細については、「 Arc で有効になっている Azure AI Video Indexer とは」を参照してください。
アップロードされたビデオ
ビデオとオーディオのコンテンツを分析し、意味のある分析情報を抽出できます。 マルチモーダル生成 AI モデルを使用し、ビデオ コンテンツのテキスト形式の豊富な概要を生成し、検出可能性を高めることができます。
クラウドベースのビデオインデクサー
Azure AI Video Indexer は、Azure AI サービスの一部であるクラウド アプリケーションです。 これは、Face、Translator、Azure AI Vision、Speech などの Azure AI サービスに基づいて構築されています。 Azure AI Video Indexer を使用すると、ビデオモデルとオーディオ モデルを使用してビデオから分析情報を抽出できます。
Azure AI Video Indexer は、30 を超える AI モデルを実行することで、ビデオとオーディオのコンテンツを分析します。 豊富な分析情報が生成されます。 次の図は、Azure AI Video Indexer がバックグラウンドで実行するオーディオとビデオの分析を示しています。
Azure AI Video Indexer を使用して分析情報の抽出を開始するには、使用を 開始する方法 に関するセクションを参照してください。
Azure AI Video Indexer を使用して何ができますか?
さまざまなシナリオで、Azure Arc で有効になっている Video Indexer とクラウドベースの Video Indexer の両方を使用できます。 次のセクションでは、各オプションのシナリオについて説明します。
Azure Arc によって有効化された Video Indexer
ライブ ビデオ ストリーム
リアルタイム分析中央ビデオ AI サービスとカメラ ライブ ストリーミングを統合して、さまざまな場所からの AI ベースの検出を使用できます。 このサービスでは、ライブビデオと録画ビデオを分析し、生の映像を実用的な分析情報に変換します。
- 小売 - 店舗のレイアウトを最適化し、カスタマー エクスペリエンスと安全性を向上させます。 リアルタイム分析を使用すると、チェックアウトラインの顧客数をリアルタイムで監視し、小売業者がすぐに対応してスタッフの配置を最適化し、待ち時間を短縮することができます。
- 製造 - ビデオ分析を通じて品質管理と作業者の安全を確保します。 たとえば、保護ギアを装着していない作業者は、重要なイベントをリアルタイムで検出し、ビデオ ストリーム内の特定の瞬間を特定する必要があります。
- 最新の安全性 - リスクを引き起こす前に、セキュリティと安全性の問題を検出して特定します。
アップロードされたビデオ
-
データ ガバナンス – AI をコンテンツに取り込む代わりに、その逆を行います。 次の理由により、インデックス付きコンテンツをオンプレミスからクラウドに移動できない場合は、Arc で有効になっている Azure AI Video Indexer を使用します。
- 規則。
- アーキテクチャの決定。
- データ ストアが大きすぎるため、リフト アンド シフトは大きな労力を要します。
- オンプレミス のワークフロー – インデックス作成プロセスはオンプレミスのワークフローの一部であり、フローに影響するインデックス作成期間の待機時間を短縮する必要があります。
- 事前インデックス作成 – コンテンツをクラウドにアップロードする前にインデックスを作成する必要があります。 わかりやすくするために、オンプレミスのビデオまたはオーディオ アーカイブを事前に並べ替え、クラウドでの標準または高度なインデックス作成のためにのみアップロードできます。
クラウドベースのビデオインデクサー
Azure AI Video Indexer の分析情報は、多くのシナリオに適用できます。
- 詳細検索: ビデオ ライブラリ全体の検索エクスペリエンスを強化するには、ビデオから抽出された分析情報を使用します。 たとえば、話されている語句と顔にインデックスを作成すると、人物が特定の単語をいつ話したかや、2 人の人物がいつ会っていたかを検索できるようになります。 ビデオからのこのような分析情報に基づいた検索は、通信社、教育機関、放送局、エンターテイメント コンテンツの所有者、エンタープライズ LOB アプリにとって利用価値があり、一般には、ユーザーが検索の対象にするビデオ ライブラリを保有するすべての業界が対象になります。
- コンテンツ作成: Azure AI Video Indexer がコンテンツから抽出する分析情報に基づいて、トレーラー、ハイライト リール、ソーシャル メディア コンテンツまたはニュース クリップを作成します。 人物とラベルの外観用のキーフレーム、シーン マーカー、タイムスタンプにより、作成プロセスがより円滑で簡単になり、コンテンツの作成中に必要なビデオの部分に容易にアクセスできるようになります。
- アクセシビリティ: コンテンツを障碍のある人々が利用できるようにしたい場合や、コンテンツをさまざまな言語を使用してさまざまなリージョンに配布したい場合には、Azure AI Video Indexer によって複数の言語で提供される文字起こしと翻訳が使用できます。
- 収益化: Azure AI Video Indexer は、ビデオの価値の向上に役立ちます。 たとえば、広告収益 (ニュース メディア、ソーシャル メディアなど) に依存している業界では、抽出された分析情報を他のシグナルとして広告サーバーに提供することで、関連する広告を配信できます。
- コンテンツ モデレーション: テキストとビジュアルのコンテンツ モデレーション モデルを使用して、不適切なコンテンツからユーザーの安全を維持し、公開したコンテンツが組織の値と一致することを検証します。 コンテンツに関して、特定のビデオを自動的にブロックしたり、ユーザーに通知したりすることができます。
- 推奨事項:ビデオの分析情報は、ユーザーに関連のあるビデオ モーメントを強調表示することで、ユーザー エンゲージメントを向上させるために使用できます。 より多くのメタデータで各ビデオにタグを付けることで、最も関連性の高いビデオをユーザーに勧め、ニーズに合ったビデオの部分を強調することができます。
AI の機能
さまざまな AI 機能 (モデル) を使用して、ビデオファイルとオーディオ ファイルから分析情報を抽出できます。 次のセクションでは、各オプションで使用できる AI 機能について説明します。
Azure Arc によって有効化された Video Indexer
Arc で有効になっている Azure AI Video Indexer では、アップロードされたビデオ ファイルに対して次のインデックス作成プリセットがサポートされています。
| モデル | 基本的なビデオ | 基本的なオーディオ | 基本的なビデオとオーディオ |
|---|---|---|---|
| 文字起こし | ✔ | ✔ | |
| 翻訳 | ✔ | ✔ | |
| キャプション作成 | ✔ | ✔ | |
| キー フレームの検出 | ✔ | ✔ | |
| オブジェクトの検出 | ✔ | ✔ | |
| シーン検出 | ✔ | ✔ | |
| ショット検出 | ✔ | ✔ | |
| 概要 | ✔ | ✔ | ✔ |
ライブ ビデオ ストリームの場合は、次のような独自のプリセットを作成できます。
- ファースト パーティ検出 (人物、車両)
- カスタム AI 分析情報 - 自然言語または画像を使用して新しい物体検出を作成します。 詳細については、(新しいページへのリンク) を参照してください。
クラウドベースのビデオインデクサー
次の一覧は、Azure AI Video Indexer のビデオおよびオーディオ AI 機能 (モデル) を使用して、ビデオファイルとオーディオ ファイルから取得できる分析情報を示しています。
注
プライバシーと規制の要件を考えると、これらの機能の一部は使用が制限されており、完全に利用するには承認が必要です。
特に指定がない限り、モデルは一般提供されます。
ビデオ モデル
顔検出: ビデオに表示される顔を検出してグループ化します。
著名人識別: 世界中の世界のリーダー、俳優、アーティスト、アスリート、研究者、ビジネス、技術リーダーなど、100 万人以上の有名人を識別します。 これらの有名人に関するデータは、IMDB や Wikipedia などのさまざまな Web サイトで見つけることができます。
アカウントベースの顔識別: 特定のアカウントのモデルをトレーニングします。 その後、トレーニングされたモデルに基づいてビデオ内の顔を認識します。 詳細については、「 Azure AI Video Indexer Web サイトから人物モデルをカスタマイズする」および「Azure AI Video IndexerAPI を使用して人物モデルをカスタマイズする」を参照してください。
顔のサムネイル抽出: 品質、サイズ、正面の位置に基づいて、顔の各グループで最適にキャプチャされた顔を識別し、画像アセットとして抽出します。
光学式文字認識 (OCR): 画像、道路標識、メディア ファイル内の製品などの画像からテキストを抽出して分析情報を作成します。
ビジュアル コンテンツモデレーション: 成人およびわいせつなビジュアルを検出します。
ラベル識別: 表示されるビジュアル オブジェクトとアクションを識別します。
シーンのセグメント化: 視覚的な手掛かりに基づいてビデオ内のシーンが変化するタイミングを決定します。シーンは 1 つのイベントを表し、セマンティックに関連する一連の連続したショットによって構成されます。
ショット検出: 視覚的な手掛かりに基づいてビデオでショットが変化するタイミングを決定します。ショットは、同じモーションピクチャカメラから撮影された一連のフレームです。 詳細については、「 シーン、ショット、キーフレーム」を参照してください。
黒いフレーム検出: ビデオに表示される黒いフレームを識別します。
キーフレーム抽出: ビデオ内の安定したキーフレームを検出します。
ローリング クレジット: テレビ番組や映画の最後のローリング クレジットの開始と終了を識別します。
編集ショットの種類の検出: ワイド ショット、ミディアム ショット、クローズ アップ、極端なクローズアップ、2 ショット、複数のユーザー、屋外、屋内など、その種類に基づいてショットをタグ付けします。 詳細については、「 編集ショットの種類の検出」を参照してください。
観察された人物の検出: ビデオ内で観察された人物を検出し、境界ボックスを使用してビデオフレーム内の位置を示し、人物が出現した際の開始時間、終了時間とともに信頼度の高い正確なタイムスタンプを提供します。 詳細については、「 ビデオで観察されたユーザーをトレースする」を参照してください。
- 一致したユーザー: ビデオで観察されたユーザーを、検出された対応する顔と照合します。 観察された人物と顔との照合には、信頼レベルが含まれます。
- 検出された衣類: ビデオに表示される人の服の種類を検出し、長いまたは短い袖、長いまたは短いパンツ、スカートやドレスなどの情報を提供します。 検出された服は、着用している人と、検出の開始、終了、信頼度の正確なタイムスタンプに関連付けられます。
- おすすめの服: ビデオに表示される注目の服の画像をキャプチャします。 特徴化した衣服の分析情報を利用して、ターゲット広告を改善することができます。 注目の衣料品の画像のランク付け方法と分析情報の取得方法については、 おすすめの衣料品を参照してください。
オブジェクト検出: フレームに戻った場合に認識されるように、追跡される一意のオブジェクトも検出します。 Azure AI Video Indexer オブジェクト検出を参照してください。
スレート検出: 高度なインデックス作成オプションを使用してビデオのインデックスを作成するときに、次の映画のポストプロダクション分析情報を識別します。
- メタデータ抽出によるカチンコの検出。
- カラー バーを含むデジタル パターン検出。
- シーン マッチングを含むテキストレス スレート検出。
詳細については、 スレート検出を参照してください。
テキストロゴ検出: Azure AI Video Indexer OCR を使用して、特定の定義済みテキストと一致します。 たとえば、ユーザーがテキストロゴ (
Microsoft) を作成した場合、Microsoftという単語のさまざまな外観がMicrosoftロゴとして検出されます。 詳細については、「 テキスト ロゴを検出する」を参照してください。
オーディオ モデル
音声の文字起こし: 50 を超える言語で音声をテキストに変換し、拡張機能をサポートします。 詳細については、 Azure AI Video Indexer 言語のサポートに関するページを参照してください。
自動言語検出: 主要な音声言語を識別します。 詳細については、 Azure AI Video Indexer 言語のサポートに関するページを参照してください。 言語を確実に識別できない場合、Azure AI Video Indexer は音声言語が英語であると想定します。
多言語の音声識別と文字起こし: 音声のさまざまなセグメントで音声言語を識別します。 これは、文字起こしされるメディア ファイルの各セグメントを送信し、その文字起こしを 1 つの統一された文字起こしに結合します。 文字起こしの詳細については、「 文字起こし」を参照してください。
クローズド キャプション: VTT、TTML、SRT の 3 つの形式でクローズド キャプションを作成します。
2 つのチャネル処理: トランスクリプトを自動検出し、それらを 1 つのタイムラインにマージします。
ノイズリダクション: テレフォニーオーディオまたはノイズの多い録音をクリアします (Skype フィルターに基づく)。
トランスクリプトのカスタマイズ (CRIS): 業界固有のトランスクリプトを作成するためのカスタム音声テキスト変換モデルをトレーニングします。 詳細については、「 言語モデルのカスタマイズ」を参照してください。
話者の列挙: どの話者がどの単語とタイミングを話したかをマップして理解します。 1 つのオーディオ ファイルで 16 個のスピーカーを検出できます。
話者統計: 話者の音声比率の統計情報を提供します。
テキスト コンテンツ モデレーション: 音声トランスクリプト内の明示的なテキストを検出します。
テキストベースの感情検出: トランスクリプト分析を使用して、喜び、悲しみ、怒り、恐怖などの感情を検出します。
翻訳: さまざまな言語で音声トランスクリプトの翻訳を作成します。 詳細については、 Azure AI Video Indexer 言語のサポートに関するページを参照してください。
オーディオ効果の検出: コンテンツの非スピード セグメントで、アラームまたはサイレン、犬の吠え、群衆の反応 (応援、拍手、ブーイング)、銃声または爆発、笑い、ガラスの破損、無音のオーディオ効果を検出します。
検出される音響イベントはクローズド キャプション ファイルにあります。 このファイルは、Azure AI Video Indexer Web サイトからダウンロードできます。 詳細については、「 オーディオ効果の検出」を参照してください。
注
イベントの完全なセットは、アップロード プリセットでファイルのアップロード時に [高度なオーディオ分析 ] を選択した場合にのみ使用できます。 既定では、無音のみが検出されます。
オーディオ モデルとビデオ モデル (マルチチャネル)
1 つのチャネルでインデックスを作成すると、それらのモデルの部分的な結果が得られます。
- キーワード抽出: 音声テキストとビジュアル テキストからキーワードを抽出します。
- 名前付きエンティティ抽出: 自然言語処理 (NLP) を使用して、音声テキストとビジュアル テキストからブランド、場所、ユーザーを抽出します。
- トピックの推論: さまざまなキーワードに基づいてトピックを抽出します (たとえば、"Exchange" キーワードや "Wall Street" キーワードによってトピック "Economics" が生成されます)。 このモデルでは、3 つの異なるオントロジ (IPTC、 Wikipedia、Video Indexer 階層トピックオントロジ) を使用します。 このモデルでは、Video Indexer 顔認識モデルを使用して、ビデオで認識される文字起こし (話し言葉)、OCR コンテンツ (ビジュアル テキスト)、および著名人を使用します。
- 成果物: 各モデルの豊富な "次のレベルの詳細" 成果物を抽出します。
- 感情分析: 音声テキストとビジュアル テキストから肯定的、否定的、中立的なセンチメントを識別します。
Azure AI Video Indexer の使用を開始するにはどうすればよいですか?
Azure Arc で有効になっている Azure AI Video Indexer の使用を開始する方法について説明します。
Azure AI Video Indexer の使用を開始する方法について説明します。
サービスを設定したら、分析情報の使用を開始し、他の 方法ガイドを確認してください。
コンプライアンス、プライバシー、セキュリティ
注
2020 年 6 月 11 日、Microsoft は、人権に基づく強力な規制が制定されるまで、米国の警察に顔認識テクノロジを販売しないと発表しました。 そのため、お客様は、顔認識機能や Azure AI サービスに含まれる機能 (Face や Video Indexer など) を使用することはできません。たとえば、お客様が米国の警察によって、またはそのようなサービスの使用を許可している場合です。
注
責任ある AI の原則をサポートするために、顔識別、カスタマイズ、および著名人認識機能へのアクセスは、適格性と使用条件に基づいて制限されます。 これらの機能は、Microsoft が管理する顧客とパートナーのみが利用できます。 顔認識の取り込みフォームを使用して、アクセスを申請します。
Azure AI Video Indexer の使用に適用されるすべての法律を遵守する必要があります。 Azure AI Video Indexer や Azure サービスを、他のユーザーの権利を侵害したり、他のユーザーに害を及ぼす可能性のある方法で使用することはできません。
Azure AI Video Indexer にビデオまたは画像をアップロードする前に、ビデオまたは画像を使用するための適切で法的な権利をすべて持っている必要があります。 法律で要求されている場合は、Azure AI Video Indexer と Azure でデータを使用、処理、および保存するために、ビデオまたは画像内の個人 (ある場合) から必要なすべての同意が必要です。 一部の管轄区域では、生体認証データなど、特定のカテゴリのデータの収集、オンライン処理、ストレージに特別な法的要件が課される場合があります。 特別な法的要件に該当するデータの処理と保存に Azure AI Video Indexer と Azure を使用する前に、お客様とその使用目的に適用されるすべての法的要件に従って使用する必要があります。
Azure AI Video Indexer のコンプライアンス、プライバシー、セキュリティの詳細については、Microsoft セキュリティ センターを参照してください。 お客様のデータを削除する方法を含む、Microsoft のプライバシー義務、データ処理および保持プラクティスについては、Microsoft の プライバシーに関する声明、 オンライン サービス条件 ("OST")、 およびデータ処理補遺 ("DPA") を確認してください。 Azure AI Video Indexer を使用すると、OST、DPA、およびプライバシーに関する声明に拘束されることに同意したと見なされます。