オーディオ効果検出を有効にする (プレビュー)

[アーティクル]
06/26/2024

警告

この 1 年間、Azure AI Video Indexer (VI) は、再登録により、Azure Media Services (AMS) への依存関係の削除を発表しました。機能の調整および変更が発表され、ガイドが提供されました。

移行の完了期限は 2024 年 6 月 30 日でした。 VIは更新/移行期限を延長したので、VIアカウントを更新し、2024年8月31日までAMS VI資産の移行をオプトインできます。

ただし、6 月 30 日以降、VI アカウントを更新場合は、新しいビデオのインデックスを作成することも、移行されていないビデオ再生することもできなくなります。 6 月 30 日以降にアカウントを更新した場合は、インデックス作成をすぐに再開できますが、AMS VI の移行を通じて移行されるまで、アカウントの更新前にインデックス付けされたビデオを再生することはできません。

オーディオ効果検出は、Azure AI Video Indexer の AI 機能の 1 つで、さまざまな音響イベントを検出し、それらをさまざまな音響カテゴリ (犬の鳴き声、群衆の反応、笑い声など) に分類するものです。

この機能が役立つシナリオを次にいくつか示します。

大量のビデオアーカイブを持つ企業は、音響効果の検出により、簡単にアクセシビリティを向上させることができます。この機能は、聴覚に障碍のあるユーザーに対してより多くのコンテキストを提供し、ビデオの文字起こしを非スピード効果で強化します。
メディア & エンターテイメントドメインでは、検出機能を使用すると、コンテンツ作成者の生データを作成するときの効率を向上させることができます。キャンペーンや予告編の重要な瞬間 (笑い声、群衆の反応、銃声、爆発など) は、音声効果の検出を使って識別することができます。
Public Safety > Justice ドメインでは、この機能を使用して、銃声、爆発、ガラスの粉々を検出して分類できます。スマートシティシステムや、カメラやマイクを含む他の公共環境に実装することで、暴力事件を迅速かつ正確に検出することができます。

サポートされているオーディオカテゴリ

オーディオ効果検出では、さまざまなカテゴリを検出して分類できます。次の表で、異なるカテゴリが異なるプリセットに分けられ、標準と高度に分けられていることがわかります。詳細については、価格に関するページを参照してください。

次の表では、プリセット名 (音声のみ / ビデオとオーディオまたは高度なオーディオ / 高度なビデオとオーディオ) に応じて、どのカテゴリがサポートされるかを示しています。 Advanced インデックス作成を使用している場合は、Web サイトの Insights ウィンドウにカテゴリが表示されます。

クラス	標準的なインデックス作成	高度なインデックス作成
群衆の反応		✔️
無音	✔️	✔️
銃声または爆発		✔️
ガラスの破砕音		✔️
アラームまたはサイレン		✔️
笑い声		✔️
犬		✔️
ベルが鳴る音		✔️
鳥		✔️
Car		✔️
エンジン		✔️
泣き声		✔️
音楽の再生		✔️
叫び声		✔️
雷雨		✔️

結果の形式

オーディオ効果は分析情報の JSON で取得されます。これには、カテゴリ ID、種類、およびカテゴリごとのインスタンスのセットと、特定の期間と信頼スコアが含まれます。

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

オーディオ効果のインデックスを作成する方法

オーディオ効果の検出を含めるようにインデックスプロセスを設定するには、以下に示すように、[動画 + オーディオのインデックス作成] メニューの [高度] なプリセットのいずれかを選択する必要があります。

オーディオ効果のインデックスを作成する画像

クローズドキャプション

クローズドキャプションファイルでオーディオ効果を取得すると、次の構造が角かっこで囲まれた状態で取得されます。

Type	例
SRT	00:00:00,000 00:00:03,671 [銃声または爆発]
VTT	00:00:00.000 00:00:03.671 [銃声または爆発]
TTML	信頼度: 0.9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[銃声または爆発]
CSV	0.9047,00:00:00.000,00:00:03.671, [銃声または爆発]

クローズドキャプションファイルのオーディオ効果は、次のロジックを使用して取得されます。

Silence イベントの種類はクローズドキャプションには追加されません。
イベントを表示する最小タイマー期間は 700 ミリ秒です。

クローズドキャプションファイルへのオーディオ効果の追加

オーディオ効果は、Azure AI Video Indexe でサポートされているクローズドキャプションファイルに追加できます。その場合、includeAudioEffects パラメーターで true を選択してビデオキャプションの取得 API を使用するか、[ダウンロード] ->[クローズドキャプション] ->[Include Audio Effects] (オーディオ効果を含める) の順に選択して、video.ai Web サイトエクスペリエンスを使用します。

Note

クローズドキャプションファイルからのトランスクリプトの更新、またはクローズドキャプションファイルからのカスタム言語モデルの更新を使用する場合、それらのファイルに含まれるオーディオ効果は無視されます。

制限事項と前提

オーディオ効果は、非セグメントにのみ存在する場合に検出されます。
このモデルは、大きなバックグラウンドミュージックがない場合に最適化されています。
オーディオの品質が低い場合、検出の結果に影響する可能性があります。
最小の非スピードセクション期間は 2 秒です。
反復的または直線的な周波数を特徴とする音楽は、誤ってアラームやサイレンと分類される可能性があります。
モデルは現在、自然で非合成の銃声と爆発音に最適化されています。
ドアのノックやドアを閉める音は、銃声や爆発音と誤ってラベルが付けられる可能性があります。
長時間の叫び声や人間の運動による音が誤って検出される可能性があります。
複数人の笑い声は、笑い声と群衆の反応の両方に分類される可能性があります。

次の方法で共有

オーディオ効果検出を有効にする (プレビュー)

サポートされているオーディオカテゴリ

結果の形式

オーディオ効果のインデックスを作成する方法

クローズドキャプション

クローズドキャプションファイルへのオーディオ効果の追加

制限事項と前提

フィードバック

フィードバック

その他のリソース

次の方法で共有

オーディオ効果検出を有効にする (プレビュー)

サポートされているオーディオ カテゴリ

結果の形式

オーディオ効果のインデックスを作成する方法

クローズド キャプション

クローズド キャプション ファイルへのオーディオ効果の追加

制限事項と前提

フィードバック

フィードバック

その他のリソース

サポートされているオーディオカテゴリ

クローズドキャプション

クローズドキャプションファイルへのオーディオ効果の追加