オーディオ効果検出を有効にする (プレビュー)
音響効果検出 は、Azure Video Indexer AI 機能の 1 つで、さまざまな音響イベントを検出し、それらをさまざまな音響カテゴリ (犬の鳴き声、群衆の反応、笑い声など) に分類するものです。
この機能が役立つシナリオを次にいくつか示します。
- 大量のビデオ アーカイブを持つ企業は、音響効果の検出により、簡単にアクセシビリティを向上させることができます。 この機能は、難聴の方により多くのコンテキストを提供し、音声以外の効果によるビデオの文字起こしを拡張することができます。
- [メディアとエンターテインメント] ドメインでは、コンテンツ制作者が生データを作成するときに、この検出機能によって効率を向上させることができます。 キャンペーンや予告編の重要な瞬間 (笑い声、群衆の反応、銃声、爆発など) は、音声効果の検出を使って識別することができます。
- [公安と司法] ドメインでは、この機能によって銃声、爆発、ガラスの粉砕を検出し分類することができます。 スマートシティ システムや、カメラやマイクを含む他の公共環境に実装することで、暴力事件を迅速かつ正確に検出することができます。
サポートされているオーディオ カテゴリ
オーディオ効果の検出 では、さまざまなカテゴリを検出して分類できます。 次の表では、さまざまなカテゴリが異なるプリセットに分割され、 Standard と Advanced に分割されています。 詳細については、価格に関するページを参照してください。
次の表は、 プリセット名 (オーディオのみ / ビデオ + オーディオとAdvance Audio / Advance Video + Audio) に応じてサポートされるカテゴリを示しています。 高度なインデックス作成を使用している場合は、Web サイトの [分析情報] ウィンドウにカテゴリが表示されます。
インデックス作成の種類 | 標準的なインデックス作成 | 高度なインデックス作成 |
---|---|---|
群衆の反応 | V | |
無音 | V | V |
銃声または爆発 | V | |
ガラスの破砕音 | V | |
アラームまたはサイレン | V | |
笑い声 | V | |
犬 | V | |
ベルリング | V | |
鳥 | V | |
Car | V | |
エンジン | V | |
泣いて | V | |
音楽の再生 | V | |
叫んで | V | |
雷雨 | V |
結果の形式
オーディオ効果は分析情報 JSON で取得されます。これには、カテゴリごとのインスタンスのカテゴリ ID、種類、セット、および特定の期間と信頼度スコアが含まれます。
audioEffects: [{
id: 0,
type: "Gunshot or explosion",
instances: [{
confidence: 0.649,
adjustedStart: "0:00:13.9",
adjustedEnd: "0:00:14.7",
start: "0:00:13.9",
end: "0:00:14.7"
}, {
confidence: 0.7706,
adjustedStart: "0:01:54.3",
adjustedEnd: "0:01:55",
start: "0:01:54.3",
end: "0:01:55"
}
]
}, {
id: 1,
type: "CrowdReactions",
instances: [{
confidence: 0.6816,
adjustedStart: "0:00:47.9",
adjustedEnd: "0:00:52.5",
start: "0:00:47.9",
end: "0:00:52.5"
},
{
confidence: 0.7314,
adjustedStart: "0:04:57.67",
adjustedEnd: "0:05:01.57",
start: "0:04:57.67",
end: "0:05:01.57"
}
]
}
],
オーディオ効果のインデックスを作成する方法
オーディオ効果の検出を含めるようにインデックス プロセスを設定するには、以下に示すように、[動画 + オーディオのインデックス作成] メニューの [高度] なプリセットのいずれかを選択する必要があります。
クローズド キャプション
閉じたキャプション ファイルでオーディオ効果を取得すると、次の構造の角かっこで囲まれて取得されます。
Type | 例 |
---|---|
SRT | 00:00:00,000 00:00:03,671 [銃声または爆発] |
VTT | 00:00:00.000 00:00:03.671 [銃声または爆発] |
TTML | 信頼度: 0.9047<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [銃声または爆発] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [銃声または爆発] |
クローズド キャプション ファイルのオーディオ効果は、次のロジックを使用して取得されます。
Silence
イベントの種類はクローズド キャプションには追加されません。- イベントを表示する最小タイマー時間は 700 ミリ秒です。
クローズド キャプション ファイルへのオーディオ効果の追加
オーディオ効果は、Azure Video Indexe でサポートされているクローズド キャプション ファイルに追加することができます。その場合、includeAudioEffects
パラメーターで true を選択してビデオ キャプションの取得 API を使用するか、[ダウンロード] ->[クローズド キャプション] ->[Include Audio Effects](オーディオ効果を含める) の順に選択して、video.ai Web サイト エクスペリエンスを使用します。
Note
閉じたキャプションファイルからの更新トランスクリプトを使用する場合、または閉じたキャプションファイルからカスタム言語モデルを更新する場合、それらのファイルに含まれるオーディオ効果は無視されます。
制限事項と前提
- 音声効果は、非音声セグメント内に存在する場合のみ検出されます。
- このモデルは、大きな音量のバックグラウンド ミュージックがない場合に最適化されています。
- オーディオの品質が低い場合、検出の結果に影響する可能性があります。
- 非音声セクションの最短継続時間は 2 秒です。
- 反復的または直線的な周波数を特徴とする音楽は、誤ってアラームやサイレンと分類される可能性があります。
- 現在、このモデルは自然の非合成の銃声と爆発音に最適化されています。
- ドアのノックやドアを閉める音は、銃声や爆発音と誤ってラベルが付けられる可能性があります。
- 長時間の叫び声や人間の運動による音が誤って検出される可能性があります。
- 複数人の笑い声は、笑い声と群衆の反応の両方に分類される可能性があります。
次のステップ
概要を確認する