オーディオ効果検出を有効にする (プレビュー)
音響効果検出 は、Azure Video Indexer AI 機能の 1 つで、さまざまな音響イベントを検出し、それらをさまざまな音響カテゴリ (犬の鳴き声、群衆の反応、笑い声など) に分類するものです。
この機能が役立つシナリオを次にいくつか示します。
- 大量のビデオ アーカイブを持つ企業は、音響効果の検出により、簡単にアクセシビリティを向上させることができます。 この機能は、難聴の方により多くのコンテキストを提供し、音声以外の効果によるビデオの文字起こしを拡張することができます。
- [メディアとエンターテインメント] ドメインでは、コンテンツ制作者が生データを作成するときに、この検出機能によって効率を向上させることができます。 キャンペーンや予告編の重要な瞬間 (笑い声、群衆の反応、銃声、爆発など) は、音声効果の検出を使って識別することができます。
- [公安と司法] ドメインでは、この機能によって銃声、爆発、ガラスの粉砕を検出し分類することができます。 スマートシティ システムや、カメラやマイクを含む他の公共環境に実装することで、暴力事件を迅速かつ正確に検出することができます。
サポートされているオーディオ カテゴリ
オーディオ効果検出では、7 種類のカテゴリを検出して分類できます。 次の表で、異なるカテゴリが異なるプリセットに分けられ、標準と高度に分けられていることがわかります。 詳細については、価格に関するページを参照してください。
インデックス作成の種類 | 標準的なインデックス作成 | 高度なインデックス作成 |
---|---|---|
プリセット名 | "オーディオのみ" "ビデオとオーディオ" |
"高度なオーディオ" "高度なビデオとオーディオ" |
分析情報ペインに表示 | V | |
群衆の反応 | V | |
無音 | V | V |
銃声または爆発 | V | |
ガラスの破砕音 | V | |
アラームまたはサイレン | V | |
笑い声 | V | |
犬の鳴き声 | V |
結果の形式
オーディオ効果は分析情報の JSON で取得されます。これには、カテゴリ ID、種類、名前、およびカテゴリごとのインスタンスのセットと、特定の期間と信頼スコアが含まれます。
name
パラメーターは JSON のインデックスが作成された言語で表示されますが、種類は常に同じままです。
audioEffects: [{
id: 0,
type: "Gunshot or explosion",
name: "Gunshot",
instances: [{
confidence: 0.649,
adjustedStart: "0:00:13.9",
adjustedEnd: "0:00:14.7",
start: "0:00:13.9",
end: "0:00:14.7"
}, {
confidence: 0.7706,
adjustedStart: "0:01:54.3",
adjustedEnd: "0:01:55",
start: "0:01:54.3",
end: "0:01:55"
}
]
}, {
id: 1,
type: "CrowdReactions",
name: "Crowd Reactions",
instances: [{
confidence: 0.6816,
adjustedStart: "0:00:47.9",
adjustedEnd: "0:00:52.5",
start: "0:00:47.9",
end: "0:00:52.5"
},
{
confidence: 0.7314,
adjustedStart: "0:04:57.67",
adjustedEnd: "0:05:01.57",
start: "0:04:57.67",
end: "0:05:01.57"
}
]
}
],
オーディオ効果のインデックスを作成する方法
オーディオ効果の検出を含めるようにインデックス プロセスを設定するには、以下に示すように、[動画 + オーディオのインデックス作成] メニューの [高度] なプリセットのいずれかを選択する必要があります。
クローズド キャプション
オーディオ効果は、クローズド キャプション ファイルで取得される際に、角かっこで囲まれて取得されます。その構造は次のとおりです。
Type | 例 |
---|---|
SRT | 00:00:00,000 00:00:03,671 [銃声または爆発] |
VTT | 00:00:00.000 00:00:03.671 [銃声または爆発] |
TTML | 信頼度: 0.9047<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [銃声または爆発] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [銃声または爆発] |
クローズド キャプション ファイルのオーディオ効果は、次のロジックを使用して取得されます。
Silence
イベントの種類はクローズド キャプションに追加されません- イベントを表示する最大期間 I 5 秒
- イベントを表示する最小タイマー期間は 700 ミリ秒です
クローズド キャプション ファイルへのオーディオ効果の追加
オーディオ効果は、Azure Video Indexe でサポートされているクローズド キャプション ファイルに追加することができます。その場合、includeAudioEffects
パラメーターで true を選択してビデオ キャプションの取得 API を使用するか、[ダウンロード] ->[クローズド キャプション] ->[Include Audio Effects](オーディオ効果を含める) の順に選択して、video.ai Web サイト エクスペリエンスを使用します。
Note
クローズド キャプション ファイルからのトランスクリプトの更新、またはクローズド キャプション ファイルからのカスタム言語モデルの更新を使用する場合、それらのファイルに含まれるオーディオ効果は無視されます。
制限事項と前提
- 音声効果は、非音声セグメント内に存在する場合のみ検出されます。
- このモデルは、大きな音量のバックグラウンド ミュージックがない場合に最適化されています。
- オーディオの品質が低い場合、検出の結果に影響する可能性があります。
- 非音声セクションの最短継続時間は 2 秒です。
- 反復的または直線的な周波数を特徴とする音楽は、誤ってアラームやサイレンと分類される可能性があります。
- 現在、このモデルは自然の非合成の銃声と爆発音に最適化されています。
- ドアのノックやドアを閉める音は、銃声や爆発音と誤ってラベルが付けられる可能性があります。
- 長時間の叫び声や人間の運動による音が誤って検出される可能性があります。
- 複数人の笑い声は、笑い声と群衆の反応の両方に分類される可能性があります。
次のステップ
概要を確認する