開啟音訊效果偵測 (預覽)

重要

由於 Azure 媒體服務 淘汰公告,Azure AI 影片索引器會宣告 Azure AI 影片索引器功能調整。 請參閱 Azure 媒體服務 (AMS) 淘汰 的相關變更,以瞭解 Azure AI 影片索引器帳戶的意義。 請參閱準備AMS淘汰:VI更新和移轉指南

音訊效果偵測 是 Azure AI 影片索引器 AI 功能之一,可偵測各種聲場事件,並將其分類為不同的原音類別(例如狗叫、人群反應、笑聲等等)。

此功能很有用的一些案例:

  • 擁有一組大型視訊封存的公司可以輕鬆地透過音訊效果偵測來改善輔助功能。 此功能為聽力困難的人提供更多內容,並增強具有非音速效果的視訊轉譯。
  • 在媒體和娛樂網域中,偵測功能可以在為內容建立者建立原始數據時提升效率。 宣傳片和預告片中的重要時刻(如笑聲、人群反應、槍聲或爆炸)可以使用音訊效果偵測識別。
  • 在公共 保管庫 和司法領域,此功能可以偵測和分類槍聲、爆炸和玻璃碎裂。 它可以在智慧城市系統或其他公共環境中實作,包括相機和麥克風,以提供快速和準確的暴力事件偵測。

支援的音訊類別

音訊效果偵測 可以偵測並分類不同的類別。 在下表中,您可以找到不同的類別分割成不同的預設值,並分割為標準和進階。 如需詳細資訊,請參閱定價

下表顯示根據預設名稱支援哪些類別僅限音訊視 / 訊 + 音訊進階音訊進階視 / 訊 + 音訊)。 當您使用進 索引編製時,類別會出現在 網站的 [深入解析 ] 窗格中。

類別 標準索引編製 進階索引
人群反應 ✔️
沉默 ✔️ ✔️
槍聲或爆炸 ✔️
碎玻璃 ✔️
警報或警笛 ✔️
笑聲 ✔️
✔️
鐘聲 ✔️
小鳥 ✔️
Car ✔️
引擎 ✔️
✔️
播放音樂 ✔️
尖叫 ✔️
雷暴 ✔️

結果格式

音訊效果會在深入解析 JSON 中擷取,其中包含每個類別的類別標識碼、類型和一組實例,以及其特定時間範圍和信賴分數。

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

如何編製音訊效果的索引

若要設定索引程式以包含音訊效果的偵測,請選取 [視訊 + 音訊索引] 功能表下的其中一個 [進階預設值],如下所示。

索引音訊效果影像

隱藏式輔助字幕

當關閉的 標題 檔案中擷取音訊效果時,會以方括弧擷取下列結構:

類型 範例
Srt 00:00:00,000 00:00:03,671
[槍聲或爆炸]
VTT 00:00:00.000 00:00:03.671
[槍聲或爆炸]
TTML 信賴度:0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [槍聲或爆炸]
CSV 0.9047,00:00:00.000,00:00:03.671,[槍聲或爆炸]

封閉式 標題 檔案中的音訊效果會使用下列邏輯來擷取:

  • Silence事件類型不會新增至關閉的 標題。
  • 顯示事件的定時器持續時間下限為700毫秒。

在封閉 標題 檔案中新增音訊效果

您可以透過取得影片 標題 API,或透過選取 [下載> - 隱藏式輔助字幕 -> 包含音訊效果] 來選擇 trueincludeAudioEffects,或透過 video.ai 網站體驗,將音訊效果新增至 Azure AI 影片索引器支援的封閉式 標題 檔案。

CC 中的音訊效果

注意

使用關閉 標題 檔案的更新文字記錄,或從關閉 標題 檔案更新自定義語言模型時,會忽略這些檔案中包含的音訊效果。

限制和假設

  • 只有在非peech 區段中出現時,才會偵測到音訊效果。
  • 此模型已針對沒有響亮背景音樂的情況進行優化。
  • 低品質音訊可能會影響偵測結果。
  • 最小非peech 區段持續時間為2秒。
  • 具有重複和/或線性掃描頻率特徵的音樂,可能會錯誤地分類為警示或警笛。
  • 該模型目前已針對自然和非合成槍聲和爆炸聲進行優化。
  • 門敲門和門擊有時被錯誤地貼上槍聲和爆炸標籤。
  • 長時間的喊叫聲和人類身體努力的聲音有時會被錯誤地偵測到。
  • 一群人笑有時可以歸類為笑聲和人群反應。