Share via


音訊效果偵測

重要

由於 Azure 媒體服務 淘汰公告,Azure AI 影片索引器會宣告 Azure AI 影片索引器功能調整。 請參閱 Azure 媒體服務 (AMS) 淘汰 的相關變更,以瞭解 Azure AI 影片索引器帳戶的意義。 請參閱準備AMS淘汰:VI更新和移轉指南

音訊效果偵測是 Azure AI 影片索引器功能,可偵測各種原音事件的深入解析,並將其分類為原音類別。 音訊效果偵測可以偵測和分類不同的類別,例如笑聲、人群反應、警報和/或警笛。

在網站上工作時,實例會顯示在 [深入解析] 索引卷標中。它們也可以在 JSON 檔案的分類清單中產生,其中包含類別識別碼、類型、名稱和每個類別的實例,以及特定時間範圍和信賴分數。

必要條件

檢閱 透明度附注概觀

一般準則

本文討論音訊效果偵測,以及負責任地使用這項技術的重要考慮。 決定如何使用和實作 AI 支援的功能時,需要考慮許多事項:

  • 此功能在我的案例中表現良好嗎? 將音訊效果偵測部署到您的案例之前,請先測試其如何使用實際數據執行,並確定它可以提供您需要的正確性。
  • 我們是否有能力識別和因應錯誤? AI 支援的產品和功能不會正確 100%,因此請考慮您將如何識別並回應可能發生的任何錯誤。

檢視深入解析

若要查看網站上的實例,請執行下列動作:

  1. 上傳媒體檔案時,請移至 [視訊 + 音訊索引],或移至 [僅限音訊] 或 [視訊 + 音訊],然後選取 [進階]。
  2. 上傳並編製索引檔案之後,請移至 [深入解析] 並捲動至音訊效果。

若要顯示 JSON 檔案,請執行下列動作:

  1. 選取 [下載 -> 深入解析] (JSON)。

  2. audioEffects將 專案複製到 下方insights,並將其貼到您的 Online JSON 查看器中。

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ],
    

若要透過 API 下載 JSON 檔案,請使用 Azure AI 影片索引器開發人員入口網站

音訊效果偵測元件

在音訊效果偵測程式中,會處理媒體檔案中的音訊,如下所示:

元件 定義
來源檔案 用戶上傳要編製索引的來源檔案。
分割 系統會分析音訊、識別非Peech音訊,然後分割成簡短的重疊內部。
分類 AI 程式會分析每個區段,並將其內容分類為事件類別,例如人群反應或笑聲。 然後會根據部門特定的規則,為每個事件類別建立機率清單。
信賴等級 每個音訊效果的估計信賴等級會計算為 0 到 1 的範圍。 信賴分數代表結果精確度的確定性。 例如,82% 的確定性會以 0.82 分數表示。

範例使用案例

  • 擁有大型視訊封存的公司可以藉由轉譯非語音效果,為聽力受損的觀眾提供更多內容來改善輔助功能。
  • 改善為內容建立者建立原始數據時的效率。 例如,在媒體和娛樂中,可以識別促銷和預告片中的重要時刻,例如笑聲、人群反應、槍聲或爆炸。
  • 在智慧城市系統或其他公共環境中偵測和分類槍聲、爆炸和玻璃碎裂,包括相機和麥克風,以提供快速和準確的暴力事件偵測。

選擇使用案例時的考慮和限制

  • 避免使用簡短或低品質的音訊,音訊效果偵測會在偵測到的非音速事件上提供概率和部分數據。 為了正確性,音訊效果偵測至少需要 2 秒的清除非音速音訊。 不支援語音命令或唱歌。  

  • 避免使用聲音背景音樂或具有重複和/或線性掃描頻率的音訊,音訊效果偵測是專為非音調音訊所設計,因此無法分類大聲音樂中的事件。 具有重複和/或線性掃描頻率的音樂,許多錯誤地分類為警報或警笛。

  • 仔細考慮執法和類似機構使用的方法,促進更準確的概率數據,仔細檢閱下列各項:

    • 音訊效果只能在非音速區段中偵測到。
    • 非Pespeech 區段的持續時間至少應為 2 秒。
    • 低品質音訊可能會影響偵測結果。
    • 大聲背景音樂中的事件並未分類。
    • 具有重複和/或線性掃描頻率的音樂可能會錯誤地分類為警報或警笛。
    • 敲門或猛擊門可能會被貼上槍聲或爆炸標籤。
    • 長時間的喊叫聲或身體努力的聲音可能不正確分類。
    • 一群笑的人可能被歸類為笑聲和人群。
    • 自然和非合成槍聲和爆炸聲音得到支援。

在負責任且謹慎地使用時,Azure AI 影片索引器是許多產業的寶貴工具。 若要尊重他人的隱私權和安全性,以及遵守當地和全球法規,我們建議下列各項:

  • 一律尊重個人的隱私權,並只針對合法和合理的目的內嵌音訊。  
  • 不要故意披露對年幼兒童或名人的家庭成員或其他內容可能有害或對個人個人自由構成威脅的不適當音訊。  
  • 致力於在分析音訊的設計和部署中尊重和促進人權。  
  • 使用第三方數據時,在發佈衍生自它們的內容之前,請注意任何現有的著作權或許可權。 
  • 使用來自未知來源的音訊時,請一律尋求法律建議。 
  • 請注意您區域中關於處理、分析和共用包含人員之音訊的任何相關法律或法規。 
  • 將人類保留在迴圈中。 請勿使用任何解決方案來取代人為監督和決策。  
  • 完整檢查並檢閱您用來瞭解其功能和限制的任何 AI 模型的潛力。