分享方式:


使用 Microsoft 音訊堆疊進行音訊處理

Microsoft 音訊堆疊是一組針對語音處理案例最佳化的增強功能。 這包括關鍵字辨識和語音辨識之類的範例。 其由各種可操作輸入音訊信號的增強/元件所組成:

  • 噪音抑制 - 降低背景噪音的等級。
  • 波束成形 - 將音效的起源當地語系化,並使用多個麥克風將音訊信號最佳化。
  • 消除迴響 -減少從環境中的表面反射聲音。
  • 聲場回音消除 - 在麥克風輸入作用中時抑制裝置現正播放的音訊。
  • 自動取得控制 - 動態調整人員的聲音等級,以說明柔和的喇叭、長距離或非校正的麥克風。

Microsoft 音訊堆疊增強功能的方塊圖。

不同的案例和使用案例可能需要不同的最佳化,其會影響音訊處理堆疊的行為。 例如,在電信案例 (例如電話通話) 中,於套用處理之後,可接受音訊信號中有輕微的失真。 這是因為人們可以繼續了解具有高正確性的語音。 不過,一個人在回音中聽到自己的聲音是不可接受的且會引起混亂。 這與語音處理案例相反,其中失真的音訊可能會對機器學習的語音辨識模型的正確性造成負面影響,但可以接受次等級的回音殘留。

在使用語音 SDK 的本機上,會完整地執行處理。 沒有任何音訊資料會串流至 Microsoft 的雲端服務,以供 Microsoft 音訊堆疊處理。 唯一的例外是交談轉譯服務,其中原始音訊會傳送至 Microsoft 的雲端服務進行處理。

Microsoft 音訊堆疊也為廣泛的 Microsoft 產品提供支援:

  • Windows - 使用語音音訊類別時,Microsoft 音訊堆疊是預設的語音處理管線。
  • Microsoft Teams 顯示裝置和 Microsoft Teams 會議室裝置 - Microsoft Teams 顯示裝置和 Teams 會議室裝置會使用 Microsoft 音訊堆疊,以使用 Cortana 啟用高品質的免持聽筒語音體驗。

語音 SDK 整合

語音 SDK 會整合 Microsoft 音訊堆疊 (MAS),讓任何應用程式或產品都可以在輸入音訊上使用其音訊處理功能。 可透過語音 SDK 取得的一些重要 Microsoft 音訊堆疊功能包括:

  • 即時麥克風輸入和檔案輸入 - Microsoft 音訊堆疊處理可應用於即時麥克風輸入、串流和檔案型輸入。
  • 精選的增強功能 - 為了讓您能夠完全掌控您的案例,SDK 可讓您停用個別的增強功能,例如消除迴響、噪音抑制、自動取得控制,以及聲場回音消除。 例如,如果您的案例不包含需要從輸入音訊中抑制的轉譯輸出音訊,您可以選擇停用聲場回音消除。
  • 自訂麥克風幾何 - 除了支援線性雙麥克風、線性四麥克風和循環 7 麥克風陣列之類的預設幾何以外,SDK 還可讓您提供自己的自訂麥克風幾何資訊 (請在麥克風陣列建議中參閱所支援預設幾何的詳細資訊)。
  • 波束成形角度 - 系統可以提供特定的波束成形角度,以最佳化源自預先決定位置 (相對於麥克風) 的音訊輸入。

使用 Microsoft 音訊堆疊的最低需求

符合下列需求的任何產品或應用程式都可以使用 Microsoft 音訊堆疊:

  • 原始音訊 - Microsoft 音訊堆疊需要原始 (未處理) 音訊作為輸入,以產生最佳結果。 提供已處理的音訊會限制音訊堆疊執行高品質增強功能的能力。
  • 麥克風幾何 - 需要有關裝置上每個麥克風的幾何資訊,才能正確地執行 Microsoft 音訊堆疊所提供的所有增強功能。 資訊包括麥克風數目、其實體排列和座標。 最多支援 16 個輸入麥克風頻道。
  • 回送或參考音訊 - 代表從裝置播放音訊的音訊頻道需要執行聲場回音消除。
  • 輸入格式 - Microsoft 音訊堆疊支援對 16 kHz 整數倍的取樣率進行向下取樣。 至少需要 16 kHz 的取樣率。 此外,也支援下列格式:32 位元 IEEE 位元組由小到大浮點數、32 位元的位元組由小到大帶正負號整數、24 位元的位元組由小到大帶正負號整數、16 位元的位元組由小到大帶正負號整數,以及 8 位元的位元組由小到大帶正負號整數。