什麼是說話者辨識?

說話者辨識有助於判斷音訊剪輯中的說話者。 該服務可以透過語音辨識技術,以唯一語音特性來驗證和識別說話者。

您可以提供單一說話者的音訊訓練資料,以根據說話者聲音的唯一特性建立註冊設定檔。 然後,您可以針對此設定檔交叉檢查音訊語音範例,以驗證說話者是同一人 (說話者驗證)。 也可以對一組已註冊的說話者設定檔交叉檢查音訊語音範例,以查看其是否符合群組中的任何設定檔 (說話者辨識)。

重要事項

Microsoft 限制存取說話者辨識。 您可以透過 Azure 認知服務說話者辨識限制存取權檢閱來申請存取權。 如需詳細資訊,請參閱說話者辨識的受限存取權

說話者驗證

說話者驗證可利用複雜密碼或自由格式的語音輸入,簡化已註冊說話者身分識別的驗證程序。 例如,您可以將其用於客服中心或無接觸設施出入的客戶身分識別驗證。

說話者驗證如何運作?

下列流程圖提供運作方式的視覺效果:

顯示說話者驗證運作方式的流程圖。

說話者驗證可以是文字限定或非文字限定。 文字限定驗證表示說話者需要在註冊和驗證階段期間選擇使用相同的複雜密碼。 非文字限定驗證表示說話者可以在註冊和驗證階段期間使用日常用語。

針對文字限定驗證,說話者的語音會透過從一組預先定義的片語中說出複雜密碼來註冊。 語音特徵會從音訊錄製中擷取以形成唯一的語音簽章,而且可以辨識所選的複雜密碼。 語音簽章和複雜密碼會一起用來驗證說話者。

除了啟用使用中註冊時的初始啟用片語之外,與文字無關的驗證對說話者所說的內容沒有任何限制。 其對於要驗證的音訊範例沒有任何限制,因為該驗證只會擷取語音特徵來對相似性進行評分。

API 的用途不是為了判斷音訊是來自實際人員,或是來自已註冊說話者的模擬或錄製內容。

說話者識別

說話者辨識可協助您在一組已註冊的說話者中判斷不明說話者的身分識別。 說話者辨識可讓您將語音歸類為個別說話者所有,並從具有多位說話者的情況中發掘價值,例如:

  • 支援遠端會議生產力的解決方案。
  • 建立多使用者的裝置個人化。

說話者辨識如何運作?

說話者辨識的註冊與文字無關。 除了啟用使用中註冊時的初始啟用片語之外,說話者在音訊中顯示的內容沒有限制。 類似於說話者驗證,說話者的語音會在註冊階段錄製,然後擷取語音特徵以形成唯一的語音簽章。 在識別階段中,輸入語音範例會與指定的已註冊語音清單進行比較 (每個要求中最多 50 個語音)。

資料安全性和隱私權

說話者註冊資料儲存在安全的系統中,包括用於註冊的語音音訊和語音簽章特徵。 註冊的語音音訊只會在演算法升級時使用,而且需要再次擷取這些特徵。 服務不會保留在辨識階段傳送給服務的語音錄製或擷取的語音特徵。

您可以控制資料保留的時間長度。 您可以透過 API 呼叫來建立、更新,以及刪除個別說話者的註冊資料。 刪除訂閱後,與該訂閱相關聯的所有說話者註冊資料也會一併刪除。

和所有認知服務資源一樣,使用說話者辨識功能的開發人員必須了解 Microsoft 對於客戶資料的政策。 您應確保您已從使用者獲得適當權限。 您可以在說話者辨識的資料和隱私權中找到更多詳細資料。 如需詳細資訊,請參閱 Microsoft 信任中心的認知服務頁面

常見問題和解決方案

問題 解決方法
我在哪些情況下最有可能使用說話者辨識功能? 理想的範例包括客服中心的客戶驗證、語音式患者報到、會議轉錄,以及多使用者裝置個人化。
識別與驗證之間有何差異? 識別是偵測說話者群組中哪一位成員正在說話的程序。 驗證是確認說話者符合已知的已註冊語音的動作。
支援哪些語言? 請參閱說話者辨識語言支援
支援哪些 Azure 區域? 請參閱說話者辨識區域支援
支援哪種音訊格式? Mono 16 位元、16 kHz PCM 編碼的 WAV。
您可以多次註冊一個說話者嗎? 可以,針對文字限定驗證,您最多可以為使用者註冊 50 次。 針對非文字限定驗證或說話者辨識,您最多可以註冊 300 秒的音訊。
哪些資料會儲存在 Azure 中? 註冊音訊會儲存在服務中,直到刪除語音設定檔為止。 辨識音訊範例並不會保留或儲存。

後續步驟