說話者辨識

Azure AI 服務 - 語音服務說話者辨識提供演算法，可透過其獨特的語音特性來驗證和識別說話者。說話者辨識是用來回答「誰說話？」的問題。深入瞭解。

語音具有與個人相關聯的獨特性。我們提供說話者驗證 API 和說話者識別 API，適用於說話者辨識技術的兩個主要應用程式。

說話者驗證

說話者驗證可以是文字限定或非文字限定。文字限定驗證表示說話者需要在註冊和驗證階段期間選擇使用相同的複雜密碼。語音內容和語音簽章的驗證有助於多重要素驗證案例;與文字無關的驗證表示說話者可以在註冊和驗證片語中以日常語言說話。

文字相依說話者驗證

在說話者註冊階段中，說話者的語音會藉由說出來自一組預先定義片語的複雜密碼來錄製。語音功能會從音訊錄製中擷取，以形成唯一的語音簽章，同時辨識選擇的複雜密碼。一起，語音簽章和複雜密碼會用來驗證說話者。

在驗證階段中，與要驗證的個人相關聯的標識碼會傳送至說話者驗證 API。說話者驗證服務會從輸入語音錄製中擷取語音功能和複雜密碼。然後，它會比較語音功能和複雜密碼與對應說話者的註冊配置檔。

回應會傳回「接受」或「拒絕」，其相似度分數範圍從 0 到 1。「接受」或「拒絕」回應是結合說話者驗證結果和語音辨識結果的結果，而相似度分數只會測量語音相似度。當語音辨識結果符合註冊片語且語音相似度分數大於或等於0.5時，我們會傳回「接受」。不過，結果應該根據所使用的案例和其他驗證因素來決定。建議您對自己的數據進行實驗，並判斷您的臨界值，以視需要覆寫「接受」或「拒絕」回應。

在目前版本的文字相依說話者驗證 API 中，我們提供 10 個英文片語供說話者選擇。

我即將讓他成為他無法拒絕的供應專案。
我們有問題。
我的語音是我的 Passport 驗證我。
Apple 擷取在水果之後，會吃到水果。
您可以在沒有密碼的情況下登入。
您現在可以啟用安全性系統。
我的語音比密碼更強。
我的密碼不是您的公司。
我的名稱未知。
成為其他人已採用的自己」

您可以將個別的要求傳送至與文字無關的說話者驗證 API 和語音轉換文字 API，以建立您自己的複雜密碼。結合說話者驗證結果和語音辨識結果，您可以判斷說話者的身分識別。

API 的用途不是為了判斷音訊是來自實際人員，或是來自已註冊說話者的模擬或錄製內容。產生隨機片語，讓說話者讀取被視為有效，以防止重新執行攻擊。

文字獨立說話者驗證

說話者驗證也可以與文字無關，這表示說話者在音訊中顯示的內容沒有任何限制。

在註冊階段中，語音功能會從說話者的音訊中擷取，以形成唯一的語音簽章。

在驗證階段中，與要驗證的個人相關聯的音訊和標識符會傳送至說話者驗證 API。說話者驗證服務會從輸入語音錄製中擷取語音功能。然後，它會比較語音功能與對應說話者註冊配置檔中的語音簽章。

回應會傳回「接受」或「拒絕」，其相似度分數範圍從 0 到 1。當相似度分數大於或等於 0.5 時，會傳回「接受」回應。不過，結果應該根據所使用的案例和其他驗證因素來決定。建議您對自己的數據進行實驗，並判斷您的閾值，以視需要覆寫「接受」或「拒絕」回應。

API 的用途不是為了判斷音訊是來自實際人員，或是來自已註冊說話者的模擬或錄製內容。

說話者識別

說話者識別是決定一組候選演講者之間未知語音的身分識別的工作。說話者識別 API 會根據提供的標識碼清單，根據相似度分數傳回「最佳相符專案」清單。說話者識別 API 與文字無關，因為它不會比較註冊和辨識中所說的內容。

文字獨立說話者識別

說話者識別註冊與文字無關，這表示說話者在音訊中什麼都可以說。不需要複雜密碼。系統在註冊階段會錄下說話者的聲音，並擷取語音特徵以形成唯一的語音簽章。

在識別階段，說話者辨識服務會從輸入語音錄製擷取語音特徵。然後它會比較功能與指定說話者清單註冊數據中的語音簽章， (每個要求中最多 50 位候選演講者) 。回應包含一個已識別的標識碼，以及五個排名最上層標識碼，其相似度分數範圍從 0 到 1。識別的標識碼是根據最相符說話者的相似度分數來決定。如果沒有任何候選演講者傳回大於或等於 0.5 的相似度分數，回應會傳回零的字串，表示「找不到相符專案」。不過，結果應該根據您的案例和使用中的其他因素來決定。建議您試驗數據，並判斷您的閾值，以適當地覆寫預設的「比對或不相符」。