共用方式為


透明度資訊: 文字轉換語音

這很重要

非英文翻譯僅供方便使用。 請參閱 EN-US 版本,以取得具約束力的版本。

什麼是透明度資訊?

AI 系統不僅包括技術,還包括將使用該技術的人員、將受其影響的人員,以及部署所在的環境。 建立適合其預期用途的系統,需要了解技術的運作方式、其功能和限制為何,以及如何達到最佳效能。 Microsoft 的透明度資訊目的在協助您了解 AI 技術的運作方式、系統擁有者可能會影響系統效能和行為的選擇,以及考慮整個系統的重要性,包括技術、人員和環境。 您可以在開發或部署自己的系統時使用透明度附註,或與將使用或受到系統影響的人員共用。

Microsoft 努力將 AI 原則付諸實踐,而 Microsoft 的透明度資訊則是其中的一部分。 若要深入瞭解,請參閱 Microsoft AI 原則

文字到語音轉換的基本概念

簡介

文字到語音轉換是 Azure AI 語音的一部分,是一種多功能工具,可將書面文字轉換成自然語音音訊。 此功能會採用文字形式的輸入,併產生可在裝置上播放的高品質語音音訊輸出。 針對語音音訊輸出,文字到語音轉換提供一系列預先建置的神經語音,或針對有限存取客戶,為產品或品牌建立自定義神經語音的選項。

文字到語音轉換也有視覺功能。 客戶可以使用文字到語音轉換虛擬人偶來輸入文字,並建立虛擬人偶說話的合成影片。 預先建置的文字到語音虛擬人偶和自定義文字到語音虛擬人偶都可以使用,這可以搭配預先建置的神經語音和自定義神經語音使用,不過有些功能僅適用於有限的 Access 客戶。

在文字到語音轉換系統中,客戶可以將書面資訊轉換成可聽見的語音,並改善用戶的輔助功能。 無論是使用合成語音來聆聽檔或增強用戶體驗,文字到語音轉換文字會轉換成自然發音的口語。

重要詞彙

字詞 定義
實時語音合成 使用 語音 SDKREST API ,使用 預先建置的神經語音預先建置的文字轉換成語音虛擬人偶自定義神經語音,以及 將自定義文字轉換成語音虛擬人偶
語音模型 在文字到語音轉換系統中,語音模型是指從書面文字產生綜合語音的機器學習模型或演算法。 此模型經過定型,可將文字輸入轉換成口語輸出,模擬人類語音的特性,包括音調、音調和發音。
韻律 重音是指對於語音元素的調節,例如音調、持續時間、音量和停頓,藉此將自然且具表達力的品質注入合成聲音,傳達出情感上的細微差別與情境意義,從而降低產生出的語音的機械感,使其更具吸引力且更易於聽眾理解。
語音合成標記語言 (“SSML”) 語音合成標記語言(SSML)是基於XML的標記語言,可用來自訂文字到語音的輸出。 使用 SSML 時,您可以調整音高、加入停頓、改善發音、變更說話速度、調整音量,以及將多個聲音屬性設至單一文件。 您可以使用 SSML,定義自己的語彙或切換為不同的說話風格。
長音訊的異步合成 使用 批次合成 API (預覽) 以異步方式將文字合成為長達 10 分鐘以上的語音檔案(例如,音訊書籍或講座)。 與透過語音 SDK 或語音轉換文字 REST API 所執行的合成不同的是,回應不會即時傳回。 預期是非同步發送請求、輪詢回應並在服務可用時下載合成音訊。
發音嘴型 發音嘴型為語音觀察到的關鍵姿勢,包括在發出特定的音位時,嘴唇、下顎與舌頭的位置。 發音嘴型與語音和音素有密切的關聯。

簡介

預先建置的神經語音涵蓋廣泛的語音選擇,提供超過 400 個選項,支援超過 140 種語言和地區設定。 這些文字轉語音技術可讓您快速將朗讀功能整合到您的應用程式中,以增強無障礙功能。

重要詞彙

字詞 定義
預建神經語音 Microsoft提供一組預先建置的神經語音,其使用深度神經網路來克服傳統語音合成在口語中壓力和語調的限制。 韻律預測和語音合成會同時發生,進而產生更流暢且自然發音的輸出。 每個預先建置的神經語音模型都可在 24kHz 和高逼真度 48kHz 使用,而且輸出可以向上取樣或向下取樣至其他格式。

能力

系統行為

將文字轉換成語音

文字到語音轉換會將文字轉換成自然語音。

以下是啟動文字轉語音服務的主要選項。

即時文字到語音轉換 API

這是透過 語音 SDKREST API 來傳送文字輸入並即時接收音訊輸出的常見 API 呼叫。 語音系統會使用文字到語音轉換語音模型,將文字轉換成類似人為的合成語音。 輸出音訊可以儲存為檔案,或播放回喇叭等輸出裝置(深入瞭解 如何從文字合成語音)。 使用者也可以使用 SSML 來微調文字到語音輸出。

文字轉換語音模型會使用涵蓋一般使用案例和各種演講者的大量多樣化音訊進行訓練。 例如,文字到語音轉換服務通常用於啟用語音的聊天機器人或音訊內容建立。

批次合成 API

批次合成是另一種類型的 API 呼叫。 它通常用來傳送大型文本檔,並以異步方式接收音訊輸出(也就是稍後)。 若要使用此 API,您可以指定多個文字檔案的位置。 文字轉語音技術會從檔案中讀取文字輸入,並產生音訊檔案,這些檔案會傳送回您指定的儲存位置。 這項功能可用來支援較大的語音合成工作,因此不需要即時提供使用者音訊輸出。 範例是建立音訊書籍。

文字到語音轉換 – 自定義神經語音

自訂神經語音是個文字轉換語音功能,可讓有限存取客戶藉由提供客戶所選語音配音員自己的音訊資料,為其應用程式建立獨特的自訂合成語音。

使用自訂神經語音,您可以讓您的配音員在 Speech Studio 中朗讀 Microsoft 提供的腳本並進行錄製,使用精簡專案 (預覽),快速建立聽起來像是您語音配音員的合成語音。 精簡版專案非常適合快速試用或概念證明。

透過專業計劃,您可以上傳所選語音人才在錄音室錄製的高品質語音資料,並建立出逼真的聲音。 Pro 支援高度自然的語音訓練,能更貼近您語音配音員的聲音,並可適應多種情緒和語言的對話,而不需要額外的情緒或語言特定的訓練資料。

建立自定義神經語音之後,您可以使用唯一端點來部署語音模型,並使用模型搭配即時合成 API 或上述批次合成 API 來產生合成語音。

如需自定義神經語音的詳細資訊,請參閱 自定義神經語音概觀

個人語音

個人語音功能可讓有限存取客戶從簡短的人類語音範例建立語音模型。 此功能可以在幾秒鐘內根據提示建立語音模型。 此功能通常用於為商務客戶的應用程式提供個人化的語音體驗。 個人語音模型可以建立逼真的聲音,可以使用接近100種語言進行對話。

浮水印會新增至使用個人語音功能建立的自訂神經語音。 浮浮水印可讓使用者辨識語音是否使用 Azure AI 語音合成,特別是使用哪個語音。 合格的客戶可以使用 Azure AI 語音水印偵測功能。 若要要求將浮水印偵測新增至您的應用程式,請連絡 mstts[at]microsoft.com

如需個人語音的詳細資訊,請參閱 個人語音

文字轉換語音虛擬人偶

文字轉換語音虛擬人偶會將文字轉換成擁有自然聲音的寫實人類的數位影音 (可選用預設或自訂虛擬人偶),並透過如預建的神經語音或自訂神經語音等的文字轉換語音功能來驅動。 文字轉換語音虛擬人偶影片可以非同步或即時合成。 開發人員可以透過 API 建立與文字轉換語音虛擬人偶整合的應用程式,或使用 Speech Studio 上的內容建立工具來建立影片內容,而無需進行編碼。

透過文字轉語音虛擬人像的進階類神經網路模型,此功能可讓使用者為各種應用程式提供逼真且高品質的合成虛擬人像對話影片。

文字到語音轉換虛擬人偶採用內容證明和真實性聯盟(C2PA)標準,為觀眾提供更清楚地瞭解虛擬人偶所建立之影片內容的來源和歷程記錄。 此標準提供 AI 產生影片內容的透明資訊。 如需 C2PA 與語音轉換虛擬人偶整合的詳細資訊,請參閱 Azure 文字到語音虛擬人偶中的內容認證

此外,頭像輸出會自動加上浮水印。 浮浮水印可讓核准的用戶識別是否使用 Azure AI 語音的虛擬人偶功能合成影片。 若要要求浮水印偵測,請連絡 avatarvoice[at]microsoft.com

影片翻譯 (預覽版)

視訊翻譯可以有效地本地化您的影片內容,以滿足世界各地的不同觀眾。 視訊翻譯將自動擷取對話音訊,將其轉錄與翻譯,再以預設或個人化語音轉製成目標語言的音軌,並提供精確的字幕,以提高易用性。 多說話者功能將有助於識別說話的個人數目,並建議合適的語音。 在迴圈中使用人類進行內容編輯,可讓您精確配合客戶的喜好設定。 增強的翻譯品質可確保音訊和視訊與 GPT 整合後的精確對齊。 影片翻譯可讓您使用個人語音進行真實和個人化的配音體驗。

使用案例

文字到語音轉換提供各種功能,可跨產業和領域提供各種預定用途。 包括視訊翻譯在內的所有語音轉換功能都受限於客戶 Azure 訂用帳戶適用的條款和條件,包括 Azure 可接受的使用原則和 Azure AI 語音文字到語音的規範

此外,自定義文字到語音轉換功能,例如自定義神經語音、個人語音,以及自定義文字到語音轉換虛擬人偶,僅限於已核准的使用案例,如下列特定案例所述:

自定義類神經語音專業版和精簡版的用途

以下是自定義類神經語音 Pro 和自定義類神經語音精簡版的已核准使用案例:

  • 教育或互動式學習:用以建立虛構品牌或角色的聲音風格,以便閱讀或講述教材、在線學習、互動課程規劃、模擬學習或博物館導覽。
  • 媒體: 娛樂: 為電動遊戲、電影、電視、錄製的音樂、播客、有聲書、擴增實境或虛擬實境,創造一個虛構的品牌或角色語音來閱讀或說出娛樂內容。
  • 媒體: 行銷: 建立虛構的品牌或角色語音來閱讀或說出行銷和產品或服務媒體、產品簡介、商務促銷或廣告。
  • 自行撰寫的內容: 建立用於閱讀語音配音員所撰寫的內容的聲音。
  • 無障礙功能: 音訊描述系統和旁白用途,包括任何虛構品牌或角色語音,或促進語音障礙人士有效溝通。
  • 互動式語音回應 (IVR) 系統: 建立語音,包括任何虛構的品牌或角色語音,以用於客服中心作業、電話系統或電話互動回應。
  • 公共服務與資訊公告:建立虛構品牌或字元語音來傳達公共服務資訊,包括公共場所的公告,或用於交通、天氣、事件資訊和排程等信息廣播。 此使用案例不適用於新聞或新聞內容。
  • 翻譯和當地語系化:用於翻譯應用程式中,以不同語言翻譯交談或翻譯音訊媒體。
  • 虛擬助理或聊天機器人: 為虛擬網路助理、設備、汽車、家電、玩具、IoT 裝置的控制、導覽系統、朗讀個人訊息、虛擬同伴或客戶服務案例,建立虛構的品牌或角色語音。

個人語音的預期用途

個人語音 API(如需詳細資訊,請參閱 個人語音 )可在有限存取預覽中取得。 只有符合有限存取資格準則的客戶才能將個人語音 API 與其應用程式整合。 這些合格的客戶只能針對下列使用案例使用個人語音:

  • 應用程式: 用於客戶限制和定義語音輸出的應用程式,以及語音不會讀取使用者產生的或開放式內容的應用程式。 語音模型使用方式必須保留在應用程式內,而且輸出不得從應用程式發佈或共用。 符合此描述的一些應用程式範例是智慧型手機中的語音助理,以及自定義遊戲中的字元語音。
  • 媒體、電影和電視:僅在娛樂方面為電影、電視、視訊和音訊進行配音,客戶掌握唯一的控制權來建立、存取和使用語音模型及其輸出。
  • 商務內容:建立商務案例的音訊和視訊內容,以傳達產品資訊、行銷材料、商務促銷內容,以及內部商務通訊。
  • 特別使用,並搭配視訊翻譯:為視訊中的每個喇叭合成語音。 客戶也可以使用目標語言來編輯和產生口唇同步的音訊內容。 客戶在此情況下無需向 Microsoft 提交額外的視訊內容音訊同意,但客戶必須完全控制語音模型及其輸出的創建、存取和使用。

禁止所有其他使用自定義神經語音,包括自定義神經語音專業版、自定義神經語音精簡版和個人語音。 此外,自定義神經語音是有限的存取服務,而且需要註冊才能存取此服務。 若要深入瞭解Microsoft的有限存取原則,請參閱 Azure AI 服務的有限存取功能。 某些功能僅適用於Microsoft受控客戶和合作夥伴,且僅適用於註冊時Microsoft核准的特定使用案例。

預先建置的神經語音也可用於上述自定義神經語音使用案例,以及客戶選取的其他使用案例,並與 Azure 可接受的使用原則和 Azure AI 語音文字到語音的規範一致。 針對符合所有適用條款和條件的額外使用案例,不需要註冊或預先核准即可使用預先建置的神經語音。

影片翻譯的預期使用案例(預覽)

視訊翻譯可用於電影、電視和其他視覺效果(包括但不限於視訊或動畫)和音訊應用程式,客戶完全控制語音模型及其輸出的建立、存取和使用。 個人語音和唇部同步處理受限於有限的存取架構,且合格的客戶可以使用這些功能搭配視訊翻譯。 以下是影片翻譯服務的已核准使用案例:

  • 教育與學習:為多語系學習者翻譯教育素材中的音頻,包括在線課程、訓練模組、模擬式學習或引導式博物館導覽視覺資料的翻譯。 
  • 媒體:娛樂:為全球觀眾翻譯電影、電影、電視節目、紀錄片、視頻遊戲、迷你系列、短劇和AR/VR內容,確保跨語言順暢地講故事。 
  • 媒體:行銷:在促銷視覺效果、產品示範、廣告和品牌活動中翻譯音訊,以與國際市場和文化產生共鳴。 
  • Self-Authored 內容:在 vlog、短格式視覺效果、網紅內容、旅遊指南、目的地促銷影片、社交媒體視覺效果和文化亮點影片中翻譯音訊,使其易於取得並且具有吸引力。 
  • 公司訓練與通訊:翻譯內部通訊視覺內的音訊、員工入職材料、合規性訓練,以及國際團隊的全球公司公告。 
  • 電子商務與產品示範: 在產品開箱視覺效果、教學課程、客戶證詞和解釋視覺效果中翻譯音訊,以迎合國際購物者。 
  • 公共服務和資訊公告:將公眾意識視覺效果、活動行程、安全公告和政府資訊廣播中的音訊內容翻譯成多種語言,以提高多語言可及性。 
  • 輔助功能:透過多語言音訊和字幕擴大影片內容的可及性。
  • 新聞和新聞內容:為各種語言觀眾翻譯新聞片段、採訪、新聞稿和突發新聞報導。 想要翻譯新聞來源的客戶將需要額外的檢閱。

自定義文字轉語音虛擬人偶及預建文字轉語音虛擬人偶的用途

以下是自定義文字到語音虛擬人偶的已核准使用案例:

  • 虛擬助理或聊天機器人:若要建立虛擬助理、虛擬同伴、虛擬銷售助理,或用於客戶服務應用程式。
  • 企業內容的內容產生:用於傳達產品資訊、行銷材料、商務促銷內容,以及內部商務通訊。 範例包括企業領導者的角色虛擬形象或數位雙胞胎,用以推廣品牌。
  • 教育或互動式學習:建立虛構品牌或人物虛擬人偶來呈現教材、在線學習、互動式課程計劃、模擬學習或引導式博物館旅遊。
  • 媒體:娛樂:呈現更新、分享知識、建立互動式媒體,或針對影片、遊戲和擴增或虛擬實境等娛樂案例製作交談頭視頻。
  • 輔助功能功能:用於促進語音障礙人士的通訊。
  • 自我撰寫的內容:創建虛擬角色,以便閱讀虛擬角色才能撰寫的內容。
  • 公共服務與資訊公告:建立虛構的品牌或字元影像來傳達公共服務資訊,包括公共場所的公告,或用於交通、天氣、事件資訊和排程等信息廣播。 此使用案例不適用於新聞或新聞內容。
  • 翻譯和當地語系化:用於翻譯應用程式中,以不同語言翻譯交談,或以視訊格式翻譯音訊媒體。

禁止所有其他使用自訂文字轉換語音虛擬人偶。 此外,自定義文字到語音虛擬人偶是有限的存取服務,而且需要註冊才能存取此功能。 若要深入瞭解Microsoft的有限存取原則,請 流覽 aka.ms/limitedaccesscogservices。 某些功能僅適用於Microsoft受控客戶和合作夥伴,且僅適用於註冊時Microsoft核准的特定使用案例。

預先建置的文字到語音轉換虛擬人偶也可用於上述自定義虛擬人偶使用案例,以及客戶選取的其他使用案例,並與 Azure AI 語音文字到語音轉換的 Azure 可接受的使用原則和行為規範一致。 對於符合所有適用條款和條件的預建文字轉語音虛擬人偶的額外使用案例,不需要註冊或預先核准。

選擇使用案例時的考慮

我們鼓勵客戶在其創新解決方案或應用程式中使用文字到語音功能。 所有文字到語音轉換功能都必須遵守 Azure 可接受的使用原則,以及 Azure AI 語音文字到語音轉換的行為規範。 此外,自定義神經語音和自定義文字到語音轉換虛擬人偶只能用於透過 有限存取註冊表單核准的使用案例。 此外,對於任何文字到語音轉換功能選擇使用案例時,以下是一些考慮:

  • 確定使用案例對齊:確定任何文字到語音功能的預期用途與文字到語音功能的功能和預定用途一致。
  • 負責任 AI 考慮:藉由避免建立誤導性或有害內容,排定負責任 AI 做法的優先順序。 使用文字到語音功能時,遵守隱私權、數據保護和法律法規。
  • 檢閱行為準則:Microsoft已建立一項行為準則,禁止以特定方式使用所有文字轉語音功能。 選取文字到語音服務的使用案例時,請確定符合行為規範。
  • 練習編輯控制:仔細考慮使用合成語音與缺乏適當編輯控制的內容,因為合成聲音可以聽起來類似人類,並放大不正確或誤導內容的效果。
  • 披露:向使用者披露語音、影像和/或視頻的合成性質,以避免使用者被誤導或惡作劇他人,讓他們誤以為在與真實人物互動。
  • 法律和法規考慮:組織在使用任何 AI 服務和解決方案時,必須評估潛在的特定法律和法規義務,而這可能不適用於每個產業或案例。 此外,AI 服務或解決方案並非針對 所設計,而且不得以適用的服務條款和相關行為規範禁止的方式使用。

藉由遵守這些考慮,用戶可以負責任地運用預先建置和自定義神經語音。

局限性

在技術與影響其使用方式和影響的人、社會和組織因素交集時,應考慮文字到語音轉換的限制。 雖然文字到語音轉換提供進階語音合成功能,但在部署語音轉換時有一定限制,以將潛在的錯誤降到最低。

技術限制、操作因素和範圍

使用文字到語音轉換時要考慮的技術限制包括發音和語調的正確性。 雖然文字到語音轉換是設計來產生自然語音,但它可能會遇到某些單字、名稱或不常見片語的困難。 用戶應該注意,系統可能會出現將詞語發音不正確或錯誤強調的情況,特別是在處理小眾或專業領域的詞彙時。

請務必注意,某些族群可能會受到這些技術限制的負面影響。 例如,嚴重依賴合成語音的聽力障礙人士在瞭解不清楚或扭曲的語音輸出方面可能會面臨挑戰。 同樣地,具有認知或語言相關障礙的使用者可能會發現難以理解具有非自然語調或發音不正確的語音。

  • 語言限制:雖然我們仔細策劃和準備訓練數據,以盡量減少偏差,特別是與性別、種族或地區口音相關的偏差,而語音轉換文字支援多種語言和口音,但不同語言的語音品質和可用性可能會有所不同。 客戶應該瞭解特定語言或方言特有的發音精確度、語調和語言細微差別的潛在限制。
  • 內容和情感:文字到語音轉換在正確傳達內容資訊和情緒方面可能有限制。 客戶應該注意系統無法瞭解輸入文字中存在的情感細微差別或微妙提示。 應該考慮提供其他內容,或利用其他方法來有效地傳達情緒。
  • 可用性:Microsoft 將在移除任何預先建置的神經語音前,提供客戶 12 個月的通知,除非有安全性、法律或系統效能的考量需要加速移除。 這不適用於預覽。

每個應用程式都不同,我們的基底模型可能不符合您的情境,或涵蓋您使用情境所需的所有情境。 我們鼓勵開發人員使用反映使用案例的實際數據,徹底評估文字到語音合成語音和視訊的品質,包括測試來自不同人口群組的使用者,以及具有不同語音特性的使用者。 如需建置高質量 語音模型的最佳做法,請參閱定型的語音模型品質 一節。

除了確保效能之外,還需要考慮如何降低因合成語音和虛擬人偶而可能產生的刻板印象和消除身分的風險。 例如,如果您要為智慧型手機語音助理建立自定義神經語音,請仔細考慮適合如何建立語音,並從各種背景的個人尋求不同的觀點。 建置和評估您的系統時,請一律尋求不同的輸入。

公平性考量

在Microsoft,我們努力讓地球上的每個人都能做更多的事情。 此目標不可或缺的一部分是努力建立公平且包容的技術與產品。 公平性是一個多維度、社會技術的主題,並影響我們產品開發的許多不同層面。 您可以 在這裡深入瞭解Microsoft公平性的方法。

在使用 AI 系統 (包括文字轉換語音) 時必須考慮的一個重要維度是,系統在不同群體中的表現如何。 研究表明,AI 系統沒有專注在改善所有群體效能的自覺努力,就能在不同人口因素(例如種族、種族、性別和年齡)中表現出不同程度的效能。

在評估 Azure AI 文字到語音轉換時,我們進行了一項分析,以評估潛在的公平性傷害。 我們已經檢查了該系統在不同人口群體中的表現,旨在找出可能存在的任何差異或差異,並可能影響公平性。

在某些情況下,可能會有剩餘的效能差異。 請務必注意,這些差異可能超過目標,我們正積極努力解決和最小化任何潛在的偏見或效能差距,仔細考慮演員的人口群體選擇,並從各種背景尋求多樣化的視角。

關於再現性傷害,例如刻板印象、貶低或抹除表現,我們承認與這些問題相關的風險。 雖然我們的評估程式旨在降低這類風險,但我們鼓勵使用者仔細考慮其特定使用案例,並適當地實作其他風險降低措施。 在迴圈中擁有人類可以提供額外的監督層,以解決任何潛在的偏見或非預期的後果。 使用封鎖清單或允許清單也有助於確保合成的語音符合所需的標準,並避免任何有害或不適當的內容。

我們致力於不斷改進公平評估,以深入了解系統在不同人口群體的表現和潛在的公平考慮。 評估程式正在進行中,我們正積極努力提高公平性和包容性,並減輕任何已確定的差異。 我們了解解決公平考慮的重要性,並努力確保文字到語音轉換提供可靠和公平的合成語音輸出。

請注意,這項資訊代表我們到目前為止對公平性評估的了解,我們仍然致力於精簡我們的評估方法,並解決可能發生的任何公平性疑慮。

系統效能

文字到語音轉換系統的效能是指可將寫入的文字轉換成合成語音的方式和自然程度。 這是使用各種計量來測量產生的音訊輸出的品質和有效性。 使用的一些常見效能計量包括:

  • 平均意見分數(MOS):評等系統,評委提供一個分數,代表合成語音和虛擬人偶視頻的整體品質。 較高的 MOS 表示品質更好。
  • MOS 差距:人類錄音的 MOS 分數與產生的音訊曲目/視訊之間的差異。 較小的 MOS Gap 表示更接近人類語音/更具人類相似性。
  • 相似度 MOS (SMOS):測量生成的音軌/影片與人類錄製的相似度。 較高的SMOS表示更好的相似性。
  • Intelligibility:合成語音中正確可辨識文字的百分比。

即使使用最先進的模型,文字到語音轉換等 AI 系統也會產生錯誤。 例如,系統可能會產生具有微妙非自然語調或發音錯誤的合成語音,導致不太理想的用戶體驗,或者系統可能會誤解文字或與不尋常的語言建構作鬥爭,導致不自然或無法理解的語音。

改善系統效能的最佳做法

若要改善系統效能,並將文字中的系統行為調整為語音,有數個可遵循的最佳做法。 這些做法涉及調整各種元件和參數,以優化取捨,並符合特定的使用案例需求。 不過,請務必考慮對不同人口的潛在影響,以確保公平性和包容性。

使用 SSML(語音合成標記語言)被認為是增強文字到語音輸出品質的最佳作法。 SSML 可讓使用者對合成語音施加更大的控制權,進而自定義發音、音調、強調和其他音調功能。 藉由將 SSML 標記併入文字中,使用者可以新增暫停、調整語音速率、指定語音發音,以及控制音調和音量等參數。 這種微調層級有助於建立更自然且更具表達力的語音,讓文字到語音輸出聽起來更人性化且引人入勝。 所有 SSML 標記都可以直接傳遞至 API。 我們也提供一個在線工具「音訊內容建立」,讓客戶能夠使用直覺式使用者介面進行微調。

如果您的使用案例涉及特製化詞彙或領域特定內容,請考慮使用自定義詞典功能來改善系統正確發音和傳達領域特定詞彙或片語的能力。

文字到語音轉換的評估

評估方法

評估文字到語音轉換整體系統效能的一些常用計量包括:

  • 平均意見分數(MOS)與人類錄音的差距:通常用來比較文字轉語音模型的音質與人類錄音。 與人類錄音相比,自定義神經語音所建立的語音模型質量預計將接近,MOS 分數的差距不超過0.5。
  • 針對自定義神經語音,您也可以使用相似度 MOS (SMOS) 來測量與原始人類錄音相比,自定義語音音效的相似程度。 使用SMOS研究時,系統會要求評審聆聽一組配對的音訊曲目,其中一個是使用自定義語音生成的,另一個來自訓練數據中的原始人類錄音。評審需要評估每對音訊是否是由同一人所說,並使用五點等級(1分為最低,5分為最高)進行打分。 平均分數會被報告為SMOS分數。 我們建議良好的自定義神經語音應該達到高於 4.0 的 SMOS。
  • 除了使用 MOS 和 SMOS 測量自然性之外,您也可以藉由檢查所產生語音的發音正確性來評估語音模型的可理解性。 這是通過讓評委聽一組測試樣本完成的,判斷他們是否可以理解意義,並指出任何無法理解的單詞。 Intelligibility 比率是使用所測試單字總數中正確可辨識單字的百分比計算(亦即,可辨識字數/測試的字數總計 * 100%)。 通常,文字轉換語音引擎的可用性需要達到 > 98% 的分數,才能確保清晰度。

評估結果

文字到語音轉換一致地提供高品質和自然音效的合成語音,符合不同產業和領域的需求。 我們的評估包括對系統的訓練和測試數據進行廣泛的測試,確保其代表真實世界案例中遇到的預定用途和作因素,以及測試合成語音輸出的範例。

評估結果影響了有關系統設計中限制的決策,例如最大外殼尺寸和所需訓練資料的最小量。 藉由分析不同數據集、設定和參數的系統效能,已設定適當的條件約束,以優化系統的行為、可靠性和安全性。

雖然評估涵蓋廣泛的使用案例,但請務必注意,在未直接參與評估的使用案例中,結果在一定程度上是一般化的。 系統的穩定性和效能讓人對其處理各種情境的能力充滿信心,包括那些可能尚未明確測試的情況。

以下是一些根據我們的經驗建議的測試與分數範圍:

測量 定義 計算方式 建議的文字大小 建議的分數
MOS 音訊曲目品質的平均意見分數 每位法官對每個音訊的評分平均值 > 30 個生成的音訊曲目 > 4.0 (通常需要人類錄音的 MOS 高於 4.5)
MOS 間距 人類錄音與產生的音軌之間的 MOS 分數差異 人類錄製的 MOS 分數減去產生的音訊曲目上的 MOS 分數 > 10 個人類錄製,> 30 個生成的音訊曲目,每個音訊有 > 20 位評審 < 0.5
SMOS 生成音訊軌跡與人聲錄音的相似性 各對音訊曲目相似度層級評分的平均值 > 每對 40 對, > 20 位評委 > 4.0、 > 3.5 (次要語言)
可理解性 生成語音在單字層級的發音準確性 測試字詞總數中正確可辨識字數的百分比 > 60 個產生的音訊曲目, > 每個音訊上有 10 個評委 > 98%

評估並整合文字轉語音技術以供您使用

以下是一些最佳做法,幫助您負責任地將文字轉語音功能整合到使用案例中。

當語音是合成時揭露

揭露語音是計算機產生的不僅能降低欺騙有害結果的風險,而且會增加對組織傳遞語音的信任。 深入瞭解 如何披露

Microsoft要求其客戶向使用者披露文字轉語音語音的合成性質。

  • 請務必為觀眾提供適當的披露,尤其是在使用知名人士的聲音時。 人們根據交付資訊的人做出判斷,無論他們有意識還是無意識地這樣做。 例如,在廣播開始時,可以口頭分享資訊。 如需詳細資訊,請流覽 揭露模式
  • 請考慮在適用於或可能用於涉及未成年人和兒童的情況下,適當地向父母或其他相關方進行披露。 如果您的使用案例適用於未成年人或兒童,您必須確保您的披露清晰透明,以便父母或法律監護人可以了解綜合媒體的角色,並代表未成年人或兒童就是否使用體驗做出明智的決定。

當虛擬人偶影片是合成時揭露

揭露虛擬人偶講視訊是計算機產生的,不僅能降低欺騙有害結果的風險,而且會增加對組織提供影片的信任。 深入瞭解 如何披露

Microsoft要求其客戶向使用者揭露文字轉語音虛擬角色的合成本質。

  • 請務必為觀眾提供適當的披露,尤其是在使用知名人士的圖像(和聲音)時。 人們根據交付資訊的人做出判斷,無論他們有意識還是無意識地這樣做。 例如,可以使用浮水印進行聲明,例如「此影片中的語音和影像是 AI 產生的」,可以在文字中顯示,或在影片開頭口頭告知。 如需詳細資訊,請造訪 洩漏模式
  • 考慮在設計用於或可能涉及未成年人和兒童的使用案例,適當地向父母或其他相關當事人披露資料。 如果您的使用案例適用於未成年人或兒童,您必須確保您的披露清晰透明,以便父母或法律監護人可以了解綜合媒體的角色,並代表未成年人或兒童就是否使用體驗做出明智的決定。

為您的案例選取適當的語音類型

請仔細考慮使用情境,以及使用文字轉語音技術或虛擬人偶的相關潛在危害。 例如,高逼真度合成語音在高風險案例中可能不適合,例如個人傳訊、財務交易或需要人類適應性或同理心的複雜情況。

使用者也可能對語音類型和虛擬人偶表達式或手勢有不同的期望,視內容而定。 例如,當聆聽綜合語音讀取的敏感性新聞時,有些使用者更喜歡更同情和人類般的語氣,而另一些使用者則更喜歡中性的聲音。 請考慮測試您的應用程式,以進一步瞭解使用者喜好設定。

清楚地說明功能和限制

與高逼真度合成語音代理程序互動時,使用者更有可能有更高的期望。 當系統功能不符合這些期望時,信任可能會受到影響,而且可能會導致令人不快,甚至有害的體驗。

提供可選擇的人工支援

在模棱兩可的交易式案例中(例如,通話支援中心),使用者不一定會信任計算機代理程式來適當地回應其要求。 無論系統的聲音或能力的實際質量為何,在這些情況下,人類支援可能是必要的。

語音人才應考慮的事項

當客戶與語音人才合作以建立自定義神經語音時,下列指導方針適用。

  • 語音表演者應該擁有對其語音模型的控制權(例如如何以及在哪裡使用),並因其使用而獲得報酬。 Microsoft要求自定義神經語音客戶從配音人才獲得明確的書面許可,以創建合成語音,並確保客戶與每位人員的協議中包含對持續時間、用途和任何內容限制的考量。 如果您要建立知名人士的合成語音,您應該提供一種方式讓語音人才編輯或核准您計劃使用語音模型產生的輸出內容
  • 某些語音人才可能不知道潛在的惡意使用技術,應該受到系統擁有者對技術能力的教育。 Microsoft 會要求客戶必須將 Microsoft 的語音配音員和虛擬人偶人才的揭露分享給語音配音員 (不論直接溝通或透過語音配音員的授權代表),其中說明合成語音的開發方式,以及如何搭配使用文字轉換語音服務。

虛擬人偶人才的考量

當客戶與虛擬人偶人才合作以建立自定義虛擬人偶時,下列指導方針適用。

  • 阿凡達角色的創作者應該能夠控制其虛擬人偶模型的用法和用途,並就其使用獲得補償。 Microsoft 要求自訂虛擬人偶客戶從其虛擬人偶人才取得明確的書面許可,才能建立合成文字轉換語音的虛擬人偶,並確保客戶與每個人的合約考量持續時間、使用方法和任何內容限制。 如果您要建立知名人士的自定義虛擬人偶,您應該提供一種方式讓虛擬人偶人才編輯或核准您計劃以語音模型產生的輸出內容
  • 某些虛擬角色相關人才可能不知道技術可能遭到的惡意使用,應由系統擁有者教育他們有關技術的能力。 Microsoft要求客戶將Microsoft的語音和虛擬人偶人才披露直接分享給虛擬人偶人才,或透過虛擬人偶人才的授權代表分享,以描述合成虛擬人偶影片的開發及運作方式,並如何與文字轉語音服務相結合。

語音障礙者的考慮

使用具有語音障礙的個人來建立或部署合成語音技術時,適用下列指導方針。

提供無障礙場景中與人才合約的指導方針

客戶應制定指導方針,以與使用合成語音來協助說話的個人建立合約。 客戶應考慮在與個人簽訂的合約中指定使用期限、擁有權轉移和/或授權準則、刪除語音模型的程式,以及如何防止未經授權的存取。

考慮語音模式中的不一致情況

對於有語音障礙的人士,在記錄自己語音樣本時,其語音模式中的不一致(如口齒不清或無法發音某些單字)可能會使錄製過程變得複雜。 在這些情況下,合成語音技術和錄音過程應設計成具有由客戶決定的適當調整(例如,提供休息或額外的錄音時間)。

允許隨時間變更

患有語音障礙的個人可能想要更新其綜合聲音,以反映因老化或其他因素而改變。 個人也可能具有隨著時間變化的文體喜好設定,並可能想要變更音調、口音或其他語音特性。

深入了解可靠的 AI

深入瞭解 Azure 語音