共用方式為


使用音訊內容建立工具的文字到語音轉換工具

你可以在 Microsoft Foundry 入口網站Speech Studio 中使用音訊內容製作工具,無需撰寫任何程式碼即可進行文字轉語音。

小提示

選取本文頂端的 [Foundry 入口網站] 或 [Speech Studio]

針對各種案例 (例如有聲書、新聞廣播、影片旁白和聊天機器人),建立高度自然的音訊內容。 透過建立音訊內容,您可以有效率地微調文字轉語音的聲音,並設計自訂的音訊體驗。

此工具是以語音合成標記語言 (SSML) 為基礎。 它可讓您即時調整文字轉換語音的輸出屬性,或進行批次合成,例如語音字元、語音樣式、說話速度、發音和韻律。

  • 無程式代碼方法:您可以在不撰寫任何程式代碼的情況下,使用文字到語音合成的音訊內容建立工具。 輸出音訊可能是您想要的最終交付內容。 例如,您可將輸出音訊用於播客或影片旁白。
  • 更適合開發人員:您可以接聽輸出音訊並調整 SSML,以改善語音合成。 然後使用語音 SDK語音 CLI 將 SSML 整合到您的應用程式中。

您可以輕鬆地存取廣泛的語言和語音組合。 這些語音包括最先進的標準語音和自訂語音 (若您有建置的話)。

音訊內容建立工具是免費的;您只需支付語音服務使用量的費用。

Prerequisites

使用音訊內容建立工具

下圖顯示微調文字轉換語音輸出的程序。

微調文字到語音輸出的步驟順序圖表。

使用此工具

要使用Microsoft Foundry中的音頻內容製作工具,請依照以下步驟操作:

  1. 請前往 Microsoft Foundry 中的專案。

  2. 從左窗格中選取 [遊樂場 ]。

  3. 在 [ 語音遊樂場] 圖格中,選取 [ 試用語音遊樂場]。

  4. 選取文字轉語音>音訊內容創建。 您可能需要捲動才能尋找磚。

    依案例篩選語音服務功能的螢幕快照。

工作流程概觀

一旦您具有工具的存取權,請遵循此一般工作流程:

  1. 使用純文字或 SSML 指令碼來建立音訊微調檔案。 輸入或上傳您的內容以進行音訊內容創建。

  2. 選擇指令碼內容的語音與語言。 音訊內容建立包含所有標準文字轉換語音內容。 您可以使用標準語音或自訂語音。

    Note

    根據資格和使用準則,自定義語音存取 受到限制 。 要求輸入表單的存取權。

  3. 選取您要預覽的內容,然後選取 [播放] (透過三角形圖示) 以預覽預設的合成輸出。

    如果您對文字進行任何變更,請選取停止圖示,然後再次選取播放,以重新產生已變更指令碼的音訊。

    藉由調整發音、中斷、音調、速率、聲調、語音樣式等項目,來改善輸出。 如需完整的選項清單,請參閱語音合成標記語言

  4. 儲存並匯出微調過的音訊

    當您將微調曲目儲存在系統時,可繼續處理和逐一查看輸出。 當您滿意輸出內容時,可使用匯出功能建立音訊建立工作。 您可觀察匯出工作的狀態,並下載輸出內容以搭配您的應用程式和產品使用。

建立音訊微調檔案

您可以透過下列兩種方式之一,將內容放入音訊內容建立工具:

選項 1:建立新的音訊微調檔案

  1. 選取 [新增]>[文字檔案],以建立新的音訊微調檔案。

  2. 在編輯視窗中輸入或貼上您的內容。 每個檔案允許 20,000 個以下的字元數。 若指令碼包含 20,000 個以上的字元,您可使用 [選項 2] 自動將內容分割成多個檔案。

  3. 選取 [儲存]。

選項 2:上傳音訊微調檔案

  1. 選取 [上傳]>[文字檔] 以匯入一或多個文字檔。 支援純文字和 SSML。

    若您的指令檔超過 20,000 個字元,請依段落、字元或規則運算式來分割內容。

  2. 當您上傳文字檔時,請確認檔案符合這些需求:

    Property Description
    檔案格式 純文字 (.txt) 或 SSML 文字 (.txt)

    不支援 ZIP 檔案。
    編碼格式 UTF-8
    檔案名稱 每個檔案皆必須具有唯一的名稱。 不支援重複的檔案。
    文字長度 字元限制為 20,000 個。 如果您的檔案超過限制,請根據工具中的指示加以分割。
    SSML 限制 每個 SSML 檔案只能包含單一的 SSML 片段。

    以下是純文字範例:

    Welcome to use audio content creation to customize audio output for your products.
    

    以下是 SSML 範例:

    <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
       <voice name="en-US-AvaMultilingualNeural">
       Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
       </voice>
    </speak>
    

匯出微調過的音訊

您在檢閱音訊輸出並對微調結果感到滿意之後,即可匯出音訊。

  1. 選取 [匯出] 以建立音訊建立工作。

    建議選擇 [匯出至音訊程式庫],以輕鬆儲存、尋找和搜尋雲端中的音訊輸出。 您可以透過 Azure Blob 儲存體更妥善整合應用程式。 您也可以直接將音訊下載至本機磁碟。

  2. 針對微調過的音訊選擇輸出格式。 下表列出支援的音訊格式和採樣速率

    Format 8 kHz 採樣速率 16 kHz 採樣速率 24 kHz 採樣速率 48 kHz 採樣速率
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. 若要檢視工作的狀態,請選取 [工作清單] 索引標籤。

    若工作失敗,請參閱詳細資訊頁面以取得完整報告。

  4. 當工作完成時,您可以在 [音訊程式庫] 窗格下載音訊。

  5. 依序選取您要下載的檔案及 [下載]

現在您已準備好在應用程式或產品中,使用自訂的微調音訊。

Prerequisites

Note

Speech Studio 不支援 Foundry 資源類型

使用音訊內容建立工具

下圖顯示微調文字轉換語音輸出的程序。

微調文字到語音輸出的步驟順序圖表。

若要使用音訊內容建立工具,請執行下列動作:

  1. 登入 Speech Studio,然後選取 [ 音訊內容建立]。

  2. 選取 Azure 訂閱和您想要使用的語音資源,然後選取 [使用資源]

    Note

    如果您要返回音訊內容建立,您可以選取您想要使用的不同語音資源。 移至頁面右上角的帳戶設定。

  3. 使用純文字或 SSML 指令碼來建立音訊微調檔案。 輸入或上傳您的內容以進行音訊內容創建。

  4. 選擇指令碼內容的語音與語言。 音訊內容建立包含所有標準文字轉換語音內容。 您可以使用標準語音或自訂語音。

    Note

    根據資格和使用準則,自定義語音存取 受到限制 。 要求輸入表單的存取權。

  5. 選取您要預覽的內容,然後選取 [播放] (透過三角形圖示) 以預覽預設的合成輸出。

    如果您對文字進行任何變更,請選取停止圖示,然後再次選取播放,以重新產生已變更指令碼的音訊。

    藉由調整發音、中斷、音調、速率、聲調、語音樣式等項目,來改善輸出。 如需完整的選項清單,請參閱語音合成標記語言

    如需調整語音輸出的詳細資訊,請參閱如何在 YouTube 上將文字轉換成語音視訊。 不過,視訊可能無法在所有區域中使用,且您在觀看視訊時可能不是最新的視訊。

  6. 儲存並匯出微調過的音訊

    當您將微調曲目儲存在系統時,可繼續處理和逐一查看輸出。 當您滿意輸出內容時,可使用匯出功能建立音訊建立工作。 您可觀察匯出工作的狀態,並下載輸出內容以搭配您的應用程式和產品使用。

建立音訊微調檔案

您可以透過下列兩種方式之一,將內容放入音訊內容建立工具:

選項 1:建立新的音訊微調檔案

  1. 選取 [新增]>[文字檔案],以建立新的音訊微調檔案。

  2. 在編輯視窗中輸入或貼上您的內容。 每個檔案允許 20,000 個以下的字元數。 若指令碼包含 20,000 個以上的字元,您可使用 [選項 2] 自動將內容分割成多個檔案。

  3. 選取 [儲存]。

選項 2:上傳音訊微調檔案

  1. 選取 [上傳]>[文字檔] 以匯入一或多個文字檔。 支援純文字和 SSML。

    若您的指令檔超過 20,000 個字元,請依段落、字元或規則運算式來分割內容。

  2. 當您上傳文字檔時,請確認檔案符合這些需求:

    Property Description
    檔案格式 純文字 (.txt) 或 SSML 文字 (.txt)

    不支援 ZIP 檔案。
    編碼格式 UTF-8
    檔案名稱 每個檔案皆必須具有唯一的名稱。 不支援重複的檔案。
    文字長度 字元限制為 20,000 個。 如果您的檔案超過限制,請根據工具中的指示加以分割。
    SSML 限制 每個 SSML 檔案只能包含單一的 SSML 片段。

    以下是純文字範例:

    Welcome to use audio content creation to customize audio output for your products.
    

    以下是 SSML 範例:

    <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
       <voice name="en-US-AvaMultilingualNeural">
       Welcome to use audio content creation <break time="10ms" />to customize audio output for your products.
       </voice>
    </speak>
    

匯出微調過的音訊

您在檢閱音訊輸出並對微調結果感到滿意之後,即可匯出音訊。

  1. 選取 [匯出] 以建立音訊建立工作。

    建議選擇 [匯出至音訊程式庫],以輕鬆儲存、尋找和搜尋雲端中的音訊輸出。 您可以透過 Azure Blob 儲存體更妥善整合應用程式。 您也可以直接將音訊下載至本機磁碟。

  2. 針對微調過的音訊選擇輸出格式。 下表列出支援的音訊格式和採樣速率

    Format 8 kHz 採樣速率 16 kHz 採樣速率 24 kHz 採樣速率 48 kHz 採樣速率
    wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm
    mp3 N/A audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3
  3. 若要檢視工作的狀態,請選取 [工作清單] 索引標籤。

    若工作失敗,請參閱詳細資訊頁面以取得完整報告。

  4. 當工作完成時,您可以在 [音訊程式庫] 窗格下載音訊。

  5. 依序選取您要下載的檔案及 [下載]

現在您已準備好在應用程式或產品中,使用自訂的微調音訊。

設定 BYOS 和對 Blob 的匿名公用讀取存取

如果您失去自備儲存體 (BYOS) 的存取權限,則無法檢視、建立、編輯或刪除檔案。 若要繼續存取,您必須移除目前的儲存體,並在 Azure 入口網站中重新設定 BYOS。 若要深入了解如何設定 BYOS,請參閱將 Azure 儲存體掛接為 App Service 中的本機共用 (部分內容可能是機器或 AI 翻譯)。

設定 BYOS 權限之後,您必須設定相關容器和 Blob 的匿名公用讀取存取。 否則,Blob 資料無法用於公用存取,而且 Blob 中的語彙檔案無法存取。 根據預設,容器的公用存取設定會停用。 若要將容器及其 Blob 的讀取許可權授與匿名使用者,請先將 [允許 Blob 匿名存取 ] 設定為 [啟用 ] 以允許記憶體帳戶的公用存取,然後設定容器的 [名為 acc-public-files] 公用存取層級(僅限 Blob 的匿名讀取許可權)。 如需深入了解如何設定匿名公用讀取存取,請參閱設定對容器和 Blob 的匿名公用讀取存取 (部分內容可能是機器或 AI 翻譯)。

新增或移除音訊內容創作使用者

如果多個使用者想要使用音訊內容建立,您可以將 Azure 訂用帳戶和語音資源的存取權授與他們。 若您將使用者新增至 Azure 訂閱,使用者即可存取 Azure 訂閱下的所有資源。 但是,如果您只將使用者新增至語音資源,他們就只能存取語音資源,而無法存取此 Azure 訂閱下的其他資源。 具有語音資源存取權的使用者可以使用音訊內容建立工具。

獲得您授與存取權的使用者必須設定 Microsoft 帳戶。 若使用者沒有 Microsoft 帳戶,只需要幾分鐘的時間即可建立一個。 他們可以使用其現有的電子郵件並將其連結至 Microsoft 帳戶,也可以建立並使用 Outlook 電子郵件地址作為 Microsoft 帳戶。

將使用者新增至語音資源

若要將使用者新增至語音資源,以便他們能夠使用音訊內容建立,請執行下列動作:

  1. Azure 入口網站中,從左側窗格選擇 「所有服務 」,然後搜尋 「Foundry Tools 」或 「語音」

  2. 選取您的語音資源。

    Note

    您也可以為整個資源群組、訂用帳戶或管理群組設定 Azure RBAC。 若要這麼做,請選取所需的範圍層級,然後巡覽至所需項目 (例如,選取 [資源群組],然後選取您想要的資源群組)。

  3. 選取左窗格中的 [存取控制][IAM ]。

  4. 選取 [新增]>[新增角色指派]

  5. 在下一個畫面的 [角色] 索引標籤上,選取您要新增的角色 (例如擁有者)。

  6. 在 [成員] 索引標籤上,輸入使用者的電子郵件地址,然後選取目錄中的使用者名稱。 電子郵件地址必須已連結至 Microsoft 帳戶,並受 Microsoft Entra ID 信任。 使用者可以使用個人電子郵件地址,輕鬆註冊 Microsoft 帳戶

  7. 在 [檢閱 + 指派] 索引標籤上,選取 [檢閱 + 指派] 以指派角色。

後續進展如下:

  1. 電子郵件邀請會自動傳送給使用者。

    Note

    如果使用者未收到邀請電子郵件,您可以在 [角色指派] 底下搜尋其帳戶,並進入其設定檔。 尋找 [身分識別]>[已接受邀請],然後選取 [管理] 以重新傳送電子郵件邀請。 您也可以將邀請連結複製並傳送給使用者。

  2. 他們可以在電子郵件中選取 [接受邀請]>[同意加入 Azure],以接受邀請。

  3. 系統即會將使用者重新導向至 Azure 入口網站。 使用者無須在 Azure 入口網站中採取進一步的動作。

  4. 幾分鐘後,使用者就會獲派語音資源範圍的角色,讓他們能夠存取此語音資源。

用戶現在流覽或重新整理 音訊內容建立 產品頁面,並使用其Microsoft帳戶登入。 他們可在所有語音產品中選取 [音訊內容建立] 區塊, 並在快顯視窗或右上方的 [設定] 中,選擇語音資源。

如果找不到可用的語音資源,使用者可以檢查確認是否位於正確的目錄中。 他們可以選取右上方的帳戶設定檔,然後選取 [目前目錄] 旁的 [切換] 來執行此作業。 若有多個可用的目錄,表示使用者可以存取多個目錄。 他們可以切換至不同的目錄並移至 [設定],以查看是否有正確的語音資源可供使用。

位於相同語音資源的使用者會在音訊內容建立工具中看到彼此的工作。 如果您希望每個使用者在音訊內容建立中擁有唯一且私人的工作場所,請建立新的語音資源。

從語音資源移除使用者

若要從語音資源移除使用者的權限,請執行下列動作:

  1. 在 Azure 入口網站搜尋 Foundry Tools ,選擇你想移除使用者的語音資源。

  2. 選取 [存取控制 (IAM)],然後選取 [角色指派] 索引標籤,以檢視此語音資源的所有角色指派。

  3. 選取您要移除的使用者,再依序選取 [移除] 和 [確定]

    [移除角色指派] 窗格上 [移除] 按鈕的螢幕快照。

讓使用者將存取權授與其他人

若您想讓使用者將存取權授與其他使用者,您必須為該使用者指派語音資源的擁有者角色,並將其設定為 Azure 目錄讀者。

  1. 將使用者新增為語音資源的擁有者。 如需詳細資訊,請參閱將使用者新增至語音資源

    顯示 [新增角色指派] 窗格上 [擁有者] 角色的螢幕快照。

  2. Azure 入口網站中,選取左上方的摺疊功能表,再依序選取 [Microsoft Entra ID] 和 [使用者]

  3. 搜尋使用者的 Microsoft 帳戶,移至其詳細資料頁面,然後選取 [指派的角色]

  4. 選取 [新增指派]>[目錄讀者]。 如果 [新增指派] 按鈕無法使用,表示您沒有存取權。 您必須擁有擁有者使用者存取系統管理員的角色 ,才能將角色指派給使用者。