分享方式:


什麼是 OpenAI 文字轉換語音?

如同 Azure AI 語音,OpenAI 文字轉換語音會提供高品質的語音合成,以將書面文字轉換為自然發音的音訊。 這為沉浸式和互動式使用者體驗帶來了廣泛的可能性。

OpenAI 文字轉換語音可透過兩種模型變體來使用:NeuralNeuralHD

  • Neural:針對延遲最低的即時使用案例進行最佳化,但品質低於 NeuralHD
  • NeuralHD:已針對品質最佳化。

Azure AI 服務中可用的語音轉換文字

您可能會問:如果我想要使用 OpenAI 文字轉換語音,我應該透過 Azure OpenAI 服務或透過 Azure AI 語音使用它嗎? 引導我使用一個或另一個情節的案例為何?

每個語音模型都提供不同的特性和功能,讓您選擇最符合您特定需求的語音模型。 您想要瞭解 Azure AI 服務中可用文字轉換語音之間的選項和差異。

您可以在 Azure AI 服務中選擇下列文字轉換語音:

  • Azure OpenAI 服務中的 OpenAI 文字轉換語音功能。 適用於下列區域:美國中北部和瑞典中部。
  • Azure AI 語音中的 OpenAI 文字轉換語音功能。 適用於下列區域:美國中北部和瑞典中部。
  • Azure AI 語音服務文字轉換語音。 可在數十個區域中使用。 請參閱區域清單

透過 Azure OpenAI 服務或透過 Azure AI 語音開啟 OpenAI 文字轉換語音?

如果您想要使用 OpenAI 文字轉換語音,您可以選擇要透過 Azure OpenAI 或透過 Azure AI 語音使用。 您可以瀏覽語音資源庫來接聽 Azure OpenAI 語音的範例,或使用音訊內容建立透過您自己的文字合成語音。 音訊輸出在這兩種情況下相同,兩個服務之間只有一些功能差異。 如需詳細資訊,請參閱下表。

以下是 Azure OpenAI 服務中的 OpenAI 文字轉換語音與 Azure AI Speech 中的 OpenAI 文字轉換語音之間的功能比較。

功能 Azure OpenAI 服務 (OpenAI 語音) Azure AI 語音 (OpenAI 語音) Azure AI 語音
區域 美國中北部、瑞典中部 美國中北部、瑞典中部 可在數十個區域中使用。 請參閱區域清單
語音多樣化 6 12 超過 500
多語系語音數目 6 12 49
最大多語系語言涵蓋範圍 57 57 77
語音合成標記語言 (SSML) 支援 不支援 支援 SSML 元素子集 支援 Azure AI 語音中 完整的 SSML 集合
開發選項 REST API 語音 SDK、語音 CLI、REST API 語音 SDK、語音 CLI、REST API
部署選項 僅限雲端 僅限雲端 雲端、內嵌、混合式及容器。
即時或批次合成 即時 即時和批次合成 即時和批次合成
延遲 大於 500 毫秒 大於 500 毫秒 小於 300 毫秒
合成音訊的採樣速率 24 kHz 8、16、24 及 48 kHz 8、16、24 及 48 kHz
語音輸出音訊格式 opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Azure AI 語音中提供了 OpenAI 語音所不具備的其他特性和功能。 例如:

Azure AI 語音中 OpenAI 文字轉換語音支援的 SSML 元素

具有輸入文字的語音合成標記語言 (SSML) 會判斷文字轉換語音輸出的結構、內容及其他特性。 例如,您可以使用 SSML 來定義段落、句子、中斷或暫停或靜音。 您可以使用書籤或 viseme 等事件標籤來換行文字,以供應用程式稍後處理。

以下表格概述 Azure AI 語音中 OpenAI 文字轉換語音支援的語音合成標記語言 (SSML) 元素。 OpenAI 語音僅支援 SSML 標籤的下列子集。 如需詳細資訊,請參閱 SSML 文件結構和事件

SSML 元素名稱 描述
<speak> 括住要說出的整個內容。 它是 SSML 文件的根項目。
<voice> 指定用於文字轉換語音輸出的語音。
<sub> 指出別名屬性的文字值應該發音,而不是元素的括住文字。
<say-as> 指出元素文字的內容類型,例如數字或日期。

除了 interpret-as="name" 之外,這個元素支援所有 interpret-as屬性值。 例如,支援 <say-as interpret-as="date" format="dmy">10-12-2016</say-as>,但不支援 <say-as interpret-as="name">ED</say-as>。 如需詳細資訊,請參閱使用 SSML 發音
<s> 表示句子。
<lang> 指定您希望神經語音所說語言的預設區域設定。
<break> 使用覆寫單字之間中斷或暫停的預設行為。