開始在 Azure 上使用語音

已完成

Microsoft Azure 透過 Azure AI 語音服務提供語音辨識及語音合成功能,其中包括下列應用程式開發介面 (API):

  • 語音轉換文字 API
  • 文字轉換語音 API

適用於 Azure AI 語音的 Azure 資源

若要在應用程式中使用 Azure AI 語音,則必須在 Azure 訂閱中建立適當的資源。 您可選擇建立下列其中一種資源類型:

  • 語音資源 - 如果只打算使用 Azure AI 語音,或想要與其他服務分開管理資源的存取權及帳單,請選擇此資源類型。
  • Azure AI 服務資源 - 如果打算搭配其他 Azure AI 服務來使用Azure AI 語音,且想要同時管理這些服務的存取權及帳單,請選擇此資源類型。

語音轉換文字 API

您可使用 Azure AI 語音轉換文字 API 來將音訊即時或批次謄寫成文字格式。 轉譯其音訊來源可以是來自麥克風或音訊檔案的即時音訊串流。

語音轉換文字 API 所使用模型是以 Microsoft 定型的通用語言模型為基礎。 此模型的資料為 Microsoft 所擁有且已部署至 Microsoft Azure。 此模型已針對交談和聽寫這兩個情況進行最佳化。 如果 Microsoft 預先建立的模型並未提供所需功能,您也可以建立自己的自訂模型並加以定型,包括原音、語言和發音。

即時轉譯

即時語音轉換文字可供轉譯音訊串流中的文字。 您可將即時轉譯用於簡報、示範或任何其他有人演說的場景。

為了讓即時轉譯能夠正常運作,應用程式必須接聽從麥克風或其他音訊輸入來源 (例如音訊檔案) 傳入的音訊。 應用程式程式碼會將音訊串流至服務,這會傳回轉譯的文字。

批次轉譯

並非所有語音轉換文字案例都是即時的。 您可能會將音頻錄製儲存在檔案共享、遠端伺服器,甚至是儲存在 Azure 記憶體上。 您可使用共用存取簽章 (SAS) URI 來指向音訊檔案,並以非同步方式接收轉譯結果。

批次轉譯應該以非同步方式執行,因為批次作業是根據「最大工作量」來排程。 通常作業會在要求的幾分鐘內開始執行,但無法估計作業何時會變更為執行中狀態。

文字轉換語音 API

文字轉換語音 API 可供將文字輸入轉換成可聽語音,這可透過電腦喇叭直接播放或寫入音訊檔案。

語音合成語音

當使用文字轉換語音 API 時,可指定要用來說出文字的語音。 這項功能可供彈性地將語音合成解決方案個人化,並賦予其特定角色。

此服務包含多個預先定義的語音,可支援多種語言和區域發音,包括利用神經網路來克服語音合成中關於音調的常見限制的類神經語音,進而產生更自然的聲音。 您也可以開發自訂語音,並搭配文字轉換語音 API 來使用

支援的語言

語音轉換文字與文字轉換語音 API 都支援各種不同的語言。 請使用下列連結來尋找支援語言的詳細資料: