什麼是語音服務?

語音服務透過 Azure 語音資源提供語音轉換文字和文字轉換語音等功能。 您可以準確將語音轉譯成文字、產生文字轉換語音的自然語音、翻譯語音音訊,以及在交談期間使用說話者辨識。

強調其中一些語音服務功能的組件圖片。

建立自訂語音、將特定字詞新增至基礎詞彙,或建立自己的模型。 不管雲端或容器邊緣,在任何位置執行語音。 藉由語音 CLI語音 SDKSpeech StudioREST API,可輕易地透過語音啟用您的應用程式、工具和裝置。

語音適用於多種語言區域定價點

語音案例

語音的常見情節包括:

  • 字幕:了解如何同步處理字幕與輸入音訊、套用粗話篩選、取得部分結果、套用自訂專案,以及識別多語情節的口語語言。
  • 音訊內容建立:您可利用神經語音使與聊天機器人及語音小幫手的互動變得更加自然有趣;例如將數位文字 (例如電子書) 轉換成有聲書,及增強車上導航系統。
  • 話務中心:即時轉譯通話或批次處理通話、修訂個人識別資訊,以及擷取情感等深入解析,協助您的話務中心使用案例。
  • 語音助理:針對其應用程式和體驗建立自然、仿真人的交談介面。 語音助理功能可讓裝置與助理實作之間的互動快速又可靠。

Microsoft 會針對許多案例使用語音,例如 Teams 中的輔助字幕、Office 365中的聽寫,以及 Edge 瀏覽器中的大聲朗讀。

顯示使用語音 Microsoft 標誌產品的圖片

語音功能

以下提供語音功能摘要的連結,以取得詳細資訊。

語音轉文字

使用語音轉換文字,以即時或非同步方式將音訊轉譯成文字。

提示

您可以在 Speech Studio 中嘗試語音轉換文字,而不需要註冊或撰寫任何程式碼。

將各種來源的音訊轉換成文字,包括麥克風、音訊檔案和 Blob 儲存體。 使用說話者分類來判斷誰說了什麼和說話的時間。 取得具有自動格式和標點符號,可讀取的文字記錄。

如果音訊包含環境雜訊,或包含許多產業和領領域的特定術語,則基礎模型可能不足夠。 在這些情況下,您可以使用原音、語言和發音資料來建立和定型自訂語音模型。 自訂語音模型是私人的,且能提供競爭優勢。

文字轉換語音

使用文字轉換語音時,您可以將輸入文字轉換成仿真人的合成語音。 使用神經語音,這是由深度神經網路提供技術支援的仿真人語音。 使用語音合成標記語言 (SSML) 來調整音調、發音、說話速錄、聲音大小等等。

  • 預先建置的神經語音:高度自然的現成語音。 檢查預先建置的神經語音範例 語音資源庫 ,並判斷適合您業務需求的語音。
  • 自訂神經語音:除了現成的預先建置神經語音之外,您也可以建立可辨識且專屬於您品牌或產品的自訂神經語音。 自訂神經語音是私人的,而且可提供競爭優勢。 請在此處查看自訂神經語音範例。

語音翻譯

語音翻譯可讓您在應用程式、工具和裝置上使用即時且多語言的語音翻譯。 此功能可用於語音轉語音及語音轉文字翻譯。

語言識別

語言辨識可用來與一系列支援語言進行比對來辨識音訊中的語言。 單獨使用語言識別、搭配語音轉換文字辨識,或搭配語音翻譯。

說話者辨識

說話者辨識提供以唯一語音特性驗證和識別說話者的演算法。 說話者辨識是用來回答「誰在說話?」的問題。

發音評量

發音評定會評估語音發音,並向說話者提供關於說話音訊正確度和流暢度的意見反應。 使用發音評定,語言學習者可進行練習、取得即時意見反應,並改善其發音,以便有信心地說話和簡報。

意圖辨識

意圖辨識:搭配 Language Understanding (LUIS) 使用語音轉文字,即可從轉譯的語音衍生使用者意圖,以及根據語音命令執行動作。

傳遞和顯示狀態

您可以在雲端或內部部署中部署 Azure 認知服務語音功能。

有了容器,您可以讓服務更加契合您的資料,以實現合規性、安全性或其他操作性原因。

主權雲端中的語音服務部署適用於某些政府機構及其合作夥伴。 例如,Azure Government 雲端供美國政府機構及其合作夥伴使用。 Azure China 雲端則適用於在中國有業務的組織。 如需詳細資訊,請參閱主權雲端

顯示語音可以部署及存取位置的圖表。

在應用程式中使用語音

Speech Studio 是一組 UI 型工具,可在您的應用程式中建置及整合 Azure 認知服務語音服務的功能。 您可以透過無程式碼方法在 Speech Studio 中建立專案,然後使用 Speech SDKSpeech CLI 或 REST API 參考您在應用程式中的資產。

語音 CLI 是一種不必撰寫程式碼就能使用語音服務的命令列工具。 語音 SDK 中的大部分功能都可以在語音 CLI 中使用,而且語音 CLI 簡化了其中的某些進階功能和自訂功能。

語音 (SDK) 公開了許多語音服務功能,可讓您開發支援語音功能的應用程式。 語音 SDK 適用於許多程式設計語言以及所有平台。

在某些情況下,您無法或不應該使用語音 SDK。 在這些情況下,您可以使用 REST API 存取語音服務。 例如,使用 REST API 進行批次轉譯說話者辨識 REST API。

開始使用

我們針對多個廣受使用的程式設計語言提供快速入門。 每個快速入門的設計訴求都是要教您基本的設計模式,並讓您能在 10 分鐘內執行程式碼。 請參閱下列清單,以取得每項功能的快速入門:

程式碼範例

GitHub 上取得語音服務的程式碼範例。 這些範例包含常見案例,例如:從檔案或資料流讀取音訊、連續辨識、一次性辨識及使用自訂模型。 使用下列連結來檢視 SDK 和 REST 範例:

後續步驟