選擇 Azure AI 語音辨識與產生技術

2025-06-21

Azure AI 服務可説明工作負載設計人員和開發人員使用開箱即用、預構建且可自定義的 API 和模型創建智慧、尖端、市場就緒且負責任的應用程式。

本文介紹了提供語音辨識和生成功能的 AI 服務，例如語音到文本和文本到語音的轉換、音訊翻譯和說話人識別。它還包括為有學習差異的人提供閱讀支援。

注意

若要收集詞彙或片語的深入解析，或取得口語或書面語言的詳細內容分析，請參閱選擇 Azure AI 目標語言處理技術。

服務

以下 AI 服務可以為您的工作負載提供語音辨識和生成功能。

Microsoft Azure AI 語音為文本分析提供自然語言處理。
- 用語音當您需要轉錄或翻譯口語並確定對話中的說話人時。與 OpenAI 模型中更高品質的 Whisper 系統相比，您還可以使用語音作為成本較低的替代方案來生成聽起來自然的語音。
- 不要使用 用於聊天、內容摘要、審核或指導使用者完成腳本的語音。請使用其他模型來處理這些需求。
沈浸式閱讀程式是一種工具，可實作經過實證的技術，以改善新興讀者、語言學習者和學習差異人士的閱讀理解。
- 用沈浸式閱讀程式為語言學習者或學習差異的人員提供改良的可讀性體驗。
- 不要使用 適用於傳統文本轉語音用例的沉浸式閱讀器。

演講

Speech 透過Speech資源提供語音轉文本和文本轉語音功能。您可以高精度地轉錄語音到文本、生成聽起來自然的文本到語音、翻譯口語音頻以及在對話中使用說話人識別。建立自訂語音、新增特定字詞至您的基本詞彙，或建置您自己的模型。隨時隨地運行Speech，無論是在雲中還是在容器的邊緣。

語音支援多種語言和區域。

能力

下表提供了Speech中可用的功能清單。

能力	描述
批次轉譯	轉錄存儲中的大量音訊數據。語音轉文本 REST API 和語音 CLI 都支援批量聽錄。
意圖辨識	Intent 是使用者想要執行的作，例如預訂航班、查看天氣或撥打電話。意圖識別使您的應用程式、工具和設備能夠根據選項確定使用者想要啟動或執行的作。您可以在意向識別器或對話語言理解模型中定義使用者意向。
發音評估	評估語音發音並向說話者提供有關口語音訊準確性和流暢性的意見反應。
說話者辨識	說話者辨識有助於判斷音訊剪輯中的說話者。該服務使用語音生物辨識技術，通過說話人的獨特語音特徵來驗證和識別說話人。
語音轉換文字	即時或批處理將音訊流轉換為文本。
文字到語音轉換	使您的應用程式、工具或設備能夠將文本轉換為類似人類的合成語音。
語音翻譯	提供音訊流的多語言語音轉語音和語音轉文本翻譯。
影片翻譯	自動翻譯和生成多種語言的視頻。

使用案例

下表描述了您可以使用Speech的一些方式。

使用案例	使用功能	描述
音頻內容製作	語音轉文字	使用神經語音，使與聊天機器人和語音助手的交互更加自然和引人入勝。將電子書等數位文本轉換為有聲讀物，並增強車載導航系統。
通話中心轉譯	語音轉文字	實時轉錄呼叫或處理一批呼叫，編輯個人身份資訊，並提取情緒等見解，以説明您處理呼叫中心使用案例。
字幕	語音轉文字	將字幕與輸入音訊同步、套用髒話篩選器、取得部分結果、套用自訂調整，並識別多語言情境中的口語語言。
語言學習	語音轉文字	為語言學習者提供發音評估意見反應，支援遠端學習對話的即時轉錄，並使用神經語音朗讀教學材料。
語音助理	文字轉語音	為應用程式和體驗創建自然、類似人類的對話介面。語音助理功能可提供裝置和助理實作之間快速可靠的互動。

沉浸式閱讀程式

沉浸式閱讀器是 AI 服務的一部分，是一種包容性設計的工具，它實施經過驗證的技術來提高新讀者、語言學習者和有學習差異（如閱讀障礙）的人的閱讀理解能力。借助沉浸式閱讀器用戶端庫，您可以使用 Microsoft Word 和 Microsoft OneNote 中使用的相同技術為工作負載使用者提供增強的體驗。

能力

以下功能適用於您的工作負載，可幫助用戶實現其閱讀理解目標。

隔離內容以提高可讀性。
顯示常用單詞和術語的圖片。
通過突出顯示動詞、名詞和代詞來説明理解詞性和語法。
大聲朗讀內容，例如工作負載UI中的用戶選擇的文字。
將內容即時翻譯成多種語言。這種方法有助於提高讀者學習新語言的理解力。
將單詞分成多個音節以提高可讀性或讀出新單詞。

共用方式為

選擇 Azure AI 語音辨識與產生技術

服務

演講

能力

使用案例

沉浸式閱讀程式

能力

下一步

相關資源

意見反應

其他資源