總結

備註

有關更多詳細信息，請參閱 文本和圖像 選項卡！

在本課程模組中，您探索了在 AI 應用程式中實現自然語音互動的基本語音技術。您瞭解語音辨識如何將口語轉換成文字，以及語音合成如何從書面內容產生類似人類的音訊。

在本單元中，您發現：

語音場景和應用：語音技術改變了客戶服務、輔助功能、對話式 AI、醫療保健文檔和電子學習的用戶體驗。您探索了如何結合語音辨識和合成來建立流暢的雙向對話，讓感覺自然並減少使用者摩擦。
語音辨識基本概念：您檢查了將音訊轉換為文字的六階段管線，從擷取聲波到產生格式化的轉錄。您已瞭解 MFCC 功能如何從音訊擷取有意義的模式、轉換器型聲學模型如何預測音素，以及語言模型如何透過套用詞彙和文法知識來解決歧義。
語音合成基礎知識：您發現了將文本轉換為自然語音的四個階段過程——文本正規化、語言分析、韻律生成和音頻合成。您探索了字素到音素的轉換如何處理拼寫變化、轉換器模型如何預測自然節奏和強調，以及神經聲碼器如何產生高保真音訊波形。

小提示

如需詳細資訊，請參閱開始使用 Azure 中的語音。

意見反應

此頁面對您有幫助嗎？