總結
備註
有關更多詳細信息,請參閱 文本和圖像 選項卡!
在本課程模組中,您探索了在 AI 應用程式中實現自然語音互動的基本語音技術。 您瞭解語音辨識如何將口語轉換成文字,以及語音合成如何從書面內容產生類似人類的音訊。
在本單元中,您發現:
語音場景和應用:語音技術改變了客戶服務、輔助功能、對話式 AI、醫療保健文檔和電子學習的用戶體驗。 您探索了如何結合語音辨識和合成來建立流暢的雙向對話,讓感覺自然並減少使用者摩擦。
語音辨識基本概念:您檢查了將音訊轉換為文字的六階段管線,從擷取聲波到產生格式化的轉錄。 您已瞭解 MFCC 功能如何從音訊擷取有意義的模式、轉換器型聲學模型如何預測音素,以及語言模型如何透過套用詞彙和文法知識來解決歧義。
語音合成基礎知識:您發現了將文本轉換為自然語音的四個階段過程——文本正規化、語言分析、韻律生成和音頻合成。 您探索了字素到音素的轉換如何處理拼寫變化、轉換器模型如何預測自然節奏和強調,以及神經聲碼器如何產生高保真音訊波形。
小提示
如需詳細資訊,請參閱開始使用 Azure 中的語音。