瞭解語音辨識和合成

語音辨識 會採用口語文字，並將它轉換成可以處理的數據，通常是藉由將它轉譯成文字。說出口的話可以是音訊檔案中所錄製語音，或來自麥克風的即時音訊。系統會在音訊中分析語音模式，以判斷對應至單字的可辨識模式。為了達成此目的，軟體通常會使用多個模型，包括：

辨識的字組通常會轉換成文字，您可以用於各種用途，例如：

語音合成與語音轉換 數據有關，通常是藉由將文字轉換成語音。語音合成解決方案通常需要下列資訊：

為了合成語音，系統通常會將文字「Token 化」，以將其細分為個別單字，並將語音指派給每個單字。然後，其會將語音轉譯分解成「韻律」單位 (例如片語、子句或句子)，以建立將轉換成音訊格式的音素。這些音素接著會合成為音訊，並可指派特定的語音、說話速率、音調和音量。

您可將語音合成的輸出用於許多用途，包括：

意見反應