瞭解語音辨識和合成

已完成

語音辨識 會採用口語文字,並將它轉換成可以處理的數據,通常是藉由將它轉譯成文字。 說出口的話可以是音訊檔案中所錄製語音,或來自麥克風的即時音訊。 系統會在音訊中分析語音模式,以判斷對應至單字的可辨識模式。 為了達成此目的,軟體通常會使用多個模型,包括:

  • 「原音」模型,可將音訊訊號轉換成音素 (特定聲音的表示法)。
  • 「語言」模型,可將音素對應到單字,通常會使用統計演算法來根據音素預測最可能的單字序列。

辨識的字組通常會轉換成文字,您可以用於各種用途,例如:

  • 為錄製或即時影片提供隱藏式輔助字幕
  • 建立通話或會議的文字記錄
  • 自動化筆記聽寫
  • 判斷所需的使用者輸入以進一步處理

語音合成與語音轉換 數據有關,通常是藉由將文字轉換成語音。 語音合成解決方案通常需要下列資訊:

  • 要說出的文字
  • 用來表達語音的語音

為了合成語音,系統通常會將文字「Token 化」,以將其細分為個別單字,並將語音指派給每個單字。 然後,其會將語音轉譯分解成「韻律」單位 (例如片語、子句或句子),以建立將轉換成音訊格式的音素。 這些音素接著會合成為音訊,並可指派特定的語音、說話速率、音調和音量。

您可將語音合成的輸出用於許多用途,包括:

  • 產生使用者輸入的語音回應
  • 建立電話系統的語音功能表
  • 在免手式案例中大聲閱讀電子郵件或簡訊
  • 在公共場所廣播公告,例如火車站或機場