簡介

已完成

您是否對語音助理實際的運作方式感到好奇過? 他們如何瞭解我們說的話? 語音助理背後原理的第一個步驟是語音轉換文字,接著是自然語言處理 (NLP) 步驟 (也就是單字內嵌 (將文字轉換成數字)),接著是將表達 (人們說的內容) 分類為意圖 (人們想要語音助理執行的動作)。 如果您是循著此學習路徑一路來到此課程模組,便代表您已經了解 NLP 部分的運作方式。 現在我們想要了解如何從語音中取得文字。 音訊分類可以用於許多方面,不僅僅只是語音助理而已。 例如,您可以將音樂分類為不同的內容類型,或根據某人聲音的語調來偵測疾病,甚至還有更多我們尚未想到的應用方式。

在此學習課程模組中,我們將了解如何使用 TensorFlow 進行音訊分類。 有多種方式可建立音訊分類模型。 您可以使用波形、標籤區段的 wav 檔,或甚至使用 spectrogram 影像上的電腦視覺。 在此教學課程中,我們會先細分理解音訊資料的方式 (從類比表示法到數位表示法),然後我們將針對時頻譜 (Spectrogram) 影像使用電腦視覺來建置模型。 沒錯,您可以將音訊轉換成影像表示法,然後使用電腦視覺來將說出的單字分類! 我們將建立可瞭解 yesno 的簡單模型。 我們將要使用的資料集是內建於 TensorFlow 資料集中的開放式資料集 Speech Commands (語音命令)。 此資料集有 36 個用於分類的不同單字/音效。 每個語句都會儲存為一秒 (或更少) 的 WAVE 格式檔案。 我們只會使用 yesno 來進行二元分類。

學習目標

  • 了解音訊資料的一些主要特徵。
  • 如何建置音訊機器學習模型的簡介。
  • 了解如何從聲波檔案建置二元分類模型。

必要條件

  • Python 的知識
  • 對機器學習的基本了解