簡介

5 分鐘

您是否對語音助理實際的運作方式感到好奇過？他們如何瞭解我們說的話？語音助理背後原理的第一個步驟是語音轉換文字，接著是自然語言處理 (NLP) 步驟 (也就是單字內嵌 (將文字轉換成數字))，接著是將表達 (人們說的內容) 分類為意圖 (人們想要語音助理執行的動作)。如果您是循著此學習路徑一路來到此課程模組，便代表您已經了解 NLP 部分的運作方式。現在我們想要了解如何從語音中取得文字。音訊分類可以用於許多方面，不僅僅只是語音助理而已。例如，您可以將音樂分類為不同的內容類型，或根據某人聲音的語調來偵測疾病，甚至還有更多我們尚未想到的應用方式。

在此學習課程模組中，我們將了解如何使用 TensorFlow 進行音訊分類。有多種方式可建立音訊分類模型。您可以使用波形、標籤區段的 wav 檔，或甚至使用 spectrogram 影像上的電腦視覺。在此教學課程中，我們會先細分理解音訊資料的方式 (從類比表示法到數位表示法)，然後我們將針對時頻譜 (Spectrogram) 影像使用電腦視覺來建置模型。沒錯，您可以將音訊轉換成影像表示法，然後使用電腦視覺來將說出的單字分類！我們將建立可瞭解 yes 和 no 的簡單模型。我們將要使用的資料集是內建於 TensorFlow 資料集中的開放式資料集 Speech Commands (語音命令)。此資料集有 36 個用於分類的不同單字/音效。每個語句都會儲存為一秒 (或更少) 的 WAVE 格式檔案。我們只會使用 yes 和 no 來進行二元分類。

學習目標

了解音訊資料的一些主要特徵。
如何建置音訊機器學習模型的簡介。
了解如何從聲波檔案建置二元分類模型。

必要條件

Python 的知識
對機器學習的基本了解

意見反應

此頁面對您有幫助嗎？