はじめに

完了

音声アシスタントの実際にどのようなしくみになっているか、疑問に思ったことはありませんか? これらは私たちが言う言葉をどのように理解しているのでしょうか? 音声アシスタントについて考えると、まず音声テキスト変換が最初のステップとして行われ、次に言語を埋め込む (単語を数字に変える) 自然言語処理 (NLP) のステップがあり、次に発話 (人が話内容) を意図に分類 (音声アシスタントで行う操作) します。 このラーニング パスに従っている場合、NLP 部分の動作については、既に学習しています。 ここでは、音声からテキストを取得する方法を見ていきます。 音声分類は、音声アシスタントだけではなく、数多くの目的に使用されます。 たとえば、音楽ではジャンルを分類したり、人の声からは口調で病気を検出したりすることができますが、それ以外にも、思いもしたことがない、さらに多くの用途があるでしょう。

この学習モジュールでは、TensorFlow を使用してオーディオ分類を行う方法について学習します。 オーディオ分類モデルを作成するには、複数の方法があります。 波形を使用したり、wave ファイルのセクションにタグを付けたり、スペクトログラム画像で Computer Vision を使用したりすることもできます。 このチュートリアルでは、最初にオーディオ データを理解する方法をアナログからデジタル表現にまで分解し、次にスペクトログラム画像で Computer Vision を使用してモデルを構築します。 そうです、オーディオを画像表現に変換してから、Computer Vision を実行して、話した単語を分類することができるのです。 yesno を理解できる単純なモデルを構築します。 使用するデータセットは、TensorFlow データセットに組み込まれているオープン データセットの音声コマンドです。 このデータセットには、分類に使用される合計で 36 の異なる単語またはサウンドが含まれています。 各発話は、1 秒 (またはそれ未満) の WAVE 形式のファイルとして保存されます。 二項分類には、yesno のみを使用します。

学習の目的

  • オーディオ データの主な機能について理解します。
  • オーディオ機械学習モデルを構築する方法の概要。
  • wave ファイルから二項分類モデルを構築する方法について学習します。

前提条件

  • Python の知識
  • 機械学習についての基本的な理解