TensorFlow を使用したオーディオ分類の概要
この学習モジュールでは、TensorFlow を使用してオーディオ分類を行う方法について学習します。 オーディオ分類モデルを作成するには、複数の方法があります。 波形を使用したり、wave ファイルのセクションにタグを付けたり、スペクトログラム画像で Computer Vision を使用したりすることもできます。 このチュートリアルでは、最初にオーディオ データを理解する方法をアナログからデジタル表現まで分解し、次にスペクトログラム画像で Computer Vision を使用してモデルを構築します。 そうです、音声を画像表現に変換してから、Computer Vision を実行して、話された単語を分類することができます。
学習の目的
このモジュールでは、次のことを行います。
- オーディオ データの基本を学習する
- オーディオ データを視覚化して変換する方法について学習します
- "はい" と "いいえ" を認識できる二項分類音声モデルを構築する
前提条件
- Python の基本的な知識
- Jupyter Notebook の使用方法に関する基本的な知識
- 機械学習についての基本的な理解