简介

已完成

是否想知道语音助理如何识别短命令,如“是”、“否”或“停止”? 完整的语音助手通常结合了许多系统,包括音频捕获、语音识别、自然语言处理和意向分类。 本模块重点介绍一个更小但重要的任务:短音频剪辑中的关键字分类。

可通过多种方法生成音频分类模型。 模型可以直接从波形、工程音频特征或表示随时间推移的频率内容的光谱图中学习。 在本模块中,你将使用 TensorFlow 将音频波形转换为光谱图张量,并训练简单的卷积神经网络来分类单词 yesno

这些示例使用 TensorFlow 为教程提供的小型语音命令数据集。 原始 语音命令数据集Warden, 2018)包含超过 105,000 个单秒或较短的 WAV 文件,包含 35 个口语。 微型语音命令数据集包含 8 个命令,此模块仅使用 yesno 文件夹进行二元分类。

学习目标

  • 了解音频数据的关键特征,包括采样率、振幅、通道和波形。
  • 将音频波形转换为光谱图张量。
  • 从 WAV 文件生成和评估二进制关键字分类模型。

先决条件

  • Python 基础知识
  • 对机器学习有基本的了解
  • 支持 TensorFlow 2.10 或更高版本的Python环境,已安装 TensorFlow 和 Matplotlib。 使用所安装的 TensorFlow 版本支持的Python版本。 有关安装指南,请参阅 使用 pip 安装 TensorFlow安装 Matplotlib