简介

5 分钟

是否想知道语音助理如何识别短命令，如“是”、“否”或“停止”？完整的语音助手通常结合了许多系统，包括音频捕获、语音识别、自然语言处理和意向分类。本模块重点介绍一个更小但重要的任务：短音频剪辑中的关键字分类。

可通过多种方法生成音频分类模型。模型可以直接从波形、工程音频特征或表示随时间推移的频率内容的光谱图中学习。在本模块中，你将使用 TensorFlow 将音频波形转换为光谱图张量，并训练简单的卷积神经网络来分类单词 yes 和 no。

这些示例使用 TensorFlow 为教程提供的小型语音命令数据集。原始语音命令数据集（Warden， 2018）包含超过 105,000 个单秒或较短的 WAV 文件，包含 35 个口语。微型语音命令数据集包含 8 个命令，此模块仅使用 yes 和 no 文件夹进行二元分类。

学习目标

了解音频数据的关键特征，包括采样率、振幅、通道和波形。
将音频波形转换为光谱图张量。
从 WAV 文件生成和评估二进制关键字分类模型。

先决条件

Python 基础知识
对机器学习有基本的了解
支持 TensorFlow 2.10 或更高版本的Python环境，已安装 TensorFlow 和 Matplotlib。使用所安装的 TensorFlow 版本支持的Python版本。有关安装指南，请参阅使用 pip 安装 TensorFlow 并安装 Matplotlib。

反馈

此页面是否有帮助？