总结

已完成

祝贺你了解如何生成二进制音频分类模型。

你了解了模拟声音如何表示为数字样本、波形如何显示随时间变化的振幅,以及光谱图如何显示随时间推移的频率内容。 你还了解了如何从语音命令数据集加载 yesno 类,将波形转换为光谱图张量,训练卷积神经网络,并评估保留数据上的模型。

后续步骤

若要更深入地学习,请尝试以下想法:

  • 通过加载 SOURCE_DATASET_PATH 而不是二进制 BINARY_DATASET_PATH文件,扩展模型以对微型语音命令数据集中的所有八个命令进行分类。 数组 label_namesnum_labels 值将从目录名称自动更新。
  • 使用 TensorFlow 数据集提供的完整语音命令数据集trainvalidationtest拆分,以便进行更严格的评估。 TensorFlow 数据集公开标准关键字发现标签集,包括目标命令,_unknown__silence_因此更新该标签集的输出层和标签处理。
  • 尝试使用预先训练的 YAMNet 模型 进行音频识别的传输学习