总结
祝贺你了解如何生成二进制音频分类模型。
你了解了模拟声音如何表示为数字样本、波形如何显示随时间变化的振幅,以及光谱图如何显示随时间推移的频率内容。 你还了解了如何从语音命令数据集加载 yes 和 no 类,将波形转换为光谱图张量,训练卷积神经网络,并评估保留数据上的模型。
后续步骤
若要更深入地学习,请尝试以下想法:
- 通过加载
SOURCE_DATASET_PATH而不是二进制BINARY_DATASET_PATH文件,扩展模型以对微型语音命令数据集中的所有八个命令进行分类。 数组label_names和num_labels值将从目录名称自动更新。 - 使用 TensorFlow 数据集提供的完整语音命令数据集及
trainvalidationtest拆分,以便进行更严格的评估。 TensorFlow 数据集公开标准关键字发现标签集,包括目标命令,_unknown__silence_因此更新该标签集的输出层和标签处理。 - 尝试使用预先训练的 YAMNet 模型 进行音频识别的传输学习 。