你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 有关最终版本,请参阅本文档的 EN-US 版本。
作为 Foundry Tools 服务中的 Azure 语音服务的一部分,发音评估为计算机辅助语言学习提供端到端的教育解决方案。 发音评估涉及多个标准来评估学习者在多层次细节上的表现,其感知类似于人类评委。
发音评估有多准确?
发音评估功能为 计算机辅助语言学习中的语言学习者提供目标分数,如发音准确性和流畅度。 发音评估的性能取决于Azure语音转文字转录的准确性,使用提交的转录作为参考,以及系统与人工评审员之间的评分者间的一致性。 有关语音-To-Text 准确性的定义,请参阅使用语音转文本的特征和限制。
以下部分旨在帮助你了解有关准确性的关键概念,因为它们适用于使用发音评估。
准确性说明
语音转文本的准确性会影响发音评估。 字词错误率 (WER) 是衡量语音转文本准确性的行业标准。 WER 计算识别过程中识别的错误单词数,然后除以正确脚本中提供的单词总数,这通常是由人工标记创建的。
将发音评估与人工评审员进行比较
皮尔逊相关系数用于测量发音评估 API 生成的分数和人类法官生成的分数之间的相关性。 皮尔逊相关系数是两个给定序列的线性相关性度量值。 它通常用于测量自动生成的计算机结果与人工批注标签之间的差异。 此系数赋值介于 –1 到 1 之间,其中 0 不相关,负值表示预测与目标相反,正值表示预测与目标对齐的方式。
下表显示了皮尔逊相关系数解释的建议准则。 强度表示两个变量之间的关系关联,并反映了计算机结果与人类标签的一致程度。 接近 1 的值表示更强的相关性。
| 关联强度 | 系数值 | 详细信息 |
|---|---|---|
| 低 | 0.1 到 0.3 | 自动系统中自动生成的分数与人类的看法没有明显一致。 |
| 中等 | 0.3 到 0.5 | 自动系统中自动生成的分数与人类的看法一致,但差异仍然存在,并且人们可能不同意结果。 |
| 高 | 0.5 到 1.0 | 自动系统中自动生成的分数与人类的看法一致,人们愿意同意系统结果。 |
在我们的评估中,Microsoft发音评估的结果与人类评委的结果的皮尔逊相关系数达到了 >0.5,这表明自动生成的结果与人类专家的判断高度一致。
提高系统准确性的系统限制和最佳做法
- 发音评估使用更高质量的音频输入效果更好。 建议输入质量为 16 kHz 或更高。
- 发音评估质量也受扬声器与麦克风的距离的影响。 应使用靠近麦克风的扬声器进行录制,而不是通过远程连接进行录制。
- 发音评估不支持混合语言评估方案。
- 发音评估支持更广泛的语言。
- 发音评估不支持多说话人评估方案。 对于每个评估,音频应仅包含一个说话人。
- 发音评估将提交的音频与母语说话人在一般情况下的发音进行比较。 说话人应保持正常的说话速度和音量,避免大喊大叫或提高声音。
- 发音评估在几乎没有背景噪音的环境中表现更好。 当前的语音转文本模型能在一般情况下适应噪音。 干扰环境或多人同时说话可能会导致评估置信度降低。 为了更好地处理困难案例,可以建议如果说话人得分低于特定阈值,则应重复发音。
在应用程序中进行发音评估
发音评估的性能将因客户实施的实际用途而异。 为了确保其方案中的最佳性能,客户应使用发音评估对其实现的解决方案进行自己的评估。
- 在应用程序中使用发音评估之前,请考虑此产品在你的方案中是否表现良好。 从目标场景中收集真实数据,测试发音评估的性能,并确保语音转文本和发音评估可以提供所需的准确性,请参阅 评估和提高 Foundry 工具自定义语音的准确性。
- 根据目标方案选择适当的阈值。 发音评估提供不同级别的准确度分数,可能需要考虑实际使用的阈值。 例如,儿童学习的分级方法可能不如成人学习那么严格。 请考虑为成人学习设置更高的发音错误检测阈值。