通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

发音评估的特征和限制

重要

仅为方便起见,提供非英语翻译。 有关最终版本,请参阅本文档的 EN-US 版本

作为 Foundry Tools 服务中的 Azure 语音服务的一部分,发音评估为计算机辅助语言学习提供端到端的教育解决方案。 发音评估涉及多个标准来评估学习者在多层次细节上的表现,其感知类似于人类评委。

发音评估有多准确?

发音评估功能为 计算机辅助语言学习中的语言学习者提供目标分数,如发音准确性和流畅度。 发音评估的性能取决于Azure语音转文字转录的准确性,使用提交的转录作为参考,以及系统与人工评审员之间的评分者间的一致性。 有关语音-To-Text 准确性的定义,请参阅使用语音转文本的特征和限制

以下部分旨在帮助你了解有关准确性的关键概念,因为它们适用于使用发音评估。

准确性说明

语音转文本的准确性会影响发音评估。 字词错误率 (WER) 是衡量语音转文本准确性的行业标准。 WER 计算识别过程中识别的错误单词数,然后除以正确脚本中提供的单词总数,这通常是由人工标记创建的。

将发音评估与人工评审员进行比较

皮尔逊相关系数用于测量发音评估 API 生成的分数和人类法官生成的分数之间的相关性。 皮尔逊相关系数是两个给定序列的线性相关性度量值。 它通常用于测量自动生成的计算机结果与人工批注标签之间的差异。 此系数赋值介于 –1 到 1 之间,其中 0 不相关,负值表示预测与目标相反,正值表示预测与目标对齐的方式。

下表显示了皮尔逊相关系数解释的建议准则。 强度表示两个变量之间的关系关联,并反映了计算机结果与人类标签的一致程度。 接近 1 的值表示更强的相关性。

关联强度 系数值 详细信息
0.1 到 0.3 自动系统中自动生成的分数与人类的看法没有明显一致。
中等 0.3 到 0.5 自动系统中自动生成的分数与人类的看法一致,但差异仍然存在,并且人们可能不同意结果。
0.5 到 1.0 自动系统中自动生成的分数与人类的看法一致,人们愿意同意系统结果。

在我们的评估中,Microsoft发音评估的结果与人类评委的结果的皮尔逊相关系数达到了 >0.5,这表明自动生成的结果与人类专家的判断高度一致。

提高系统准确性的系统限制和最佳做法

  • 发音评估使用更高质量的音频输入效果更好。 建议输入质量为 16 kHz 或更高。
  • 发音评估质量也受扬声器与麦克风的距离的影响。 应使用靠近麦克风的扬声器进行录制,而不是通过远程连接进行录制。
  • 发音评估不支持混合语言评估方案。
  • 发音评估支持更广泛的语言
  • 发音评估不支持多说话人评估方案。 对于每个评估,音频应仅包含一个说话人。
  • 发音评估将提交的音频与母语说话人在一般情况下的发音进行比较。 说话人应保持正常的说话速度和音量,避免大喊大叫或提高声音。
  • 发音评估在几乎没有背景噪音的环境中表现更好。 当前的语音转文本模型能在一般情况下适应噪音。 干扰环境或多人同时说话可能会导致评估置信度降低。 为了更好地处理困难案例,可以建议如果说话人得分低于特定阈值,则应重复发音。

在应用程序中进行发音评估

发音评估的性能将因客户实施的实际用途而异。 为了确保其方案中的最佳性能,客户应使用发音评估对其实现的解决方案进行自己的评估。

  • 在应用程序中使用发音评估之前,请考虑此产品在你的方案中是否表现良好。 从目标场景中收集真实数据,测试发音评估的性能,并确保语音转文本和发音评估可以提供所需的准确性,请参阅 评估和提高 Foundry 工具自定义语音的准确性
  • 根据目标方案选择适当的阈值。 发音评估提供不同级别的准确度分数,可能需要考虑实际使用的阈值。 例如,儿童学习的分级方法可能不如成人学习那么严格。 请考虑为成人学习设置更高的发音错误检测阈值。