语音识别

2025-03-13

[从 Windows 7 开始，Microsoft代理已弃用，在后续版本的 Windows 中可能不可用。

语音识别为与字符交互提供了非常自然和熟悉的界面。但是，语音输入也带来了许多挑战。语音引擎目前在没有大量人工语音通信剧目（如手势、语调和面部表情）的情况下运行。此外，自然语音通常不受限制。说话人很容易超过引擎的当前词汇或语法。同样，任何给定请求或响应的措辞或单词顺序可能有所不同。此外，语音识别引擎通常必须处理说话人环境中的较大变化。例如，背景噪音、麦克风质量和位置可能会影响输入质量。同样，不同的说话人发音甚至同一说话人变体（例如，当说话人感冒时），使得将声学数据转换为代表性理解是一项挑战。最后，语音引擎还必须处理一种语言的类似听起来的字词或短语，如“新”、“知道”和“gnu”或“破坏一个漂亮的海滩”和“识别语音”。

语音并不总是任务的最佳输入形式。由于语音的转折性质，它通常比其他形式的输入速度慢。与键盘一样，语音输入是指向的接口不佳，除非提供了某种类型的助记表示形式。因此，始终考虑语音是否是任务最合适的输入。最好避免将语音用作任何任务的独占接口。提供使用鼠标或键盘等方法访问任何基本功能的其他方法。此外，通过将语音输入与有助于指定上下文和选项的视觉信息组合在视觉界面中使用语音的多模式特性。

最后，语音输入的成功使用是由于技术质量的一部分。即使是超过任何当前识别技术的人类识别，有时也会失败。但是，在人类沟通中，我们使用策略来改善成功的可能性，并在出现问题时提供错误恢复。因此，语音输入的有效性也取决于呈现语音输入的用户界面的质量。

设计更自然的语音接口时，研究语音交互的人类模型非常有用。录制特定方案的实际人工语音对话有助于更好地了解使用的构造和模式以及有效的反馈和错误恢复形式。它可以帮助确定要使用的适当词汇（用于输入和输出）。最好根据用户实际说话的方式设计语音界面，而不是简单地从其作的图形界面派生它。

请注意，Microsoft代理使用 Microsoft 语音 API （SAPI）来支持语音识别。这使Microsoft代理能够与各种兼容的引擎一起使用。尽管Microsoft代理指定某些基本接口，但引擎的性能要求和质量可能会有所不同。

语音并不是支持对话接口的唯一手段。还可以使用键盘输入的自然语言处理来代替或取代语音。在这些情况下，仍可以普遍应用语音输入指南。

通过

语音识别

反馈

其他资源