{ End Bracket }

机器翻译的出现

Vikram Dendi

打破语言界限进行沟通这一想法让历史学家和未来学家为之着迷。科幻小说作家展开想象的翅膀,创造出了宝贝鱼和万能翻译,而历史学家则为我们讲述了神秘的罗赛塔石碑,它能将一个文字翻译为三种语言。随着全球化的趋势愈发明显,能够让信息超越语言限制成为重中之重。

在过去的几十年里,为解决这一问题已采纳了多种方案。机器翻译 (MT) 就是其中的一位元老,但即便是在研究领域中做了多年投入,它至今仍未普及。早在二十世纪六十年代,就出现过一个缩写词,描绘了研究人员梦寐以求的翻译目标:FAHQT—常用文字的全自动高质量翻译。事实证明,这一理想化的 MT 方式只是空中楼阁,随后又诞生了一个可能更准确一些的缩写词:FAUT—全自动有用翻译。它的目标是不使用人工,创建一个系统,它能足够准确地给出实时翻译,为一般用户提供帮助。

在 Microsoft,研究人员已经为此做出了十余年的努力。研究人员采用的措施是将基于规则的逻辑与统计方法组合在一起,创建一个混合型统计造句系统。对于我们可以利用实质语言信息的语言对(原文和译文),我们围绕统计核心引擎在前期和后期处理中使用语法和句法知识。如果没有这类信息,我们会转为使用纯统计模型,它能顺利转换为多种语言对。

我们开发的机器翻译技术已在 Microsoft 内部彰显出自己的出色价值,自 2003 年起,我们已使用这项技术将 140,000 余篇知识库文章翻译为九种主要语言。公司内的许多其他团队也在使用这项技术降低成本,并改良本地化的工作范畴。2005 年,MT 团队受命扩大其作用范围,从那时起,我们的侧重点就转向在公司外部推广使用这项技术。我们的一般域翻译 Web 服务已通过搜索(提供对搜索结果的翻译)、Microsoft Office(提供段落和文件翻译)、Windows Live Messenger(充当翻译工具)等(请参阅 microsofttranslator.com)加以公开。

目前正在向为 Web 提供一般域翻译服务这一目标努力。MT 的真正价值不仅仅在于翻译引擎所提供的质量,如何在各种不同的环境中提供这些翻译以及解决任何质量问题的措施也是其衡量标准。由于翻译质量的参差不一,使得对翻译价值的认识受到限制,这一点与搜索、新闻、娱乐或游戏不同。产品的构建方非常有必要了解如何最大限度地发挥 MT 的潜能。

现在,大多数翻译工具都是门户网站或翻译网站,但将来翻译的最大价值是成为多语言受众环境中的主角。我们相信,十分有必要为开发人员、社区和内容创建者提供一种方式,帮助他们将翻译集成到工作流中,并用它加强社区的作用。

MSDN Translation Wiki 就是这些原则在实践中的一个良好示例。社区得以帮助改进翻译的质量并创造出了新的产物——核心技术与社区功能的组合体。

机器翻译不是一项十全十美的技术,它与评估搜索结果不同,后者只需让用户根据结果的合适程度做出评价即可。它与搜索的类似之处是:二者均能不时提供让人惊讶的准确性,并通过显示范围不断改良新数据。Microsoft 在提高翻译质量方面投入了巨资。

我预计本年度对于机器翻译而言至关重要。伴随着不断普及的社交网站所带来的强大功效,机器翻译也开始发挥它的潜能。在未来的几个月里,请密切关注机器翻译的新奇表现,它会在全球各地填平语言的沟壑。

Vikram Dendi 是 Microsoft Translator 团队的一名高级产品经理。他负责业务策略和产品规划,并致力于帮助开发人员构建无障碍的 Web。他的博客网址是 viks.orgblogs.msdn.com/translation