你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
提交用于训练的文档时,这些文档需要经历一系列的处理和筛选步骤。 这些步骤会在这里进行介绍。 了解筛选有助于你了解自定义翻译工具中显示的句子计数,以及在准备文档以使用自定义翻译工具进行训练时可以自行采取的步骤。
句子对齐
如果文档不是 XLIFF、TMX
或 ALIGN 格式,则自定义翻译工具会将源文档和目标文档的句子逐句彼此对齐。 自定义翻译器并不执行文档对齐操作,而是根据文档的命名找出另一语言的匹配文档。 在文档中,自定义翻译器会尝试找出另一语言的相应句子。 它使用类似于嵌入式 HTML 标记的文档标记来帮助进行对齐。
如果发现源文档和目标文档中的句子数量存在很大的差异,则源文档可能不是平行文档。 如果文档配对时每侧的句子存在大的差异 (>10%),则必须再次进行查看,确保这些句子确实已对齐。 如果句子计数差异令人怀疑,自定义翻译器会在文档旁边显示一个警告。
重复数据删除
自定义翻译器会删除存在于测试中的会根据训练数据来优化文档的句子。 删除操作在训练运行中动态进行,不在数据处理步骤中进行。 自定义翻译器会在进行此类删除之前,在项目概览中将句子计数报告给你。 如果选择上传自己的测试和优化文档,则删除重复数据不适用。
长度筛选器
- 删除任意一侧的只有一个单词的句子。
- 删除任意一侧的包含 100 多个单词的句子。 中文、日语和朝鲜语除外。
- 删除少于三个字符的句子。 中文、日语和朝鲜语除外。
- 移除包括超过 2,000 个中文、日语、朝鲜语字符的句子。
- 删除字母字符数不到 1% 的句子。
- 删除包含 50 多个单词的字典条目。
空格
- 将任何序列的空格字符(包括制表符和 CR/LF 序列)替换为单个空格的字符。
- 删除句子中的前导或尾随空格
句末标点
将多个句末标点字符替换为单个实例。
日语字符规范化
将全角字母和数字转换为半角字符。
非转义的 XML 标记
筛选会将非转义的标记转换为转义的标记:
-
<
变为&lt;
-
>
变为&gt;
-
&
变为&amp;
无效字符
自定义翻译器会删除包含 Unicode 字符 U+FFFD 的句子。 字符 U+FFFD 表示编码转换失败。