你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

训练自定义模型

模型提供特定语言对的翻译。 成功培训的结果即为一种模型。 若要训练自定义模型,需要三种互斥的文档类型:训练、优化和测试。 如果在对训练进行排队时仅提供训练数据,则自定义翻译器会自动组装优化和测试数据。 它会使用训练文档中的随机句子子集,从训练数据本身中排除这些句子。 训练完整模型至少需要 10,000 个并行训练句子。

创建模型

  1. 选择“训练模型”边栏选项卡。

  2. 键入模型名称。

  3. 保持选中默认的“完整训练”,或选择“仅字典训练”。

    备注

    完整训练显示所有上传的文档类型。 仅字典只显示字典文档。

  4. 在“选择文档”下,选择要用于训练模型的文档(例如 sample-English-German),并查看与所选句子数关联的训练成本。

  5. 选择“立即训练”。

  6. 选择“训练”以确认。

    注意

    “通知”显示正在进行的模型训练,例如“提交数据”状态。 训练模型将花费几个小时,具体取决于选定的句子数。

    显示“训练模型”边栏选项卡的屏幕截图。

什么情况下选择仅字典训练

我们建议让系统从训练数据中学习,以获得最佳结果。 但是,如果没有足够的并行句子来满足 10,000 的最低要求,或者句子和复合名词必须按原样呈现,请使用仅字典训练。 模型完成该训练的速度通常比完整训练要快得多。 生成的模型将使用用于翻译的基准模型以及已添加的字典。 你不会看到 BLEU 分数,也不会获得测试报告。

备注

自定义翻译器不会在字典文件中进行句子对齐。 因此,必须确保字典文档中的源和目标短语/句子数相同,并且它们已准确对齐。 如果没有,则文档上传将失败。

模型详细信息

  1. 成功进行模型训练后,选择“模型详细信息”边栏选项卡。

  2. 选择“模型名称”,查看训练日期/时间、总训练时间、用于训练、优化、测试、字典的句子数,以及系统是否生成测试和优化集。 你将使用 Category ID 发出翻译请求。

  3. 评估模型 BLEU 分数。 查看测试集:“BLEU 分数”是自定义模型分数,而“基线 BLEU”是用于自定义的预先训练的基线模型。 较高的 BLEU 分数意味着使用自定义模型的翻译质量较高。

    显示模型详细信息字段的屏幕截图。

复制模型

  1. 选择“模型详细信息”边栏选项卡。

  2. 将鼠标悬停在模型名称上,并勾选选择按钮。

  3. 选择“复制”。

  4. 填写新模型名称。

  5. 如果不选择或上传更多数据,则保持“立即训练”处于选中状态,否则,选中“另存为草稿”

  6. 选择“保存”

    备注

    如果将模型另存为 Draft,“模型详细信息”中的模型名称会更新为 Draft 状态。

    若要添加更多文档,请在模型名称上选择,然后按照上面的 Create model 部分操作。

    显示“复制模型”边栏选项卡的屏幕截图。

后续步骤