你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用自定义模型生成、发布和翻译

翻译器是一种基于云的神经网络机器翻译服务,是 REST API 的 Azure AI 服务系列的一部分,可以用于任何操作系统。 翻译器为全球数千家企业使用的许多 Microsoft 产品和服务提供支持,以执行语言翻译和其他与语言相关的操作。 本快速入门介绍如何跨所有受支持的语言为应用程序生成自定义解决方案。

先决条件

若要使用自定义翻译器门户,需要具有以下资源:

  • Microsoft 帐户

  • Azure 订阅 - 免费创建订阅

  • 有了 Azure 订阅后,请在 Azure 门户中创建 Translator 资源,以获取密钥和终结点。 部署后,选择”转到资源”。

    • 需要从资源获取密钥和终结点,以便将应用程序连接到翻译器服务。 稍后需要在本快速入门中将密钥和终结点粘贴到代码中。 可以在 Azure 门户的“密钥和终结点”页面上找到这些值:

      屏幕截图:Azure 门户的“密钥和终结点”页面。

有关详细信息,请参阅 如何创建翻译工具资源

自定义翻译器门户

完成先决条件后,登录到自定义翻译器门户,以创建工作区、生成项目、上传文件、训练模型和发布自定义解决方案。

你可在 Azure AI 技术博客中阅读翻译和自定义翻译的概述、学习一些技巧并观看入门视频。

进程摘要

  1. 创建工作区。 工作区是用于编写和构建自定义翻译系统的工作区域。 工作区可以包含多个项目、模型和文档。 在自定义翻译工具中完成的所有工作都是在特定工作区中完成的。

  2. 创建项目。 项目是模型、文档和测试的包装器。 每个项目都包含已上传到该工作区的具有正确语言对的所有文档。 例如,如果你有一个英语到西班牙语的翻译项目,以及一个西班牙语到英语的翻译项目,则这两个项目中将包含相同的文档。

  3. 上传并行文档。 并行文档是成对的文档,其中一个(目标)是另一个(源)的翻译。 该对中的一个文档包含采用源语言的句子,另一个文档包含句子的目标语言翻译。 哪种语言标记为“源”以及哪种语言标记为“目标”并不重要 - 并行文档可用于朝任一方向训练翻译系统。

  4. 训练模型。 模型是为特定语言对提供翻译的系统。 成功培训的结果即为一种模型。 训练模型时,需要三种互斥的文档类型:训练、优化和测试。 如果在对训练进行排队时仅提供训练数据,则自定义翻译器会自动收集优化和测试数据。 它会使用训练文档中的随机句子子集,并从训练数据本身中排除这些句子。 至少需要有 10,000 个并行句子才能训练一个模型。

  5. 测试(人工评估)模型。 测试集用于计算 BLEU 分数。 此评分表示翻译系统的质量。

  6. 发布(部署)已训练的模型。 自定义模型将可用于运行时翻译请求。

  7. 翻译文本。 使用基于云的、高性能的、高度可缩放的安全 Microsoft 翻译工具文本 API V3 来进行翻译请求。

创建工作区

  1. 在登录到自定义翻译工具后,你需要有权限从 Microsoft 标识平台读取你的配置文件,以请求你的用户访问令牌和刷新令牌。 对于身份验证以及确保在实时会话过程中或在训练模型时不会注销,都需要这两个令牌。
    选择“是”。

    展示了如何创建工作区的屏幕截图。

  2. 选择“我的工作区”。

  3. 选择“新建工作区”。

  4. 键入“Contoso MT 模型”作为“工作区名称”,然后选择“下一步”。

  5. 对于“选择资源区域”,从下拉列表中选择“全局”。

  6. 复制/粘贴翻译工具服务密钥。

  7. 选择“下一步”。

  8. 选择“完成”。

    注意

    区域必须与资源创建过程中选择的区域匹配。 可以使用“密钥 1”或“密钥 2”。

    说明资源密钥的屏幕截图。

    说明工作区创建的屏幕截图。

创建项目

成功创建工作区后,将进入“项目”页面。

你将创建“英语到德语”翻译项目,以仅仅使用一个训练文档类型训练自定义模型。

  1. 选择“创建项目”。

  2. 键入“英语到德语”作为“项目名称”。

  3. 从下拉列表中选择“英语(en)”作为“源语言”。

  4. 从下拉列表中选择“德语(de)”作为“目标语言”。

  5. 从下拉列表中选择“常规”作为“域”。

  6. 选择“创建项目”。

    展示了如何创建项目的屏幕截图。

上传文档

若要创建自定义模型,需要上传训练优化测试字典文档类型的全部或组合。

本快速入门介绍如何上传用于自定义的训练文档。

注意

对于本快速入门,可以使用我们的示例训练、短语和句子字典数据集(客户示例“英语到德语”数据集)。 但是,对于生产,最好上传自己的训练数据集。

  1. 选择“英语到德语”项目名称。

  2. 在左侧导航菜单中选择“管理文档”。

  3. 选择“添加文档集”。

  4. 选中“训练集”框,然后选择“下一步”。

  5. 将“并行文档”保持选中状态,并键入“sample-English-German”。

  6. 在“源(英语 - EN)文件”下,选择“浏览文件”,然后选择“sample-English-German-Training-en.txt”。

  7. 在“目标(德语 - EN)文件”下,选择“浏览文件”,然后选择“sample-English-German-Training-de.txt”。

  8. 选择“上传”

    注意

    可以上传示例短语和句子字典数据集。 此步骤由你完成。

    展示了如何上传文档的屏幕截图。

训练模型

现在,你已准备好训练“英语到德语”模型。

  1. 在左侧导航菜单中选择“训练模型”。

  2. 键入“带示例数据的 en-de”作为“模型名称”。

  3. 将“完全训练”保持选中状态。

  4. 在“选择文档”下,选中“sample-English-German”并查看与所选句子数关联的训练成本。

  5. 选择“立即训练”。

  6. 选择“训练”以确认。

    注意

    “通知”显示正在进行的模型训练,例如“提交数据”状态。 训练模型将花费几个小时,具体取决于选定的句子数。

    展示了如何创建模型的屏幕截图。

  7. 成功进行模型训练后,从左侧导航菜单中选择“模型详细信息”。

  8. 选择包含示例数据的模型名称 en-de。 查看训练日期/时间、总训练时间,以及用于训练、优化、测试和字典的语句数。 检查系统是否生成了测试集和优化集。 你将使用 Category ID 来发出翻译请求。

  9. 评估模型 BLEU 分数。 测试集 BLEU 分数是自定义模型分数,而基线 BLEU 是用于进行自定义的预先训练的基线模型。 较高的 BLEU 分数意味着使用自定义模型的翻译质量较高。

    注意

    如果你使用我们的共享客户示例数据集进行训练,则 BLEU 分数将不同于下图。

    显示了模型详细信息的屏幕截图。

测试模型

成功完成训练后,请检查测试集翻译的句子。

  1. 在左侧导航菜单中选择“测试模型”。
  2. 选择“带示例数据的 en-de”
  3. 根据“参考”(测试集内的目标翻译),人工评估来自新模型(自定义模型)和基线模型(用于进行自定义的预训练基线)的翻译

发布模型

发布模型将使其可与翻译工具 API 配合使用。 一个项目可以具有一个或多个已成功训练的模型。 每个项目只能发布一个模型;但是,可以根据需要将一个模型发布到一个或多个区域。 有关详细信息,请参阅翻译工具定价

  1. 在左侧导航菜单中选择“发布模型”。

  2. 选择“带示例数据的 en-de”,然后选择“发布”。

  3. 选中所需区域。

  4. 选择发布。 状态应从“正在部署”转换为“已部署”。

    展示了如何部署已训练模型的屏幕截图。

翻译文本

  1. 当使用 Microsoft 翻译工具文本 API V3 进行翻译请求时,开发人员应使用 Category ID。 有关文本翻译 API 的详细信息,可查看 API 参考网页。

  2. 业务人员可能还需要下载并安装免费的适用于 Windows 的 DocumentTranslator 应用

后续步骤