你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

运行状况自定义文本分析语言支持

通过本文了解运行状况自定义文本分析当前支持的语言。

多语言选项

借助运行状况自定义文本分析,你可以使用一种语言来训练模型,并使用该模型从其他语言的文档中提取实体。 此功能免去了为每种语言都生成单独项目的麻烦,而是将数据集合并到单个项目中,从而可以轻松地将项目扩展到多种语言。 你可以完全使用英语文档训练项目,然后使用法语、德语和意大利语等语言进行查询。 你可以在项目创建过程中启用多语言选项,也可以在以后通过项目设置启用多语言选项。

不需要为每种语言添加相同数量的文档。 应该用一种语言生成大部分项目,并且只添加你观察到表现不佳的语言的一些文档。 如果创建一个以英语为主要语言的项目,并开始使用法语、德语和西班牙语进行测试,你可能会发现德语的表现不如另外两种语言。 在这种情况下,请考虑使用德语添加 5% 的原始英语文档,训练新模型,然后再次使用德语进行测试。 在 Language Studio 的数据标签页中,可以选择要添加的文档的语言。 对于德语查询,应会看到更好的结果。 添加的已标记文档越多,结果可能越好。 以另一种语言添加数据时,不应期望数据对其他语言产生负面影响。

多语言项目不支持希伯来语。 如果项目的主要语言是希伯来语,则无法添加其他语言的训练数据,也无法使用其他语言进行模型查询。 同样,如果项目的主要语言不是希伯来语,则不能添加希伯来语的训练数据,也无法使用希伯来语进行模型查询。

语言支持

运行状况自定义文本分析支持以下语言的 .txt 文件:

语言 语言代码
英语 en
法语 fr
德语 de
西班牙语 es
意大利语 it
葡萄牙语(葡萄牙) pt-pt
希伯来语 he

后续步骤