你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

如何为自定义 NER 准备数据并定义架构

若要创建自定义 NER 模型，需要质量数据来训练它。本文介绍应如何选择和准备数据，以及如何定义架构。定义架构是项目开发生命周期中的第一步，它定义需要模型在运行时从文本中提取的实体类型/类别。

架构设计

架构定义需要模型在运行时从文本中提取的实体类型/类别。

查看数据集中的文档，熟悉其格式和结构。
标识要从数据中提取的实体。

例如，如果要从支持电子邮件中提取实体，则可能需要提取“客户名称”、“产品名称”、“请求日期”和“联系信息”。
避免实体类型含糊不清。

当你选择的类型彼此相似时，就会发生歧义。架构越模棱两可，需要区分不同实体类型所需的标记数据越多。

例如，如果要从法律协定中提取数据，若要提取“第一方的名称”和“第二方的名称”，则需要添加更多示例来克服歧义，因为双方的名称看起来相似。请避免歧义，因为它可以省时省力，并获得更好的结果。
避免使用复杂实体。复杂实体可能难以从文本中精确选取。请考虑将其分解为多个实体。

例如，如果未分解为较小的实体，则提取“地址”将很有挑战性。地址的显示方式有很多种变化，如果以整体形式提取地址而不进行分解，则需要大量带标记的实体来指导模型提取地址。但是，如果将“地址”替换为“街道名称”、“PO Box”、“City”、“State”和“Zip”，则模型要求每个实体的标签更少。

训练模型的数据质量会极大地影响模型性能。

注意

如果文档采用多种语言，请在项目创建过程中选择“启用多语言”选项，并将语言选项设置为大多数文档的语言。

作为创建项目的先决条件，需要将训练数据上传到存储帐户中的 Blob 容器。可使用 Azure 存储资源管理器工具或直接从 Azure 创建和上传训练文档。使用 Azure 存储资源管理器工具可以快速上传更多数据。

仅可使用 .txt 文档。如果数据采用其他格式，则可使用 CLUtils 分析命令更改文档格式。

可以上传批注数据集，也可以上传未批注数据集并标记数据。

定义测试集时，请确保包含训练集中不存在的示例文档。定义测试集是计算模型性能的重要步骤。此外，请确保测试集包含代表项目中使用的所有实体的文档。

如果尚未创建，请创建一个自定义 NER 项目。如果是第一次使用自定义 NER，请考虑按照快速入门创建一个示例项目。有关详细信息，请参阅操作指南文章。

此页面是否有帮助？