培训
认证
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure 机器学习和 MLflow 管理数据引入和准备、模型训练和部署以及机器学习解决方案监视。
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
训练是模型从标记的数据中学习的过程。 完成训练后,可通过查看模型的性能来确定是否需要改进模型。
若要训练模型,请启动训练作业,只有成功完成的作业才能创建模型。 培训作业将在七天后过期,这意味着你将无法在此时间之后检索作业详细信息。 如果成功完成训练作业并创建了模型,则该模型不会受到影响。 一次只能运行一个训练作业,并且无法在同一项目中启动其他作业。
处理少量文档时,训练时间可从几分钟到几小时不等,具体取决于数据集大小和架构的复杂性。
有关详细信息,请参阅项目开发生命周期。
开始训练过程之前,项目中标记的文档会划分为训练集和测试集。 每个集合都有不同的功能。 训练集用于训练模型,该集合是模型从中学习标记的实体的集合以及要提取为实体的文本范围。 测试集是一个盲集,它不是在训练期间引入到模型的,而是在评估期间引入的。 成功完成模型训练后,将使用模型根据测试中的文档进行预测,并根据这些预测计算评估指标。 建议确保所有实体在训练集和测试集中都能充分表示。
自定义 NER 支持两种数据拆分方法:
备注
如果选择“自动从训练数据拆分测试集”选项,则只有分配给训练集的数据会按照提供的百分比拆分。
若要在 Language Studio 中开始训练模型,请执行以下操作:
在左侧菜单中,选择“训练作业”。
从顶部菜单中选择“启动训练作业”。
然后选择“训练新模型”并在文本框中键入模型名称。 还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。 覆盖已训练的模型是不可逆的,但这在部署新模型之前不会影响已部署的模型。
选择数据拆分方法。 可以选择“从训练数据中自动拆分测试集”,系统将根据指定的百分比在训练集和测试集之间拆分标记数据。 也可以选择“手动拆分训练和测试数据”,仅当在数据标记期间已将文档添加到测试集中时,才会启用此选项。 有关数据拆分的信息,请参阅如何训练模型。
选择“训练”按钮。
如果从列表中选择训练作业 ID,则会显示一个侧窗格,可在其中检查此作业的“训练进度”、“作业状态”和其他详细信息。
备注
若要在 Language Studio 中取消训练作业,请转到“训练作业”页。 选择要取消的训练作业,然后选择顶部菜单中的“取消”。
完成训练后,将能够查看模型性能,并在需要时选择改进模型。 对模型感到满意后,就可以部署模型,使其可用于从文本中提取实体。
培训
认证
Microsoft Certified: Azure Data Scientist Associate - Certifications
使用 Python、Azure 机器学习和 MLflow 管理数据引入和准备、模型训练和部署以及机器学习解决方案监视。
文档
为自定义 NER 准备数据并设计架构 - Azure AI services
了解如何选择和准备数据,以成功创建自定义 NER 项目。
如何标记自定义命名实体识别 (NER) 的数据 - Azure AI services
了解如何标记用于自定义命名实体识别 (NER) 的数据。
创建自定义 NER 项目并使用 Azure 资源 - Azure AI services
了解如何为自定义 NER 创建和管理项目与 Azure 资源。