机器学习 - 训练

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍 机器学习 Studio (经典) 中提供的模块,用于训练机器学习模型。 训练 是使用预定义模型的参数分析输入数据的过程。 通过此分析,模型将学习模式,并保存这些模式,格式为已训练的模型。

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

本文还介绍了 机器学习 Studio (经典) 模型创建、训练、评估和评分的整个过程。

创建和使用机器学习模型

机器学习的典型工作流包括以下阶段:

  • 选择适当的算法并设置初始选项。
  • 根据兼容数据训练模型。
  • 根据模型中的模式,使用新数据创建预测。
  • 评估模型以确定预测是否准确、错误有多少以及是否过度拟合。

机器学习 Studio (经典) 支持灵活、可自定义的机器学习框架。 此过程中的每个任务都由特定类型的模块执行,该模块可以修改、添加或删除,而不会中断试验的其余部分。

此类别中的模块支持对不同类型的模型进行训练。 在训练期间,机器学习算法会分析数据。 此算法分析数据的分布和类型,编译统计信息,并创建稍后可用于预测的模式。

有关模型训练的更多内容

当机器学习模型时,将跳过具有缺失值的行。 因此,如果要手动修复值、使用计算或指定其他方法来处理缺失值,请使用清理缺失数据模块,然后再对数据集进行训练。

建议使用"编辑元数据 " 模块来修复数据的其他任何问题。 可能需要标记标签列、更改数据类型或正确的列名。

有关其他常见的数据清理任务(例如规范化、采样、分箱和缩放)请参阅数据 转换 类别。

选择正确的训练器

用于训练模型的方法取决于要创建的模型的类型以及模型所需的数据类型。 例如,机器学习专用于训练异常情况检测模型、建议模型等的模块。

检查 训练模块列表 ,确定哪个模块适合你的方案。

如果不确定训练模型时使用的最佳参数,请使用为参数扫描和验证提供的模块之一:

  • 优化模型超参数 可以针对几乎所有分类和回归模型执行参数扫描。 它训练多个模型,然后返回最佳模型。

  • 扫描 聚类分析模块 支持在训练过程中进行模型优化,仅用于聚类分析模型。 可以指定一系列质心,在自动检测最佳参数的同时对数据进行训练。

  • 交叉验证模型模块还可用于模型优化,但不返回已训练的模型。 相反,它提供可用于确定最佳模型的指标。

重新定型

如果需要重新训练生产模型,可以随时重新运行试验。

还可使用 Web 服务自动执行重新训练过程。 有关演练,请参阅使用 机器学习 重新训练Azure 数据工厂。

使用预先训练的模型

机器学习包括一些预先训练的模型,例如预训练级联图像分类模块。 可以使用这些模型进行评分,而无需其他数据输入。

此外, (时序异常情况检测) 不生成 iLearner 格式的已训练模型。 但是,他们采用训练数据,在内部创建模型,然后可以使用该模型进行预测。 若要使用这些参数,只需配置参数并提供数据。

保存已训练模型的快照

如果要保存或导出模型,请右键单击训练模块,然后选择" 另存为已训练模型"。 模型将导出为 iLearner 格式,并保存在工作区中的" 已训练模型"下。 训练的模型可以重新用于其他试验,或连接到其他模块进行评分。

还可以在试验 中使用"负载训练模型 "模块来检索存储的模型。

模块列表

" 训练 "类别包括以下模块:

某些模块不在此类别中,因为它们需要特殊格式或为特定任务自定义:

另请参阅