数据转换 - 采样和拆分

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍 机器学习 Studio (经典) 可用于对数据进行分区或采样的模块。

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

拆分数据集和采样数据集都是机器学习中的重要任务。 例如,通常将数据划分为训练集和测试集,以帮助你评估保持数据集上的模型。 在大数据时代,采样也变得越来越重要,以确保训练数据中的类分布公平。 采样还有助于确保处理的数据不会超过所需的数据。

可以使用 机器学习 Studio (经典) 模块来自定义拆分数据集或示例数据集的方式:

  • 基于数据中的属性筛选训练数据。
  • 执行分层采样,在 n 个 组中平均划分 类变量。
  • 使用自定义比率将源数据划分为训练和测试数据集。
  • 对数据应用正则表达式以筛选出无效值。

选择正确的操作:拆分或采样

机器学习 Studio (经典) 提供了两个封装任务的模块。 模块听起来相似,但它们具有不同的用途,并提供互补的功能。 很可能你将在试验中同时使用这两个模块,以获得正确的数据量和适当的组合。

接下来,通过查看每个模块通常用于的任务来比较拆分数据模块和分区和示例模块。

拆分数据模块的用法

  • 将数据划分为两个组。 使用 拆分数据 模块。 模块只生成两个数据拆分。 可以指定拆分数据的条件,以及要放入每个子集的数据的比例。 拆分 数据始终保存不满足条件的数据子集。
  • 将标签值平均分配给数据集。 这两个模块都支持对指定列进行分层的选项。 但是,如果要创建两个数据集,并且主要对标签列感兴趣,则拆分 数据模块是 一种快速解决方案。

使用拆分数据模块的示例

假设你从 CSV 文件导入了一个非常大的数据集。 数据集包含客户人口统计信息。 你想要为不同国家/地区的客户创建不同的模型,因此你决定使用 列的值拆分 Country-Region 数据。 下面是完成此任务所执行的步骤:

  1. 添加 "拆分数据 "模块,然后在字段上指定 Country-Region 表达式。 其余数据在辅助输出上可用。
  2. 添加拆分数据 模块的另一 个实例。
  3. 重复步骤 1 和 2。 在每个迭代的表达式中指定不同的国家/地区。

拆分 数据 模块支持 文本数据的正则表达式和 数字数据的相对表达式。

拆分 数据 模块还提供复杂的功能,可用于划分专用数据集。 使用 功能创建建议模型并生成预测。

分区和示例模块的用法

  • 采样。 始终使用 分区和示例 模块。 该模块提供多种可自定义的采样方法,包括用于分层采样的多个选项。
  • 将事例分配给多个组。 使用"分区和示例"模块中的"分配到折叠"或"选取折叠"选项。
  • 仅返回数据的子集。 使用分区 和示例 模块。 该模块提供主输出上的指定子集。 其余数据在辅助输出上可用。
  • 仅获取数据集的前 2,000 行。 使用分区 和示例 模块。 选择" 头" 选项。 当你测试新试验并想要运行工作流的短试用版时,这尤其方便。

使用分区和示例模块的示例

分区 和示例 模块可以生成多个数据分区,而不只是两个分区。 同时,它可以执行各种采样操作。

例如,假设只需要获取 10% 的数据,同时确保目标属性的分布与源数据中的分布相同。 下面是完成此任务所执行的步骤:

  1. 添加分区 和示例 模块。
  2. 选择" 采样" 模式,然后指定 10%。
  3. 选择分层采样选项,然后选择包含目标属性的列。

如果不需要保留所有数据,请使用分区 和示例 模块。 剩余的数据仍然存在于工作区中,但无需在试验过程中进一步处理。

  • 增加样本中罕见情况的数量,或重新平衡目标值的事例:使用 SMOTE 模块。
  • 通过查找最代表数据空间的特征组合来执行维数缩减:使用 主体组件分析 模块。
  • 基于功能和计数分析创建精简功能:将Learning计数模块
  • 使用指定的列创建视图或投影;删除或隐藏数据集中的列:使用"选择数据集中的列"和"SQL转换"模块。
  • 应用更复杂的数据筛选器、分组或转换:使用执行 R 脚本和应用SQL转换模块。

模块列表

此类别包括以下模块:

另请参阅