数据转换 - 操作

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍 机器学习 Studio (经典) 中可用于基本数据操作的模块。

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

机器学习 Studio (经典) 支持特定于机器学习的任务,例如规范化或功能选择。 此类别中的模块适用于更常规的任务。

数据操作任务

此类别中的模块旨在支持可能需要在 机器学习 Studio (经典) 中执行的核心数据管理) 。 以下任务是核心数据管理任务的示例:

  • 使用联接或合并列或行来合并两个数据集。
  • 创建用于对数据进行分组的新类别。
  • 修改列标题、更改列数据类型或将列标记为特征或标签。
  • 检查缺失值,并将其替换为适当的值。

示例

有关如何在机器学习试验中处理复杂数据的示例,请参阅以下Azure AI 库:

此类别中的模块

" 数据转换 - 操作 "类别包括以下模块:

  • 添加列:将一组列从一个数据集添加到另一个数据集。
  • 添加行:将一组行从输入数据集追加到另一个数据集的末尾。
  • 应用SQL转换:对输入数据集运行 SQLite 查询以转换数据。
  • 清理缺失数据:指定如何处理数据集中缺少的值。 此模块替换已弃用缺失值清理器。
  • 转换为指示器值:将列中的分类值转换为指示器值。
  • 编辑元数据:编辑与数据集中的列关联的元数据。
  • 分组分类值:将多个类别中的数据分组到一个新类别中。
  • 联接数据:联接两个数据集。
  • 删除重复行:从数据集中删除重复行。
  • 选择数据集中的列:选择要包括在数据集中的列或从操作中的数据集中排除的列。
  • 选择"列转换":创建一个转换,该转换选择与指定数据集中相同的列子集。
  • SMOTE:通过使用合成少数过度采样来增加数据集中低采样示例的数量。

另请参阅