数据格式转换
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
本文列出了 机器学习 Studio (经典) 中提供的模块,用于在机器学习中使用的各种文件格式之间转换数据。
支持的格式包括:
- 整个数据集中使用的数据集机器学习。
- Weka 使用的 ARFF 格式。 Weka 是一组基于 Java 的开源机器学习算法。
- SVMLight 格式。 SVMLight 格式是针对 用于机器学习的 SVMlight 框架开发的。 它也可以由 Vowpal Wabbit 使用。
- 以 制表符 (TSV) 和逗号 (CSV ) 大多数关系数据库支持的平面文件格式。 R 和 Python 也广泛支持这些格式。
将数据转换为这些格式时,可以更轻松地在不同的机器学习框架或存储机制之间移动结果和数据。
注意
这些数据转换模块仅将完整的数据集转换为指定的格式。 如果需要对值执行任何强制转换、截断、日期时间格式转换或其他操作,请使用数据转换中的模块,或查看相关任务的列表。
常见数据转换方案
如果需要将数据从一个试验移动到另一个机器学习机器学习或平台,通常使用数据转换模块。 还可使用模块以数据库或其他工具机器学习从数据库导出数据。 例如:
任务 | 使用此选项 |
---|---|
需要保存中间数据集以用于Excel或导入数据库。 | 使用 CSV 模块或 TSV 模块以正确的格式准备数据。 然后,下载数据或将其保存到Azure 存储。 |
你想要在 R 或 Python 代码中重复使用试验的数据。 | 使用 CSV 模块或 TSV 模块准备数据。 然后,右键单击转换后的数据集,获取访问数据集所需的 Python 代码。 |
你要在 Weka 和 机器学习 之间移植试验和数据。 | 使用 ARFF 模块准备数据。 然后,下载结果。 |
需要在 SVMlight 框架中准备数据。 | 使用 "转换为 SVMLight "模块准备数据。 然后,下载生成的数据。 |
创建要与 Vowpal Wabbit 一起使用的数据。 | 使用 SVMLight 格式。 然后,按文章中所述修改文件。 将文件保存在 Azure Blob 存储中,以与 机器学习 中的 Vowpal Wabbit 模块一机器学习。 |
数据不是表格格式。 | 使用"转换为数据集"模块 将其强制转换为数据集 格式。 |
相关任务
如果需要将数据导入到单个机器学习或转换单个列中的数据,请执行数据转换之前,请使用以下模块:
任务 | 使用此选项 |
---|---|
将数据从计算机导入 机器学习。 | Upload将训练数据导入 机器学习 Studio (经典) 中所述,以 CSV 格式) 。 |
从云数据源导入数据,包括 Hadoop 或 Azure。 | 使用导入 数据 模块。 |
将机器学习数据集保存到 Azure Blob 存储、Hadoop 群集或其他基于云的存储。 | 使用" 导出数据" 模块。 |
将列的数据类型或强制转换列更改为其他格式或类型。 | 在机器学习中,使用"编辑元数据"或"应用SQL转换"模块。 如果掌握 R 或 Python,请尝试执行 Python 脚本 或 执行 R 脚本 模块。 |
对数值数据进行舍入、分组或规范化。 | 使用应用数学运算、将数据分组到箱中或规范化数据模块。 |
模块列表
" 数据格式转换" 类别包括以下模块:
- 转换为 ARFF:将数据输入转换为 Weka 工具集使用的属性关系文件格式。
- 转换为 CSV:将数据集转换为逗号分隔值格式。
- 转换为数据集:将数据输入转换为数据输入所使用的内部数据集机器学习。
- 转换为 SVMLight:将数据输入转换为 SVMlight 框架使用的格式。
- 转换为 TSV:将数据输入转换为制表符分隔格式。