你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
将工作室(经典)数据集迁移到 Azure 机器学习
重要
对 Azure 机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
自 2021 年 12 月 1 日起,无法创建新的机器学习工作室(经典)资源(工作区和 Web 服务计划)。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)试验和 Web 服务。 有关详细信息,请参阅:
机器学习工作室(经典)文档即将停用,并且将来可能不会更新。
本文介绍了如何将工作室(经典)数据集迁移到 Azure 机器学习。 有关从工作室(经典)迁移的详细信息,请参阅迁移概述一文。
可通过三个选项将数据集迁移到 Azure 机器学习。 阅读每个部分以确定最适合你方案的选项。
数据在哪个哪里? | 迁移选项 |
---|---|
在工作室(经典)中 | 选项 1:从工作室(经典)下载数据集,并将其上传到 Azure 机器学习。 |
云存储 | 选项 2:从云源注册数据集。 选项 3:使用“导入数据”模块从云源中获取数据。 |
注意
Azure 机器学习还支持代码优先工作集,用于创建和迁移数据集。
先决条件
从工作室(经典)下载数据集
将工作室(经典)数据集迁移到 Azure 机器学习的最简单方法是下载数据集,并将其注册到 Azure 机器学习中。 这会创建数据集的新副本,并将其上传到 Azure 机器学习数据存储。
可以直接下载以下工作室(经典)数据集类型。
- 纯文本 (.txt)
- 逗号分隔值 (CSV),带有标头 (.csv) 或不带标头 (.nh.csv)
- 制表符分隔值 (TSV),带有标头 (.tsv) 或不带标头 (.nh.tsv)
- Excel 文件
- Zip 文件 (.zip)
要直接下载数据集,请执行以下操作:
转到工作室(经典)工作区 (https://studio.azureml.net)。
在左侧导航栏中,选择“数据集”选项卡。
选择要下载的数据集。
在底部操作栏中,选择“下载”。
对于以下数据类型,必须使用“转换为 CSV”模块来下载数据集。
- SVMLight 数据 (.svmlight)
- 属性关系文件格式 (ARFF) 数据 (.arff)
- R 对象或工作区文件 (.RData)
- 数据集类型 (.data)。 数据集类型为工作室(经典)模块输出的内部数据类型。
若要将数据集转换为 CSV 并下载结果,请执行以下操作:
转到工作室(经典)工作区 (https://studio.azureml.net)。
创建新实验。
将要下载的数据集拖放到画布上。
添加“转换为 CSV’模块。
将“转换为 CSV”输入端口连接到数据集的输出端口。
运行试验。
右键单击“转换为 CSV”模块。
选择“结果数据集”>“下载”。
将数据集上传到 Azure 机器学习
下载数据文件后,可以在 Azure 机器学习中将它注册为数据资产:
导航到 Azure 机器学习工作室
在左侧导航的“资产”下,选择“数据”。 在“数据资产”选项卡上,选择“创建”
为数据资产提供一个名称和可选说明。 然后,在下拉列表的“数据集类型”部分选择“类型”下的“表格”选项。
注意
还可以上传 ZIP 文件作为数据资产。 若要上传 ZIP 文件,请在下拉列表的“数据集类型”部分选择“文件”作为“类型”。
对于数据源,请选择“从本地文件”选项以上传数据集。
对于文件选择,请首先选择你要将数据存储在 Azure 中的什么位置。 你需要选择一个 Azure 机器学习数据存储。 有关数据存储的详细信息,请参阅连接到存储服务。 接下来,上传之前下载的数据集。
按照步骤为数据资产设置数据分析设置和架构。
到达“审阅”步骤后,单击最后一页上的“创建”
从云源导入数据
如果数据已在云存储服务中,并且你想要将数据保存在其本机位置。 可以使用两个选项中的一个:
引入方法 | 说明 |
---|---|
注册 Azure 机器学习数据集 | 从本地和联机数据源(Blob、ADLS Gen1、ADLS Gen2、文件共享、SQL DB)中引入数据。 创建对数据源的引用,该数据源在运行时延迟计算。 如果重复访问此数据集,并希望启用数据版本控制和监视等高级数据功能,请使用此选项。 |
“导入数据”模块 | 从联机数据源(Blob、ADLS Gen1、ADLS Gen2、文件共享、SQL DB)中引入数据。 数据集仅导入到当前设计器管道运行中。 |
注意
工作室(经典)用户应注意,在 Azure 机器学习中本机不支持以下云源:
- Hive 查询
- Azure 表
- Azure Cosmos DB
- 本地 SQL 数据库
建议用户使用 Azure 数据工厂将其数据迁移到支持的存储服务。
注册 Azure 机器学习数据集
使用以下步骤将数据集从云服务注册到 Azure 机器学习:
在 Azure 机器学习中注册数据集后,可以在设计器中使用它:
- 创建新的设计器管道草稿。
- 在左侧模块面板中,展开“数据集”部分。
- 将已注册的数据集拖动到画布上。
使用“导入数据”模块
使用以下步骤将数据直接导入设计器管道:
- 创建一个数据存储,用于将云存储服务链接到 Azure 机器学习工作区。
创建数据存储后,可以使用设计器中的“导入数据”模块来从中引入数据:
- 创建新的设计器管道草稿。
- 在左侧模块面板中,找到“导入数据”模块并将其拖动到画布上。
- 选择“导入数据”模块,并使用右侧面板中的“设置”来配置数据源。
后续步骤
本文介绍了如何将工作室(经典)数据集迁移到 Azure 机器学习。 下一步是重新生成工作室(经典)训练管道。
请参阅工作室(经典)迁移系列中的其他文章: