你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

将工作室(经典)数据集迁移到 Azure 机器学习

重要

对 Azure 机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

自 2021 年 12 月 1 日起,无法创建新的机器学习工作室(经典)资源(工作区和 Web 服务计划)。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)试验和 Web 服务。 有关详细信息,请参阅:

机器学习工作室(经典)文档即将停用,并且将来可能不会更新。

本文介绍了如何将工作室(经典)数据集迁移到 Azure 机器学习。 有关从工作室(经典)迁移的详细信息,请参阅迁移概述一文

可通过三个选项将数据集迁移到 Azure 机器学习。 阅读每个部分以确定最适合你方案的选项。

数据在哪个哪里? 迁移选项
在工作室(经典)中 选项 1:从工作室(经典)下载数据集,并将其上传到 Azure 机器学习
云存储 选项 2:从云源注册数据集

选项 3:使用“导入数据”模块从云源中获取数据

注意

Azure 机器学习还支持代码优先工作集,用于创建和迁移数据集。

先决条件

从工作室(经典)下载数据集

将工作室(经典)数据集迁移到 Azure 机器学习的最简单方法是下载数据集,并将其注册到 Azure 机器学习中。 这会创建数据集的新副本,并将其上传到 Azure 机器学习数据存储。

可以直接下载以下工作室(经典)数据集类型。

  • 纯文本 (.txt)
  • 逗号分隔值 (CSV),带有标头 (.csv) 或不带标头 (.nh.csv)
  • 制表符分隔值 (TSV),带有标头 (.tsv) 或不带标头 (.nh.tsv)
  • Excel 文件
  • Zip 文件 (.zip)

要直接下载数据集,请执行以下操作:

  1. 转到工作室(经典)工作区 (https://studio.azureml.net)。

  2. 在左侧导航栏中,选择“数据集”选项卡。

  3. 选择要下载的数据集。

  4. 在底部操作栏中,选择“下载”。

    AScreenshot showing how to download a dataset in Studio (classic).

对于以下数据类型,必须使用“转换为 CSV”模块来下载数据集。

  • SVMLight 数据 (.svmlight)
  • 属性关系文件格式 (ARFF) 数据 (.arff)
  • R 对象或工作区文件 (.RData)
  • 数据集类型 (.data)。 数据集类型为工作室(经典)模块输出的内部数据类型。

若要将数据集转换为 CSV 并下载结果,请执行以下操作:

  1. 转到工作室(经典)工作区 (https://studio.azureml.net)。

  2. 创建新实验。

  3. 将要下载的数据集拖放到画布上。

  4. 添加“转换为 CSV’模块。

  5. 将“转换为 CSV”输入端口连接到数据集的输出端口。

  6. 运行试验。

  7. 右键单击“转换为 CSV”模块。

  8. 选择“结果数据集”>“下载”。

    Screenshot showing how to setup a convert to CSV pipeline.

将数据集上传到 Azure 机器学习

下载数据文件后,可以在 Azure 机器学习中将它注册为数据资产:

  1. 导航到 Azure 机器学习工作室

  2. 在左侧导航的“资产”下,选择“数据”。 在“数据资产”选项卡上,选择“创建”Screenshot highlights Create in the Data assets tab.

  3. 为数据资产提供一个名称和可选说明。 然后,在下拉列表的“数据集类型”部分选择“类型”下的“表格”选项。

    注意

    还可以上传 ZIP 文件作为数据资产。 若要上传 ZIP 文件,请在下拉列表的“数据集类型”部分选择“文件”作为“类型”。 Screenshot shows data asset source choices.

  4. 对于数据源,请选择“从本地文件”选项以上传数据集。

  5. 对于文件选择,请首先选择你要将数据存储在 Azure 中的什么位置。 你需要选择一个 Azure 机器学习数据存储。 有关数据存储的详细信息,请参阅连接到存储服务。 接下来,上传之前下载的数据集。

  6. 按照步骤为数据资产设置数据分析设置和架构。

  7. 到达“审阅”步骤后,单击最后一页上的“创建”

从云源导入数据

如果数据已在云存储服务中,并且你想要将数据保存在其本机位置。 可以使用两个选项中的一个:

引入方法 说明
注册 Azure 机器学习数据集 从本地和联机数据源(Blob、ADLS Gen1、ADLS Gen2、文件共享、SQL DB)中引入数据。

创建对数据源的引用,该数据源在运行时延迟计算。 如果重复访问此数据集,并希望启用数据版本控制和监视等高级数据功能,请使用此选项。
“导入数据”模块 从联机数据源(Blob、ADLS Gen1、ADLS Gen2、文件共享、SQL DB)中引入数据。

数据集仅导入到当前设计器管道运行中。

注意

工作室(经典)用户应注意,在 Azure 机器学习中本机不支持以下云源:

  • Hive 查询
  • Azure 表
  • Azure Cosmos DB
  • 本地 SQL 数据库

建议用户使用 Azure 数据工厂将其数据迁移到支持的存储服务。

注册 Azure 机器学习数据集

使用以下步骤将数据集从云服务注册到 Azure 机器学习:

  1. 创建一个数据存储,用于将云存储服务链接到 Azure 机器学习工作区。

  2. 注册数据集。 如果要迁移工作室(经典)数据集,请选择“表格”数据集设置。

在 Azure 机器学习中注册数据集后,可以在设计器中使用它:

  1. 创建新的设计器管道草稿。
  2. 在左侧模块面板中,展开“数据集”部分。
  3. 将已注册的数据集拖动到画布上。

使用“导入数据”模块

使用以下步骤将数据直接导入设计器管道:

  1. 创建一个数据存储,用于将云存储服务链接到 Azure 机器学习工作区。

创建数据存储后,可以使用设计器中的“导入数据”模块来从中引入数据:

  1. 创建新的设计器管道草稿。
  2. 在左侧模块面板中,找到“导入数据”模块并将其拖动到画布上。
  3. 选择“导入数据”模块,并使用右侧面板中的“设置”来配置数据源。

后续步骤

本文介绍了如何将工作室(经典)数据集迁移到 Azure 机器学习。 下一步是重新生成工作室(经典)训练管道

请参阅工作室(经典)迁移系列中的其他文章:

  1. 迁移概述
  2. 迁移数据集
  3. 重新生成工作室(经典)训练管道
  4. 重新生成工作室(经典)Web 服务
  5. 将 Azure 机器学习 Web 服务与客户端应用集成
  6. 迁移执行 R 脚本