使用英语阅读

通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何在 Azure AI Studio 项目中添加和管理数据

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

本文介绍如何在 Azure AI Studio 中创建和管理数据。 数据可用作 Azure AI Studio 中的索引源。

当你需要以下功能时,数据可提供帮助:

  • 版本控制:支持数据版本控制
  • 可再现性:数据版本一经创建,便是不可变的。 无法修改或删除。 因此,可以再现使用数据的作业或提示流管道。
  • 可审核性:由于数据版本是不可变的,因此可跟踪资产版本以及更新版本的人员/时间
  • 世系:对于任何给定的数据,可查看哪些作业或提示流管道使用了数据
  • 易于使用:Azure AI Studio 数据与 Web 浏览器书签(收藏夹)类似。 可以创建数据版本,然后使用易记名称访问该资产版本,而不必记住引用 Azure 存储上的常用数据的长存储路径

先决条件

若要创建和使用数据,需要做好以下准备:

创建数据

创建数据时,需要设置数据类型。 AI Studio 支持这些数据类型:

类型 规范场景
file
引用单个文件
读取 Azure 存储上的单个文件(该文件可采用任何格式)。
folder
引用文件夹
将 parquet/CSV 文件的文件夹读取到 Pandas/Spark 中。

读取文件夹中的非结构化数据(例如:图像、文本或音频)。

Azure AI Studio 显示支持的源路径。 可以从文件夹或文件创建数据:

  • 如果选择文件夹类型,可以选择文件夹 URL 格式。 Azure AI Studio 显示支持的文件夹 URL 格式。 可以创建数据资源,如下所示:文件夹 URL 格式的屏幕截图。

  • 如果选择文件类型,则可以选择文件 URL 格式。 支持的文件 URL 格式显示在 Azure AI Studio 中。 可以创建数据资源,如下所示:文件 URL 格式的屏幕截图。

创建数据:文件类型

文件 (uri_file) 数据资源类型指向存储上的单个文件(例如 CSV 文件)

以下步骤说明如何在 Azure AI Studio 中创建文件类型的数据:

  1. 导航到 Azure AI Studio

  2. 选择要在其中创建数据的项目。

  3. 从左侧可折叠的“我的资产”菜单中,选择“数据 + 索引”,然后选择“新建数据”,如以下屏幕截图所示:

    突出显示“数据”选项卡中的“新建数据”的屏幕截图。

  4. 选择你的数据源。 若要选择数据源,你有两个选项。

    • 如果你有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,可选择“使用存储 URL 获取数据”

    • 可以选择“上传文件/文件夹”以从本地驱动器上传文件夹。

      • 使用存储 URL 获取数据:可选择“文件”作为“类型”,然后根据页面中列出的受支持 URL 格式提供 URL,如以下屏幕截图所示:

      此屏幕截图显示预配指向文件的 URL。

      • 上传文件/文件夹:可选择“上传文件/文件夹”,然后选择“上传文件”,然后选择要上传的本地文件。 该文件将上传到默认的“workspaceblobstore”连接。 此屏幕截图显示了如何上传文件。
    1. 选择数据源后,选择“下一步”

    2. 输入数据的自定义名称,然后选择“创建”

    此屏幕截图显示数据源的命名步骤。

创建数据:文件夹类型

文件夹 (uri_folder) 数据源类型指向存储资源上的文件夹(例如,包含多个图像子文件夹的文件夹)。 使用以下步骤在 Azure AI Studio 中创建文件夹类型数据资源:

  1. 导航到 Azure AI Studio

  2. 选择要在其中创建数据的项目。

  3. 从左侧可折叠的“组件”菜单中,选择“数据”

    突出显示“数据”选项卡中的“新建数据”的屏幕截图。

  4. 选择你的数据源。 若要选择数据源,你有两个选项。

    1. 如果有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,请选择“使用存储 URL 获取数据”
    2. 选择“上传文件/文件夹”以从本地驱动器上传文件夹
    • 使用存储 URL 获取数据:可以选择“文件夹”类型,然后根据该页面上列出的受支持 URL 格式提供 URL

      此屏幕截图显示了提供指向文件夹的 URL 的步骤。

    • 上传文件/文件夹:可选择“上传文件/文件夹”,然后选择“上传文件夹”,然后选择要上传的本地文件。 文件资源将上传到默认的“workspaceblobstore”连接。

      此屏幕截图显示了如何上传文件夹。

  5. 选择数据源后,选择“下一步”

  6. 输入数据的自定义名称,然后选择“创建”

    命名数据的屏幕截图。

管理数据

删除数据

重要

不支持删除数据。 AI Studio 中的数据不可变。 创建数据版本后,无法对其进行修改或删除。 在创建生产工作负载的团队中运行时,这种不可变性提供了一定程度的保护。

如果 AI Studio 允许删除数据,会产生以下不利影响:

  • 使用后来删除的数据的生产作业将失败。
  • 机器学习试验的重现将变得更加困难。
  • 作业世系会中断,因为无法查看已删除的数据版本。
  • 不再可以正确地跟踪和审核,因为版本可能会丢失。

如果错误地创建了数据资源(例如,名称、类型或路径错误),Azure AI 会提供解决方案来处理这种情况,不会造成删除操作带来的负面影响:

你可能想要删除数据的原因 解决方案
名称不正确 将数据存档
团队不再使用该数据 将数据存档
它使数据列表变得混乱 将数据存档
路径不正确 使用正确路径创建(同名)数据的新版本。 有关详细信息,请访问创建数据
其类型不正确 目前,Azure AI 不允许创建与初始版本类型不同的新版本。
(1) 将数据存档
(2) 使用正确的类型和不同的名称创建新数据

将数据存档

默认情况下,将数据资源存档后,该数据将不在列表查询(例如在 CLI az ml data list)中显示,也不在 Azure AI Studio 的数据列表中显示。 你仍可继续在工作流中引用和使用已存档的数据资源。 可存档:

  • 采用给定名称的数据的所有版本
  • 特定数据版本

将数据的所有版本存档

目前,Azure AI Studio 不支持以给定的名称存档数据资源的所有版本

将特定的数据版本存档

目前,Azure AI Studio 不支持存档特定版本的数据资源。

还原已存档的数据

可还原已存档的数据资源。 如果数据的所有版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。

还原数据的所有版本

目前,Azure AI Studio 不支持还原给定名称的数据的所有版本

还原特定的数据版本

重要

如果所有数据版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。

目前,Azure AI Studio 不支持还原特定的数据版本。

添加数据标记

数据标记是以键值对的形式应用于数据的额外元数据。 数据标记提供了许多优势:

  • 数据质量说明。 例如,如果你的组织使用奖牌湖屋 (medallion lakehouse) 体系结构,可使用 medallion:bronze(原始)、medallion:silver(已验证)和 medallion:gold(已扩充)来标记资产。
  • 提供高效的数据搜索和筛选来帮助数据发现。
  • 帮助识别敏感的个人数据,以正确管理和治理数据访问。 例如 sensitivity:PII/sensitivity:nonPII
  • 确认数据是否经过负责任 AI (RAI) 审核的批准。 例如 RAI_audit:approved/RAI_audit:todo

可以向现有数据添加标记。

数据预览

可以在“数据详细信息”页中浏览文件夹结构并预览文件。 我们支持以下类型的数据预览:

  • 通过预览 API 支持的数据文件类型:“.tsv”、“.csv”、“.parquet”、“.jsonl”。
  • 对于其他文件类型,Studio UI 尝试在浏览器中本地预览文件。 支持的文件类型可能取决于浏览器本身。 对于图像,通常支持以下文件图像类型:“.png”、“.jpg”、“.gif”。 通常,支持以下文件类型:“.ipynb”、“.py”、“.yml”、“.html”。

后续步骤