培训
认证
Microsoft Certified: Azure Data Fundamentals - Certifications
展示与 Microsoft Azure 数据服务相关的核心数据概念的基本知识。
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
本文介绍如何在 Azure AI Studio 中创建和管理数据。 数据可用作 Azure AI Studio 中的索引源。
当你需要以下功能时,数据可提供帮助:
若要创建和使用数据,需要做好以下准备:
创建数据时,需要设置数据类型。 AI Studio 支持这些数据类型:
类型 | 规范场景 |
---|---|
file 引用单个文件 |
读取 Azure 存储上的单个文件(该文件可采用任何格式)。 |
folder 引用文件夹 |
将 parquet/CSV 文件的文件夹读取到 Pandas/Spark 中。 读取文件夹中的非结构化数据(例如:图像、文本或音频)。 |
Azure AI Studio 显示支持的源路径。 可以从文件夹或文件创建数据:
如果选择文件夹类型,可以选择文件夹 URL 格式。 Azure AI Studio 显示支持的文件夹 URL 格式。 可以创建数据资源,如下所示:
如果选择文件类型,则可以选择文件 URL 格式。 支持的文件 URL 格式显示在 Azure AI Studio 中。 可以创建数据资源,如下所示:
文件 (uri_file
) 数据资源类型指向存储上的单个文件(例如 CSV 文件)。
以下步骤说明如何在 Azure AI Studio 中创建文件类型的数据:
导航到 Azure AI Studio。
选择要在其中创建数据的项目。
从左侧可折叠的“我的资产”菜单中,选择“数据 + 索引”,然后选择“新建数据”,如以下屏幕截图所示:
选择你的数据源。 若要选择数据源,你有两个选项。
如果你有指向存储帐户或公共可访问 HTTPS 服务器的直接 URL,可选择“使用存储 URL 获取数据”。
可以选择“上传文件/文件夹”以从本地驱动器上传文件夹。
选择数据源后,选择“下一步”。
输入数据的自定义名称,然后选择“创建”。
文件夹 (uri_folder
) 数据源类型指向存储资源上的文件夹(例如,包含多个图像子文件夹的文件夹)。 使用以下步骤在 Azure AI Studio 中创建文件夹类型数据资源:
导航到 Azure AI Studio
选择要在其中创建数据的项目。
从左侧可折叠的“组件”菜单中,选择“数据”。
选择你的数据源。 若要选择数据源,你有两个选项。
使用存储 URL 获取数据:可以选择“文件夹”类型,然后根据该页面上列出的受支持 URL 格式提供 URL。
上传文件/文件夹:可选择“上传文件/文件夹”,然后选择“上传文件夹”,然后选择要上传的本地文件。 文件资源将上传到默认的“workspaceblobstore”连接。
选择数据源后,选择“下一步”。
输入数据的自定义名称,然后选择“创建”。
重要
不支持删除数据。 AI Studio 中的数据不可变。 创建数据版本后,无法对其进行修改或删除。 在创建生产工作负载的团队中运行时,这种不可变性提供了一定程度的保护。
如果 AI Studio 允许删除数据,会产生以下不利影响:
如果错误地创建了数据资源(例如,名称、类型或路径错误),Azure AI 会提供解决方案来处理这种情况,不会造成删除操作带来的负面影响:
你可能想要删除数据的原因 | 解决方案 |
---|---|
名称不正确 | 将数据存档 |
团队不再使用该数据 | 将数据存档 |
它使数据列表变得混乱 | 将数据存档 |
路径不正确 | 使用正确路径创建(同名)数据的新版本。 有关详细信息,请访问创建数据。 |
其类型不正确 | 目前,Azure AI 不允许创建与初始版本类型不同的新版本。 (1) 将数据存档 (2) 使用正确的类型和不同的名称创建新数据。 |
默认情况下,将数据资源存档后,该数据将不在列表查询(例如在 CLI az ml data list
)中显示,也不在 Azure AI Studio 的数据列表中显示。 你仍可继续在工作流中引用和使用已存档的数据资源。 可存档:
目前,Azure AI Studio 不支持以给定的名称存档数据资源的所有版本。
目前,Azure AI Studio 不支持存档特定版本的数据资源。
可还原已存档的数据资源。 如果数据的所有版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。
目前,Azure AI Studio 不支持还原给定名称的数据的所有版本。
重要
如果所有数据版本都已存档,则无法还原数据的单个版本 - 必须还原所有版本。
目前,Azure AI Studio 不支持还原特定的数据版本。
数据标记是以键值对的形式应用于数据的额外元数据。 数据标记提供了许多优势:
medallion:bronze
(原始)、medallion:silver
(已验证)和 medallion:gold
(已扩充)来标记资产。sensitivity:PII
/sensitivity:nonPII
。RAI_audit:approved
/RAI_audit:todo
。可以向现有数据添加标记。
可以在“数据详细信息”页中浏览文件夹结构并预览文件。 我们支持以下类型的数据预览:
培训
认证
Microsoft Certified: Azure Data Fundamentals - Certifications
展示与 Microsoft Azure 数据服务相关的核心数据概念的基本知识。