发现数据
Azure Databricks 提供了一套工具和产品,用于简化可通过 Databricks 数据智能平台访问的数据资产的发现。 本文观点鲜明地概述了如何发现和预览已配置为在工作区中访问的数据。
- 要连接到数据源,请参阅连接到数据源。
- 有关获取 Databricks 市场中数据访问权限的信息,请参阅什么是 Databricks 市场?。
本部分中的主题侧重于浏览数据对象和数据文件。 如果要查找有关使用笔记本、SQL 查询、库和模型等资产的信息,请参阅导航工作区。
如果要寻求有关为数据集或与探索性数据分析 (EDA) 关联的其他任务生成摘要统计信息的指导,请参阅 Azure Databricks 上的探索性数据分析:工具和技术。
Azure Databricks 上的数据发现工具分为以下常规类别:
- AI 辅助见解、摘要和搜索。
- 关键字搜索。
- 使用 UI 进行目录浏览。
- 编程列表和元数据浏览。
数据发现工具针对 Unity Catalog 管理的数据进行了优化。 使用其中一些方法可能无法发现尚未注册为 Unity Catalog 对象的数据资产。
目录资源管理器提供le 用于浏览和治理数据资产的工具。 可以使用工作区边栏中的 “目录”来访问目录资源管理器。 请参阅什么是目录资源管理器?。
笔记本和 SQL 查询编辑器还提供了用于浏览数据库对象的目录导航器。 单击这些界面中的“目录”图标,以展开或折叠目录导航器,而无需离开代码编辑器。
发现感兴趣的数据集后,可以使用“见解”选项卡来了解如何在工作区中使用数据。 请参阅查看表的频繁查询和用户。
可以对所有数据库对象使用 SHOW
命令来发现已向 Unity Catalog 注册的资产。 使用 LIST
命令、%fs
magic 命令或 Databricks 实用工具列出文件。
请参阅浏览存储和查找数据文件与浏览数据库对象。
可以查看注释,以了解湖屋中可用的数据集的内容。 可以对数据对象(包括目录、架构、表和列)设置注释。 可以在目录资源管理器中或将 DESCRIBE
命令用于对象来查看注释。
目录资源管理器可以为表提供 AI 生成的注释,通过此方法,数据资产所有者可以轻松提供数据集的丰富概述。 请参阅将 AI 生成的注释添加到 Unity Catalog 对象。
用户还可以选择使用 Markdown(在目录资源管理器中呈现)提供对表和其他数据库对象的注释。 请参阅向数据和 AI 资产添加注释。
可以使用 Azure Databricks 中的搜索栏查找已注册到 Unity Catalog 的表。 可以执行关键字搜索或使用语义搜索来查找与搜索查询相关的数据集或列。 搜索仅返回你有权查看的表的结果。 搜索审阅表名称、列名、表注释和列注释。 请参阅搜索工作区项目。