工作区对象简介

本文概括性介绍 Azure Databricks 工作区对象。 可以在工作区浏览器中跨角色创建、查看和组织工作区对象。

群集

“Azure Databricks 数据科学与工程”和“Databricks 机器学习”群集为各种用例(例如,运行生产 ETL 管道、流分析、临时分析和机器学习)提供了统一的平台。 群集是一种 Azure Databricks 计算资源。 其他计算资源类型包括 Azure Databricks SQL 仓库

有关如何管理和使用群集的详细信息,请参阅计算

笔记本

笔记本是一种基于 web 的文档界面,其中包含一系列可运行单元(命令),可对文件、表格可视化效果和叙述性文本进行操作。 命令可以按顺序运行,引用一个或多个以前运行的命令的输出。

笔记本是在 Azure Databricks 中运行代码的一种机制。 另一种机制是作业

若要详细了解如何管理和使用笔记本,请参阅 Databricks 笔记本简介

Jobs

作业是在 Azure Databricks 中运行代码的一种机制。 另一种机制是笔记本。

有关管理和使用作业的详细信息,请参阅创建和运行 Azure Databricks 作业

库使你群集上运行的笔记本和作业能够使用第三方或本地生成的代码。

有关如何管理和使用库的详细信息,请参阅

数据

可以将数据导入一个装载到 Azure Databricks 工作区中的分布式文件系统,并在 Azure Databricks 笔记本和群集中使用。 还可以使用各种 Apache Spark 数据源来访问数据。

有关加载数据的详细信息,请参阅将数据加载到 Databricks 湖屋中

文件

重要

此功能目前以公共预览版提供。

在 Databricks Runtime 11.3 LTS 及更高版本中,可以在 Databricks 工作区中创建和使用任意文件。 文件可以是任何文件类型。 常见示例包括:

  • 自定义模块中使用的 .py 文件。
  • .md 文件,例如 README.md
  • .csv 或其他小型数据文件。
  • .txt 文件。
  • 日志文件。

有关如何使用文件的详细信息,请参阅使用 Azure Databricks 上的文件。 有关在使用 Databricks 笔记本进行开发时如何使用文件将代码模块化的信息,请参阅在 Databricks 笔记本之间共享代码

Git 文件夹

Git 文件夹是 Azure Databricks 文件夹,其内容是通过同步到远程 Git 存储库进行共同版本控制的。 使用 Databricks Git 文件夹,可以在 Azure Databricks 中开发笔记本,并使用远程 Git 存储库进行协作和版本控制。

有关使用存储库的详细信息,请参阅Git 与 Databricks Git 文件夹的集成

模型

模型是指在 MLflow 模型注册表中注册的模型。 模型注册表是一种集中式模型存储,可用于管理 MLflow 模型的完整生命周期。 它提供按时间顺序的模型世系、模型版本控制、阶段转换以及模型和模型版本批注和说明。

若要详细了解如何管理和使用模型,请参阅在 Unity Catalog 中管理模型生命周期

试验

MLflow 试验是组织的基本构成单位和适用于 MLflow 机器学习模型训练运行的访问控制;所有 MLflow 运行都属于试验。 每个试验都允许可视化、搜索和比较运行,以及下载运行项目或元数据以便在其他工具中进行分析。

若要详细了解如何管理和使用试验,请参阅使用 MLflow 试验来组织训练运行

查询

查询是可用于与数据交互的 SQL 语句。 有关详细信息,请参阅访问和管理保存的查询

仪表板

仪表板是查询可视化效果和注释的表示形式。 请参阅仪表板旧仪表板

警报

警报是关于查询所返回的字段已达到阈值的通知。 有关详细信息,请参阅什么是 Databricks SQL 警报?

对工作区对象的引用

过去,用户需要为某些 Databricks API (%sh) 添加 /Workspace 路径前缀,但对于其他 API(%run、REST API 输入)则不需要。

用户可以任何位置提供带有 /Workspace 前缀的工作区路径。 对不带 /Workspace 前缀的路径的旧引用会被重定向,并且继续有效。 我们建议所有工作区路径使用 /Workspace 前缀,以区别于 Volume 和 DBFS 路径。

/Workspace 路径前缀行为一致的先决条件是:工作区根级别上不能有 /Workspace 文件夹。 如果根级别上有一个 /Workspace 文件夹,并且想要启用此 UX 改进,请删除或重命名所创建的 /Workspace 文件夹,并联系 Azure Databricks 帐户团队。

共享文件、文件夹或笔记本 URL

在 Azure Databricks 工作区中,工作区文件、笔记本和文件夹的 URL 采用以下格式:

工作区文件 URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

笔记本 URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

文件夹(工作区和 Git)URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

如果使用 Git pull 命令更新当前路径中的任何文件夹、文件或笔记本,或者将其删除并使用相同名称重新创建,这些链接可能会损坏。 但是,可以基于工作区路径构造一个链接,并通过将其更改为采用以下格式的链接,来与具有适当访问级别的其他 Databricks 用户共享:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

通过将 URL 中 ?o=<16-digit-workspace-ID> 之后的所有内容替换为工作区根目录中的文件、文件夹或笔记本的路径,可以共享文件夹、笔记本和文件的链接。 如果你要共享文件夹的 URL,请同时从原始 URL 中删除 /browse/folders/<16-digit-ID>

若要获取文件路径,请右键单击工作区中要共享的文件夹、笔记本或文件以打开上下文菜单,然后选择“复制 URL/路径”>“完整路径”。 将 #workspace 附加到刚刚复制的文件路径前面,并将生成的字符串追加到 ?o=<16-digit-workspace-ID> 后面,使其与上述 URL 格式匹配。

从工作区文件夹的上下文菜单中依次选择“复制 URL 路径”和“完整路径”。

URL 格式示例 1:文件夹 URL

若要共享工作区文件夹 URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222,请从 URL 中删除 browse/folders/1111111111111111 子字符串。 添加 #workspace,后接要共享的文件夹或工作区对象的路径。

在本例中,工作区路径指向文件夹 /Workspace/Users/user@example.com/team-git/notebooks。 从工作区复制完整路径后,现在可以构造可共享链接:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL 格式示例 2:笔记本 URL

若要共享笔记本 URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333,请删除 #notebook/2222222222222222/command/3333333333333333。 添加 #workspace,后接文件夹或工作区对象的路径。

在本例中,工作区路径指向笔记本 /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook。 从工作区复制完整路径后,现在可以构造可共享链接:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

现在,你已获得文件、文件夹或笔记本路径的、可共享的稳定 URL! 有关 URL 和标识符的详细信息,请参阅获取工作区对象的标识符