创建洁净室

本页介绍如何使用 UI 创建 Databricks 清理室。 一个干净的房间是一个安全的环境,用于协作数据分析。

主要功能和限制:

  • 安全协作:清理会议室使多个参与方能够协作处理敏感数据,而无需直接访问彼此的原始数据。
  • 协作者容量:一个洁净室可以容纳十个参与方,包括创建者和多达九名其他协作者。
  • 元存储限制:Azure Databricks 对所有清理室安全对象强制实施资源配额。 请参阅资源限制

若要使用 REST API,请参阅 “创建干净房间”。

开始之前

使用洁净室所需的特权因任务而异:

任务 所需权限
查看干净的房间 必须是清洁室的所有者,或者对清洁室拥有下列权限之一:MANAGEMODIFY CLEAN ROOM、或EXECUTE CLEAN ROOM TASKBROWSE
更新洁净室的所有者 必须是清洁室的所有者,或具有 MANAGE 对清洁室的特权。
在干净空间中添加或删除数据资产 必须是清洁室的所有者,或者对清洁室具有 MODIFY CLEAN ROOM 特权。 如果你不是洁净室的所有者,那么你和洁净室所有者必须对任何表或视图具有 SELECT 权限,并对你添加的任何卷具有 READ VOLUME 权限,并对父目录和架构具有 USE CATALOGUSE SCHEMA 权限。
在干净空间中添加或删除笔记本 对于笔记本的上传者:
  • 如果他们是笔记本的指定运行者,则他们必须具有 EXECUTE CLEAN ROOM TASKMODIFY CLEAN ROOM 特权。
  • 如果笔记本可由协作者运行,上传者必须具有 MODIFY CLEAN ROOM 权限。
在洁净室中更新评论 必须是清洁室的所有者,或者对清洁室具有 MODIFY CLEAN ROOM 特权。
授予洁净室访问权限 必须是所有者,或者对洁净室具有 MANAGE 特权。
删除清洁室 必须是所有者,或者对洁净室具有 MANAGE 特权。

除了特定于任务的特权之外,当共享洁净室时,附加到共享标识符的电子邮件地址将自动成为协作者组织中的所有者。 请参阅 步骤 1。请求协作者的共享标识符

若要了解更新洁净室以及在洁净室中运行任务(笔记本)的权限要求,请参阅管理洁净室在洁净室中运行笔记本

注意

在中央洁净室的协作者中,除了中央洁净室区域外,最多可以有另外两个区域。

第 1 步。 请求协作者的共享标识符

在创建洁净室之前,您必须拥有要与之协作的组织的洁净室共享标识符。 共享标识符是一个字符串,由组织的全局元存储 ID + 工作区 ID + 联系人用户名(电子邮件地址)组成。 协作者可以位于任何云或区域中。

与协作者联系以请求其共享标识符。 他们可以使用 “查找共享标识符”中的说明获取共享标识符。

第 2 步。 创建清洁室

若要创建洁净室,你必须使用目录资源管理器。

  1. 在 Azure Databricks 工作区中,单击 “数据”图标。目录

  2. 在“快速访问”页上,单击“清洁室 >”按钮。

  3. 单击创建洁净室

  4. 创建洁净室页上,为洁净室输入易记名称。

    不能在名称中使用空格、句点或正斜杠 (/)。

    保存后,无法更改洁净室名称。 使用一个潜在协作者认为有用且具有描述性的名称。

  5. 选择云提供商和要在其中创建中央洁净室的区域。

    云提供商必须与当前工作区匹配,但区域可能有所不同。 选择时,请考虑组织的数据驻留或其他策略。

  6. 每个干净的房间最多可以有十个协作者。 为每个协作者输入 清理室共享标识符 。 请参阅 步骤 1。请求协作者的共享标识符

    在完整部署之前,您可以使用您的共享标识符或当前元存储中其他用户的标识符来测试您的洁净室。 这样做会在当前元存储中创建两个洁净室。 例如,如果创建标题为 test_clean_room的干净房间,则还会显示名为 test_clean_room_collaborator 的第二个干净房间。 在同一元存储中与协作者一起运行笔记本的效果等同于与外部协作者一起运行笔记本。 请参阅在清洁室中运行笔记本

  7. 记下分配给你和协作者的目录名称。

    所有添加到洁净室的数据资产都将出现在中央洁净室中的该目录下,并且可以使用该目录在 Unity Catalog 三级命名空间 (<catalog>.<schema>.<table-etc>) 中进行引用。

  1. 选择网络访问策略类型。 创建洁净室后,无法更改。

网络策略类型。

注意

受限访问 可能会延迟资产可用性长达 10 分钟。

创建干净房间后,可以在“安全”选项卡中查看网络访问策略。

  1. 单击创建洁净室

如果当前工作区设置为 HIPAA 符合性安全配置文件,则创建一个干净房间时,该设置将应用于中心清理室。 合作者必须从具有相同安全配置的工作区进入清洁室。 请参阅 合规性安全配置文件

第 3 步。 将数据资产和笔记本添加到洁净室

创建者和协作者都可以将表、卷、视图和笔记本添加到洁净室。

注意

以下说明假定你要返回到已创建的洁净室以添加资产。 如果你刚刚首次创建了一个洁净室,则向导将引导你添加数据资产和笔记本。 无论是否由向导指导,添加这些资产的实际 UI 都相同。

要添加笔记本,请执行以下操作:

  1. 单击“ + 添加笔记本 ”按钮并浏览要添加的笔记本。

  2. 为笔记本命名。

  3. 选择哪些协作者可以运行笔记本。 选择 “你” 来自己运行笔记本。

    自指定的运行者。

    你可以选择为笔记本提供一个备用的笔记本名称

    在洁净室中共享的笔记本会查询数据,并在表、视图和卷上运行数据分析工作负荷,这些工作负荷是你和其他协作者共同添加到洁净室中的。

    如果共享包含结果的笔记本,这些结果将与协作者共享。

    你可以使用笔记本创建输出表,当协作者运行笔记本时,这些表会临时共享到他们的元存储。 请参阅在 Databricks 洁净室中创建并使用输出表

    若要使用测试数据集,请下载 示例笔记本

    重要说明

    添加到洁净室的表、视图或卷的任何笔记本引用都必须使用创建洁净室时分配的目录名称(洁净室创建者添加的数据资产的“创建者”以及受邀合作者添加的数据资产的“合作者”)。 例如,可以将创建者添加的表命名为 creator.sales.california

    同样,请验证笔记本是否使用了分配给洁净室中数据资产的任何别名。

若要添加资产,请执行以下操作:

  1. 在 Azure Databricks 工作区中,单击 “数据”图标。目录

  2. 在“快速访问”页上,单击“清洁室 >”按钮。

  3. 找到并单击要更新的洁净室的名称。

  4. 单击 + 添加数据资产以添加表、卷或视图。

  5. 选择要共享的数据资产,然后单击 添加数据资产。

    你在共享表、卷或视图时,可以有选择性地添加别名。 别名将是洁净室中唯一可见的名称。

    共享表时,你可以有选择性地添加允许你仅共享表格的一部分的分区子句。 有关如何使用分区来限制共享内容的详细信息,请参阅指定要共享的表分区

注意

若要参与联合表共享的专用预览版,请联系 Azure Databricks 帐户代表。 请参阅什么是 Lakehouse Federation?