配置数据访问以进行引入

本文介绍管理员用户如何配置对 Azure Data Lake Storage Gen2 (ADLS Gen2) 容器中数据的访问,以便 Azure Databricks 用户可以将数据从 ADLS Gen2 加载到 Azure Databricks 的表中。

本文介绍如何通过以下方式配置对源数据的安全访问:

  • (建议)创建 Unity Catalog 卷。

  • 使用存储凭据创建 Unity Catalog 外部位置。

  • 启动使用服务主体的计算资源。

  • 生成临时凭据(Blob SAS 令牌)。

准备阶段

在 ADLS Gen2 中配置对数据的访问之前,请确保做好以下准备:

  • Azure 存储帐户中容器内的数据。 若要创建容器,请参阅 Azure 存储文档中的创建容器

  • 若要使用 Unity Catalog 卷访问数据(建议),则对该卷使用 READ VOLUME 特权。 有关详细信息,请参阅什么是 Unity Catalog 卷?Unity Catalog 权限和安全对象

  • 要使用 Unity Catalog 外部位置访问数据,需要外部位置上的 READ FILES 特权。 有关详细信息,请参阅创建外部位置以将云存储连接到 Azure Databricks

  • 要通过服务主体使用计算资源访问数据,需要 Azure Databricks 工作区管理员权限。

  • 要使用临时凭据访问数据,请执行以下操作:

    • Azure Databricks 工作区管理员权限。
    • 在你的 Azure 帐户中具有权限,可以创建 Blob SAS 令牌。 这允许你生成临时凭据。
  • Databricks SQL 仓库。 若要创建 SQL 仓库,请参阅创建 SQL 仓库

  • 熟悉 Databricks SQL 用户界面。

配置对云存储的访问权限

使用以下方法之一配置对 ADLS Gen2 的访问:

清理

如果你不再想要保留云帐户和 Azure Databricks 中的关联资源,可以清理这些资源。

删除 ADLS Gen2 存储帐户

  1. 打开 Azure 帐户的 Azure 门户,网址通常为 https://portal.azure.com
  2. 浏览到并打开你的存储帐户。
  3. 单击 “删除”
  4. 输入存储帐户名称,然后单击“删除”。

停止 SQL 仓库

如果你不打算将该 SQL 仓库用于任何其他任务,则应停止该 SQL 仓库以避免产生额外的费用。

  1. 在“SQL”角色中,单击边栏上的“SQL 仓库”。
  2. 在 SQL 仓库名称的旁边,单击“停止”。
  3. 出现提示时,再次单击“停止”。

后续步骤

完成本文中的步骤后,用户可以运行 COPY INTO 命令将 ADLS Gen2 容器中的数据加载到你的 Azure Databricks 工作区中。