配置数据访问以进行引入
本文介绍管理员用户如何配置对 Azure Data Lake Storage Gen2 (ADLS Gen2) 容器中数据的访问,以便 Azure Databricks 用户可以将数据从 ADLS Gen2 加载到 Azure Databricks 的表中。
本文介绍如何通过以下方式配置对源数据的安全访问:
(建议)创建 Unity Catalog 卷。
使用存储凭据创建 Unity Catalog 外部位置。
启动使用服务主体的计算资源。
生成临时凭据(Blob SAS 令牌)。
准备阶段
在 ADLS Gen2 中配置对数据的访问之前,请确保做好以下准备:
Azure 存储帐户中容器内的数据。 若要创建容器,请参阅 Azure 存储文档中的创建容器。
若要使用 Unity Catalog 卷访问数据(建议),则对该卷使用
READ VOLUME
特权。 有关详细信息,请参阅什么是 Unity Catalog 卷?和 Unity Catalog 权限和安全对象。要使用 Unity Catalog 外部位置访问数据,需要外部位置上的
READ FILES
特权。 有关详细信息,请参阅创建外部位置以将云存储连接到 Azure Databricks。要通过服务主体使用计算资源访问数据,需要 Azure Databricks 工作区管理员权限。
要使用临时凭据访问数据,请执行以下操作:
- Azure Databricks 工作区管理员权限。
- 在你的 Azure 帐户中具有权限,可以创建 Blob SAS 令牌。 这允许你生成临时凭据。
熟悉 Databricks SQL 用户界面。
配置对云存储的访问权限
使用以下方法之一配置对 ADLS Gen2 的访问:
(建议)创建 Unity Catalog 卷。 有关详细信息,请参阅什么是 Unity Catalog 卷?。
使用存储凭据配置 Unity Catalog 外部位置。 有关外部位置的详细信息,请参阅创建外部位置以将云存储连接到 Azure Databricks。
配置计算资源以使用服务主体。 有关详细信息,请参阅配置服务主体。
生成临时凭据(Blob SAS 令牌)以便与其他 Azure Databricks 用户共享。 有关详细信息,请参阅生成临时凭据以进行引入。
清理
如果你不再想要保留云帐户和 Azure Databricks 中的关联资源,可以清理这些资源。
删除 ADLS Gen2 存储帐户
- 打开 Azure 帐户的 Azure 门户,网址通常为 https://portal.azure.com。
- 浏览到并打开你的存储帐户。
- 单击 “删除” 。
- 输入存储帐户名称,然后单击“删除”。
停止 SQL 仓库
如果你不打算将该 SQL 仓库用于任何其他任务,则应停止该 SQL 仓库以避免产生额外的费用。
- 在“SQL”角色中,单击边栏上的“SQL 仓库”。
- 在 SQL 仓库名称的旁边,单击“停止”。
- 出现提示时,再次单击“停止”。
后续步骤
完成本文中的步骤后,用户可以运行 COPY INTO
命令将 ADLS Gen2 容器中的数据加载到你的 Azure Databricks 工作区中。
要使用 Unity Catalog 卷或外部位置加载数据,请参阅使用 COPY INTO 通过 Unity Catalog 卷或外部位置加载数据。
要使用 SQL 仓库通过服务主体加载数据,请参阅使用 COPY INTO 通过服务主体加载数据。
若要使用临时凭据(Blob SAS 令牌)加载数据,请参阅使用 COPY INTO 通过临时凭据加载数据。