Azure Data Lake Storage Gen2
总结
项目 | 说明 |
---|---|
发布状态 | 正式版 |
产品 | Power BI(语义模型) Power BI(数据流) Fabric(数据流 Gen2) Power Apps(数据流) Dynamics 365 Customer Insights Analysis Services |
支持的身份验证类型 | 组织帐户 帐户密钥 共享访问签名 (SAS) 密钥 服务主体 |
函数参考文档 | AzureStorage.DataLake AzureStorage.DataLakeContents |
注意
由于部署计划和特定于主机的功能,某些功能可能只存在于一个产品中。
先决条件
Azure 订阅。 转到获取 Azure 免费试用版。
具有分层命名空间的存储帐户。 按照创建存储帐户中的说明创建一个存储帐户。 本文假定已创建名为
myadlsg2
的存储帐户。确保已被授予存储帐户的以下角色之一:Blob 数据读取者、Blob 数据参与者或Blob 数据负责人。
存储帐户中有一名为
Drivers.txt
的示例数据文件。 可从 Azure Data Lake Git 存储库下载此示例,然后将该文件上传到存储帐户。
支持的功能
- 导入
- 文件系统视图
- CDM 文件夹视图
从 Power Query Desktop 连接到 Azure Data Lake Storage Gen2
在“获取数据”体验中选择“Azure Data Lake Storage Gen2”。 Power Query Desktop 中的“获取数据”体验因应用而异。 要详细了解适用于你的应用的 Power Query Desktop“获取数据”体验,请转到在何处获取数据。
在 Azure Data Lake Storage Gen2 对话框中,使用容器终结点格式提供 Azure Data Lake Storage Gen2 帐户、容器或子文件夹的 URL。 Data Lake Storage Gen2 的 URL 采用以下模式:
https://<帐户名称>.dfs.core.windows.net/<容器>/<子文件夹>
还可选择是使用文件系统视图还是 Common Data Model 文件夹视图。
选择“确定”以继续。
如果这是你第一次使用此 URL 地址,系统会要求你选择身份验证方法。
如果选择“组织帐户”方法,请选择登录以登录到存储帐户。 随即将重定向到组织的登录页面。 按照提示登录到该帐户。 成功登录后,选择连接。
如果选择“帐户密钥”方法,请输入帐户密钥,然后选择连接。
导航器对话框将显示你提供的 URL 下的所有文件。 验证该信息,然后选择转换数据以在 Power Query 中转换数据,或选择加载以加载数据。
从 Power Query Online 连接到 Azure Data Lake Storage Gen2
在“获取数据”体验中选择“Azure Data Lake Storage Gen2”选项。 不同的应用通过不同的方式来使用 Power Query Online“获取数据”体验。 要详细了解如果从你的应用访问 Power Query Online“获取数据”体验,请转到在何处获取数据。
在连接到数据源中,输入 Azure Data Lake Storage Gen2 帐户的 URL。 请参阅限制以确定要使用的 URL。
选择是要使用文件系统视图还是 Common Data Model 文件夹视图。
如果需要,请在数据网关中选择本地数据网关。
选择登录以登录到 Azure Data Lake Storage Gen2 帐户。 随即将重定向到组织的登录页面。 按照提示登录到该帐户。
成功登录后,选择下一步。
选择数据页面将显示你提供的 URL 下的所有文件。 验证该信息,然后选择转换数据以在 Power Query 中转换数据。
限制
Power Query Online 不支持子文件夹或文件
目前,在 Power Query Online 中,Azure Data Lake Storage Gen2 连接器仅支持包含容器的路径,而不支持包含子文件夹或文件的路径。 例如,“https://<帐户名称>.dfs.core.windows.net/<容器>”有效,而“https://<帐户名称>.dfs.core.windows.net/<容器>/<文件名>”或“https://<帐户名称>.dfs.core.windows.net/<容器>/<子文件夹>”无效。
刷新身份验证
当 Azure Data Lake Storage Gen2 (ADLS) 帐户位于其他租户中时,Microsoft 不支持使用 OAuth2 身份验证的数据流或语义模型刷新。 当身份验证方法为 OAuth2(即尝试使用 Microsoft Entra ID 帐户连接到跨租户 ADLS 时)时,此限制仅适用于 ADLS。 在此情况下,建议使用非 Microsoft Entra ID 的其他身份验证方法,例如密钥身份验证方法。
代理和防火墙要求
使用网关创建数据流时,可能需要更改某些代理设置或防火墙端口才能成功连接到 Azure 数据湖。 如果数据流因网关绑定刷新而失败,则可能是因为 Azure 存储终结点网关上出现的防火墙或代理问题。
如果将代理用于网关,则可能需要在本地数据网关中配置 Microsoft.Mashup.Container.NetFX45.exe.config 文件。 详细信息:配置本地数据网关的代理设置。
若要启用从网络到 Azure 数据湖的连接,则可能需在网关计算机上启用“列出具体 IP 地址”。 例如,如果网络具有可能阻止这些尝试的防火墙规则,则需取消阻止 Azure 数据湖的出站网络连接。 若要启用“列出所需的出站地址”,请使用 AzureDataLake 服务标记。 详细信息:虚拟网络服务标记
数据流还支持“自带”数据湖选项,这意味着创建自己的数据湖、管理权限,并将其显式连接到数据流。 在此情况下,使用组织帐户连接到开发或生产环境时,必须为存储帐户启用以下角色之一:Blob 数据读取者、Blob 数据参与者或 Blob 数据负责人。
Power Query Online 和 Azure 存储位于同一区域
不支持直接访问启用了防火墙且与 Power Query Online 位于同一区域中的 Azure 存储帐户。 出现这一限制的原因是,与 Azure 存储帐户部署在同一区域中时,Power Query 服务将使用专用的 Azure IP 地址进行通信。 有关更多详细信息,请参阅有关存储网络安全的 Azure 文档。
要解决此限制并允许从同一区域中的 Power Query Online 访问 Azure 存储,请使用以下方法之一:
- 使用本地数据网关,该网关将充当 Power Query Online 和 Azure 存储之间的桥梁。
- 使用虚拟网络 (VNet) 数据网关。