使用 Azure Data Lake 创建 Azure Synapse Link for Dataverse

您可以使用 Azure Synapse Link 将 Microsoft Dataverse 数据连接到 Azure Data Lake Storage Gen2,来支持各个分析场景。 本文介绍如何执行以下任务:

  1. 使用 Azure Synapse Link 服务将 Dataverse 数据连接到 Azure Data Lake Storage Gen2 帐户。
  2. 管理 Azure Synapse Link 中包括的 Dataverse 表。
  3. 监视您的 Azure Synapse Link。
  4. 取消 Azure Synapse Link 的链接。
  5. 重新链接您的 Azure Synapse Link。
  6. 在 Azure Data Lake 中查看数据并了解文件结构。

备注

Azure Synapse Link for Dataverse 以前称为“导出到 Data Lake”。 此服务已更名,从 2021 年 5 月起生效,它会继续将数据导出到 Azure Data Lake 以及 Azure Synapse Analytics。

先决条件

  • Azure Data Lake Storage Gen2:您必须有 Azure Data Lake Storage Gen2 帐户以及所有者存储 Blob 数据参与者角色访问权限。 您的存储帐户必须为初始设置和增量同步启用分层命名空间。仅在初始设置时才需要允许存储帐户密钥访问。 我们建议将复制设置为读取访问异地冗余存储 (RA-GRS)

备注

  • 必须在与 Power Apps 租户相同的 Microsoft Entra 租户中创建存储帐户。
  • 存储帐户必须在与您将在其中使用功能的 Power Apps 环境相同的区域中创建。
  • 默认情况下,您必须为 Azure 资源启用公共网络访问以进行初始设置和增量同步。要设置从选定的虚拟网络和 IP 地址启用,以便链接的存储帐户只从选定的虚拟网络和 IP 地址授予访问权限或使用专用终结点,您必须创建具有托管标识的 Synapse Link。请将 Azure 托管标识与 Azure Data Lake Storage 结合使用
  • 您必须具有存储帐户资源组的读者访问权限。
  • 若要将环境链接到 Azure Data Lake Storage Gen2,您必须具有 Dataverse 系统管理员安全角色。
  • 只能导出启用了更改跟踪的表。

将 Dataverse 连接到 Azure Data Lake Storage Gen2

  1. 登录 Power Apps,选择您的首选环境。

  2. 在左侧导航窗格中,选择 Azure Synapse Link。 如果项目不在侧面板窗格中,请选择 …更多,然后选择所需项目。

  3. 在命令栏上,选择 + 新建数据湖链接

  4. 选择订阅资源组存储帐户。 确保存储帐户满足在先决条件部分中指定的要求。 选择下一步

    备注

    作为将环境链接到数据湖的一部分,您授予 Azure Synapse Link 服务访问您的存储帐户的权限。 请确保满足了创建和配置 Azure Data Lake Storage 帐户以及为自己授予存储帐户负责人角色的先决条件。 另外,您将授予 Power Platform 数据流服务访问您的存储帐户的权限。 详细信息:使用数据流自助准备数据.

  5. 添加要导出的表,然后选择保存。 只能导出启用了更改跟踪的表。 详细信息:启用更改跟踪

    选择要导出的表。

您可以按照本文中的步骤创建从您的 Azure 订阅中的一个环境到多个 Azure Data Lake 的链接。 同样,您可以创建从多个环境到同一个 Azure Data Lake 的链接,全部在同一个租户中。

备注

Azure Synapse Link for Dataverse 服务作为现成功能无缝集成到 Power Platform 中。 它满足为 Power Platform 数据存储和治理设定的安全性和治理标准。 详细信息:数据存储和治理

Azure Synapse Link 服务导出的数据在传输时使用传输层安全性 (TLS) 1.2 或更高版本加密,在 Azure Data Lake Storage Gen2 中静态加密。 此外,blob 存储中的瞬态数据也会静态加密。 Azure Data Lake Storage Gen2 中的加密可帮助您保护数据、实施企业安全策略并满足法规合规性要求。 详细信息:Azure 静态数据加密

管理表数据与数据湖

设置 Azure Synapse Link 后,可以通过以下两种方式之一管理导出的表:

  • 在 Power Apps 制作者门户 Azure Synapse Link 区域,选择命令栏上的管理表添加或删除一个或多个链接表。

  • 在 Power Apps 制作者门户的区域,选择表旁边的 , 然后选择要在其中导出表数据的链接数据湖。

    选择要导出的表。

设置 Azure Synapse Link 后,可以监视选项卡下的 Azure Synapse Link。

Azure Synapse Link 监视

  • 将存在一个表列表,这些表是所选 Azure Synapse Link 的一部分。
  • 同步状态将循环经过不同的阶段。 NotStarted 表明该表正在等待同步。 表初始同步完成后,将有一个不会发生增量更新的后期处理阶段。 这可能需要几个小时,具体取决于您的数据大小。 随着增量更新开始发生,上次同步的日期将定期更新。
  • 计数列显示写入的行数。 当仅追加设置为时,这是记录总数。 当仅追加设置为时,这是更改总数。
  • 仅追加分区策略列显示了各种高级配置的用法。
  1. 选择要取消链接的所需 Azure Synapse Link。

  2. 从命令栏中选择取消链接数据湖

  3. 若要同时删除数据湖文件系统,请选择删除数据湖文件系统

  4. 选择,等待几分钟让所有内容全部取消链接和删除。

如果在取消链接时删除了文件系统,请按照上面的步骤重新链接相同的数据湖。 如果未在取消链接时删除文件系统,则必须清除数据以重新链接:

  1. 转到 Azure Data Lake。

  2. 删除 Dataverse 容器。

  3. 转到 Power Apps,然后重新链接数据湖。

在 Azure Data Lake Storage Gen2 中查看您的数据

  1. 选择所需的 Azure Synapse Link,然后从顶部面板中选择转到 Azure Data Lake

  2. 展开文件系统,然后选择 select dataverse-environmentName-organizationUniqueName

model.json 文件及其名称和版本提供已导出到数据湖的表的列表。 model.json 文件中还包含初始同步状态和同步完成时间。

每个导出到数据湖的表将显示一个包含快照逗号分隔(CSV 格式)文件的文件夹。 Data Lake 中的表数据。

  1. 在 Web 浏览器地址栏中,将 ?athena.updateLake=true 追加到以 exporttodatalake 结尾的 Web 地址。

  2. 从 Azure Synapse Link 区域中选择现有配置文件,然后选择扩展的选项。

  3. 选择链接到 Azure Synapse Analytics 工作区,等待几分钟让所有内容全部链接。

连续更新快照

可通过创建、更新和删除事务持续更改 Microsoft Dataverse 数据。 快照提供定期更新的数据的只读副本,此例中为每小时。 这样可以确保数据分析使用者随时可以可靠地使用湖中的数据。

连续更新快照。

添加表作为初始导出的一部分时,表数据将写入到数据湖中相应文件夹下的 table.csv 文件中。 这是 T1 间隔,在其中创建名为 table-T1.csv 的快照只读文件,例如,Account-T1.csv 或 Contacts-T1.csv。 此外,还将把 model.json 文件更新为指向这些快照文件。 可通过打开 model.json 查看快照详细信息。

下面是数据湖中 Account.csv 分区文件和快照文件夹的示例。

客户表快照。

将使用稀疏源引擎把 Dataverse 中的更改持续推送到相应的 CSV 文件中。 这是 T2 间隔,此时再创建一个快照。 table-T2.csv(例如 Accounts-T2.csv 或 Contacts-T2.csv)(假设表有更改)和 model.json 被更新为新的快照文件。 将把查看 T2 的快照数据的所有新用户继续定向到更新的快照文件。 这样,原始快照查看者就可以继续处理旧快照 T1 文件,而新查看者则可以读取最新更改。 这在具有较长运行时间的下游流程的方案中非常有用。

备注

只有在数据更新时,才会创建新的快照文件。 将仅保留最新的五个快照文件。 陈旧数据将被自动从您的 Azure Data Lake Storage Gen 2 帐户中删除。

下面是 model.json 文件的示例,该文件始终指向时间戳最新的客户快照文件。

快照 model.json 文件示例。

下一步是什么?

成功使用 Azure Synapse Link for Dataverse 服务后,了解如何使用探索中心分析和使用数据。 要访问探索中心,转到 Power Apps > Azure Synapse Link。 选择链接的服务,然后选择发现中心选项卡。可以在此处找到建议的工具和辅助文档,以帮助您充分发挥数据的价值。 发现中心。

另请参阅

使用 Power BI 分析数据湖中的 Dataverse 数据

使用 Azure 数据工厂在数据湖中引入 Dataverse 数据

Azure Synapse Link for Dataverse 高级配置

Azure Synapse Link 常见问题解答

备注

您能告诉我们您的文档语言首选项吗? 进行简短调查。(请注意,此调查是英文版调查)

此调查大约需要七分钟。 不会收集个人数据(隐私声明)。