分析数据存储中的Microsoft图形数据

本文介绍业务场景的常见Microsoft Graph 集成模式,该方案需要对企业协作数据进行复杂的分析,以提高业务流程和工作效率。

此方案依赖于提取的大量Microsoft 365 数据,并具有以下要求:

  • 数据集成类型。
  • 从 Microsoft 365 边界到应用的出站数据流。
  • 跨多个月的大量数据。
  • 数据延迟相对较高;初始数据提取可能包括长达一年的消息。

此方案的最佳选择是使用 Microsoft Graph Data Connect。 客户端需要设置高容量数据存储(例如 Azure Data Lake 或 Azure Synapse),启用 Azure 订阅,并配置Azure 数据工厂或Azure Synapse管道。

下图显示了此解决方案的体系结构。

显示使用Microsoft Entra ID进行身份验证、连接到 Microsoft Graph 以及将内容导出到 Azure Data Lake 的第三方应用的关系图。

解决方案组件

解决方案体系结构包括以下组件:

  • Microsoft Graph 数据连接,它支持通过精细数据同意大规模提取Microsoft 365 数据,并支持所有 Azure 本机服务功能,例如加密、地理隔离、审核和策略实施。
  • Azure 数据工厂 (ADF) ,它允许轻松构建 ETL (提取、转换和加载) 和 ELT (提取、加载和转换) 在直观的环境中处理无代码或编写代码。
  • Azure Data Lake 允许以不同格式保存大量结构化和非结构化数据。
  • Microsoft Entra ID,这是管理Microsoft Graph API 的身份验证所必需的,并支持启用 OAuth 流的委托权限和应用程序权限。

注意事项

以下注意事项支持使用此集成模式:

  • 可用性:客户端 ADF 可以按计划或临时批量提取数据。

  • 延迟:此方案中的数据延迟可能会有所不同,具体取决于历史数据的提取或通过按计划任务执行的异步进程将较新的数据传递到 Microsoft Graph Data Connect 存储。 ADF 大型数据提取的性能比精细 HTTP API 更快,因为 ADF 使用批处理和文件传输。

  • 可伸缩性:此体系结构允许你开发管道,使环境的数据移动吞吐量最大化。 这些管道可以充分利用以下资源:

    • 源和目标数据存储之间的网络带宽。
    • 源或目标数据存储每秒输入/输出操作数 (IOPS) 和带宽。
  • 解决方案复杂性:从集成的角度来看,此数据出口解决方案的复杂性较低,因为它不需要自定义代码,组件很少,并且可以容忍数据延迟。