Azure Data Lake Storage Gen2 Microsoft Graph 连接器

Azure Data Lake Storage Gen2 Microsoft Graph 连接器允许组织中的用户搜索存储在 Azure Blob 存储和Azure Data Lake Gen 2 存储帐户 中的文件。

注意

请阅读 设置 Microsoft Graph 连接器 一文,了解常规连接器设置说明。

本文适用于配置、运行和监视 Azure Data Lake Storage Gen2 连接器的任何人。 它补充了常规设置过程,并显示仅适用于 Azure Data Lake Storage Gen2 连接器的说明。 本文还包括有关 限制的信息。

在本文中,我们使用 Azure 存储 作为 Azure Blob 存储和 AzureData Lake Gen 2 存储的通用术语。

步骤 1:在 Microsoft 365 管理中心中添加连接器

添加 Azure Data Lake Storage Gen2 连接器

(有关更多详细信息,请参阅常规 设置说明)

步骤 2:命名连接

按照常规 设置说明进行操作

步骤 3:配置连接设置

输入主存储连接字符串。 需要此字符串才能允许访问存储帐户。 若要查找连接字符串,请转到 Azure 门户 并导航到相关 Azure 存储帐户的 “密钥” 部分。

如果不希望在主存储连接字符串) 中提供 AccountKey (参数,请为以下角色授予对 Microsoft Graph 连接器服务的访问权限:

  • 存储 Blob 数据读取器
  • 存储队列数据参与者
  • 存储 Blob 委派器

导航到 Azure 存储帐户的“ 访问控制 ”选项卡,并按照其中的说明授予对以下应用的访问权限:

  • 第一方应用 ID: 56c1da01-2129-48f7-9355-af6d59d42766
  • 第一方应用名称: Graph 连接器服务

存储帐户和队列通知 (可选)

将来可能会添加对在 Graph 连接器服务中实时处理更改的支持。 在这种情况下,我们将监视存储在队列中的 Azure 存储更改通知。 需要在 Azure 存储帐户所在的同一帐户中创建队列。

创建队列后,转到队列页上的“ 事件 ”选项卡以配置 事件订阅。 选择队列将接收的所有 Blob 事件,并将队列连接到 Azure 存储帐户。

测试连接

单击“测试连接”按钮测试连接

注意

测试连接必须成功,然后才能转到下一个配置部分。 已启用 ADLS 第 2 代的存储帐户 中必须 至少有一个容器 文件,以便 测试连接 成功。 如果内容不存在,将引发连接错误。

步骤 4:分配属性标签

可以通过从选项菜单中选择源属性来为每个标签分配源属性。 虽然此步骤不是必需的,但具有一些属性标签将改进搜索相关性并确保为最终用户提供更好的搜索结果。

步骤 5:管理架构

“管理架构”屏幕上,可以更改与属性关联的架构属性,选项为“查询”、“搜索”、“检索”“优化”。 还可以添加可选别名,并选择 Content 属性。

步骤 6:管理搜索权限

Azure Data Lake Gen 2

可以选择从 Azure Data Lake Gen 2 存储帐户) 引入访问控制列表 (ACL。 设置这些搜索权限后,将根据登录用户 的权限Microsoft Entra ID 剪裁搜索内容。 或者,可以选择使存储帐户中索引的所有内容对组织中的每个人可见。 在这种情况下,组织中的每个人都有权访问存储帐户中的所有数据。

Azure Data Lake Storage Gen2 连接器支持对 “所有人”或 “仅有权访问此数据源的人员”可见的搜索权限。 搜索结果中显示的索引数据对组织中有权访问每个项的用户可见。

Azure Blob 存储

对于与 Azure Blob 存储的连接,从配置的源编制索引的所有内容对组织中的每个人都可见。 Azure Blob 存储中不支持 Blob 级别的访问控制列表。

步骤 7:设置刷新计划

“刷新设置” 屏幕上,可以设置增量爬网间隔和完整爬网间隔。 Azure Data Lake Storage Gen2 连接器的默认间隔为增量爬网 15 分钟,完全爬网间隔为 1 周。

步骤 8:查看连接

按照常规 设置说明进行操作

限制

无法为 Azure Data Lake Storage Gen2 源重新配置 Azure Blob 存储的已发布连接,相反, 在这种情况下,建议配置新连接。

此外,文件的大小需要为 4 MB 或更小才能对其进行爬网。 当前支持的文件类型包括:

  • Word (docx、.docm、.dotx、.dotm)
  • PowerPoint (.pptm、.pptx、.potm、.potx、.ppam、.ppsm、.ppsx)
  • Excel (.xlsx、.xlsm)
  • 旧版 Office 格式 (.doc、.dot 等 )
  • 文本 (.txt)
  • HTML
  • PDF

不支持图像 (.jpg、.bmp 等二进制文件 ) 。 例如,如果 .docx 文件仅包含图像,则可能会跳过它,因为它未返回任何内容。

疑难解答

发布连接后,可以在管理中心的“数据源”选项卡下查看状态。 若要了解如何进行更新和删除,请参阅 管理连接器

如果你有任何其他问题或想要提供反馈,请写信给我们 aka.ms/TalkToGraphConnectors