Copilot 的语义索引

语义索引是从 Microsoft Graph 中的内容生成的。 它用于帮助生成与用户查询相关的上下文响应。 它允许组织搜索数十亿个矢量, (特征或属性的数学表示形式) 并返回相关结果。 结合 Microsoft Graph 中的增强功能,语义索引可将你与组织中的相关信息连接起来。 它基于Microsoft 全面的安全性、合规性、隐私方法,并尊重租户中的所有组织边界。

什么是索引?

索引数据的概念在 Microsoft 365 中非常成熟。 索引是Microsoft 365 服务访问 Microsoft Graph 中大量数据的重要方式之一,Microsoft 365 租户所在的位置。 使用索引,用户可以查看来自 Microsoft Graph 的搜索结果,包括来自租户中大多数Microsoft 365 应用程序的内容和信号。 这可确保根据网络中的内容和人员之间的连接对搜索结果进行个性化和提升。

与 Microsoft Graph 中的数据的交互基于关键字 (keyword) 匹配、个性化和社交匹配。 针对 Microsoft Graph 中的索引进行关键字搜索查询,该索引映射到文档或一组文档中的位置。 Microsoft 365 使用 Microsoft Graph 根据用户及其密切网络的其他信号的知识对最相关的内容进行排名。 这在 Microsoft 365 中称为个性化和社交匹配,可驱动针对组织中内容的查询的相关性。 Microsoft Graph 中的租户数据访问受基于角色的访问控制限制。 组织始终通过Microsoft 365 管理中心中的搜索和智能门户控制Microsoft搜索功能。

语义索引如何帮助管理数据

语义索引增强了 Microsoft 365 的功能,使你可以根据关键字、个人偏好和社交关系查找相关内容。 它通过创建矢量化索引来执行此操作。 矢量是字词、图像像素或其他数据点的数字表示形式。 矢量的排列或映射是用彼此靠近的接近数字来表示相似性的。 矢量存储在多维空间中,其中语义上相似的数据点聚集在矢量空间中,使 Microsoft 365 能够处理“完全匹配”以外的更广泛的搜索查询集。

实际上,这意味着Microsoft 365 服务(如智能 Microsoft 365 Copilot 副驾驶®)可以:

  • 了解不同形式的字词之间的关系, (例如技术、技术、技术;美国、美国、美国、美国美国;狗、猫、宠物) 。
  • 捕获同义词以扩大可搜索信息的数量,包括句子、片段、文档和会议的意图。
  • 识别查询或示例内容的相关资产。

下图使用文本 (而不是矢量化索引) 使用的数字来显示数据点之间的相似性示例:

显示语义索引的数据点如何聚集到一起的示例的图形。

语义索引根据数据的向量距离或相似性提供快速准确的相似性搜索和检索。 这意味着,除了使用传统的词法方法根据完全匹配或预定义的条件进行查询外,语义索引还可以根据语义或上下文含义查找最相似或最相关的数据。

功能

以下语义索引功能不仅仅是增强搜索结果:它们协同工作,帮助你了解数据、更快地查找信息并提高工作效率。 用户最初可以通过智能 Microsoft 365 Copilot 副驾驶®集成来与语义索引交互。 我们为具有付费智能 Microsoft 365 Copilot 副驾驶®许可证的用户生成语义索引。 下面是每个功能工作原理的详细信息。

使用基于 Graph 的聊天的 Microsoft Copilot

语义索引通过了解查询的意图并将其他信息追加到Microsoft Copilot提示符,帮助在Microsoft Copilot内显示结果。 在 Microsoft Graph 和语义索引中获取相关信息,为大型语言模型 (LLM) 提供更多推理信息。 例如,假设你希望Microsoft Copilot找到一封电子邮件,其中同事赞扬了供应商的设计工作。 语义索引包括附近字词 (例如,兴奋、兴奋、惊讶) 搜索,以扩大搜索区域并提供最佳结果。 所有这些工作都在后台进行,以添加与Microsoft Copilot搜索的结果的相关性,而不会增加复杂性。

语义索引的工作原理

语义索引增强了 Microsoft 365 应用、SharePoint Online 和 Microsoft Teams 中的Microsoft Copilot和搜索结果。 它支持通过Microsoft自动启用的联机数据的增强搜索体验和概念理解。

目前,语义索引是在租户级别创建的。 它是从基于文本的 SharePoint Online 文件生成的组织范围的索引,可通过网站继承访问两个或更多人员。 但是,仅当用户已有权访问由基于角色的访问控制控制的内容时,它才会向用户显示结果。 此外,SharePoint Online 网站必须保持可搜索状态。 随着时间的推移,我们还将生成用户级索引内容。 这将添加执行日常任务的用户可访问的工作数据集的个性化索引。 这包括您制作或与之交互的任何基于文本的内容,例如电子邮件、提及您或您评论或共享的文档。

以下部分介绍如何启用每个索引、智能 Microsoft 365 Copilot 副驾驶®中的数据流如何使用语义索引、每个索引可以处理的文件类型以及每个索引如何处理更新。

支持

每个智能 Microsoft 365 Copilot 副驾驶®客户现在都有一个租户级语义索引。 索引过程不需要管理参与。

数据流

语义索引与 Microsoft Graph 交互,为用户提供对索引中信息的访问权限。 下图显示了数据流如何使用 智能 Microsoft 365 Copilot 副驾驶® 对请求工作。

显示智能 Microsoft 365 Copilot 副驾驶®、Microsoft 365 应用版、Microsoft Graph 和大型语言模型之间的关系的屏幕截图。

Microsoft 365 个应用的用户提示将发送到 Copilot (1) ,Copilot 访问 Microsoft Graph 和语义索引以处理 (2) 。 Copilot 将修改后的提示发送到大型语言模型 (3) ,接收 LLM 响应 (4) ,然后访问 Microsoft Graph 和语义索引进行后处理 (5) 。 然后,Copilot 将响应和应用命令发送回Microsoft 365 应用。 所有请求都由 HTTPS 加密,客户数据保持静态加密状态。

受支持的内容类型

语义索引支持为下表中列出的用户邮箱和文件类型编制索引,随着时间的推移,支持更多文件类型。 表中包含用户级索引和租户级索引支持的文件类型列表。

内容/文件类型 用户级别 租户级
用户邮箱 支持 不适用
委托邮箱 不支持 不适用
共享邮箱 不支持 不适用
存档邮箱数据 不支持 不适用
已存档的 SharePoint 数据 不支持 不支持
Word文档 (doc/docx) 支持 支持
PowerPoint (pptx) 支持 支持
PDF 文件 支持 支持
网页 (aspx) 支持 支持
OneNote 文件 (一个) 支持 支持
图形连接器数据 不适用 支持

索引更新

当语义索引首次为客户完成索引编制时,用户创建的文档将在用户邮箱中近乎实时地编制索引。 添加到 SharePoint Online 网站(可通过网站继承访问)的两个或多个用户每天编制索引的新文档。 更新索引用户和租户级别文档时,将立即为更改编制索引。

管理

我们为管理员提供可选活动,用于通过Microsoft 365 管理中心准备和管理语义索引。 启用语义索引不需要管理参与,因为服务由 Microsoft 自动启用。 语义索引是Microsoft 365 搜索的改进,无法禁用。

管理员可以选择准备和管理语义索引,方法是查看 在 SharePoint 中规划和部署文件协作的注意事项, 并在 SharePoint 新式体验中共享权限。 管理员可以通过查看使用 Microsoft Purview 数据丢失防护 (DLP) 排除数据的注意事项,选择从语义索引中排除文件。 如果没有 DLP 解决方案,管理员可以从租户级别索引中排除 SharePoint Online 网站。

排除 SharePoint Online 网站

有时,没有Microsoft Purview 数据丢失防护的组织可能希望排除 SharePoint Online 网站,使其数据由Microsoft搜索编制索引。 仅应对敏感数据(例如工资单、HR 或财务信息)考虑这些步骤。 若要排除 SharePoint Online 网站,请执行以下步骤:

  1. 浏览到具有相应管理员权限的网站。
  2. 从下拉菜单中选择 “设置” ,然后选择“ 网站信息 ”。
  3. 选择“ 查看所有网站设置” ,打开“网站设置”页。
  4. 在“搜索”类别下选择“搜索和脱机可用性”,对于“允许此网站显示在搜索结果中”选择“”,将其从Microsoft搜索和语义索引搜索中排除。 也可以使用 PowerShell 为多个站点执行此操作。

显示用于排除 SharePoint Online 网站的设置的屏幕截图。

Microsoft搜索和语义索引仅支持从租户级索引中排除 SharePoint Online 内容。 无法从仅搜索Microsoft或仅语义索引中排除结果;操作同时应用于这两者。

配置项见解

在Microsoft 365 管理中心的“搜索和智能”页上,默认情况下启用项见解。 关闭人员或项目见解会降低搜索和语义索引体验Microsoft,因为结果不包括从通讯组或组织结构图派生的相关人员。

  • 人员见解根据用户在 Microsoft 365 中的公共协作工作向用户提供相关人员的列表。 公共协作包括公共通讯组的成员和组织结构图中连接的个人。

  • 项见解 允许根据组织中的人员在 Microsoft 365 中的协作工作提供建议。 这些建议可能包括但不限于文档或其他类型的内容,并显示在联系人卡片 (联系人) 、Delve、The Microsoft 365 应用、Microsoft Copilot结果和其他位置。

项见解和人员见解都不涵盖基于用户自己的数据的个性化功能。

整合第三方信息

使用 Copilot 连接器,组织可以将组织数据或内容从外部源引入Microsoft Graph,然后将其引入语义索引。 Microsoft为所有 Graph 连接器数据编制索引,同时维护内容的访问控制。 这将扩展Microsoft 365 生产力应用和更广泛的Microsoft生态系统中可搜索的内容源类型,并且当连接器内容丰富时效果最佳。 第三方数据可以托管在本地或公有云或私有云中,此信息由 Microsoft Graph 使用,该图形可以引入语义索引,以帮助为组织提供跨 Microsoft 365 的所有上下文和组织的第三方内容。 有关Microsoft 365 企业版和智能 Microsoft 365 Copilot 副驾驶®的图形连接器许可要求的详细信息,请参阅许可证要求和定价

隐私、合规性和安全性

Microsoft 365 租户中的权限模型有助于确保数据不会在用户、组和租户之间无意中泄漏。 语义索引仅显示每个人可以使用其他 Microsoft 365 服务中使用的数据访问的相同基础控件访问的数据。 语义索引遵循基于用户标识的访问边界,以便地面进程仅访问当前用户有权访问的内容。 有关详细信息,请参阅 Microsoft的隐私策略和服务文档

Microsoft 365 Copilot 符合我们对Microsoft 365商业客户的现有隐私、安全和合规性承诺,包括一般数据保护条例 (GDPR) 和欧盟 (EU) 数据边界。 通过语义索引访问的提示、响应和数据不用于训练基础 LLM,包括智能 Microsoft 365 Copilot 副驾驶®使用的 LLM。 有关详细信息,请参阅智能 Microsoft 365 Copilot 副驾驶®的数据、隐私和安全性

存储和处理

语义索引生成的数据保留在公司的租户中,并符合安全性、合规性、标识和隐私策略和流程。 语义索引仅适用于用户已有权限的内容,不会影响存储配额。

用户级索引信息存储在用户邮箱所在的位置。 另一方面,租户级索引信息存储在隔离且受保护的客户的租户容器中。 此容器位于 SharePoint 网站所在的区域,可以是“主页”区域或租户管理员指定的其他区域。对于欧盟数据边界 (EUDB) 的客户,索引存储在基于欧盟/EFTA 的数据中心。 处理其他客户可以在租户区域或美国进行。 对于多地理位置组织,将尊重所有地理边界。 在每个区域中存储和处理区域内数据。

Microsoft Purview 客户密钥 (BYOK) 支持

语义索引提供自带密钥 (BYOK,) 支持在其环境中启用 BYOK 的企业。 Microsoft自动为已启用 BYOK 的客户启用语义索引,而无需任何管理参与。

信息保护

在搜索上下文中,没有其他方法可以使用信息保护功能从语义索引中排除数据。 语义索引继承Microsoft搜索的安全和隐私设置,并且从第三方连接器引入的数据与其他Microsoft 365 数据提供相同的存储和保护。 对于正在调查其他信息保护选项的组织,Microsoft 365 在 Microsoft 365 应用中提供内置功能。 附加产品也可用于帮助管理员通过数据最小化和减少过度共享来保护组织数据。 以下各节概述了可供组织参考的选项。

数据最小化

数据最小化可减少组织可能访问的可用数据量。 为了符合性和法规要求,通常需要保留和删除内容,但删除不再具有业务价值的内容也有助于管理风险和责任。 Microsoft Purview 数据生命周期管理(单独获得许可)可用于删除不再需要的内容,这些内容与保留策略一起进行大规模管理,以及针对异常和精细控制的保留标签。

减少过度共享

长期以来,组织一直能够采取行动,使用 Microsoft 365 管理中心 和 SharePoint Online 中的现有控件来减少 Microsoft 365 中的过度共享。 请务必注意,语义索引不会更改对内容的访问权限,也不会更改用户应如何与同事共享信息的原则。 例如,语义索引不会使内容与与租户级别索引的组织中的每个人一起工作的链接共享。 只有选择他们有权访问的链接的用户才会将信息添加到其用户索引中。 建议组织在探索信息保护选项时考虑以下事项:

  • 规划安全文件协作 – 查看 规划和部署文件协作 ,详细了解为用户操作安全高效的文件协作环境的建议做法。

  • 适当调整用户对数据的访问大小以减少列表 - 通过继承 SharePoint Online 网站的排除列表并实时执行访问控制检查来减少过度共享。 组织可以考虑使用 Syntex SharePoint 高级管理加载项 来管理和管理这些权限。

  • 使用敏感度标签 - 减少内容过度共享的另一种方法是使用Microsoft Purview 信息保护来应用敏感度标签,这样就可以根据数据的敏感度对数据进行分类,并应用加密和内容营销等保护。 敏感度标签也包含在搜索修整 (中,即,支持筛选和应用程序端规则,用于视觉标记和访问限制) 。

  • 限制访问 - Microsoft Purview 数据丢失防护在Microsoft 365 E5中可用,可用于追溯和暂时限制对已报告为过度共享的文档的访问。 没有Microsoft 365 E5许可证的组织可以使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助管理数据安全性和合规性需求。

对于有兴趣了解如何部署高级信息保护解决方案的客户,请查看以下文章,其中介绍如何 使用 Microsoft Purview 部署信息保护解决方案。 有关 Microsoft Purview 如何帮助增强智能 Microsoft 365 Copilot 副驾驶®的数据安全性和合规性要求的详细信息,请参阅保护和管理与 Microsoft Purview 的智能 Microsoft 365 Copilot 副驾驶®交互

其他资源

Microsoft 365,Microsoft Graph 和语义索引利用 365 Microsoft数据,为搜索、聊天和副驾驶提供了前所未有的表现力。 这种表现力有助于通过 Microsoft 365 和 智能 Microsoft 365 Copilot 副驾驶® 显示正确的地面数据,以充分利用组织数据。

若要了解有关智能 Microsoft 365 Copilot 副驾驶®的详细信息,检查以下资源: