了解数据安全调查 (预览版) 中的 AI 分析

重要

数据安全调查在组织中数据分析中使用生成人工智能 (AI) 、大型语言模型和业务流程。 AI 生成的结果可能并不总是准确或完整。 虽然我们努力提供可靠且有用的信息,但 AI 系统可能会产生错误或错误的结果。 请务必验证信息并谨慎使用信息。 Microsoft对 AI 系统提供的信息不作任何明示、默示或法定保证。

数据安全调查 (预览) 使用 AI 服务和工具帮助你快速查看与安全事件关联的项目并采取措施。 AI 相关服务包括以下工具:

  • 矢量搜索
  • 分类
  • 考试

数据安全调查 (预览版中的矢量搜索) 提供了一种使用高级业务流程和嵌入在上下文中搜索添加到调查范围的数据的方法。 矢量搜索是一种搜索引擎技术,侧重于了解查询中字词和短语背后的含义和上下文,而不仅仅是匹配关键字。

矢量搜索的一些关键方面包括:

  • 上下文理解:矢量搜索会考虑组织、搜索历史记录和查询的整体含义等因素来解释搜索词的上下文。
  • 意向识别:无论查找信息、尝试执行作还是查找与搜索关联的特定类型内容,矢量搜索都有助于了解你的意向。
  • 相关性和准确性:通过关注查询) 中字词的含义和意图 (语义,矢量搜索可提供更准确、更相关的结果,并改善整体搜索体验。

当组织中的调查人员调查泄露的数据集时,数据安全调查 (预览版中的矢量搜索) 可以通过解决几个关键挑战来显著增强调查:

  • 识别相关信息:矢量搜索了解查询背后的上下文和意向。 此焦点可帮助你快速查找相关文档、电子邮件或记录,即使它们不包含你使用的确切关键字。
  • 处理多义性:矢量搜索可消除具有多个含义的字词的歧义,确保获得与调查上下文相适应的结果。
  • 减少干扰:矢量搜索筛选掉不相关的信息,使你可以专注于最相关的数据,并减少筛选不相关的结果所花费的时间。
  • 提高效率:矢量搜索可简化搜索过程,通过快速显示最相关的信息,使调查更加高效和有效。

运作方式

创建调查、定义范围并为 AI 准备数据后,可以针对数据集运行矢量搜索。 虽然此过程的前面步骤允许进行简单的关键字 (keyword) 、元数据和日期范围搜索。 矢量搜索使用 AI 嵌入在上下文中搜索数据。 此过程允许调查人员在不知道其确切内容的情况下查找项目。

矢量搜索的工作原理是首先通过 AI 嵌入模型在调查中运行所有作用域内的数据。 此模型从数据集中的每个项中提取语义含义,并将其分解为较小的部分。 这称为嵌入,允许数据安全调查 (预览) 使用维度值在上下文中了解数据。 语义搜索索引是从这些可以查询的值生成的。

在调查中创建矢量搜索查询时,AI 会自动扩展和扩展查询,并通过语义搜索索引运行查询。 数据安全调查 (预览) 然后将查询的语义含义与内容的语义含义匹配,并返回所有上下文相关项。

例如,如果搜索“Contoso Security 项目中包含的机密数据”,则矢量搜索引擎会了解你正在查找此特定项目中的机密数据,而不是简单地将搜索查询中包含的关键字 (机密数据Contoso 等 ) 进行匹配。 使用矢量搜索,可以查询受影响的数据,以查找与特定主题相关的所有数据项,即使缺少关键字也是如此。

有关矢量搜索概念的详细信息,请参阅 Azure AI 搜索中的矢量 一文中的概念部分。

分类

当组织遭到入侵并识别出受影响的数据时,调查人员需要开始确定数据优先级,以开始识别安全风险。 数据安全调查 (预览版中的类别) 无需手动将类别分配给大型复杂调查范围内的项目。

可以在数据安全调查 (预览) 中使用 AI 支持的分类,以便更快地推断出可能受影响的数据并确定其优先级。 若要对数据进行分类,可以选择所有或部分默认类别选项,根据调查使用 AI 建议的类别,或创建自己的自定义类别。

AI 生成的类别扩充了范围中主题级内容的其他信息:

  • 名称:基于内容的类别/区域的名称
  • 摘要:基础内容的简短说明

在每个类别中,可以对任何内容使用矢量搜索和检查工具。

默认类别

数据安全调查 (预览) 包括默认类别,用于对调查范围内的项目进行分类。 运行分类时,可以选择所有默认类别,也可以仅选择适用于评审范围的默认类别。 未选择的默认类别在分析中将被忽略,并且查看项目时,这些类别的结果不可用。

由 AI 处理确定的内容项的初始默认类别为:

  • 业务信息:常规业务信息。 此类别通常包含大量项。 此类别中的一些示例领域可能包括数字参与和分析、用户和人力资源、日常管理沟通、客户参与/体验等。
  • 通信记录:常规通信信息。 此类别通常还包含大量项。 用户可以使用此类别来查看基于通信领域的调查。 此类别中的一些示例区域可能包括客户投诉、节日问候语、内部备忘录、项目更新等。
  • 凭据和访问信息 重点介绍与调查中的访问资产相关的信息。 此信息有助于识别组织中可能存在风险的数据和通信。 此类别中的一些示例区域可能包括用户凭据、未经授权的数据库访问、数据泄露等。
  • 客户信息:重点介绍与客户共享的信息。 此类别可用于了解哪些客户数据可能存在风险。 此类别中的一些示例区域可能包括付款确认、客户体验改进、交付信息等。
  • 用户信息:重点介绍与组织中的用户相关的信息。 此类别通常还包含大量项。 此类别中的一些示例区域可能包括用户就业信息、用户保留策略、专用组成员身份等。
  • 财务信息:专注于调查中的财务信息。 此类别中的一些示例领域可能包括财务规划、赠款机会、预算、财务报表等。
  • 健康信息:侧重于调查中的健康和医疗相关项目。 此类别中的一些示例区域可能包括健康和健康记录、COVID-19 安全协议更新、健康声明和事件报告等。
  • 事件和调查信息:重点介绍有关调查中的事件和调查的项目。 此类别包括组织内的安全事件和调查。 此类别中的一些示例区域可能包括数据泄露、运行状况记录事件、高风险客户端帐户监视等。
  • 知识产权:专注于知识产权 (知识产权) 调查数据。 此类别中的一些示例领域可能包括未来的专利申请、研发工作、试验结果指标等。
  • 营销信息 专注于调查中的营销数据。 此类别中的一些示例区域可能包括新闻稿、广告活动、营销和销售计划或策略等。
  • 作信息:重点介绍组织的作数据。 此类别中的一些示例区域可能包括物流、发货、库存、合规性、税务记录等。
  • 个人身份信息:重点介绍调查中的组个人数据和相关项目。 此类别中的一些示例区域可能包括事件来宾列表、员工和培训课程、员工个人信息等。
  • 受管制数据:侧重于调查中的受管制数据。 此类别中的一些示例区域可能包括法规、数据保护、法规记录等。

建议的类别

数据安全调查 (预览) 还会根据调查范围中分析的内容提供 AI 生成的建议类别。 这些建议的类别会自动创建,以帮助调查查看分组在意外或未知区域中的项目。 根据包含的内容类型,建议的类别会有所不同。

如果分析的内容主要侧重于默认类别区域以外的特定主题区域,则建议的类别将自定义为该特定内容区域。 例如,如果分析的内容侧重于高度机密的主题,其中包含特定于组织的术语和概念,则会自动为这些区域创建建议的类别。 这些类别对你的组织和分析的内容是唯一的。

自定义类别

数据安全调查 (预览) 允许手动创建自定义类别,供生成 AI 过程在分析内容时使用。 通过定义最适合调查需求的类别,可以节省时间,让 AI 流程根据这些自定义类别自动对项目进行分类。

自定义类别可以是捕获调查中感兴趣的内容的特定性质的特定字词或短语。 例如,自定义类别可能包括 安全漏洞Bug 修复、特定项目代码名称或自定义知识产权(如与特定药物或候选药物相关的 R&D)。

考试

在识别需要更深入分析的项目时,数据安全调查 (预览) 提供基于 AI 的检查功能,帮助你专注于关键安全性和敏感数据风险。

  • 凭据:使用此检查重点区域从调查范围中的所有选定项扫描和提取凭据。 此信息为调查人员提供了一种快速方法来了解哪些帐户和凭据与安全事件相关联,以及哪些帐户和凭据可能会泄露。

  • 风险:使用此检查重点区域对所选文件中的所有风险区域进行评分,以帮助调查人员重点调查并确定调查的优先级。 如果项是特权内容,则此工具会为每个项提供总体风险,以及该项的其他特定风险。

    风险领域的类型包括:

    • 资产标识符
    • 凭据和机密
    • 威胁参与者讨论违反讨论的证据
    • 紧急安全事件
    • 漏洞和安全卫生
    • 个人和敏感内容
    • 网络和访问信息
    • 策略合规性和数据保护
    • 基础结构信息
    • 客户信息
    • 政府信息
    • 特权信息
    • 商业机密
  • 缓解:使用此检查重点区域对所选文件的风险进行评分,并启用数据安全调查 (预览) ,以提供有关后续作的缓解说明。 所选文件会获取风险评分、风险摘要和详细的缓解建议,以防止内容泄露造成的更多危害。

AI 分析建议

下表概述了在数据安全调查 (预览版) 中使用 AI 分析工具时的建议、示例方案和最佳做法。

建议 矢量搜索 分类 考试
何时使用 查找矢量化数据集中特定项的示例 (发票、bug 修复等 ) ,以确认和进一步调查假设。

使用矢量搜索进行快速交互式分析,可快速填充结果。
快速将大量数据分为默认、自定义或 AI 生成的类别,以便按敏感度和严重性确定调查重点的优先级。

根据数据集的大小,分类可能需要一些时间才能完成。
在项目级别对作用域内数据集进行有针对性的分析,有助于从已确认的数据资产中提取见解,以便执行后续步骤。

使用检查来确定缓解措施的项。
示例方案 评估潜在的欺诈活动。 在发生严重违规后要分析的项的优先级。 从已验证的数据集提取凭据和建议的缓解步骤。
最佳做法 在所有矢量化内容中搜索感兴趣的项目,以生成更有意义的 AI 建议类别。 选择一个或多个类别,并使用矢量搜索在类别中进行搜索。

查看每个类别中的 AI 生成区域,以了解数据集中的特定内容。
使用检查钻取具有高敏感度的特定项目,以获取个人分数和结果。

准备好开始了吗?