数据集

Microsoft 将大量数据集集中到单个平台中,Microsoft Defender 威胁智能 (Defender TI) ,使 Microsoft 社区和客户能够更轻松地进行基础结构分析。 Microsoft 的主要重点是提供尽可能多的有关 Internet 基础结构的数据,以支持许多安全用例。

Microsoft 收集、分析和编制 Internet 数据索引,以帮助用户完成以下任务:

  • 检测和响应威胁
  • 确定事件的优先级。
  • 主动识别与面向其组织的参与者组关联的基础结构。

Microsoft 通过其 PDNS 传感器网络、虚拟用户的全局代理网络、端口扫描收集 Internet 数据,并使用恶意软件的第三方源,并添加域名系统 (DNS) 数据。

此 Internet 数据分为两个不同的组:传统和高级。 传统数据集包括解析、Whois、TLS 证书、子域、DNS、反向 DNS 和服务。 高级数据集包括跟踪器、组件、主机对和 Cookie。 跟踪器、组件、主机对和 Cookie 数据集是通过观察已爬网的网页的文档对象模型 (DOM) 收集的。 此外,还可以从基于端口扫描或 TLS 证书详细信息的横幅响应触发的检测规则中观察到组件和跟踪器。

数据集边缘屏幕截图

解决方案

被动 DNS (PDNS) 是一个记录系统,用于存储给定位置、记录和时间范围的 DNS 解析数据。 此历史解析数据集允许用户查看解析为 IP 地址的域,反之亦然。 此数据集允许基于域或 IP 重叠进行基于时间的关联。 PDNS 可以识别以前未知或新站立的威胁参与者基础结构。 主动向阻止列表添加指示器可以在市场活动开始之前切断通信路径。 记录分辨率数据可在“分辨率数据集”选项卡中使用。“DNS 数据集”选项卡中提供了更多类型的 DNS 记录。

我们的 PDNS 分辨率数据包括以下信息:

  • 解析:解析实体的名称 (IP 地址或域)
  • 位置:托管 IP 地址的位置。
  • 网络:与 IP 地址关联的 netblock 或子网。
  • ASN:自治系统编号和组织名称
  • First Seen:一个时间戳,显示我们首次观察到此分辨率的日期。
  • Last Seen:一个时间戳,显示我们上次观察到此分辨率的日期。
  • :启用关系检测的源。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡分辨率

此数据集可能有助于解答的问题

  • Defender TI 首次观察到域何时解析为 IP 地址?

    数据集域首次出现

  • Defender TI 上次看到它主动解析为 IP 地址的时间是什么时候?

    上次看到的数据集域

  • 它当前解析为哪个 IP 地址?

    数据集域 Active Re 解决方案

IP 地址

  • IP 地址是否可路由?

    数据集可路由 IP

  • 它属于哪个子网?

    数据集 IP 子网

  • 是否有与子网关联的所有者?

    数据集 IP 所有者

  • 什么是 AS 的一部分?

    数据集 IPASN

  • 有哪些地理位置?

    数据集 IP 地理位置

Whois

每天数千次,域是在个人和组织之间购买和/或转移的。 此过程很简单,只需几分钟,并且可以低至 7 美元,具体取决于注册机构提供商。 除了付款详细信息之外,还必须提供有关自己的其他信息。 其中一些信息存储为已设置域的 Whois 记录的一部分。 此操作将被视为公共域注册。 但是,有一些专用域注册服务,你可以在其中隐藏你的域的 Whois 记录中的个人信息。 在这些情况下,域所有者的信息是安全的,并替换为其注册机构的信息。 更多的参与者组正在执行专用域注册,使分析师更难找到他们拥有的其他域。 当 Whois 记录不提供潜在顾客时,Defender TI 提供了各种数据集来查找参与者的共享基础结构。

Whois 是一种协议,允许任何人查询有关域、IP 地址或子网的信息。 Whois 在威胁基础结构研究中最常见的功能之一是基于 Whois 记录中共享的唯一数据来识别或连接不同的实体。 如果你曾经自己购买了域,你可能已经注意到,从注册机构请求的内容从未经过验证。 事实上,你可以把任何记录在 (和许多人做) ,然后展示给世界。

每个 Whois 记录都有几个不同的部分,所有这些部分可能包含不同的信息。 常见的部分包括“注册机构”、“注册人”、“管理员”和“技术”,每个部分都可能对应于记录的不同联系人。 很多时候,此数据会跨部分重复,但在某些情况下,可能会有细微的差异,尤其是在执行组件犯了错误时。 在 Defender TI 中查看 Whois 信息时,会看到一条压缩的记录,该记录删除重复数据,并记下它来自记录的哪一部分。 我们发现,此过程大大加快了分析师工作流的速度,并避免了对数据的任何忽视。 Defender TI 的 Whois 信息由 WhoisIQ™ 数据库提供支持。

Whois 数据包括以下信息:

  • 记录已更新:一个时间戳,指示 Whois 记录的上次更新日期。
  • 上次扫描:Defender TI 系统上次扫描记录的日期。
  • 过期:注册的到期日期(如果可用)。
  • 已创建:当前 Whois 记录的年龄。
  • Whois 服务器:服务器由 ICANN 认可的注册机构设置,以获取有关其中注册的域的最新信息。
  • 注册器:用于注册项目的注册机构服务。
  • 域状态:域的当前状态。 “活动”域在 Internet 上实时显示。
  • Email:在 Whois 记录中找到的任何电子邮件地址,以及每个电子邮件地址的联系人类型都与 ((例如管理员、技术) )相关联。
  • 名称:记录中任何联系人的名称,以及每个联系人关联的联系人类型。
  • 组织:记录中任何组织的名称,以及每个组织关联的联系人类型。
  • 街道:与记录关联的任何街道地址,以及相应联系人的类型。
  • 城市:与记录关联的地址中列出的任何城市,以及相应联系人的类型。
  • 状态:与记录关联的地址中列出的任何状态,以及相应联系人的类型。
  • 邮政编码:与记录关联的地址中列出的任何邮政编码,以及相应联系人的类型。
  • 国家/地区:与记录关联的地址中列出的任何国家/地区,以及相应联系人的类型。
  • 电话:记录中列出的任何电话号码以及相应联系人的类型。
  • 名称服务器:与已注册实体关联的任何名称服务器。

当前 Whois 查找

“数据”选项卡 WHOIS

Defender TI 的当前 Whois 存储库突出显示了 Microsoft Whois 集合中当前已注册并与感兴趣的 Whois 属性关联的所有域。 此数据突出显示域的注册和到期日期,以及用于注册域的电子邮件地址。 此数据显示在平台的“whois 搜索”选项卡中。

历史 Whois 查找

搜索谁是历史

Defender TI 的 Whois 历史记录存储库允许用户访问基于系统观察结果对 Whois 属性的所有已知历史域关联。 此数据集突出显示与用户第一次和最后一次观察到所查询的域与属性之间的关联时从显示的属性关联的所有域。 此数据显示在当前“whois 搜索”选项卡旁边的单独选项卡中。

此数据集可能有助于回答的问题

  • 域有多旧?

    数据集谁是域年龄

  • 信息是否受到隐私保护?

    数据集谁是隐私保护的

  • 是否有任何数据看起来是唯一的?

    数据集谁是唯一的

  • 使用什么名称服务器?

    数据集 Whois 名称服务器

  • 此域是沉井域吗?

    数据集 Whois Sinkhole

  • 此域是否是寄存域?

    数据集谁是寄存域

  • 此域是蜜罐域吗?

    数据集 Whois Honeypot 域

  • 是否有历史记录?

    数据集谁是历史记录

  • 是否有虚假的隐私保护电子邮件?

    数据集谁是假隐私电子邮件

  • Whois 记录中是否有假名?

  • 你是否识别了其他相关的 IOC 来搜索跨域的潜在共享 Whois 值?

    数据集谁是共享值搜索

证书

除了保护数据之外,TLS 证书也是用户连接不同网络基础结构的绝佳方式。 现代扫描技术使我们能够在数小时内对 Internet 上的每个节点执行数据请求。 换句话说,我们可以轻松地定期将证书关联到托管证书的 IP 地址。

与 Whois 记录非常类似,TLS 证书要求用户提供的信息才能生成最终产品。 除了域之外,TLS 证书还包括为 (创建证书的人员,除非它是自签名) 。 用户可以构成其他信息。 Microsoft 的用户从 TLS 证书中看到的最大价值不一定是生成证书时可能使用的唯一数据,而是其托管位置。

若要访问 TLS 证书,它需要与 Web 服务器相关联,并通过特定端口公开, (通常为 443) 。 使用每周大规模 Internet 扫描,可以扫描所有 IP 地址,并获取托管的任何证书,以生成证书数据的历史存储库。 将 IP 地址数据库设置为 TLS 证书映射为用户提供了一种方法来识别基础结构中的重叠。

为了进一步说明此概念,假设执行组件使用自签名 TLS 证书设置服务器。 几天后,防御者会对其基础结构保持明智,并阻止托管恶意内容的 Web 服务器。 执行组件只需复制所有内容(包括 TLS 证书 () ),并将其放在新服务器上,而不是销毁所有艰苦的工作。 作为用户,现在可以使用证书的唯一 SHA-1 值建立连接,表示两个 Web 服务器 (一个被阻止,一个未知) 以某种方式连接。

TLS 证书更有价值的是,它们能够建立被动 DNS 或 Whois 数据可能会丢失的连接。 这意味着可以通过更多方法关联潜在的恶意基础结构并识别参与者的潜在操作安全故障。 从 2013 年到现在,Defender TI 已收集了超过 3000 万个证书,并为用户提供了相关证书内容和历史记录的工具。

TLS 证书是将加密密钥以数字方式绑定到一组用户提供的详细信息的文件。 Defender TI 使用 Internet 扫描技术从各种端口上的 IP 地址收集 TLS 证书关联。 这些证书存储在本地数据库中,允许我们为给定 TLS 证书在 Internet 上出现的位置创建时间线。

我们的证书数据包括以下信息:

  • Sha1:TLS 证书资产的 SHA1 算法哈希。
  • First Seen:一个时间戳,显示我们在项目上首次观察到此证书的日期。
  • Last Seen:一个时间戳,显示上次在项目上观察到此证书的日期。
  • 基础结构:与证书关联的任何相关基础结构。

数据选项卡证书列表

当用户扩展 SHA1 哈希时,用户会看到以下详细信息**:

  • 序列号:与 TLS 证书关联的序列号。
  • 颁发:颁发证书的日期。
  • 过期:证书过期的日期。
  • 使用者公用名:任何关联的 TLS 证书的使用者公用名称。
  • 颁发者公用名:任何关联的 TLS 证书的颁发者公用名。
  • 使用者可选名称 () :TLS 证书的任何可选公用名。
  • 颁发者可选名称 () :颁发者的任何其他名称。
  • 使用者组织名称:链接到 TLS 证书注册的组织。
  • 颁发者组织名称:协调证书颁发的组织名称。
  • SSL 版本:证书注册到的 SSL/TLS 版本。
  • 使用者组织单位:可选元数据,指示组织中负责证书的部门。
  • 颁发者组织单位:有关颁发证书的组织的其他信息。
  • 主题街道地址:组织所在的街道地址。
  • 颁发者街道地址:颁发者组织所在的街道地址。
  • 主题位置:组织所在的城市。
  • 颁发者位置:颁发者组织所在的城市。
  • 主题州/省:组织所在的州或省。
  • 颁发者州/省:颁发者组织所在的州或省。
  • 主题国家/地区:组织所在的国家/地区。
  • 颁发者国家/地区:颁发者组织所在的国家/地区。
  • 相关基础结构:与证书关联的任何相关基础结构。

数据选项卡证书详细信息

此数据集可能有助于回答的问题

  • 观察到此证书与哪些其他基础结构相关联?

    数据集证书相关的基础结构

  • 证书中是否有任何可用作良好透视点的唯一数据点?

    数据集证书透视点

  • 证书是否自签名?

    数据集证书自签名

  • 证书是否来自免费提供程序?

    数据集 CertificateFree 提供程序

  • 在多大时间范围内观察到证书的使用?

    数据集证书观察日期

子域

子域是一个 Internet 域,它是主域的一部分。 子域也称为“主机”。例如,learn.microsoft.com 是 的 microsoft.com子域。 对于每个子域,域可以解析为的一组新的 IP 地址,这可能是查找相关基础结构的绝佳数据源。

我们的子域数据包括以下信息:

  • 主机名:与搜索的域关联的子域。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡子域

此数据集可能有助于回答的问题

  • 是否有更多与更高级别的域关联的子域?

    数据集子域

  • 是否有任何子域与恶意活动相关联?

    数据集子域恶意

  • 如果你拥有此域,是否有任何子域看起来不熟悉?

  • 列出与其他恶意域关联的子域是否有任何模式?

  • 透视每个子域是否显示以前未与目标关联的新 IP 空间?

  • 你能找到与根域不匹配的其他不相关的基础结构?

跟踪

跟踪器是在网页中找到的唯一代码或值,通常用于跟踪用户交互。 这些代码可用于将不同的网站组关联到中心实体。 通常,参与者会复制他们希望模拟钓鱼活动的受害者网站的源代码。 参与者很少花时间删除这些 ID,这些 ID 允许用户使用 Microsoft 跟踪器数据集识别这些欺诈网站。 参与者还可以部署跟踪器 ID,以查看其网络攻击活动的成功程度。 此活动类似于营销人员利用 SEO ID(如 Google Analytics 跟踪器 ID)来跟踪其营销活动的成功。

Microsoft 的跟踪器数据集包括来自 Google、Yandex、Mixpanel、New Relic、Clicky 等提供商的 ID,并将继续增长。

我们的跟踪器数据包括以下信息:

  • 主机名:托管检测到跟踪器的基础结构的主机名。
  • First Seen:一个时间戳,显示我们在项目上首次观察到此跟踪器的日期。
  • Last Seen:一个时间戳,显示我们上次在项目上观察到此跟踪器的日期。
  • 类型: (检测到的跟踪器类型,例如 GoogleAnalyticsID、JarmHash) 。
  • :跟踪器的标识值。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡跟踪器

此数据集可能有助于回答的问题

  • 是否有其他资源使用相同的分析 ID?

    数据集跟踪器透视分析帐户

  • 这些资源是否与组织关联,或者它们是否试图进行侵权攻击?

  • 跟踪器之间是否有任何重叠 - 它们是否与其他网站共享?

  • 在网页中找到的跟踪器类型有哪些?

    数据集跟踪器类型

  • 跟踪器的时间长度是多少?

    数据集跟踪器长度时间

  • 跟踪器值的更改频率是多少 - 它们是来来去去还是保留?

  • 是否有跟踪器 (MarkOfTheWeb 或 HTTrack) 链接到网站克隆软件?

    数据集跟踪器Ht Track

  • 是否有跟踪器链接到恶意 C2 服务器恶意软件 (JARM) ?

    数据集跟踪器 JARM

组件

Web 组件是描述从 Microsoft 收集的网页或服务器基础结构的详细信息,用于执行 Web 爬网或扫描。 这些组件允许用户了解网页的构成或驱动特定基础结构的技术和服务。 透视唯一组件可以找到参与者的基础结构或其他遭到入侵的网站。 用户还可以根据正在运行的技术了解网站是否容易受到特定攻击或入侵。

我们的组件数据包括以下信息:

  • 主机名:托管检测到组件的基础结构的主机名。
  • First Seen:我们首次在项目上观察到此组件的日期的时间戳。
  • Last Seen:上次在项目上观察到此组件的日期的时间戳。
  • 类别: (检测到的组件类型,例如操作系统、框架、远程访问、服务器) 。
  • 名称 + 版本:组件名称和项目上运行的版本 (例如 Microsoft IIS (v8.5) 。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡组件

此数据集可能有助于回答的问题

  • 你正在使用哪些易受攻击的基础结构?

    数据集组件易受攻击的组件

    数据集组件原型 Js 易受攻击版本

    Magento v1.9 太过时了,Microsoft 找不到该特定版本的可靠文档。

  • 威胁参与者使用哪些唯一的 Web 组件可以跟踪到其他域?

  • 是否有任何组件标记为恶意?

  • 标识的 Web 组件的数量是多少?

    数据集组件组件数

  • 是否有任何不经常看到的独特或奇怪的技术?

    数据集组件唯一组件

  • 是否存在特定技术的假版本?

  • 经常或很少发生 Web 组件更改的频率是多少?

  • 是否存在已知被滥用的可疑库?

  • 是否有任何技术与它们相关的漏洞?

主机对

主机对是父级和子) 的两个 (基础结构部分,它们共享从虚拟用户的 Web 爬网观察到的连接。 连接范围从顶级重定向 (HTTP 302) 到更复杂的内容(如 iframe 或脚本源引用)。

主机对数据包括以下内容:

  • 父主机名:引用资产或“联系”子主机的主机
  • 子主机名:父主机正在调用的主机
  • First Seen:我们首次观察到与主机关系的日期的时间戳。
  • Last Seen:上次观察到与主机关系的日期的时间戳。
  • 原因:父主机名和子主机名之间的连接类型。 潜在原因包括 script.src、link.href、redirect、img.src、unknown、xmlhttprequest、a.href、finalRedirect、css.import 或 parentPage 连接。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡主机对

此数据集可能有助于回答的问题

  • 是否已将任何连接的项目列入阻止列表?

  • 是否已 (网络钓鱼、APT、恶意、可疑、威胁参与者名称) 标记任何连接项目?

  • 此主机是否将用户重定向到恶意内容?

    数据集主机对恶意重定向

  • 资源是否在 CSS 或图像中拉取来设置侵权攻击?

    数据集主机对侵权攻击

  • 资源是在脚本中拉取还是引用 link.href 来设置 Magecart 或轻描攻击?

    数据集主机对 Skimmer 参考

  • 用户被重定向到何处?

  • 正在进行哪种类型的重定向?

Cookie

Cookie 是在用户浏览 Internet 时从服务器发送到客户端的一小部分数据。 这些值有时包含应用程序的状态或跟踪数据的少量位。 Defender TI 突出显示和索引在爬网网站时观察到的 Cookie 名称,并允许用户深入了解我们在其爬网和数据收集中观察到的特定 Cookie 名称的所有位置。 恶意参与者还使用 Cookie 来跟踪受感染的受害者或存储稍后使用的数据。

我们的 Cookie 数据包括以下信息:

  • 主机名:与 Cookie 关联的主机基础结构。
  • First Seen:我们第一次在项目上观察到此 Cookie 的日期的时间戳。
  • Last Seen:上次在项目上观察到此 Cookie 的日期的时间戳。
  • 名称:cookie (的名称,例如 JSESSIONID SEARCH_NAMESITE) 。
  • :与 Cookie 关联的域。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡 Cookie

此数据集可能有助于回答的问题

  • 还有哪些网站发布相同的 Cookie?

    颁发相同 Cookie 的数据集 Cookie 域

  • 还有哪些网站正在跟踪相同的 Cookie?

    数据集 Cookie 域跟踪同一 Cookie

  • Cookie 域是否与查询匹配?

  • 与项目关联的 Cookie 数量是多少?

    与项目关联的数据集 Cookie 编号

  • 是否存在唯一的 Cookie 名称或域?

  • 与 Cookie 关联的时间段是什么?

  • 新观察到的 Cookie 或与 Cookie 关联的更改的频率是多少?

服务

服务名称和端口号用于区分通过传输协议(如 TCP、UDP、DCCP 和 SCTP)运行的不同服务。 端口号可以建议在特定端口上运行的应用程序类型。 但是,可以更改应用程序或服务,以使用不同的端口来模糊处理或隐藏 IP 地址上的服务或应用程序。 了解端口和标头/横幅信息可以识别真正的应用程序/服务以及正在使用的端口的组合。 Defender TI 在“服务”选项卡中显示 14 天的历史记录,显示与观察到的端口关联的最后一个横幅响应。

我们的服务数据包括以下信息:

  • 观察到的打开端口
  • 端口号
  • 组件
  • 观察到服务的次数
  • 上次扫描端口时
  • 协议连接
  • 端口的状态
    • 打开
    • Filtered
    • 已结束
  • 横幅响应

数据选项卡服务

此数据集可能有助于回答的问题

  • 在给定 IP 地址的特定端口上运行哪些应用程序?

    正在运行的数据集服务应用程序

  • 正在使用哪个版本的应用程序?

    正在运行的数据集服务版本

  • 给定端口的“打开”、“已筛选”或“已关闭”状态是否有最新更改?

    数据集服务端口状态

  • 证书与连接关联吗?

    数据集服务证书关联

  • 给定资产是否正在使用易受攻击或已弃用的技术?

    正在运行的数据集服务应用程序

    数据集服务易受攻击的服务

  • 正在运行的服务是否公开了可用于恶意目的的信息?

  • 是否遵循安全最佳做法?

DNS

多年来,Microsoft 一直在收集 DNS 记录,让用户深入了解邮件交换 (MX) 记录、名称服务器 (NS) 记录、文本 (TXT) 记录、权威 (SOA) 记录、规范名称 (CNAME) 记录以及指针 (PTR) 记录。 查看 DNS 记录有助于识别参与者在拥有的域中使用的共享基础结构。 例如,执行组件组倾向于使用相同的名称服务器来分段其基础结构或相同的邮件交换服务器来管理其命令和控制。

我们的 DNS 数据包括以下信息:

  • :与主机关联的 DNS 记录。
  • First Seen:一个时间戳,显示我们在项目上首次观察到此记录的日期。
  • Last Seen:一个时间戳,显示上次在项目上观察到此记录的日期。
  • 类型:与记录关联的基础结构类型。 可能的选项包括邮件服务器 (MX) 、文本文件 (TXT) 、名称服务器 (NS) 、CNAMES 和颁发机构启动 (SOA) 记录。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡 DNS

此数据集可能有助于回答的问题

  • 其他哪些基础结构与我正在搜索的指标直接相关?
  • 基础结构如何随着时间推移而变化?
  • 域所有者是使用内容分发网络的服务还是品牌保护服务?
  • 关联组织在其网络中可能采用哪些其他技术?

反向 DNS

当正向 DNS 查找查询特定主机名的 IP 地址时,反向 DNS 查找会查询 IP 地址的特定主机名。 此数据集显示的结果与 DNS 数据集类似。 查看 DNS 记录有助于识别参与者在拥有的域中使用的共享基础结构。 例如,执行组件组倾向于使用相同的名称服务器来分段其基础结构或相同的邮件交换服务器来管理其命令和控制。

反向 DNS 数据包括以下信息:

  • :反向 DNS 记录的值。
  • First Seen:我们首次在项目上观察到此记录的日期的时间戳。
  • Last Seen:我们首次在项目上观察到此记录的日期的时间戳。
  • 类型:与记录关联的基础结构类型。 可能的选项包括邮件服务器 (MX) 、文本文件 (TXT) 、名称服务器 (NS) 、CNAMES 和颁发机构启动 (SOA) 记录。
  • 标记:在 Defender TI 系统中应用于此项目的任何标记。

数据选项卡反向 DNS

问题 此数据集可能有助于解答

  • 观察到此主机的 DNS 记录有哪些?
  • 随着时间的推移,观察到此主机的基础结构发生了怎样的变化?

后续步骤

有关更多信息,请参阅: