Operations Manager 关键概念
Operations Manager 是 Microsoft System Center 的一个组件,是一种软件,可帮助你从单个控制台监视许多计算机的服务、设备和操作。 本文介绍了有关 Operations Manager 的基本概念,这些概念适用于管理 Operations Manager 基础结构的管理员以及监视和支持企业 IT 服务的操作员。
Operations Manager 的作用
大小型企业通常依赖于其计算环境提供的服务和应用程序。 IT 部门负责确保这些关键服务和应用程序的性能和可用性。 这意味着,IT 部门需要知道何时出现问题、确定问题的位置,并找出导致问题的原因,理想情况下,在应用程序用户遇到问题之前。 企业中的计算机和设备越多,此任务就越具有挑战性。
如果在环境中使用 Operations Manager,则可以更加轻松地监视多个计算机、设备、服务和应用程序。 下图中显示的操作控制台使你能够检查环境中所有受监视对象的运行状况、性能和可用性,并帮助识别和解决问题。
注意
若要了解有关 Operations Manager 控制台的详细信息,请参阅 操作指南中的 Operations Manager 控制台 比较。
Operations Manager 会告诉你,哪些受监视的对象不正常,在识别问题时发送警报,并提供信息来帮助识别问题的原因和可能的解决方案。 作为管理员,通过选择要监视的计算机和设备,并导入为特定功能和应用程序提供监视的管理包,你可以配置将要监视的内容。 要确定监视哪些对象以及执行监视的目的,你需要了解组成 Operations Manager 基础结构的功能以及 Operations Manager 的工作原理。
Operations Manager 基础结构
安装 Operations Manager 将创建管理 组。 管理组是功能的基本单位。 管理组至少包含 管理服务器、 操作数据库以及 报表数据仓库数据库。
管理服务器 是对管理组进行管理以及与数据库通信的焦点。 打开操作控制台并连接到管理组时,你就会连接到该管理组的管理服务器。 根据计算环境的规模,管理组可以包含单个管理服务器或多个管理服务器。
操作数据库 是一个 SQL Server 数据库,此数据库包含管理组的所有配置数据,并存储为管理组收集和处理的所有监视数据。 操作数据库保留短期数据,默认情况下保留 7 天。
数据仓库数据库 是一个存储监视和警报数据以备历史查询的 SQL Server 数据库。 写入到 Operations Manager 数据库的数据也会写入到数据仓库数据库,以便报告始终包含当前数据。 数据仓库数据库保留长期数据。
安装 Operations Manager 报告功能后,管理组还包含一个 报表服务器,该服务器从数据仓库数据库中的数据生成和显示报表。
管理组的这些核心组件可以存在于单一服务器上,也可以分布在多台服务器中,如下图所示。
有关安装管理组功能的信息,请参阅 Operations Manager 部署指南。
管理服务器
管理服务器的作用是对管理组配置进行管理,管理代理并与其通信,以及与管理组中的数据库通信。
管理组可以包含多台管理服务器以提供其他功能和连续的可用性。 将两台或更多台管理服务器添加到管理组后,管理服务器会变为 资源池 的一部分,并且会在池成员中分摊工作。 如果资源池的一个成员出现故障,则资源池中的其他成员将获取该成员的工作负荷。 添加新的管理服务器时,新管理服务器会自动从资源池中的现有成员获取部分工作。 资源池中的所有成员都将管理一组不同的远程对象;在任何给定时间,同一池中的两个成员不会同时管理同一对象。
网关服务器是一种特殊类型的管理服务器。 利用网关服务器,可以监视不受信任域中的计算机。 有关详细信息,请参阅 规划管理组设计。
代理
Operations Manager“代理” 是安装在计算机上的一项服务。 代理收集数据、将示例数据与预定义值进行比较、创建警报并运行响应。 管理服务器会接收配置并将配置分发到受监视的计算机上的代理。
所有代理均要向管理组中的一个管理服务器报告。 此管理服务器称为代理的主管理服务器。
代理根据管理服务器发送的配置观察受监视的计算机上的数据源并收集信息。 此代理还计算监视的计算机以及监视的计算机上的对象的运行状况状态,并向管理服务器报告。 监视的对象的运行状况变化或其他条件满足时,代理将生成警报。 这样,操作员可以知道有些东西需要注意。 通过将有关监视对象的运行状况数据提供给管理服务器,代理提供设备及其主持的所有应用程序的运行状况的最新状态。
可以将代理配置为充当 代理程序。 代理程序是一个能够代表计算机或网络设备(而不是其主机)将数据转发给管理服务器的代理。 例如,可以启用安装在 SQL 群集物理节点上的代理以用作代理来监视群集资源。 代理代理支持监视无法安装代理的计算机和设备。 有关详细信息,请参阅 Agentless Monitoring(无代理监视)。
服务
在受监视的计算机上,Operations Manager 代理将列为Microsoft监视代理服务。 Microsoft Monitoring Agent 服务收集性能数据、执行任务等。 即使服务无法与它所报告到的管理服务器通信,它仍会在被监视计算机的磁盘上继续运行并将收集的数据和事件排队。 还原连接后,Microsoft Monitoring Agent 服务会向该服务管理服务器发送所收集的数据和事件。
注意
Microsoft Monitoring Agent 服务有时称为运行状况服务。
Microsoft Monitoring Agent 服务也在管理服务器上运行。 在管理服务器上,服务运行监视工作流并管理凭据。 若要运行工作流,该服务使用指定的凭据启动MonitoringHost.exe进程。 这些进程监视和收集事件日志数据、性能计数器数据、Windows Management Instrumentation (WMI) 数据,并运行诸如脚本之类的操作。
管理服务器还运行 System Center Data Access 服务及 System Center Management Configuration 服务。
System Center Data Access 服务为操作控制台提供操作数据库的访问权限,并将数据写入数据库。
System Center Management Configuration 服务对管理组的关系和拓扑进行管理。 它还将管理包分发给受监视的对象。
管理包
System Center 管理服务运行的工作流由 管理包来定义。 管理包定义代理收集并返回到特定应用程序或技术的管理服务器的信息。 例如,BizTalk Server 管理包包含规则和监视器,这些规则和监视器收集并评估对于确保 BizTalk Server 应用程序的运行状况和效率非常重要的事件和操作。
当 Operations Manager 在计算机上安装代理后,它会将初始配置发送给该代理。 初始配置包括管理包中的 对象发现 。 管理包定义对象类型,例如将在 Operations Manager 发现的计算机上监视的应用程序和功能。 代理会将数据发送到管理服务器,该管理服务器将标识在计算机上发现的对象的实例。 然后该管理服务器会向代理发送适用于每个计算机的发现对象的管理包元素,如规则和监视器。
规则定义要从计算机收集的事件和性能数据,以及收集信息后要执行的操作。 考虑规则的一个简单方式就是 If/Then 语句。 例如,应用程序的管理包可能包含以下这些规则,如:
如果事件日志中显示一条表明应用程序正在关闭的消息,则创建警报。
如果源文件上传失败,请收集指示此失败的事件。
如这些示例所示,规则可以创建警报,并收集事件或性能数据,代理会将这些事件或性能数据发送到管理服务器。 规则也可以运行脚本,例如允许规则尝试重新启动已失败的应用程序。
发现的对象具有运行状况状态,在操作控制台中此状态表现为绿色(成功或正常)、黄色(警告)或红色(严重或不正常)。 监视器 定义受监视对象的特定方面的运行状况状态。 例如,磁盘驱动器容量监视器可能会将绿色定义为小于 85% 的填充百分比,将黄色定义为大于 85% 的填充百分比,将红色定义为大于 90% 的填充百分比。 可以将监视器配置为在状态发生变化时生成警报。
发现和监视对象
下图是如何发现和监视对象的简化图。
管理员可将 Operations Manager 配置为搜索要管理的计算机。 有关发现计算机的详细信息,请参阅 代理部署规划。
标识满足指定条件且尚未管理的计算机。
Operations Manager 代理已安装在发现的计算机上。
代理请求配置数据,然后管理服务器从已安装的管理包发送代理配置数据,其中包括要发现的类。 例如,如果安装了 Windows Server 操作系统管理包,则管理服务器将向代理发送操作系统类。
代理会将配置数据与计算机进行比较,标识它发现的任何对象,并将信息返回给管理服务器。 例如,代理会将以下信息返回给管理服务器:计算机上存在 Windows Server 2019 操作系统的实例。
管理服务器从应用于已发现对象的已安装管理包发送代理的所有监视逻辑。 例如,代理将接收适用于 Windows Server 2019 的所有监视逻辑。
代理会应用诸如规则和监视器之类的监视逻辑,运行工作流以及将数据返回给管理服务器。
当发现的对象(如正在添加或删除的应用程序)发生更改时,代理会将更新的信息发送到管理服务器,然后发送更新的监视逻辑。
注意
Operations Manager 还可以发现和监视网络设备、运行 UNIX 的计算机和 Linux 操作系统,并提供无代理监视。 有关详细信息,请参阅操作指南中的 Operations Manager Monitoring Scenarios(Operations Manager 监视方案) 。
代理和管理服务器之间的通信
Operations Manager 代理会将警报和发现数据发送给主管理服务器,此服务器会将数据写入操作数据库。 此代理还会将事件、性能和状态数据发送给主管理服务器,此服务器会将数据同时写入操作数据库和数据仓库数据库。
代理会根据每个规则和监视器的计划参数发送数据。 对于优化的收集规则,只有当计数器样本与先前样本之差达到指定容差(如 10%)时,才会传输数据。 这将有助于减少网络流量以及操作数据库中存储的数据量。
此外,所有代理会按定期计划向管理服务器发送数据包,此数据包称为 检测信号;默认情况下,每 60 秒发送一次。 检测信号的用途是验证代理的可用性以及代理与管理服务器之间的通信。 有关检测信号的详细信息,请参阅 How Heartbeats Work in Operations Manager(检测信号在 Operations Manager 中的工作原理)。
对于每个代理,Operations Manager 将运行 运行状况服务观察程序,此程序从管理服务器的角度监视远程运行状况服务的状态。
Operations Manager 的其他资源
在规划指南中查看 Operations Manager 的设计和部署注意事项和建议。
若要了解如何安装 Operations Manager 并部署管理组,请参阅 部署 System Center - Operations Manager。
若要了解如何在设置管理组后使用 Operations Manager,请参阅 System Center - Operations Manager 操作指南。
若要了解如何创建管理包,请参阅 “创建管理包模板”。