排查 Azure Monitor SCOM 托管实例问题

本文介绍部署或使用 Azure Monitor SCOM 托管实例时可能发生的错误以及如何解决这些问题。

方案:SCOM 托管实例创建/部署

常规故障排除

  1. 确保满足所有先决条件。 由于先决条件不正确/不完整,可能会出现创建问题。
  2. 请确保仔细阅读/检查错误消息。 错误消息捕获创建中的问题/错误。
  3. 检查错误消息中提供的 SCOM 安装程序日志 链接。 选择链接以下载 System Center Operations Manager 安装日志。 分析日志以识别和解决错误/故障。
  4. 如果上述步骤无法识别问题,请登录到 虚拟机规模集 实例,并在 C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\1.0.66 下检查日志,这有助于识别问题。
  5. 如果问题仍然存在,请提交包含所有相关详细信息的支持票证 [correlation-idsubscription-id等]

问题:资源组 %ResourceGroupName% 由其他 Azure 资源管理

原因:为资源组设置 ManagedBy 属性时发生。

解决方法:为另一个资源组提供 ManagedBy 属性为空。

问题:所选子网 %SubnetName% 专用于其他服务

原因:在子网具有委派时发生。

解决方法:提供未委托给任何其他服务的子网。

问题:SCOM 托管实例无法访问SQL 托管实例时出错 %instance%

原因:此错误可能是由以下任一原因引起的:

  • 缺少从 SCOM 托管实例 VNet 到SQL 托管实例终结点的视线可见性。
  • 缺少允许通过公共终结点SQL 托管实例流量的适当 NSG 规则级别。
  • MSI 不会添加为 Active Directory 管理员。
  • SCOM 托管实例可能没有对SQL 托管实例的读取权限。
  • VNet/区域可能存在问题。

解决方法:

  • 向SQL 托管实例提供读取权限。
  • 必须在SQL 托管实例上将 MSI 添加为 Active Directory 管理员。
  • 确保 SCOM 托管实例 与 SQL 托管实例 网络之间的连接。 有关详细信息,请参阅创建和配置SQL 托管实例

问题:没有足够的内核在给定区域中创建%instance%

原因:当没有足够的核心在给定区域中创建实例时发生。

解决方法:检查Azure 门户配额部分,并根据需要在区域中分配更多类型为 Standard Ds3v2 的核心。

问题:Key Vault 中已存在同名的密钥

原因:当 Key Vault 中已存在另一个同名的密钥时发生。

解决方法:更改实例的名称。

问题:VM 在处理扩展 joindomain 以加入域时报告失败 %DomainName%

原因:由于以下原因而发生:

  1. 从 SCOM 托管实例 服务器到域控制器的视线可见性。
  2. 域用户凭据未提供或不正确。
  3. 未提供 AD 域的 OU 路径。

解决方法:检查原因并相应地尝试解决问题。

问题:静态 IP 已在使用中

原因:如果静态 IP 正由另一个实例使用,则发生此事件。

解决方法:使用另一个静态 IP。

问题:标识类型无效 %identityType%

原因:由于托管标识不正确而发生。

解决方法:提供一种可能的标识类型 ( (None) , (SystemAssigned,UserAssigned) ) ,然后重试。

问题:专用静态 IP 地址 %LbIpAddr% 不属于子网范围 %subnet%

原因:IP 地址不在子网范围内时发生。

解决方法:提供子网范围中的可用 IP,然后重试该操作。

方案:在 Power BI 上部署报表

问题:无法访问SQL 托管实例

原因:如果未启用公共终结点,则发生此事件。 Power BI 无法访问SQL 托管实例。

解决方法:检查用户对SQL 托管实例的权限并提供所需的权限。

问题:无法刷新数据集凭据

原因:如果用户对SQL 托管实例没有适当的权限,则发生此事件。

解决方法:检查用户对SQL 托管实例的权限并提供所需的权限。

问题:报表无法刷新

原因:由于数据大小较大而发生。 报表可能不会刷新。

解决方法:如果 Power BI 工作区位于 专业 层中,请将其更改为 高级 层或更改工作区的容量。

方案:手动纵向扩展/缩减

问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点

原因:网络问题。

解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并正确配置 NSG/防火墙,以允许访问防火墙要求中所述的所需终结点。

问题:超出配额

原因:如果没有可用于缩放的核心,则发生此事件。

解决方法:增加订阅中的核心数。

查看Azure 门户配额部分,并根据需要在区域中分配更多标准 Ds3v2 类型的核心。

问题:扩展预配错误

原因:在预配 System Center Operations Manager 扩展或安装 System Center Operations Manager 期间,可能会出现此错误。

解决方法:检查 常规故障排除,尝试识别问题并相应地解决问题。

问题:冲突

原因:在修补或缩放正在进行时发生。 无法触发新操作。

解决方法:等待正在进行的过程完成,然后重试。

场景:修补

问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点

原因:网络问题。

解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并正确配置 NSG/防火墙,以允许访问防火墙要求中所述的所需终结点。

问题:即使更新操作已完成,通知仍停留在 提取 更新中

原因:网络问题/开发问题。

解决方法:尝试刷新更新。 如果未解决,请联系 Microsoft 支持部门。

问题:更新状态未正确反映在卡

原因:网络问题/开发问题。

解决方法:尝试刷新更新。 如果未解决,请联系 Microsoft 支持部门。

问题:卡中的控件不一致

原因:一致性问题。 例如,即使卡的标题显示 SCOM 是最新的,也会启用更新按钮。

解决方法:尝试刷新。 如果未解决,请联系 Microsoft 支持部门。

问题:弹出更新的警告消息

原因:由于以下任一原因而发生:

  1. 新的更新可用,并且用户尚未触发更新实例;或
  2. 上次更新失败,用户未触发另一个更新实例。

解决方法:触发 更新实例

问题:多次重试后更新失败

解决方法:若要解决此问题,请联系 Microsoft 支持部门。

问题:更新失败,回滚无法保留虚拟机规模集实例上的 VM 数已修改的不一致状态

解决方法:转到 System Center Operations Manager 控制台并删除不一致的节点。

问题:更新失败,但数据库更新成功

原因:由于数据库更新成功后更新失败而发生。

解决方法:一段时间后重试。

问题:成功更新后,System Center Operations Manager 控制台在实例上无法正常工作

原因:如果 System Center Operations Manager 未正确安装或某些进程可能停滞,则会发生。

解决方法:尝试重启实例。 如果问题持续出现,请联系 Microsoft 支持。

问题:更新需要 3 小时以上,最终失败

原因:更新时间超过 3 小时时发生。

解决方法:联系 Microsoft 支持人员。

问题:更新期间出现一些间歇性问题

原因:在 Service Fabric 或 RP 崩溃或重启时发生。

解决方法:重启更新。

问题:缩放和修补同时触发,然后失败

原因:如果同时发送并接受缩放和修补请求,则会发生此事件。

解决方法:如果已触发缩放操作,请等待操作完成,然后再尝试更新操作。

问题:扩展需要更多时间来更新并失败

原因:如果SQL 托管实例和 SCOM 托管实例位于不同的区域,因此扩展需要更多时间来更新并最终失败,则会发生此情况。

解决方法:在同一区域中SQL 托管实例和 SCOM 托管实例。

问题:修补后,数据库中的用户数据被更改或未正确保留

原因:如果未正确完成更新,则发生。

解决方法:重启更新。

问题:修补请求失败

原因:由于门户或 ARM 问题而发生。

解决方法:等待一段时间,然后重试。 如果在修复门户/ARM 问题后仍存在此问题,请联系 Microsoft 支持部门。

问题:修补或缩放操作已在进行中,请在一段时间后重试。

原因:在修补或缩放操作已在进行时发生。

解决方法:等待现有操作完成,并在一段时间后尝试。

问题:控制台上显示过时的管理服务器

原因:如果修补或缩放操作在完成后留下了不一致的状态,则发生此事件。

解决方法:Microsoft Azure 虚拟机规模集用于为 SCOM 托管实例预配管理服务器。 若要从系统中删除过时的管理服务器,请执行以下步骤:

  1. 访问 Azure 虚拟机规模集并登录到 SCOM 托管实例的某个管理服务器。

  2. 在管理模式下启动 PowerShell 并导航到以下目录。

    C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter

    注意

    若要查找版本,请转到 C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows 并查看所有可用版本,然后选择最新版本。

  3. 执行以下脚本:

    .\RemoveStaleManagementServers.ps1 
    

    该脚本是交互式脚本,并提示你输入过时服务器的 FQDN。

  4. 提供要删除的过时管理服务器的准确 FQDN。

    例如,FQDN:SCOMMI2000001.contoso.com。