你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HDInsight 中的 Apache Ambari 检测信号问题

本文介绍在与 Azure HDInsight 群集交互时出现的问题的故障排除步骤和可能的解决方法。

场景 - CPU 利用率较高

问题

Ambari 代理的 CPU 利用率很高,这会导致 Ambari UI 发出警报,即对于某些节点,Ambari 代理检测信号丢失。 检测信号丢失警报通常是短暂的。

原因

由于各种 Ambari 代理 bug,在极少数情况下,Ambari 代理可能具有很高的 CPU 利用率(接近 100%)。

解决方法

  1. 确定 Ambari 代理的进程 ID (PID):

    ps -ef | grep ambari_agent
    
  2. 然后,运行以下命令来显示 CPU 利用率:

    top -p <ambari-agent-pid>
    
  3. 重启 Ambari 代理以缓解问题:

    service ambari-agent restart
    
  4. 如果重启不起作用,请终止 Ambari 代理进程,然后启动它:

    kill -9 <ambari-agent-pid>
    service ambari-agent start
    

场景:Ambari 代理未启动

问题

Ambari 代理未启动,这会导致 Ambari UI 发出的针对某些节点的丢失 Ambari 代理检测信号的警报。

原因

这些警报是由未运行 Ambari 代理导致的。

解决方法

  1. 确认 Ambari 代理的状态:

    service ambari-agent status
    
  2. 确认故障转移控制器服务是否正在运行:

    ps -ef | grep failover
    

    如果故障转移控制器服务未运行,则很可能是由于某个问题导致 hdinsight 代理无法启动故障转移控制器。 通过 /var/log/hdinsight-agent/hdinsight-agent.out 文件检查 hdinsight 代理日志。

场景: Ambari 的检测信号丢失

问题

Ambari 检测信号代理已丢失。

原因

OMS 日志导致 CPU 使用率高。

解决方法


后续步骤

如果你的问题未在本文中列出,或者无法解决问题,请访问以下渠道之一获取更多支持:

  • 通过 Azure 社区支持获取 Azure 专家的解答。

  • 联系 @AzureSupport,这是用于改进客户体验的官方 Microsoft Azure 帐户。 它可以将 Azure 社区成员连接到适当的资源,为他们提供解答、支持和专家建议。

  • 如果需要更多帮助,可以从 Azure 门户提交支持请求。 从菜单栏中选择“支持” ,或打开“帮助 + 支持” 中心。 有关更多详细信息,请参阅如何创建 Azure 支持请求。 Microsoft Azure 订阅中带有对订阅管理和计费支持的访问权限,技术支持通过 Azure 支持计划之一提供。