Azure Sphere 设备的远程故障排除最佳做法

重要

这是 Azure Sphere(旧版)文档。 Azure Sphere(旧版)将于 2027 年 9 月 27 日停用,用户此时必须迁移到 Azure Sphere(集成)。 使用位于 TOC 上方的版本选择器查看 Azure Sphere(集成)文档。

远程管理设备时,有时可能会遇到阻止设备正常运行的问题。 本文包含一系列问题和流程图,可帮助你对情况进行会审并确定出了什么问题。 完成本指南可以减少设备的停机时间,并帮助你快速进行自我故障排除,使设备恢复正常运行。

注意

下面是一个初步清单,用于解决应该演练的连接基础结构:

  1. 按照 Azure Sphere OS 网络要求中的说明,确保网络基础结构配置为允许 Azure Sphere 设备所需的终结点:
    1. 若要确认终结点已正确配置,请在解决方案设计注意事项运行诊断检查。
    2. 若要确定设备是否连接到 Azure Sphere 安全服务(AS3),请运行命令 azsphere device list。 检查 lastUpdateRequestUTC 字段,该字段提供上次从 Azure Sphere 安全服务请求更新的设备的时间。
    3. 如果运行的是自定义 NTP,请确保 NTP 服务器已启动,并且其时间具有 24 小时的全局时间,并设置为正确的 时区
  2. 检查应用程序的 Wi-Fi 配置设置
  3. 检查IoT 中心:
    1. 确保IoT 中心上的 Azure Sphere 安全服务证书是最新的。
    2. 检查IoT 中心服务器是否正常运行。
  4. 检查设备是否根据硬件解决方案的规格接收足够的电源。
  5. 检查Microsoft的 NCSI 服务是否已启动并连接。 请参阅以下链接:(http://www.msftconnecttest.com/connecttest.txt)。

在检查设备运行状况的其他方面之前,请考虑以下初步问题:

受影响的设备数? 这是唯一的设备,还是还有其他设备?

  1. 如果受影响的设备数量较少,请在 CLI 中获取其设备 ID 并运行 azsphere tenant download-error-report 并分析报告。 有关如何解释报表的信息,请参阅 “收集和解释错误数据 ”。
  2. 如果有多个设备,请继续执行下一部分。

会审设备运行状况

以下是一些注意事项,可帮助你对情况进行会审。

通过以程图跟踪设备的连接性: 连接流程图。

首先,检查防火墙设置。 如果管理防火墙设置,请检查网络设置是否符合 Sphere 的要求。 有关详细信息,请参阅 排查网络问题。 遵循 Azure Sphere OS 网络要求中的指南,确保符合性。 如果不管理防火墙设置,请联系防火墙管理员以获取进一步的指导。

接下来,查看北行连接。 如果使用 Wi-Fi 连接到 Internet,你的设备是否位于拥挤的区域? 如果是,请确保设置使用定向扫描。 有关目标扫描的详细信息,请参阅 WifiConfig_SetTargetedScanEnabled函数。 如果你的设备不在拥挤的区域,请联系Microsoft 支持部门以获取进一步的指导。 是否使用 EAP-TLS? 如果是,请在生命周期证书管理上与提供商联系,并参阅 EAP-TLS 证书续订。 如果不使用 EAP-TLS,请确保 SSID 或密码尚未更改。

如果使用手机网络连接到 Internet,请询问系统集成商或手机网络服务提供商设备是否显示在网络上。

问题的范围是什么? 跟踪以程图: 问题流程图的规模。

有多少设备遇到问题? 如果只是受影响的几个设备,请先检查“连接”流程图。 接下来,检查设备的物理环境:设备是否已拔出或是否已在设备的硬件上进行一些更改? 如果设备已插入且未在设备硬件上进行更改,请获取 2 到 3 个设备 ID,并通过运行命令 azsphere tenant download-error-report 检查租户错误日志。 检查“说明”字段。 如果说明包括以下任一项,请检查客户应用程序日志以获取进一步的指导:

  • AppCrash
  • AppUpdate
  • AppExit

但是,如果说明包含以下任一项,请联系Microsoft 支持部门:

  • SystemAppCrash
  • 内核恐慌
  • 内核 Oops

如果所有设备都受到影响,请执行以下步骤:

  1. 设备最近是否进行了 OS 更新? 如果有,请联系Microsoft 支持部门。 如果尚未进行 OS 更新,请参阅连接流程图。 根据设备组所属的软件通道源,你可能收到了 OS 更新通知。 有关 OS 源的详细信息,请参阅 Azure Sphere OS 源
  2. 设备最近是否进行了应用程序更新? 如果有,请重新部署或回滚到应用程序的早期版本。 如果没有,请联系Microsoft 支持部门。 有关无线更新的详细信息,请参阅 关于无线更新

在这种情况下,你可以获取对设备的物理访问权限

如果能够访问设备的物理访问权限,可能需要执行以下本地故障排除步骤:

  1. 是否可以排除该特定位置的连接问题? 例如,建筑物是否遇到连接问题?
  2. 检查连接流程图的以太网部分:连接流程图。 如果使用以太网连接到 Internet,请检查交换机端口。 如果交换机端口已亮起,请对设备进行电源循环。 如果未亮起,请检查防火墙设置。
  3. 设备是否已拔出,或者是否已在设备的硬件上进行了一些更改? 例如,传感器是否过度使用,还是 USB 连接器损坏?
  4. 运行命令 azsphere get-support-data