解决使用 Azure Arc 启用的 AKS 时的一般问题

本文介绍使用 Azure Arc 启用的 AKS 时发生的一些常见已知问题。还可以查看Windows Admin Center的已知问题和安装问题和错误

运行 AksHci PowerShell cmdlet 时,出现“无法加载 DLL”错误

防病毒软件可能会阻止执行群集操作所需的 PowerShell 二进制文件,从而导致此错误。 类似错误的示例如下所示:

部署:连接到远程服务器 localhost 失败。

若要解决此问题,请验证以下进程和文件夹 (执行 AKS 群集操作所需的) 是否从防病毒软件中排除:

流程:

  • kubectl.exe
  • kvactl.exe
  • mocctl.exe
  • nodectl.exe
  • wssdagent.exe
  • wssdcloudagent.exe
  • kubectl-adsso.exe
  • AksHciHealth.exe

文件夹:

  • C:\Program Files\WindowsPowerShell\Modules\PowerShellGet\
  • C:\Program Files\WindowsPowerShell\Modules\TraceProvider\
  • C:\Program Files\WindowsPowerShell\Modules\AksHci\
  • C:\Program Files\WindowsPowerShell\Modules\Az.Accounts\
  • C:\Program Files\WindowsPowerShell\Modules\Az.Resources\
  • C:\Program Files\WindowsPowerShell\Modules\AzureAD\
  • C:\Program Files\WindowsPowerShell\Modules\DownloadSdk\
  • C:\Program Files\WindowsPowerShell\Modules\Kva\
  • C:\Program Files\WindowsPowerShell\Modules\Microsoft.SME.CredSspPolicy\
  • C:\Program Files\WindowsPowerShell\Modules\Moc\
  • C:\Program Files\WindowsPowerShell\Modules\PackageManagement\
  • C:\Program Files\AksHci\
  • C:\AksHci\

运行 Remove-AksHciCluster 会导致错误:“错误:无法删除组 clustergroup-spdb:...”

运行 Remove-AksHciCluster 时出现以下错误,原因是可能存在死锁:

Error: unable to delete group clustergroup-spdb: failed to delete group clustergroup-spdb: rpc error: code = DeadlineExceeded desc = context deadline exceeded

要解决此问题,请重启 CloudAgent。

错误:invalid_client。 提供的客户端密码已过期

如果在使用 PowerShell cmdlet 运行 Enable-AksHciArcConnection 时所用的服务主体 (SPN) 密码过期,通常就会发生此错误。

访问 Azure 门户, (SPN) 为服务主体创建新机密。 还可使用证书凭据来增加安全性。 有关使用 cmdlet 的示例,请参阅 Enable-AksHciArcConnection

权限不足,无法完成该操作

当服务主体 (SPN) 或 Azure 凭据 (用于连接 AKS 群集的用户名和密码) 在 Azure 订阅中没有足够的权限来执行操作时,通常会发生此错误。

查看 Azure Arc 在 AKS 中启用的 Kubernetes 群集的 Azure 要求中的特权要求。

运行 Remove-AksHciCluster 会导致错误:“找不到名称为'my-workload-cluster'的工作负荷群集”

Xxx

如果在运行 Remove-AksHciCluster 时遇到此错误,应检查确保已使用正确的信息来删除群集。

传输:拨号 unix /var/run/moc-kms-plugin/kmsPlugin.sock 时出错:连接:无此类文件或目录

当 AKS-HCI 目标群集上的 KMS 插件由于 KMS 插件令牌过期而停止运行时,会发生此错误。

运行 Repair-AksHciCerts 以解决此问题。

在具有静态 IP 地址的工作负荷群集中,节点中的所有 Pod 都停滞在“ContainerCreating”状态

在具有静态 IP 地址和 Windows 节点的工作负荷群集中,节点 (包括 daemonset pod) 的所有 Pod 都停滞在 ContainerCreating 状态。 尝试使用 SSH 连接到该节点时,连接失败并显示错误 Connection timed out

若要解决此问题,请使用 Hyper-V 管理器或故障转移群集管理器关闭该节点的 VM。 5 到 10 分钟后,应重新创建节点,并且所有 Pod 都在运行。

移动 AKS Arc 资源位置。

当前不支持在 AKS Arc 中移动资源。 必须删除 Kubernetes 群集,然后将其重新部署到所需位置。

后续步骤

如果在使用由 Azure Arc 启用的 AKS 时继续遇到问题,可以通过 GitHub 提交 bug。