了解工作站节点和非托管服务器节点可用性策略

工作站节点和非托管服务器节点可以联机以运行作业,并手动或自动脱机。 如果希望工作站节点和非托管服务器节点自动联机和脱机,则必须在节点模板中指定每周可用性策略。

注意

从 HPC Pack 2008 R2 SP3 开始,支持工作站节点和非托管服务器节点。 早期版本的 HPC Pack 2008 R2 仅支持工作站节点。

可用性策略指定每周节点可用 (进入联机状态的一个或多个时间段,) 运行群集作业。 如果希望节点可用于运行作业,则可以每周指定多次 ,例如,在工作日每天晚上运行,周末全天运行。 群集在每个联机时间块开始时自动使工作站节点和非托管服务器节点联机。 然后,节点将立即可用于运行已提交到群集的作业。 在每个时间块结束时,节点会自动脱机。 (可选)可以指定在工作站节点和非托管服务器节点上运行的任何作业被清空时联机块结束前的时间间隔。

如果你的 Microsoft HPC Pack 版本支持它,还可以在模板中配置用户活动检测设置。 用户活动检测设置确保群集仅在工作站节点和非托管服务器节点上运行作业,这些节点和未在其他情况下使用 (基于键盘、鼠标或 CPU 活动) 联机时间块。 有关详细信息,请参阅 了解用户活动检测

可用性策略与任务取消宽限期设置的交互

配置自动可用性策略后,工作站节点和非托管服务器节点在联机时间块过后不会启动作业。 但是,如果配置了“任务取消宽限期”设置,仍在联机时间块结束时仍在运行的 HPC 任务可以继续运行一段时间。 任务取消宽限期群集属性允许应用程序在退出前保存状态信息并清理一段时间, (默认期限为 15 秒) 。 任务的确切结束时间取决于任务是否响应CTRL_BREAK事件的速度 (与 ctrl+BREAK 组合键) 等效。 不处理事件的任务将立即退出,而处理事件的任务可能需要长达“任务取消宽限期”才能正常退出。

由于任务取消宽限期始终从工作站节点和非托管服务器节点的联机时间块结束时开始,因此这些节点可能会在任务取消宽限期 (期间继续运行 HPC 任务,直到任务处理CTRL_BREAK事件并停止) 。 在用户恢复节点上的活动后,HPC 任务可以继续执行;但是,潜在重叠的时间可能很短。

注意

工作站节点上的任务取消宽限期的开始不受可用性策略中任务排出期的配置影响。

如果配置了任务取消宽限期,建议遵循以下最佳做法,以避免在非计划时间无意中在工作站节点和非托管服务器节点上运行 HPC 任务:

  • 将“任务取消宽限期”的值指定为较小的值, (例如,以秒为单位的值,而不是以分钟为单位) 。

  • 确保使用任务取消宽限期的工作站节点上运行的 HPC 应用程序可以快速清理并退出。 只要任务取消宽限期,在收到CTRL_BREAK事件后未立即退出的应用程序就可以继续运行。

  • 如果 HPC Pack 版本支持,请在可用性策略中配置用户活动检测设置。 这些设置有助于确保 HPC 任务在工作站上以低于正常优先级运行,并在工作站上检测到用户活动后立即放弃系统。

其他注意事项

  • 根据每周可用性策略配置为联机和脱机的工作站节点和非托管服务器节点不能手动联机或脱机。 若要将这些节点配置为手动联机和脱机,必须为其分配不同的工作站节点模板,或者必须修改其当前工作站节点模板。

  • 对节点模板所做的更改会影响该模板分配到的所有工作站节点和非托管服务器节点。

  • 如果要为不同的工作站节点组和非托管服务器节点使用不同的可用性策略,请创建一个不同的节点模板以应用于每个组。

另请参阅

了解节点状态、运行状况和操作
了解用户活动检测
任务取消宽限期