다음을 통해 공유


Azure 노드 가용성 정책 이해

Azure 노드 가용성 정책은 Azure 노드가 시작되고(역할 인스턴스가 Azure에 배포됨) 중지되는 방법과 시기를 결정합니다(역할 인스턴스는 Azure에서 제거됨).

Azure 노드에 대한 가용성을 구성하는 두 가지 옵션이 있습니다.

  • 자동 노드는 자동으로 시작(프로비저닝)되도록 구성된 다음, 매주 하나 이상의 예약된 간격 동안 Online 상태로 전환됩니다. 노드를 작업 실행에 사용할 수 있게 하려면 매주 여러 번 지정할 수 있습니다. 각 시간 블록의 끝에서 노드는 자동으로 중지됩니다. 노드는 오프라인으로 전환되고 역할 인스턴스는 제거됩니다. 필요에 따라 노드에서 실행 중인 작업이 드레이닝될 때 온라인 블록이 끝나기 전에 시간 간격을 지정할 수 있습니다.

  • 수동 Azure 노드를 작업을 실행할 수 있도록 하려면 먼저 노드를 수동으로 시작(프로비전)한 다음 온라인으로 가져와야 합니다.

추가 고려 사항

  • Azure 역할 인스턴스를 프로비전하는 데 몇 분 정도 걸릴 수 있으며 인스턴스를 중지 및 삭제하는 데 몇 분 정도 걸릴 수도 있습니다.

  • 노드는 역할 인스턴스가 Azure에서 프로비전된 후에만 온라인 시간 블록에서 작업을 실행할 수 있습니다. 노드를 시작(및 온라인 상태로 만드는) 예약된 시간에는 Azure에서 역할 인스턴스를 프로비전하는 데 걸리는 시간이 포함되지 않습니다.

  • 자동 가용성 정책이 구성된 경우 노드를 실행하기 위해 사용할 수 있는 시간 외에 노드 배포에 대한 각 온라인 시간 블록에서 60분 동안 계획하는 것이 좋습니다. 또한 짧은 간격으로 온라인 시간 블록을 예약하지 않아야 합니다.

  • Azure 노드 가용성 정책을 편집하면 노드 템플릿을 사용하여 HPC 클러스터에 이미 추가된 노드와 나중에 추가하는 노드에 대한 정책이 변경됩니다. 예를 들어 주별 일정에 따라 자동으로 시작 및 중지하도록 구성된 노드가 이제 수동으로 시작 및 중지되도록 Azure 노드 템플릿을 편집할 수 있습니다.

  • Azure 노드 템플릿의 가용성 정책 구성 및 작업 스케줄러 구성의 작업 취소 유예 기간 설정에 따라 Azure 노드가 중지되고 배포가 종료되는 정확한 시간이 온라인 시간 블록의 예약된 끝과 다를 수 있습니다. 이 문제는 HPC 작업이 온라인 시간 블록의 끝부분에 계속 실행 중인 경우에 발생할 수 있습니다. 자세한 내용은 작업 취소 유예 기간 설정가용성 정책의 상호 작용 섹션을 참조하세요.

작업 취소 유예 기간 설정과 가용성 정책의 상호 작용

자동 가용성 정책이 구성된 경우 Azure 노드는 온라인 시간 블록이 지나면 작업을 시작하지 않습니다. 그러나 온라인 시간 블록의 끝에서 계속 실행 중인 HPC 작업은 작업 취소 유예 기간 설정이 구성된 경우 일정 기간 동안 계속 실행할 수 있습니다. 작업 취소 유예 기간 클러스터 속성은 애플리케이션이 상태 정보를 저장하고 종료하기 전에 정리하는 기간을 설정합니다(기본 기간은 15초). 태스크가 종료되는 정확한 시간은 태스크가 CTRL_BREAK 이벤트에 응답하는지 여부와 시간에 따라 달라집니다(Ctrl+BREAK 키 조합에 해당). 이벤트를 처리하지 않는 작업은 즉시 종료되지만, 이벤트를 처리하는 작업은 작업 취소 유예 기간이 정상적으로 종료되는 데 시간이 걸릴 수 있습니다.

다음 표에서는 Azure 노드 가용성 정책과 작업 취소 유예 기간 설정 간의 상호 작용으로 인해 HPC 작업이 실행을 중지하는 시기를 요약합니다. 가능한 영향 및 해결 방법이 나열됩니다. 상호 작용은 가용성 정책에서 "드레이닝" 기간이 구성되었는지 여부에 따라 다릅니다. 드레이닝 기간은 선택적 설정으로, 해당 노드에서 새 작업이 시작되지 않는 동안 온라인 시간 블록이 끝나기까지의 시간(분)을 지정합니다.

가용성 정책에 구성된 작업 드레이닝 기간 작업 취소 유예 기간이 시작되는 경우 HPC 작업을 실행하는 경우 종료 영향 해결 방법
드레이닝 기간의 시작 작업 취소 유예 기간의 시작과 끝 사이에는 신호 수신 시 작업이 종료되는지 또는 작업 취소 유예 기간에 제공된 기간을 사용하는지에 따라 달라집니다. 온라인 시간 블록의 예약된 종료 이전일 수 있습니다.

예제

- 예약된 온라인 시간 블록 종료: 오후 8:00
- 유예 기간: 5분
- 드레이닝 기간: 10분

실행 중인 작업은 오후 7시 50분에서 7시 55분 사이에 종료됩니다.
- Azure 노드가 중지되고 배포가 예상보다 일찍 중단됩니다.
- HPC 작업에 대한 Azure 리소스 사용이 최적이 아닐 수 있습니다.
- 작업 취소 유예 기간을 드레이닝 기간과 같거나 가능한 한 비슷하게 조정합니다.
- 애플리케이션에서 허용하는 경우 드레이닝 기간 및 유예 기간에 대한 작은 값을 지정합니다.
아니요 구성된 온라인 시간 블록 종료 작업 취소 유예 기간의 시작과 끝 사이에는 신호 수신 시 작업이 종료되는지 또는 작업 취소 유예 기간에 제공된 기간을 사용하는지에 따라 달라집니다. 온라인 시간 블록의 예약된 종료 이후일 수 있습니다.

예제

- 예약된 온라인 시간 블록 종료: 오후 8:00
- 유예 기간: 5분

실행 중인 작업은 오후 8:00~8:05 사이에 종료됩니다.
- HPC 작업은 작업 취소 유예 기간 동안 온라인 시간 블록의 끝 이후에도 계속 실행할 수 있습니다.
- 작업 취소 유예 기간 동안 Azure 노드 배포를 노드 시간 블록의 끝 이상으로 확장할 수 있습니다.
- 애플리케이션에서 허용하는 경우 작업 취소 유예 기간을 더 작은 값으로 조정합니다.

참고 항목

Microsoft HPC 팩 대한 Azure 노드 템플릿 구성
노드 상태, 상태 및 작업 이해
작업 취소 유예 기간
Azure 프록시 노드 수 설정