BanditPolicy 클래스

참조

slack 기준과 평가를 위한 빈도 및 지연 간격을 기반으로 조기 종료 정책을 정의합니다.

slack 요소, slack_amount 및 평가 간격을 사용하여 BanditPolicy를 초기화합니다.

상속: azureml.train.hyperdrive.policy.EarlyTerminationPolicy

BanditPolicy

생성자

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

매개 변수

Name	Description
slack_factor	float 성능이 우수한 실험 실행에서 허용된 거리를 계산하는 데 사용되는 비율입니다. 기본값: None
slack_amount	float 가장 성능이 좋은 실행에서 허용되는 절대 거리입니다. 기본값: None
evaluation_interval	int 정책 적용에 대한 빈도입니다. 기본값: 1
delay_evaluation	int 첫 번째 정책 평가를 지연할 간격의 수입니다. 지정된 경우 정책은 `delay_evaluation`보다 크거나 같은 모든 `evaluation_interval`에 적용됩니다. 기본값: 0
slack_factor 필수	float 성능이 우수한 실험 실행에서 허용된 거리를 계산하는 데 사용되는 비율입니다.
slack_amount 필수	float 가장 성능이 좋은 실행에서 허용되는 절대 거리입니다.
evaluation_interval 필수	int 정책 적용에 대한 빈도입니다.
delay_evaluation 필수	int 첫 번째 정책 평가를 지연할 간격의 수입니다. 지정된 경우 정책은 `delay_evaluation`보다 크거나 같은 모든 `evaluation_interval`에 적용됩니다.

설명

Bandit 정책은 다음 구성 매개 변수를 사용합니다.

slack_factor: 성능이 우수한 학습 실행과 관련하여 허용되는 slack의 양입니다. 이 요소는 slack를 비율로 지정합니다.
slack_amount: 성능이 우수한 학습 실행과 관련하여 허용되는 slack의 양입니다. 이 요소는 slack를 절대량으로 지정합니다.
evaluation_interval: 선택 사항입니다. 정책 적용에 대한 빈도입니다. 학습 스크립트에서 기본 메트릭을 기록할 때마다 한 번의 간격으로 계산됩니다.
delay_evaluation: 선택 사항입니다. 정책 평가를 지연하는 간격 수입니다. 학습 실행의 조기 종료를 방지하려면 이 매개 변수를 사용합니다. 지정된 경우 정책은 delay_evaluation보다 크거나 같은 모든 evaluation_interval에 적용됩니다.

성능이 우수한 실행에 대한 평가 메트릭의 slack 요소 또는 slack 양에 속하지 않는 실행은 종료됩니다.

slack_factor = 0.2 및 evaluation_interval = 100인 Bandit 정책을 고려합니다. 실행 X가 100개 간격 후 0.8의 AUC(성능 메트릭)로 현재 성능이 우수한 실행이라고 가정합니다. 또한 실행에 대해 보고된 최상의 AUC가 Y라고 가정합니다. 이 정책은 값(Y + Y * 0.2)을 0.8과 비교하고 더 작으면 실행을 취소합니다. delay_evaluation = 200이면 정책이 처음으로 적용되는 간격은 200입니다.

이제 slack_amount = 0.2 및 evaluation_interval = 100인 Bandit 정책을 고려합니다. 실행 3이 100개 간격 후 AUC(성능 메트릭)가 0.8인 현재 성능이 우수한 실행인 경우 100회 반복 후 AUC가 0.6(0.8 ~ 0.2) 미만인 모든 실행이 종료됩니다. 마찬가지로 delay_evaluation은 특정 시퀀스 수에 대한 첫 번째 종료 정책 평가를 지연하는 데 사용할 수도 있습니다.

조기 종료 정책 적용에 대한 자세한 내용은 모델의 하이퍼 매개 변수 조정을 참조하세요.

특성

delay_evaluation

첫 번째 평가가 지연되는 시퀀스의 수를 반환합니다.

반환

형식	Description
int	지연 평가입니다.

evaluation_interval

평가 간격 값을 반환합니다.

반환

형식	Description
int	평가 간격입니다.

slack_factor

성능이 우수한 학습 실행에 대한 slack 계수를 반환합니다.

반환

형식	Description
float	slack 요소입니다.

POLICY_NAME

POLICY_NAME = 'Bandit'

다음을 통해 공유