AutoML에서 예측에 대한 모델 비우기 및 선택

이 문서에서는 AutoML이 예측 모델을 검색하고 선택하는 방법에 중점을 둡니다. AutoML의 예측 방법론에 대한 자세한 내용은 메서드 개요 문서를 참조하세요. AutoML에서 예측 모델 학습에 대한 지침 및 예제는 시계열 예측 문서에 대한 AutoML 설정 문서에서 찾을 수 있습니다.

모델 비우기

AutoML의 핵심 작업은 여러 모델을 학습 및 평가하고 지정된 기본 메트릭과 관련하여 가장 적합한 모델을 선택하는 것입니다. 여기서 "model"이라는 단어는 ARIMA 또는 임의 포리스트와 같은 모델 클래스와 클래스 내에서 모델을 구분하는 특정 하이퍼 매개 변수 설정을 모두 나타냅니다. 예를 들어 ARIMA는 수학 템플릿과 통계 가정 집합을 공유하는 모델 클래스를 참조합니다. ARIMA 모델의 학습 또는 맞춤에는 모델의 정확한 수학 형식을 지정하는 양의 정수 목록이 필요합니다. 하이퍼 매개 변수입니다. ARIMA(1, 0, 1) 및 ARIMA(2, 1, 2)는 클래스가 동일하지만 하이퍼 매개 변수가 다르므로 학습 데이터와 별도로 적합하고 서로 평가될 수 있습니다. AutoML은 다양한 하이퍼 매개 변수를 통해 클래스 내에서 다양한 모델 클래스를 검색하거나 비우기합니다.

다음 표에서는 AutoML에서 다양한 모델 클래스에 사용하는 다양한 하이퍼 매개 변수 비우기 메서드를 보여 줍니다.

모델 클래스 그룹 모델 유형 하이퍼 매개 변수 비우기 메서드
Naive, Seasonal Naive, Average, Seasonal Average Time series(시계열) 모델 단순성으로 인해 클래스 내에서 스윕 없음
지수 스무딩, ARIMA(X) Time series(시계열) 클래스 내 스윕에 대한 그리드 검색
예언자 회귀 클래스 내에서 스윕 없음
선형 SGD, LARS LASSO, Elastic Net, K 가장 가까운 이웃, 의사 결정 트리, 임의 포리스트, 매우 무작위화된 트리, 그라데이션 강화 트리, LightGBM, XGBoost 회귀 AutoML의 모델 권장 사항 서비스는 하이퍼 매개 변수 공간을 동적으로 탐색합니다.
ForecastTCN 회귀 정적 모델 목록과 네트워크 크기, 중퇴 비율 및 학습 속도에 대한 임의 검색이 뒤따릅니다.

다양한 모델 유형에 대한 설명은 메서드 개요 문서의 예측 모델 섹션을 참조하세요.

AutoML이 수행하는 스윕의 양은 예측 작업 구성에 따라 달라집니다. 중지 조건을 시간 제한 또는 평가판 수에 대한 제한 또는 모델 수와 동등한 수로 지정할 수 있습니다. 기본 메트릭이 개선되지 않는 경우 두 경우 모두 초기 종료 논리를 사용하여 비우기를 중지할 수 있습니다.

모델 선택

AutoML 예측 모델 검색 및 선택은 다음 세 단계로 진행됩니다.

  1. 시계열 모델을 스윕하고 불이용 가능성 메서드를 사용하여 각 클래스에서 최상의 모델을 선택합니다.
  2. 유효성 검사 집합의 기본 메트릭 값에 따라 회귀 모델을 스윕하고 1단계의 최상의 시계열 모델과 함께 순위를 지정합니다.
  3. 상위 순위 모델에서 앙상블 모델을 빌드하고, 유효성 검사 메트릭을 계산하고, 다른 모델과 순위를 지정합니다.

3단계 종료 시 상위 순위 메트릭 값이 있는 모델이 최상의 모델로 지정됩니다.

Important

AutoML의 모델 선택 최종 단계는 항상 샘플 외 데이터에 대한 메트릭을 계산합니다. 즉, 모델에 맞지 않는 데이터입니다. 이렇게 하면 과잉 맞춤으로부터 보호할 수 있습니다.

AutoML에는 교차 유효성 검사 및 명시적 유효성 검사 데이터의 두 가지 유효성 검사 구성이 있습니다. 교차 유효성 검사 사례에서 AutoML은 입력 구성을 사용하여 학습 및 유효성 검사 접기로 데이터 분할을 만듭니다. 이러한 분할에서는 시간 순서가 유지되어야 하므로 AutoML은 원본 시점을 사용하여 계열을 학습 및 유효성 검사 데이터로 나누는 이른바 롤링 원본 교차 유효성 검사를 사용합니다. 원본을 시간 내로 슬라이딩하면 교차 유효성 검사 접기를 생성합니다. 각 유효성 검사 폴드에는 지정된 접기의 원점 위치 바로 다음 관찰 수평선이 포함됩니다. 이 전략은 시계열 데이터 무결성을 유지하고 정보 유출 위험을 완화합니다.

Diagram showing cross validation folds separating the training and validation sets based on the cross validation step size.

AutoML은 일반적인 교차 유효성 검사 절차를 따라 각 접기에서 별도의 모델을 학습하고 모든 접기에서 평균 유효성 검사 메트릭을 계산합니다.

예측 작업에 대한 교차 유효성 검사는 교차 유효성 검사 접기 수를 설정하고 필요에 따라 두 개의 연속 교차 유효성 검사 접기 사이의 기간 수를 설정하여 구성됩니다. 자세한 내용은 사용자 지정 교차 유효성 검사 설정 가이드를 참조하고 예측에 대한 교차 유효성 검사를 구성하는 예제를 참조하세요.

자체 유효성 검사 데이터를 가져올 수도 있습니다. AutoML(SDK v1) 문서에서 데이터 분할 및 교차 유효성 검사 구성에 대해 자세히 알아봅니다.

다음 단계