SDK 및 CLI를 사용하여 시계열 예측 모델을 학습하도록 AutoML을 설정합니다.
적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)
Azure Machine Learning의 AutoML(자동화된 기계 학습)은 잘 알려진 시계열 모델과 함께 표준 기계 학습 모델을 사용하여 예측을 만듭니다. 이 방법은 대상 변수에 대한 기록 정보를 입력 데이터 및 자동으로 엔지니어링된 기능의 사용자 제공 기능과 통합합니다. 모델 검색 알고리즘은 최상의 예측 정확도로 모델을 식별하는 데 도움이 됩니다. 자세한 내용은 예측 방법론 및 모델 비우기 및 선택을 참조하세요.
이 문서에서는 Azure Machine Learning Python SDK](/python/api/overview/azure/ai-ml-readme)를 사용하여 Machine Learning을 사용하여 시계열 예측을 위한 AutoML을 설정하는 방법을 설명합니다. 이 프로세스에는 학습을 위한 데이터 준비 및 예측 작업(클래스 참조)에서 시계열 매개 변수 구성이 포함됩니다. 그런 다음 구성 요소 및 파이프라인을 사용하여 모델을 학습, 유추 및 평가합니다.
낮은 코드 환경은 자습서: 자동화된 기계 학습을 사용하여 수요 예측을 참조하세요. 이 리소스는 Azure Machine Learning 스튜디오 AutoML을 사용하는 시계열 예측 예제입니다.
필수 조건
- Azure Machine Learning 작업 영역 작업 영역을 만들려면 작업 영역 리소스 만들기를 참조하세요.
- AutoML 학습 작업을 시작하는 기능. 자세한 내용은 Azure Machine Learning CLI 및 Python SDK를 사용하여 테이블 형식 데이터에 대한 AutoML 학습 설정을 참조하세요.
학습 및 유효성 검사 데이터 준비
AutoML 예측을 위한 입력 데이터는 테이블 형식의 유효한 시계열을 포함해야 합니다. 각 변수는 데이터 테이블에 고유한 해당 열이 있어야 합니다. AutoML에는 시간 축을 나타내는 시간 열과 예측할 수량의 대상 열이라는 두 개 이상의 열이 필요합니다. 다른 열은 예측 변수 역할을 할 수 있습니다. 자세한 내용은 AutoML에서 데이터를 사용하는 방법을 참조하세요.
Important
미래 값을 예측하기 위한 모델을 학습할 때 학습에 사용되는 모든 기능을 의도한 수평선에 대한 예측을 실행할 때도 사용할 수 있는지 확인합니다.
학습 정확도를 크게 높일 수 있는 현재 주가에 대한 기능을 고려합니다. 긴 수평선으로 예측하는 경우 향후 시계열 지점에 해당하는 미래 주식 값을 정확하게 예측하지 못할 수 있습니다. 이 방법은 모델 정확도를 줄일 수 있습니다.
AutoML 예측 작업을 수행하려면 학습 데이터가 개체로 MLTable
표시되어야 합니다. 개체는 MLTable
데이터 원본 및 데이터 로드 단계를 지정합니다. 자세한 내용 및 사용 사례는 [테이블 작업(how-to-mltable.md)을 참조하세요.
다음 예제에서는 학습 데이터가 로컬 디렉터리 ./train_data/timeseries_train.csv CSV 파일에 포함되어 있다고 가정합니다.
다음 예제와 MLTable
같이 mltable Python SDK를 사용하여 개체를 만들 수 있습니다.
import mltable
paths = [
{'file': './train_data/timeseries_train.csv'}
]
train_table = mltable.from_delimited_files(paths)
train_table.save('./train_data')
이 코드는 파일 형식과 로드 지침이 포함된 새 파일 ./train_data/MLTable을 만듭니다.
학습 작업을 시작하려면 다음과 같이 Python SDK를 사용하여 입력 데이터 개체를 정의합니다.
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input
# Training MLTable defined locally, with local data to be uploaded
my_training_data_input = Input(
type=AssetTypes.MLTABLE, path="./train_data"
)
비슷한 방식으로 유효성 검사 데이터를 지정합니다. 개체를 MLTable
만들고 유효성 검사 데이터 입력을 지정합니다. 또는 유효성 검사 데이터를 제공하지 않으면 AutoML은 모델 선택에 사용할 학습 데이터에서 교차 유효성 검사 분할을 자동으로 만듭니다. 자세한 내용은 다음 리소스를 참조하세요.
실험을 실행하는 컴퓨팅 만들기
AutoML은 완전 관리형 컴퓨팅 리소스인 Azure Machine Learning 컴퓨팅을 사용하여 학습 작업을 실행합니다. 다음 예제에서는 라는 cpu-compute
컴퓨팅 클러스터를 만듭니다.
from azure.ai.ml.entities import AmlCompute
# specify aml compute name.
cpu_compute_target = "cpu-cluster"
try:
ml_client.compute.get(cpu_compute_target)
except Exception:
print("Creating a new cpu compute target...")
compute = AmlCompute(
name=cpu_compute_target, size="STANDARD_D2_V2", min_instances=0, max_instances=4
)
ml_client.compute.begin_create_or_update(compute).result()
실험 구성
다음 예제에서는 실험을 구성하는 방법을 보여줍니다.
AutoML 팩터리 함수를 사용하여 Python SDK에서 예측 작업을 구성합니다. 다음 예에서는 기본 메트릭을 설정하고 학습 실행에 대한 제한을 설정하여 예측 작업을 만드는 방법을 보여 줍니다.
from azure.ai.ml import automl
# Set forecasting variables
# As needed, modify the variable values to run the snippet successfully
forecasting_job = automl.forecasting(
compute="cpu-compute",
experiment_name="sdk-v2-automl-forecasting-job",
training_data=my_training_data_input,
target_column_name=target_column_name,
primary_metric="normalized_root_mean_squared_error",
n_cross_validations="auto",
)
# Set optional limits
forecasting_job.set_limits(
timeout_minutes=120,
trial_timeout_minutes=30,
max_concurrent_trials=4,
)
예측 작업 설정
예측 작업에는 예측과 관련된 많은 설정이 있습니다. 이러한 설정 중 가장 기본적인 것은 학습 데이터의 시간 열 이름과 예측 범위입니다.
다음 설정을 구성하려면 ForecastingJob 메서드를 사용합니다.
# Forecasting specific configuration
forecasting_job.set_forecast_settings(
time_column_name=time_column_name,
forecast_horizon=24
)
시간 열 이름은 필수 설정입니다. 일반적으로 예측 시나리오에 따라 예측 범위를 설정해야 합니다. 데이터에 여러 시계열이 포함된 경우 시계열 ID 열의 이름을 지정할 수 있습니다. 이러한 열을 그룹화하면 개별 계열을 정의합니다. 예를 들어 여러 매장과 브랜드의 시간별 판매로 구성된 데이터가 있다고 가정해 보겠습니다. 다음 샘플은 데이터에 store 및 brand라는 열이 포함되어 있다고 가정하고 시계열 ID 열을 설정하는 방법을 보여 줍니다.
# Forecasting specific configuration
# Add time series IDs for store and brand
forecasting_job.set_forecast_settings(
..., # Other settings
time_series_id_column_names=['store', 'brand']
)
AutoML은 아무 것도 지정되지 않은 경우 데이터에서 시계열 ID 열을 자동으로 검색하려고 시도합니다.
다른 설정은 선택 사항이며 다음 섹션에서 검토합니다.
선택적 예측 작업 설정
딥 러닝을 사용하도록 설정하고 대상 롤링 기간 집계를 지정하는 등의 예측 작업에 대한 옵션 구성을 사용할 수 있습니다. 매개 변수의 전체 목록은 참조 설명서에서 확인할 수 있습니다.
모델 검색 설정
AutoML이 최상의 모델인 allowed_training_algorithms
및 blocked_training_algorithms
를 검색하는 모델 공간을 제어하는 두 가지 선택적 설정이 있습니다. 검색 공간을 지정된 모델 클래스 집합으로 제한하려면 다음 예제와 같이 매개 변수를 사용합니다 allowed_training_algorithms
.
# Only search ExponentialSmoothing and ElasticNet models
forecasting_job.set_training(
allowed_training_algorithms=["ExponentialSmoothing", "ElasticNet"]
)
이 시나리오에서 예측 작업은 지수 스무딩 및 Elastic Net 모델 클래스를 통해서만 검색합니다. 검색 공간에서 지정된 모델 클래스 집합을 제거하려면 다음 예제와 같이 사용합니다 blocked_training_algorithms
.
# Search over all model classes except Prophet
forecasting_job.set_training(
blocked_training_algorithms=["Prophet"]
)
작업은 Prophet을 제외한 모든 모델 클래스를 검색합니다. allowed_training_algorithms
및 blocked_training_algorithms
에서 허용되는 예측 모델 이름 목록은 학습 속성을 참조하세요. allowed_training_algorithms
및 blocked_training_algorithms
중 하나만 학습 실행에 적용할 수 있습니다.
심층 신경망에 대한 학습 사용
AutoML은 이름이 지정된 TCNForecaster
사용자 지정 DNN(심층 신경망) 모델과 함께 제공됩니다. 이 모델은 일반적인 이미징 작업 메서드를 시계열 모델링에 적용하는 임시 컨볼루션 네트워크 (TCN)입니다. 1차원 "인과 관계" 나선형은 네트워크의 중추를 형성하고 모델이 학습 기록에서 오랜 기간 동안 복잡한 패턴을 학습할 수 있도록 합니다. 자세한 내용은 TCNForecaster 소개를 참조하세요.
TCNForecaster는 학습 기록에 수천 개 이상의 관찰이 있는 경우 표준 시계열 모델보다 더 높은 정확도를 달성하는 경우가 많습니다. 그러나 용량이 더 크기 때문에 TCNForecaster 모델을 학습하고 스윕하는 데 시간이 더 걸립니다.
다음과 같이 학습 구성에서 enable_dnn_training
플래그를 설정하여 AutoML에서 TCNForecaster를 사용하도록 설정할 수 있습니다.
# Include TCNForecaster models in the model search
forecasting_job.set_training(
enable_dnn_training=True
)
기본적으로 TCNForecaster 학습은 모델 시험당 단일 컴퓨팅 노드와 단일 GPU(사용 가능한 경우)로 제한됩니다. 대규모 데이터 시나리오의 경우 각 TCNForecaster 평가판을 여러 코어/GPU 및 노드에 배포하는 것이 좋습니다. 자세한 내용 및 샘플 코드는 분산 학습을 참조하세요.
Azure Machine Learning 스튜디오 만든 AutoML 실험에 DNN을 사용하도록 설정하려면 스튜디오 UI 방법의 작업 유형 설정을 참조하세요.
참고 항목
- SDK로 만든 실험에 DNN을 사용하도록 설정하면 최상의 모델 설명이 사용하지 않도록 설정됩니다.
- 자동화된 Machine Learning의 예측에 대한 DNN 지원은 Azure Databricks에서 시작된 실행에 대해 지원되지 않습니다.
- DNN 학습을 사용할 때 GPU 컴퓨팅 유형을 사용하는 것이 좋습니다.
지연 및 롤링 창 기능
대상의 최근 값은 종종 예측 모델에서 영향력 있는 기능입니다. 따라서 AutoML은 시간 지연 및 롤링 창 집계 기능을 만들어 잠재적으로 모델 정확도를 개선시킬 수 있습니다.
날씨 데이터와 과거 수요를 사용할 수 있는 에너지 수요 예측 시나리오를 고려합니다. 표는 가장 최근 3시간 동안 기간 집계가 적용될 때 발생하는 결과 기능 엔지니어링을 보여 줍니다. 최소, 최대, 합계 열은 정의된 설정을 기반으로 3시간 슬라이딩 윈도우에서 생성됩니다. 예를 들어 2017년 9월 8일 오전 4:00에 유효한 관찰의 경우 최대값, 최소값 및 합계 값은 2017년 9월 8일 오전 1:00~오전 3:00에 대한 수요 값을 사용하여 계산됩니다. 이 3시간의 기간은 나머지 행에 대한 데이터를 채우기 위해 이동합니다. 자세한 내용 및 예제는 AutoML의 시계열 예측에 대한 지연 기능을 참조하세요.
롤링 창 크기와 만들려는 지연 순서를 설정하여 대상에 대한 지연 및 롤링 창 집계 기능을 사용하도록 설정할 수 있습니다. 창 크기는 이전 예제에서 3개였습니다. feature_lags
설정을 사용하여 기능에 대한 지연을 사용하도록 설정할 수도 있습니다. 다음 예제에서는 이러한 모든 설정이 AutoML에 auto
데이터의 상관 관계 구조를 분석하여 설정을 자동으로 결정하도록 지시하도록 설정됩니다.
forecasting_job.set_forecast_settings(
..., # Other settings
target_lags='auto',
target_rolling_window_size='auto',
feature_lags='auto'
)
짧은 계열 처리
AutoML은 모델 개발의 학습 및 유효성 검사 단계를 수행하기에 충분한 데이터 요소가 없는 경우 시계열 을 짧은 시리즈 로 간주합니다. 자세한 내용은 학습 데이터 길이 요구 사항을 참조하세요.
AutoML에는 짧은 시리즈에 대해 수행할 수 있는 몇 가지 작업이 있습니다. 이러한 작업은 short_series_handling_config
설정으로 구성할 수 있습니다. 기본값은 auto
입니다. 다음 표에서는 설정에 대해 설명합니다.
설정 | 설명 | 참고 |
---|---|---|
auto |
짧은 계열 처리의 기본값입니다. | - 모든 계열이 짧으면 데이터를 패딩합니다. - 모든 계열이 짧지 않은 경우 짧은 계열을 삭제합니다. |
pad |
설정을 short_series_handling_config = pad 사용하는 경우 AutoML은 찾은 각 짧은 계열에 임의의 값을 추가합니다. AutoML은 대상 열을 백색 노이즈로 채 깁니다. |
지정된 안쪽 여백과 함께 다음 열 형식을 사용할 수 있습니다. - 개체 열, 패드와 s NaN - 숫자 열, 0이 있는 패드(0) - 부울/논리 열, 패딩 False |
drop |
short_series_handling_config = drop 설정을 사용하는 경우 AutoML은 짧은 계열을 삭제하고 학습 또는 예측에 사용되지 않습니다. |
이러한 계열에 대한 예측은 NaN 을 반환합니다. |
None |
패딩되거나 삭제된 계열이 없습니다. |
다음 예제에서는 모든 짧은 계열이 최소 길이로 패딩되도록 짧은 계열 처리를 설정합니다.
forecasting_job.set_forecast_settings(
..., # Other settings
short_series_handling_config='pad'
)
주의
패딩은 학습 실패를 방지하기 위해 인공 데이터를 도입하므로 결과 모델의 정확도에 영향을 미칠 수 있습니다. 많은 계열이 짧은 경우 설명 가능성 결과에 어느 정도 영향이 있을 수 있습니다.
빈도 및 대상 데이터 집계
빈도 및 데이터 집계 옵션을 사용하여 불규칙한 데이터로 인한 장애를 방지합니다. 데이터가 시간별 또는 일별과 같이 정해진 주기를 따르지 않으면 데이터가 불규칙합니다. POS 데이터는 비정형 데이터의 좋은 예입니다. 이러한 시나리오에서 AutoML은 원하는 빈도로 데이터를 집계한 다음 집계에서 예측 모델을 빌드할 수 있습니다.
불규칙한 데이터를 처리하려면 frequency
및 target_aggregate_function
설정을 지정해야 합니다. 빈도 설정은 Pandas DateOffset 문자열을 입력으로 허용합니다. 다음 표에서는 집계 함수에 대해 지원되는 값을 보여줍니다.
함수 | 설명 |
---|---|
sum |
대상 값의 합계 |
mean |
대상 값의 평균 또는 평균 |
min |
대상의 최솟값 |
max |
대상의 최댓값 |
AutoML은 다음 열에 대한 집계를 적용합니다.
Column | 집계 방법 |
---|---|
숫자 예측 변수 | AutoML은 sum , mean , min 및 max 함수를 사용합니다. 각 열 이름에 열 값에 적용된 집계 함수의 이름을 식별하는 접미사가 포함된 새 열을 생성합니다. |
범주 예측 변수 | AutoML은 매개 변수 값을 forecast_mode 사용하여 데이터를 집계합니다. 이는 창에서 가장 눈에 띄는 범주입니다. 자세한 내용은 다 모델 파이프라인 및 HTS 파이프라인 섹션의 매개 변수에 대한 설명을 참조하세요. |
데이터 예측 변수 | AutoML은 최소 대상 값(min ), 최대 대상 값(max ) 및 forecast_mode 매개 변수 설정을 사용하여 데이터를 집계합니다. |
대상 | AutoML은 지정된 작업에 따라 값을 집계합니다. 일반적으로 함수 sum 는 대부분의 시나리오에 적합합니다. |
다음 예에서는 빈도를 매시간으로 설정하고 집계 함수를 합계로 설정합니다.
# Aggregate the data to hourly frequency
forecasting_job.set_forecast_settings(
..., # Other settings
frequency='H',
target_aggregate_function='sum'
)
사용자 지정 교차 유효성 검사 설정
예측 작업에 대한 교차 유효성 검사를 제어하는 두 가지 사용자 지정 가능한 설정이 있습니다. n_cross_validations 매개 변수를 사용하여 접기 수를 사용자 지정하고 접 기 사이의 시간 오프셋을 정의하도록 cv_step_size 매개 변수를 구성합니다. 자세한 내용은 모델 선택 예측을 참조하세요.
기본적으로 AutoML은 데이터의 특성에 따라 두 설정을 자동으로 설정합니다. 고급 사용자는 이를 수동으로 설정할 수 있습니다. 예를 들어, 일별 판매 데이터가 있고 인접한 접기 사이에 7일 오프셋이 있는 다섯 개의 접기로 유효성 검사 설정을 구성하려고 한다고 가정합니다. 다음 샘플 코드는 이러한 값을 설정하는 방법을 보여 줍니다.
from azure.ai.ml import automl
# Create a job with five CV folds
forecasting_job = automl.forecasting(
..., # Other training parameters
n_cross_validations=5,
)
# Set the step size between folds to seven days
forecasting_job.set_forecast_settings(
..., # Other settings
cv_step_size=7
)
사용자 지정 기능화
기본적으로 AutoML은 엔지니어링된 기능으로 학습 데이터를 보강하여 모델의 정확도를 높입니다. 자세한 내용은 자동 기능 엔지니어링을 참조하세요. 예측 작업의 기능화 구성을 사용하여 일부 전처리 단계를 사용자 지정할 수 있습니다.
다음 표에서는 예측에 대해 지원되는 사용자 지정을 나열합니다.
사용자 지정 | 설명 | Options |
---|---|---|
열 용도 업데이트 | 지정된 열에 대해 자동 감지된 기능 유형을 재정의합니다. | categorical , , dateTime numeric |
변환기 매개 변수 업데이트 | 지정된 imputer의 매개 변수를 업데이트합니다. | {"strategy": "constant", "fill_value": <value>} , , {"strategy": "median"} {"strategy": "ffill"} |
예를 들어, 데이터에 가격, on sale
플래그, 제품 유형이 포함된 소매 수요 시나리오가 있다고 가정합니다. 다음 예제에서는 이러한 기능에 대해 사용자 지정된 형식 및 변환기를 설정하는 방법을 보여줍니다.
from azure.ai.ml.automl import ColumnTransformer
# Customize imputation methods for price and is_on_sale features
# Median value imputation for price, constant value of zero for is_on_sale
transformer_params = {
"imputer": [
ColumnTransformer(fields=["price"], parameters={"strategy": "median"}),
ColumnTransformer(fields=["is_on_sale"], parameters={"strategy": "constant", "fill_value": 0}),
],
}
# Set the featurization
# Ensure product_type feature is interpreted as categorical
forecasting_job.set_featurization(
mode="custom",
transformer_params=transformer_params,
column_name_and_types={"product_type": "Categorical"},
)
실험에 Azure Machine Learning 스튜디오 사용하는 경우 스튜디오에서 기능화 설정 구성을 참조하세요.
예측 작업 제출
모든 설정을 구성한 후에는 예측 작업을 실행할 준비가 된 것입니다. 다음 예제에서는 이 프로세스를 보여 줍니다.
# Submit the AutoML job
returned_job = ml_client.jobs.create_or_update(
forecasting_job
)
print(f"Created job: {returned_job}")
# Get a URL for the job in the studio UI
returned_job.services["Studio"].endpoint
작업을 제출한 후 AutoML은 컴퓨팅 리소스를 프로비전하고, 기능화 및 기타 준비 단계를 입력 데이터에 적용하고, 예측 모델을 스윕하기 시작합니다. 자세한 내용은 AutoML 및 모델 비우기의 예측 방법론 및 AutoML에서의 예측 선택 항목을 참조하세요.
구성 요소 및 파이프라인을 사용하여 학습, 추론, 평가 오케스트레이션
기계 학습 워크플로에는 학습 이상의 것이 필요할 수 있습니다. 추론, 최신 데이터에 대한 모델 예측 검색, 알려진 대상 값이 있는 테스트 집합의 모델 정확도 평가는 학습 작업과 함께 Azure Machine Learning에서 오케스트레이션할 수 있는 다른 일반적인 작업입니다. 추론 및 평가 작업을 지원하기 위해 Azure Machine Learning은 Azure Machine Learning 파이프라인에서 한 단계를 수행하는 독립형 코드 조각인 구성 요소를 제공합니다.
다음 예에서는 클라이언트 레지스트리에서 구성 요소 코드를 검색합니다.
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential, InteractiveBrowserCredential
# Get credential to access AzureML registry
try:
credential = DefaultAzureCredential()
# Check if token can be obtained successfully
credential.get_token("https://management.azure.com/.default")
except Exception as ex:
# Fall back to InteractiveBrowserCredential in case DefaultAzureCredential fails
credential = InteractiveBrowserCredential()
# Create client to access assets in AzureML preview registry
ml_client_registry = MLClient(
credential=credential,
registry_name="azureml-preview"
)
# Create client to access assets in AzureML registry
ml_client_metrics_registry = MLClient(
credential=credential,
registry_name="azureml"
)
# Get inference component from registry
inference_component = ml_client_registry.components.get(
name="automl_forecasting_inference",
label="latest"
)
# Get component to compute evaluation metrics from registry
compute_metrics_component = ml_client_metrics_registry.components.get(
name="compute_metrics",
label="latest"
)
다음으로 학습, 추론, 메트릭 계산을 오케스트레이션하는 파이프라인을 만드는 팩토리 함수를 정의합니다. 자세한 내용은 실험 구성을 참조하세요.
from azure.ai.ml import automl
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml.dsl import pipeline
@pipeline(description="AutoML Forecasting Pipeline")
def forecasting_train_and_evaluate_factory(
train_data_input,
test_data_input,
target_column_name,
time_column_name,
forecast_horizon,
primary_metric='normalized_root_mean_squared_error',
cv_folds='auto'
):
# Configure training node of pipeline
training_node = automl.forecasting(
training_data=train_data_input,
target_column_name=target_column_name,
primary_metric=primary_metric,
n_cross_validations=cv_folds,
outputs={"best_model": Output(type=AssetTypes.MLFLOW_MODEL)},
)
training_node.set_forecasting_settings(
time_column_name=time_column_name,
forecast_horizon=max_horizon,
frequency=frequency,
# Other settings
...
)
training_node.set_training(
# Training parameters
...
)
training_node.set_limits(
# Limit settings
...
)
# Configure inference node to make rolling forecasts on test set
inference_node = inference_component(
test_data=test_data_input,
model_path=training_node.outputs.best_model,
target_column_name=target_column_name,
forecast_mode='rolling',
step=1
)
# Configure metrics calculation node
compute_metrics_node = compute_metrics_component(
task="tabular-forecasting",
ground_truth=inference_node.outputs.inference_output_file,
prediction=inference_node.outputs.inference_output_file,
evaluation_config=inference_node.outputs.evaluation_config_output_file
)
# Return dictionary with evaluation metrics and raw test set forecasts
return {
"metrics_result": compute_metrics_node.outputs.evaluation_result,
"rolling_fcst_result": inference_node.outputs.inference_output_file
}
로컬 폴더 ./train_data 및 ./test_data 포함된 학습 및 테스트 데이터 입력을 정의합니다.
my_train_data_input = Input(
type=AssetTypes.MLTABLE,
path="./train_data"
)
my_test_data_input = Input(
type=AssetTypes.URI_FOLDER,
path='./test_data',
)
마지막으로 파이프라인을 구성하고 기본 컴퓨팅을 설정한 후 작업을 제출합니다.
pipeline_job = forecasting_train_and_evaluate_factory(
my_train_data_input,
my_test_data_input,
target_column_name,
time_column_name,
forecast_horizon
)
# Set pipeline level compute
pipeline_job.settings.default_compute = compute_name
# Submit pipeline job
returned_pipeline_job = ml_client.jobs.create_or_update(
pipeline_job,
experiment_name=experiment_name
)
returned_pipeline_job
실행 요청을 제출한 후 파이프라인은 AutoML 학습, 롤링 평가 유추 및 메트릭 계산을 순서대로 실행합니다. 스튜디오 UI에서 실행을 모니터링하고 검사할 수 있습니다. 실행이 완료되면 롤링 예측 및 평가 메트릭을 로컬 작업 디렉터리에 다운로드할 수 있습니다.
# Download metrics JSON
ml_client.jobs.download(returned_pipeline_job.name, download_path=".", output_name='metrics_result')
# Download rolling forecasts
ml_client.jobs.download(returned_pipeline_job.name, download_path=".", output_name='rolling_fcst_result')
다음 위치에서 출력을 검토할 수 있습니다.
- 메트릭: ./named-outputs/metrics_results/evaluationResult/metrics.json
- 예측: ./named-outputs/rolling_fcst_result/inference_output_file (JSON 줄 형식)
롤링 평가에 대한 자세한 내용은 예측 모델의 추론 및 평가를 참조하세요.
대규모 예측: 많은 모델
AutoML의 다양한 모델 구성 요소를 사용하면 수백만 개의 모델을 동시에 학습하고 관리할 수 있습니다. 다양한 모델 개념에 대한 자세한 내용은 다양한 모델을 참조하세요.
많은 모델 학습 구성
다중 모델 학습 구성 요소는 AutoML 학습 설정의 YAML 형식 구성 파일을 허용합니다. 구성 요소는 시작하는 각 AutoML 인스턴스에 이러한 설정을 적용합니다. YAML 파일의 사양 은 Forecasting 명령 작업 partition_column_names
과 매개 변수와 allow_multi_partitions
동일합니다.
매개 변수 | 설명 |
---|---|
partition_column_names |
그룹화될 때 데이터 파티션을 정의하는 데이터의 열 이름입니다. 다중 모델 학습 구성 요소는 각 파티션에서 독립적인 학습 작업을 시작합니다. |
allow_multi_partitions |
각 파티션에 둘 이상의 고유한 시계열이 포함된 경우 파티션당 하나의 모델을 학습할 수 있는 선택적 플래그입니다. 기본값은 false 입니다. |
다음 예제에서는 샘플 YAML 구성을 제공합니다.
$schema: https://azuremlsdk2.blob.core.windows.net/preview/0.0.1/autoMLJob.schema.json
type: automl
description: A time-series forecasting job config
compute: azureml:<cluster-name>
task: forecasting
primary_metric: normalized_root_mean_squared_error
target_column_name: sales
n_cross_validations: 3
forecasting:
time_column_name: date
time_series_id_column_names: ["state", "store"]
forecast_horizon: 28
training:
blocked_training_algorithms: ["ExtremeRandomTrees"]
limits:
timeout_minutes: 15
max_trials: 10
max_concurrent_trials: 4
max_cores_per_trial: -1
trial_timeout_minutes: 15
enable_early_termination: true
partition_column_names: ["state", "store"]
allow_multi_partitions: false
후속 예제에서는 구성이 경로 ./automl_settings_mm.yml`에 저장됩니다.
많은 모델 파이프라인
다음으로, 많은 모델 학습, 추론, 메트릭 계산의 오케스트레이션을 위한 파이프라인을 만드는 팩토리 함수를 정의합니다. 다음 표에서는 이 팩터리 함수에 대한 매개 변수를 설명합니다.
매개 변수 | 설명 |
---|---|
max_nodes |
학습 작업에 사용할 컴퓨팅 노드 수입니다. |
max_concurrency_per_node |
각 노드에서 실행할 AutoML 프로세스 수입니다. 따라서 많은 모델 작업의 총 동시성은 max_nodes * max_concurrency_per_node 입니다. |
parallel_step_timeout_in_seconds |
초 단위로 지정된 많은 모델 구성 요소 시간 제한입니다. |
retrain_failed_models |
실패한 모델에 대한 재학습을 사용하도록 설정하는 플래그입니다. 이 값은 이전에 일부 데이터 파티션에서 AutoML 작업이 실패한 여러 모델 실행을 수행한 경우에 유용합니다. 이 플래그를 사용하도록 설정하면 많은 모델이 이전에 실패한 파티션에 대한 학습 작업만 시작합니다. |
forecast_mode |
모델 평가를 위한 유추 모드입니다. 유효한 값은 recursive (기본값)와 rolling 입니다. 자세한 내용은 예측 모델 및 ManyModelsInferenceParameters 클래스 참조의 유추 및 평가를 참조하세요. |
step |
롤링 예측의 단계 크기(기본값: 1). 자세한 내용은 예측 모델 및 ManyModelsInferenceParameters 클래스 참조의 유추 및 평가를 참조하세요. |
다음 예제에서는 많은 모델 학습 및 모델 평가 파이프라인을 생성하는 팩터리 메서드를 보여 줍니다.
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential, InteractiveBrowserCredential
# Get credential to access AzureML registry
try:
credential = DefaultAzureCredential()
# Check if token can be obtained successfully
credential.get_token("https://management.azure.com/.default")
except Exception as ex:
# Fall back to InteractiveBrowserCredential in case DefaultAzureCredential fails
credential = InteractiveBrowserCredential()
# Get many models training component
mm_train_component = ml_client_registry.components.get(
name='automl_many_models_training',
version='latest'
)
# Get many models inference component
mm_inference_component = ml_client_registry.components.get(
name='automl_many_models_inference',
version='latest'
)
# Get component to compute evaluation metrics
compute_metrics_component = ml_client_metrics_registry.components.get(
name="compute_metrics",
label="latest"
)
@pipeline(description="AutoML Many Models Forecasting Pipeline")
def many_models_train_evaluate_factory(
train_data_input,
test_data_input,
automl_config_input,
compute_name,
max_concurrency_per_node=4,
parallel_step_timeout_in_seconds=3700,
max_nodes=4,
retrain_failed_model=False,
forecast_mode="rolling",
forecast_step=1
):
mm_train_node = mm_train_component(
raw_data=train_data_input,
automl_config=automl_config_input,
max_nodes=max_nodes,
max_concurrency_per_node=max_concurrency_per_node,
parallel_step_timeout_in_seconds=parallel_step_timeout_in_seconds,
retrain_failed_model=retrain_failed_model,
compute_name=compute_name
)
mm_inference_node = mm_inference_component(
raw_data=test_data_input,
max_nodes=max_nodes,
max_concurrency_per_node=max_concurrency_per_node,
parallel_step_timeout_in_seconds=parallel_step_timeout_in_seconds,
optional_train_metadata=mm_train_node.outputs.run_output,
forecast_mode=forecast_mode,
step=forecast_step,
compute_name=compute_name
)
compute_metrics_node = compute_metrics_component(
task="tabular-forecasting",
prediction=mm_inference_node.outputs.evaluation_data,
ground_truth=mm_inference_node.outputs.evaluation_data,
evaluation_config=mm_inference_node.outputs.evaluation_configs
)
# Return metrics results from rolling evaluation
return {
"metrics_result": compute_metrics_node.outputs.evaluation_result
}
팩터리 함수를 사용하여 파이프라인을 생성합니다. 학습 및 테스트 데이터는 각각 로컬 폴더 ./data/train 및 ./data/test에 있습니다. 마지막으로, 다음 예제와 같이 기본 컴퓨팅을 설정하고 작업을 제출합니다.
pipeline_job = many_models_train_evaluate_factory(
train_data_input=Input(
type="uri_folder",
path="./data/train"
),
test_data_input=Input(
type="uri_folder",
path="./data/test"
),
automl_config=Input(
type="uri_file",
path="./automl_settings_mm.yml"
),
compute_name="<cluster name>"
)
pipeline_job.settings.default_compute = "<cluster name>"
returned_pipeline_job = ml_client.jobs.create_or_update(
pipeline_job,
experiment_name=experiment_name,
)
ml_client.jobs.stream(returned_pipeline_job.name)
작업이 완료되면 단일 학습 실행 파이프라인과 동일한 절차를 사용하여 로컬로 평가 메트릭을 다운로드할 수 있습니다.
자세한 예제는 여러 모델 Notebook을 사용한 수요 예측을 참조하세요.
여러 모델에 대한 학습 고려 사항 실행
많은 모델 학습 및 유추 구성 요소는 각 파티션이 자체 파일에 있도록 설정에 partition_column_names
따라 데이터를 조건부로 분할합니다. 데이터가 매우 큰 경우 이 프로세스가 매우 느리거나 실패할 수 있습니다. 많은 모델 학습 또는 유추를 실행하기 전에 데이터를 수동으로 분할하는 것이 좋습니다.
참고 항목
구독 내에서 실행되는 많은 모델에 대한 기본 병렬 처리 제한은 320으로 설정됩니다. 워크로드에 더 높은 제한이 필요한 경우 Microsoft 지원에 문의할 수 있습니다.
대규모 예측: 계층적 시계열
AutoML의 HTS(계층적 시계열) 구성 요소를 사용하면 계층 구조의 데이터에 대해 수많은 모델을 학습할 수 있습니다. 자세한 내용은 계층적 시계열 예측을 참조 하세요.
HTS 학습 구성
HTS 학습 구성 요소는 AutoML 학습 설정의 YAML 형식 구성 파일을 허용합니다. 구성 요소는 시작하는 각 AutoML 인스턴스에 이러한 설정을 적용합니다. 이 YAML 파일은 예측 명령 작업 및 계층 정보와 관련된 다른 매개 변수와 동일한 사양을 가짐:
매개 변수 | 설명 |
---|---|
hierarchy_column_names |
데이터의 계층 구조를 정의하는 데이터의 열 이름 목록입니다. 이 목록의 열 순서에 따라 계층 수준이 결정됩니다. 목록 색인을 사용하여 집계 정도가 감소합니다. 즉, 목록의 마지막 열은 계층 구조의 리프 또는 가장 세분화된 수준을 정의합니다. |
hierarchy_training_level |
예측 모델 학습에 사용할 계층 구조 수준입니다. |
다음 예제에서는 샘플 YAML 구성을 제공합니다.
$schema: https://azuremlsdk2.blob.core.windows.net/preview/0.0.1/autoMLJob.schema.json
type: automl
description: A time-series forecasting job config
compute: azureml:cluster-name
task: forecasting
primary_metric: normalized_root_mean_squared_error
log_verbosity: info
target_column_name: sales
n_cross_validations: 3
forecasting:
time_column_name: "date"
time_series_id_column_names: ["state", "store", "SKU"]
forecast_horizon: 28
training:
blocked_training_algorithms: ["ExtremeRandomTrees"]
limits:
timeout_minutes: 15
max_trials: 10
max_concurrent_trials: 4
max_cores_per_trial: -1
trial_timeout_minutes: 15
enable_early_termination: true
hierarchy_column_names: ["state", "store", "SKU"]
hierarchy_training_level: "store"
후속 예제에서는 구성이 경로 ./automl_settings_hts.yml에 저장됩니다.
HTS 파이프라인
다음으로, HTS 학습, 추론, 메트릭 계산의 오케스트레이션을 위한 파이프라인을 만드는 팩토리 함수를 정의합니다. 다음 표에서는 이 팩터리 함수에 대한 매개 변수를 설명합니다.
매개 변수 | 설명 |
---|---|
forecast_level |
예측을 검색할 계층의 수준입니다. |
allocation_method |
예측이 세분화될 때 사용할 할당 방법입니다. 유효한 값은 proportions_of_historical_average 및 average_historical_proportions 입니다. |
max_nodes |
학습 작업에 사용할 컴퓨팅 노드 수입니다. |
max_concurrency_per_node |
각 노드에서 실행할 AutoML 프로세스 수입니다. 따라서 HTS 작업의 총 동시성은 max_nodes * max_concurrency_per_node 입니다. |
parallel_step_timeout_in_seconds |
초 단위로 지정된 많은 모델 구성 요소 시간 제한입니다. |
forecast_mode |
모델 평가를 위한 유추 모드입니다. 유효한 값은 recursive 및 rolling 입니다. 자세한 내용은 예측 모델 및 HTSInferenceParameters 클래스 참조의 유추 및 평가를 참조하세요. |
step |
롤링 예측의 단계 크기(기본값: 1). 자세한 내용은 예측 모델 및 HTSInferenceParameters 클래스 참조의 유추 및 평가를 참조하세요. |
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential, InteractiveBrowserCredential
# Get credential to access AzureML registry
try:
credential = DefaultAzureCredential()
# Check if token can be obtained successfully
credential.get_token("https://management.azure.com/.default")
except Exception as ex:
# Fall back to InteractiveBrowserCredential in case DefaultAzureCredential fails
credential = InteractiveBrowserCredential()
# Get HTS training component
hts_train_component = ml_client_registry.components.get(
name='automl_hts_training',
version='latest'
)
# Get HTS inference component
hts_inference_component = ml_client_registry.components.get(
name='automl_hts_inference',
version='latest'
)
# Get component to compute evaluation metrics
compute_metrics_component = ml_client_metrics_registry.components.get(
name="compute_metrics",
label="latest"
)
@pipeline(description="AutoML HTS Forecasting Pipeline")
def hts_train_evaluate_factory(
train_data_input,
test_data_input,
automl_config_input,
max_concurrency_per_node=4,
parallel_step_timeout_in_seconds=3700,
max_nodes=4,
forecast_mode="rolling",
forecast_step=1,
forecast_level="SKU",
allocation_method='proportions_of_historical_average'
):
hts_train = hts_train_component(
raw_data=train_data_input,
automl_config=automl_config_input,
max_concurrency_per_node=max_concurrency_per_node,
parallel_step_timeout_in_seconds=parallel_step_timeout_in_seconds,
max_nodes=max_nodes
)
hts_inference = hts_inference_component(
raw_data=test_data_input,
max_nodes=max_nodes,
max_concurrency_per_node=max_concurrency_per_node,
parallel_step_timeout_in_seconds=parallel_step_timeout_in_seconds,
optional_train_metadata=hts_train.outputs.run_output,
forecast_level=forecast_level,
allocation_method=allocation_method,
forecast_mode=forecast_mode,
step=forecast_step
)
compute_metrics_node = compute_metrics_component(
task="tabular-forecasting",
prediction=hts_inference.outputs.evaluation_data,
ground_truth=hts_inference.outputs.evaluation_data,
evaluation_config=hts_inference.outputs.evaluation_configs
)
# Return metrics results from rolling evaluation
return {
"metrics_result": compute_metrics_node.outputs.evaluation_result
}
팩토리 함수를 사용하여 파이프라인을 생성합니다. 학습 및 테스트 데이터는 각각 로컬 폴더 ./data/train 및 ./data/test에 있습니다. 마지막으로, 다음 예제와 같이 기본 컴퓨팅을 설정하고 작업을 제출합니다.
pipeline_job = hts_train_evaluate_factory(
train_data_input=Input(
type="uri_folder",
path="./data/train"
),
test_data_input=Input(
type="uri_folder",
path="./data/test"
),
automl_config=Input(
type="uri_file",
path="./automl_settings_hts.yml"
)
)
pipeline_job.settings.default_compute = "cluster-name"
returned_pipeline_job = ml_client.jobs.create_or_update(
pipeline_job,
experiment_name=experiment_name,
)
ml_client.jobs.stream(returned_pipeline_job.name)
작업이 완료되면 단일 학습 실행 파이프라인과 동일한 절차를 사용하여 평가 메트릭을 로컬로 다운로드할 수 있습니다.
자세한 예제는 계층적 시계열 Notebook을 사용한 수요 예측을 참조하세요.
HTS 실행에 대한 학습 고려 사항
HTS 학습 및 유추 구성 요소는 각 파티션이 자체 파일에 있도록 설정에 hierarchy_column_names
따라 데이터를 조건부로 분할합니다. 데이터가 매우 큰 경우 이 프로세스가 매우 느리거나 실패할 수 있습니다. HTS 학습 또는 유추를 실행하기 전에 데이터를 수동으로 분할하는 것이 좋습니다.
참고 항목
구독 내에서 실행되는 HTS에 대한 기본 병렬 처리 제한은 320으로 설정됩니다. 워크로드에 더 높은 제한이 필요한 경우 Microsoft 지원에 문의할 수 있습니다.
대규모 예측: 분산 DNN 학습
이 문서의 앞부분에서 설명한 대로 DNN(심층 신경망)에 대한 학습을 사용하도록 설정할 수 있습니다. DNN 예측 작업에 분산 학습이 작동하는 방식을 알아보려면 분산 심층 신경망 학습(미리 보기)을 참조하세요.
데이터 요구 사항이 큰 시나리오의 경우 제한된 모델 집합에 AutoML을 사용한 분산 학습을 사용할 수 있습니다. AutoML의 대규모 분산 학습에서 자세한 정보 및 코드 샘플을 찾을 수 있습니다.
예제 Notebook 살펴보기
고급 예측 구성을 보여 주는 자세한 코드 샘플은 AutoML 예측 샘플 Notebook GitHub 리포지토리에서 사용할 수 있습니다. 다음은 몇 가지 예제 Notebook입니다.
- 수요 예측 파이프라인 만들기(HTS 및 여러 모델)
- GitHub 데이터 세트에서 TCNForecaster(DNN) 모델 학습
- 휴일 검색 및 기능화를 사용하여 예측(자전거 공유 데이터 세트)
- 지연 및 롤링 창 집계를 수동으로 구성