AutoMLConfig 클래스
Azure Machine Learning에서 자동화된 ML 실험을 제출하기 위한 구성을 나타냅니다.
이 구성 개체는 실험 실행을 구성하기 위한 매개 변수와 런타임에 사용할 학습 데이터를 포함하고 유지합니다. 설정을 선택하는 방법에 대한 지침은 다음을 참조 https://aka.ms/AutoMLConfig하세요.
AutoMLConfig를 만듭니다.
생성자
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
매개 변수
Name | Description |
---|---|
task
필수
|
실행할 작업의 유형입니다. 해결할 자동화된 ML 문제의 유형에 따라 값은 '분류', '회귀' 또는 '예측'일 수 있습니다. |
path
필수
|
Azure Machine Learning 프로젝트 폴더의 전체 경로입니다. 지정하지 않으면 기본값은 현재 디렉터리 또는 "."를 사용하는 것입니다. |
iterations
필수
|
자동화된 ML 실험 중에 테스트할 다양한 알고리즘 및 매개 변수 조합의 총 수입니다. 지정하지 않으면 기본값은 1000 반복입니다. |
primary_metric
필수
|
자동화된 Machine Learning이 모델 선택에 최적화하는 메트릭입니다. 자동화된 Machine Learning은 최적화할 수 있는 것보다 더 많은 메트릭을 수집합니다. 지정된 작업에 대한 유효한 메트릭 목록을 가져오는 데 사용할 get_primary_metrics 수 있습니다. 메트릭을 계산하는 방법에 대한 자세한 내용은 다음을 참조하세요 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. 지정하지 않으면 정확도가 분류 작업에 사용되고, 정규화된 루트 평균 제곱은 예측 및 회귀 작업에 사용되고, 정확도는 이미지 분류 및 이미지 다중 레이블 분류에 사용되며, 평균 정밀도는 이미지 개체 감지에 사용됩니다. |
positive_label
필수
|
자동화된 Machine Learning에서 이진 메트릭을 계산하는 데 사용할 양의 클래스 레이블입니다. 이진 메트릭은 분류 작업에 대한 두 가지 조건으로 계산됩니다.
분류에 대한 자세한 내용은 분류 시나리오에 대한 메트릭을 체크 아웃합니다. |
compute_target
필수
|
자동화된 Machine Learning 실험을 실행할 Azure Machine Learning 컴퓨팅 대상입니다. 컴퓨팅 대상에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote 하세요. |
spark_context
필수
|
<xref:SparkContext>
Spark 컨텍스트입니다. Azure Databricks/Spark 환경 내에서 사용하는 경우에만 적용됩니다. |
X
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 학습 기능입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 사용하고 label_column_name. |
y
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 학습 레이블입니다. 모델이 예측하는 값입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 사용하고 label_column_name. |
sample_weight
필수
|
피팅 파이프라인을 실행할 때 각 학습 샘플에 부여할 가중치이며, 각 행은 X 및 y 데이터의 행에 해당해야 합니다. 를 지정할 때 이 매개 변수를 지정합니다 |
X_valid
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 유효성 검사 기능입니다. 지정한 |
y_valid
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 유효성 검사 레이블입니다. 둘 다 |
sample_weight_valid
필수
|
점수 매기기 파이프라인을 실행할 때 각 유효성 검사 샘플에 부여할 가중치이며, 각 행은 X 및 y 데이터의 행에 해당해야 합니다. 를 지정할 때 이 매개 변수를 지정합니다 |
cv_splits_indices
필수
|
교차 유효성 검사를 위해 학습 데이터를 분할할 위치의 인덱스입니다. 각 행은 별도의 교차 접기이며 각 크로스폴드 내에서 2개의 numpy 배열을 제공하고, 첫 번째는 학습 데이터에 사용할 샘플 인덱스를 제공하고, 두 번째 행은 유효성 검사 데이터에 사용할 인덱스를 제공합니다. 즉, [[t1, v1], [t2, v2], ...] 여기서 t1은 첫 번째 크로스 폴드에 대한 학습 인덱스이고 v1은 첫 번째 크로스 폴드에 대한 유효성 검사 인덱스입니다. 기존 데이터를 유효성 검사 데이터 |
validation_size
필수
|
사용자 유효성 검사 데이터가 지정되지 않은 경우 유효성 검사를 위해 보류할 데이터의 소수입니다. 이 값은 0.0에서 1.0 사이여야 합니다. 유효성 검사 데이터를 제공하거나, 설정 |
n_cross_validations
필수
|
사용자 유효성 검사 데이터를 지정하지 않은 경우 수행할 교차 유효성 검사 수입니다. 유효성 검사 데이터를 제공하거나, 설정 |
y_min
필수
|
회귀 실험의 최소값은 y입니다. 입력 데이터 범위에 따라 테스트 집합 메트릭을 정규화하는 데 사용되는 조합 |
y_max
필수
|
회귀 실험의 최대값은 y입니다. 입력 데이터 범위에 따라 테스트 집합 메트릭을 정규화하는 데 사용되는 조합 |
num_classes
필수
|
분류 실험에 대한 레이블 데이터의 클래스 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 계산됩니다. |
featurization
필수
|
기능화 단계를 자동으로 수행해야 하는지 여부 또는 사용자 지정된 기능화를 사용해야 하는지 여부에 대한 'auto' / 'off' / FeaturizationConfig 표시기입니다. 참고: 입력 데이터가 희소한 경우 기능화 설정을 켤 수 없습니다. 열 형식이 자동으로 검색됩니다. 검색된 열 형식 전처리/기능화에 따라 다음과 같이 수행됩니다.
자세한 내용은 Python에서 자동화된 ML 실험 구성 문서에서 찾을 수 있습니다. 기능화 단계를 사용자 지정하려면 FeaturizationConfig 개체를 제공합니다. 사용자 지정된 기능화는 현재 변환기 집합 차단, 열 용도 업데이트, 변환기 매개 변수 편집 및 열 삭제를 지원합니다. 자세한 내용은 기능 엔지니어링 사용자 지정을 참조하세요. 참고: 시간 표시 기능은 작업 유형이 이 매개 변수와 관계없이 예측으로 설정된 경우 별도로 처리됩니다. |
max_cores_per_iteration
필수
|
지정된 학습 반복에 사용할 최대 스레드 수입니다. 허용되는 값:
|
max_concurrent_iterations
필수
|
병렬로 실행될 최대 반복 수를 나타냅니다. 기본값은 1입니다.
|
iteration_timeout_minutes
필수
|
각 반복이 종료되기 전에 실행할 수 있는 최대 시간(분)입니다. 지정하지 않으면 1개월 또는 43200분 값이 사용됩니다. |
mem_in_mb
필수
|
각 반복이 종료되기 전에 실행할 수 있는 최대 메모리 사용량입니다. 지정하지 않으면 1PB 또는 1073741824 MB 값이 사용됩니다. |
enforce_time_on_windows
필수
|
Windows의 각 반복에서 모델 학습에 시간 제한을 적용할지 여부입니다. 기본값은 True입니다. Python 스크립트 파일(.py)에서 실행하는 경우 Windows에서 리소스 제한을 허용하는 설명서를 참조하세요. |
experiment_timeout_hours
필수
|
실험을 종료하기까지 모든 반복 조합에 소요되는 최대 시간(시간)입니다. 15분을 나타내는 0.25와 같은 10진수 값일 수 있습니다. 지정하지 않으면 기본 실험 시간 제한은 6일입니다. 시간 제한을 1시간 미만 또는 같게 지정하려면 데이터 세트의 크기가 10,000,000(행 시간 열) 또는 오류 결과보다 크지 않은지 확인합니다. |
experiment_exit_score
필수
|
실험의 대상 점수입니다. 이 점수에 도달하면 실험이 종료됩니다. 지정하지 않은 경우(조건 없음) 실험은 기본 메트릭에서 더 이상 진행되지 않을 때까지 실행됩니다. 종료 조건에 대한 자세한 내용은 이 문서를 참조하세요. |
enable_early_stopping
필수
|
점수가 단기적으로 개선되지 않는 경우 조기 종료를 사용하도록 설정할지 여부입니다. 기본값은 True입니다. 조기 중지 논리:
|
blocked_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
실험에 대해 무시할 알고리즘 목록입니다. False이면 |
blacklist_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
사용되지 않는 매개 변수는 대신 blocked_models 사용합니다. |
exclude_nan_labels
필수
|
레이블에 NaN 값이 있는 행을 제외할지 여부입니다. 기본값은 True입니다. |
verbosity
필수
|
로그 파일에 쓰기 위한 자세한 정보 수준입니다. 기본값은 INFO 또는 20입니다. 허용되는 값은 Python 로깅 라이브러리에 정의됩니다. |
enable_tf
필수
|
Tensorflow 알고리즘을 사용하거나 사용하지 않도록 설정하는 데 사용되지 않는 매개 변수입니다. 기본값은 False입니다. |
model_explainability
필수
|
모든 AutoML 학습 반복이 끝날 때 최상의 AutoML 모델을 설명할 수 있도록 설정할지 여부입니다. 기본값은 True입니다. 자세한 내용은 해석 가능성: 자동화된 기계 학습의 모델 설명을 참조하세요. |
allowed_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델이 지정된 |
whitelist_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
사용되지 않는 매개 변수는 대신 allowed_models 사용합니다. |
enable_onnx_compatible_models
필수
|
ONNX 호환 모델 적용을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 False입니다. ONNX(Open Neural Network Exchange) 및 Azure Machine Learning에 대한 자세한 내용은 이 문서를 참조 하세요. |
forecasting_parameters
필수
|
모든 예측 특정 매개 변수를 보유할 ForecastingParameters 개체입니다. |
time_column_name
필수
|
시간 열의 이름입니다. 이 매개 변수는 시계열을 빌드하고 해당 빈도를 유추하는 데 사용되는 입력 데이터의 날짜/시간 열을 지정하도록 예측할 때 필요합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
max_horizon
필수
|
시계열 빈도 단위로 원하는 최대 예측 수평선입니다. 기본값은 1입니다. 단위는 학습 데이터의 시간 간격(예: 예측자에서 예측해야 하는 월별, 매주)을 기반으로 합니다. 작업 유형이 예측되면 이 매개 변수가 필요합니다. 예측 매개 변수 설정에 대한 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
grain_column_names
필수
|
타임스레터를 그룹화하는 데 사용되는 열의 이름입니다. 여러 계열을 만드는 데 사용할 수 있습니다. 그레인이 정의되지 않은 경우 데이터 집합은 하나의 시계열로 간주됩니다. 이 매개 변수는 작업 유형 예측에 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
target_lags
필수
|
대상 열에서 지연할 지난 기간의 수입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. 예측 시 이 매개 변수는 데이터 빈도에 따라 대상 값을 지연할 행 수를 나타냅니다. 이 값은 목록 또는 단일 정수로 표시됩니다. 독립 변수와 의존 변수 간의 관계가 기본적으로 일치하지 않거나 상관 관계가 일치하지 않는 경우 지연을 사용해야 합니다. 예를 들어 제품에 대한 수요를 예측하려고 할 때 모든 월의 수요는 3개월 전의 특정 상품 가격에 따라 달라질 수 있습니다. 이 예제에서는 모델이 올바른 관계를 학습하도록 대상(수요)을 음수로 3개월 지연할 수 있습니다. 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요. |
feature_lags
필수
|
숫자 기능에 대한 지연을 생성하기 위한 플래그입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
target_rolling_window_size
필수
|
대상 열의 롤링 창 평균을 만드는 데 사용된 이전 기간의 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. 예측 시 이 매개 변수는 예측된 값 = 학습 집합 크기를 생성하는 데 사용할 <개의 기록 기간을 나타냅니다. 생략하면 n 은 전체 학습 집합 크기입니다. 모델을 학습할 때 일정량의 기록만 고려하려는 경우에만 이 매개 변수를 지정합니다. |
country_or_region
필수
|
휴일 기능을 생성하는 데 사용되는 국가/지역입니다. ISO 3166 두 글자 국가/지역 코드(예: 'US' 또는 'GB')여야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
use_stl
필수
|
시계열 대상 열의 STL 분해를 구성합니다. use_stl 세 가지 값을 사용할 수 있습니다. 없음(기본값) - stl 분해 없음, '시즌' - 시즌 구성 요소만 생성하고 season_trend - 시즌 및 추세 구성 요소를 모두 생성합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
seasonality
필수
|
시계열 계절성을 설정합니다. 계절성이 'auto'로 설정되면 유추됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
short_series_handling_configuration
필수
|
AutoML에서 짧은 시계열을 처리하는 방법을 정의하는 매개 변수입니다. 가능한 값은 'auto'(기본값), 'pad', 'drop' 및 None입니다.
날짜 numeric_value 문자열 대상 2020-01-01 23 녹색 55 최소 값 수가 4라고 가정하는 출력은 다음과 같습니다. 날짜 numeric_value 문자열 대상 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 녹색 55 메모: short_series_handling_configuration 두 개의 매개 변수와 레거시 short_series_handling 있습니다. 두 매개 변수가 모두 설정되면 아래 표와 같이 동기화됩니다(간결성을 위한 short_series_handling_configuration 및 short_series_handling 각각 handling_configuration 처리로 표시됨). 처리 handling_configuration 결과 처리 결과 handling_configuration 진실 자동 진실 자동 진실 패드 진실 자동 진실 방울 진실 자동 진실 없음 거짓 없음 거짓 자동 거짓 없음 거짓 패드 거짓 없음 거짓 방울 거짓 없음 거짓 없음 거짓 없음 |
freq
필수
|
예측 빈도입니다. 예측 시 이 매개 변수는 예측이 필요한 기간(예: 매일, 매주, 매년 등)을 나타냅니다. 예측 빈도는 기본적으로 데이터 세트 빈도입니다. 선택적으로 데이터 세트 빈도보다 크지만 작지 않은 값으로 설정할 수 있습니다. 데이터를 집계하고 예측 빈도로 결과를 생성합니다. 예를 들어 일별 데이터의 경우 빈도를 매일, 매주 또는 매월로 설정할 수 있지만 매시간은 설정할 수 없습니다. 빈도는 pandas 오프셋 별칭이어야 합니다. 자세한 내용은 pandas 설명서를 참조하세요. https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
필수
|
사용자가 지정한 빈도를 준수하도록 시계열 대상 열을 집계하는 데 사용할 함수입니다. target_aggregation_function 설정되었지만 freq 매개 변수가 설정되지 않은 경우 오류가 발생합니다. 가능한 대상 집계 함수는 "sum", "max", "min" 및 "mean"입니다. 주파수 target_aggregation_function 데이터 규칙 수정 메커니즘 없음(기본값) 없음(기본값) 집계가 적용되지 않습니다. 유효한 빈도가 잠정될 수 없는 경우 오류가 발생합니다. 일부 값 없음(기본값) 집계가 적용되지 않습니다. 지정된 빈도 그리드를 준수하는 데이터 포인트 수가 90개 미만이면%these 지점이 제거됩니다. 그렇지 않으면 오류가 발생합니다. 없음(기본값) 집계 함수 누락된 빈도 매개 변수에 대한 오류입니다. 일부 값 집계 함수 providedaggregation 함수를 사용하여 빈도로 집계합니다. |
enable_voting_ensemble
필수
|
VotingEnsemble 반복을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 True입니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요. |
enable_stack_ensemble
필수
|
StackEnsemble 반복을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 None입니다. enable_onnx_compatible_models 플래그가 설정되면 StackEnsemble 반복이 비활성화됩니다. 마찬가지로, Timeseries 작업의 경우 메타 학습자를 맞추는 데 사용되는 작은 학습 집합으로 인해 과잉 맞춤의 위험을 방지하기 위해 StackEnsemble 반복이 기본적으로 사용하지 않도록 설정됩니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요. |
debug_log
필수
|
디버그 정보를 쓸 로그 파일입니다. 지정하지 않으면 'automl.log'이 사용됩니다. |
training_data
필수
|
실험 내에서 사용할 학습 데이터입니다.
학습 기능과 레이블 열(선택적으로 샘플 가중치 열)을 모두 포함해야 합니다.
지정된
|
validation_data
필수
|
실험 내에서 사용할 유효성 검사 데이터입니다.
여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다.
|
test_data
필수
|
테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 사용할 테스트 데이터입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측을 고려하여 메트릭을 계산합니다. 이 매개 변수 또는 매개 변수를 |
test_size
필수
|
테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 대한 테스트 데이터에 대해 보유할 학습 데이터의 비율입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측을 고려하여 메트릭을 계산합니다. 이 값은 0.0에서 1.0 사이여야 합니다.
동시에 회귀 기반 작업의 경우 임의 샘플링이 사용됩니다. 분류 작업의 경우 계층화된 샘플링이 사용됩니다. 예측은 현재 학습/테스트 분할을 사용하여 테스트 데이터 세트를 지정하는 것을 지원하지 않습니다. 이 매개 변수 또는 매개 변수를 |
label_column_name
필수
|
레이블 열의 이름입니다. 입력 데이터가 pandas에서 온 경우 열 이름이 없는 DataFrame은 대신 열 인덱스를 정수로 표현하여 사용할 수 있습니다. 이 매개 변수는 매개 |
weight_column_name
필수
|
샘플 가중치 열의 이름입니다. 자동화된 ML은 가중 열을 입력으로 지원하여 데이터의 행에 가중치를 적용하거나 줄입니다. 입력 데이터가 pandas에서 온 경우 열 이름이 없는 DataFrame은 대신 열 인덱스를 정수로 표현하여 사용할 수 있습니다. 이 매개 변수는 매개 변수 및 |
cv_split_column_names
필수
|
사용자 지정 교차 유효성 검사 분할이 포함된 열의 이름 목록입니다. 각 CV 분할 열은 각 행이 학습에 대해 1로 표시되거나 유효성 검사를 위해 0으로 표시되는 하나의 CV 분할을 나타냅니다. 이 매개 변수는 사용자 지정 교차 유효성 검사를 위해 또는 |
enable_local_managed
필수
|
사용 안 함 매개 변수입니다. 현재는 로컬 관리형 실행을 사용할 수 없습니다. |
enable_dnn
필수
|
모델을 선택하는 동안 DNN 기반 모델을 포함할지 여부입니다. init의 기본값은 None입니다. 그러나 DNN NLP 태스크의 경우 기본값은 True이고 다른 모든 AutoML 작업에 대해서는 False입니다. |
task
필수
|
실행할 작업의 유형입니다. 해결할 자동화된 ML 문제의 유형에 따라 값은 '분류', '회귀' 또는 '예측'일 수 있습니다. |
path
필수
|
Azure Machine Learning 프로젝트 폴더의 전체 경로입니다. 지정하지 않으면 기본값은 현재 디렉터리 또는 "."를 사용하는 것입니다. |
iterations
필수
|
자동화된 ML 실험 중에 테스트할 다양한 알고리즘 및 매개 변수 조합의 총 수입니다. 지정하지 않으면 기본값은 1000 반복입니다. |
primary_metric
필수
|
자동화된 Machine Learning이 모델 선택에 최적화하는 메트릭입니다. 자동화된 Machine Learning은 최적화할 수 있는 것보다 더 많은 메트릭을 수집합니다. 지정된 작업에 대한 유효한 메트릭 목록을 가져오는 데 사용할 get_primary_metrics 수 있습니다. 메트릭을 계산하는 방법에 대한 자세한 내용은 다음을 참조하세요 https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. 지정하지 않으면 정확도가 분류 작업에 사용되고, 정규화된 루트 평균 제곱은 예측 및 회귀 작업에 사용되고, 정확도는 이미지 분류 및 이미지 다중 레이블 분류에 사용되며, 평균 정밀도는 이미지 개체 감지에 사용됩니다. |
positive_label
필수
|
자동화된 Machine Learning에서 이진 메트릭을 계산하는 데 사용할 양의 클래스 레이블입니다. 이진 메트릭은 분류 작업에 대한 두 가지 조건으로 계산됩니다.
분류에 대한 자세한 내용은 분류 시나리오에 대한 메트릭을 체크 아웃합니다. |
compute_target
필수
|
자동화된 Machine Learning 실험을 실행할 Azure Machine Learning 컴퓨팅 대상입니다. 컴퓨팅 대상에 대한 자세한 내용은 참조 https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote 하세요. |
spark_context
필수
|
<xref:SparkContext>
Spark 컨텍스트입니다. Azure Databricks/Spark 환경 내에서 사용하는 경우에만 적용됩니다. |
X
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 학습 기능입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 사용하고 label_column_name. |
y
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 학습 레이블입니다. 모델이 예측하는 값입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 training_data 사용하고 label_column_name. |
sample_weight
필수
|
피팅 파이프라인을 실행할 때 각 학습 샘플에 부여할 가중치이며, 각 행은 X 및 y 데이터의 행에 해당해야 합니다. 를 지정할 때 이 매개 변수를 지정합니다 |
X_valid
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 유효성 검사 기능입니다. 지정한 |
y_valid
필수
|
실험 중에 파이프라인을 맞추는 데 사용할 유효성 검사 레이블입니다. 둘 다 |
sample_weight_valid
필수
|
점수 매기기 파이프라인을 실행할 때 각 유효성 검사 샘플에 부여할 가중치이며, 각 행은 X 및 y 데이터의 행에 해당해야 합니다. 를 지정할 때 이 매개 변수를 지정합니다 |
cv_splits_indices
필수
|
교차 유효성 검사를 위해 학습 데이터를 분할할 위치의 인덱스입니다. 각 행은 별도의 교차 접기이며 각 크로스폴드 내에서 2개의 numpy 배열을 제공하고, 첫 번째는 학습 데이터에 사용할 샘플 인덱스를 제공하고, 두 번째 행은 유효성 검사 데이터에 사용할 인덱스를 제공합니다. 즉, [[t1, v1], [t2, v2], ...] 여기서 t1은 첫 번째 크로스 폴드에 대한 학습 인덱스이고 v1은 첫 번째 크로스 폴드에 대한 유효성 검사 인덱스입니다. 이 옵션은 데이터가 별도의 기능 데이터 세트 및 레이블 열로 전달될 때 지원됩니다. 기존 데이터를 유효성 검사 데이터 |
validation_size
필수
|
사용자 유효성 검사 데이터가 지정되지 않은 경우 유효성 검사를 위해 보류할 데이터의 소수입니다. 이 값은 0.0에서 1.0 사이여야 합니다. 유효성 검사 데이터를 제공하거나, 설정 |
n_cross_validations
필수
|
사용자 유효성 검사 데이터를 지정하지 않은 경우 수행할 교차 유효성 검사 수입니다. 유효성 검사 데이터를 제공하거나, 설정 |
y_min
필수
|
회귀 실험의 최소값은 y입니다. 입력 데이터 범위에 따라 테스트 집합 메트릭을 정규화하는 데 사용되는 조합 |
y_max
필수
|
회귀 실험의 최대값은 y입니다. 입력 데이터 범위에 따라 테스트 집합 메트릭을 정규화하는 데 사용되는 조합 |
num_classes
필수
|
분류 실험에 대한 레이블 데이터의 클래스 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 이 값은 데이터에서 계산됩니다. |
featurization
필수
|
기능화 단계를 자동으로 수행해야 하는지 여부 또는 사용자 지정된 기능화를 사용해야 하는지 여부에 대한 'auto' / 'off' / FeaturizationConfig 표시기입니다. 참고: 입력 데이터가 희소한 경우 기능화 설정을 켤 수 없습니다. 열 형식이 자동으로 검색됩니다. 검색된 열 형식 전처리/기능화에 따라 다음과 같이 수행됩니다.
자세한 내용은 Python에서 자동화된 ML 실험 구성 문서에서 찾을 수 있습니다. 기능화 단계를 사용자 지정하려면 FeaturizationConfig 개체를 제공합니다. 사용자 지정된 기능화는 현재 변환기 집합 차단, 열 용도 업데이트, 변환기 매개 변수 편집 및 열 삭제를 지원합니다. 자세한 내용은 기능 엔지니어링 사용자 지정을 참조하세요. 참고: 시간 표시 기능은 작업 유형이 이 매개 변수와 관계없이 예측으로 설정된 경우 별도로 처리됩니다. |
max_cores_per_iteration
필수
|
지정된 학습 반복에 사용할 최대 스레드 수입니다. 허용되는 값:
|
max_concurrent_iterations
필수
|
병렬로 실행될 최대 반복 수를 나타냅니다. 기본값은 1입니다.
|
iteration_timeout_minutes
필수
|
각 반복이 종료되기 전에 실행할 수 있는 최대 시간(분)입니다. 지정하지 않으면 1개월 또는 43200분 값이 사용됩니다. |
mem_in_mb
필수
|
각 반복이 종료되기 전에 실행할 수 있는 최대 메모리 사용량입니다. 지정하지 않으면 1PB 또는 1073741824 MB 값이 사용됩니다. |
enforce_time_on_windows
필수
|
Windows의 각 반복에서 모델 학습에 시간 제한을 적용할지 여부입니다. 기본값은 True입니다. Python 스크립트 파일(.py)에서 실행하는 경우 Windows에서 리소스 제한을 허용하는 설명서를 참조하세요. |
experiment_timeout_hours
필수
|
실험을 종료하기까지 모든 반복 조합에 소요되는 최대 시간(시간)입니다. 15분을 나타내는 0.25와 같은 10진수 값일 수 있습니다. 지정하지 않으면 기본 실험 시간 제한은 6일입니다. 시간 제한을 1시간 미만 또는 같게 지정하려면 데이터 세트의 크기가 10,000,000(행 시간 열) 또는 오류 결과보다 크지 않은지 확인합니다. |
experiment_exit_score
필수
|
실험의 대상 점수입니다. 이 점수에 도달하면 실험이 종료됩니다.
지정하지 않은 경우(조건 없음) 실험은 기본 메트릭에서 더 이상 진행되지 않을 때까지 실행됩니다. 종료 조건에 대한 자세한 내용은 이 >> |
enable_early_stopping
필수
|
점수가 단기적으로 개선되지 않는 경우 조기 종료를 사용하도록 설정할지 여부입니다. 기본값은 True입니다. 조기 중지 논리:
|
blocked_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
실험에 대해 무시할 알고리즘 목록입니다. False이면 |
blacklist_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
사용되지 않는 매개 변수는 대신 blocked_models 사용합니다. |
exclude_nan_labels
필수
|
레이블에 NaN 값이 있는 행을 제외할지 여부입니다. 기본값은 True입니다. |
verbosity
필수
|
로그 파일에 쓰기 위한 자세한 정보 수준입니다. 기본값은 INFO 또는 20입니다. 허용되는 값은 Python 로깅 라이브러리에 정의됩니다. |
enable_tf
필수
|
TensorFlow 알고리즘을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 False입니다. |
model_explainability
필수
|
모든 AutoML 학습 반복이 끝날 때 최상의 AutoML 모델을 설명할 수 있도록 설정할지 여부입니다. 기본값은 True입니다. 자세한 내용은 해석 가능성: 자동화된 기계 학습의 모델 설명을 참조하세요. |
allowed_models
필수
|
list(str) 또는
list(Classification) <xref:for classification task> 또는
list(Regression) <xref:for regression task> 또는
list(Forecasting) <xref:for forecasting task>
실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델이 지정된 |
allowed_models
필수
|
실험을 검색할 모델 이름 목록입니다. 지정하지 않으면 작업에 지원되는 모든 모델이 지정된 |
whitelist_models
필수
|
사용되지 않는 매개 변수는 대신 allowed_models 사용합니다. |
enable_onnx_compatible_models
필수
|
ONNX 호환 모델 적용을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 False입니다. ONNX(Open Neural Network Exchange) 및 Azure Machine Learning에 대한 자세한 내용은 이 문서를 참조 하세요. |
forecasting_parameters
필수
|
모든 예측 특정 매개 변수를 보유할 개체입니다. |
time_column_name
필수
|
시간 열의 이름입니다. 이 매개 변수는 시계열을 빌드하고 해당 빈도를 유추하는 데 사용되는 입력 데이터의 날짜/시간 열을 지정하도록 예측할 때 필요합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
max_horizon
필수
|
시계열 빈도 단위로 원하는 최대 예측 수평선입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. 단위는 학습 데이터의 시간 간격(예: 예측자에서 예측해야 하는 월별, 매주)을 기반으로 합니다. 작업 유형이 예측되면 이 매개 변수가 필요합니다. 예측 매개 변수 설정에 대한 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요. |
grain_column_names
필수
|
타임스레터를 그룹화하는 데 사용되는 열의 이름입니다. 여러 계열을 만드는 데 사용할 수 있습니다. 그레인이 정의되지 않은 경우 데이터 집합은 하나의 시계열로 간주됩니다. 이 매개 변수는 작업 유형 예측에 사용됩니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
target_lags
필수
|
대상 열에서 지연할 지난 기간의 수입니다. 기본값은 1입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. 예측 시 이 매개 변수는 데이터 빈도에 따라 대상 값을 지연할 행 수를 나타냅니다. 이 값은 목록 또는 단일 정수로 표시됩니다. 독립 변수와 의존 변수 간의 관계가 기본적으로 일치하지 않거나 상관 관계가 일치하지 않는 경우 지연을 사용해야 합니다. 예를 들어 제품에 대한 수요를 예측하려고 할 때 모든 월의 수요는 3개월 전의 특정 상품 가격에 따라 달라질 수 있습니다. 이 예제에서는 모델이 올바른 관계를 학습하도록 대상(수요)을 음수로 3개월 지연할 수 있습니다. 자세한 내용은 시계열 예측 모델 자동 학습을 참조하세요. |
feature_lags
필수
|
숫자 기능에 대한 지연을 생성하기 위한 플래그입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
target_rolling_window_size
필수
|
대상 열의 롤링 창 평균을 만드는 데 사용된 이전 기간의 수입니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. 예측 시 이 매개 변수는 예측된 값 = 학습 집합 크기를 생성하는 데 사용할 <개의 기록 기간을 나타냅니다. 생략하면 n 은 전체 학습 집합 크기입니다. 모델을 학습할 때 일정량의 기록만 고려하려는 경우에만 이 매개 변수를 지정합니다. |
country_or_region
필수
|
휴일 기능을 생성하는 데 사용되는 국가/지역입니다. ISO 3166 두 글자 국가/지역 코드(예: 'US' 또는 'GB')여야 합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
use_stl
필수
|
시계열 대상 열의 STL 분해를 구성합니다. use_stl 세 가지 값을 사용할 수 있습니다. 없음(기본값) - stl 분해 없음, '시즌' - 시즌 구성 요소만 생성하고 season_trend - 시즌 및 추세 구성 요소를 모두 생성합니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
seasonality
필수
|
시계열 계절성을 설정합니다. 계절성이 -1로 설정되면 유추됩니다. use_stl 설정되지 않은 경우 이 매개 변수는 사용되지 않습니다. 이 설정은 더 이상 사용되지 않습니다. 대신 forecasting_parameters 사용하세요. |
short_series_handling_configuration
필수
|
AutoML에서 짧은 시계열을 처리하는 방법을 정의하는 매개 변수입니다. 가능한 값은 'auto'(기본값), 'pad', 'drop' 및 None입니다.
날짜 numeric_value 문자열 대상 2020-01-01 23 녹색 55 최소 값 수가 4개라고 가정하는 출력: +————+—————+———-+—–+ | 날짜 | numeric_value | string | 대상 | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | 녹색 | 55 | +————+—————+———-+——–+ 메모: short_series_handling_configuration 두 개의 매개 변수와 레거시 short_series_handling 있습니다. 두 매개 변수가 모두 설정되면 아래 표와 같이 동기화됩니다(간결성을 위한 short_series_handling_configuration 및 short_series_handling 각각 handling_configuration 처리로 표시됨). 처리 handling_configuration 결과 처리 결과 handling_configuration 진실 자동 진실 자동 진실 패드 진실 자동 진실 방울 진실 자동 진실 없음 거짓 없음 거짓 자동 거짓 없음 거짓 패드 거짓 없음 거짓 방울 거짓 없음 거짓 없음 거짓 없음 |
freq
필수
|
예측 빈도입니다. 예측 시 이 매개 변수는 예측이 필요한 기간(예: 매일, 매주, 매년 등)을 나타냅니다. 예측 빈도는 기본적으로 데이터 세트 빈도입니다. 선택적으로 데이터 세트 빈도보다 크지만 작지 않은 값으로 설정할 수 있습니다. 데이터를 집계하고 예측 빈도로 결과를 생성합니다. 예를 들어 일별 데이터의 경우 빈도를 매일, 매주 또는 매월로 설정할 수 있지만 매시간은 설정할 수 없습니다. 빈도는 pandas 오프셋 별칭이어야 합니다. 자세한 내용은 pandas 설명서를 참조하세요. https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
필수
|
사용자가 지정한 빈도를 준수하도록 시계열 대상 열을 집계하는 데 사용할 함수입니다. target_aggregation_function 설정되었지만 freq 매개 변수가 설정되지 않은 경우 오류가 발생합니다. 가능한 대상 집계 함수는 "sum", "max", "min" 및 "mean"입니다. 주파수 target_aggregation_function 데이터 규칙 수정 메커니즘 없음(기본값) 없음(기본값) 집계가 적용되지 않습니다. 유효한 빈도가 잠정될 수 없는 경우 오류가 발생합니다. 일부 값 없음(기본값) 집계가 적용되지 않습니다. 지정된 빈도 그리드를 준수하는 데이터 포인트 수가 90개 미만이면%these 지점이 제거됩니다. 그렇지 않으면 오류가 발생합니다. 없음(기본값) 집계 함수 누락된 빈도 매개 변수에 대한 오류입니다. 일부 값 집계 함수 providedaggregation 함수를 사용하여 빈도로 집계합니다. |
enable_voting_ensemble
필수
|
VotingEnsemble 반복을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 True입니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요. |
enable_stack_ensemble
필수
|
StackEnsemble 반복을 사용하거나 사용하지 않도록 설정할지 여부입니다. 기본값은 None입니다. enable_onnx_compatible_models 플래그가 설정되면 StackEnsemble 반복이 비활성화됩니다. 마찬가지로, Timeseries 작업의 경우 메타 학습자를 맞추는 데 사용되는 작은 학습 집합으로 인해 과잉 맞춤의 위험을 방지하기 위해 StackEnsemble 반복이 기본적으로 사용하지 않도록 설정됩니다. 앙상블에 대한 자세한 내용은 앙상블 구성을 참조하세요. |
debug_log
필수
|
디버그 정보를 쓸 로그 파일입니다. 지정하지 않으면 'automl.log'이 사용됩니다. |
training_data
필수
|
실험 내에서 사용할 학습 데이터입니다.
학습 기능과 레이블 열(선택적으로 샘플 가중치 열)을 모두 포함해야 합니다.
지정된
|
validation_data
필수
|
실험 내에서 사용할 유효성 검사 데이터입니다.
여기에는 학습 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다.
|
test_data
필수
|
테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 사용할 테스트 데이터입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측을 고려하여 메트릭을 계산합니다. 이 매개 변수 또는 매개 변수를 |
test_size
필수
|
테스트 데이터 세트 또는 테스트 데이터 분할을 사용하는 모델 테스트 기능은 미리 보기 상태의 기능이며 언제든지 변경될 수 있습니다. 모델 학습이 완료된 후 자동으로 시작되는 테스트 실행에 대한 테스트 데이터에 대해 보유할 학습 데이터의 비율입니다. 테스트 실행은 최상의 모델을 사용하여 예측을 얻고 이러한 예측을 고려하여 메트릭을 계산합니다. 이 값은 0.0에서 1.0 사이여야 합니다.
동시에 회귀 기반 작업의 경우 임의 샘플링이 사용됩니다. 분류 작업의 경우 계층화된 샘플링이 사용됩니다. 예측은 현재 학습/테스트 분할을 사용하여 테스트 데이터 세트를 지정하는 것을 지원하지 않습니다. 이 매개 변수 또는 매개 변수를 |
label_column_name
필수
|
레이블 열의 이름입니다. 입력 데이터가 pandas에서 온 경우 열 이름이 없는 DataFrame은 대신 열 인덱스를 정수로 표현하여 사용할 수 있습니다. 이 매개 변수는 매개 |
weight_column_name
필수
|
샘플 가중치 열의 이름입니다. 자동화된 ML은 가중 열을 입력으로 지원하여 데이터의 행에 가중치를 적용하거나 줄입니다. 입력 데이터가 pandas에서 온 경우 열 이름이 없는 DataFrame은 대신 열 인덱스를 정수로 표현하여 사용할 수 있습니다. 이 매개 변수는 매개 변수 및 |
cv_split_column_names
필수
|
사용자 지정 교차 유효성 검사 분할이 포함된 열의 이름 목록입니다. 각 CV 분할 열은 각 행이 학습에 대해 1로 표시되거나 유효성 검사를 위해 0으로 표시되는 하나의 CV 분할을 나타냅니다. 이 매개 변수는 사용자 지정 교차 유효성 검사를 위해 또는 |
enable_local_managed
필수
|
사용 안 함 매개 변수입니다. 현재는 로컬 관리형 실행을 사용할 수 없습니다. |
enable_dnn
필수
|
모델을 선택하는 동안 DNN 기반 모델을 포함할지 여부입니다. init의 기본값은 None입니다. 그러나 DNN NLP 태스크의 경우 기본값은 True이고 다른 모든 AutoML 작업에 대해서는 False입니다. |
설명
다음 코드는 AutoMLConfig 개체를 만들고 회귀를 위한 실험을 제출하는 기본 예제를 보여 있습니다.
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
전체 샘플은 회귀에서 사용할 수 있습니다.
예측에 AutoMLConfig를 사용하는 예제는 다음 Notebook에 있습니다.
모든 작업 유형에 AutoMLConfig를 사용하는 예제는 이러한 자동화된 ML Notebook에서 찾을 수 있습니다.
자동화된 ML에 대한 배경 정보는 다음 문서를 참조하세요.
Python에서 자동화된 ML 실험을 구성합니다. 이 문서에서는 각 작업 유형에 사용되는 다양한 알고리즘 및 기본 메트릭에 대한 정보가 있습니다.
시계열 예측 모델을 자동으로 학습합니다. 이 문서에서는 예측에 사용되는 생성자 매개 변수
**kwargs
에 대한 정보가 있습니다.
자동화된 기계 학습, AutoML, 실험에 대한 학습/유효성 검사 데이터 분할 및 교차 유효성 검사를 구성하기 위한 다양한 옵션에 대한 자세한 내용은 자동화된 기계 학습에서 데이터 분할 및 교차 유효성 검사 구성을 참조하세요.
메서드
as_serializable_dict |
개체를 사전으로 변환합니다. |
get_supported_dataset_languages |
ISO 639-3에서 지원되는 언어 및 해당 언어 코드를 가져옵니다. |
as_serializable_dict
개체를 사전으로 변환합니다.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
ISO 639-3에서 지원되는 언어 및 해당 언어 코드를 가져옵니다.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
매개 변수
Name | Description |
---|---|
cls
필수
|
의 클래스 개체입니다 AutoMLConfig. |
use_gpu
필수
|
gpu 컴퓨팅이 사용되고 있는지 여부를 나타내는 부울입니다. |
반환
형식 | Description |
---|---|
{: }형식의 사전입니다. 언어 코드는 ISO 639-3 표준을 준수합니다. https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |