다음을 통해 공유


AutoML Python API 참조

이 문서에서는 AutoML 실행을 분류, 회귀 및 예측하는 방법을 제공하는 AutoML Python API에 대해 설명합니다. 각 메서드 호출은 일련의 모델을 학습하고 각 모델에 대한 평가판 Notebook을 생성합니다.

로우코드 UI 옵션을 포함한 AutoML에 대한 자세한 내용은 AutoML이란?을 참조하세요.

분류

databricks.automl.classify 메서드는 분류 모델을 학습시키기 위해 AutoML 실행을 구성합니다.

참고

max_trials 매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes를 사용하여 AutoML 실행 기간을 제어합니다.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

매개변수 분류

매개 변수 이름 유형 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
target_col str 대상 레이블의 열 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.
회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse"
분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.
Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.
사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 그룹에 할당된 컴퓨팅 리소스를 사용하는 경우 이 리소스를 그룹에 쓸 수 있는 권한이 있는 폴더로 설정합니다.
기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.
기본값: 이름이 자동으로 생성됩니다.
exclude_cols List[str] 선택 사항. AutoML 계산 중에 무시할 열 목록입니다.
기본값: []
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다.
기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:
  • table_name(str): 필수입니다. 기능 테이블의 이름입니다.
  • lookup_key(목록 또는 str): 필수입니다. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
  • timestamp_lookup_key(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
imputers Dict[str, Union[str, Dict[str, Any]]] 선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 사전({"strategy": "constant", "fill_value": <desired value>})으로 값을 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"}).
열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.
기본값: {}
pos_label Union[int, bool, str] (분류만 해당) 양수 클래스입니다. 정밀도 및 재현율과 같은 메트릭을 계산하는 데 유용합니다. 이진 분류 문제에 대해서만 지정해야 합니다.
time_col str Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다.
선택 사항. 시간 열의 이름입니다.
제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다.
허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다.
열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
split_col str 선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다.
허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
sample_weight_col str Databricks Runtime 15.4 ML 이상에서 분류 API 워크플로에 사용할 수 있습니다.
선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 분류는 클래스별 샘플 가중치를 지원합니다. 이러한 가중치는 모델 학습 중에 각 클래스의 중요성을 조정합니다. 클래스 내의 각 샘플은 동일한 샘플 가중치를 가져야 하며 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 클래스는 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 클래스의 가중치가 같은 것으로 간주됩니다.
max_trials int 선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다.
기본값: 20
timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.
기본값: 120분
최소값: 5분
제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

퇴보

databricks.automl.regress 메서드는 회귀 모델을 학습하도록 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다.

참고

max_trials 매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes를 사용하여 AutoML 실행 기간을 제어합니다.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

회귀 매개 변수

매개 변수 이름 유형 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
target_col str 대상 레이블의 열 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.
회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse"
분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.
Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.
사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다.
기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.
기본값: 이름이 자동으로 생성됩니다.
exclude_cols List[str] 선택 사항. AutoML 계산 중에 무시할 열 목록입니다.
기본값: []
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다.
기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:
  • table_name(str): 필수입니다. 기능 테이블의 이름입니다.
  • lookup_key(목록 또는 str): 필수입니다. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
  • timestamp_lookup_key(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
imputers Dict[str, Union[str, Dict[str, Any]]] 선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 사전({"strategy": "constant", "fill_value": <desired value>})으로 값을 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"}).
열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.
기본값: {}
time_col str Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다.
선택 사항. 시간 열의 이름입니다.
제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다.
허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다.
열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
split_col str 선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다.
허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
sample_weight_col str Databricks Runtime 15.3 ML 이상에서 회귀 API 워크플로에 사용할 수 있습니다.
선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 이러한 가중치는 모델 학습 중에 각 행의 중요도를 조정합니다. 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 행은 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 행의 가중치가 같은 것으로 간주됩니다.
max_trials int 선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다.
기본값: 20
timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.
기본값: 120분
최소값: 5분
제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

예측

databricks.automl.forecast 메서드는 예측 모델 학습을 위해 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다. Auto-ARIMA를 사용하려면 시계열이 규칙적인 빈도를 가져야 합니다(즉, 두 지점 사이의 간격이 시계열 전체에서 동일해야 함). 빈도는 API 호출에 지정된 빈도 단위와 일치해야 합니다. AutoML은 해당 값을 이전 값으로 채워 누락된 시간 단계를 처리합니다.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

예측 매개 변수

매개 변수 이름 유형 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다.
테이블 이름은 “..” 형식으로 표현할 수 있습니다. 또는 “.” 비 Unity Catalog 테이블의 경우
target_col str 대상 레이블의 열 이름입니다.
time_col str 예측을 위한 시간 열의 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.
지원되는 지표: “smape” (기본값), “mse”, “rmse”, “mae” 또는 “mdape”.
country_code str Databricks Runtime 12.0 ML 이상에서 사용할 수 있습니다. Prophet 예측 모델에서만 지원됩니다.
선택 사항. 예측 모델에서 사용해야 하는 국가의 휴일을 나타내는 두 글자 국가 코드입니다. 휴일을 무시하려면 이 매개 변수를 빈 문자열(“”)로 설정합니다.
지원되는 국가.
기본값: US(미국 휴일).
frequency str 예측을 위한 시계열의 빈도입니다. 이벤트가 발생할 것으로 예상되는 기간입니다. 기본 설정은 "D" 또는 일일 데이터입니다. 데이터의 빈도가 다른 경우 이 설정을 변경해야 합니다.
가능한 값:
"W"(주)
“D” / “일” / “일”
“시간” / “시간” / “시” / “시”
“m” / “분” / “min” / “분” / “T”
“S” / “초” / “초” / “초”
다음은 Databricks Runtime 12.0 ML 이상에서만 사용할 수 있습니다.
"M" / "월" / "개월"
“Q” / “분기” / “분기들”
"Y" / "년" / "년"
기본값: "D"
horizon int 예측이 반환되어야 하는 향후의 기간 수입니다.
단위는 시계열 주파수입니다.
기본값: 1
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.
Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.
사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다.
기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.
기본값: 이름이 자동으로 생성됩니다.
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 “prophet”, “arima” 중 하나 이상입니다.
기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 공변량 데이터 보강을 위해 Feature Store에서 가져온 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:
  • table_name(str): 필수입니다. 기능 테이블의 이름입니다.
  • lookup_key(목록 또는 str): 필수입니다. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
  • timestamp_lookup_key(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
identity_col Union[str, list] 선택 사항. 다중 시리즈 예측을 위한 시계열을 식별하는 열(들)입니다. AutoML은 이러한 열과 예측을 위한 시간 열을 기준으로 그룹화합니다.
sample_weight_col str Databricks Runtime 16.0 ML 이상에서 사용할 수 있습니다. 다중 시계열 워크플로에만 해당합니다.
선택 사항. 샘플 가중치가 포함된 데이터 세트의 열을 지정합니다. 이러한 가중치는 모델 학습 및 평가 중에 각 시계열의 상대적 중요도를 나타냅니다.
가중치가 더 높은 시계열은 모델에 더 큰 영향을 줍니다. 제공되지 않은 경우 모든 시계열은 동일한 가중치로 처리됩니다.
동일한 시계열에 속하는 모든 행의 가중치는 같아야 합니다.
가중치는 음수가 아닌 값(소수점 또는 정수)이어야 하며 0에서 10,000 사이여야 합니다.
output_database str 선택 사항. 제공되는 경우 AutoML은 지정된 데이터베이스의 새 테이블에 가장 적합한 모델의 예측을 저장합니다.
기본값: 예측은 저장되지 않습니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.
기본값: 120분
최소값: 5분
제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

Notebook 가져오기

databricks.automl.import_notebook 메서드는 MLflow 아티팩트로 저장된 Notebook을 가져옵니다. 이 메서드는 ImportNotebookResult를 반환합니다.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
매개 변수 유형 설명
artifact_uri str 평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.
path str Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
overwrite bool Notebook이 이미 존재할 경우 이를 덮어쓸지 여부입니다. 기본값은 False입니다.

Notebook 가져오기 예제

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

각 시도에 대한 메트릭, 매개 변수 및 기타 세부 정보를 설명하는 AutoML 실행에 대한 요약 개체입니다. 또한 이 개체를 사용하여 특정 시도에서 학습된 모델을 로드합니다.

속성 유형 설명
experiment mlflow.entities.Experiment 시도를 기록하는 데 사용되는 MLflow 실험입니다.
trials List[TrialInfo] 실행된 모든 시도에 대한 정보를 포함하는 TrialInfo 개체의 목록입니다.
best_trial TrialInfo 기본 메트릭에 대해 최고의 가중치 점수를 얻은 시도에 대한 정보를 포함하는 TrialInfo 개체입니다.
metric_distribution str 모든 시도에서 기본 메트릭에 대한 가중 점수 분포입니다.
output_table_name str output_database가 제공된 경우에만 예측과 함께 사용됩니다.
모델의 예측을 포함하는 output_database 테이블의 이름입니다.

TrialInfo

각 개별 시도에 대한 요약 개요입니다.

속성 유형 설명
notebook_path Optional[str] 작업 공간에서 이 실험을 위해 생성된 Notebook의 경로입니다.
분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None으로 설정됩니다.
예측의 경우 이 값은 모든 시도에 대해 존재합니다.
notebook_url Optional[str] 이 시험에 대해 생성된 노트북의 URL입니다.
분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None으로 설정됩니다.
예측의 경우 이 값은 모든 시도에 대해 존재합니다.
artifact_uri Optional[str] 생성된 Notebook의 MLflow 아티팩트 URI입니다.
mlflow_run_id str 이 시험 실행과 연결된 MLflow 실행 ID입니다.
metrics Dict[str, float] 이 평가판에 대해 MLflow에 기록된 메트릭입니다.
params Dict[str, str] 이 평가판에 사용된 MLflow에 기록된 매개 변수입니다.
model_path str 이 시도에서 학습된 모델의 MLflow 아티팩트 URL입니다.
model_description str 이 모델을 학습하는 데 사용되는 모델 및 하이퍼 매개 변수에 대한 간략한 설명입니다.
duration str 학습 기간(분).
preprocessors str 모델을 학습하기 전에 실행되는 전처리기에 대한 설명입니다.
evaluation_metric_score float 유효성 검사 데이터 세트에 대해 평가된 기본 메트릭의 점수입니다.

TrialInfo에는 해당 시도에서 생성된 모델을 로드하는 메서드가 있습니다.

메서드 설명
load_model() MLflow 아티팩트로 기록된 이 시도에서 생성된 모델을 로드합니다.

ImportNotebookResult

속성 유형 설명
path str Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
url str 평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.