다음을 통해 공유


Mosaic AutoML Python API 참조

이 문서에서는 분류, 회귀 및 AutoML 실행 예측을 시작하는 메서드를 제공하는 Mosaic AutoML Python API에 대해 설명합니다. 각 메서드 호출은 일련의 모델을 학습하고 각 모델에 대한 평가판 Notebook을 생성합니다.

낮은 코드 UI 옵션을 포함하여 Mosaic AutoML에 대한 자세한 내용은 모자이크 AutoML이란?을 참조하세요.

분류

이 메서드는 databricks.automl.classify 분류 모델을 학습하도록 Mosaic AutoML 실행을 구성합니다.

참고 항목

max_trials 매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes를 사용하여 AutoML 실행 기간을 제어합니다.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

Classify 매개 변수

매개 변수 이름 Type 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
target_col str 대상 레이블의 열 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.

회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse"

분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.

Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.

사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다.

기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.

기본값: 이름이 자동으로 생성됩니다.
exclude_cols List[str] 선택 사항. AutoML 계산 중에 무시할 열 목록입니다.

기본값: []
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다.

기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:

- table_name (str): 필수. 기능 테이블의 이름입니다.
- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
imputers Dict[str, Union[str, Dict[str, Any]]] 선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 값을 사전({"strategy": "constant", "fill_value": <desired value>})으로 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"}).

열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.

기본값: {}
pos_label Union[int, bool, str] (분류만 해당) 양수 클래스입니다. 정밀도 및 재현율과 같은 메트릭을 계산하는 데 유용합니다. 이진 분류 문제에 대해서만 지정해야 합니다.
time_col str Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다.

선택 사항. 시간 열의 이름입니다.

제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다.

허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다.

열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
split_col str 선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다.

허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
sample_weight_col str Databricks Runtime 15.4 ML 이상에서 분류 API 워크플로에 사용할 수 있습니다.

선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 분류는 클래스별 샘플 가중치를 지원합니다. 이러한 가중치는 모델 학습 중에 각 클래스의 중요성을 조정합니다. 클래스 내의 각 샘플은 동일한 샘플 가중치를 가져야 하며 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 클래스는 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 클래스의 가중치가 같은 것으로 간주됩니다.
max_trials int 선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다.

기본값: 20

timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.

기본값: 120분

최소값: 5분

제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

복귀

databricks.automl.regress 메서드는 회귀 모델을 학습하도록 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다.

참고 항목

max_trials 매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes를 사용하여 AutoML 실행 기간을 제어합니다.

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

회귀 매개 변수

매개 변수 이름 Type 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
target_col str 대상 레이블의 열 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.

회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse"

분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.

Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.

사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다.

기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.

기본값: 이름이 자동으로 생성됩니다.
exclude_cols List[str] 선택 사항. AutoML 계산 중에 무시할 열 목록입니다.

기본값: []
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다.

기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:

- table_name (str): 필수. 기능 테이블의 이름입니다.
- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
imputers Dict[str, Union[str, Dict[str, Any]]] 선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 값을 사전({"strategy": "constant", "fill_value": <desired value>})으로 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: {"strategy": "mean"}).

열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다.

기본값: {}
time_col str Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다.

선택 사항. 시간 열의 이름입니다.

제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다.

허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다.

열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
split_col str 선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다.

허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
sample_weight_col str Databricks Runtime 15.3 ML 이상에서 회귀 API 워크플로에 사용할 수 있습니다.

선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 이러한 가중치는 모델 학습 중에 각 행의 중요도를 조정합니다. 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 행은 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 행의 가중치가 같은 것으로 간주됩니다.
max_trials int 선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다.

기본값: 20

timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.

기본값: 120분

최소값: 5분

제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

예측

databricks.automl.forecast 메서드는 예측 모델 학습을 위해 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다. Auto-ARIMA를 사용하려면 시계열이 규칙적인 빈도를 가져야 합니다(즉, 두 지점 사이의 간격이 시계열 전체에서 동일해야 함). 빈도는 API 호출에 지정된 빈도 단위와 일치해야 합니다. AutoML은 해당 값을 이전 값으로 채워 누락된 시간 단계를 처리합니다.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

예측 매개 변수

매개 변수 이름 Type 설명
dataset str, pandas.DataFrame, pyspark.DataFramepyspark.sql.DataFrame 학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다.

테이블 이름은 “..” 또는 Unity 카탈로그가 아닌 경우 “.” 형식일 수 있습니다.
target_col str 대상 레이블의 열 이름입니다.
time_col str 예측을 위한 시간 열의 이름입니다.
primary_metric str 모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다.

지원되는 메트릭: “smape” (기본값), “mse”, “rmse”, “mae”, or “mdape”.
country_code str Databricks Runtime 12.0 ML 이상에서 사용할 수 있습니다. Prophet 예측 모델에서만 지원됩니다.

선택 사항. 예측 모델에서 사용해야 하는 국가의 휴일을 나타내는 두 글자로 된 국가 코드입니다. 휴일을 무시하려면 이 매개 변수를 빈 문자열(“”)로 설정합니다.

지원되는 국가.

기본값: US(미국 휴일).
frequency str 예측을 위한 시계열의 빈도입니다. 이벤트가 발생할 것으로 예상되는 기간입니다. 기본 설정은 "D" 또는 일일 데이터입니다. 데이터의 빈도가 다른 경우 이 설정을 변경해야 합니다.

가능한 값:

"W"(주)

“D” / “days” / “day”

“hours” / “hour” / “hr” / “h”

“m” / “minute” / “min” / “minutes” / “T”

“S” / “seconds” / “sec” / “second”

다음은 Databricks Runtime 12.0 ML 이상에서만 사용할 수 있습니다.

“M” / “month” / “months”

“Q” / “quarter” / “quarters”

“Y” / “year” / “years”

기본값: "D"
horizon int 예측이 반환되어야 하는 향후의 기간 수입니다.

단위는 시계열 주파수입니다.

기본값: 1
data_dir str 형식의 dbfs:/<folder-name> 선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다.

Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다.

사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
experiment_dir str 선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다.

기본값: /Users/<username>/databricks_automl/
experiment_name str 선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다.

기본값: 이름이 자동으로 생성됩니다.
exclude_frameworks List[str] 선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 “prophet”, “arima” 중 하나 이상입니다.

기본값: [](모든 프레임워크가 고려됨)
feature_store_lookups List[Dict] 선택 사항. 공변량 데이터 보강을 위해 Feature Store에서 가져온 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키:

- table_name (str): 필수. 기능 테이블의 이름입니다.
- lookup_key (list 또는 str): 필수. dataset 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다.
- timestamp_lookup_key (str): 지정된 테이블이 시계열 기능 테이블인 경우 필수입니다. dataset 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다.

기본값: []
identity_col Union[str, list] 선택 사항. 다중 시리즈 예측을 위한 시계열을 식별하는 열입니다. AutoML은 이러한 열과 예측을 위한 시간 열을 기준으로 그룹화합니다.
sample_weight_col str Databricks Runtime 16.0 ML 이상에서 사용할 수 있습니다. 다중 시계열 워크플로에만 해당합니다.

선택 사항. 샘플 가중치가 포함된 데이터 세트의 열을 지정합니다. 이러한 가중치는 모델 학습 및 평가 중에 각 시계열의 상대적 중요도를 나타냅니다.

가중치가 더 높은 시계열은 모델에 더 큰 영향을 줍니다. 제공되지 않은 경우 모든 시계열은 동일한 가중치로 처리됩니다.

동일한 시계열에 속하는 모든 행의 가중치는 같아야 합니다.

가중치는 음수가 아닌 값(소수점 또는 정수)이어야 하며 0에서 10,000 사이여야 합니다.
output_database str 선택 사항. 제공되는 경우 AutoML은 지정된 데이터베이스의 새 테이블에 가장 적합한 모델의 예측을 저장합니다.

기본값: 예측은 저장되지 않습니다.
timeout_minutes int 선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다.

기본값: 120분

최소값: 5분

제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

Notebook 가져오기

databricks.automl.import_notebook 메서드는 MLflow 아티팩트로 저장된 Notebook을 가져옵니다. 이 메서드는 ImportNotebookResult를 반환합니다.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:
매개 변수 Type 설명
artifact_uri str 평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.
path str Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
overwrite bool Notebook이 이미 존재할 경우 이를 덮어쓸지 여부입니다. 기본값은 False입니다.

Notebook 가져오기 예제

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

AutoMLSummary

각 시도에 대한 메트릭, 매개 변수 및 기타 세부 정보를 설명하는 AutoML 실행에 대한 요약 개체입니다. 또한 이 개체를 사용하여 특정 시도에서 학습된 모델을 로드합니다.

속성 Type 설명
experiment mlflow.entities.Experiment 시도를 기록하는 데 사용되는 MLflow 실험입니다.
trials List[TrialInfo] 실행된 모든 시도에 대한 정보를 포함하는 TrialInfo 개체의 목록입니다.
best_trial TrialInfo 기본 메트릭에 대해 최고의 가중치 점수를 얻은 시도에 대한 정보를 포함하는 TrialInfo 개체입니다.
metric_distribution str 모든 시도에서 기본 메트릭에 대한 가중 점수 분포입니다.
output_table_name str output_database가 제공된 경우에만 예측과 함께 사용됩니다.

모델의 예측을 포함하는 output_database의 테이블 이름입니다.

TrialInfo

각 개별 시도에 대한 요약 개체입니다.

속성 Type 설명
notebook_path Optional[str] 작업 영역에서 이 평가판에 대해 생성된 Notebook의 경로입니다.

분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None으로 설정됩니다.

예측의 경우 이 값은 모든 시도에 대해 존재합니다.
notebook_url Optional[str] 이 평가판에 대해 생성된 Notebook의 URL입니다.

분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 None으로 설정됩니다.

예측의 경우 이 값은 모든 시도에 대해 존재합니다.
artifact_uri Optional[str] 생성된 Notebook의 MLflow 아티팩트 URI입니다.
mlflow_run_id str 이 시험 실행과 연결된 MLflow 실행 ID입니다.
metrics Dict[str, float] 이 평가판에 대해 MLflow에 기록된 메트릭입니다.
params Dict[str, str] 이 평가판에 사용된 MLflow에 기록된 매개 변수입니다.
model_path str 이 시도에서 학습된 모델의 MLflow 아티팩트 URL입니다.
model_description str 이 모델을 학습하는 데 사용되는 모델 및 하이퍼 매개 변수에 대한 간략한 설명입니다.
duration str 학습 기간(분).
preprocessors str 모델을 학습하기 전에 실행되는 전처리기에 대한 설명입니다.
evaluation_metric_score float 유효성 검사 데이터 세트에 대해 평가된 기본 메트릭의 점수입니다.

TrialInfo에는 해당 시도에서 생성된 모델을 로드하는 메서드가 있습니다.

메서드 설명
load_model() MLflow 아티팩트로 기록된 이 시도에서 생성된 모델을 로드합니다.

ImportNotebookResult

속성 Type 설명
path str Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
url str 평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.