AutoML Python API 참조

이 문서에서는 AutoML 실행을 분류, 회귀 및 예측하는 방법을 제공하는 AutoML Python API에 대해 설명합니다. 각 메서드 호출은 일련의 모델을 학습하고 각 모델에 대한 평가판 Notebook을 생성합니다.

로우코드 UI 옵션을 포함한 AutoML에 대한 자세한 내용은 AutoML이란?을 참조하세요.

분류

databricks.automl.classify 메서드는 분류 모델을 학습시키기 위해 AutoML 실행을 구성합니다.

참고

max_trials 매개 변수는 Databricks Runtime 10.4 ML에서 더 이상 사용되지 않으며 Databricks Runtime 11.0 ML 이상에서는 지원되지 않습니다. timeout_minutes를 사용하여 AutoML 실행 기간을 제어합니다.

databricks.automl.classify(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "f1",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  pos_label: Optional[Union[int, bool, str]] = None,                 # <DBR> 11.1 ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None                           # <DBR> 15.4 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

매개변수 분류

매개 변수 이름	유형	설명
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFramepyspark.sql.DataFrame`	학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
`target_col`	`str`	대상 레이블의 열 이름입니다.
`primary_metric`	`str`	모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse" 분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
`data_dir`	`str` 형식의 `dbfs:/<folder-name>`	선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
`experiment_dir`	`str`	선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 그룹에 할당된 컴퓨팅 리소스를 사용하는 경우 이 리소스를 그룹에 쓸 수 있는 권한이 있는 폴더로 설정합니다. 기본값: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다.
`exclude_cols`	`List[str]`	선택 사항. AutoML 계산 중에 무시할 열 목록입니다. 기본값: []
`exclude_frameworks`	`List[str]`	선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨)
`feature_store_lookups`	`List[Dict]`	선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: `table_name`(str): 필수입니다. 기능 테이블의 이름입니다. `lookup_key`(목록 또는 str): 필수입니다. `dataset` 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다. `timestamp_lookup_key`(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. `dataset` 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다. 기본값: []
`imputers`	`Dict[str, Union[str, Dict[str, Any]]]`	선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 사전(`{"strategy": "constant", "fill_value": <desired value>}`)으로 값을 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: `{"strategy": "mean"}`). 열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다. 기본값: {}
`pos_label`	`Union[int, bool, str]`	(분류만 해당) 양수 클래스입니다. 정밀도 및 재현율과 같은 메트릭을 계산하는 데 유용합니다. 이진 분류 문제에 대해서만 지정해야 합니다.
`time_col`	`str`	Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다. 선택 사항. 시간 열의 이름입니다. 제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다. 허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다. 열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
`split_col`	`str`	선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다. 허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
`sample_weight_col`	`str`	Databricks Runtime 15.4 ML 이상에서 분류 API 워크플로에 사용할 수 있습니다. 선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 분류는 클래스별 샘플 가중치를 지원합니다. 이러한 가중치는 모델 학습 중에 각 클래스의 중요성을 조정합니다. 클래스 내의 각 샘플은 동일한 샘플 가중치를 가져야 하며 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 클래스는 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 클래스의 가중치가 같은 것으로 간주됩니다.
`max_trials`	`int`	선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다. 기본값: 20 timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
`timeout_minutes`	`int`	선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

퇴보

databricks.automl.regress 메서드는 회귀 모델을 학습하도록 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다.

참고

databricks.automl.regress(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  primary_metric: str = "r2",
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,                             # <DBR> 10.4 LTS ML and above
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_cols: Optional[List[str]] = None,                         # <DBR> 10.3 ML and above
  exclude_frameworks: Optional[List[str]] = None,                   # <DBR> 10.3 ML and above
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 11.3 LTS ML and above
  imputers: Optional[Dict[str, Union[str, Dict[str, Any]]]] = None, # <DBR> 10.4 LTS ML and above
  time_col: Optional[str] = None,
  split_col: Optional[str] = None,                                  # <DBR> 15.3 ML and above
  sample_weight_col: Optional[str] = None,                          # <DBR> 15.3 ML and above
  max_trials: Optional[int] = None,                                 # <DBR> 10.5 ML and below
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

회귀 매개 변수

매개 변수 이름	유형	설명
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFramepyspark.sql.DataFrame`	학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “<database_name>.<table_name>” 또는 Unity 카탈로그가 아닌 테이블의 경우 “<schema_name>.<table_name>” 형식일 수 있습니다.
`target_col`	`str`	대상 레이블의 열 이름입니다.
`primary_metric`	`str`	모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 회귀에 지원되는 메트릭: "r2"(기본값), "mae", "rmse", "mse" 분류에 지원되는 메트릭: "f1"(기본값), "log_loss", "precision", "accuracy", "roc_auc"
`data_dir`	`str` 형식의 `dbfs:/<folder-name>`	선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
`experiment_dir`	`str`	선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 기본값: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다.
`exclude_cols`	`List[str]`	선택 사항. AutoML 계산 중에 무시할 열 목록입니다. 기본값: []
`exclude_frameworks`	`List[str]`	선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 "sklearn", "lightgbm", "xgboost" 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨)
`feature_store_lookups`	`List[Dict]`	선택 사항. 데이터 보강을 위한 Feature Store의 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: `table_name`(str): 필수입니다. 기능 테이블의 이름입니다. `lookup_key`(목록 또는 str): 필수입니다. `dataset` 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다. `timestamp_lookup_key`(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. `dataset` 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다. 기본값: []
`imputers`	`Dict[str, Union[str, Dict[str, Any]]]`	선택 사항. 각 키는 열 이름이고 각 값은 대치 전략을 설명하는 사전 또는 문자열인 사전입니다. 문자열로 지정된 경우 값은 "mean", "median" 또는 "most_frequent" 중 하나여야 합니다. 알려진 값으로 대치하려면 사전(`{"strategy": "constant", "fill_value": <desired value>}`)으로 값을 지정합니다. 문자열 옵션을 사전으로 지정할 수도 있습니다(예: `{"strategy": "mean"}`). 열에 대치 전략이 제공되지 않으면 AutoML은 열 형식과 콘텐츠에 따라 기본 전략을 선택합니다. 기본값이 아닌 대치 메서드를 지정하면 AutoML이 의미 체계 유형 검색을 수행하지 않습니다. 기본값: {}
`time_col`	`str`	Databricks Runtime 10.1 ML 이상에서 사용할 수 있습니다. 선택 사항. 시간 열의 이름입니다. 제공되는 경우 AutoML은 가장 이른 포인트를 학습 데이터로 사용하고 최신 포인트를 테스트 집합으로 사용하여 데이터 세트를 시간순으로 학습, 유효성 검사 및 테스트 집합으로 분할하려고 시도합니다. 허용되는 열 유형은 타임스탬프와 정수입니다. Databricks Runtime 10.2 ML 이상에서는 문자열 열도 지원됩니다. 열 유형이 문자열인 경우 AutoML은 의미 체계 검색을 사용하여 이를 타임스탬프로 변환하려고 시도합니다. 변환에 실패하면 AutoML 실행이 실패합니다.
`split_col`	`str`	선택 사항. 분할 열의 이름입니다. Databricks Runtime 15.3 ML 이상에서만 API 워크플로에 사용할 수 있습니다. 제공된 경우 AutoML은 사용자가 지정한 값을 사용하여 학습/유효성 검사/테스트 세트를 나누려고 시도하며 이 열은 학습 기능에서 자동으로 제외됩니다. 허용되는 열 형식은 문자열입니다. 이 열에 있는 각 항목의 값은 "train", "validate" 또는 "test" 중 하나여야 합니다.
`sample_weight_col`	`str`	Databricks Runtime 15.3 ML 이상에서 회귀 API 워크플로에 사용할 수 있습니다. 선택 사항. 각 행에 대한 샘플 가중치가 포함된 데이터 세트의 열 이름입니다. 이러한 가중치는 모델 학습 중에 각 행의 중요도를 조정합니다. 가중치는 0에서 10,000 사이의 음수가 아닌 실수 또는 정수 값이어야 합니다. 샘플 가중치가 더 높은 행은 더 중요한 것으로 간주되며 학습 알고리즘에 더 큰 영향을 줍니다. 이 열을 지정하지 않으면 모든 행의 가중치가 같은 것으로 간주됩니다.
`max_trials`	`int`	선택 사항. 실행할 최대 시도 횟수입니다. 이 매개 변수는 Databricks Runtime 10.5 ML 이하에서 사용할 수 있지만 Databricks Runtime 10.3 ML부터는 사용되지 않습니다. Databricks Runtime 11.0 ML 이상에서는 이 매개 변수가 지원되지 않습니다. 기본값: 20 timeout_minutes=None인 경우 AutoML은 최대 시도 횟수를 실행합니다.
`timeout_minutes`	`int`	선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

예측

databricks.automl.forecast 메서드는 예측 모델 학습을 위해 AutoML 실행을 구성합니다. 이 메서드는 AutoMLSummary를 반환합니다. Auto-ARIMA를 사용하려면 시계열이 규칙적인 빈도를 가져야 합니다(즉, 두 지점 사이의 간격이 시계열 전체에서 동일해야 함). 빈도는 API 호출에 지정된 빈도 단위와 일치해야 합니다. AutoML은 해당 값을 이전 값으로 채워 누락된 시간 단계를 처리합니다.

databricks.automl.forecast(
  dataset: Union[pyspark.sql.DataFrame, pandas.DataFrame, pyspark.pandas.DataFrame, str],
  *,
  target_col: str,
  time_col: str,
  primary_metric: str = "smape",
  country_code: str = "US",                                         # <DBR> 12.0 ML and above
  frequency: str = "D",
  horizon: int = 1,
  data_dir: Optional[str] = None,
  experiment_dir: Optional[str] = None,
  experiment_name: Optional[str] = None,                            # <DBR> 12.1 ML and above
  exclude_frameworks: Optional[List[str]] = None,
  feature_store_lookups: Optional[List[Dict]] = None,               # <DBR> 12.2 LTS ML and above
  identity_col: Optional[Union[str, List[str]]] = None,
  sample_weight_col: Optional[str] = None,                          # <DBR> 16.0 ML and above
  output_database: Optional[str] = None,                            # <DBR> 10.5 ML and above
  timeout_minutes: Optional[int] = None,
) -> AutoMLSummary

예측 매개 변수

매개 변수 이름	유형	설명
`dataset`	`str`, `pandas.DataFrame`, `pyspark.DataFramepyspark.sql.DataFrame`	학습 기능과 대상이 포함된 입력 테이블 이름 또는 DataFrame입니다. 테이블 이름은 “..” 형식으로 표현할 수 있습니다. 또는 “.” 비 Unity Catalog 테이블의 경우
`target_col`	`str`	대상 레이블의 열 이름입니다.
`time_col`	`str`	예측을 위한 시간 열의 이름입니다.
`primary_metric`	`str`	모델 성능을 평가하고 순위를 지정하는 데 사용되는 메트릭입니다. 지원되는 지표: “smape” (기본값), “mse”, “rmse”, “mae” 또는 “mdape”.
`country_code`	`str`	Databricks Runtime 12.0 ML 이상에서 사용할 수 있습니다. Prophet 예측 모델에서만 지원됩니다. 선택 사항. 예측 모델에서 사용해야 하는 국가의 휴일을 나타내는 두 글자 국가 코드입니다. 휴일을 무시하려면 이 매개 변수를 빈 문자열(“”)로 설정합니다. 지원되는 국가. 기본값: US(미국 휴일).
`frequency`	`str`	예측을 위한 시계열의 빈도입니다. 이벤트가 발생할 것으로 예상되는 기간입니다. 기본 설정은 "D" 또는 일일 데이터입니다. 데이터의 빈도가 다른 경우 이 설정을 변경해야 합니다. 가능한 값: "W"(주) “D” / “일” / “일” “시간” / “시간” / “시” / “시” “m” / “분” / “min” / “분” / “T” “S” / “초” / “초” / “초” 다음은 Databricks Runtime 12.0 ML 이상에서만 사용할 수 있습니다. "M" / "월" / "개월" “Q” / “분기” / “분기들” "Y" / "년" / "년" 기본값: "D"
`horizon`	`int`	예측이 반환되어야 하는 향후의 기간 수입니다. 단위는 시계열 주파수입니다. 기본값: 1
`data_dir`	`str` 형식의 `dbfs:/<folder-name>`	선택 사항. 학습 데이터 세트를 저장하는 데 사용되는 DBFS 경로입니다. 이 경로는 드라이버 및 작업자 노드 모두에 표시됩니다. Databricks는 AutoML이 학습 데이터 세트를 MLflow 아티팩트로 저장할 수 있도록 이 필드를 비워 두는 것을 권장합니다. 사용자 지정 경로가 지정된 경우 데이터 세트는 AutoML 실험의 액세스 권한을 상속하지 않습니다.
`experiment_dir`	`str`	선택 사항. 생성된 Notebooks 및 실험을 저장할 작업 영역의 디렉터리 경로입니다. 기본값: `/Users/<username>/databricks_automl/`
`experiment_name`	`str`	선택 사항. AutoML에서 만드는 MLflow 실험의 이름입니다. 기본값: 이름이 자동으로 생성됩니다.
`exclude_frameworks`	`List[str]`	선택 사항. AutoML이 모델을 개발할 때 고려해서는 안 되는 알고리즘 프레임워크 목록입니다. 가능한 값: 빈 목록 또는 “prophet”, “arima” 중 하나 이상입니다. 기본값: [](모든 프레임워크가 고려됨)
`feature_store_lookups`	`List[Dict]`	선택 사항. 공변량 데이터 보강을 위해 Feature Store에서 가져온 기능을 나타내는 사전 목록입니다. 각 사전의 유효한 키: `table_name`(str): 필수입니다. 기능 테이블의 이름입니다. `lookup_key`(목록 또는 str): 필수입니다. `dataset` 매개변수로 전달된 데이터와 기능 테이블을 조인할 때 키로 사용할 열 이름입니다. 열 이름의 순서는 기능 테이블의 기본 키 순서와 일치해야 합니다. `timestamp_lookup_key`(str): 지정된 테이블이 시계열 기능 테이블인 경우 필요합니다. `dataset` 매개 변수에 전달된 데이터를 사용하여 기능 테이블에서 지정 시간 조회를 수행할 때 사용할 열 이름입니다. 기본값: []
`identity_col`	`Union[str, list]`	선택 사항. 다중 시리즈 예측을 위한 시계열을 식별하는 열(들)입니다. AutoML은 이러한 열과 예측을 위한 시간 열을 기준으로 그룹화합니다.
`sample_weight_col`	`str`	Databricks Runtime 16.0 ML 이상에서 사용할 수 있습니다. 다중 시계열 워크플로에만 해당합니다. 선택 사항. 샘플 가중치가 포함된 데이터 세트의 열을 지정합니다. 이러한 가중치는 모델 학습 및 평가 중에 각 시계열의 상대적 중요도를 나타냅니다. 가중치가 더 높은 시계열은 모델에 더 큰 영향을 줍니다. 제공되지 않은 경우 모든 시계열은 동일한 가중치로 처리됩니다. 동일한 시계열에 속하는 모든 행의 가중치는 같아야 합니다. 가중치는 음수가 아닌 값(소수점 또는 정수)이어야 하며 0에서 10,000 사이여야 합니다.
`output_database`	`str`	선택 사항. 제공되는 경우 AutoML은 지정된 데이터베이스의 새 테이블에 가장 적합한 모델의 예측을 저장합니다. 기본값: 예측은 저장되지 않습니다.
`timeout_minutes`	`int`	선택 사항. AutoML 시도가 완료될 때까지 기다리는 최대 시간입니다. 시간 초과가 길수록 AutoML은 더 많이 시도하여 더 나은 정확도로 모델을 식별할 수 있습니다. 기본값: 120분 최소값: 5분 제한 시간이 너무 짧아서 하나 이상의 시도를 완료할 수 없으면 오류가 보고됩니다.

Notebook 가져오기

databricks.automl.import_notebook 메서드는 MLflow 아티팩트로 저장된 Notebook을 가져옵니다. 이 메서드는 ImportNotebookResult를 반환합니다.

databricks.automl.import_notebook(
  artifact_uri: str,
  path: str,
  overwrite: bool = False
) -> ImportNotebookResult:

매개 변수	유형	설명
`artifact_uri`	`str`	평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.
`path`	`str`	Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
`overwrite`	`bool`	Notebook이 이미 존재할 경우 이를 덮어쓸지 여부입니다. 기본값은 `False`입니다.

Notebook 가져오기 예제

summary = databricks.automl.classify(...)
result = databricks.automl.import_notebook(summary.trials[5].artifact_uri, "/Users/you@yourcompany.com/path/to/directory")
print(result.path)
print(result.url)

`AutoMLSummary`

각 시도에 대한 메트릭, 매개 변수 및 기타 세부 정보를 설명하는 AutoML 실행에 대한 요약 개체입니다. 또한 이 개체를 사용하여 특정 시도에서 학습된 모델을 로드합니다.

속성	유형	설명
`experiment`	`mlflow.entities.Experiment`	시도를 기록하는 데 사용되는 MLflow 실험입니다.
`trials`	`List[TrialInfo]`	실행된 모든 시도에 대한 정보를 포함하는 TrialInfo 개체의 목록입니다.
`best_trial`	`TrialInfo`	기본 메트릭에 대해 최고의 가중치 점수를 얻은 시도에 대한 정보를 포함하는 TrialInfo 개체입니다.
`metric_distribution`	`str`	모든 시도에서 기본 메트릭에 대한 가중 점수 분포입니다.
`output_table_name`	`str`	output_database가 제공된 경우에만 예측과 함께 사용됩니다. 모델의 예측을 포함하는 output_database 테이블의 이름입니다.

`TrialInfo`

각 개별 시도에 대한 요약 개요입니다.

속성	유형	설명
`notebook_path`	`Optional[str]`	작업 공간에서 이 실험을 위해 생성된 Notebook의 경로입니다. 분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 `None`으로 설정됩니다. 예측의 경우 이 값은 모든 시도에 대해 존재합니다.
`notebook_url`	`Optional[str]`	이 시험에 대해 생성된 노트북의 URL입니다. 분류 및 회귀의 경우, 이 값은 최적의 시도에 대해서만 설정되며 다른 모든 시도의 경우 값은 `None`으로 설정됩니다. 예측의 경우 이 값은 모든 시도에 대해 존재합니다.
`artifact_uri`	`Optional[str]`	생성된 Notebook의 MLflow 아티팩트 URI입니다.
`mlflow_run_id`	`str`	이 시험 실행과 연결된 MLflow 실행 ID입니다.
`metrics`	`Dict[str, float]`	이 평가판에 대해 MLflow에 기록된 메트릭입니다.
`params`	`Dict[str, str]`	이 평가판에 사용된 MLflow에 기록된 매개 변수입니다.
`model_path`	`str`	이 시도에서 학습된 모델의 MLflow 아티팩트 URL입니다.
`model_description`	`str`	이 모델을 학습하는 데 사용되는 모델 및 하이퍼 매개 변수에 대한 간략한 설명입니다.
`duration`	`str`	학습 기간(분).
`preprocessors`	`str`	모델을 학습하기 전에 실행되는 전처리기에 대한 설명입니다.
`evaluation_metric_score`	`float`	유효성 검사 데이터 세트에 대해 평가된 기본 메트릭의 점수입니다.

TrialInfo에는 해당 시도에서 생성된 모델을 로드하는 메서드가 있습니다.

메서드	설명
`load_model()`	MLflow 아티팩트로 기록된 이 시도에서 생성된 모델을 로드합니다.

`ImportNotebookResult`

속성	유형	설명
`path`	`str`	Notebook을 가져와야 하는 Databricks 작업 영역 내 경로입니다. 이 항목은 절대 경로여야 합니다. 디렉터리가 존재하지 않으면 자동으로 생성됩니다.
`url`	`str`	평가판 Notebook을 포함하는 MLflow 아티팩트 URI입니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-11-21

다음을 통해 공유

AutoML Python API 참조

분류

매개변수 분류

퇴보

회귀 매개 변수

예측

예측 매개 변수

Notebook 가져오기

Notebook 가져오기 예제

AutoMLSummary

TrialInfo

ImportNotebookResult

피드백

추가 리소스

`AutoMLSummary`

`TrialInfo`

`ImportNotebookResult`