하이퍼 매개 변수 조정

Machine Learning용 Databricks Runtime에는 모델 선택 및 하이퍼 매개 변수 튜닝 프로세스를 자동화하는 오픈 소스 도구인 Hyperopt가 포함되어 있습니다.

Ray를 사용하여 하이퍼 매개 변수 튜닝

Databricks Runtime ML에는 ML 워크플로 및 AI 애플리케이션의 크기를 조정하기 위한 병렬 컴퓨팅 처리를 전문으로 하는 오픈 소스 프레임워크인 Ray가 포함되어 있습니다. Azure Databricks에서 Ray 사용을 참조 하세요.

Hyperopt를 사용하여 하이퍼 매개 변수 튜닝

Databricks Runtime ML에는 분산 하이퍼 매개 변수 튜닝 및 모델 선택을 용이하게 하는 Python 라이브러리인 Hyperopt가 포함되어 있습니다. Hyperopt를 사용하면 정의한 공간에서 알고리즘 및 하이퍼 매개 변수를 다양하게 유지하면서 Python 모델 집합을 검색할 수 있습니다. Hyperopt는 Apache Spark MLlib 및 Horovod와 같은 분산 ML 알고리즘과 scikit-learn 및 TensorFlow와 같은 단일 머신 ML 모델 모두에서 작동합니다.

Hyperopt를 사용하는 경우 기본 단계는 다음과 같습니다.

  1. 최소화할 목표 함수를 정의합니다. 일반적으로 학습 또는 유효성 검사 손실입니다.
  2. 하이퍼 매개 변수 검색 공간을 정의합니다. Hyperopt는 조건부 검색 공간을 제공하므로 동일한 실행에서 다른 ML 알고리즘을 비교할 수 있습니다.
  3. 검색 알고리즘을 지정합니다. Hyperopt는 결정적 그리드 검색보다 하이퍼 매개 변수 공간을 보다 효율적으로 검색하는 확률적 튜닝 알고리즘을 사용합니다.
  4. Hyperopt 함수 fmin()를 실행합니다. fmin()은 이전 단계에서 정의한 항목을 선택하고 목표 함수를 최소화하는 하이퍼 매개 변수 집합을 식별합니다.

scikit-learn 알고리즘과 함께 Hyperopt을 빠르게 사용하려면 다음을 참조하세요.

Hyperopt 작동 방식 및 추가 예제에 대한 자세한 내용은 다음을 참조하세요.

자동화된 MLflow 추적

참고 항목

MLlib 자동화 MLflow 추적은 Databricks Runtime 10.4 LTS ML 이상을 실행하는 클러스터에서 기본적으로 사용되지 않으며 사용하지 않도록 설정됩니다. 대신 Databricks Autologging과 함께 기본적으로 사용하도록 설정되는 mlflow.pyspark.ml.autolog()를 호출하여 MLflow PySpark ML 자동 로깅을 사용합니다.

Databricks Runtime 10.4 LTS ML 이상에서 이전 MLlib 자동화 MLflow 추적을 사용하려면 Spark 구성spark.databricks.mlflow.trackMLlib.enabled truespark.databricks.mlflow.autologging.enabled false설정하고 사용하도록 설정합니다.