Finjustering av hyperparametrar

Databricks Runtime for Machine Learning använder Hyperopt, ett verktyg med öppen källkod som automatiserar processen för modellval och justering av hyperparametrar.

Hyperparameterjustering med Ray

Databricks Runtime ML innehåller Ray, ett ramverk med öppen källkod som specialiserat sig på parallell beräkningsbearbetning för skalning av ML-arbetsflöden och AI-program. Se Använda Ray på Azure Databricks.

Hyperparameterjustering med Hyperopt

Databricks Runtime ML inkluderar Hyperopt, ett Python-bibliotek som underlättar finjustering och val av modell för hyperparametrar. Med Hyperopt kan du genomsöka en uppsättning Python-modeller samtidigt som du använder olika algoritmer och hyperparametrar på utrymmen som du definierar. Hyperopt fungerar med både distribuerade ML-algoritmer som Apache Spark MLlib och Horovod, samt med ML-modeller för enskilda datorer som scikit-learn och TensorFlow.

Det här är de grundläggande stegen när du använder Hyperopt:

  1. Definiera en målfunktion att minimera. Vanligtvis är detta inlärning eller valideringsförlust.
  2. Definiera ett sökområde för hyperparameter. Hyperopt tillhandahåller ett villkorsstyrt sökutrymme som låter dig jämföra olika ML-algoritmer i samma körning.
  3. Ange sökalgoritmen. Hyperopt använder stokastiska finjusteringsalgoritmer för att utföra en effektivare sökning av hyperparametrarnas utrymme än deterministisk rutnätssökning.
  4. Kör Hyperopt-funktionen fmin(). fmin() tar de objekt som du definierade i föregående steg och identifierar uppsättningen av hyperparametrar som minimerar målfunktionen.

Läs följande artiklar för att snabbt komma igång med Hyperopt med hjälp av scikit-learn-algoritmer:

Mer information om hur Hyperopt fungerar och ytterligare exempel finns i följande artiklar:

Automatiserad MLflow-spårning

Kommentar

MLlib automatiserad MLflow-spårning är inaktuell och inaktiverad som standard på kluster som kör Databricks Runtime 10.4 LTS ML och senare. Använd i stället MLflow PySpark ML-automatisk loggning genom att anropa mlflow.pyspark.ml.autolog(), vilket är aktiverat som standard med Automatisk loggning av Databricks.

Om du vill använda den gamla MLlib-automatiserade MLflow-spårningen i Databricks Runtime 10.4 LTS ML och senare aktiverar du den genom att ange Spark-konfigurationernaspark.databricks.mlflow.trackMLlib.enabled true och spark.databricks.mlflow.autologging.enabled false.