Justering av hyperparametrar

Databricks Runtime for Machine Learning innehåller Hyperopt, ett öppen källkod verktyg som automatiserar processen för modellval och justering av hyperparametrar.

Justering av hyperparameter med Hyperopt

Databricks Runtime ML inkluderar Hyperopt, ett Python-bibliotek som underlättar finjustering och val av modell för hyperparametrar. Med Hyperopt kan du genomsöka en uppsättning Python-modeller samtidigt som du använder olika algoritmer och hyperparametrar på utrymmen som du definierar. Hyperopt fungerar med både distribuerade ML-algoritmer som Apache Spark MLlib och Horovod, samt med ML-modeller för enskilda datorer som scikit-learn och TensorFlow.

Det här är de grundläggande stegen när du använder Hyperopt:

  1. Definiera en målfunktion att minimera. Vanligtvis är detta inlärning eller valideringsförlust.
  2. Definiera ett sökområde för hyperparameter. Hyperopt tillhandahåller ett villkorsstyrt sökutrymme som låter dig jämföra olika ML-algoritmer i samma körning.
  3. Ange sökalgoritmen. Hyperopt använder stokastiska finjusteringsalgoritmer för att utföra en effektivare sökning av hyperparametrarnas utrymme än deterministisk rutnätssökning.
  4. Kör Hyperopt-funktionen fmin(). fmin() tar de objekt som du definierade i föregående steg och identifierar uppsättningen av hyperparametrar som minimerar målfunktionen.

Läs följande artiklar för att snabbt komma igång med Hyperopt med hjälp av scikit-learn-algoritmer:

Mer information om hur Hyperopt fungerar och ytterligare exempel finns i följande artiklar:

Automatiserad MLflow-spårning

Anteckning

MLlib automatiserad MLflow-spårning är inaktuell på kluster som kör Databricks Runtime 10.1 ML och senare, och det är inaktiverat som standard på kluster som kör Databricks Runtime 10.2 ML och senare. Använd i stället automatisk MLflow PySpark ML-loggning genom att anropa mlflow.pyspark.ml.autolog(), vilket är aktiverat som standard med Databricks Autologging.

Om du vill använda den gamla MLlib-automatiserade MLflow-spårningen i Databricks Runtime 10.2 ML och senare aktiverar du den genom att ange Spark-konfigurationernaspark.databricks.mlflow.trackMLlib.enabled true och spark.databricks.mlflow.autologging.enabled false.