Share via


Otimização de hiperparâmetros

O Databricks Runtime para Machine Learning incorpora o Hyperopt, uma ferramenta open source que automatiza o processo da seleção de modelos e de otimização de hiperparâmetros.

Ajuste de hiperparâmetros com Ray

O Databricks Runtime ML inclui o Ray, uma estrutura de código aberto especializada em processamento de computação paralela para dimensionar fluxos de trabalho de ML e aplicativos de IA. Consulte Usar o Ray no Azure Databricks.

Ajuste de hiperparâmetros com Hyperopt

O Databricks Runtime ML inclui o Hyperopt, uma biblioteca de Python que facilita o ajuste dos hiperparâmetros distribuído e a seleção de modelos. Com o Hyperopt, pode analisar um conjunto de modelos Python e variar os algoritmos e os hiperparâmetros em espaços que definir. O Hyperopt funciona com ambos os algoritmos de ML distribuídos, como o Apache Spark MLlib e o Horovod, bem como com modelos de ML de máquina individual, como scikit-learn e TensorFlow.

Os passos básicos ao utilizar o Hyperopt são:

  1. Definir uma função objetiva a minimizar. Regra geral, é a preparação ou a perda de validação.
  2. Definir o espaço de pesquisa do hiperparâmetro. O Hyperopt proporciona um espaço de pesquisa condicional, que lhe permite comparar diferentes algoritmos de ML na mesma execução.
  3. Especificar o algoritmo de pesquisa. O Hyperopt utiliza algoritmos de ajuste estocásticos que realizam uma pesquisa mais eficiente do espaço dos hiperparâmetros do que uma pesquisa de grelha determinística.
  4. Executar a função fmin() do Hyperopt. fmin() utiliza os itens que definiu nos passos anteriores e identifica o conjunto de hiperparâmetros que minimizam a função objetiva.

Para começar a utilizar o Hyperopt com algoritmos scikit-learn rapidamente, veja:

Para obter mais detalhes sobre o funcionamento do Hyperopt e ver mais exemplos, veja:

Controlo automatizado do MLflow

Nota

O rastreamento automatizado de MLflow MLlib é preterido e desabilitado por padrão em clusters que executam o Databricks Runtime 10.4 LTS ML e superior. Em vez disso, use o registro automático MLflow PySpark ML chamando mlflow.pyspark.ml.autolog(), que é habilitado por padrão com o Databricks Autologging.

Para usar o antigo MLlib automatizado MLflow tracking no Databricks Runtime 10.4 LTS ML e superior, habilite-o definindo as configurações do spark.databricks.mlflow.trackMLlib.enabled true Spark e .spark.databricks.mlflow.autologging.enabled false