Condividi tramite


Che cos'è AutoML?

Databricks AutoML semplifica il processo di applicazione di Machine Learning ai set di dati individuando automaticamente l'algoritmo e la configurazione degli iperparametri migliori.

Specificare il set di dati e specificare il tipo di problema di Machine Learning, quindi AutoML esegue le operazioni seguenti:

  1. Pulisce e prepara i dati.
  2. Orchestra il training del modello distribuito e l'ottimizzazione degli iperparametri tra più algoritmi.
  3. Trova il modello migliore usando algoritmi di valutazione open source di scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
  4. Presenta i risultati. AutoML genera anche notebook di codice sorgente per ogni versione di valutazione, consentendo di esaminare, riprodurre e modificare il codice in base alle esigenze.

Introduzione agli esperimenti AutoML tramite un'interfaccia utente con poco codice o l'API Python.

Fabbisogno

  • Databricks Runtime 9.1 ML o versione successiva. Per la versione disponibile a livello generale, Databricks Runtime 10.4 LTS ML o versione successiva.
    • Per la previsione di serie temporali, Databricks Runtime 10.0 ML o versione successiva.
    • Con Databricks Runtime 9.1 LTS ML e versioni successive, AutoML dipende dal databricks-automl-runtime pacchetto, che contiene componenti utili all'esterno di AutoML e semplifica anche i notebook generati dal training AutoML. databricks-automl-runtime è disponibile in PyPI.
  • Nel cluster non devono essere installate librerie aggiuntive diverse da quelle preinstallate in Databricks Runtime per Machine Learning.
    • Qualsiasi modifica (rimozione, aggiornamento o downgrade) a versioni della libreria esistenti causa errori di esecuzione a causa di incompatibilità.
  • AutoML non è compatibile con i cluster in modalità di accesso condiviso.
  • Per usare Il catalogo Unity con AutoML, la modalità di accesso al cluster deve essere Utente singolo ed è necessario essere l'utente singolo designato del cluster.
  • Per accedere ai file nell'area di lavoro, è necessario avere porte di rete 1017 e 1021 aperte per gli esperimenti AutoML. Per aprire queste porte o verificare che siano aperte, esaminare la configurazione del firewall VPN cloud e le regole del gruppo di sicurezza oppure contattare l'amministratore cloud locale. Per altre informazioni sulla configurazione e la distribuzione dell'area di lavoro, vedere Creare un'area di lavoro.

Algoritmi AutoML

Databricks AutoML esegue il training e valuta i modelli in base agli algoritmi nella tabella seguente.

Nota

Per i modelli di classificazione e regressione, l'albero delle decisioni, le foreste casuali, la regressione logistica e la regressione lineare con algoritmi di discesa del gradiente stocastico sono basati su scikit-learn.

Modelli di classificazione Modelli di regressione Modelli di previsione
Alberi delle decisioni Alberi delle decisioni Prophet
Foreste casuali Foreste casuali Auto-ARIMA (disponibile in Databricks Runtime 10.3 ML e versioni successive).
Regressione logistica Regressione lineare con discesa sfumata stocastica
XGBoost XGBoost
LightGBM LightGBM

Generazione di notebook di valutazione

AutoML genera notebook del code-behind delle versioni di valutazione del codice sorgente per poter esaminare, riprodurre e modificare il codice in base alle esigenze.

Per gli esperimenti di previsione, i notebook generati automaticamente da AutoML vengono importati automaticamente nell'area di lavoro per tutte le versioni di valutazione dell'esperimento.

Per gli esperimenti di classificazione e regressione, i notebook generati da AutoML per l'esplorazione dei dati e la versione di valutazione ottimale nell'esperimento vengono importati automaticamente nell'area di lavoro. I notebook generati per altre versioni di valutazione dell'esperimento vengono salvati come artefatti MLflow in DBFS anziché importati automaticamente nell'area di lavoro. Per tutte le versioni di valutazione oltre alla versione di valutazione migliore, notebook_path e notebook_url nell'API TrialInfo Python non sono impostate. Se è necessario usare questi notebook, è possibile importarli manualmente nell'area di lavoro con l'interfaccia utente dell'esperimento AutoML o l'API databricks.automl.import_notebook Python.

Se si usa solo il notebook di esplorazione dei dati o il notebook di valutazione migliore generato da AutoML, la colonna Origine nell'interfaccia utente dell'esperimento AutoML contiene il collegamento al notebook generato per la versione di valutazione migliore.

Se si usano altri notebook generati nell'interfaccia utente dell'esperimento AutoML, questi non vengono importati automaticamente nell'area di lavoro. È possibile trovare i notebook facendo clic su ogni esecuzione di MLflow. Il notebook IPython viene salvato nella sezione Artifacts della pagina di esecuzione. È possibile scaricare questo notebook e importarlo nell'area di lavoro, se il download degli artefatti è abilitato dagli amministratori dell'area di lavoro.

Valori shapley (SHAP) per la spiegazione del modello

Nota

Per MLR 11.1 e versioni successive, i tracciati SHAP non vengono generati se il set di dati contiene una datetime colonna.

I notebook prodotti dalla regressione AutoML e dalle esecuzioni di classificazione includono il codice per calcolare i valori Shapley. I valori shapley sono basati sulla teoria del gioco e stimano l'importanza di ogni funzionalità per le stime di un modello.

I notebook AutoML calcolano i valori Shapley usando il pacchetto SHAP. Poiché questi calcoli sono a elevato utilizzo di memoria, i calcoli non vengono eseguiti per impostazione predefinita.

Per calcolare e visualizzare i valori shapley:

  1. Passare alla sezione Importanza funzionalità in un notebook di valutazione generato da AutoML.
  2. Impostare shap_enabled = True.
  3. Eseguire nuovamente il notebook.

Passaggi successivi