azureml.train.automl.automlconfig.AutoMLConfig class - Azure Machine Learning Python

task: str oppure Tasks

Necessario

Tipo di attività da eseguire. I valori possono essere "classificazione", "regressione" o "previsione" a seconda del tipo di problema di Machine Learning automatizzato da risolvere.

path: str

Necessario

Percorso completo della cartella del progetto di Azure Machine Learning. Se non specificato, il valore predefinito consiste nell'usare la directory corrente o ".".

iterations: int

Necessario

Numero totale di combinazioni di algoritmi e parametri diversi da testare durante un esperimento di Machine Learning automatizzato. Se non specificato, il valore predefinito è 1000 iterazioni.

primary_metric: str oppure Metric

Necessario

Metrica ottimizzata da Machine Learning automatizzato per la selezione del modello. Machine Learning automatizzato raccoglie più metriche di quanto possa essere ottimizzato. È possibile usare get_primary_metrics per ottenere un elenco di metriche valide per l'attività specificata. Per altre informazioni sul modo in cui vengono calcolate le metriche, vedere https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Se non specificato, l'accuratezza viene usata per le attività di classificazione, per le attività di previsione e regressione viene usata la precisione per la classificazione delle immagini e la classificazione con più etichette immagine e per la precisione media media viene usata per il rilevamento degli oggetti immagine.

positive_label: Any

Necessario

Etichetta di classe positiva con cui verrà usato Machine Learning automatizzato per calcolare le metriche binarie. Le metriche binarie vengono calcolate in due condizioni per le attività di classificazione:

La colonna label è costituita da due classi che indicano che l'attività di classificazione binaria AutoML userà la classe positiva specificata quando positive_label viene passato, altrimenti AutoML selezionerà una classe positiva in base al valore codificato dell'etichetta.
attività di classificazione multiclasse con positive_label specificato

Per altre informazioni sulla classificazione, vedere le metriche di estrazione per gli scenari di classificazione.

compute_target: AbstractComputeTarget

Necessario

Destinazione di calcolo di Azure Machine Learning in cui eseguire l'esperimento di Machine Learning automatizzato. Per altre informazioni sulle destinazioni di calcolo, vedere https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote .

spark_context: <xref:SparkContext>

Necessario

Contesto spark. Applicabile solo se usato all'interno dell'ambiente Azure Databricks/Spark.

X: DataFrame oppure ndarray oppure Dataset oppure TabularDataset

Necessario

Le funzionalità di training da usare durante l'adattamento delle pipeline durante un esperimento. Questa impostazione è deprecata. Usare invece training_data e label_column_name.

y: DataFrame oppure ndarray oppure Dataset oppure TabularDataset

Necessario

Etichette di training da usare durante l'adattamento delle pipeline durante un esperimento. Questo è il valore che verrà stimato dal modello. Questa impostazione è deprecata. Usare invece training_data e label_column_name.

sample_weight: DataFrame oppure ndarray oppure TabularDataset

Necessario

Il peso da assegnare a ogni campione di training durante l'esecuzione di pipeline di adattamento, ogni riga deve corrispondere a una riga in dati X e y.

Specificare questo parametro quando si Xspecifica . Questa impostazione è deprecata. Usare invece training_data e weight_column_name.

X_valid: DataFrame oppure ndarray oppure Dataset oppure TabularDataset

Necessario

Funzionalità di convalida da usare durante l'adattamento delle pipeline durante un esperimento.

Se specificato, y_valid è necessario specificare anche o sample_weight_valid . Questa impostazione è deprecata. Usare invece validation_data e label_column_name.

y_valid: DataFrame oppure ndarray oppure Dataset oppure TabularDataset

Necessario

Etichette di convalida da usare durante l'adattamento delle pipeline durante un esperimento.

Sia che X_validy_valid devono essere specificati insieme. Questa impostazione è deprecata. Usare invece validation_data e label_column_name.

sample_weight_valid: DataFrame oppure ndarray oppure TabularDataset

Necessario

Il peso da assegnare a ogni campione di convalida durante l'esecuzione di pipeline di assegnazione dei punteggi, ogni riga deve corrispondere a una riga in dati X e y.

Specificare questo parametro quando si X_validspecifica . Questa impostazione è deprecata. Usare invece validation_data e weight_column_name.

cv_splits_indices: List[List[ndarray]]

Necessario

Indici in cui suddividere i dati di training per la convalida incrociata. Ogni riga è una piega incrociata separata e all'interno di ogni crossfold, forniscono 2 matrici numpy, la prima con gli indici per i campioni da usare per i dati di training e la seconda con gli indici da usare per i dati di convalida. ad esempio [[t1, v1], [t2, v2], ...] dove t1 è gli indici di training per la prima piega incrociata e v1 è l'indice di convalida per la prima piega incrociata.

Per specificare i dati esistenti come dati di convalida, usare validation_data. Per consentire invece a AutoML di estrarre i dati di convalida dai dati di training, specificare n_cross_validations o validation_size. Usare cv_split_column_names se sono presenti colonne di convalida incrociata in training_data.

validation_size: float

Necessario

Frazione dei dati da mantenere per la convalida quando i dati di convalida utente non sono specificati. Deve essere compreso tra 0,0 e 1,0 non inclusi.

Specificare validation_data per fornire i dati di convalida, in caso contrario impostare n_cross_validations o validation_size estrarre i dati di convalida dai dati di training specificati. Per la riduzione della convalida incrociata personalizzata, usare cv_split_column_names.

Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

n_cross_validations: int

Necessario

Numero di convalide incrociate da eseguire quando i dati di convalida utente non sono specificati.

Specificare validation_data per fornire i dati di convalida, in caso contrario impostare n_cross_validations o validation_size estrarre i dati di convalida dai dati di training specificati. Per la riduzione della convalida incrociata personalizzata, usare cv_split_column_names.

Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

y_min: float

Necessario

Valore minimo di y per un esperimento di regressione. La combinazione di e y_max viene usata per normalizzare le metriche del set di y_min test in base all'intervallo di dati di input. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

y_max: float

Necessario

Valore massimo di y per un esperimento di regressione. La combinazione di e y_max viene usata per normalizzare le metriche del set di y_min test in base all'intervallo di dati di input. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

num_classes: int

Necessario

Numero di classi nei dati delle etichette per un esperimento di classificazione. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

featurization: str oppure FeaturizationConfig

Necessario

'auto' / 'off' / FeaturizationConfig Indicator per stabilire se il passaggio di definizione delle caratteristiche deve essere eseguito automaticamente o meno o se è necessario usare la definizione delle caratteristiche personalizzate. Nota: se i dati di input sono di tipo sparse, la definizione delle caratteristiche non può essere attivata.

Il tipo di colonna viene rilevato automaticamente. In base alla pre-elaborazione/definizione delle caratteristiche del tipo di colonna rilevata, viene eseguita come segue:

Categorico: codifica di destinazione, una codifica ad accesso frequente, eliminare categorie di cardinalità elevate, imputare i valori mancanti.
Numerico: imputa valori mancanti, distanza del cluster, peso dell'evidenza.
DateTime: diverse funzionalità, ad esempio giorno, secondi, minuti, ore e così via.
Testo: contenitore di parole, Word con training preliminare, codifica di destinazione del testo.

Per altre informazioni, vedere l'articolo Configurare esperimenti di Machine Learning automatizzato in Python.

Per personalizzare il passaggio della definizione delle caratteristiche, specificare un oggetto FeaturizationConfig. La funzionalità personalizzata supporta attualmente il blocco di un set di trasformatori, l'aggiornamento dello scopo della colonna, la modifica dei parametri del trasformatore e l'eliminazione di colonne. Per altre informazioni, vedere Personalizzare la progettazione delle funzionalità.

Nota: le funzionalità timeseries vengono gestite separatamente quando il tipo di attività è impostato per prevedere indipendentemente da questo parametro.

max_cores_per_iteration: int

Necessario

Numero massimo di thread da usare per una determinata iterazione di training. Valori accettabili:

Maggiore di 1 e minore o uguale al numero massimo di core nella destinazione di calcolo.
Uguale a -1, ovvero usare tutti i core possibili per ogni iterazione per ogni esecuzione figlio.
Uguale a 1, valore predefinito.

max_concurrent_iterations: int

Necessario

Rappresenta il numero massimo di iterazioni che verrebbero eseguite in parallelo. Il valore predefinito è 1.

I cluster AmlCompute supportano un'interazione in esecuzione per ogni nodo. Per più esecuzioni padre dell'esperimento AutoML eseguite in parallelo in un singolo cluster AmlCompute, la somma dei max_concurrent_iterations valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi. In caso contrario, le esecuzioni verranno accodate finché i nodi non saranno disponibili.
DSVM supporta più iterazioni per nodo. max_concurrent_iterations deve essere minore o uguale al numero di core nella DSVM. Per più esperimenti eseguiti in parallelo in una singola DSVM, la somma dei max_concurrent_iterations valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.
Databricks: max_concurrent_iterations deve essere minore o uguale al numero di nodi di lavoro in Databricks.

max_concurrent_iterations non si applica alle esecuzioni locali. In precedenza, questo parametro era denominato concurrent_iterations.

iteration_timeout_minutes: int

Necessario

Tempo massimo in minuti per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene utilizzato un valore di 1 mese o 43200 minuti.

mem_in_mb: int

Necessario

Utilizzo massimo della memoria per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene utilizzato un valore pari a 1 PB o 1073741824 MB.

enforce_time_on_windows: bool

Necessario

Indica se applicare un limite di tempo al training del modello a ogni iterazione in Windows. Il valore predefinito è True. Se si esegue da un file di script Python (con estensione py), vedere la documentazione per consentire i limiti delle risorse in Windows.

experiment_timeout_hours: float

Necessario

Quantità massima di tempo, in ore, che tutte le iterazioni combinate possono impiegare prima che l'esperimento venga terminato. Può essere un valore decimale come 0,25 che rappresenta 15 minuti. Se non specificato, il timeout predefinito dell'esperimento è di 6 giorni. Per specificare un timeout minore o uguale a 1 ora, assicurarsi che le dimensioni del set di dati non siano maggiori di 10.000.000 (colonne di righe) o i risultati di un errore.

experiment_exit_score: float

Necessario

Punteggio di destinazione per l'esperimento. L'esperimento termina dopo il raggiungimento di questo punteggio. Se non viene specificato (nessun criterio), l'esperimento viene eseguito fino a quando non viene eseguito alcun ulteriore progresso sulla metrica primaria. Per altre informazioni sui criteri di uscita, vedere questo articolo.

enable_early_stopping: bool

Necessario

Indica se abilitare la terminazione anticipata se il punteggio non migliora a breve termine. Il valore predefinito è True.

Logica di arresto anticipato:

Nessuna sosta anticipata per le prime 20 iterazioni (punti di riferimento).
La finestra di arresto anticipato inizia la 21a iterazione e cerca early_stopping_n_iters iterazioni

(attualmente impostato su 10). Ciò significa che la prima iterazione in cui può verificarsi l'arresto è la 31.
AutoML pianifica ancora 2 iterazioni di ensemble DOPO l'arresto anticipato, il che potrebbe causare

punteggi più alti.
L'arresto anticipato viene attivato se il valore assoluto del punteggio migliore calcolato è lo stesso per il passato

early_stopping_n_iters iterazioni, vale a dire se non esiste alcun miglioramento del punteggio per le iterazioni early_stopping_n_iters.

blocked_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Elenco di algoritmi da ignorare per un esperimento. Se enable_tf è False, i modelli TensorFlow sono inclusi in blocked_models.

blacklist_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Il parametro deprecato usa invece blocked_models.

exclude_nan_labels: bool

Necessario

Indica se escludere righe con valori NaN nell'etichetta. Il valore predefinito è True.

verbosity: int

Necessario

Livello di dettaglio per la scrittura nel file di log. Il valore predefinito è INFO o 20. I valori accettabili sono definiti nella libreria di registrazione Python.

enable_tf: bool

Necessario

Parametro deprecato per abilitare/disabilitare gli algoritmi Tensorflow. Il valore predefinito è False.

model_explainability: bool

Necessario

Indica se abilitare la spiegazione del modello AutoML migliore alla fine di tutte le iterazioni di training di AutoML. Il valore predefinito è True. Per altre informazioni, vedere Interpretabilità: spiegazioni dei modelli in Machine Learning automatizzato.

allowed_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Elenco di nomi di modello da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno gli eventuali modelli specificati nei blocked_models modelli TensorFlow o deprecati. I modelli supportati per ogni tipo di attività sono descritti nella SupportedModels classe .

whitelist_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Il parametro deprecato usa invece allowed_models.

enable_onnx_compatible_models: bool

Necessario

Indica se abilitare o disabilitare l'applicazione dei modelli compatibili con ONNX. Il valore predefinito è False. Per altre informazioni su Open Neural Network Exchange (ONNX) e Azure Machine Learning, vedere questo articolo.

forecasting_parameters: ForecastingParameters

Necessario

Oggetto ForecastingParameters per contenere tutti i parametri specifici della previsione.

time_column_name: str

Necessario

Nome della colonna temporale. Questo parametro è necessario quando si prevede di specificare la colonna datetime nei dati di input usati per compilare la serie temporale e dedurre la relativa frequenza. Questa impostazione è deprecata. Usare invece forecasting_parameters.

max_horizon: int

Necessario

Orizzonte di previsione massimo desiderato in unità di frequenza delle serie temporali. Il valore predefinito è 1.

Le unità sono basate sull'intervallo di tempo dei dati di training, ad esempio mensile, settimanale che il forecaster deve prevedere. Quando si prevede il tipo di attività, questo parametro è obbligatorio. Per altre informazioni sull'impostazione dei parametri di previsione, vedere Eseguire il training automatico di un modello di previsione delle serie temporali. Questa impostazione è deprecata. Usare invece forecasting_parameters.

grain_column_names: str oppure list(str)

Necessario

Nomi delle colonne utilizzate per raggruppare un intervallo di tempo. Può essere usato per creare più serie. Se la granularità non è definita, si presuppone che il set di dati sia una serie temporale. Questo parametro viene usato con la previsione del tipo di attività. Questa impostazione è deprecata. Usare invece forecasting_parameters.

target_lags: int oppure list(int)

Necessario

Numero di periodi precedenti di ritardo dalla colonna di destinazione. Il valore predefinito è 1. Questa impostazione è deprecata. Usare invece forecasting_parameters.

Durante la previsione, questo parametro rappresenta il numero di righe per il ritardo dei valori di destinazione in base alla frequenza dei dati. Questo valore è rappresentato come un elenco o un singolo numero intero. Il ritardo deve essere usato quando la relazione tra le variabili indipendenti e la variabile dipendente non corrispondono o correlate per impostazione predefinita. Ad esempio, quando si tenta di prevedere la richiesta di un prodotto, la richiesta per un mese specifico può dipendere dal prezzo di determinati prodotti nei tre mesi precedenti. In questo esempio, è possibile che si voglia ritardare la destinazione (richiesta) negativamente di tre mesi, in modo che il modello sia in grado di eseguire il training sulla relazione corretta. Per altre informazioni, vedere Eseguire il training automatico di un modello di previsione delle serie temporali.

feature_lags: str

Necessario

Flag per la generazione di ritardi per le funzionalità numeriche. Questa impostazione è deprecata. Usare invece forecasting_parameters.

target_rolling_window_size: int

Necessario

Numero di periodi passati usati per creare una media della finestra mobile della colonna di destinazione. Questa impostazione è deprecata. Usare invece forecasting_parameters.

Durante la previsione, questo parametro rappresenta n periodi cronologici da usare per generare valori previsti, <= dimensioni del set di training. Se omesso, n è la dimensione massima del set di training. Specificare questo parametro quando si vuole considerare solo una certa quantità di dati cronologici durante il training del modello.

country_or_region: str

Necessario

Paese/area geografica utilizzata per generare le funzionalità delle festività. Devono essere codice paese/area geografica ISO 3166 a due lettere, ad esempio "US" o "GB". Questa impostazione è deprecata. Usare invece forecasting_parameters.

use_stl: str

Necessario

Configurare la scomposizione STL della colonna di destinazione della serie temporale. use_stl può accettare tre valori: Nessuno (impostazione predefinita) - nessuna stl decomposition, 'season' - genera solo componente stagione e season_trend - genera componenti di stagione e di tendenza. Questa impostazione è deprecata. Usare invece forecasting_parameters.

seasonality: int oppure str

Necessario

Impostare la stagionalità delle serie temporali. Se la stagionalità è impostata su "auto", verrà dedotta. Questa impostazione è deprecata. Usare invece forecasting_parameters.

short_series_handling_configuration: str

Necessario

Parametro che definisce la modalità di gestione di serie temporali brevi da parte di AutoML.

Valori possibili: 'auto' (impostazione predefinita), 'pad', 'drop' e None.

se non sono presenti serie lunghe, le serie brevi verranno riempite. In caso contrario, le serie brevi verranno eliminate.
pad tutte le serie brevi saranno riempite.
drop all the short series will be dropped".
Nessuna serie breve non verrà modificata. Se impostato su "pad", la tabella verrà riempita con gli zeri e i valori vuoti per i regreditori e i valori casuali per la destinazione con la media media di valore di destinazione per un id serie temporale specificato. Se la median è maggiore o uguale a zero, il valore riempimento minimo verrà ritagliato per zero: Input:

Data

numeric_value

string

target

2020-01-01

23

green

55

L'output presupponendo che il numero minimo di valori sia quattro:

Data

numeric_value

string

target

2019-12-29

0

N/D

55.1

2019-12-30

0

N/D

55.6

2019-12-31

0

N/D

54.5

2020-01-01

23

green

55

Nota: Sono disponibili due parametri short_series_handling_configuration e short_series_handling legacy. Quando vengono impostati entrambi i parametri, vengono sincronizzati come illustrato nella tabella seguente (short_series_handling_configuration e short_series_handling per brevità vengono contrassegnati rispettivamente come handling_configuration e gestione).

gestione

handling_configuration

gestione risultante

handling_configuration risultante

Vero

auto

True

auto

True

pad

True

auto

Vero

drop

Vero

auto

Vero

Nessuno

Falso

Nessuno

Falso

auto

Falso

Nessuno

Falso

pad

Falso

Nessuno

Falso

drop

Falso

Nessuno

Falso

Nessuno

Falso

Nessuno

freq: str oppure None

Necessario

Frequenza di previsione.

Durante la previsione, questo parametro rappresenta il periodo con cui si desidera la previsione, ad esempio giornaliera, settimanale, annuale e così via. La frequenza di previsione è la frequenza del set di dati per impostazione predefinita. Facoltativamente, è possibile impostarlo su maggiore (ma non minore) rispetto alla frequenza del set di dati. I dati verranno aggregati e generati in base alla frequenza di previsione. Ad esempio, per i dati giornalieri, è possibile impostare la frequenza su giornaliera, settimanale o mensile, ma non su base oraria. La frequenza deve essere un alias di offset pandas. Per altre informazioni, vedere la documentazione di Pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str oppure None

Necessario

Funzione da utilizzare per aggregare la colonna di destinazione della serie temporale in modo che sia conforme a una frequenza specificata dall'utente. Se il target_aggregation_function è impostato, ma il parametro freq non è impostato, viene generato l'errore. Le possibili funzioni di aggregazione di destinazione sono: "sum", "max", "min" e "mean".

Freq

target_aggregation_function

Meccanismo di correzione della regolarità dei dati

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se la frequenza valida non può essere terminata, verrà generato l'errore.

Valore

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se il numero di punti dati conformi alla griglia di frequenza specificata è inferiore al 90%, questi punti verranno rimossi, altrimenti verrà generato l'errore.

Nessuno (Predefinito)

Funzione di aggregazione

Errore relativo ai parametri di frequenza mancanti generati.

Valore

Funzione di aggregazione

Aggregazione alla frequenza tramite la funzione providedaggregation.

enable_voting_ensemble: bool

Necessario

Indica se abilitare o disabilitare l'iterazione VotingEnsemble. Il valore predefinito è True. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble.

enable_stack_ensemble: bool

Necessario

Indica se abilitare/disabilitare l'iterazione StackEnsemble. Il valore predefinito è none. Se viene impostato enable_onnx_compatible_models flag, l'iterazione StackEnsemble verrà disabilitata. Analogamente, per le attività Timeseries, l'iterazione StackEnsemble verrà disabilitata per impostazione predefinita, per evitare rischi di overfitting a causa di un piccolo set di training usato per adattare il meta learner. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble.

debug_log: str

Necessario

File di log in cui scrivere informazioni di debug. Se non specificato, viene usato 'automl.log'.

training_data: DataFrame oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Dati di training da usare all'interno dell'esperimento. Deve contenere sia le funzionalità di training che una colonna etichetta (facoltativamente una colonna pesi di esempio). Se training_data viene specificato , è necessario specificare anche il label_column_name parametro .

training_data è stato introdotto nella versione 1.0.81.

validation_data: DataFrame oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Dati di convalida da usare all'interno dell'esperimento. Deve contenere sia le funzionalità di training che la colonna etichetta (facoltativamente una colonna pesi di esempio). Se validation_data viene specificato, training_data è necessario specificare i parametri e label_column_name .

validation_data è stato introdotto nella versione 1.0.81. Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

test_data: Dataset oppure TabularDataset

Necessario

La funzionalità Test del modello che usa set di dati di test o suddivisioni dei dati di test è una funzionalità in stato di anteprima e può cambiare in qualsiasi momento. Dati di test da usare per un'esecuzione di test che verrà avviata automaticamente al termine del training del modello. L'esecuzione del test otterrà stime usando il modello migliore e calcola le metriche date queste stime.

Se questo parametro o il test_size parametro non viene specificato, non verrà eseguita automaticamente alcuna esecuzione di test al termine del training del modello. I dati di test devono contenere sia funzionalità che colonne etichetta. Se test_data viene specificato, è necessario specificare il label_column_name parametro .

test_size: float

Necessario

La funzionalità Test del modello che usa set di dati di test o suddivisioni dei dati di test è una funzionalità in stato di anteprima e può cambiare in qualsiasi momento. Frazione dei dati di training da contenere per i dati di test per un'esecuzione di test che verrà avviata automaticamente al termine del training del modello. L'esecuzione del test otterrà stime usando il modello migliore e calcola le metriche date queste stime.

Deve essere compreso tra 0,0 e 1,0 non inclusi. Se test_size viene specificato contemporaneamente validation_sizea , i dati di test vengono suddivisi da training_data prima che i dati di convalida vengano suddivisi. Ad esempio, se validation_size=0.1test_size=0.1 e i dati di training originali hanno 1000 righe, i dati di test avranno 100 righe, i dati di convalida conterranno 90 righe e i dati di training avranno 810 righe.

Per le attività basate sulla regressione, viene usato il campionamento casuale. Per le attività di classificazione, viene usato il campionamento stratificato. La previsione non supporta attualmente la specifica di un set di dati di test tramite una divisione di training/test.

Se questo parametro o il test_data parametro non viene specificato, non verrà eseguita automaticamente alcuna esecuzione di test al termine del training del modello.

label_column_name: Union[str, int]

Necessario

Nome della colonna dell'etichetta. Se i dati di input provengono da un pandas. È possibile usare invece i dataframe che non hanno nomi di colonna, gli indici di colonna possono essere espressi come numeri interi.

Questo parametro è applicabile ai training_dataparametri e test_datavalidation_data . label_column_name è stato introdotto nella versione 1.0.81.

weight_column_name: Union[str, int]

Necessario

Nome della colonna peso campione. Machine Learning automatizzato supporta una colonna ponderata come input, causando l'aumento o la riduzione delle righe nei dati. Se i dati di input provengono da un pandas. È possibile usare invece i dataframe che non hanno nomi di colonna, gli indici di colonna possono essere espressi come numeri interi.

Questo parametro è applicabile ai training_data parametri e validation_data . weight_column_names è stato introdotto nella versione 1.0.81.

cv_split_column_names: list(str)

Necessario

Elenco di nomi delle colonne che contengono la divisione di convalida incrociata personalizzata. Ognuna delle colonne di divisione CV rappresenta una divisione CV in cui ogni riga è contrassegnata come 1 per il training o 0 per la convalida.

Questo parametro è applicabile al training_data parametro per scopi di convalida incrociata personalizzati. cv_split_column_names è stato introdotto nella versione 1.6.0

cv_split_column_names Usare o cv_splits_indices.

Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

enable_local_managed: bool

Necessario

Parametro disabilitato. Le esecuzioni gestite locali non possono essere abilitate in questo momento.

enable_dnn: bool

Necessario

Indica se includere modelli basati su DNN durante la selezione del modello. Il valore predefinito init è Nessuno. Il valore predefinito, tuttavia, è True per le attività NLP della rete neurale di rete e false per tutte le altre attività AutoML.

task: str oppure Tasks

Necessario

Tipo di attività da eseguire. I valori possono essere "classificazione", "regressione" o "previsione" a seconda del tipo di problema di Machine Learning automatizzato da risolvere.

path: str

Necessario

Percorso completo della cartella del progetto di Azure Machine Learning. Se non specificato, il valore predefinito consiste nell'usare la directory corrente o ".".

iterations: int

Necessario

Numero totale di combinazioni di algoritmi e parametri diversi da testare durante un esperimento di Machine Learning automatizzato. Se non specificato, il valore predefinito è 1000 iterazioni.

primary_metric: str oppure Metric

Necessario

Metrica ottimizzata da Machine Learning automatizzato per la selezione del modello. Machine Learning automatizzato raccoglie più metriche di quanto possa essere ottimizzato. È possibile usare get_primary_metrics per ottenere un elenco di metriche valide per l'attività specificata. Per altre informazioni sul modo in cui vengono calcolate le metriche, vedere https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Se non specificato, l'accuratezza viene usata per le attività di classificazione, per le attività di previsione e regressione viene usata la precisione per la classificazione delle immagini e la classificazione con più etichette immagine e per la precisione media media viene usata per il rilevamento degli oggetti immagine.

positive_label: Any

Necessario

Etichetta di classe positiva con cui verrà usato Machine Learning automatizzato per calcolare le metriche binarie. Le metriche binarie vengono calcolate in due condizioni per le attività di classificazione:

La colonna label è costituita da due classi che indicano che l'attività di classificazione binaria AutoML userà la classe positiva specificata quando positive_label viene passato, altrimenti AutoML selezionerà una classe positiva in base al valore codificato dell'etichetta.
attività di classificazione multiclasse con positive_label specificato

Per altre informazioni sulla classificazione, vedere le metriche di estrazione per gli scenari di classificazione.

compute_target: AbstractComputeTarget

Necessario

Destinazione di calcolo di Azure Machine Learning in cui eseguire l'esperimento di Machine Learning automatizzato. Per altre informazioni sulle destinazioni di calcolo, vedere https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote .

spark_context: <xref:SparkContext>

Necessario

Contesto spark. Applicabile solo se usato all'interno dell'ambiente Azure Databricks/Spark.

X: DataFrame oppure ndarray oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Le funzionalità di training da usare durante l'adattamento delle pipeline durante un esperimento. Questa impostazione è deprecata. Usare invece training_data e label_column_name.

y: DataFrame oppure ndarray oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Etichette di training da usare durante l'adattamento delle pipeline durante un esperimento. Questo è il valore che verrà stimato dal modello. Questa impostazione è deprecata. Usare invece training_data e label_column_name.

sample_weight: DataFrame oppure ndarray oppure TabularDataset

Necessario

Il peso da assegnare a ogni campione di training durante l'esecuzione di pipeline di adattamento, ogni riga deve corrispondere a una riga in dati X e y.

Specificare questo parametro quando si Xspecifica . Questa impostazione è deprecata. Usare invece training_data e weight_column_name.

X_valid: DataFrame oppure ndarray oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Funzionalità di convalida da usare durante l'adattamento delle pipeline durante un esperimento.

Se specificato, y_valid è necessario specificare anche o sample_weight_valid . Questa impostazione è deprecata. Usare invece validation_data e label_column_name.

y_valid: DataFrame oppure ndarray oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Etichette di convalida da usare durante l'adattamento delle pipeline durante un esperimento.

Sia che X_validy_valid devono essere specificati insieme. Questa impostazione è deprecata. Usare invece validation_data e label_column_name.

sample_weight_valid: DataFrame oppure ndarray oppure TabularDataset

Necessario

Il peso da assegnare a ogni campione di convalida durante l'esecuzione di pipeline di assegnazione dei punteggi, ogni riga deve corrispondere a una riga in dati X e y.

Specificare questo parametro quando si X_validspecifica . Questa impostazione è deprecata. Usare invece validation_data e weight_column_name.

cv_splits_indices: List[List[ndarray]]

Necessario

Indici in cui suddividere i dati di training per la convalida incrociata. Ogni riga è una piega incrociata separata e all'interno di ogni crossfold, fornire 2 matrici numpy, la prima con gli indici da usare per i dati di training e la seconda con gli indici da usare per i dati di convalida. ad esempio[[t1, v1], [t2, v2], ...] dove t1 è l'indice di training per la prima piega incrociata e v1 è l'indice di convalida per la prima piega incrociata. Questa opzione è supportata quando i dati vengono passati come set di dati Di funzionalità separati e colonna Etichetta.

Per specificare i dati esistenti come dati di convalida, usare validation_data. Per consentire all'estrazione automatica dei dati di convalida dai dati di training, specificare n_cross_validations o validation_size. Usare cv_split_column_names se si dispone di colonne di convalida incrociata in training_data.

validation_size: float

Necessario

Frazione dei dati da tenere per la convalida quando i dati di convalida utente non sono specificati. Ciò deve essere compreso tra 0,0 e 1,0 non inclusivo.

Specificare validation_data per fornire dati di convalida, in caso contrario impostati n_cross_validations o validation_size per estrarre i dati di convalida dai dati di training specificati. Per la piega incrociata personalizzata, usare cv_split_column_names.

Per altre informazioni, vedere Configurare le suddivisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

n_cross_validations: int oppure str

Necessario

Numero di convalida incrociate da eseguire quando i dati di convalida utente non sono specificati.

Specificare validation_data per fornire dati di convalida, in caso contrario impostati n_cross_validations o validation_size per estrarre i dati di convalida dai dati di training specificati. Per la piega incrociata personalizzata, usare cv_split_column_names.

Per altre informazioni, vedere Configurare le suddivisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

y_min: float

Necessario

Valore minimo di y per un esperimento di regressione. La combinazione di e y_max viene usata per normalizzare le metriche del set di test in base all'intervallo di dati di y_min input. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

y_max: float

Necessario

Valore massimo di y per un esperimento di regressione. La combinazione di e y_max viene usata per normalizzare le metriche del set di test in base all'intervallo di dati di y_min input. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

num_classes: int

Necessario

Numero di classi nei dati dell'etichetta per un esperimento di classificazione. Questa impostazione è deprecata. Questo valore verrà invece calcolato dai dati.

featurization: str oppure FeaturizationConfig

Necessario

'auto' / 'off' / FeaturizationConfig Indicatore per se il passaggio di funzionalità deve essere eseguito automaticamente o meno o se è necessario usare la funzionalità personalizzata. Nota: se i dati di input sono sparse, la funzionalità non può essere attivata.

Il tipo di colonna viene rilevato automaticamente. In base al tipo di colonna rilevato la pre-elaborazione/funzionalità viene eseguita come indicato di seguito:

Categoria: codifica di destinazione, codifica ad accesso frequente, eliminazione di categorie di cardinalità elevate, impute valori mancanti.
Numerico: imputa valori mancanti, distanza del cluster, peso delle prove.
DateTime: diverse funzionalità, ad esempio giorno, secondi, minuti, ore e così via.
Testo: contenitore di parole, Word pre-training Word incorporamento, codifica di destinazione del testo.

Altre informazioni sono disponibili nell'articolo Configurare esperimenti di MACHINE automatizzati in Python.

Per personalizzare il passaggio di funzionalità, specificare un oggetto FeaturizationConfig. La funzionalità personalizzata supporta attualmente il blocco di un set di trasformatori, l'aggiornamento dello scopo della colonna, la modifica dei parametri del trasformatore e l'eliminazione di colonne. Per altre informazioni, vedere Personalizzare la progettazione delle funzionalità.

Nota: le funzionalità timeeries vengono gestite separatamente quando il tipo di attività è impostato per la previsione indipendente da questo parametro.

max_cores_per_iteration: int

Necessario

Numero massimo di thread da usare per un'iterazione di training specificata. Valori accettabili:

Maggiore di 1 e minore o uguale al numero massimo di core nella destinazione di calcolo.
Uguale a -1, che significa usare tutti i core possibili per iterazione per esecuzione figlio.
Uguale a 1, il valore predefinito.

max_concurrent_iterations: int

Necessario

Rappresenta il numero massimo di iterazioni che verranno eseguite in parallelo. Il valore predefinito è 1.

I cluster AmlCompute supportano un'interazione in esecuzione per nodo. Per più esperimenti eseguiti in parallelo in un singolo cluster AmlCompute, la somma dei max_concurrent_iterations valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.
DSVM supporta più iterazioni per nodo. max_concurrent_iterations deve essere minore o uguale al numero di core nella DSVM. Per più esperimenti eseguiti in parallelo in una singola DSVM, la somma dei max_concurrent_iterations valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.
Databricks: max_concurrent_iterations deve essere minore o uguale al numero di nodi di lavoro in Databricks.

max_concurrent_iterations non si applica alle esecuzioni locali. In precedenza, questo parametro è stato denominato concurrent_iterations.

iteration_timeout_minutes: int

Necessario

Tempo massimo in minuti per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene usato un valore pari a 1 mese o 43200 minuti.

mem_in_mb: int

Necessario

Utilizzo massimo della memoria per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene usato un valore pari a 1 PB o 1073741824 MB.

enforce_time_on_windows: bool

Necessario

Se applicare un limite di tempo per il training del modello in ogni iterazione in Windows. Il valore predefinito è True. Se viene eseguito da un file di script Python (.py), vedere la documentazione per consentire i limiti delle risorse in Windows.

experiment_timeout_hours: float

Necessario

Quantità massima di tempo, in ore, che tutte le iterazioni combinate possono impiegare prima che l'esperimento venga terminato. Può essere un valore decimale come 0,25 che rappresenta 15 minuti. Se non specificato, il timeout dell'esperimento predefinito è di 6 giorni. Per specificare un timeout minore o uguale a 1 ora, assicurarsi che le dimensioni del set di dati non siano superiori a 10.000.000 (colonna righe) o risultati di errore.

experiment_exit_score: float

Necessario

Punteggio di destinazione per l'esperimento. L'esperimento termina dopo aver raggiunto questo punteggio. Se non è specificato (nessun criterio), l'esperimento viene eseguito fino a quando non viene effettuato alcun ulteriore avanzamento sulla metrica primaria. Per altre informazioni sui criteri di uscita, vedere this >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_<<.

enable_early_stopping: bool

Necessario

Se abilitare la terminazione anticipata se il punteggio non migliora a breve termine. Il valore predefinito è True.

Logica di arresto anticipato:

Nessuna interruzione anticipata per le prime 20 iterazioni (punti di riferimento).
La finestra di arresto anticipato inizia l'iterazione del 21° e cerca early_stopping_n_iters iterazioni (attualmente impostata su 10). Ciò significa che la prima iterazione in cui l'arresto può verificarsi è il 31°.
AutoML pianifica ancora 2 iterazioni di ensemble DOPO l'arresto anticipato, che potrebbero comportare punteggi superiori.
L'arresto anticipato viene attivato se il valore assoluto del punteggio migliore calcolato è lo stesso per le iterazioni precedenti early_stopping_n_iters, ovvero se non esiste alcun miglioramento nel punteggio per le iterazioni early_stopping_n_iters.

blocked_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Elenco di algoritmi da ignorare per un esperimento. Se enable_tf è False, i modelli TensorFlow sono inclusi in blocked_models.

blacklist_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Parametro deprecato, usare invece blocked_models.

exclude_nan_labels: bool

Necessario

Se escludere righe con valori NaN nell'etichetta. Il valore predefinito è True.

verbosity: int

Necessario

Livello di verbosità per la scrittura nel file di log. Il valore predefinito è INFO o 20. I valori accettabili sono definiti nella libreria di registrazione Python.

enable_tf: bool

Necessario

Se abilitare/disabilitare gli algoritmi TensorFlow. Il valore predefinito è False.

model_explainability: bool

Necessario

Se abilitare la spiegazione del modello AutoML migliore alla fine di tutte le iterazioni di training autoML. Il valore predefinito è True. Per altre informazioni, vedere Interpretazione: spiegazioni dei modelli in Machine Learning automatizzato.

allowed_models: list(str) oppure list(Classification) <xref:for classification task> oppure list(Regression) <xref:for regression task> oppure list(Forecasting) <xref:for forecasting task>

Necessario

Elenco dei nomi dei modelli da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno eventuali elementi specificati in blocked_models o modelli TensorFlow deprecati. I modelli supportati per ogni tipo di attività sono descritti nella SupportedModels classe .

allowed_models

Necessario

Elenco dei nomi dei modelli da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno eventuali elementi specificati in blocked_models o modelli TensorFlow deprecati. I modelli supportati per ogni tipo di attività sono descritti nella SupportedModels classe .

whitelist_models

Necessario

Parametro deprecato, usare invece allowed_models.

enable_onnx_compatible_models: bool

Necessario

Se abilitare o disabilitare l'applicazione dei modelli compatibili con ONNX. Il valore predefinito è False. Per altre informazioni su Open Neural Network Exchange (ONNX) e Azure Machine Learning, vedere questo articolo.

forecasting_parameters: ForecastingParameters

Necessario

Oggetto per contenere tutti i parametri specifici di previsione.

time_column_name: str

Necessario

Nome della colonna temporale. Questo parametro è necessario quando si prevede di specificare la colonna datetime nei dati di input usati per la compilazione della serie temporale e l'inferenza della frequenza. Questa impostazione è deprecata. Usare invece forecasting_parameters.

max_horizon: int

Necessario

Orizzonte di previsione massimo desiderato in unità di frequenza della serie temporale. Il valore predefinito è 1. Questa impostazione è deprecata. Usare invece forecasting_parameters.

Le unità si basano sull'intervallo di tempo dei dati di training, ad esempio mensile, settimanale che il previsionere deve prevedere. Quando si prevede il tipo di attività, è necessario questo parametro. Per altre informazioni sull'impostazione dei parametri di previsione, vedere Training automatico di un modello di previsione della serie temporale.

grain_column_names: str oppure list(str)

Necessario

Nomi di colonne usate per raggruppare un timeeries. Può essere usato per creare più serie. Se la granularità non è definita, si presuppone che il set di dati sia una serie temporale. Questo parametro viene usato con la previsione dei tipi di attività. Questa impostazione è deprecata. Usare invece forecasting_parameters.

target_lags: int oppure list(int)

Necessario

Numero di periodi passati da cui eseguire il ritardo dalla colonna di destinazione. Il valore predefinito è 1. Questa impostazione è deprecata. Usare invece forecasting_parameters.

Quando si prevede, questo parametro rappresenta il numero di righe per il ritardo dei valori di destinazione in base alla frequenza dei dati. Questo valore viene rappresentato come elenco o intero singolo. Il ritardo deve essere usato quando la relazione tra le variabili indipendenti e la variabile dipendente non corrispondono o correlano per impostazione predefinita. Ad esempio, quando si tenta di prevedere la richiesta di un prodotto, la richiesta per un mese specifico può dipendere dal prezzo di determinati prodotti nei tre mesi precedenti. In questo esempio, è possibile che si voglia ritardare la destinazione (richiesta) negativamente di tre mesi, in modo che il modello sia in grado di eseguire il training sulla relazione corretta. Per altre informazioni, vedere Eseguire il training automatico di un modello di previsione della serie temporale.

feature_lags: str

Necessario

Contrassegno per la generazione di ritardi per le funzionalità numeriche. Questa impostazione è deprecata. Usare invece forecasting_parameters.

target_rolling_window_size: int

Necessario

Numero di periodi precedenti usati per creare una media di finestra in sequenza della colonna di destinazione. Questa impostazione è deprecata. Usare invece forecasting_parameters.

Quando si prevede, questo parametro rappresenta n periodi cronologici da usare per generare valori previsti, <= dimensioni del set di training. Se omesso, n è la dimensione massima del set di training. Specificare questo parametro quando si vuole considerare solo una certa quantità di dati cronologici durante il training del modello.

country_or_region: str

Necessario

Paese/area geografica usata per generare funzionalità di vacanza. Questi devono essere ISO 3166 codici paese/area geografica, ad esempio "US" o "GB". Questa impostazione è deprecata. Usare invece forecasting_parameters.

use_stl: str

Necessario

Configurare la sTL Decomposition della colonna di destinazione della serie temporale. use_stl può accettare tre valori: Nessuno (impostazione predefinita) - nessuna stl decomposition, 'season' - genera solo componente stagione e season_trend - genera componenti di stagione e di tendenza. Questa impostazione è deprecata. Usare invece forecasting_parameters.

seasonality: int

Necessario

Impostare la stagionalità delle serie temporali. Se la stagionalità è impostata su -1, verrà dedotto. Se use_stl non è impostato, questo parametro non verrà usato. Questa impostazione è deprecata. Usare invece forecasting_parameters.

short_series_handling_configuration: str

Necessario

Parametro che definisce come se AutoML deve gestire serie temporali brevi.

Valori possibili: 'auto' (impostazione predefinita), 'pad', 'drop' e Nessuno.

la serie breve automatica verrà riempita se non sono presenti serie lunghe, in caso contrario, verrà eliminata una serie breve.
pad tutte le serie brevi verranno riempite.
drop all the short series will be dropd".
Nessuna serie breve non verrà modificata. Se impostato su "pad", la tabella verrà riempita con gli zero e i valori vuoti per i regressor e i valori casuali per la destinazione con la media media di destinazione uguale al valore di destinazione per l'ID serie temporale specificato. Se la median è maggiore o uguale a zero, il valore riempimento minimo verrà ritagliato per zero: Input:

Data

numeric_value

string

target

2020-01-01

23

green

55

L'output presupponendo un numero minimo di valori è quattro: +————+—————+———-+—-+ | Data | numeric_value | stringa | destinazione | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55,6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | verde | 55 | +————+—————+———-+——–+

Nota: Sono disponibili due parametri short_series_handling_configuration e short_series_handling legacy. Quando vengono impostati entrambi i parametri, vengono sincronizzati come illustrato nella tabella seguente (short_series_handling_configuration e short_series_handling per brevità vengono contrassegnati rispettivamente come handling_configuration e gestione).

gestione

handling_configuration

gestione risultante

handling_configuration risultante

True

auto

True

auto

True

pad

Vero

auto

True

drop

Vero

auto

Vero

Nessuno

Falso

Nessuno

Falso

auto

Falso

Nessuno

Falso

pad

Falso

Nessuno

Falso

drop

Falso

Nessuno

Falso

Nessuno

Falso

Nessuno

freq: str oppure None

Necessario

Frequenza di previsione.

Durante la previsione, questo parametro rappresenta il periodo con cui si desidera la previsione, ad esempio giornaliera, settimanale, annuale e così via. La frequenza di previsione è la frequenza del set di dati per impostazione predefinita. Facoltativamente, è possibile impostarlo su maggiore (ma non minore) rispetto alla frequenza del set di dati. I dati verranno aggregati e generati in base alla frequenza di previsione. Ad esempio, per i dati giornalieri, è possibile impostare la frequenza su giornaliera, settimanale o mensile, ma non su base oraria. La frequenza deve essere un alias di offset pandas. Per altre informazioni, vedere la documentazione di Pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function: str oppure None

Necessario

Funzione da utilizzare per aggregare la colonna di destinazione della serie temporale in modo che sia conforme a una frequenza specificata dall'utente. Se il target_aggregation_function è impostato, ma il parametro freq non è impostato, viene generato l'errore. Le possibili funzioni di aggregazione di destinazione sono: "sum", "max", "min" e "mean".

Freq

target_aggregation_function

Meccanismo di correzione della regolarità dei dati

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se la frequenza valida non può essere terminata, verrà generato l'errore.

Valore

Nessuno (Predefinito)

L'aggregazione non viene applicata. Se il numero di punti dati conformi alla griglia di frequenza specificata è inferiore al 90%, questi punti verranno rimossi, altrimenti verrà generato l'errore.

Nessuno (Predefinito)

Funzione di aggregazione

Errore relativo ai parametri di frequenza mancanti generati.

Valore

Funzione di aggregazione

Aggregazione alla frequenza tramite la funzione providedaggregation.

enable_voting_ensemble: bool

Necessario

Indica se abilitare o disabilitare l'iterazione VotingEnsemble. Il valore predefinito è True. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble.

enable_stack_ensemble: bool

Necessario

Indica se abilitare/disabilitare l'iterazione StackEnsemble. Il valore predefinito è none. Se viene impostato enable_onnx_compatible_models flag, l'iterazione StackEnsemble verrà disabilitata. Analogamente, per le attività Timeseries, l'iterazione StackEnsemble verrà disabilitata per impostazione predefinita, per evitare rischi di overfitting a causa di un piccolo set di training usato per adattare il meta learner. Per altre informazioni sugli insiemi, vedere Configurazione dell'ensemble.

debug_log: str

Necessario

File di log in cui scrivere informazioni di debug. Se non specificato, viene usato 'automl.log'.

training_data: DataFrame oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Dati di training da usare all'interno dell'esperimento. Deve contenere sia le funzionalità di training che una colonna etichetta (facoltativamente una colonna pesi di esempio). Se training_data viene specificato , è necessario specificare anche il label_column_name parametro .

training_data è stato introdotto nella versione 1.0.81.

validation_data: DataFrame oppure Dataset oppure DatasetDefinition oppure TabularDataset

Necessario

Dati di convalida da usare all'interno dell'esperimento. Deve contenere sia le funzionalità di training che la colonna etichetta (facoltativamente una colonna pesi di esempio). Se validation_data viene specificato, training_data è necessario specificare i parametri e label_column_name .

validation_data è stato introdotto nella versione 1.0.81. Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

test_data: Dataset oppure TabularDataset

Necessario

La funzionalità Test del modello che usa set di dati di test o suddivisioni dei dati di test è una funzionalità in stato di anteprima e può cambiare in qualsiasi momento. Dati di test da usare per un'esecuzione di test che verrà avviata automaticamente al termine del training del modello. L'esecuzione del test otterrà stime usando il modello migliore e calcola le metriche date queste stime.

Se questo parametro o il test_size parametro non viene specificato, non verrà eseguita automaticamente alcuna esecuzione di test al termine del training del modello. I dati di test devono contenere sia funzionalità che colonne etichetta. Se test_data viene specificato, è necessario specificare il label_column_name parametro .

test_size: float

Necessario

La funzionalità Test del modello che usa set di dati di test o suddivisioni dei dati di test è una funzionalità in stato di anteprima e può cambiare in qualsiasi momento. Frazione dei dati di training da contenere per i dati di test per un'esecuzione di test che verrà avviata automaticamente al termine del training del modello. L'esecuzione del test otterrà stime usando il modello migliore e calcola le metriche date queste stime.

Deve essere compreso tra 0,0 e 1,0 non inclusi. Se test_size viene specificato contemporaneamente validation_sizea , i dati di test vengono suddivisi da training_data prima che i dati di convalida vengano suddivisi. Ad esempio, se validation_size=0.1test_size=0.1 e i dati di training originali hanno 1000 righe, i dati di test avranno 100 righe, i dati di convalida conterranno 90 righe e i dati di training avranno 810 righe.

Per le attività basate sulla regressione, viene usato il campionamento casuale. Per le attività di classificazione, viene usato il campionamento stratificato. La previsione non supporta attualmente la specifica di un set di dati di test tramite una divisione di training/test.

Se questo parametro o il test_data parametro non viene specificato, non verrà eseguita automaticamente alcuna esecuzione di test al termine del training del modello.

label_column_name: Union[str, int]

Necessario

Nome della colonna dell'etichetta. Se i dati di input provengono da un pandas. È possibile usare invece i dataframe che non hanno nomi di colonna, gli indici di colonna possono essere espressi come numeri interi.

Questo parametro è applicabile ai training_dataparametri e test_datavalidation_data . label_column_name è stato introdotto nella versione 1.0.81.

weight_column_name: Union[str, int]

Necessario

Nome della colonna peso campione. Machine Learning automatizzato supporta una colonna ponderata come input, causando l'aumento o la riduzione delle righe nei dati. Se i dati di input provengono da un pandas. È possibile usare invece i dataframe che non hanno nomi di colonna, gli indici di colonna possono essere espressi come numeri interi.

Questo parametro è applicabile ai training_data parametri e validation_data . weight_column_names è stato introdotto nella versione 1.0.81.

cv_split_column_names: list(str)

Necessario

Elenco di nomi delle colonne che contengono la divisione di convalida incrociata personalizzata. Ognuna delle colonne di divisione CV rappresenta una divisione CV in cui ogni riga è contrassegnata come 1 per il training o 0 per la convalida.

Questo parametro è applicabile al training_data parametro per scopi di convalida incrociata personalizzati. cv_split_column_names è stato introdotto nella versione 1.6.0

cv_split_column_names Usare o cv_splits_indices.

Per altre informazioni, vedere Configurare le divisioni dei dati e la convalida incrociata in Machine Learning automatizzato.

enable_local_managed: bool

Necessario

Parametro disabilitato. Le esecuzioni gestite locali non possono essere abilitate in questo momento.

enable_dnn: bool

Necessario

Indica se includere modelli basati su DNN durante la selezione del modello. Il valore predefinito init è Nessuno. Il valore predefinito, tuttavia, è True per le attività NLP della rete neurale di rete e false per tutte le altre attività AutoML.

as_serializable_dict	Convertire l'oggetto in dizionario.
get_supported_dataset_languages	Ottenere le lingue supportate e i codici di lingua corrispondenti in ISO 639-3.

AutoMLConfig Classe

Costruttore

Parametri

Commenti

Metodi

as_serializable_dict

get_supported_dataset_languages

Parametri

Restituisce

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive