RegressionJob Classe
Configurazione del processo di regressione autoML.
Inizializzare una nuova attività Di regressione AutoML.
- Ereditarietà
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularRegressionJob
Costruttore
RegressionJob(*, primary_metric: str | None = None, **kwargs)
Parametri
Metodi
dump |
Esegue il dump del contenuto del processo in un file in formato YAML. |
set_data |
Definire la configurazione dei dati. |
set_featurization |
Definire la configurazione della progettazione delle funzionalità. |
set_limits |
Impostare i limiti per il processo. |
set_training |
Metodo per configurare le impostazioni correlate al training. |
dump
Esegue il dump del contenuto del processo in un file in formato YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parametri
Percorso locale o flusso di file in cui scrivere il contenuto YAML. Se il massimo è un percorso di file, verrà creato un nuovo file. Se il massimo è un file aperto, il file verrà scritto direttamente.
- kwargs
- dict
Argomenti aggiuntivi da passare al serializzatore YAML.
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_data
Definire la configurazione dei dati.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parametri
- training_data
- Input
Dati di training.
- target_column_name
- str
Nome colonna della colonna di destinazione.
Dimensioni dei dati di convalida, impostazione predefinita none
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_featurization
Definire la configurazione della progettazione delle funzionalità.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parametri
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Elenco di nomi di trasformatori da bloccare durante la funzionalità, impostazione predefinita su Nessuno
Dizionario dei nomi delle colonne e dei tipi di funzionalità usati per aggiornare lo scopo della colonna , impostazione predefinita su Nessuno
Codice ISO 639-3 di tre caratteri per i linguaggi contenuti nel set di dati. Le lingue diverse dall'inglese sono supportate solo se si usa il calcolo abilitato per la GPU. L'language_code 'mul' deve essere usato se il set di dati contiene più lingue. Per trovare codici ISO 639-3 per lingue diverse, fare riferimento a https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, per impostazione predefinita none
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Dizionario di trasformatori e parametri di personalizzazione corrispondenti , impostazione predefinita none
"off", "auto", impostazione predefinita su "auto", impostazione predefinita su None
Indica se includere metodi di progettazione delle funzionalità basati su DNN, impostazione predefinita none
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_limits
Impostare i limiti per il processo.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parametri
Indica se abilitare la terminazione anticipata se il punteggio non migliora a breve termine, il valore predefinito è Nessuno.
Logica di arresto anticipato:
Nessuna interruzione anticipata per le prime 20 iterazioni (punti di riferimento).
La finestra di arresto anticipato inizia l'iterazione del 21° e cerca early_stopping_n_iters iterazioni
(attualmente impostato su 10). Ciò significa che la prima iterazione in cui l'arresto può verificarsi è il 31°.
AutoML pianifica ancora 2 iterazioni di ensemble DOPO l'arresto anticipato, che potrebbero comportare punteggi superiori.
L'arresto anticipato viene attivato se il valore assoluto del punteggio migliore calcolato è lo stesso per il passato
early_stopping_n_iters iterazioni, ovvero se non esiste alcun miglioramento del punteggio per le iterazioni early_stopping_n_iters.
Punteggio di destinazione per l'esperimento. L'esperimento termina dopo aver raggiunto questo punteggio. Se non è specificato (nessun criterio), l'esperimento viene eseguito fino a quando non viene effettuato alcun ulteriore avanzamento sulla metrica primaria. Per altre informazioni sui criteri di uscita, vedere questo articolo , impostazione predefinita none
Si tratta del numero massimo di iterazioni che verranno eseguite in parallelo. Il valore predefinito è 1.
- I cluster AmlCompute supportano un'iterazione in esecuzione per nodo.
Per più esecuzioni padre dell'esperimento AutoML eseguite in parallelo in un singolo cluster AmlCompute, la somma dei max_concurrent_trials
valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi. In caso contrario, le esecuzioni verranno accodate fino a quando non sono disponibili nodi.
- DSVM supporta più iterazioni per nodo.
max_concurrent_trials
Dovrebbe
essere minore o uguale al numero di core nella DSVM. Per più esperimenti eseguiti in parallelo in una singola DSVM, la somma dei max_concurrent_trials
valori per tutti gli esperimenti deve essere minore o uguale al numero massimo di nodi.
- Databricks:
max_concurrent_trials
deve essere minore o uguale al numero di
nodi di lavoro in Databricks.
max_concurrent_trials
non si applica alle esecuzioni locali. In precedenza, questo parametro è stato denominato concurrent_iterations
.
Numero massimo di thread da usare per un'iterazione di training specificata. Valori accettabili:
Maggiore di 1 e minore o uguale al numero massimo di core nella destinazione di calcolo.
Uguale a -1, che significa usare tutti i core possibili per iterazione per esecuzione figlio.
Uguale a 1, l'impostazione predefinita.
[Sperimentale] Numero massimo di nodi da usare per il training distribuito.
Per la previsione, ogni modello viene sottoposto a training usando nodi max(2, int(max_nodes/max_concurrent_trials)).
Per la classificazione/regressione, ogni modello viene sottoposto a training usando i nodi max_nodes.
Nota: questo parametro è in anteprima pubblica e potrebbe cambiare in futuro.
Numero totale di combinazioni di parametri e algoritmi diversi da testare durante un esperimento di ML automatizzato. Se non specificato, il valore predefinito è 1000 iterazioni.
Quantità massima di tempo, in minuti, che tutte le iterazioni combinate possono impiegare prima che l'esperimento venga terminato. Se non specificato, il timeout dell'esperimento predefinito è di 6 giorni. Per specificare un timeout minore o uguale a 1 ora, assicurarsi che le dimensioni del set di dati non siano superiori a 10.000.000 (colonna di righe) o a un risultato di errore, il valore predefinito è None
Tempo massimo in minuti per cui ogni iterazione può essere eseguita prima che venga terminata. Se non specificato, viene usato un valore pari a 1 mese o 43200 minuti, il valore predefinito è None
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
set_training
Metodo per configurare le impostazioni correlate al training.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parametri
Se abilitare o disabilitare l'applicazione dei modelli compatibili con ONNX. Il valore predefinito è False. Per altre informazioni su Open Neural Network Exchange (ONNX) e Azure Machine Learning, vedere questo articolo.
Se includere modelli basati su DNN durante la selezione del modello. Tuttavia, il valore predefinito è True per le attività NLP DNN e è False per tutte le altre attività AutoML.
Se abilitare la spiegazione del modello AutoML migliore alla fine di tutte le iterazioni di training autoML. Per altre informazioni, vedere Interpretazione: spiegazioni dei modelli in Machine Learning automatizzato. , impostazione predefinita su Nessuno
Se abilitare/disabilitare l'iterazione stackEnsemble. Se viene impostato enable_onnx_compatible_models flag, l'iterazione stackEnsemble verrà disabilitata. Analogamente, per le attività Timeseries, l'iterazione stackEnsemble verrà disabilitata per impostazione predefinita, per evitare rischi di overfitting a causa di un piccolo set di training usato per adattare il meta learner. Per altre informazioni sugli ensemble, vedere Configurazione dell'ensemble , impostazione predefinita su Nessuno
Se abilitare/disabilitare l'iterazione VotingEnsemble. Per altre informazioni sugli ensemble, vedere Configurazione dell'ensemble , impostazione predefinita su Nessuno
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Impostazioni per l'iterazione stackEnsemble, impostazione predefinita none
Durante la generazione di modelli VotingEnsemble e StackEnsemble, vengono scaricati più modelli montati dalle esecuzioni figlio precedenti. Configurare questo parametro con un valore superiore a 300 sec, se è necessario più tempo, il valore predefinito è None
Elenco dei nomi dei modelli da cercare per un esperimento. Se non specificato, tutti i modelli supportati per l'attività vengono usati meno eventuali modelli specificati in blocked_training_algorithms
o deprecati tensorFlow, impostazione predefinita su None
Elenco di algoritmi da ignorare per un esperimento, impostazione predefinita none
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Sperimentale] Modalità di training da usare. I valori possibili sono-
distributed: consente il training distribuito per gli algoritmi supportati.
non_distributed- disabilita il training distribuito.
auto- Attualmente, è uguale a non_distributed. In futuro, questo potrebbe cambiare.
Nota: questo parametro è in anteprima pubblica e può cambiare in futuro.
Eccezioni
Generato se il numero massimo è un percorso di file e il file esiste già.
Generato se il massimo è un file aperto e il file non è scrivibile.
Attributi
base_path
creation_context
Contesto di creazione della risorsa.
Restituisce
Metadati di creazione per la risorsa.
Tipo restituito
featurization
Ottenere le impostazioni di funzionalità tabulari per il processo AutoML.
Restituisce
Impostazioni di funzionalità tabulari per il processo AutoML
Tipo restituito
id
L'ID della risorsa.
Restituisce
ID globale della risorsa, ID di Azure Resource Manager (ARM).
Tipo restituito
inputs
limits
Ottenere i limiti tabulari per il processo AutoML.
Restituisce
Limiti tabulari per il processo AutoML
Tipo restituito
log_files
File di output del processo.
Restituisce
Dizionario di nomi e URL di log.
Tipo restituito
log_verbosity
Ottenere la verbosità del log per il processo AutoML.
Restituisce
verbosità del log per il processo AutoML
Tipo restituito
outputs
primary_metric
status
Stato del processo.
I valori comuni restituiti includono "Running", "Completed" e "Failed". Tutti i valori possibili sono:
NotStarted: questo è uno stato temporaneo in cui gli oggetti Run lato client si trovano prima dell'invio nel cloud.
Avvio: l'esecuzione è stata avviata nell'elaborazione nel cloud. Il chiamante ha un ID di esecuzione a questo punto.
Provisioning: l'elaborazione su richiesta viene creata per un invio di processo specificato.
Preparazione: l'ambiente di esecuzione è in fase di preparazione ed è in una delle due fasi seguenti:
Compilazione di immagini Docker
configurazione dell'ambiente conda
Accodato: il processo viene accodato nella destinazione di calcolo. Ad esempio, in BatchAI il processo si trova in uno stato in coda
in attesa che tutti i nodi richiesti siano pronti.
Esecuzione: il processo è stato avviato per l'esecuzione nella destinazione di calcolo.
Finalizzazione: l'esecuzione del codice utente è stata completata e l'esecuzione è in fasi di post-elaborazione.
CancelRequested: l'annullamento è stato richiesto per il processo.
Completato: l'esecuzione è stata completata correttamente. Ciò include sia l'esecuzione del codice utente che l'esecuzione
fasi di post-elaborazione.
Impossibile: l'esecuzione non è riuscita. In genere la proprietà Error in un'esecuzione fornisce informazioni dettagliate sul motivo.
Annullata: segue una richiesta di annullamento e indica che l'esecuzione è stata annullata correttamente.
NotResponding: per le esecuzioni abilitate per Heartbeat, non è stato inviato di recente alcun heartbeat.
Restituisce
Stato del processo.
Tipo restituito
studio_url
Endpoint di Azure ML Studio.
Restituisce
URL della pagina dei dettagli del processo.
Tipo restituito
task_type
Ottenere il tipo di attività.
Restituisce
Tipo di attività da eseguire. I valori possibili includono: "classificazione", "regressione", "previsione".
Tipo restituito
test_data
training
training_data
type
validation_data
Azure SDK for Python
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per