AutoMLBaseSettings Classe

Conservez et validez les paramètres pour une expérience AutoML.

Gérer les paramètres utilisés par les composants AutoML.

Héritage
builtins.object
AutoMLBaseSettings

Constructeur

AutoMLBaseSettings(path: str | None = None, iterations: int = 1000, data_script: str | None = None, primary_metric: str | None = None, task_type: str | None = None, positive_label: Any | None = None, test_size: float | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_minutes: int | None = None, experiment_exit_score: float | None = None, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, debug_log: str | None = 'automl.log', debug_flag: Dict[str, Any] | None = None, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, ensemble_iterations: int | None = None, model_explainability: bool = True, enable_tf: bool = True, enable_subsampling: bool | None = None, subsample_seed: int | None = None, cost_mode: int = 0, is_timeseries: bool = False, enable_early_stopping: bool = True, early_stopping_n_iters: int = 10, enable_onnx_compatible_models: bool = False, enable_feature_sweeping: bool = False, enable_nimbusml: bool | None = None, enable_streaming: bool | None = None, force_streaming: bool | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, vm_type: str | None = None, track_child_runs: bool = True, n_best_runs: int = 1, show_deprecate_warnings: bool | None = True, forecasting_parameters: ForecastingParameters | None = None, allowed_private_models: List[str] | None = None, scenario: str | None = None, environment_label: str | None = None, save_mlflow: bool = False, test_include_predictions_only: bool = False, run_source: str | None = None, partition_column_names: List[str] | None = None, **kwargs: Any)

Paramètres

path
valeur par défaut: None

Chemin d’accès complet au dossier du projet

iterations
valeur par défaut: 1000

Nombre de pipelines différents à tester

data_script
valeur par défaut: None

Chemin d’accès au script contenant get_data()

primary_metric
valeur par défaut: None

Métrique que vous souhaitez optimiser.

task_type
valeur par défaut: None

Champ décrivant s’il s’agit d’une expérience de classification ou de régression

positive_label
valeur par défaut: None

Étiquette de classe positive avec laquelle calculer les métriques binaires.

test_size
valeur par défaut: None

Quel pourcentage des données conserver pour le test

validation_size
valeur par défaut: None

Quel pourcentage des données conserver pour validation

n_cross_validations
valeur par défaut: None

Nombre de validations croisées à effectuer

y_min
valeur par défaut: None

Valeur minimale de y pour une expérience de régression

y_max
valeur par défaut: None

Valeur maximale de y pour une expérience de régression

num_classes
valeur par défaut: None

Nombre de classes dans les données d’étiquette

featurization
valeur par défaut: auto

Indicateur indiquant si l’étape de caractérisation doit être effectuée automatiquement ou non, ou si la caractérisation personnalisée doit être utilisée.

max_cores_per_iteration
valeur par défaut: 1

Nombre maximal de threads à utiliser pour une itération donnée

max_concurrent_iterations
valeur par défaut: 1

Nombre maximal d’itérations qui seraient exécutées en parallèle. Ce nombre doit être inférieur au nombre de cœurs sur le calcul AzureML. Anciennement concurrent_iterations.

iteration_timeout_minutes
valeur par défaut: None

Durée maximale en secondes pendant laquelle chaque itération se termine

mem_in_mb
valeur par défaut: None

Utilisation maximale de la mémoire de chaque itération avant son arrêt

enforce_time_on_windows
valeur par défaut: True

indicateur pour appliquer une limite de temps à l’entraînement du modèle à chaque itération sous windows.

experiment_timeout_minutes
valeur par défaut: None

Durée maximale pendant laquelle toutes les itérations combinées peuvent prendre

experiment_exit_score
valeur par défaut: None

Score cible de l’expérience. L’expérience se termine une fois ce score atteint.

blocked_models
valeur par défaut: None

Liste des algorithmes à ignorer pour l’expérience AutoML

blacklist_models
valeur par défaut: None

Déconseillé, utilisez blocked_models.

allowed_models
valeur par défaut: None

Liste des noms de modèles à rechercher pour l’expérience AutoML.

whitelist_models
valeur par défaut: None

Déconseillé, utilisez allowed_models.

exclude_nan_labels
valeur par défaut: True

Indiquer s’il faut exclure des lignes avec des valeurs NaN dans l’étiquette

verbosity
valeur par défaut: 20

Niveau de détail pour le fichier journal AutoML

debug_log
valeur par défaut: automl.log

Chemin d’accès aux journaux AutoML

enable_voting_ensemble
valeur par défaut: True

Indicateur permettant d’activer/désactiver une itération supplémentaire pour l’ensemble de vote.

enable_stack_ensemble
valeur par défaut: None

Indicateur permettant d’activer/désactiver une itération supplémentaire pour l’ensemble de la pile.

ensemble_iterations
valeur par défaut: None

Nombre de modèles à prendre en compte pour la génération d’ensemble

model_explainability
valeur par défaut: True

Indiquez s’il faut expliquer le meilleur modèle AutoML à la fin des itérations d’entraînement.

enable_tf
valeur par défaut: True

Indicateur pour activer/désactiver les algorithmes Tensorflow

enable_subsampling
valeur par défaut: None

Indicateur permettant d’activer/désactiver le sous-échantillonnage.

subsample_seed
valeur par défaut: None

random_state utilisé pour échantillonner les données.

cost_mode
int ou PipelineCost
valeur par défaut: 0

Indicateur pour définir les modes de prédiction des coûts. COST_NONE signifie aucune prédiction de coût, COST_FILTER signifie prédiction de coût par itération.

is_timeseries
bool
valeur par défaut: False

Indiquez si AutoML doit traiter vos données en tant que données de série chronologique.

enable_early_stopping
bool
valeur par défaut: True

Indiquez si l’expérience doit s’arrêter tôt si le score ne s’améliore pas.

early_stopping_n_iters
int
valeur par défaut: 10

Nombre d’itérations à exécuter en plus des pipelines de repère avant l’arrêt précoce.

enable_onnx_compatible_models
valeur par défaut: False

Indicateur pour activer/désactiver l’application des modèles compatibles onnx.

enable_feature_sweeping
valeur par défaut: False

Indicateur pour activer/désactiver le balayage des fonctionnalités.

enable_nimbusml
valeur par défaut: None

Indicateur permettant d’activer/désactiver les transformateurs/apprenants NimbusML.

enable_streaming
valeur par défaut: None

Indicateur pour activer/désactiver la diffusion en continu.

force_streaming
valeur par défaut: None

Indicateur pour forcer le streaming à se lancer.

label_column_name
valeur par défaut: None

Nom de la colonne d’étiquette.

weight_column_name
valeur par défaut: None

Nom de la colonne correspondant aux pondérations de l’échantillon.

cv_split_column_names
valeur par défaut: None

Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée.

enable_local_managed
bool
valeur par défaut: False

indiquer s’il faut autoriser les exécutions gérées locales

track_child_runs
bool
valeur par défaut: True

Indiquez s’il faut charger tous les détails de l’exécution enfant dans l’historique des exécutions. Si la valeur est false, seules les meilleures exécutions enfants et d’autres détails de résumé sont chargés.

n_best_runs
int
valeur par défaut: 1

Nombre de meilleures exécutions à charger par partition pour une exécution de nombreux modèles. La valeur par défaut est de 1.

target_lags
List(int)
Obligatoire

Nombre de périodes passées à décaler par rapport à la colonne cible. Ce paramètre est déprécié. Utilisez plutôt forecasting_parameters.

Pendant la prévision, ce paramètre correspond au nombre de lignes dont les valeurs cibles doivent être décalées en fonction de la fréquence des données. Ce paramètre est représenté sous la forme d’une liste ou d’un entier unique. Un décalage est nécessaire en l’absence de correspondance ou de corrélation par défaut des relations entre les variables indépendantes et la variable dépendante. Par exemple, quand vous essayez de prévoir la demande d’un produit, la demande mensuelle peut dépendre du prix de certaines matières premières trois mois auparavant. Dans ce cas, vous pouvez appliquer un décalage négatif de trois mois à la cible (la demande) afin que le modèle soit entraîné sur la relation appropriée.

feature_lags
str
Obligatoire

Indicateur pour générer des retards pour les fonctionnalités numériques Ce paramètre est déconseillé. Utilisez plutôt forecasting_parameters.

freq
str
Obligatoire

Fréquence du jeu de données de série chronologique. Ce paramètre est déprécié. Utilisez plutôt forecasting_parameters.

Pendant la prévision, ce paramètre représente la période à laquelle les événements sont supposés se produire, par exemple, tous les jours, toutes les semaines, tous les ans, etc. La fréquence doit être un alias de décalage pandas. Pour plus d’informations, consultez la documentation Pandas : https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

forecasting_parameters
ForecastingParameters
valeur par défaut: None

Objet ForecastingParameters qui contient tous les paramètres spécifiques de prévision.

allowed_private_models
List(str)
valeur par défaut: None

Liste des modèles privés à ajouter au allowed_list. Les modèles privés sont des modèles implémentés dans sdk/JOS, mais qui ne sont pas encore accessibles au public.

show_deprecate_warnings
valeur par défaut: True

Basculez pour afficher les avertissements de paramètres déconseillés.

scenario
valeur par défaut: None

Scénario client utilisé pour cette exécution, défini par AutoMLConfig.

environment_label
Optional[str]
valeur par défaut: None

Étiquette de l’environnement utilisé pour l’apprentissage. Remplace l’étiquette sélectionnée PAR JOS.

save_mlflow
bool
valeur par défaut: False

Indicateur indiquant s’il faut enregistrer la sortie à l’aide de MLFlow.

test_include_predictions_only
bool
valeur par défaut: False

Indicateur indiquant s’il faut inclure uniquement des prédictions dans la série de tests.

run_source
Optional[str]
valeur par défaut: None

Chaîne utilisée pour définir une propriété RootAttribution différente de « automl ».

partition_column_names
Optional[List[str]]
valeur par défaut: None

Noms de colonnes à utiliser pour de nombreuses partitions de modèles.

kwargs
Obligatoire
debug_flag
valeur par défaut: None
vm_type
valeur par défaut: None

Méthodes

as_serializable_dict
from_string_or_dict

Convertissez une chaîne ou un dictionnaire contenant des paramètres en objet AutoMLBaseSettings.

Si la valeur fournie est déjà un objet AutoMLBaseSettings, elle est simplement transmise.

as_serializable_dict

as_serializable_dict() -> Dict[str, Any]

from_string_or_dict

Convertissez une chaîne ou un dictionnaire contenant des paramètres en objet AutoMLBaseSettings.

Si la valeur fournie est déjà un objet AutoMLBaseSettings, elle est simplement transmise.

static from_string_or_dict(val: Dict[str, Any] | str | AutoMLBaseSettings) -> AutoMLBaseSettings

Paramètres

val
Obligatoire

données d’entrée à convertir

Retours

objet AutoMLBaseSettings

Attributs

debug_log

MAXIMUM_DEFAULT_ENSEMBLE_SELECTION_ITERATIONS

MAXIMUM_DEFAULT_ENSEMBLE_SELECTION_ITERATIONS = 15

MAXIMUM_EXPERIMENT_TIMEOUT_MINUTES

MAXIMUM_EXPERIMENT_TIMEOUT_MINUTES = 525600

MAXIMUM_ITERATION_TIMEOUT_MINUTES

MAXIMUM_ITERATION_TIMEOUT_MINUTES = 43200

MAXIMUM_MEM_IN_MB

MAXIMUM_MEM_IN_MB = 1073741824

MAX_CORES_PER_ITERATION

MAX_CORES_PER_ITERATION = 16384

MAX_LAG_LENGTH

MAX_LAG_LENGTH = 2000

MAX_N_CROSS_VALIDATIONS

MAX_N_CROSS_VALIDATIONS = 1000

MINIMUM_REQUIRED_ITERATIONS_ENSEMBLE

MINIMUM_REQUIRED_ITERATIONS_ENSEMBLE = 2

MIN_EXPTIMEOUT_MINUTES

MIN_EXPTIMEOUT_MINUTES = 15