AutoMLConfig Clase

Representa la configuración para enviar un experimento de ML automatizado en Azure Machine Learning.

Este objeto de configuración contiene y conserva los parámetros para configurar la ejecución del experimento, así como los datos de entrenamiento que se usarán en tiempo de ejecución. Para obtener instrucciones sobre cómo seleccionar la configuración, consulte https://aka.ms/AutoMLConfig.

Cree un autoMLConfig.

Herencia
builtins.object
AutoMLConfig

Constructor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parámetros

task
str o Tasks
Requerido

Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión", dependiendo del tipo de problema de aprendizaje automático automatizado que se va a resolver.

path
str
Requerido

Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".

iterations
int
Requerido

Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000.

primary_metric
str o Metric
Requerido

Métrica que Automated Machine Learning optimizará para la selección del modelo. AutoML recopila más métricas de las que puede optimizar. Puede usar para get_primary_metrics obtener una lista de métricas válidas para la tarea dada. Para obtener más información sobre cómo se calculan las métricas, vea https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Si no se especifica, la precisión se usa para las tareas de clasificación, la media normalizada al cuadrado se usa para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media se usa para la detección de objetos de imagen.

positive_label
Any
Requerido

Etiqueta de clase positiva que el aprendizaje automático automatizado utilizará para calcular las métricas binarias. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:

  1. La columna label consta de dos clases que indican que la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label; de lo contrario, AutoML elegirá una clase positiva en función del valor codificado en la etiqueta.
  2. Tarea de clasificación de varias clases con positive_label especificado

Para obtener más información sobre la clasificación, consulte Métricas para los escenarios de clasificación.

compute_target
AbstractComputeTarget
Requerido

El destino de proceso de Azure Machine Learning en el que ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para más información sobre los destinos de proceso.

spark_context
<xref:SparkContext>
Requerido

Contexto de Spark. Solo es aplicable cuando se usa en el entorno de Azure Databricks/Spark.

X
DataFrame o ndarray o Dataset o TabularDataset
Requerido

Características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

y
DataFrame o ndarray o Dataset o TabularDataset
Requerido

Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

sample_weight
DataFrame o ndarray o TabularDataset
Requerido

Peso que se debe dar a cada ejemplo de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e Y.

Especifique este parámetro al especificar X. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.

X_valid
DataFrame o ndarray o Dataset o TabularDataset
Requerido

Características de validación que se usan al ajustar canalizaciones durante un experimento.

Si se especifica, se debe especificar también y_valid o sample_weight_valid. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

y_valid
DataFrame o ndarray o Dataset o TabularDataset
Requerido

Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento.

Tanto X_valid como y_valid deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

sample_weight_valid
DataFrame o ndarray o TabularDataset
Requerido

Peso que se debe dar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila en datos X e Y.

Especifique este parámetro al especificar X_valid. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.

cv_splits_indices
List[List[ndarray]]
Requerido

Índices donde dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegamiento cruzado independiente y, dentro de cada uno de ellos, se proporcionan 2 matrices de Numpy, la primera con los índices para las muestras que se usarán para los datos de entrenamiento y la segunda con los índices que se usarán para los datos de validación. Es decir, [[t1, v1], [t2, v2], ...] donde t1 son los índices de entrenamiento para el primer plegamiento cruzado y v1 son los índices de validación para el primer plegamiento cruzado.

Para especificar los datos existentes como datos de validación, use validation_data. Para permitir que AutoML extraiga datos de validación de los datos de entrenamiento en su lugar, especifique n_cross_validations o validation_size. Use cv_split_column_names si tiene columnas de validación cruzada en training_data.

validation_size
float
Requerido

Fracción de los datos que se va a contener para la validación cuando no se especifican los datos de validación de usuario. Debe estar entre 0,0 y 1,0 no inclusivo.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size para extraer los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

n_cross_validations
int
Requerido

Número de validaciones cruzadas que se realizan cuando no se especifican los datos de validación del usuario.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size para extraer los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

y_min
float
Requerido

Valor mínimo de y para un experimento de regresión. La combinación de y_min y y_max se usa para normalizar las métricas del conjunto de pruebas en función del intervalo de datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

y_max
float
Requerido

Valor máximo de y para un experimento de regresión. La combinación de y_min y y_max se usa para normalizar las métricas del conjunto de pruebas en función del intervalo de datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

num_classes
int
Requerido

Número de clases de los datos de etiqueta para un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

featurization
str o FeaturizationConfig
Requerido

Indicador 'auto' / 'off' / FeaturizationConfig para saber si el paso de caracterización debe realizarse automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar.

El tipo de columna se detecta automáticamente. En función del tipo de columna detectado, el preprocesamiento y la caracterización se realizan de la manera siguiente:

  • Categoría: codificación de destino, codificación one-hot, eliminación de categorías de cardinalidad alta e imputación de valores que faltan.

  • Numérico: imputación de los valores que faltan, la distancia del clúster y el peso de la evidencia.

  • DateTime: varias características, como día, segundos, minutos, horas, etc.

  • Texto: contenedor de palabras, incrustación de palabras previamente entrenada y codificación de destino de texto.

Puede encontrar más información en el artículo Configuración de experimentos de aprendizaje automático automatizado en Python.

Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada actualmente admite el bloqueo de un conjunto de transformadores, la actualización de la finalidad de la columna, la edición de parámetros del transformador y la colocación de columnas. Para obtener más información, consulte Personalización de las reglas de alertas.

Nota: Las características de series temporales se controlan por separado cuando el tipo de tarea se establece en previsión independiente de este parámetro.

max_cores_per_iteration
int
Requerido

Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:

  • Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.

  • Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.

  • Igual a 1, el valor predeterminado.

max_concurrent_iterations
int
Requerido

representa el número máximo de iteraciones que se ejecutarán en paralelo. El valor predeterminado es 1.

  • Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varias ejecuciones primarias de experimentos de AutoML ejecutadas en paralelo en un único clúster de AmlCompute, la suma de los valores max_concurrent_iterations de todos los experimentos debe ser menor o igual que el número máximo de nodos. De lo contrario, las ejecuciones se pondrán en cola hasta que los nodos estén disponibles.

  • DSVM admite varias iteraciones por nodo. max_concurrent_iterations debe ser menor o igual que el número de GPU disponibles en cada nodo. En el caso de varios experimentos que se ejecutan en paralelo en una sola DSVM, la suma de los valores max_concurrent_iterations de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • Databricks: max_concurrent_iterations debe ser menor o igual que el número de nodos de trabajo en Databricks.

max_concurrent_iterations no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations.

iteration_timeout_minutes
int
Requerido

Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.

mem_in_mb
int
Requerido

Uso máximo de memoria para el que se puede ejecutar cada iteración antes de finalizar. Si no se especifica, se usa un valor de 1 PB 1073741824 MB.

enforce_time_on_windows
bool
Requerido

Si se debe aplicar un límite de tiempo al entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir límites de recursos en Windows.

experiment_timeout_hours
float
Requerido

Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal, como 0,25, que representa 15 minutos. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea mayor que 10 000 000 (filas por columna) o resultados de un error.

experiment_exit_score
float
Requerido

Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo.

enable_early_stopping
bool
Requerido

Marca para permitir la finalización prematura si la puntuación no mejora a corto plazo. El valor predeterminado es True.

Lógica de detención temprana:

  • No hay detención anticipada para las primeras 20 iteraciones (puntos de referencia).

  • La ventana de detención temprana se inicia en la iteración número 21 y busca early_stopping_n_iters iteraciones

    (establecido actualmente en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.

  • AutoML todavía programa dos iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a

    puntuaciones más altas.

  • La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las anteriores iteraciones

    early_stopping_n_iters; es decir, si no hay ninguna mejora en la puntuación de iteraciones early_stopping_n_iters.

blocked_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Lista de algoritmos que se omitirán para un experimento. Si enable_tf es False, los modelos de TensorFlow se incluyen en blocked_models.

blacklist_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Parámetro en desuso, use blocked_models en su lugar.

exclude_nan_labels
bool
Requerido

Si se excluyen filas con valores NaN en la etiqueta. El valor predeterminado es True.

verbosity
int
Requerido

Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.

enable_tf
bool
Requerido

Parámetro en desuso para habilitar o deshabilitar algoritmos de Tensorflow. El valor predeterminado es False.

model_explainability
bool
Requerido

Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar).

allowed_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en blocked_models o los modelos de TensorFlow en desuso. Los modelos admitidos para cada tipo de tarea se describen en la clase SupportedModels.

whitelist_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Parámetro en desuso, use allowed_models en su lugar.

enable_onnx_compatible_models
bool
Requerido

Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para obtener más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.

forecasting_parameters
ForecastingParameters
Requerido

Objeto ForecastingParameters que contiene todos los parámetros específicos de la previsión.

time_column_name
str
Requerido

Nombre de la columna de hora. Este parámetro es obligatorio en la previsión para especificar la columna de fecha y hora en los datos de entrada que se usa para crear la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

max_horizon
int
Requerido

Horizonte de previsión máximo deseado en unidades de frecuencia de la serie temporal. El valor predeterminado es 1.

Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, p. ej., semanales, mensuales, que debe predecir el pronosticador. Cuando el tipo de tarea es previsión, se requiere este parámetro. Para más información sobre cómo establecer los parámetros de previsión, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

grain_column_names
str o list(str)
Requerido

Nombres de las columnas que se usan para agrupar una serie temporal. Se puede usar para crear varias series. Si no se define el nivel de detalle, el conjunto de datos se presupone una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_lags
int o list(int)
Requerido

Número de períodos pasados para retrasar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al pronosticar, este parámetro representa el número de filas para retrasar de los valores de destino en función de la frecuencia de los datos. Se representa como una lista o un entero único. El retardo se debe usar cuando la relación entre las variables independientes y la variable dependiente no coincide o está en correlación de forma predeterminada. Por ejemplo, al intentar pronosticar la demanda de un producto, la demanda de cualquier mes puede depender del precio de determinados artículos 3 meses antes. En este ejemplo, es posible que desee retrasar el destino (demanda) negativamente en 3 meses para que el modelo esté entrenando en la relación correcta. Para más información, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python.

feature_lags
str
Requerido

Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_rolling_window_size
int
Requerido

Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al pronosticar, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño total del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.

country_or_region
str
Requerido

País o región que se usa para generar características de vacaciones. Debe ser el código ISO 3166 de país o región de dos letras, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.

use_stl
str
Requerido

Configura la descomposición de STL de la columna de destino de la serie temporal. use_stl puede tomar tres valores: None (valor predeterminado), sin descomposición de STL, "season", solo para generar componente de temporadas y "season_trend", para generar componentes de temporada y tendencias. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

seasonality
int o str
Requerido

Establece la estacionalidad de la serie temporal. Si la estacionalidad se establece en "auto", se infiere. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

short_series_handling_configuration
str
Requerido

Parámetro que define si AutoML debe controlar series temporales cortas.

Valores posibles: "auto" (valor predeterminado), "pad", "drop" y "None".

  • auto: se agregarán series cortas si no hay ninguna serie larga; de lo contrario, se descartarán las series cortas.
  • pad: se rellenarán todas las series cortas.
  • drop: se quitarán todas las series cortas.
  • None: no se modificarán las series cortas. Si se establece en "pad", la tabla se agregará con los ceros y los valores vacíos para los regresores y los valores aleatorios del destino con la media igual a la mediana del valor de destino para el identificador de serie temporal determinado. Si la mediana es mayor o igual que cero, el valor agregado mínimo se recortará en cero: Entrada:

Fecha

numeric_value

string

Destino

01-01-2020

23

green

55

Salida que da por sentado que el número mínimo de valores es cuatro:

Fecha

numeric_value

string

Destino

2019-12-29

0

N/D

55.1

2019-12-30

0

N/D

55.6

2019-12-31

0

N/D

54.5

01-01-2020

23

green

55

Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredado. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling por motivos de brevedad se marcan como handling_configuration y handling respectivamente).

Manejo

handling_configuration

control resultante

handling_configuration resultantes

True

auto

True

auto

True

Almohadilla

True

auto

True

drop

True

auto

True

None

False

None

False

auto

False

None

False

Almohadilla

False

None

False

drop

False

None

False

None

False

None

freq
str o None
Requerido

Frecuencia de pronóstico.

Al pronosticar, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de manera predeterminada. Opcionalmente, puede establecerla en un valor mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con la frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Vea la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects.

target_aggregation_function
str o None
Requerido

Función que se usará para agregar la columna de destino de serie temporal según la frecuencia especificada por el usuario. Si target_aggregation_function está establecido, pero el parámetro freq no lo está, se produce el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean".

Freq

target_aggregation_function

Mecanismo de corrección de regularidad de datos

Ninguno (predeterminado)

Ninguno (predeterminado)

La agregación no se aplica. Si no se puede generar la frecuencia válida, se generará el error.

Algún valor

Ninguno (predeterminado)

La agregación no se aplica. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es inferior al 90 %, se quitarán estos puntos; de lo contrario, se generará el error.

Ninguno (predeterminado)

Función de agregación

Se ha producido el error sobre los parámetros de frecuencia que faltan.

Algún valor

Función de agregación

Agregado a frecuencia mediante la función providedaggregation.

enable_voting_ensemble
bool
Requerido

Si se habilita o deshabilita la iteración votingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, vea Configuración del conjunto.

enable_stack_ensemble
bool
Requerido

Si se habilita o deshabilita la iteración de StackEnsemble. El valor predeterminado es none. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración del conjunto.

debug_log
str
Requerido

El archivo de registro para escribir la información de depuración. Si no se especifica, se usa "automl.log".

training_data
DataFrame o Dataset o DatasetDefinition o TabularDataset
Requerido

Datos de entrenamiento que se usarán dentro del experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica training_data, se debe especificar también el parámetro label_column_name.

training_data se introdujo en la versión 1.0.81.

validation_data
DataFrame o Dataset o DatasetDefinition o TabularDataset
Requerido

Datos de validación que se usarán dentro del experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica validation_data, se deben especificar los parámetros training_data y label_column_name.

validation_data se introdujo en la versión 1.0.81. Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

test_data
Dataset o TabularDataset
Requerido

La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de pruebas que se iniciarán automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones.

Si no se especifica este parámetro o el parámetro test_size, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columnas de etiqueta. Si se especifica test_data, se debe especificar el parámetro label_column_name.

test_size
float
Requerido

La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Qué fracción de los datos de entrenamiento se va a mantener para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones.

Debe estar entre 0,0 y 1,0 no inclusivo. Si se especifica test_size al mismo tiempo que validation_size, los datos de prueba se dividen de training_data antes de dividir los datos de validación. Por ejemplo, si validation_size=0.1, test_size=0.1 y los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas.

En las tareas de regresión se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba.

Si no se especifica este parámetro o el parámetro test_data, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.

label_column_name
Union[str, int]
Requerido

Nombre de la columna de etiqueta. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros.

Este parámetro es aplicable a los parámetros training_data, validation_data y test_data. label_column_name se introdujo en la versión 1.0.81.

weight_column_name
Union[str, int]
Requerido

Nombre de la columna de peso de muestra. El aprendizaje automático automatizado admite una columna de peso como entrada, lo que provoca que las filas de los datos se puedan subir o bajar. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros.

Este parámetro es aplicable a los parámetros training_data y validation_data. weight_column_names se introdujo en la versión 1.0.81.

cv_split_column_names
list(str)
Requerido

Lista de nombres de las columnas que contienen una división de validación cruzada personalizada. Cada una de las columnas de división de CV representa una división de CV donde cada fila se marca como 1 para el entrenamiento o 0 para la validación.

Este parámetro es aplicable al parámetro training_data para fines de validación cruzada personalizados. cv_split_column_names se introdujo en la versión 1.6.0

Use cv_split_column_names o cv_splits_indices.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

enable_local_managed
bool
Requerido

Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.

enable_dnn
bool
Requerido

Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado de init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

task
str o Tasks
Requerido

Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión", dependiendo del tipo de problema de aprendizaje automático automatizado que se va a resolver.

path
str
Requerido

Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".

iterations
int
Requerido

Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000.

primary_metric
str o Metric
Requerido

Métrica que Automated Machine Learning optimizará para la selección del modelo. AutoML recopila más métricas de las que puede optimizar. Puede usar para get_primary_metrics obtener una lista de métricas válidas para la tarea dada. Para obtener más información sobre cómo se calculan las métricas, vea https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Si no se especifica, la precisión se usa para las tareas de clasificación, la media normalizada al cuadrado se usa para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media se usa para la detección de objetos de imagen.

positive_label
Any
Requerido

Etiqueta de clase positiva que el aprendizaje automático automatizado utilizará para calcular las métricas binarias. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:

  1. La columna label consta de dos clases que indican que la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label; de lo contrario, AutoML elegirá una clase positiva en función del valor codificado en la etiqueta.
  2. Tarea de clasificación de varias clases con positive_label especificado

Para obtener más información sobre la clasificación, consulte Métricas para los escenarios de clasificación.

compute_target
AbstractComputeTarget
Requerido

El destino de proceso de Azure Machine Learning en el que ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para más información sobre los destinos de proceso.

spark_context
<xref:SparkContext>
Requerido

Contexto de Spark. Solo es aplicable cuando se usa en el entorno de Azure Databricks/Spark.

X
DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset
Requerido

Características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

y
DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset
Requerido

Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

sample_weight
DataFrame o ndarray o TabularDataset
Requerido

Peso que se debe dar a cada ejemplo de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e Y.

Especifique este parámetro al especificar X. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.

X_valid
DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset
Requerido

Características de validación que se usan al ajustar canalizaciones durante un experimento.

Si se especifica, se debe especificar también y_valid o sample_weight_valid. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

y_valid
DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset
Requerido

Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento.

Tanto X_valid como y_valid deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

sample_weight_valid
DataFrame o ndarray o TabularDataset
Requerido

Peso que se debe dar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila en datos X e Y.

Especifique este parámetro al especificar X_valid. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.

cv_splits_indices
List[List[ndarray]]
Requerido

Índices donde dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegamiento cruzado independiente y, dentro de cada uno de ellos, se proporcionan 2 matrices de Numpy, la primera con los índices para las muestras que se usarán para los datos de entrenamiento y la segunda con los índices que se usarán para los datos de validación. Es decir, [[t1, v1], [t2, v2], ...] donde t1 son los índices de entrenamiento para el primer plegamiento cruzado y v1 son los índices de validación para el primer plegamiento cruzado. Esta opción se admite cuando los datos se pasan como conjuntos de datos de características independientes y columna Etiqueta.

Para especificar los datos existentes como datos de validación, use validation_data. Para permitir que AutoML extraiga datos de validación de los datos de entrenamiento en su lugar, especifique n_cross_validations o validation_size. Use cv_split_column_names si tiene columnas de validación cruzada en training_data.

validation_size
float
Requerido

Fracción de los datos que se va a contener para la validación cuando no se especifican los datos de validación de usuario. Debe estar entre 0,0 y 1,0 no inclusivo.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size para extraer los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

n_cross_validations
int o str
Requerido

Número de validaciones cruzadas que se realizan cuando no se especifican los datos de validación del usuario.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size para extraer los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

y_min
float
Requerido

Valor mínimo de y para un experimento de regresión. La combinación de y_min y y_max se usa para normalizar las métricas del conjunto de pruebas en función del intervalo de datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

y_max
float
Requerido

Valor máximo de y para un experimento de regresión. La combinación de y_min y y_max se usa para normalizar las métricas del conjunto de pruebas en función del intervalo de datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

num_classes
int
Requerido

Número de clases de los datos de etiqueta para un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

featurization
str o FeaturizationConfig
Requerido

Indicador 'auto' / 'off' / FeaturizationConfig para saber si el paso de caracterización debe realizarse automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar.

El tipo de columna se detecta automáticamente. En función del tipo de columna detectado, el preprocesamiento y la caracterización se realizan de la manera siguiente:

  • Categoría: codificación de destino, codificación one-hot, eliminación de categorías de cardinalidad alta e imputación de valores que faltan.

  • Numérico: imputación de los valores que faltan, la distancia del clúster y el peso de la evidencia.

  • DateTime: varias características, como día, segundos, minutos, horas, etc.

  • Texto: contenedor de palabras, incrustación de palabras previamente entrenada y codificación de destino de texto.

Puede encontrar más información en el artículo Configuración de experimentos de aprendizaje automático automatizado en Python.

Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada actualmente admite el bloqueo de un conjunto de transformadores, la actualización de la finalidad de la columna, la edición de parámetros del transformador y la colocación de columnas. Para obtener más información, consulte Personalización de las reglas de alertas.

Nota: Las características de series temporales se controlan por separado cuando el tipo de tarea se establece en previsión independiente de este parámetro.

max_cores_per_iteration
int
Requerido

Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:

  • Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.

  • Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.

  • Igual a 1, el valor predeterminado.

max_concurrent_iterations
int
Requerido

representa el número máximo de iteraciones que se ejecutarán en paralelo. El valor predeterminado es 1.

  • Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varios experimentos se ejecutan en paralelo en un único clúster de AmlCompute, la suma de los max_concurrent_iterations valores de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • DSVM admite varias iteraciones por nodo. max_concurrent_iterations debe ser menor o igual que el número de GPU disponibles en cada nodo. En el caso de varios experimentos que se ejecutan en paralelo en una sola DSVM, la suma de los valores max_concurrent_iterations de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • Databricks: max_concurrent_iterations debe ser menor o igual que el número de nodos de trabajo en Databricks.

max_concurrent_iterations no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations.

iteration_timeout_minutes
int
Requerido

Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.

mem_in_mb
int
Requerido

Uso máximo de memoria para el que se puede ejecutar cada iteración antes de finalizar. Si no se especifica, se usa un valor de 1 PB 1073741824 MB.

enforce_time_on_windows
bool
Requerido

Si se debe aplicar un límite de tiempo al entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir límites de recursos en Windows.

experiment_timeout_hours
float
Requerido

Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal, como 0,25, que representa 15 minutos. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea mayor que 10 000 000 (filas por columna) o resultados de un error.

experiment_exit_score
float
Requerido

Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, vea ">>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria_.<<

enable_early_stopping
bool
Requerido

Marca para permitir la finalización prematura si la puntuación no mejora a corto plazo. El valor predeterminado es True.

Lógica de detención temprana:

  • No hay detención anticipada para las primeras 20 iteraciones (puntos de referencia).

  • La ventana de detención temprana se inicia en la iteración 21 y busca early_stopping_n_iters iteraciones (actualmente establecida en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.

  • AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a puntuaciones más altas.

  • La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las iteraciones anteriores de early_stopping_n_iters, es decir, si no hay ninguna mejora en la puntuación para early_stopping_n_iters iteraciones.

blocked_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Lista de algoritmos que se omitirán para un experimento. Si enable_tf es False, los modelos de TensorFlow se incluyen en blocked_models.

blacklist_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Parámetro en desuso, use blocked_models en su lugar.

exclude_nan_labels
bool
Requerido

Si se excluyen filas con valores NaN en la etiqueta. El valor predeterminado es True.

verbosity
int
Requerido

Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.

enable_tf
bool
Requerido

Si se habilitan o deshabilitan los algoritmos de TensorFlow. El valor predeterminado es False.

model_explainability
bool
Requerido

Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar).

allowed_models
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>
Requerido

Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en blocked_models o los modelos de TensorFlow en desuso. Los modelos admitidos para cada tipo de tarea se describen en la clase SupportedModels.

allowed_models
Requerido

Lista de nombres de modelo para buscar un experimento. Si no se especifica, se usan todos los modelos admitidos para la tarea menos los especificados en blocked_models o los modelos de TensorFlow en desuso. Los modelos admitidos para cada tipo de tarea se describen en la clase SupportedModels.

whitelist_models
Requerido

Parámetro en desuso, use allowed_models en su lugar.

enable_onnx_compatible_models
bool
Requerido

Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para obtener más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.

forecasting_parameters
ForecastingParameters
Requerido

Objeto que contiene todos los parámetros específicos de previsión.

time_column_name
str
Requerido

Nombre de la columna de hora. Este parámetro es obligatorio en la previsión para especificar la columna de fecha y hora en los datos de entrada que se usa para crear la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

max_horizon
int
Requerido

Horizonte de previsión máximo deseado en unidades de frecuencia de la serie temporal. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, p. ej., semanales, mensuales, que debe predecir el pronosticador. Cuando el tipo de tarea es previsión, se requiere este parámetro. Para más información sobre cómo establecer los parámetros de previsión, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python.

grain_column_names
str o list(str)
Requerido

Nombres de las columnas que se usan para agrupar una serie temporal. Se puede usar para crear varias series. Si no se define el nivel de detalle, el conjunto de datos se presupone una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_lags
int o list(int)
Requerido

Número de períodos pasados para retrasar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al pronosticar, este parámetro representa el número de filas para retrasar de los valores de destino en función de la frecuencia de los datos. Se representa como una lista o un entero único. El retardo se debe usar cuando la relación entre las variables independientes y la variable dependiente no coincide o está en correlación de forma predeterminada. Por ejemplo, al intentar pronosticar la demanda de un producto, la demanda de cualquier mes puede depender del precio de determinados artículos 3 meses antes. En este ejemplo, es posible que desee retrasar el destino (demanda) negativamente en 3 meses para que el modelo esté entrenando en la relación correcta. Para más información, consulte Configuración de AutoML para entrenar un modelo de previsión de series temporales con Python.

feature_lags
str
Requerido

Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_rolling_window_size
int
Requerido

Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al pronosticar, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño total del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.

country_or_region
str
Requerido

País o región que se usa para generar características de vacaciones. Deben ser los códigos ISO 3166 de país o región de dos letras, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.

use_stl
str
Requerido

Configura la descomposición de STL de la columna de destino de la serie temporal. use_stl puede tomar tres valores: None (valor predeterminado), sin descomposición de STL, "season", solo para generar componente de temporadas y "season_trend", para generar componentes de temporada y tendencias. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

seasonality
int
Requerido

Establece la estacionalidad de la serie temporal. Si la estacionalidad se establece en -1, se infiere. Si use_stl no está establecido, no se usará este parámetro. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

short_series_handling_configuration
str
Requerido

Parámetro que define si AutoML debe controlar series temporales cortas.

Valores posibles: "auto" (valor predeterminado), "pad", "drop" y "None".

  • auto: se agregarán series cortas si no hay ninguna serie larga; de lo contrario, se descartarán las series cortas.
  • pad: se rellenarán todas las series cortas.
  • drop: se quitarán todas las series cortas.
  • None: no se modificarán las series cortas. Si se establece en "pad", la tabla se agregará con los ceros y los valores vacíos para los regresores y los valores aleatorios del destino con la media igual a la mediana del valor de destino para el identificador de serie temporal determinado. Si la mediana es mayor o igual que cero, el valor agregado mínimo se recortará en cero: Entrada:

Fecha

numeric_value

string

Destino

01-01-2020

23

green

55

La salida supone que el número mínimo de valores es cuatro: +————+—————+———-+—––+ | Fecha | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | verde | 55 | +————+—————+———-+——–+

Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredado. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling por motivos de brevedad se marcan como handling_configuration y handling respectivamente).

Manejo

handling_configuration

control resultante

handling_configuration resultante

True

auto

True

auto

True

Almohadilla

True

auto

True

drop

True

auto

True

None

False

None

False

auto

False

None

False

Almohadilla

False

None

False

drop

False

None

False

None

False

None

freq
str o None
Requerido

Frecuencia de pronóstico.

Al pronosticar, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de manera predeterminada. Opcionalmente, puede establecerla en un valor mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con la frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Vea la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects.

target_aggregation_function
str o None
Requerido

Función que se usará para agregar la columna de destino de serie temporal según la frecuencia especificada por el usuario. Si target_aggregation_function está establecido, pero el parámetro freq no lo está, se produce el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean".

Freq

target_aggregation_function

Mecanismo de corrección de regularidad de datos

Ninguno (predeterminado)

Ninguno (predeterminado)

No se aplica la agregación. Si no se puede generar la frecuencia válida, se producirá el error.

Algún valor

Ninguno (predeterminado)

No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitará el 90 % de estos puntos; de lo contrario, se generará el error.

Ninguno (predeterminado)

Función de agregación

Se ha producido el error sobre los parámetros de frecuencia que faltan.

Algún valor

Función de agregación

Agregado a frecuencia mediante la función providedaggregation.

enable_voting_ensemble
bool
Requerido

Si se habilita o deshabilita la iteración votingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, vea Configuración del conjunto.

enable_stack_ensemble
bool
Requerido

Si se habilita o deshabilita la iteración de StackEnsemble. El valor predeterminado es none. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración del conjunto.

debug_log
str
Requerido

El archivo de registro para escribir la información de depuración. Si no se especifica, se usa "automl.log".

training_data
DataFrame o Dataset o DatasetDefinition o TabularDataset
Requerido

Datos de entrenamiento que se usarán dentro del experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica training_data, se debe especificar también el parámetro label_column_name.

training_data se introdujo en la versión 1.0.81.

validation_data
DataFrame o Dataset o DatasetDefinition o TabularDataset
Requerido

Datos de validación que se usarán dentro del experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica validation_data, se deben especificar los parámetros training_data y label_column_name.

validation_data se introdujo en la versión 1.0.81. Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

test_data
Dataset o TabularDataset
Requerido

La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de pruebas que se iniciarán automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones.

Si no se especifica este parámetro o el parámetro test_size, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columnas de etiqueta. Si se especifica test_data, se debe especificar el parámetro label_column_name.

test_size
float
Requerido

La característica Prueba de modelo mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y puede cambiar en cualquier momento. Qué fracción de los datos de entrenamiento se va a mantener para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La serie de pruebas calculará las predicciones con el mejor modelo y generará métricas con arreglo a estas predicciones.

Debe estar entre 0,0 y 1,0 no inclusivo. Si se especifica test_size al mismo tiempo que validation_size, los datos de prueba se dividen de training_data antes de dividir los datos de validación. Por ejemplo, si validation_size=0.1, test_size=0.1 y los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas.

En las tareas de regresión se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba.

Si no se especifica este parámetro o el parámetro test_data, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.

label_column_name
Union[str, int]
Requerido

Nombre de la columna de etiqueta. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros.

Este parámetro es aplicable a los parámetros training_data, validation_data y test_data. label_column_name se introdujo en la versión 1.0.81.

weight_column_name
Union[str, int]
Requerido

Nombre de la columna de peso de muestra. El aprendizaje automático automatizado admite una columna de peso como entrada, lo que provoca que las filas de los datos se puedan subir o bajar. Si los datos de entrada son de un elemento Pandas.DataFrame que no tiene nombres de columna, se pueden usar índices de columna en su lugar, expresados como enteros.

Este parámetro es aplicable a los parámetros training_data y validation_data. weight_column_names se introdujo en la versión 1.0.81.

cv_split_column_names
list(str)
Requerido

Lista de nombres de las columnas que contienen una división de validación cruzada personalizada. Cada una de las columnas de división de CV representa una división de CV donde cada fila se marca como 1 para el entrenamiento o 0 para la validación.

Este parámetro es aplicable al parámetro training_data para fines de validación cruzada personalizados. cv_split_column_names se introdujo en la versión 1.6.0

Use cv_split_column_names o cv_splits_indices.

Para obtener más información, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

enable_local_managed
bool
Requerido

Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.

enable_dnn
bool
Requerido

Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado de init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

Comentarios

En el código siguiente se muestra un ejemplo básico de creación de un objeto AutoMLConfig y envío de un experimento para la regresión:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Hay disponible un ejemplo completo en Regresión.

En estos cuadernos se muestran ejemplos de uso de AutoMLConfig para la previsión:

Puede encontrar ejemplos de uso de AutoMLConfig para todos los tipos de tareas en estos cuadernos de aprendizaje automático automatizado.

Para obtener información sobre el aprendizaje automático automatizado, consulte los artículos:

Para obtener más información sobre las distintas opciones para configurar las divisiones de datos de entrenamiento/validación y la validación cruzada para el aprendizaje automático automatizado, AutoML y experimentos, consulte Configuración de las divisiones de datos y la validación cruzada en aprendizaje automático automatizado.

Métodos

as_serializable_dict

Convierta el objeto en diccionario.

get_supported_dataset_languages

Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

as_serializable_dict

Convierta el objeto en diccionario.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parámetros

cls
Requerido

Objeto de clase de AutoMLConfig.

use_gpu
Requerido

Valor booleano que indica si se usa o no el proceso de GPU.

Devoluciones

Diccionario de formato {: }. El código de idioma cumple con el estándar ISO 639-3; consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes