Compartir a través de


AutoMLConfig Clase

Representa la configuración para enviar un experimento de APRENDIZAJE automático automatizado en Azure Machine Learning.

Este objeto de configuración contiene y conserva los parámetros para configurar la ejecución del experimento, así como los datos de entrenamiento que se usarán en tiempo de ejecución. Para obtener instrucciones sobre cómo seleccionar la configuración, consulte https://aka.ms/AutoMLConfig.

Cree un autoMLConfig.

Constructor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parámetros

Nombre Description
task
Requerido

Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver.

path
Requerido
str

Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".

iterations
Requerido
int

Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones.

primary_metric
Requerido

La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen.

positive_label
Requerido
Any

Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:

  1. la columna label consta de dos clases que indican la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label ; de lo contrario, AutoML elegirá una clase positiva basada en el valor codificado por etiqueta.
  2. tarea de clasificación de varias clases con positive_label especificado

Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación.

compute_target
Requerido

Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para obtener más información sobre los destinos de proceso.

spark_context
Requerido
<xref:SparkContext>

Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark.

X
Requerido

Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

y
Requerido

Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

sample_weight
Requerido

Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y.

Especifique este parámetro al especificar X. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.

X_valid
Requerido

Características de validación que se usarán al ajustar canalizaciones durante un experimento.

Si se especifica, y_valid también se debe especificar o sample_weight_valid . Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

y_valid
Requerido

Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento.

Tanto como X_validy_valid deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

sample_weight_valid
Requerido

Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y.

Especifique este parámetro al especificar X_valid. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.

cv_splits_indices
Requerido

Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado.

Para especificar los datos existentes como datos de validación, use validation_data. Para permitir que AutoML extraiga los datos de validación de los datos de entrenamiento en su lugar, especifique n_cross_validations o validation_size. Use cv_split_column_names si tiene columnas de validación cruzada en training_data.

validation_size
Requerido

Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

n_cross_validations
Requerido
int

Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

y_min
Requerido

Valor mínimo de y para un experimento de regresión. La combinación de y y_min se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de y_max datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

y_max
Requerido

Valor máximo de y para un experimento de regresión. La combinación de y y_min se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de y_max datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

num_classes
Requerido
int

Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

featurization
Requerido

'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar.

El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera:

  • Categoría: codificación de destino, una codificación activa, quitar categorías de cardinalidad alta, imputar valores que faltan.

  • Numérico: imputa los valores que faltan, la distancia del clúster, el peso de la evidencia.

  • DateTime: varias características como día, segundos, minutos, horas, etc.

  • Texto: bolsa de palabras, incrustación de Word previamente entrenada, codificación de destino de texto.

Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python.

Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características.

Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro.

max_cores_per_iteration
Requerido
int

Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:

  • Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.

  • Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.

  • Igual a 1, el valor predeterminado.

max_concurrent_iterations
Requerido
int

Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.

  • Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varias ejecuciones primarias del experimento AutoML ejecutadas en paralelo en un único clúster de AmlCompute, la suma de los max_concurrent_iterations valores de todos los experimentos debe ser menor o igual que el número máximo de nodos. De lo contrario, las ejecuciones se ponerán en cola hasta que los nodos estén disponibles.

  • DSVM admite varias iteraciones por nodo. max_concurrent_iterations debe ser menor o igual que el número de núcleos de la DSVM. Para varios experimentos se ejecutan en paralelo en una sola DSVM, la suma de los max_concurrent_iterations valores de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • Databricks max_concurrent_iterations : debe ser menor o igual que el número de nodos de trabajo en Databricks.

max_concurrent_iterations no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations.

iteration_timeout_minutes
Requerido
int

Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.

mem_in_mb
Requerido
int

Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB.

enforce_time_on_windows
Requerido

Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows.

experiment_timeout_hours
Requerido

Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error.

experiment_exit_score
Requerido

Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo.

enable_early_stopping
Requerido

Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True.

Lógica de detención temprana:

  • No hay una detención temprana para las primeras 20 iteraciones (puntos de referencia).

  • La ventana de detención temprana se inicia en la iteración 21ª y busca early_stopping_n_iters iteraciones

    (actualmente se establece en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.

  • AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a una iteración de conjunto

    puntuaciones más altas.

  • La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para el pasado.

    early_stopping_n_iters iteraciones, es decir, si no hay ninguna mejora en la puntuación para las iteraciones de early_stopping_n_iters.

blocked_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

Lista de algoritmos que se omitirán para un experimento. Si enable_tf es False, los modelos de TensorFlow se incluyen en blocked_models.

blacklist_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

En su lugar, use blocked_models parámetro en desuso.

exclude_nan_labels
Requerido

Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True.

verbosity
Requerido
int

Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.

enable_tf
Requerido

Parámetro en desuso para habilitar o deshabilitar algoritmos de Tensorflow. El valor predeterminado es False.

model_explainability
Requerido

Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado).

allowed_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o blocked_models en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .

whitelist_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

En su lugar, use allowed_models parámetro en desuso.

enable_onnx_compatible_models
Requerido

Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.

forecasting_parameters
Requerido

Objeto ForecastingParameters que contiene todos los parámetros específicos de previsión.

time_column_name
Requerido
str

Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

max_horizon
Requerido
int

Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1.

Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

grain_column_names
Requerido
str o list(str)

Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_lags
Requerido
int o list(int)

Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales.

feature_lags
Requerido
str

Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_rolling_window_size
Requerido
int

Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.

country_or_region
Requerido
str

País o región que se usa para generar características de vacaciones. Deben ser código de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.

use_stl
Requerido
str

Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

seasonality
Requerido
int o str

Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en "auto", se deducirá. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

short_series_handling_configuration
Requerido
str

Parámetro que define cómo si AutoML debe controlar series temporales cortas.

Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None.

  • auto short series se rellenará si no hay series largas; de lo contrario, se quitará la serie corta.
  • relleno de todas las series cortas se rellenará.
  • quitar todas las series cortas se quitarán".
  • Ninguna de las series cortas no se modificará. Si se establece en "pad", la tabla se rellenará con los ceros y los valores vacíos de los regresores y los valores aleatorios para el destino con la media igual a la mediana del valor de destino para un identificador de serie temporal determinado. Si la mediana es mayor o igual a cero, el valor mínimo rellenado se recortará por cero: Entrada:

Fecha

numeric_value

cadena

Destino

01-01-2020

23

verde

55

La salida supone que el número mínimo de valores es cuatro:

Fecha

numeric_value

cadena

Destino

2019-12-29

0

NA

55.1

2019-12-30

0

NA

55.6

2019-12-31

0

NA

54.5

01-01-2020

23

verde

55

Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente).

manipulación

handling_configuration

control resultante

handling_configuration resultantes

Cierto

Automático

Cierto

Automático

Cierto

almohadilla

Cierto

Automático

Cierto

Soltar

Cierto

Automático

Cierto

Ninguno

Falso

Ninguno

Falso

Automático

Falso

Ninguno

Falso

almohadilla

Falso

Ninguno

Falso

Soltar

Falso

Ninguno

Falso

Ninguno

Falso

Ninguno

freq
Requerido
str o None

Frecuencia de previsión.

Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
Requerido
str o None

Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean".

Freq

target_aggregation_function

Mecanismo de corrección de la regularidad de los datos

Ninguno (valor predeterminado)

Ninguno (valor predeterminado)

No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error.

Algún valor

Ninguno (valor predeterminado)

No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error.

Ninguno (valor predeterminado)

Función de agregación

Se ha generado el error sobre los parámetros de frecuencia que faltan.

Algún valor

Función de agregación

Agregado a frecuencia mediante la función providedaggregation.

enable_voting_ensemble
Requerido

Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.

enable_stack_ensemble
Requerido

Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.

debug_log
Requerido
str

Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log".

training_data
Requerido

Los datos de entrenamiento que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo). Si training_data se especifica , también se debe especificar el label_column_name parámetro .

training_data se introdujo en la versión 1.0.81.

validation_data
Requerido

Los datos de validación que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica validation_data, se deben especificar los parámetros training_data y label_column_name.

validation_data se introdujo en la versión 1.0.81. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

test_data
Requerido

La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones.

Si no se especifica este parámetro o el test_size parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columna de etiqueta. Si test_data se especifica , se debe especificar el label_column_name parámetro .

test_size
Requerido

La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones.

Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Si test_size se especifica al mismo tiempo que validation_size, los datos de prueba se dividen antes de dividir los datos de training_data validación. Por ejemplo, si validation_size=0.1y test_size=0.1 los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas.

En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba.

Si no se especifica este parámetro o el test_data parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.

label_column_name
Requerido

Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros.

Este parámetro es aplicable a training_datalos parámetros y validation_datatest_data . label_column_name se introdujo en la versión 1.0.81.

weight_column_name
Requerido

Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros.

Este parámetro es aplicable a training_data los parámetros y validation_data . weight_column_names se introdujo en la versión 1.0.81.

cv_split_column_names
Requerido

Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación.

Este parámetro es aplicable al training_data parámetro con fines de validación cruzada personalizados. cv_split_column_names se introdujo en la versión 1.6.0

Use o cv_split_column_namescv_splits_indices.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

enable_local_managed
Requerido

Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.

enable_dnn
Requerido

Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

task
Requerido

Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver.

path
Requerido
str

Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".

iterations
Requerido
int

Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones.

primary_metric
Requerido

La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen.

positive_label
Requerido
Any

Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:

  1. la columna label consta de dos clases que indican la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label ; de lo contrario, AutoML elegirá una clase positiva basada en el valor codificado por etiqueta.
  2. tarea de clasificación de varias clases con positive_label especificado

Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación.

compute_target
Requerido

Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para obtener más información sobre los destinos de proceso.

spark_context
Requerido
<xref:SparkContext>

Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark.

X
Requerido

Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

y
Requerido

Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.

sample_weight
Requerido

Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y.

Especifique este parámetro al especificar X. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.

X_valid
Requerido

Características de validación que se usarán al ajustar canalizaciones durante un experimento.

Si se especifica, y_valid también se debe especificar o sample_weight_valid . Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

y_valid
Requerido

Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento.

Tanto como X_validy_valid deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.

sample_weight_valid
Requerido

Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y.

Especifique este parámetro al especificar X_valid. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.

cv_splits_indices
Requerido

Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado. Esta opción se admite cuando los datos se pasan como conjuntos de datos de características independientes y columna Etiqueta.

Para especificar los datos existentes como datos de validación, use validation_data. Para permitir que AutoML extraiga los datos de validación de los datos de entrenamiento en su lugar, especifique n_cross_validations o validation_size. Use cv_split_column_names si tiene columnas de validación cruzada en training_data.

validation_size
Requerido

Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

n_cross_validations
Requerido
int o str

Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario.

Especifique validation_data para proporcionar datos de validación; de lo contrario, establezca n_cross_validations o validation_size extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use cv_split_column_names.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

y_min
Requerido

Valor mínimo de y para un experimento de regresión. La combinación de y y_min se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de y_max datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

y_max
Requerido

Valor máximo de y para un experimento de regresión. La combinación de y y_min se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de y_max datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

num_classes
Requerido
int

Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.

featurization
Requerido

'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar.

El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera:

  • Categoría: codificación de destino, una codificación activa, quitar categorías de cardinalidad alta, imputar valores que faltan.

  • Numérico: imputa los valores que faltan, la distancia del clúster, el peso de la evidencia.

  • DateTime: varias características como día, segundos, minutos, horas, etc.

  • Texto: bolsa de palabras, incrustación de Word previamente entrenada, codificación de destino de texto.

Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python.

Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características.

Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro.

max_cores_per_iteration
Requerido
int

Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:

  • Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.

  • Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.

  • Igual a 1, el valor predeterminado.

max_concurrent_iterations
Requerido
int

Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.

  • Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varios experimentos se ejecutan en paralelo en un único clúster de AmlCompute, la suma de los max_concurrent_iterations valores de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • DSVM admite varias iteraciones por nodo. max_concurrent_iterations debe ser menor o igual que el número de núcleos de la DSVM. Para varios experimentos se ejecutan en paralelo en una sola DSVM, la suma de los max_concurrent_iterations valores de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • Databricks max_concurrent_iterations : debe ser menor o igual que el número de nodos de trabajo en Databricks.

max_concurrent_iterations no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations.

iteration_timeout_minutes
Requerido
int

Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.

mem_in_mb
Requerido
int

Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB.

enforce_time_on_windows
Requerido

Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows.

experiment_timeout_hours
Requerido

Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error.

experiment_exit_score
Requerido

Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, vea este archivo >>article https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<

enable_early_stopping
Requerido

Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True.

Lógica de detención temprana:

  • No hay una detención temprana para las primeras 20 iteraciones (puntos de referencia).

  • La ventana de detención temprana se inicia en la iteración 21ª y busca early_stopping_n_iters iteraciones (actualmente establecida en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.

  • AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a puntuaciones más altas.

  • La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las iteraciones anteriores de early_stopping_n_iters, es decir, si no hay ninguna mejora en la puntuación para early_stopping_n_iters iteraciones.

blocked_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

Lista de algoritmos que se omitirán para un experimento. Si enable_tf es False, los modelos de TensorFlow se incluyen en blocked_models.

blacklist_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

En su lugar, use blocked_models parámetro en desuso.

exclude_nan_labels
Requerido

Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True.

verbosity
Requerido
int

Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.

enable_tf
Requerido

Si se habilitan o deshabilitan los algoritmos de TensorFlow. El valor predeterminado es False.

model_explainability
Requerido

Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado).

allowed_models
Requerido
list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task>

Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o blocked_models en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .

allowed_models
Requerido

Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o blocked_models en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .

whitelist_models
Requerido

En su lugar, use allowed_models parámetro en desuso.

enable_onnx_compatible_models
Requerido

Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.

forecasting_parameters
Requerido

Objeto que contiene todos los parámetros específicos de previsión.

time_column_name
Requerido
str

Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

max_horizon
Requerido
int

Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales.

grain_column_names
Requerido
str o list(str)

Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_lags
Requerido
int o list(int)

Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales.

feature_lags
Requerido
str

Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

target_rolling_window_size
Requerido
int

Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.

country_or_region
Requerido
str

País o región que se usa para generar características de vacaciones. Deben ser códigos de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.

use_stl
Requerido
str

Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

seasonality
Requerido
int

Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en -1, se deducirá. Si no se establece use_stl, no se usará este parámetro. Esta configuración está en desuso. Use forecasting_parameters en su lugar.

short_series_handling_configuration
Requerido
str

Parámetro que define cómo si AutoML debe controlar series temporales cortas.

Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None.

  • auto short series se rellenará si no hay series largas; de lo contrario, se quitará la serie corta.
  • relleno de todas las series cortas se rellenará.
  • quitar todas las series cortas se quitarán".
  • Ninguna de las series cortas no se modificará. Si se establece en "pad", la tabla se rellenará con los ceros y los valores vacíos de los regresores y los valores aleatorios para el destino con la media igual a la mediana del valor de destino para un identificador de serie temporal determinado. Si la mediana es mayor o igual a cero, el valor mínimo rellenado se recortará por cero: Entrada:

Fecha

numeric_value

cadena

Destino

01-01-2020

23

verde

55

La salida supone que el número mínimo de valores es cuatro: +————+—————+———-+—–+| Fecha | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | verde | 55 | +————+—————+———-+——–+

Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente).

manipulación

handling_configuration

control resultante

handling_configuration resultantes

Cierto

Automático

Cierto

Automático

Cierto

almohadilla

Cierto

Automático

Cierto

Soltar

Cierto

Automático

Cierto

Ninguno

Falso

Ninguno

Falso

Automático

Falso

Ninguno

Falso

almohadilla

Falso

Ninguno

Falso

Soltar

Falso

Ninguno

Falso

Ninguno

Falso

Ninguno

freq
Requerido
str o None

Frecuencia de previsión.

Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

target_aggregation_function
Requerido
str o None

Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean".

Freq

target_aggregation_function

Mecanismo de corrección de la regularidad de los datos

Ninguno (valor predeterminado)

Ninguno (valor predeterminado)

No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error.

Algún valor

Ninguno (valor predeterminado)

No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error.

Ninguno (valor predeterminado)

Función de agregación

Se ha generado el error sobre los parámetros de frecuencia que faltan.

Algún valor

Función de agregación

Agregado a frecuencia mediante la función providedaggregation.

enable_voting_ensemble
Requerido

Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.

enable_stack_ensemble
Requerido

Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.

debug_log
Requerido
str

Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log".

training_data
Requerido

Los datos de entrenamiento que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo). Si training_data se especifica , también se debe especificar el label_column_name parámetro .

training_data se introdujo en la versión 1.0.81.

validation_data
Requerido

Los datos de validación que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica validation_data, se deben especificar los parámetros training_data y label_column_name.

validation_data se introdujo en la versión 1.0.81. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

test_data
Requerido

La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones.

Si no se especifica este parámetro o el test_size parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columna de etiqueta. Si test_data se especifica , se debe especificar el label_column_name parámetro .

test_size
Requerido

La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones.

Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Si test_size se especifica al mismo tiempo que validation_size, los datos de prueba se dividen antes de dividir los datos de training_data validación. Por ejemplo, si validation_size=0.1y test_size=0.1 los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas.

En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba.

Si no se especifica este parámetro o el test_data parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.

label_column_name
Requerido

Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros.

Este parámetro es aplicable a training_datalos parámetros y validation_datatest_data . label_column_name se introdujo en la versión 1.0.81.

weight_column_name
Requerido

Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros.

Este parámetro es aplicable a training_data los parámetros y validation_data . weight_column_names se introdujo en la versión 1.0.81.

cv_split_column_names
Requerido

Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación.

Este parámetro es aplicable al training_data parámetro con fines de validación cruzada personalizados. cv_split_column_names se introdujo en la versión 1.6.0

Use o cv_split_column_namescv_splits_indices.

Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

enable_local_managed
Requerido

Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.

enable_dnn
Requerido

Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

Comentarios

El código siguiente muestra un ejemplo básico de creación de un objeto AutoMLConfig y el envío de un experimento para la regresión:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Hay disponible un ejemplo completo en Regresión

Algunos ejemplos de uso de AutoMLConfig para la previsión se encuentran en estos cuadernos:

Puede encontrar ejemplos de uso de AutoMLConfig para todos los tipos de tareas en estos cuadernos de ML automatizados.

Para obtener información general sobre ml automatizado, consulte los artículos:

Para obtener más información sobre las distintas opciones para configurar divisiones de datos de entrenamiento y validación cruzada para el aprendizaje automático automatizado, AutoML, experimentos, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

Métodos

as_serializable_dict

Convierta el objeto en diccionario.

get_supported_dataset_languages

Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

as_serializable_dict

Convierta el objeto en diccionario.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parámetros

Nombre Description
cls
Requerido

Objeto class de AutoMLConfig.

use_gpu
Requerido

booleano que indica si se está usando o no el proceso de gpu.

Devoluciones

Tipo Description

diccionario de formato {: }. El código de idioma se adhiere al estándar ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes