AutoMLConfig Clase

Representa la configuración para enviar un experimento de APRENDIZAJE automático automatizado en Azure Machine Learning.

Este objeto de configuración contiene y conserva los parámetros para configurar la ejecución del experimento, así como los datos de entrenamiento que se usarán en tiempo de ejecución. Para obtener instrucciones sobre cómo seleccionar la configuración, consulte https://aka.ms/AutoMLConfig.

Cree un autoMLConfig.

Constructor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parámetros

Nombre	Description
task Requerido	str o Tasks Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver.
path Requerido	str Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".
iterations Requerido	int Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones.
primary_metric Requerido	str o Metric La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen.
positive_label Requerido	Any Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación: la columna label consta de dos clases que indican la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label ; de lo contrario, AutoML elegirá una clase positiva basada en el valor codificado por etiqueta. tarea de clasificación de varias clases con positive_label especificado Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación.
compute_target Requerido	AbstractComputeTarget Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para obtener más información sobre los destinos de proceso.
spark_context Requerido	<xref:SparkContext> Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark.
X Requerido	DataFrame o ndarray o Dataset o TabularDataset Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.
y Requerido	DataFrame o ndarray o Dataset o TabularDataset Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.
sample_weight Requerido	DataFrame o ndarray o TabularDataset Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y. Especifique este parámetro al especificar `X`. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.
X_valid Requerido	DataFrame o ndarray o Dataset o TabularDataset Características de validación que se usarán al ajustar canalizaciones durante un experimento. Si se especifica, `y_valid` también se debe especificar o `sample_weight_valid` . Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.
y_valid Requerido	DataFrame o ndarray o Dataset o TabularDataset Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto como `X_validy_valid` deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.
sample_weight_valid Requerido	DataFrame o ndarray o TabularDataset Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y. Especifique este parámetro al especificar `X_valid`. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.
cv_splits_indices Requerido	List[List[ndarray]] Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado. Para especificar los datos existentes como datos de validación, use `validation_data`. Para permitir que AutoML extraiga los datos de validación de los datos de entrenamiento en su lugar, especifique `n_cross_validations` o `validation_size`. Use `cv_split_column_names` si tiene columnas de validación cruzada en `training_data`.
validation_size Requerido	float Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Especifique `validation_data` para proporcionar datos de validación; de lo contrario, establezca `n_cross_validations` o `validation_size` extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use `cv_split_column_names`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
n_cross_validations Requerido	int Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario. Especifique `validation_data` para proporcionar datos de validación; de lo contrario, establezca `n_cross_validations` o `validation_size` extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use `cv_split_column_names`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
y_min Requerido	float Valor mínimo de y para un experimento de regresión. La combinación de y `y_min` se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de `y_max` datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
y_max Requerido	float Valor máximo de y para un experimento de regresión. La combinación de y `y_min` se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de `y_max` datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
num_classes Requerido	int Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
featurization Requerido	str o FeaturizationConfig 'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera: Categoría: codificación de destino, una codificación activa, quitar categorías de cardinalidad alta, imputar valores que faltan. Numérico: imputa los valores que faltan, la distancia del clúster, el peso de la evidencia. DateTime: varias características como día, segundos, minutos, horas, etc. Texto: bolsa de palabras, incrustación de Word previamente entrenada, codificación de destino de texto. Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características. Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro.
max_cores_per_iteration Requerido	int Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables: Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso. Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria. Igual a 1, el valor predeterminado.
max_concurrent_iterations Requerido	int Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1. Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varias ejecuciones primarias del experimento AutoML ejecutadas en paralelo en un único clúster de AmlCompute, la suma de los `max_concurrent_iterations` valores de todos los experimentos debe ser menor o igual que el número máximo de nodos. De lo contrario, las ejecuciones se ponerán en cola hasta que los nodos estén disponibles. DSVM admite varias iteraciones por nodo. `max_concurrent_iterations` debe ser menor o igual que el número de núcleos de la DSVM. Para varios experimentos se ejecutan en paralelo en una sola DSVM, la suma de los `max_concurrent_iterations` valores de todos los experimentos debe ser menor o igual que el número máximo de nodos. Databricks `max_concurrent_iterations` : debe ser menor o igual que el número de nodos de trabajo en Databricks. `max_concurrent_iterations` no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba `concurrent_iterations`.
iteration_timeout_minutes Requerido	int Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.
mem_in_mb Requerido	int Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB.
enforce_time_on_windows Requerido	bool Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows.
experiment_timeout_hours Requerido	float Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error.
experiment_exit_score Requerido	float Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo.
enable_early_stopping Requerido	bool Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana: No hay una detención temprana para las primeras 20 iteraciones (puntos de referencia). La ventana de detención temprana se inicia en la iteración 21ª y busca early_stopping_n_iters iteraciones (actualmente se establece en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31. AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a una iteración de conjunto puntuaciones más altas. La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para el pasado. early_stopping_n_iters iteraciones, es decir, si no hay ninguna mejora en la puntuación para las iteraciones de early_stopping_n_iters.
blocked_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> Lista de algoritmos que se omitirán para un experimento. Si `enable_tf` es False, los modelos de TensorFlow se incluyen en `blocked_models`.
blacklist_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> En su lugar, use blocked_models parámetro en desuso.
exclude_nan_labels Requerido	bool Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True.
verbosity Requerido	int Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.
enable_tf Requerido	bool Parámetro en desuso para habilitar o deshabilitar algoritmos de Tensorflow. El valor predeterminado es False.
model_explainability Requerido	bool Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado).
allowed_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o `blocked_models` en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .
whitelist_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> En su lugar, use allowed_models parámetro en desuso.
enable_onnx_compatible_models Requerido	bool Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.
forecasting_parameters Requerido	ForecastingParameters Objeto ForecastingParameters que contiene todos los parámetros específicos de previsión.
time_column_name Requerido	str Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
max_horizon Requerido	int Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
grain_column_names Requerido	str o list(str) Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
target_lags Requerido	int o list(int) Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales.
feature_lags Requerido	str Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
target_rolling_window_size Requerido	int Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.
country_or_region Requerido	str País o región que se usa para generar características de vacaciones. Deben ser código de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.
use_stl Requerido	str Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
seasonality Requerido	int o str Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en "auto", se deducirá. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
short_series_handling_configuration Requerido	str Parámetro que define cómo si AutoML debe controlar series temporales cortas. Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None. auto short series se rellenará si no hay series largas; de lo contrario, se quitará la serie corta. relleno de todas las series cortas se rellenará. quitar todas las series cortas se quitarán". Ninguna de las series cortas no se modificará. Si se establece en "pad", la tabla se rellenará con los ceros y los valores vacíos de los regresores y los valores aleatorios para el destino con la media igual a la mediana del valor de destino para un identificador de serie temporal determinado. Si la mediana es mayor o igual a cero, el valor mínimo rellenado se recortará por cero: Entrada: Fecha numeric_value cadena Destino 01-01-2020 23 verde 55 La salida supone que el número mínimo de valores es cuatro: Fecha numeric_value cadena Destino 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 01-01-2020 23 verde 55 Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente). manipulación handling_configuration control resultante handling_configuration resultantes Cierto Automático Cierto Automático Cierto almohadilla Cierto Automático Cierto Soltar Cierto Automático Cierto Ninguno Falso Ninguno Falso Automático Falso Ninguno Falso almohadilla Falso Ninguno Falso Soltar Falso Ninguno Falso Ninguno Falso Ninguno
freq Requerido	str o None Frecuencia de previsión. Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Requerido	str o None Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de la regularidad de los datos Ninguno (valor predeterminado) Ninguno (valor predeterminado) No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error. Algún valor Ninguno (valor predeterminado) No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error. Ninguno (valor predeterminado) Función de agregación Se ha generado el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation.
enable_voting_ensemble Requerido	bool Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.
enable_stack_ensemble Requerido	bool Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.
debug_log Requerido	str Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log".
training_data Requerido	DataFrame o Dataset o DatasetDefinition o TabularDataset Los datos de entrenamiento que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo). Si `training_data` se especifica , también se debe especificar el `label_column_name` parámetro . `training_data` se introdujo en la versión 1.0.81.
validation_data Requerido	DataFrame o Dataset o DatasetDefinition o TabularDataset Los datos de validación que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica `validation_data`, se deben especificar los parámetros `training_data` y `label_column_name`. `validation_data` se introdujo en la versión 1.0.81. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
test_data Requerido	Dataset o TabularDataset La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Si no se especifica este parámetro o el `test_size` parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columna de etiqueta. Si `test_data` se especifica , se debe especificar el `label_column_name` parámetro .
test_size Requerido	float La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Si `test_size` se especifica al mismo tiempo que `validation_size`, los datos de prueba se dividen antes de dividir los datos de `training_data` validación. Por ejemplo, si `validation_size=0.1`y `test_size=0.1` los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas. En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el `test_data` parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.
label_column_name Requerido	Union[str, int] Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a `training_data`los parámetros y `validation_datatest_data` . `label_column_name` se introdujo en la versión 1.0.81.
weight_column_name Requerido	Union[str, int] Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a `training_data` los parámetros y `validation_data` . `weight_column_names` se introdujo en la versión 1.0.81.
cv_split_column_names Requerido	list(str) Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al `training_data` parámetro con fines de validación cruzada personalizados. `cv_split_column_names` se introdujo en la versión 1.6.0 Use o `cv_split_column_namescv_splits_indices`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
enable_local_managed Requerido	bool Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.
enable_dnn Requerido	bool Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.
task Requerido	str o Tasks Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver.
path Requerido	str Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".".
iterations Requerido	int Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones.
primary_metric Requerido	str o Metric La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen.
positive_label Requerido	Any Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación: la columna label consta de dos clases que indican la tarea de clasificación binaria AutoML usará la clase positiva especificada cuando se pase positive_label ; de lo contrario, AutoML elegirá una clase positiva basada en el valor codificado por etiqueta. tarea de clasificación de varias clases con positive_label especificado Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación.
compute_target Requerido	AbstractComputeTarget Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para obtener más información sobre los destinos de proceso.
spark_context Requerido	<xref:SparkContext> Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark.
X Requerido	DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.
y Requerido	DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar.
sample_weight Requerido	DataFrame o ndarray o TabularDataset Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y. Especifique este parámetro al especificar `X`. Esta configuración está en desuso. Use training_data y weight_column_name en su lugar.
X_valid Requerido	DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset Características de validación que se usarán al ajustar canalizaciones durante un experimento. Si se especifica, `y_valid` también se debe especificar o `sample_weight_valid` . Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.
y_valid Requerido	DataFrame o ndarray o Dataset o DatasetDefinition o TabularDataset Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto como `X_validy_valid` deben especificarse juntos. Esta configuración está en desuso. Use validation_data y label_column_name en su lugar.
sample_weight_valid Requerido	DataFrame o ndarray o TabularDataset Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y. Especifique este parámetro al especificar `X_valid`. Esta configuración está en desuso. Use validation_data y weight_column_name en su lugar.
cv_splits_indices Requerido	List[List[ndarray]] Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado. Esta opción se admite cuando los datos se pasan como conjuntos de datos de características independientes y columna Etiqueta. Para especificar los datos existentes como datos de validación, use `validation_data`. Para permitir que AutoML extraiga los datos de validación de los datos de entrenamiento en su lugar, especifique `n_cross_validations` o `validation_size`. Use `cv_split_column_names` si tiene columnas de validación cruzada en `training_data`.
validation_size Requerido	float Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Especifique `validation_data` para proporcionar datos de validación; de lo contrario, establezca `n_cross_validations` o `validation_size` extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use `cv_split_column_names`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
n_cross_validations Requerido	int o str Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario. Especifique `validation_data` para proporcionar datos de validación; de lo contrario, establezca `n_cross_validations` o `validation_size` extraiga los datos de validación de los datos de entrenamiento especificados. Para el plegado de validación cruzada personalizado, use `cv_split_column_names`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
y_min Requerido	float Valor mínimo de y para un experimento de regresión. La combinación de y `y_min` se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de `y_max` datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
y_max Requerido	float Valor máximo de y para un experimento de regresión. La combinación de y `y_min` se usan para normalizar las métricas del conjunto de pruebas en función del intervalo de `y_max` datos de entrada. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
num_classes Requerido	int Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos.
featurization Requerido	str o FeaturizationConfig 'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera: Categoría: codificación de destino, una codificación activa, quitar categorías de cardinalidad alta, imputar valores que faltan. Numérico: imputa los valores que faltan, la distancia del clúster, el peso de la evidencia. DateTime: varias características como día, segundos, minutos, horas, etc. Texto: bolsa de palabras, incrustación de Word previamente entrenada, codificación de destino de texto. Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características. Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro.
max_cores_per_iteration Requerido	int Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables: Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso. Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria. Igual a 1, el valor predeterminado.
max_concurrent_iterations Requerido	int Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1. Los clústeres de AmlCompute admiten una intercalación que se ejecuta por nodo. Para varios experimentos se ejecutan en paralelo en un único clúster de AmlCompute, la suma de los `max_concurrent_iterations` valores de todos los experimentos debe ser menor o igual que el número máximo de nodos. DSVM admite varias iteraciones por nodo. `max_concurrent_iterations` debe ser menor o igual que el número de núcleos de la DSVM. Para varios experimentos se ejecutan en paralelo en una sola DSVM, la suma de los `max_concurrent_iterations` valores de todos los experimentos debe ser menor o igual que el número máximo de nodos. Databricks `max_concurrent_iterations` : debe ser menor o igual que el número de nodos de trabajo en Databricks. `max_concurrent_iterations` no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba `concurrent_iterations`.
iteration_timeout_minutes Requerido	int Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos.
mem_in_mb Requerido	int Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB.
enforce_time_on_windows Requerido	bool Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows.
experiment_timeout_hours Requerido	float Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error.
experiment_exit_score Requerido	float Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, vea este archivo >>`article` https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<
enable_early_stopping Requerido	bool Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana: No hay una detención temprana para las primeras 20 iteraciones (puntos de referencia). La ventana de detención temprana se inicia en la iteración 21ª y busca early_stopping_n_iters iteraciones (actualmente establecida en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31. AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a puntuaciones más altas. La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las iteraciones anteriores de early_stopping_n_iters, es decir, si no hay ninguna mejora en la puntuación para early_stopping_n_iters iteraciones.
blocked_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> Lista de algoritmos que se omitirán para un experimento. Si `enable_tf` es False, los modelos de TensorFlow se incluyen en `blocked_models`.
blacklist_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> En su lugar, use blocked_models parámetro en desuso.
exclude_nan_labels Requerido	bool Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True.
verbosity Requerido	int Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python.
enable_tf Requerido	bool Si se habilitan o deshabilitan los algoritmos de TensorFlow. El valor predeterminado es False.
model_explainability Requerido	bool Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado).
allowed_models Requerido	list(str) o list(Classification) <xref:for classification task> o list(Regression) <xref:for regression task> o list(Forecasting) <xref:for forecasting task> Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o `blocked_models` en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .
allowed_models Requerido	Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o `blocked_models` en desuso. Los modelos admitidos para cada tipo de tarea se describen en la SupportedModels clase .
whitelist_models Requerido	En su lugar, use allowed_models parámetro en desuso.
enable_onnx_compatible_models Requerido	bool Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.
forecasting_parameters Requerido	ForecastingParameters Objeto que contiene todos los parámetros específicos de previsión.
time_column_name Requerido	str Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
max_horizon Requerido	int Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales.
grain_column_names Requerido	str o list(str) Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
target_lags Requerido	int o list(int) Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales.
feature_lags Requerido	str Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
target_rolling_window_size Requerido	int Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo.
country_or_region Requerido	str País o región que se usa para generar características de vacaciones. Deben ser códigos de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar.
use_stl Requerido	str Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
seasonality Requerido	int Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en -1, se deducirá. Si no se establece use_stl, no se usará este parámetro. Esta configuración está en desuso. Use forecasting_parameters en su lugar.
short_series_handling_configuration Requerido	str Parámetro que define cómo si AutoML debe controlar series temporales cortas. Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None. auto short series se rellenará si no hay series largas; de lo contrario, se quitará la serie corta. relleno de todas las series cortas se rellenará. quitar todas las series cortas se quitarán". Ninguna de las series cortas no se modificará. Si se establece en "pad", la tabla se rellenará con los ceros y los valores vacíos de los regresores y los valores aleatorios para el destino con la media igual a la mediana del valor de destino para un identificador de serie temporal determinado. Si la mediana es mayor o igual a cero, el valor mínimo rellenado se recortará por cero: Entrada: Fecha numeric_value cadena Destino 01-01-2020 23 verde 55 La salida supone que el número mínimo de valores es cuatro: +————+—————+———-+—–+\| Fecha \| numeric_value \| string \| target \| +============+===============+==========+========+ \| 2019-12-29 \| 0 \| NA \| 55.1 \| +————+—————+———-+——–+ \| 2019-12-30 \| 0 \| NA \| 55.6 \| +————+—————+———-+——–+ \| 2019-12-31 \| 0 \| NA \| 54.5 \| +————+—————+———-+——–+ \| 2020-01-01 \| 23 \| verde \| 55 \| +————+—————+———-+——–+ Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente). manipulación handling_configuration control resultante handling_configuration resultantes Cierto Automático Cierto Automático Cierto almohadilla Cierto Automático Cierto Soltar Cierto Automático Cierto Ninguno Falso Ninguno Falso Automático Falso Ninguno Falso almohadilla Falso Ninguno Falso Soltar Falso Ninguno Falso Ninguno Falso Ninguno
freq Requerido	str o None Frecuencia de previsión. Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Requerido	str o None Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de la regularidad de los datos Ninguno (valor predeterminado) Ninguno (valor predeterminado) No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error. Algún valor Ninguno (valor predeterminado) No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error. Ninguno (valor predeterminado) Función de agregación Se ha generado el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation.
enable_voting_ensemble Requerido	bool Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.
enable_stack_ensemble Requerido	bool Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos.
debug_log Requerido	str Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log".
training_data Requerido	DataFrame o Dataset o DatasetDefinition o TabularDataset Los datos de entrenamiento que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo). Si `training_data` se especifica , también se debe especificar el `label_column_name` parámetro . `training_data` se introdujo en la versión 1.0.81.
validation_data Requerido	DataFrame o Dataset o DatasetDefinition o TabularDataset Los datos de validación que se van a usar en el experimento. Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo). Si se especifica `validation_data`, se deben especificar los parámetros `training_data` y `label_column_name`. `validation_data` se introdujo en la versión 1.0.81. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
test_data Requerido	Dataset o TabularDataset La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Si no se especifica este parámetro o el `test_size` parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo. Los datos de prueba deben contener características y columna de etiqueta. Si `test_data` se especifica , se debe especificar el `label_column_name` parámetro .
test_size Requerido	float La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Si `test_size` se especifica al mismo tiempo que `validation_size`, los datos de prueba se dividen antes de dividir los datos de `training_data` validación. Por ejemplo, si `validation_size=0.1`y `test_size=0.1` los datos de entrenamiento originales tienen 1000 filas, los datos de prueba tendrán 100 filas, los datos de validación contendrán 90 filas y los datos de entrenamiento tendrán 810 filas. En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el `test_data` parámetro, no se ejecutará ninguna ejecución de prueba automáticamente una vez completado el entrenamiento del modelo.
label_column_name Requerido	Union[str, int] Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a `training_data`los parámetros y `validation_datatest_data` . `label_column_name` se introdujo en la versión 1.0.81.
weight_column_name Requerido	Union[str, int] Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a `training_data` los parámetros y `validation_data` . `weight_column_names` se introdujo en la versión 1.0.81.
cv_split_column_names Requerido	list(str) Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al `training_data` parámetro con fines de validación cruzada personalizados. `cv_split_column_names` se introdujo en la versión 1.6.0 Use o `cv_split_column_namescv_splits_indices`. Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
enable_local_managed Requerido	bool Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento.
enable_dnn Requerido	bool Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

Comentarios

El código siguiente muestra un ejemplo básico de creación de un objeto AutoMLConfig y el envío de un experimento para la regresión:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Hay disponible un ejemplo completo en Regresión

Algunos ejemplos de uso de AutoMLConfig para la previsión se encuentran en estos cuadernos:

Puede encontrar ejemplos de uso de AutoMLConfig para todos los tipos de tareas en estos cuadernos de ML automatizados.

Para obtener información general sobre ml automatizado, consulte los artículos:

Definición de una tarea de aprendizaje automático
Configure experimentos de ML automatizados en Python. En este artículo, hay información sobre los distintos algoritmos y las métricas principales que se usan para cada tipo de tarea.
Entrenamiento automático de un modelo de previsión de series temporales. En este artículo, hay información sobre qué parámetros de constructor y **kwargs se usan en la previsión.

Para obtener más información sobre las distintas opciones para configurar divisiones de datos de entrenamiento y validación cruzada para el aprendizaje automático automatizado, AutoML, experimentos, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.

Métodos

as_serializable_dict	Convierta el objeto en diccionario.
get_supported_dataset_languages	Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

as_serializable_dict

Convierta el objeto en diccionario.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parámetros

Nombre	Description
cls Requerido	Objeto class de AutoMLConfig.
use_gpu Requerido	booleano que indica si se está usando o no el proceso de gpu.

Devoluciones

Tipo	Description
	diccionario de formato {: }. El código de idioma se adhiere al estándar ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

Compartir a través de

AutoMLConfig Clase

Constructor

Parámetros

Comentarios

Métodos

as_serializable_dict

get_supported_dataset_languages

Parámetros

Devoluciones

Comentarios