AutoMLConfig Clase
Representa la configuración para enviar un experimento de APRENDIZAJE automático automatizado en Azure Machine Learning.
Este objeto de configuración contiene y conserva los parámetros para configurar la ejecución del experimento, así como los datos de entrenamiento que se usarán en tiempo de ejecución. Para obtener instrucciones sobre cómo seleccionar la configuración, consulte https://aka.ms/AutoMLConfig.
Cree un autoMLConfig.
Constructor
AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)
Parámetros
Nombre | Description |
---|---|
task
Requerido
|
Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver. |
path
Requerido
|
Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".". |
iterations
Requerido
|
Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones. |
primary_metric
Requerido
|
La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen. |
positive_label
Requerido
|
Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:
Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación. |
compute_target
Requerido
|
Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para obtener más información sobre los destinos de proceso. |
spark_context
Requerido
|
<xref:SparkContext>
Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark. |
X
Requerido
|
Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
y
Requerido
|
Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
sample_weight
Requerido
|
Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y. Especifique este parámetro al especificar |
X_valid
Requerido
|
Características de validación que se usarán al ajustar canalizaciones durante un experimento. Si se especifica, |
y_valid
Requerido
|
Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto como |
sample_weight_valid
Requerido
|
Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y. Especifique este parámetro al especificar |
cv_splits_indices
Requerido
|
Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado. Para especificar los datos existentes como datos de validación, use |
validation_size
Requerido
|
Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Especifique Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
n_cross_validations
Requerido
|
Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario. Especifique Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
y_min
Requerido
|
Valor mínimo de y para un experimento de regresión. La combinación de y |
y_max
Requerido
|
Valor máximo de y para un experimento de regresión. La combinación de y |
num_classes
Requerido
|
Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos. |
featurization
Requerido
|
'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera:
Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características. Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro. |
max_cores_per_iteration
Requerido
|
Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:
|
max_concurrent_iterations
Requerido
|
Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.
|
iteration_timeout_minutes
Requerido
|
Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos. |
mem_in_mb
Requerido
|
Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB. |
enforce_time_on_windows
Requerido
|
Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows. |
experiment_timeout_hours
Requerido
|
Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error. |
experiment_exit_score
Requerido
|
Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo. |
enable_early_stopping
Requerido
|
Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana:
|
blocked_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de algoritmos que se omitirán para un experimento. Si |
blacklist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
En su lugar, use blocked_models parámetro en desuso. |
exclude_nan_labels
Requerido
|
Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True. |
verbosity
Requerido
|
Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python. |
enable_tf
Requerido
|
Parámetro en desuso para habilitar o deshabilitar algoritmos de Tensorflow. El valor predeterminado es False. |
model_explainability
Requerido
|
Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado). |
allowed_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o |
whitelist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
En su lugar, use allowed_models parámetro en desuso. |
enable_onnx_compatible_models
Requerido
|
Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo. |
forecasting_parameters
Requerido
|
Objeto ForecastingParameters que contiene todos los parámetros específicos de previsión. |
time_column_name
Requerido
|
Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
max_horizon
Requerido
|
Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
grain_column_names
Requerido
|
Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_lags
Requerido
|
Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales. |
feature_lags
Requerido
|
Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_rolling_window_size
Requerido
|
Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo. |
country_or_region
Requerido
|
País o región que se usa para generar características de vacaciones. Deben ser código de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
use_stl
Requerido
|
Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
seasonality
Requerido
|
Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en "auto", se deducirá. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
short_series_handling_configuration
Requerido
|
Parámetro que define cómo si AutoML debe controlar series temporales cortas. Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None.
Fecha numeric_value cadena Destino 01-01-2020 23 verde 55 La salida supone que el número mínimo de valores es cuatro: Fecha numeric_value cadena Destino 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 01-01-2020 23 verde 55 Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente). manipulación handling_configuration control resultante handling_configuration resultantes Cierto Automático Cierto Automático Cierto almohadilla Cierto Automático Cierto Soltar Cierto Automático Cierto Ninguno Falso Ninguno Falso Automático Falso Ninguno Falso almohadilla Falso Ninguno Falso Soltar Falso Ninguno Falso Ninguno Falso Ninguno |
freq
Requerido
|
Frecuencia de previsión. Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Requerido
|
Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de la regularidad de los datos Ninguno (valor predeterminado) Ninguno (valor predeterminado) No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error. Algún valor Ninguno (valor predeterminado) No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error. Ninguno (valor predeterminado) Función de agregación Se ha generado el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation. |
enable_voting_ensemble
Requerido
|
Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos. |
enable_stack_ensemble
Requerido
|
Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos. |
debug_log
Requerido
|
Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log". |
training_data
Requerido
|
Los datos de entrenamiento que se van a usar en el experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo).
Si
|
validation_data
Requerido
|
Los datos de validación que se van a usar en el experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
test_data
Requerido
|
La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Si no se especifica este parámetro o el |
test_size
Requerido
|
La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Debe estar comprendido entre 0,0 y 1,0 no inclusivo.
Si En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el |
label_column_name
Requerido
|
Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a |
weight_column_name
Requerido
|
Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a |
cv_split_column_names
Requerido
|
Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al Use o Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
enable_local_managed
Requerido
|
Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento. |
enable_dnn
Requerido
|
Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML. |
task
Requerido
|
Tipo de tarea que se va a ejecutar. Los valores pueden ser "clasificación", "regresión" o "previsión" en función del tipo de problema de ML automatizado que se va a resolver. |
path
Requerido
|
Ruta de acceso completa a la carpeta del proyecto de Azure Machine Learning. Si no se especifica, el valor predeterminado es usar el directorio actual o ".". |
iterations
Requerido
|
Número total de combinaciones de algoritmos y parámetros diferentes que se van a probar durante un experimento de ML automatizado. Si no se especifica, el valor predeterminado es 1000 iteraciones. |
primary_metric
Requerido
|
La métrica que Automated Machine Learning optimizará para la selección del modelo. Machine Learning automatizado recopila más métricas de las que puede optimizar. Puede usar get_primary_metrics para obtener una lista de métricas válidas para la tarea determinada. Para obtener más información sobre cómo se calculan las métricas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Si no se especifica, la precisión se usa para las tareas de clasificación, se usa la media media normalizada al cuadrado para las tareas de previsión y regresión, la precisión se usa para la clasificación de imágenes y la clasificación de varias etiquetas de imagen, y la precisión media media se usa para la detección de objetos de imagen. |
positive_label
Requerido
|
Etiqueta de clase positiva que Automated Machine Learning usará para calcular las métricas binarias con. Las métricas binarias se calculan en dos condiciones para las tareas de clasificación:
Para obtener más información sobre la clasificación, consulte las métricas para escenarios de clasificación. |
compute_target
Requerido
|
Destino de proceso de Azure Machine Learning para ejecutar el experimento de Machine Learning automatizado. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para obtener más información sobre los destinos de proceso. |
spark_context
Requerido
|
<xref:SparkContext>
Contexto de Spark. Solo se aplica cuando se usa en el entorno de Azure Databricks/Spark. |
X
Requerido
|
Las características de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
y
Requerido
|
Etiquetas de entrenamiento que se usarán al ajustar canalizaciones durante un experimento. Este es el valor que predecirá el modelo. Esta configuración está en desuso. Use training_data y label_column_name en su lugar. |
sample_weight
Requerido
|
Peso que se va a proporcionar a cada muestra de entrenamiento al ejecutar canalizaciones de ajuste, cada fila debe corresponder a una fila en datos X e y. Especifique este parámetro al especificar |
X_valid
Requerido
|
Características de validación que se usarán al ajustar canalizaciones durante un experimento. Si se especifica, |
y_valid
Requerido
|
Etiquetas de validación que se usarán al ajustar canalizaciones durante un experimento. Tanto como |
sample_weight_valid
Requerido
|
Peso que se va a proporcionar a cada ejemplo de validación al ejecutar canalizaciones de puntuación, cada fila debe corresponder a una fila de datos X e y. Especifique este parámetro al especificar |
cv_splits_indices
Requerido
|
Índices en los que dividir los datos de entrenamiento para la validación cruzada. Cada fila es un plegado cruzado independiente y dentro de cada una de ellas, proporciona 2 matrices numpy, la primera con los índices para que las muestras se usen para los datos de entrenamiento y la segunda con los índices que se van a usar para los datos de validación. es decir, [[t1, v1], [t2, v2], ...] donde t1 es los índices de entrenamiento para el primer plegado cruzado y v1 es los índices de validación para el primer plegado cruzado. Esta opción se admite cuando los datos se pasan como conjuntos de datos de características independientes y columna Etiqueta. Para especificar los datos existentes como datos de validación, use |
validation_size
Requerido
|
Fracción de los datos que se van a mantener en espera para la validación cuando no se especifican los datos de validación del usuario. Debe estar comprendido entre 0,0 y 1,0 no inclusivo. Especifique Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
n_cross_validations
Requerido
|
Número de validaciones cruzadas que se deben realizar cuando no se especifican los datos de validación de usuario. Especifique Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
y_min
Requerido
|
Valor mínimo de y para un experimento de regresión. La combinación de y |
y_max
Requerido
|
Valor máximo de y para un experimento de regresión. La combinación de y |
num_classes
Requerido
|
Número de clases de los datos de etiqueta de un experimento de clasificación. Esta configuración está en desuso. En su lugar, este valor se calculará a partir de los datos. |
featurization
Requerido
|
'auto' / 'off' / FeaturizationConfig Indicador para si el paso de caracterización se debe realizar automáticamente o no, o si se debe usar la caracterización personalizada. Nota: Si los datos de entrada son dispersos, la caracterización no se puede desactivar. El tipo de columna se detecta automáticamente. En función del preprocesamiento o caracterización del tipo de columna detectado se realiza de la siguiente manera:
Puede encontrar más detalles en el artículo Configuración de experimentos de ML automatizados en Python. Para personalizar el paso de caracterización, proporcione un objeto FeaturizationConfig. La caracterización personalizada admite actualmente el bloqueo de un conjunto de transformadores, la actualización del propósito de columna, la edición de parámetros del transformador y la eliminación de columnas. Para obtener más información, consulte Personalización de la ingeniería de características. Nota: Las características de timeseries se controlan por separado cuando el tipo de tarea se establece en forecasting independiente de este parámetro. |
max_cores_per_iteration
Requerido
|
Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:
|
max_concurrent_iterations
Requerido
|
Representa el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.
|
iteration_timeout_minutes
Requerido
|
Tiempo máximo en minutos durante el que cada iteración se puede ejecutar antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos. |
mem_in_mb
Requerido
|
Uso máximo de memoria para el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 PB o 1073741824 MB. |
enforce_time_on_windows
Requerido
|
Si se aplica un límite de tiempo en el entrenamiento del modelo en cada iteración en Windows. El valor predeterminado es True. Si se ejecuta desde un archivo de script de Python (.py), consulte la documentación para permitir los límites de recursos en Windows. |
experiment_timeout_hours
Requerido
|
Cantidad máxima de tiempo en horas que pueden tardar todas las iteraciones combinadas antes de que finalice el experimento. Puede ser un valor decimal como 0,25 que representa 15 minutos. Si no se especifica, el tiempo de espera del experimento predeterminado es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o de que se produzca un error. |
experiment_exit_score
Requerido
|
Puntuación de destino del experimento. El experimento finaliza después de alcanzar esta puntuación.
Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, vea este archivo >> |
enable_early_stopping
Requerido
|
Si se debe habilitar la finalización anticipada si la puntuación no mejora a corto plazo. El valor predeterminado es True. Lógica de detención temprana:
|
blocked_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de algoritmos que se omitirán para un experimento. Si |
blacklist_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
En su lugar, use blocked_models parámetro en desuso. |
exclude_nan_labels
Requerido
|
Si se van a excluir filas con valores NaN en la etiqueta. El valor predeterminado es True. |
verbosity
Requerido
|
Nivel de detalle para escribir en el archivo de registro. El valor predeterminado es INFO o 20. Los valores aceptables se definen en la biblioteca de registro de Python. |
enable_tf
Requerido
|
Si se habilitan o deshabilitan los algoritmos de TensorFlow. El valor predeterminado es False. |
model_explainability
Requerido
|
Indica si se va a habilitar la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. El valor predeterminado es True. Para obtener más información, consulte Interpretability: model explanations in automated machine learning (Interpretación: explicaciones del modelo en aprendizaje automático automatizado). |
allowed_models
Requerido
|
list(str) o
list(Classification) <xref:for classification task> o
list(Regression) <xref:for regression task> o
list(Forecasting) <xref:for forecasting task>
Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o |
allowed_models
Requerido
|
Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en los modelos tensorFlow o |
whitelist_models
Requerido
|
En su lugar, use allowed_models parámetro en desuso. |
enable_onnx_compatible_models
Requerido
|
Si se habilitan o deshabilitan la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo. |
forecasting_parameters
Requerido
|
Objeto que contiene todos los parámetros específicos de previsión. |
time_column_name
Requerido
|
Nombre de la columna de hora. Este parámetro es necesario cuando se prevé especificar la columna datetime en los datos de entrada utilizados para compilar la serie temporal e inferir su frecuencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
max_horizon
Requerido
|
Horizonte de previsión máximo deseado en unidades de frecuencia de serie temporal. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Las unidades se basan en el intervalo de tiempo de los datos de entrenamiento, por ejemplo, mensuales, semanales que el pronóstico debe predecir. Cuando el tipo de tarea está previsto, se requiere este parámetro. Para más información sobre cómo establecer parámetros de previsión, consulte Entrenamiento automático de un modelo de previsión de series temporales. |
grain_column_names
Requerido
|
Los nombres de las columnas usadas para agrupar una serie de horas. Se puede usar para crear varias series. Si no se define el grano, se supone que el conjunto de datos es una serie temporal. Este parámetro se usa con la previsión del tipo de tarea. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_lags
Requerido
|
Número de períodos anteriores que se van a retardar desde la columna de destino. El valor predeterminado es 1. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa el número de filas que se van a retardar los valores de destino en función de la frecuencia de los datos. Esto se representa como una lista o un entero único. El retraso se debe usar cuando la relación entre las variables independientes y la variable dependiente no coinciden ni correlacionan de forma predeterminada. Por ejemplo, al intentar prever la demanda de un producto, la demanda en cualquier mes puede depender del precio de productos básicos específicos 3 meses antes. En este ejemplo, puede que desee retardar el destino (demanda) negativamente en 3 meses para que el modelo se entrene en la relación correcta. Para más información, consulte Entrenamiento automático de un modelo de previsión de series temporales. |
feature_lags
Requerido
|
Marca para generar retrasos para las características numéricas. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
target_rolling_window_size
Requerido
|
Número de períodos pasados usados para crear un promedio de ventana gradual de la columna de destino. Esta configuración está en desuso. Use forecasting_parameters en su lugar. Al realizar la previsión, este parámetro representa n períodos históricos que se usarán para generar valores previstos, <= tamaño del conjunto de entrenamiento. Si se omite, n es el tamaño completo del conjunto de entrenamiento. Especifique este parámetro si solo desea tener en cuenta una determinada cantidad de historial al entrenar el modelo. |
country_or_region
Requerido
|
País o región que se usa para generar características de vacaciones. Deben ser códigos de país o región de dos letras ISO 3166, por ejemplo, "US" o "GB". Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
use_stl
Requerido
|
Configure la descomposición de STL de la columna de destino de serie temporal. use_stl pueden tomar tres valores: Ninguno (valor predeterminado) - sin descomposición stl, "temporada" - solo generar componente de temporada y season_trend - generar componentes de temporada y tendencia. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
seasonality
Requerido
|
Establecer la estacionalidad de las series temporales. Si la estacionalidad se establece en -1, se deducirá. Si no se establece use_stl, no se usará este parámetro. Esta configuración está en desuso. Use forecasting_parameters en su lugar. |
short_series_handling_configuration
Requerido
|
Parámetro que define cómo si AutoML debe controlar series temporales cortas. Valores posibles: 'auto' (valor predeterminado), 'pad', 'drop' y None.
Fecha numeric_value cadena Destino 01-01-2020 23 verde 55 La salida supone que el número mínimo de valores es cuatro: +————+—————+———-+—–+| Fecha | numeric_value | string | target | +============+===============+==========+========+ | 2019-12-29 | 0 | NA | 55.1 | +————+—————+———-+——–+ | 2019-12-30 | 0 | NA | 55.6 | +————+—————+———-+——–+ | 2019-12-31 | 0 | NA | 54.5 | +————+—————+———-+——–+ | 2020-01-01 | 23 | verde | 55 | +————+—————+———-+——–+ Nota: Tenemos dos parámetros short_series_handling_configuration y short_series_handling heredados. Cuando se establecen ambos parámetros, se sincronizan como se muestra en la tabla siguiente (short_series_handling_configuration y short_series_handling para mayor brevedad se marcan como handling_configuration y control respectivamente). manipulación handling_configuration control resultante handling_configuration resultantes Cierto Automático Cierto Automático Cierto almohadilla Cierto Automático Cierto Soltar Cierto Automático Cierto Ninguno Falso Ninguno Falso Automático Falso Ninguno Falso almohadilla Falso Ninguno Falso Soltar Falso Ninguno Falso Ninguno Falso Ninguno |
freq
Requerido
|
Frecuencia de previsión. Al realizar la previsión, este parámetro representa el período con el que se desea la previsión, por ejemplo, diaria, semanal, anual, etc. La frecuencia de previsión es la frecuencia del conjunto de datos de forma predeterminada. Opcionalmente, puede establecerlo en mayor (pero no menor) que la frecuencia del conjunto de datos. Agregaremos los datos y generaremos los resultados con frecuencia de previsión. Por ejemplo, para los datos diarios, puede establecer la frecuencia para que sea diaria, semanal o mensual, pero no cada hora. La frecuencia debe ser un alias de desplazamiento de Pandas. Consulte la documentación de Pandas para obtener más información: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects |
target_aggregation_function
Requerido
|
Función que se va a usar para agregar la columna de destino de serie temporal para ajustarse a una frecuencia especificada por el usuario. Si se establece el target_aggregation_function, pero no se establece el parámetro freq, se genera el error. Las posibles funciones de agregación de destino son: "sum", "max", "min" y "mean". Freq target_aggregation_function Mecanismo de corrección de la regularidad de los datos Ninguno (valor predeterminado) Ninguno (valor predeterminado) No se aplica la agregación. Si no se puede establecer la frecuencia válida, se generará el error. Algún valor Ninguno (valor predeterminado) No se aplica la agregación. Si el número de puntos de datos compatibles con la cuadrícula de frecuencia dada es menor, se quitarán 90 puntos%these; de lo contrario, se generará el error. Ninguno (valor predeterminado) Función de agregación Se ha generado el error sobre los parámetros de frecuencia que faltan. Algún valor Función de agregación Agregado a frecuencia mediante la función providedaggregation. |
enable_voting_ensemble
Requerido
|
Si se va a habilitar o deshabilitar la iteración VotingEnsemble. El valor predeterminado es True. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos. |
enable_stack_ensemble
Requerido
|
Indica si se va a habilitar o deshabilitar la iteración stackEnsemble. El valor predeterminado es None. Si se establece enable_onnx_compatible_models marca, se deshabilitará la iteración stackEnsemble. Del mismo modo, para las tareas timeseries, la iteración stackEnsemble se deshabilitará de forma predeterminada para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento usado para ajustar el meta learner. Para obtener más información sobre los conjuntos, consulte Configuración de conjuntos. |
debug_log
Requerido
|
Archivo de registro en el que se va a escribir información de depuración. Si no se especifica, se usa "automl.log". |
training_data
Requerido
|
Los datos de entrenamiento que se van a usar en el experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente una columna de ponderaciones de ejemplo).
Si
|
validation_data
Requerido
|
Los datos de validación que se van a usar en el experimento.
Debe contener características de entrenamiento y una columna de etiqueta (opcionalmente, una columna de pesos de ejemplo).
Si se especifica
|
test_data
Requerido
|
La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Los datos de prueba que se usarán para una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Si no se especifica este parámetro o el |
test_size
Requerido
|
La característica Prueba de modelos mediante conjuntos de datos de prueba o divisiones de datos de prueba es una característica en estado de versión preliminar y podría cambiar en cualquier momento. Fracción de los datos de entrenamiento que se deben mantener presionados para los datos de prueba de una ejecución de prueba que se iniciará automáticamente una vez completado el entrenamiento del modelo. La ejecución de pruebas obtendrá predicciones con el mejor modelo y calculará las métricas dadas estas predicciones. Debe estar comprendido entre 0,0 y 1,0 no inclusivo.
Si En el caso de las tareas basadas en regresión, se usa el muestreo aleatorio. Para las tareas de clasificación, se usa el muestreo estratificado. La previsión no admite actualmente la especificación de un conjunto de datos de prueba mediante una división de entrenamiento o prueba. Si no se especifica este parámetro o el |
label_column_name
Requerido
|
Nombre de la columna de etiqueta. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a |
weight_column_name
Requerido
|
Nombre de la columna de peso de ejemplo. Ml automatizado admite una columna ponderada como entrada, lo que hace que las filas de los datos se ponderan o bajen. Si los datos de entrada proceden de un pandas. DataFrame que no tiene nombres de columna, los índices de columna se pueden usar en su lugar, expresados como enteros. Este parámetro es aplicable a |
cv_split_column_names
Requerido
|
Lista de nombres de las columnas que contienen división de validación cruzada personalizada. Cada una de las columnas divididas de CV representa una división cv donde cada fila está marcada como 1 para el entrenamiento o 0 para la validación. Este parámetro es aplicable al Use o Para más información, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado. |
enable_local_managed
Requerido
|
Parámetro deshabilitado. Las ejecuciones administradas locales no se pueden habilitar en este momento. |
enable_dnn
Requerido
|
Si se deben incluir modelos basados en DNN durante la selección del modelo. El valor predeterminado en init es None. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML. |
Comentarios
El código siguiente muestra un ejemplo básico de creación de un objeto AutoMLConfig y el envío de un experimento para la regresión:
automl_settings = {
"n_cross_validations": 3,
"primary_metric": 'r2_score',
"enable_early_stopping": True,
"experiment_timeout_hours": 1.0,
"max_concurrent_iterations": 4,
"max_cores_per_iteration": -1,
"verbosity": logging.INFO,
}
automl_config = AutoMLConfig(task = 'regression',
compute_target = compute_target,
training_data = train_data,
label_column_name = label,
**automl_settings
)
ws = Workspace.from_config()
experiment = Experiment(ws, "your-experiment-name")
run = experiment.submit(automl_config, show_output=True)
Hay disponible un ejemplo completo en Regresión
Algunos ejemplos de uso de AutoMLConfig para la previsión se encuentran en estos cuadernos:
Puede encontrar ejemplos de uso de AutoMLConfig para todos los tipos de tareas en estos cuadernos de ML automatizados.
Para obtener información general sobre ml automatizado, consulte los artículos:
Configure experimentos de ML automatizados en Python. En este artículo, hay información sobre los distintos algoritmos y las métricas principales que se usan para cada tipo de tarea.
Entrenamiento automático de un modelo de previsión de series temporales. En este artículo, hay información sobre qué parámetros de constructor y
**kwargs
se usan en la previsión.
Para obtener más información sobre las distintas opciones para configurar divisiones de datos de entrenamiento y validación cruzada para el aprendizaje automático automatizado, AutoML, experimentos, consulte Configuración de divisiones de datos y validación cruzada en el aprendizaje automático automatizado.
Métodos
as_serializable_dict |
Convierta el objeto en diccionario. |
get_supported_dataset_languages |
Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3. |
as_serializable_dict
Convierta el objeto en diccionario.
as_serializable_dict() -> Dict[str, Any]
get_supported_dataset_languages
Obtenga los idiomas admitidos y sus códigos de idioma correspondientes en ISO 639-3.
get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]
Parámetros
Nombre | Description |
---|---|
cls
Requerido
|
Objeto class de AutoMLConfig. |
use_gpu
Requerido
|
booleano que indica si se está usando o no el proceso de gpu. |
Devoluciones
Tipo | Description |
---|---|
diccionario de formato {: }. El código de idioma se adhiere al estándar ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes |