Share via


RegressionJob Clase

Configuración del trabajo de regresión de AutoML.

Inicialice una nueva tarea de regresión de AutoML.

Herencia
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
RegressionJob

Constructor

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Parámetros

primary_metric
str
Requerido

Métrica principal que se va a usar para la optimización

kwargs
dict
Requerido

Argumentos específicos del trabajo

Métodos

dump

Volca el contenido del trabajo en un archivo en formato YAML.

set_data

Defina la configuración de datos.

set_featurization

Defina la configuración de ingeniería de características.

set_limits

Establezca límites para el trabajo.

set_training

Método para configurar las opciones relacionadas con el entrenamiento.

dump

Volca el contenido del trabajo en un archivo en formato YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Parámetros

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Requerido

Ruta de acceso local o secuencia de archivos en la que se va a escribir el contenido de YAML. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo. Si dest es un archivo abierto, el archivo se escribirá directamente.

kwargs
dict

Argumentos adicionales para pasar al serializador YAML.

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

set_data

Defina la configuración de datos.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Parámetros

training_data
Input

Datos de entrenamiento.

target_column_name
str

Nombre de columna de la columna de destino.

weight_column_name
Optional[str]

El nombre de la columna de peso, tiene como valor predeterminado Ninguno.

validation_data
Optional[Input]

Datos de validación, el valor predeterminado es None

validation_data_size
Optional[float]

Tamaño de los datos de validación, el valor predeterminado es None

n_cross_validations
Optional[Union[str, int]]

n_cross_validations, el valor predeterminado es None

cv_split_column_names
Optional[List[str]]

cv_split_column_names, el valor predeterminado es None

test_data
Optional[Input]

Datos de prueba, el valor predeterminado es None

test_data_size
Optional[float]

Tamaño de los datos de prueba, el valor predeterminado es None

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

set_featurization

Defina la configuración de ingeniería de características.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Parámetros

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Lista de nombres de transformador que se van a bloquear durante la caracterización, el valor predeterminado es Ninguno.

column_name_and_types
Optional[Dict[str, str]]

Diccionario de nombres de columna y tipos de características usados para actualizar el propósito de columna, el valor predeterminado es None.

dataset_language
Optional[str]

Código ISO 639-3 de tres caracteres para los idiomas contenidos en el conjunto de datos. Los idiomas distintos del inglés solo se admiten si usa el proceso habilitado para GPU. Se debe usar el language_code "mul" si el conjunto de datos contiene varios idiomas. Para buscar códigos ISO 639-3 para distintos idiomas, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, el valor predeterminado es Ninguno.

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Diccionario de transformadores y parámetros de personalización correspondientes, el valor predeterminado es None.

mode
Optional[str]

"off", "auto", el valor predeterminado es "auto", el valor predeterminado es None

enable_dnn_featurization
Optional[bool]

Si se deben incluir métodos de ingeniería de características basados en DNN, el valor predeterminado es None

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

set_limits

Establezca límites para el trabajo.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Parámetros

enable_early_termination
Optional[bool]

Si se habilita la finalización anticipada si la puntuación no mejora a corto plazo, el valor predeterminado es None.

Lógica de detención temprana:

  • No hay detención anticipada para las primeras 20 iteraciones (puntos de referencia).

  • La ventana de detención temprana se inicia en la iteración número 21 y busca early_stopping_n_iters iteraciones

    (establecido actualmente en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.

  • AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a puntuaciones más altas.

  • La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las anteriores iteraciones

    early_stopping_n_iters; es decir, si no hay ninguna mejora en la puntuación de iteraciones early_stopping_n_iters.

exit_score
Optional[float]

Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo , el valor predeterminado es Ninguno.

max_concurrent_trials
Optional[int]

Este es el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.

  • Los clústeres de AmlCompute admiten una iteración que se ejecuta por nodo.

Para varias ejecuciones primarias de experimentos de AutoML ejecutadas en paralelo en un único clúster de AmlCompute, la suma de los valores max_concurrent_trials de todos los experimentos debe ser menor o igual que el número máximo de nodos. De lo contrario, las ejecuciones se pondrán en cola hasta que los nodos estén disponibles.

  • DSVM admite varias iteraciones por nodo. max_concurrent_trials Debe

ser menor o igual que el número de núcleos de la DSVM. En el caso de varios experimentos que se ejecutan en paralelo en una sola DSVM, la suma de los valores max_concurrent_trials de todos los experimentos debe ser menor o igual que el número máximo de nodos.

  • Databricks: max_concurrent_trials debe ser menor o igual que el número de

nodos de trabajo en Databricks.

max_concurrent_trials no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations.

max_cores_per_trial
Optional[int]

Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:

  • Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.

  • Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.

  • Igual a 1, el valor predeterminado.

max_nodes
Optional[int]

[Experimental] Número máximo de nodos que se van a usar para el entrenamiento distribuido.

  • Para la previsión, cada modelo se entrena mediante nodos max(2, int(max_nodes/max_concurrent_trials)).

  • Para la clasificación o regresión, cada modelo se entrena mediante nodos de max_nodes.

Nota: este parámetro está en versión preliminar pública y podría cambiar en el futuro.

max_trials
Optional[int]

Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000.

timeout_minutes
Optional[int]

Tiempo máximo en minutos que pueden llevar a cabo todas las iteraciones combinadas antes de que finalice el experimento. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o que se produzca un error, el valor predeterminado es Ninguno.

trial_timeout_minutes
Optional[int]

Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos, el valor predeterminado es Ninguno.

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

set_training

Método para configurar las opciones relacionadas con el entrenamiento.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Parámetros

enable_onnx_compatible_models
Optional[bool]

Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.

enable_dnn_training
Optional[bool]

Si se deben incluir modelos basados en DNN durante la selección del modelo. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.

enable_model_explainability
Optional[bool]

Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar). , el valor predeterminado es None

enable_stack_ensemble
Optional[bool]

Si se habilita o deshabilita la iteración de StackEnsemble. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración de conjuntos, valores predeterminados en Ninguno.

enable_vote_ensemble
Optional[bool]

Si se habilita o deshabilita la iteración votingEnsemble. Para obtener más información sobre los conjuntos, vea Configuración de conjuntos, valores predeterminados en Ninguno.

stack_ensemble_settings
Optional[StackEnsembleSettings]

Configuración de la iteración stackEnsemble, el valor predeterminado es Ninguno.

ensemble_model_download_timeout
Optional[int]

Durante la generación de modelos VotingEnsemble y StackEnsemble, se descargan varios modelos ajustados de las ejecuciones secundarias anteriores. Configure este parámetro con un valor superior a 300 segundos, si se necesita más tiempo, el valor predeterminado es Ninguno.

allowed_training_algorithms
Optional[List[str]]

Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en blocked_training_algorithms los modelos tensorFlow o en desuso, el valor predeterminado es Ninguno.

blocked_training_algorithms
Optional[List[str]]

Lista de algoritmos que se omitirán para un experimento, el valor predeterminado es Ninguno.

training_mode
Optional[Union[str, TabularTrainingMode]]

[Experimental] Modo de entrenamiento que se va a usar. Los valores posibles son:

  • distributed: habilita el entrenamiento distribuido para algoritmos admitidos.

  • non_distributed: deshabilita el entrenamiento distribuido.

  • auto- Actualmente, es igual que non_distributed. En el futuro, esto podría cambiar.

Nota: Este parámetro está en versión preliminar pública y puede cambiar en el futuro.

Excepciones

Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.

Se genera si dest es un archivo abierto y el archivo no se puede escribir.

Atributos

base_path

Ruta de acceso base del recurso.

Devoluciones

Ruta de acceso base del recurso.

Tipo de valor devuelto

str

creation_context

Contexto de creación del recurso.

Devoluciones

Metadatos de creación del recurso.

Tipo de valor devuelto

featurization

Obtenga la configuración de caracterización tabular para el trabajo de AutoML.

Devoluciones

Configuración de caracterización tabular para el trabajo de AutoML

Tipo de valor devuelto

id

El identificador del recurso.

Devoluciones

Identificador global del recurso, un identificador de Azure Resource Manager (ARM).

Tipo de valor devuelto

inputs

limits

Obtenga los límites tabulares del trabajo de AutoML.

Devoluciones

Límites tabulares para el trabajo de AutoML

Tipo de valor devuelto

log_files

Archivos de salida del trabajo.

Devoluciones

Diccionario de nombres de registro y direcciones URL.

Tipo de valor devuelto

log_verbosity

Obtenga el nivel de detalle del registro para el trabajo de AutoML.

Devoluciones

detalle del registro para el trabajo de AutoML

Tipo de valor devuelto

<xref:LogVerbosity>

outputs

primary_metric

status

El estado del trabajo.

Los valores comunes devueltos incluyen "Running", "Completed" y "Failed". Todos los valores posibles son:

  • NotStarted: se trata de un estado temporal en el que se encuentran los objetos Run del lado cliente antes del envío en la nube.

  • Starting: la ejecución ha empezado a procesarse en la nube. El autor de la llamada tiene un identificador de ejecución en este momento.

  • Aprovisionamiento: se crea un proceso a petición para un envío de trabajo determinado.

  • Preparación: el entorno de ejecución se está preparando y se encuentra en una de estas dos fases:

    • Compilación de imágenes de Docker

    • configuración del entorno Conda

  • En cola: el trabajo se pone en cola en el destino de proceso. Por ejemplo, en BatchAI, el trabajo está en un estado en cola.

    mientras espera a que todos los nodos solicitados estén listos.

  • En ejecución: el trabajo se ha iniciado para ejecutarse en el destino de proceso.

  • Finalización: la ejecución del código de usuario se ha completado y la ejecución está en fases posteriores al procesamiento.

  • CancelRequested: se ha solicitado la cancelación del trabajo.

  • Completado: la ejecución se ha completado correctamente. Esto incluye tanto la ejecución del código de usuario como la ejecución

    posteriores al procesamiento de la ejecución.

  • Failed: error en la ejecución. Normalmente, la propiedad Error de una ejecución proporcionará detalles sobre por qué se produjo el error.

  • Canceled: sigue a una solicitud de cancelación e indica que la ejecución se ha cancelado correctamente.

  • NotResponding: en el caso de las ejecuciones que tienen los latidos habilitados, no se ha enviado recientemente ningún latido.

Devoluciones

Estado del trabajo.

Tipo de valor devuelto

studio_url

Punto de conexión de Azure ML Studio.

Devoluciones

Dirección URL de la página de detalles del trabajo.

Tipo de valor devuelto

task_type

Obtiene el tipo de tarea.

Devoluciones

Tipo de tarea que se va a ejecutar. Entre los valores posibles se incluyen: "classification", "regression", "forecasting".

Tipo de valor devuelto

str

test_data

Obtener datos de prueba.

Devoluciones

Entrada de datos de prueba

Tipo de valor devuelto

training

training_data

Obtención de datos de entrenamiento.

Devoluciones

Entrada de datos de entrenamiento

Tipo de valor devuelto

type

Tipo del trabajo.

Devoluciones

Tipo del trabajo.

Tipo de valor devuelto

validation_data

Obtiene los datos de validación.

Devoluciones

Entrada de datos de validación

Tipo de valor devuelto