RegressionJob Clase
Configuración del trabajo de regresión de AutoML.
Inicialice una nueva tarea de regresión de AutoML.
- Herencia
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularRegressionJob
Constructor
RegressionJob(*, primary_metric: str | None = None, **kwargs)
Parámetros
Métodos
dump |
Volca el contenido del trabajo en un archivo en formato YAML. |
set_data |
Defina la configuración de datos. |
set_featurization |
Defina la configuración de ingeniería de características. |
set_limits |
Establezca límites para el trabajo. |
set_training |
Método para configurar las opciones relacionadas con el entrenamiento. |
dump
Volca el contenido del trabajo en un archivo en formato YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Parámetros
Ruta de acceso local o secuencia de archivos en la que se va a escribir el contenido de YAML. Si dest es una ruta de acceso de archivo, se creará un nuevo archivo. Si dest es un archivo abierto, el archivo se escribirá directamente.
- kwargs
- dict
Argumentos adicionales para pasar al serializador YAML.
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
set_data
Defina la configuración de datos.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Parámetros
- training_data
- Input
Datos de entrenamiento.
- target_column_name
- str
Nombre de columna de la columna de destino.
El nombre de la columna de peso, tiene como valor predeterminado Ninguno.
Tamaño de los datos de validación, el valor predeterminado es None
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
set_featurization
Defina la configuración de ingeniería de características.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Parámetros
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Lista de nombres de transformador que se van a bloquear durante la caracterización, el valor predeterminado es Ninguno.
Diccionario de nombres de columna y tipos de características usados para actualizar el propósito de columna, el valor predeterminado es None.
Código ISO 639-3 de tres caracteres para los idiomas contenidos en el conjunto de datos. Los idiomas distintos del inglés solo se admiten si usa el proceso habilitado para GPU. Se debe usar el language_code "mul" si el conjunto de datos contiene varios idiomas. Para buscar códigos ISO 639-3 para distintos idiomas, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, el valor predeterminado es Ninguno.
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Diccionario de transformadores y parámetros de personalización correspondientes, el valor predeterminado es None.
"off", "auto", el valor predeterminado es "auto", el valor predeterminado es None
Si se deben incluir métodos de ingeniería de características basados en DNN, el valor predeterminado es None
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
set_limits
Establezca límites para el trabajo.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Parámetros
Si se habilita la finalización anticipada si la puntuación no mejora a corto plazo, el valor predeterminado es None.
Lógica de detención temprana:
No hay detención anticipada para las primeras 20 iteraciones (puntos de referencia).
La ventana de detención temprana se inicia en la iteración número 21 y busca early_stopping_n_iters iteraciones
(establecido actualmente en 10). Esto significa que la primera iteración donde puede producirse la detención es la 31.
AutoML sigue programando 2 iteraciones de conjunto DESPUÉS de la detención temprana, lo que podría dar lugar a puntuaciones más altas.
La detención temprana se desencadena si el valor absoluto de la mejor puntuación calculada es el mismo para las anteriores iteraciones
early_stopping_n_iters; es decir, si no hay ninguna mejora en la puntuación de iteraciones early_stopping_n_iters.
Puntuación de destino para el experimento. El experimento finaliza una vez que se alcanza esta puntuación. Si no se especifica (sin criterios), el experimento se ejecuta hasta que no se realiza ningún progreso adicional en la métrica principal. Para obtener más información sobre los criterios de salida, consulte este artículo , el valor predeterminado es Ninguno.
Este es el número máximo de iteraciones que se ejecutarían en paralelo. El valor predeterminado es 1.
- Los clústeres de AmlCompute admiten una iteración que se ejecuta por nodo.
Para varias ejecuciones primarias de experimentos de AutoML ejecutadas en paralelo en un único clúster de AmlCompute, la suma de los valores max_concurrent_trials
de todos los experimentos debe ser menor o igual que el número máximo de nodos. De lo contrario, las ejecuciones se pondrán en cola hasta que los nodos estén disponibles.
- DSVM admite varias iteraciones por nodo.
max_concurrent_trials
Debe
ser menor o igual que el número de núcleos de la DSVM. En el caso de varios experimentos que se ejecutan en paralelo en una sola DSVM, la suma de los valores max_concurrent_trials
de todos los experimentos debe ser menor o igual que el número máximo de nodos.
- Databricks:
max_concurrent_trials
debe ser menor o igual que el número de
nodos de trabajo en Databricks.
max_concurrent_trials
no se aplica a las ejecuciones locales. Anteriormente, este parámetro se denominaba concurrent_iterations
.
Número máximo de subprocesos que se usarán para una iteración de entrenamiento determinada. Valores aceptables:
Mayor que 1 y menor o igual que el número máximo de núcleos en el destino de proceso.
Igual a -1, lo que significa usar todos los núcleos posibles por iteración por ejecución secundaria.
Igual a 1, el valor predeterminado.
[Experimental] Número máximo de nodos que se van a usar para el entrenamiento distribuido.
Para la previsión, cada modelo se entrena mediante nodos max(2, int(max_nodes/max_concurrent_trials)).
Para la clasificación o regresión, cada modelo se entrena mediante nodos de max_nodes.
Nota: este parámetro está en versión preliminar pública y podría cambiar en el futuro.
Número total de combinaciones de algoritmos y parámetros diferentes que se probarán durante un experimento de aprendizaje automático automatizado. Si no se especifica, el valor predeterminado es 1000.
Tiempo máximo en minutos que pueden llevar a cabo todas las iteraciones combinadas antes de que finalice el experimento. Si no se especifica, el tiempo de espera predeterminado del experimento es de 6 días. Para especificar un tiempo de espera menor o igual que 1 hora, asegúrese de que el tamaño del conjunto de datos no sea superior a 10 000 000 (columna de horas de filas) o que se produzca un error, el valor predeterminado es Ninguno.
Tiempo máximo en minutos durante el que se puede ejecutar cada iteración antes de que finalice. Si no se especifica, se usa un valor de 1 mes o 43200 minutos, el valor predeterminado es Ninguno.
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
set_training
Método para configurar las opciones relacionadas con el entrenamiento.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Parámetros
Si desea habilitar o deshabilitar la aplicación de los modelos compatibles con ONNX. El valor predeterminado es False. Para más información sobre Open Neural Network Exchange (ONNX) y Azure Machine Learning, consulte este artículo.
Si se deben incluir modelos basados en DNN durante la selección del modelo. Sin embargo, el valor predeterminado es True para las tareas NLP de DNN y es False para todas las demás tareas de AutoML.
Si se habilita la explicación del mejor modelo de AutoML al final de todas las iteraciones de entrenamiento de AutoML. Para más información, consulte Interpretación: capacidad de explicación de modelos de aprendizaje automático automatizado (versión preliminar). , el valor predeterminado es None
Si se habilita o deshabilita la iteración de StackEnsemble. Si la marca enable_onnx_compatible_models no se establece, se deshabilitará la iteración de StackEnsemble. Del mismo modo, para las tareas de Timeseries, la iteración de StackEnsemble se deshabilitará de forma predeterminada, para evitar riesgos de sobreajuste debido a un pequeño conjunto de entrenamiento que se usa para ajustar el metaaprendizaje. Para obtener más información sobre los conjuntos, vea Configuración de conjuntos, valores predeterminados en Ninguno.
Si se habilita o deshabilita la iteración votingEnsemble. Para obtener más información sobre los conjuntos, vea Configuración de conjuntos, valores predeterminados en Ninguno.
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Configuración de la iteración stackEnsemble, el valor predeterminado es Ninguno.
Durante la generación de modelos VotingEnsemble y StackEnsemble, se descargan varios modelos ajustados de las ejecuciones secundarias anteriores. Configure este parámetro con un valor superior a 300 segundos, si se necesita más tiempo, el valor predeterminado es Ninguno.
Lista de nombres de modelo para buscar un experimento. Si no se especifica, todos los modelos admitidos para la tarea se usan menos los especificados en blocked_training_algorithms
los modelos tensorFlow o en desuso, el valor predeterminado es Ninguno.
Lista de algoritmos que se omitirán para un experimento, el valor predeterminado es Ninguno.
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Experimental] Modo de entrenamiento que se va a usar. Los valores posibles son:
distributed: habilita el entrenamiento distribuido para algoritmos admitidos.
non_distributed: deshabilita el entrenamiento distribuido.
auto- Actualmente, es igual que non_distributed. En el futuro, esto podría cambiar.
Nota: Este parámetro está en versión preliminar pública y puede cambiar en el futuro.
Excepciones
Se genera si dest es una ruta de acceso de archivo y el archivo ya existe.
Se genera si dest es un archivo abierto y el archivo no se puede escribir.
Atributos
base_path
Ruta de acceso base del recurso.
Devoluciones
Ruta de acceso base del recurso.
Tipo de valor devuelto
creation_context
Contexto de creación del recurso.
Devoluciones
Metadatos de creación del recurso.
Tipo de valor devuelto
featurization
Obtenga la configuración de caracterización tabular para el trabajo de AutoML.
Devoluciones
Configuración de caracterización tabular para el trabajo de AutoML
Tipo de valor devuelto
id
El identificador del recurso.
Devoluciones
Identificador global del recurso, un identificador de Azure Resource Manager (ARM).
Tipo de valor devuelto
inputs
limits
Obtenga los límites tabulares del trabajo de AutoML.
Devoluciones
Límites tabulares para el trabajo de AutoML
Tipo de valor devuelto
log_files
Archivos de salida del trabajo.
Devoluciones
Diccionario de nombres de registro y direcciones URL.
Tipo de valor devuelto
log_verbosity
Obtenga el nivel de detalle del registro para el trabajo de AutoML.
Devoluciones
detalle del registro para el trabajo de AutoML
Tipo de valor devuelto
outputs
primary_metric
status
El estado del trabajo.
Los valores comunes devueltos incluyen "Running", "Completed" y "Failed". Todos los valores posibles son:
NotStarted: se trata de un estado temporal en el que se encuentran los objetos Run del lado cliente antes del envío en la nube.
Starting: la ejecución ha empezado a procesarse en la nube. El autor de la llamada tiene un identificador de ejecución en este momento.
Aprovisionamiento: se crea un proceso a petición para un envío de trabajo determinado.
Preparación: el entorno de ejecución se está preparando y se encuentra en una de estas dos fases:
Compilación de imágenes de Docker
configuración del entorno Conda
En cola: el trabajo se pone en cola en el destino de proceso. Por ejemplo, en BatchAI, el trabajo está en un estado en cola.
mientras espera a que todos los nodos solicitados estén listos.
En ejecución: el trabajo se ha iniciado para ejecutarse en el destino de proceso.
Finalización: la ejecución del código de usuario se ha completado y la ejecución está en fases posteriores al procesamiento.
CancelRequested: se ha solicitado la cancelación del trabajo.
Completado: la ejecución se ha completado correctamente. Esto incluye tanto la ejecución del código de usuario como la ejecución
posteriores al procesamiento de la ejecución.
Failed: error en la ejecución. Normalmente, la propiedad Error de una ejecución proporcionará detalles sobre por qué se produjo el error.
Canceled: sigue a una solicitud de cancelación e indica que la ejecución se ha cancelado correctamente.
NotResponding: en el caso de las ejecuciones que tienen los latidos habilitados, no se ha enviado recientemente ningún latido.
Devoluciones
Estado del trabajo.
Tipo de valor devuelto
studio_url
Punto de conexión de Azure ML Studio.
Devoluciones
Dirección URL de la página de detalles del trabajo.
Tipo de valor devuelto
task_type
Obtiene el tipo de tarea.
Devoluciones
Tipo de tarea que se va a ejecutar. Entre los valores posibles se incluyen: "classification", "regression", "forecasting".
Tipo de valor devuelto
test_data
training
training_data
Obtención de datos de entrenamiento.
Devoluciones
Entrada de datos de entrenamiento
Tipo de valor devuelto
type
validation_data
Obtiene los datos de validación.
Devoluciones
Entrada de datos de validación
Tipo de valor devuelto
Azure SDK for Python
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de