Caracterización de datos en aprendizaje automático automatizado
SE APLICA A:Azure ML del SDK de Python v1
Obtenga información sobre la configuración de la caracterización de datos en Azure Machine Learning, y cómo personalizar esas características para experimentos de aprendizaje automático automatizado.
Ingeniería de características y caracterización
Los datos de entrenamiento constan de filas y columnas. Cada fila es una observación o registro, y las columnas de cada fila son las características que describen cada registro. Normalmente, las características que mejor caracterizan los patrones de los datos se seleccionan para crear modelos predictivos.
Aunque muchos de los campos de datos sin procesar se pueden usar directamente para entrenar un modelo, a menudo es necesario crear características adicionales (de ingeniería) que ofrezcan información que mejor distinga los patrones en los datos. Este proceso se denomina ingeniería de características, donde se aprovecha el uso del conocimiento de dominio de los datos para crear características que, a su vez, ayuden a que los algoritmos de aprendizaje automático aprendan mejor.
En Azure Machine Learning, se aplican técnicas de escalado de datos y normalización para facilitar la ingeniería de características. El conjunto de estas técnicas y la ingeniería de características se conocen como caracterización en los experimentos de aprendizaje automático automatizado.
Requisitos previos
En este artículo se da por supuesto que ya sabe cómo configurar un experimento de ML automatizado.
Importante
Los comandos de Python de este artículo requieren la versión más reciente del paquete azureml-train-automl
.
- Instale el paquete
azureml-train-automl
más reciente en el entorno local. - Para obtener información sobre la última versión del paquete
azureml-train-automl
, consulta las notas de la versión.
Para obtener información sobre la configuración, vea los artículos siguientes:
- Para obtener una experiencia de codificar por primera vez: Configuración de experimentos de ML automatizado con el SDK de Azure Machine Learning para Python.
- Para obtener una experiencia sin código o con poco código: Creación, revisión e implementación de modelos de aprendizaje automático automatizado con Azure Machine Learning Studio.
Configuración de la caracterización
En todos los experimentos de aprendizaje automático automatizado se aplican técnicas de escalado automático y normalización a los datos de forma predeterminada. Estas técnicas son tipos de caracterización que ayudan a ciertos algoritmos que son sensibles a las características a diferentes escalas. Puede habilitar una caracterización adicional, como la atribución de valores que faltan, la codificación y las transformaciones.
Nota
Los pasos de la caracterización del aprendizaje automático automatizado (tales como la normalización de características, el control de los datos que faltan o la conversión de valores de texto a numéricos) se convierten en parte del modelo subyacente. Cuando se usa el modelo para realizar predicciones, se aplican automáticamente a los datos de entrada los mismos pasos de caracterización que se aplican durante el entrenamiento.
En el caso de los experimentos configurados con el SDK de Python, se puede habilitar o deshabilitar el valor de caracterización y especificar con más detalle los pasos de caracterización que se van a usar para el experimento. Si usa Azure Machine Learning Studio, vea los pasos para habilitar la caracterización.
En la tabla siguiente se muestran los valores aceptados para featurization
en la clase AutoMLConfig:
Configuración de la caracterización | Descripción |
---|---|
"featurization": 'auto' |
Especifica que, como parte del preprocesamiento, los límites de protección de datos y los pasos de caracterización se van a realizar automáticamente. Esta es la configuración predeterminada. |
"featurization": 'off' |
Especifica que los pasos de caracterización no se van a realizar automáticamente. |
"featurization": 'FeaturizationConfig' |
Especifica que se van a usar los pasos de caracterización personalizados. Aprenda a personalizar la caracterización. |
Características automáticas
En la tabla siguiente se resumen las técnicas que se aplican automáticamente a los datos. Estas técnicas se aplican para los experimentos que se configuran mediante el SDK o la interfaz de usuario de Studio. Para deshabilitar este comportamiento, establezca "featurization": 'off'
en el objeto AutoMLConfig
.
Nota
Si tiene previsto exportar los modelos creados mediante AutoML a un modelo de ONNX, solo se admiten las opciones de caracterización indicadas con un asterisco ("*") en el formato ONNX. Más información sobre la conversión de modelos a ONNX.
Pasos de caracterización | Descripción |
---|---|
Eliminación de las características de cardinalidad alta o sin variación* | Permite eliminar estas características de los conjuntos de entrenamiento y validación. Se aplican a características en las que faltan todos los valores, que tienen el mismo valor en todas las filas o que tienen una cardinalidad alta (por ejemplo, hashes, id. o GUID). |
Atribución de los valores que faltan* | Para las características numéricas, se atribuyen con el promedio de los valores de la columna. Para las características de categorías, se atribuyen con el valor más frecuente. |
Generación de más características* | Para las características de fecha y hora: año, mes, día, día de la semana, día del año, trimestre, semana del año, hora, minuto, segundo. En el caso de las tareas de previsión, se crean estas características adicionales de fecha y hora: año ISO, semestre, mes natural como cadena, semana, día de la semana como cadena, día del trimestre, día del año, AM/PM [0 si la hora es antes de mediodía (12 p. m.); 1, en caso contrario], AM/PM como cadena, hora del día (formato de 12 h) Para las características de texto: Frecuencia de término basada en unigramas, bigramas y trigramas. Más información sobre cómo se hace esto con BERT. |
Transformación y codificación* | Permite transformar las características numéricas con pocos valores únicos en características de categorías. La codificación "one-hot" se utiliza para las características de categoría de cardinalidad baja. La codificación "one-hot-hash" se utiliza para las características de categorías de cardinalidad alta. |
Inserciones de palabras | Caracterizador de texto que convierte los vectores de tokens de texto en vectores de oración mediante un modelo previamente entrenado. El vector de inserción de cada palabra en un documento se agrega con el resto para producir un vector de característica de documento. |
Distancia del clúster | Entrena un modelo de agrupación en clústeres k-means en todas las columnas numéricas. Genera k nuevas características (una característica numérica nueva por grupo), que contienen la distancia de cada muestra hasta el centroide de cada clúster. |
En todos los experimentos de aprendizaje automático automatizado, los datos se escalan y se normalizan automáticamente para ayudar a que los algoritmos funcionen bien. Durante el entrenamiento del modelo, se aplica una de las siguientes técnicas de escalado o normalización para todos los modelos.
Escalado y procesamiento | Descripción |
---|---|
StandardScaleWrapper | Estandariza las características al quitar la media y realizar un escalado según la varianza de la unidad. |
MinMaxScalar | Transforma las características al escalar cada una según el mínimo y máximo de esa columna. |
MaxAbsScaler | Escala cada característica según su valor absoluto máximo. |
RobustScalar | Escala las características según su rango cuantil. |
PCA | Reducción de dimensionalidad lineal mediante la descomposición en valores singulares de los datos a fin de proyectarlos en un espacio dimensional inferior. |
TruncatedSVDWrapper | Este convertidor realiza la reducción de dimensionalidad lineal por medio de la descomposición en valores singulares truncados (SVD). Al contrario que PCA, este programa de estimación no centra los datos antes de calcular la descomposición en valores singulares, lo que significa que puede trabajar con matrices scipy.sparse de forma eficaz. |
SparseNormalizer | Cada muestra (es decir, cada fila de la matriz de datos) con al menos un componente distinto de cero vuelve a escalarse independientemente de las demás muestras, de modo que su norma vectorial (l1 o l2) sea igual a uno. |
Límites de protección de datos
Los límites de protección de datos permiten identificar posibles incidencias con los datos (por ejemplo, valores que faltan o desequilibrio de clases). También ayudan a tomar acciones correctivas para mejorar los resultados.
Se aplican límites de protección de datos:
- En el caso de los experimentos de SDK: cuando se especifican los parámetros
"featurization": 'auto'
ovalidation=auto
en el objetoAutoMLConfig
. - En el caso de experimentos de Studio: cuando se habilita la caracterización automática.
Puede revisar los límites de protección de datos del experimento:
Mediante el establecimiento de
show_output=True
cuando se envía un experimento con el SDK.En Studio, en la pestaña Límites de protección de datos de la ejecución del ML automatizado.
Estados de límites de protección de datos
Los límites de protección de datos muestran uno de los tres estados siguientes:
State | Descripción |
---|---|
Superado | No se ha detectado ningún problema con los datos y no se requiere ninguna acción por su parte. |
Listo | Los cambios se han aplicado a los datos. Se recomienda revisar las acciones correctivas que ha realizado ML automatizado para asegurarse de que los cambios se alineen con los resultados esperados. |
Con alertas | Se ha detectado una incidencia con los datos, pero no se ha podido resolver. Se recomienda revisar y solucionar la incidencia. |
Límites de protección de datos admitidos
En la tabla siguiente se describen los límites de protección de datos admitidos actualmente, así como los estados asociados que podría ver al enviar el experimento:
Límite de protección | Estado | Condición para el desencadenador |
---|---|---|
Atribución de los valores de características que faltan | Pasado ¡Listo! |
No se ha detectado que falten valores de característica en los datos de entrenamiento. Obtenga más información sobre la imputación de valores que faltan. Se han detectado valores de característica que faltan en los datos de entrenamiento y se han imputado. |
Detección de características de alta cardinalidad | Pasado ¡Listo! |
Se han analizado las entradas y no se han detectado características de cardinalidad alta. Se han detectado características de cardinalidad alta en las entradas y se han controlado. |
Control de división de validación | ¡Listo! | La configuración de validación se ha establecido en 'auto' y los datos de entrenamiento contenían menos de 20 000 filas. Todas las iteraciones del modelo entrenado se han validado mediante validación cruzada. Obtenga más información sobre la validación de datos. La configuración de validación se ha establecido en 'auto' y los datos de entrenamiento contenían más de 20 000 filas. Los datos de entrada se han dividido en un conjunto de datos de entrenamiento y un conjunto de datos de validación para comprobar el modelo. |
Detección de equilibrio de clases | Pasado Con alertas ¡Listo! |
Se analizaron las entradas y todas las clases están equilibradas en los datos de entrenamiento. Se considera que un conjunto de datos está equilibrado si todas las clases tienen una representación adecuada en el conjunto de datos según el número y proporción de las muestras. Se han detectado clases desequilibradas en las entradas. Para corregir el sesgo del modelo, corrija el problema de equilibrio. Obtenga más información sobre datos desequilibrados. Se detectaron clases desequilibradas en las entradas, y la lógica de barrido ha determinado aplicar el equilibrio. |
Detección de problemas de memoria | Pasado ¡Listo! |
Se han analizado los valores seleccionados (horizonte, retardo y ventana con desplazamiento) sin que se hayan detectado incidencias potenciales de memoria insuficiente. Obtenga más información sobre las configuraciones de previsión de series temporales. Se han analizado los valores seleccionados (horizonte, retardo y ventana con desplazamiento) y pueden provocar que el experimento se quede sin memoria. Se han desactivado las configuraciones de ventana con desplazamiento o retardo. |
Detección de frecuencias | Pasado ¡Listo! |
Se ha analizado la serie temporal y todos los puntos de datos están alineados con la frecuencia detectada. Se ha analizado la serie temporal y se han detectado puntos de datos que no están alineados con la frecuencia detectada. Estos puntos de datos se quitaron del conjunto de datos. |
Validación cruzada | Listo | Para evaluar con precisión los modelos entrenados por AutoML, aprovechamos un conjunto de datos en el que el modelo no está entrenado. Por lo tanto, si el usuario no proporciona un conjunto de datos de validación explícito, se usa una parte del conjunto de datos de entrenamiento para lograrlo. Para conjuntos de datos más pequeños (menos de 20 000 muestras), se aprovecha la validación cruzada; de lo contrario, un único conjunto de espera se divide de los datos de entrenamiento para servir como conjunto de datos de validación. Por lo tanto, para los datos de entrada aprovechamos la validación cruzada con 10 plegamientos, si el número de muestras de entrenamiento es inferior a 1000 y 3 plegamientos en todos los demás casos. |
División de datos de entrenamiento y pruebas | Listo | Para evaluar con precisión los modelos entrenados por AutoML, aprovechamos un conjunto de datos en el que el modelo no está entrenado. Por lo tanto, si el usuario no proporciona un conjunto de datos de validación explícito, se usa una parte del conjunto de datos de entrenamiento para lograrlo. Para conjuntos de datos más pequeños (menos de 20 000 muestras), se aprovecha la validación cruzada; de lo contrario, un único conjunto de espera se divide de los datos de entrenamiento para servir como conjunto de datos de validación. Por lo tanto, sus datos de entrada se han dividido en un conjunto de datos de entrenamiento y un conjunto de datos de validación de exclusión. |
Detección de id. de serie temporal | Pasado Fijo |
Se analizó el conjunto de datos y no se detectó ningún índice de tiempo duplicado. Se encontraron varias series temporales en el conjunto de datos y los identificadores de serie temporal se crearon automáticamente para el conjunto de datos. |
Agregación de serie temporal | Pasado Fijo |
La frecuencia del conjunto de datos se alinea con la frecuencia especificada por el usuario. No se realizó ninguna agregación. Los datos se agregaron para cumplir con la frecuencia proporcionada por el usuario. |
Control de series breves | Pasado Fijo |
El ML automatizado ha detectado suficientes puntos de datos para cada serie en los datos de entrada para continuar con el entrenamiento. El ML automatizado detectó que algunas series no contenían suficientes puntos de datos para entrenar un modelo. Para continuar con el entrenamiento, estas series cortas se han quitado o rellenado. |
Personalización de la caracterización
Se pueden personalizar los valores de la caracterización para asegurarse de que los datos y las características que se usan a fin de entrenar el modelo de Machine Learning generen predicciones pertinentes.
Para personalizar las caracterizaciones, especifique"featurization": FeaturizationConfig
en el objeto AutoMLConfig
. Si usa Azure Machine Learning Studio para el experimento, vea el artículo de procedimiento. Para personalizar la caracterización de los tipos de tarea de previsión, consulte el procedimiento de previsión.
Las personalizaciones compatibles incluyen:
Personalización | Definición |
---|---|
Actualización del propósito de la columna | Invalida el tipo de característica detectado automáticamente para la columna especificada. |
Actualización de parámetros del transformador | Actualizar los parámetros para el transformador especificado. Actualmente admite Imputer (media, más frecuente y mediana) y HashOneHotEncoder. |
Quitar columnas | Especifica las columnas que se van a eliminar de la caracterización. |
Transformadores de bloque | Especifica los transformadores de bloque que se van a usar en el proceso de características. |
Nota
La funcionalidad Quitar columnas está en desuso a partir de la versión 1.19 del SDK. Quite columnas del conjunto de datos como parte de la limpieza de datos antes de consumirlos en el experimento de aprendizaje automático automatizado.
Cree el objeto FeaturizationConfig
mediante llamadas API:
featurization_config = FeaturizationConfig()
featurization_config.blocked_transformers = ['LabelEncoder']
featurization_config.drop_columns = ['aspiration', 'stroke']
featurization_config.add_column_purpose('engine-size', 'Numeric')
featurization_config.add_column_purpose('body-style', 'CategoricalHash')
#default strategy mean, add transformer param for 3 columns
featurization_config.add_transformer_params('Imputer', ['engine-size'], {"strategy": "median"})
featurization_config.add_transformer_params('Imputer', ['city-mpg'], {"strategy": "median"})
featurization_config.add_transformer_params('Imputer', ['bore'], {"strategy": "most_frequent"})
featurization_config.add_transformer_params('HashOneHotEncoder', [], {"number_of_bits": 3})
Transparencia de caracterización
Cada modelo AutoML tiene una caracterización aplicada automáticamente. La caracterización incluye ingeniería de características automatizada (cuando "featurization": 'auto'
) y escalado y normalización que, a su vez, afecta al algoritmo seleccionado y a sus valores de hiperparámetro. AutoML admite distintos métodos para asegurarse de que tiene visibilidad sobre lo que se aplicó al modelo.
Considere este ejemplo de previsión:
- Hay cuatro características de entrada: A (numérico), B (numérico), C (numérico), D (fecha y hora).
- La característica numérica C se puede quitar porque es una columna de identificador con todos los valores únicos.
- A las características numéricas A y B les faltan valores y, por tanto, los atribuye la media.
- La característica de fecha y hora D se divide en 11 diferentes características de diseño.
Para obtener esta información, use la salida fitted_model
de la ejecución del experimento de aprendizaje automático automatizado.
automl_config = AutoMLConfig(…)
automl_run = experiment.submit(automl_config …)
best_run, fitted_model = automl_run.get_output()
Diseño de características automatizadas
get_engineered_feature_names()
devuelve una lista de nombres de características diseñadas.
Nota
Utilice 'timeseriestransformer' para la tarea = 'forecasting'; en caso contrario, utilice 'datatransformer' para la tarea 'regression' o 'classification'.
fitted_model.named_steps['timeseriestransformer']. get_engineered_feature_names ()
En esta lista se incluyen todos los nombres de las características de diseño.
['A', 'B', 'A_WASNULL', 'B_WASNULL', 'year', 'half', 'quarter', 'month', 'day', 'hour', 'am_pm', 'hour12', 'wday', 'qday', 'week']
get_featurization_summary()
obtiene un resumen de características de todas las características de entrada.
fitted_model.named_steps['timeseriestransformer'].get_featurization_summary()
Resultados
[{'RawFeatureName': 'A',
'TypeDetected': 'Numeric',
'Dropped': 'No',
'EngineeredFeatureCount': 2,
'Tranformations': ['MeanImputer', 'ImputationMarker']},
{'RawFeatureName': 'B',
'TypeDetected': 'Numeric',
'Dropped': 'No',
'EngineeredFeatureCount': 2,
'Tranformations': ['MeanImputer', 'ImputationMarker']},
{'RawFeatureName': 'C',
'TypeDetected': 'Numeric',
'Dropped': 'Yes',
'EngineeredFeatureCount': 0,
'Tranformations': []},
{'RawFeatureName': 'D',
'TypeDetected': 'DateTime',
'Dropped': 'No',
'EngineeredFeatureCount': 11,
'Tranformations': ['DateTime','DateTime','DateTime','DateTime','DateTime','DateTime','DateTime','DateTime','DateTime','DateTime','DateTime']}]
Output | Definición |
---|---|
RawFeatureName | Nombre de columna o característica de entrada desde el conjunto de datos proporcionado. |
TypeDetected | Tipo de datos detectado de la característica de entrada. |
Dropped | Indica si la característica de entrada se ha quitado o se ha utilizado. |
EngineeringFeatureCount | Número de características que se generan por las transformaciones de diseño de características automatizadas. |
Transformaciones | Lista de transformaciones aplicadas a las características de entrada para generar características de diseño. |
Escalado y normalización
Para entender el escalado o normalización y el algoritmo seleccionado con sus valores de hiperparámetro, use fitted_model.steps
.
La siguiente salida de ejemplo procede de la ejecución de fitted_model.steps
para una ejecución elegida:
[('RobustScaler',
RobustScaler(copy=True,
quantile_range=[10, 90],
with_centering=True,
with_scaling=True)),
('LogisticRegression',
LogisticRegression(C=0.18420699693267145, class_weight='balanced',
dual=False,
fit_intercept=True,
intercept_scaling=1,
max_iter=100,
multi_class='multinomial',
n_jobs=1, penalty='l2',
random_state=None,
solver='newton-cg',
tol=0.0001,
verbose=0,
warm_start=False))
Para más información, use esta función auxiliar:
from pprint import pprint
def print_model(model, prefix=""):
for step in model.steps:
print(prefix + step[0])
if hasattr(step[1], 'estimators') and hasattr(step[1], 'weights'):
pprint({'estimators': list(e[0] for e in step[1].estimators), 'weights': step[1].weights})
print()
for estimator in step[1].estimators:
print_model(estimator[1], estimator[0]+ ' - ')
elif hasattr(step[1], '_base_learners') and hasattr(step[1], '_meta_learner'):
print("\nMeta Learner")
pprint(step[1]._meta_learner)
print()
for estimator in step[1]._base_learners:
print_model(estimator[1], estimator[0]+ ' - ')
else:
pprint(step[1].get_params())
print()
Esta función auxiliar devuelve el siguiente resultado para una ejecución determinada usando LogisticRegression with RobustScalar
como algoritmo específico.
RobustScaler
{'copy': True,
'quantile_range': [10, 90],
'with_centering': True,
'with_scaling': True}
LogisticRegression
{'C': 0.18420699693267145,
'class_weight': 'balanced',
'dual': False,
'fit_intercept': True,
'intercept_scaling': 1,
'max_iter': 100,
'multi_class': 'multinomial',
'n_jobs': 1,
'penalty': 'l2',
'random_state': None,
'solver': 'newton-cg',
'tol': 0.0001,
'verbose': 0,
'warm_start': False}
Predicción de la probabilidad de las clases
Los modelos generados mediante el aprendizaje automático automatizado tienen objetos contenedores que reflejan la funcionalidad de su clase de origen de código abierto. La mayoría de los objetos contenedores de modelos de clasificación devueltos por el aprendizaje automático automatizado implementan la función predict_proba()
, que acepta una muestra de datos similares a una matriz o de matriz dispersa de las características (valores X), y devuelve una matriz de n dimensiones de cada muestra y la probabilidad de la clase respectiva.
Suponiendo que ha recuperado el modelo mejor ejecutado y ajustado con las mismas llamadas anteriores, puede llamar a predict_proba()
directamente desde el modelo ajustado, proporcionando un ejemplo de X_test
en el formato adecuado según el tipo de modelo.
best_run, fitted_model = automl_run.get_output()
class_prob = fitted_model.predict_proba(X_test)
Si el modelo subyacente no admite la función predict_proba()
o el formato es incorrecto, se producirá una excepción específica de la clase del modelo. Vea los documentos de referencia RandomForestClassifier y XGBoost para obtener ejemplos de cómo se implementa esta función para los distintos tipos de modelos.
Integración de BERT en el aprendizaje automático automatizado
BERT se usa en la capa de caracterización del ML automatizado. En esta capa, si una columna contiene texto libre u otros tipos de datos, como marcas de tiempo o números simples, la caracterización se aplica en consecuencia.
En el caso de BERT, el modelo se ajusta y se entrena con las etiquetas proporcionadas por el usuario. Desde aquí, las inserciones de documentos se muestran como características junto con otras, como las basadas en marcas de tiempo, día de la semana.
Pasos para invocar BERT
Para invocar BERT, establezca enable_dnn: True
en automl_settings y use un proceso de GPU (vm_size = "STANDARD_NC6"
o una GPU superior). Si en lugar de BERT se usa un proceso de CPU, AutoML habilita el caracterizador BiLSTM DNN.
El ML automatizado realiza los siguientes pasos para BERT.
El preprocesamiento y la tokenización de todas las columnas de texto. Por ejemplo, el transformador "StringCast" se puede encontrar en el resumen de la caracterización del modelo final. Puede encontrar un ejemplo de cómo generar el resumen de caracterización del modelo en este cuaderno.
Concatene todas las columnas de texto en una sola columna de texto, por lo tanto,
StringConcatTransformer
en el modelo final.Nuestra implementación de BERT limita la longitud total del texto de un ejemplo de entrenamiento a 128 tokens. Esto significa que todas las columnas de texto, cuando se concatenan, deben tener una longitud máxima de 128 tokens. Si existen varias columnas, cada columna debe eliminarse de forma que se satisfaga esta condición. En caso contrario, en las columnas concatenadas de más de 128 tokens, la capa del tokenizador de BERT trunca esta entrada a 128 tokens.
Como parte del barrido de características, AutoML compara BERT con la línea de base (características de contenedor de palabras) en una muestra de los datos. Esta comparación determina si BERT proporcionaría mejoras en la precisión. Si BERT funciona mejor que la línea de base, AutoML usa BERT para la caracterización de texto para todos los datos. En ese caso, verá
PretrainedTextDNNTransformer
en el modelo final.
Normalmente, BERT se ejecuta más tiempo que otros administradores de características. Para mejorar el rendimiento, se recomienda usar "STANDARD_NC24r" o "STANDARD_NC24rs_V3" para sus funcionalidades de RDMA.
AutoML distribuirá el entrenamiento de BERT en varios nodos, si están disponibles (hasta un máximo de ocho nodos). Esto se puede hacer en el objeto AutoMLConfig
estableciendo el parámetro max_concurrent_iterations
en un valor mayor que 1.
Idiomas compatibles para BERT en el aprendizaje automático automatizado
AutoML admite actualmente unos 100 idiomas y, en función del idioma del conjunto de datos, elige el modelo BERT adecuado. Para los datos en alemán, se usa el modelo BERT en alemán. Para inglés, se usa el modelo BERT en inglés. Para todos los demás idiomas, se usa el modelo multilingüe de BERT.
En el código siguiente, se desencadena el modelo BERT en alemán, ya que el idioma del conjunto de datos se especifica como deu
, el código de idioma de 3 letras para el alemán según la clasificación ISO:
from azureml.automl.core.featurization import FeaturizationConfig
featurization_config = FeaturizationConfig(dataset_language='deu')
automl_settings = {
"experiment_timeout_minutes": 120,
"primary_metric": 'accuracy',
# All other settings you want to use
"featurization": featurization_config,
"enable_dnn": True, # This enables BERT DNN featurizer
"enable_voting_ensemble": False,
"enable_stack_ensemble": False
}
Pasos siguientes
Obtenga información sobre cómo configurar los experimentos de ML automatizado:
- Para obtener una experiencia de codificar por primera vez: Configuración de experimentos de ML automatizado con el SDK de Azure Machine Learning.
- Para obtener una experiencia sin código o con poco código: Creación de experimentos de aprendizaje automático automatizado en Azure Machine Learning Studio.
Obtenga más información sobre cómo y dónde implementar un modelo.
Obtenga más información sobre los procedimientos para entrenar un modelo de regresión con aprendizaje automático automatizado o los procedimientos para entrenar con aprendizaje automático automatizado en un recurso remoto.