SdcaRegressionTrainer Clase
Definición
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
IEstimator<TTransformer> para entrenar un modelo de regresión mediante el método de ascenso de coordenada dual estocástico.
public sealed class SdcaRegressionTrainer : Microsoft.ML.Trainers.SdcaTrainerBase<Microsoft.ML.Trainers.SdcaRegressionTrainer.Options,Microsoft.ML.Data.RegressionPredictionTransformer<Microsoft.ML.Trainers.LinearRegressionModelParameters>,Microsoft.ML.Trainers.LinearRegressionModelParameters>
type SdcaRegressionTrainer = class
inherit SdcaTrainerBase<SdcaRegressionTrainer.Options, RegressionPredictionTransformer<LinearRegressionModelParameters>, LinearRegressionModelParameters>
Public NotInheritable Class SdcaRegressionTrainer
Inherits SdcaTrainerBase(Of SdcaRegressionTrainer.Options, RegressionPredictionTransformer(Of LinearRegressionModelParameters), LinearRegressionModelParameters)
- Herencia
Comentarios
Para crear este instructor, use Sdca o Sdca(Options).
Columnas de entrada y salida
Los datos de la columna de etiquetas de entrada deben ser Single. Los datos de columna de características de entrada deben ser un vector de tamaño conocido de Single.
Este instructor genera las siguientes columnas:
Nombre de columna de salida | Tipo de columna | Descripción |
---|---|---|
Score |
Single | Puntuación sin enlazar que el modelo predijo. |
Características del entrenador
Tarea de Machine Learning | Regresión |
¿Se requiere normalización? | Sí |
¿Se requiere el almacenamiento en caché? | No |
NuGet necesario además de Microsoft.ML | None |
Exportable a ONNX | Sí |
Detalles del algoritmo de entrenamiento
Este instructor se basa en el método de ascenso de coordenadas duales estocásticas (SDCA), una técnica de optimización de última generación para funciones objetivas convexas. El algoritmo se puede escalar porque es un algoritmo de entrenamiento de streaming como se describe en un documento mejor de KDD.
La convergencia se infrascribe mediante la aplicación periódica de la sincronización entre las variables primal y dual en un subproceso independiente. También se proporcionan varias opciones de funciones de pérdida, como la pérdida de bisagra y la pérdida logística. Dependiendo de la pérdida usada, el modelo entrenado puede ser, por ejemplo, admitir la máquina vectorial o la regresión logística. El método SDCA combina varias de las mejores propiedades, como la capacidad de realizar el aprendizaje de streaming (sin ajustar todo el conjunto de datos en la memoria), alcanzando un resultado razonable con algunos exámenes de todo el conjunto de datos (por ejemplo, vea experimentos en este documento) y no gaste ningún cálculo en ceros en conjuntos de datos dispersos.
Tenga en cuenta que SDCA es un algoritmo de optimización de streaming y estocástico. El resultado depende del orden de los datos de entrenamiento porque la tolerancia de detención no es lo suficientemente ajustada. En optimización fuertemente convexa, la solución óptima es única y, por lo tanto, todo el mundo llega finalmente al mismo lugar. Incluso en casos no fuertemente convexas, obtendrá soluciones igualmente buenas de ejecutar para ejecutarse. Para los resultados reproducibles, se recomienda que uno establezca "Shuffle" en False y "NumThreads" en 1.
Esta clase usa la minimización de riesgos empíricas (es decir, ERM) para formular el problema de optimización basado en los datos recopilados. Tenga en cuenta que el riesgo empírico se mide normalmente aplicando una función de pérdida en las predicciones del modelo en los puntos de datos recopilados. Si los datos de entrenamiento no contienen suficientes puntos de datos (por ejemplo, para entrenar un modelo lineal en $n espacio dimensional, necesitamos al menos $n$ puntos de datos), el sobreajuste puede ocurrir para que el modelo generado por ERM sea bueno para describir los datos de entrenamiento, pero puede no predecir los resultados correctos en eventos no vistos. La regularización es una técnica común para aliviar este fenómeno penalizando la magnitud (normalmente medida por la función norma) de los parámetros del modelo. Este instructor admite la regularización de red elástica, que penaliza una combinación lineal de la norma L1 (LASSO), $|| \textbf{w}_c || _1$, y L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizaciones para $c=1,\dots,m$. Las regularizaciones L1-norm y L2-norm tienen diferentes efectos y usos que son complementarios en ciertos aspectos.
Junto con el algoritmo de optimización implementado, la regularización L1-norm puede aumentar la dispersión de los pesos del modelo, $\textbf{w}_1,\dots,\textbf{w}_m$. En el caso de los conjuntos de datos de alta dimensión y disperso, si los usuarios seleccionan cuidadosamente el coeficiente de la norma L1, es posible lograr una buena calidad de predicción con un modelo que tenga solo unos pocos pesos no cero (por ejemplo, el 1 % de los pesos totales del modelo) sin afectar a su potencia de predicción. Por el contrario, la norma L2 no puede aumentar la sparsidad del modelo entrenado, pero puede evitar el sobreajuste evitando valores de parámetro grandes. A veces, el uso de la norma L2 conduce a una mejor calidad de predicción, por lo que es posible que los usuarios quieran probarlo y ajustar los coeficientes de la norma L1 y la norma L2. Tenga en cuenta que, conceptualmente, el uso de la norma L1 implica que la distribución de todos los parámetros del modelo es una distribución laplace , mientras que la norma L2 implica una distribución gaussiana para ellos.
Una regularización agresiva (es decir, asignar coeficientes grandes a los términos de regularización L1-norm o L2-norm) puede dañar la capacidad predictiva excluyendo variables importantes del modelo. Por ejemplo, un coeficiente L1-norm muy grande puede forzar que todos los parámetros sean ceros y conducir a un modelo trivial. Por lo tanto, elegir los coeficientes de regularización adecuados es importante en la práctica.
Para más información, consulte:
- Escalar verticalmente el ascenso de coordenadas duales estocásticas.
- Métodos estocásticos de ascenso de coordenadas duales para la minimización de pérdida regularizada.
Consulte la sección Ver también para obtener vínculos a ejemplos del uso.
Campos
FeatureColumn |
Columna de características que espera el instructor. (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
LabelColumn |
Columna de etiqueta que espera el instructor. Puede ser |
WeightColumn |
Columna de peso que espera el entrenador. Puede ser |
Propiedades
Info |
IEstimator<TTransformer> para entrenar un modelo de regresión mediante el método de ascenso de coordenada dual estocástico. (Heredado de StochasticTrainerBase<TTransformer,TModel>) |
Métodos
Fit(IDataView) |
Entrena y devuelve un ITransformerobjeto . (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
GetOutputSchema(SchemaShape) |
IEstimator<TTransformer> para entrenar un modelo de regresión mediante el método de ascenso de coordenada dual estocástico. (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
Métodos de extensión
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Anexe un "punto de control de almacenamiento en caché" a la cadena del estimador. Esto garantizará que los estimadores de bajada se entrenarán con datos almacenados en caché. Resulta útil tener un punto de control de almacenamiento en caché antes de que los instructores tomen varios pases de datos. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dado un estimador, devuelva un objeto de ajuste que llamará a un delegado una vez Fit(IDataView) . A menudo, es importante que un estimador devuelva información sobre lo que cabe, por lo que el Fit(IDataView) método devuelve un objeto con tipo específico, en lugar de simplemente un general ITransformer. Sin embargo, al mismo tiempo, IEstimator<TTransformer> a menudo se forman en canalizaciones con muchos objetos, por lo que es posible que tengamos que crear una cadena de estimadores a través EstimatorChain<TLastTransformer> de donde el estimador para el que queremos obtener el transformador se enterró en algún lugar de esta cadena. En ese escenario, podemos a través de este método adjuntar un delegado al que se llamará una vez que se llame a fit. |