SdcaNonCalibratedBinaryTrainer Clase
Definición
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico.
public sealed class SdcaNonCalibratedBinaryTrainer : Microsoft.ML.Trainers.SdcaBinaryTrainerBase<Microsoft.ML.Trainers.LinearBinaryModelParameters>
type SdcaNonCalibratedBinaryTrainer = class
inherit SdcaBinaryTrainerBase<LinearBinaryModelParameters>
Public NotInheritable Class SdcaNonCalibratedBinaryTrainer
Inherits SdcaBinaryTrainerBase(Of LinearBinaryModelParameters)
- Herencia
-
SdcaTrainerBase<SdcaBinaryTrainerBase<TModelParameters>.BinaryOptionsBase,BinaryPredictionTransformer<TModelParameters>,TModelParameters>SdcaNonCalibratedBinaryTrainer
Comentarios
Para crear este instructor, use SdcaNonCalibrated o SdcaNonCalibrated(Options).
Columnas de entrada y salida
Los datos de la columna de etiquetas de entrada deben ser Boolean. Los datos de columna de las características de entrada deben ser un vector de tamaño conocido de Single. Este instructor genera las siguientes columnas:
Nombre de columna de salida | Tipo de columna | Descripción |
---|---|---|
Score |
Single | Puntuación sin enlazar calculada por el modelo. |
PredictedLabel |
Boolean | Etiqueta de predicción, según el signo de la puntuación. Una puntuación negativa se asigna a false y una positiva a true . |
Características del entrenador
Tarea de Machine Learning | Clasificación binaria |
¿Se requiere normalización? | Sí |
¿Se requiere el almacenamiento en caché? | No |
NuGet necesario además de Microsoft.ML | None |
Exportable a ONNX | Sí |
Detalles del algoritmo de entrenamiento
Este instructor se basa en el método de ascenso de coordenadas duales estocásticas (SDCA), una técnica de optimización de última generación para funciones objetivas convexas. El algoritmo se puede escalar porque es un algoritmo de entrenamiento de streaming, tal y como se describe en un documento mejor de KDD.
La convergencia se subscribe mediante la aplicación periódica de la sincronización entre las variables primal y dual en un subproceso independiente. También se proporcionan varias opciones de funciones de pérdida, como la pérdida de bisagra y la pérdida logística. En función de la pérdida usada, el modelo entrenado puede ser, por ejemplo, admitir la máquina vectorial o la regresión logística. El método SDCA combina varias de las mejores propiedades, como la capacidad de realizar el aprendizaje de streaming (sin ajustar todo el conjunto de datos en la memoria), alcanzando un resultado razonable con algunos exámenes de todo el conjunto de datos (por ejemplo, vea experimentos en este documento) y no gasta ningún cálculo en ceros en conjuntos de datos dispersos.
Tenga en cuenta que SDCA es un algoritmo de optimización estocástico y de streaming. El resultado depende del orden de los datos de entrenamiento porque la tolerancia de detención no es lo suficientemente ajustada. En optimización fuertemente convexa, la solución óptima es única y, por lo tanto, todos llegan al mismo lugar. Incluso en casos no fuertemente convexas, obtendrá soluciones igualmente buenas de ejecutar para ejecutarse. Para los resultados reproducibles, se recomienda establecer "Shuffle" en False y "NumThreads" en 1.
Esta clase usa la minimización de riesgos empíricas (es decir, ERM) para formular el problema de optimización basado en los datos recopilados. Tenga en cuenta que el riesgo empírica se mide normalmente aplicando una función de pérdida en las predicciones del modelo en los puntos de datos recopilados. Si los datos de entrenamiento no contienen suficientes puntos de datos (por ejemplo, para entrenar un modelo lineal en $n espacio dimensional, necesitamos al menos $n$ puntos de datos), el sobreajuste puede ocurrir para que el modelo generado por ERM sea bueno para describir los datos de entrenamiento, pero puede no predecir los resultados correctos en eventos no vistos. La regularización es una técnica común para aliviar este fenómeno penalizando la magnitud (normalmente medida por la función norm) de los parámetros del modelo. Este instructor admite la regularización de red elástica, que penaliza una combinación lineal de L1-norm (LASSO), $|| \textbf{w}_c || _1$, y L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizaciones para $c=1,\dots,m$. Las regularizaciones L1-norm y L2-norm tienen diferentes efectos y usos que son complementarios en ciertos aspectos.
Junto con el algoritmo de optimización implementado, la regularización L1-norm puede aumentar la dispersión de los pesos del modelo, $\textbf{w}_1,\dots,\textbf{w}_m$. En el caso de los conjuntos de datos dispersos y dimensionales, si los usuarios seleccionan cuidadosamente el coeficiente de la norma L1, es posible lograr una buena calidad de predicción con un modelo que tenga solo unos pocos pesos distintos de cero (por ejemplo, el 1 % de los pesos totales del modelo) sin afectar a su potencia de predicción. Por el contrario, la norma L2 no puede aumentar la dispersidad del modelo entrenado, pero puede evitar el sobreajuste evitando valores de parámetros grandes. A veces, el uso de la norma L2 conduce a una mejor calidad de predicción, por lo que es posible que los usuarios quieran probarlo y ajustar los coeficientes de la norma L1 y la norma L2. Tenga en cuenta que, conceptualmente, el uso de la norma L1 implica que la distribución de todos los parámetros del modelo es una distribución de Laplace , mientras que la norma L2 implica una distribución gaussiana para ellos.
Una regularización agresiva (es decir, asignar coeficientes grandes a los términos de regularización L1-norm o L2-norm) puede dañar la capacidad predictiva excluyendo variables importantes del modelo. Por ejemplo, un coeficiente L1-norm muy grande puede forzar que todos los parámetros sean ceros y dar lugar a un modelo trivial. Por lo tanto, elegir los coeficientes de regularización correctos es importante en la práctica.
Para más información, consulte:
- Escalado vertical de ascenso de coordenadas duales estocásticas.
- Métodos estocásticos de ascenso de coordenadas duales para la minimización de pérdidas regularizadas.
Consulte la sección Consulte también los vínculos a ejemplos de uso.
Campos
FeatureColumn |
Columna de características que espera el instructor. (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
LabelColumn |
Columna de etiqueta que espera el instructor. Puede ser |
WeightColumn |
Columna de peso que espera el entrenador. Puede ser |
Propiedades
Info |
para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico. (Heredado de SdcaBinaryTrainerBase<TModelParameters>) |
Métodos
Fit(IDataView) |
Entrena y devuelve un ITransformer. (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
GetOutputSchema(SchemaShape) |
para IEstimator<TTransformer> entrenar un modelo de clasificación de regresión logística binaria mediante el método de ascenso de coordenada dual estocástico. (Heredado de TrainerEstimatorBase<TTransformer,TModel>) |
Métodos de extensión
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Anexe un "punto de control de almacenamiento en caché" a la cadena del estimador. Esto garantizará que los estimadores de nivel inferior se entrenarán con los datos almacenados en caché. Resulta útil tener un punto de control de almacenamiento en caché antes de que los instructores tomen varios pases de datos. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Dado un estimador, devuelva un objeto de ajuste que llamará a un delegado una vez Fit(IDataView) que se llame. A menudo, es importante que un estimador devuelva información sobre lo que cabe, por lo que el Fit(IDataView) método devuelve un objeto con tipo específico, en lugar de simplemente un general ITransformer. Sin embargo, al mismo tiempo, IEstimator<TTransformer> a menudo se forman en canalizaciones con muchos objetos, por lo que es posible que tengamos que crear una cadena de estimadores a través EstimatorChain<TLastTransformer> de donde el estimador para el que queremos obtener el transformador está enterrado en algún lugar de esta cadena. En ese escenario, podemos a través de este método adjuntar un delegado al que se llamará una vez que se llame a fit. |
Se aplica a
Consulte también
- SdcaNonCalibrated(BinaryClassificationCatalog+BinaryClassificationTrainers, String, String, String, ISupportSdcaClassificationLoss, Nullable<Single>, Nullable<Single>, Nullable<Int32>)
- SdcaNonCalibrated(BinaryClassificationCatalog+BinaryClassificationTrainers, SdcaNonCalibratedBinaryTrainer+Options)
- SdcaNonCalibratedBinaryTrainer.Options