LbfgsMaximumEntropyMulticlassTrainer Clase

Definición

que IEstimator<TTransformer> se va a predecir un destino mediante un clasificador multiclase de entropía máximo entrenado con el método L-BFGS.

public sealed class LbfgsMaximumEntropyMulticlassTrainer : Microsoft.ML.Trainers.LbfgsTrainerBase<Microsoft.ML.Trainers.LbfgsMaximumEntropyMulticlassTrainer.Options,Microsoft.ML.Data.MulticlassPredictionTransformer<Microsoft.ML.Trainers.MaximumEntropyModelParameters>,Microsoft.ML.Trainers.MaximumEntropyModelParameters>
type LbfgsMaximumEntropyMulticlassTrainer = class
    inherit LbfgsTrainerBase<LbfgsMaximumEntropyMulticlassTrainer.Options, MulticlassPredictionTransformer<MaximumEntropyModelParameters>, MaximumEntropyModelParameters>
Public NotInheritable Class LbfgsMaximumEntropyMulticlassTrainer
Inherits LbfgsTrainerBase(Of LbfgsMaximumEntropyMulticlassTrainer.Options, MulticlassPredictionTransformer(Of MaximumEntropyModelParameters), MaximumEntropyModelParameters)
Herencia

Comentarios

Para crear este instructor, use LbfgsMaximumEntropy o LbfgsMaximumEntropy(Options).

Columnas de entrada y salida

Los datos de columna de etiqueta de entrada deben ser de tipo clave y la columna de característica debe ser un vector de tamaño conocido de Single.

Este instructor genera las siguientes columnas:

Nombre de columna de salida Tipo de columna Descripción
Score Vector de Single Puntuaciones de todas las clases. Un valor más alto indica mayor probabilidad de que caigan en la clase asociada. Si el elemento i-th tiene el valor más grande, el índice de la etiqueta de predicción sería i. Tenga en cuenta que i es el índice de base cero.
PredictedLabel Tipo de clave Índice de la etiqueta de predicción. Si su valor es i, la etiqueta real sería la categoría de i-th en el tipo de etiqueta de entrada con valores de clave.

Características del entrenador

Tarea de Machine Learning Clasificación multiclase
¿Se requiere normalización?
¿Se requiere el almacenamiento en caché? No
NuGet necesario además de Microsoft.ML None
Exportable a ONNX

Función de puntuación

El modelo máximo de entropía es una generalización de la regresión logística lineal. La principal diferencia entre el modelo de entropía máximo y la regresión logística es el número de clases admitidas en el problema de clasificación considerado. La regresión logística solo es para la clasificación binaria, mientras que el modelo de entropía máximo controla varias clases. Consulte la sección 1 de este documento para obtener una introducción detallada.

Supongamos que el número de clases es $m$ y el número de características es $n$. El modelo de entropía máximo asigna a la clase $c$-th un vector de coeficiente $\textbf{w}_c \in {\mathbb R}^n$ y un sesgo $b_c \in {\mathbb R}$, para $c=1,\dots,m$. Dado un vector de característica $\textbf{x} \in {\mathbb R}^n$, la puntuación de la clase $c$-th es $\hat{y}^c = \textbf{w}_c^T \textbf{x} + b_c$. La probabilidad de $\textbf{x}$ que pertenece a la clase $c$ se define mediante $\tilde{P}(c | \textbf{x}) = \frac{ e^{\hat{y}^c} }{ \sum_{c' = 1}^m e^{\hat{y}^{c'}} }$. Deje que $P(c, \textbf{ x})$ denota la probabilidad conjunta de ver $c$ y $\textbf{x}$. La función de pérdida minimizada por este instructor es $-\sum_{c = 1}^m P(c, \textbf{ x}) \log \tilde{P}(c | \textbf{x}) $, que es la función de probabilidad de registro negativa.

Detalles del algoritmo de entrenamiento

La técnica de optimización implementada se basa en el método Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) limitado. L-BFGS es un método cuasi newtoniano, que reemplaza el cálculo costoso de la matriz hessiana por una aproximación, pero sigue disfrutando de una velocidad de convergencia rápida como el método de Newton donde se calcula la matriz hessiana completa. Dado que la aproximación de L-BFGS solo usa una cantidad limitada de estados históricos para calcular la dirección del paso siguiente, es especialmente adecuado para problemas con un vector de característica de alta dimensión. El número de estados históricos es un parámetro especificado por el usuario, el uso de un número mayor puede dar lugar a una mejor aproximación de la matriz hessiana, pero también un mayor costo de cálculo por paso.

Esta clase usa la minimización de riesgos empíricas (es decir, ERM) para formular el problema de optimización basado en los datos recopilados. Tenga en cuenta que el riesgo empírica se mide normalmente aplicando una función de pérdida en las predicciones del modelo en los puntos de datos recopilados. Si los datos de entrenamiento no contienen suficientes puntos de datos (por ejemplo, para entrenar un modelo lineal en $n espacio dimensional, necesitamos al menos $n$ puntos de datos), el sobreajuste puede ocurrir para que el modelo generado por ERM sea bueno para describir los datos de entrenamiento, pero puede no predecir los resultados correctos en eventos no vistos. La regularización es una técnica común para aliviar este fenómeno penalizando la magnitud (normalmente medida por la función norm) de los parámetros del modelo. Este instructor admite la regularización de red elástica, que penaliza una combinación lineal de L1-norm (LASSO), $|| \textbf{w}_c || _1$, y L2-norm (ridge), $|| \textbf{w}_c || _2^2$ regularizaciones para $c=1,\dots,m$. Las regularizaciones L1-norm y L2-norm tienen diferentes efectos y usos que son complementarios en ciertos aspectos.

Junto con el algoritmo de optimización implementado, la regularización L1-norm puede aumentar la dispersión de los pesos del modelo, $\textbf{w}_1,\dots,\textbf{w}_m$. En el caso de los conjuntos de datos dispersos y dimensionales, si los usuarios seleccionan cuidadosamente el coeficiente de la norma L1, es posible lograr una buena calidad de predicción con un modelo que tenga solo unos pocos pesos distintos de cero (por ejemplo, el 1 % de los pesos totales del modelo) sin afectar a su potencia de predicción. Por el contrario, la norma L2 no puede aumentar la dispersidad del modelo entrenado, pero puede evitar el sobreajuste evitando valores de parámetros grandes. A veces, el uso de la norma L2 conduce a una mejor calidad de predicción, por lo que es posible que los usuarios quieran probarlo y ajustar los coeficientes de la norma L1 y la norma L2. Tenga en cuenta que, conceptualmente, el uso de la norma L1 implica que la distribución de todos los parámetros del modelo es una distribución de Laplace , mientras que la norma L2 implica una distribución gaussiana para ellos.

Una regularización agresiva (es decir, asignar coeficientes grandes a los términos de regularización L1-norm o L2-norm) puede dañar la capacidad predictiva excluyendo variables importantes del modelo. Por ejemplo, un coeficiente L1-norm muy grande puede forzar que todos los parámetros sean ceros y dar lugar a un modelo trivial. Por lo tanto, elegir los coeficientes de regularización correctos es importante en la práctica.

Consulte la sección Consulte también los vínculos a ejemplos de uso.

Campos

FeatureColumn

Columna de características que espera el instructor.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Columna de etiqueta que espera el instructor. Puede ser null, que indica que la etiqueta no se usa para el entrenamiento.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Columna de peso que espera el entrenador. Puede ser null, lo que indica que el peso no se usa para el entrenamiento.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)

Propiedades

Info

que IEstimator<TTransformer> se va a predecir un destino mediante un clasificador multiclase de entropía máximo entrenado con el método L-BFGS.

(Heredado de LbfgsTrainerBase<TOptions,TTransformer,TModel>)

Métodos

Fit(IDataView)

Entrena y devuelve un ITransformer.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)
Fit(IDataView, MaximumEntropyModelParameters)

Continúa el entrenamiento de un LbfgsMaximumEntropyMulticlassTrainer objeto mediante un objeto ya entrenado modelParameters y devuelve .MulticlassPredictionTransformer<TModel>

GetOutputSchema(SchemaShape)

que IEstimator<TTransformer> se va a predecir un destino mediante un clasificador multiclase de entropía máximo entrenado con el método L-BFGS.

(Heredado de TrainerEstimatorBase<TTransformer,TModel>)

Métodos de extensión

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Anexe un "punto de control de almacenamiento en caché" a la cadena del estimador. Esto garantizará que los estimadores de nivel inferior se entrenarán con los datos almacenados en caché. Resulta útil tener un punto de control de almacenamiento en caché antes de que los instructores tomen varios pases de datos.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Dado un estimador, devuelva un objeto de ajuste que llamará a un delegado una vez Fit(IDataView) que se llame. A menudo, es importante que un estimador devuelva información sobre lo que cabe, por lo que el Fit(IDataView) método devuelve un objeto con tipo específico, en lugar de simplemente un general ITransformer. Sin embargo, al mismo tiempo, IEstimator<TTransformer> a menudo se forman en canalizaciones con muchos objetos, por lo que es posible que tengamos que crear una cadena de estimadores a través EstimatorChain<TLastTransformer> de donde el estimador para el que queremos obtener el transformador está enterrado en algún lugar de esta cadena. En ese escenario, podemos a través de este método adjuntar un delegado al que se llamará una vez que se llame a fit.

Se aplica a

Consulte también