Share via


KMeansTrainer Classe

Définition

Pour IEstimator<TTransformer> l’entraînement d’un clusterer KMeans

public class KMeansTrainer : Microsoft.ML.Trainers.TrainerEstimatorBase<Microsoft.ML.Data.ClusteringPredictionTransformer<Microsoft.ML.Trainers.KMeansModelParameters>,Microsoft.ML.Trainers.KMeansModelParameters>
type KMeansTrainer = class
    inherit TrainerEstimatorBase<ClusteringPredictionTransformer<KMeansModelParameters>, KMeansModelParameters>
Public Class KMeansTrainer
Inherits TrainerEstimatorBase(Of ClusteringPredictionTransformer(Of KMeansModelParameters), KMeansModelParameters)
Héritage

Remarques

Pour créer ce formateur, utilisez KMeans ou Kmeans(Options).

Colonnes d’entrée et de sortie

Les données de colonne des fonctionnalités d’entrée doivent être Single. Aucune colonne d’étiquette n’est nécessaire. Ce formateur génère les colonnes suivantes :

Nom de colonne de sortie Type de colonne Description
Score Vecteur de Single Les distances des données données données pointent vers tous les centroïdes de tous les clusters.
PredictedLabel type de clé Index du cluster le plus proche prédit par le modèle.

Caractéristiques de l’entraîneur

Tâche d’apprentissage automatique Clustering
La normalisation est-elle requise ? Oui
La mise en cache est-elle requise ? Oui
NuGet requis en plus de Microsoft.ML Aucun
Exportable vers ONNX Oui

Détails de l’algorithme d’apprentissage

K-means est un algorithme de clustering populaire. Avec K-moyennes, les données sont en cluster dans un nombre spécifié de clusters afin de réduire la somme au sein du cluster de distances carrées. Cette implémentation suit la méthode K-moyennes Yinyang. Pour choisir les centres de cluster initiaux, l’une des trois options peut être utilisée :

  • Initialisation aléatoire. Cela peut entraîner des approximations potentiellement incorrectes du clustering optimal.
  • Méthode K-means++. Il s’agit d’un algorithme d’initialisation amélioré introduit ici par Ding et al., qui garantit la recherche d’une solution $O(log K)$ concurrentiel à la solution K-moyennes optimale.
  • Les K-moyennes|| Méthode. Cette méthode a été introduite ici par Bahmani et al., et utilise une méthode parallèle qui réduit considérablement le nombre de passes nécessaires pour obtenir une bonne initialisation.

K-moyennes|| est la méthode d’initialisation par défaut. Les autres méthodes peuvent être spécifiées dans Les Options lors de la création de l’entraîneur à l’aide de KMeansTrainer(Options).

Fonction de scoring

La colonne score de sortie contient le carré de la distance $L_2$-norm (c’est-à-dire la distance Euclidean) du vecteur d’entrée donné $\textbf{x}\in \mathbb{R}^n$ à chaque centroïde de chaque cluster. Supposons que le centriod du cluster $c$-th est $\textbf{m}_c \in \mathbb{R}^n$. La valeur $c$-th à la colonne Score serait $d_c = || \textbf{x} - \textbf{m}_c || _2^2$. L’étiquette prédite est l’index avec la plus petite valeur dans un vecteur $K$ dimensionnel $[d_{0}, \dots, d_{K-1}]$, où $K$ est le nombre de clusters.

Pour plus d’informations sur K-moyennes et K-means++ voir : K-moyennes K-moyennes++

Consultez la section Voir également pour obtenir des liens vers des exemples d’utilisation.

Champs

FeatureColumn

Colonne de caractéristique attendue par l’entraîneur.

(Hérité de TrainerEstimatorBase<TTransformer,TModel>)
LabelColumn

Colonne d’étiquette attendue par le formateur. Peut être null, ce qui indique que l’étiquette n’est pas utilisée pour l’entraînement.

(Hérité de TrainerEstimatorBase<TTransformer,TModel>)
WeightColumn

Colonne de poids attendue par l’entraîneur. Peut être null, ce qui indique que le poids n’est pas utilisé pour l’entraînement.

(Hérité de TrainerEstimatorBase<TTransformer,TModel>)

Propriétés

Info

Pour IEstimator<TTransformer> l’entraînement d’un clusterer KMeans

Méthodes

Fit(IDataView)

Entraîne et retourne un ITransformer.

(Hérité de TrainerEstimatorBase<TTransformer,TModel>)
GetOutputSchema(SchemaShape)

Pour IEstimator<TTransformer> l’entraînement d’un clusterer KMeans

(Hérité de TrainerEstimatorBase<TTransformer,TModel>)

Méthodes d’extension

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Ajoutez un « point de contrôle de mise en cache » à la chaîne d’estimateur. Cela garantit que les estimateurs en aval seront entraînés par rapport aux données mises en cache. Il est utile d’avoir un point de contrôle de mise en cache avant les formateurs qui prennent plusieurs passes de données.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Étant donné un estimateur, retournez un objet de création de package de package qui appellera un délégué une fois Fit(IDataView) appelé. Il est souvent important pour un estimateur de retourner des informations sur ce qui a été adapté, c’est pourquoi la Fit(IDataView) méthode retourne un objet spécifiquement typé, plutôt que simplement un général ITransformer. Toutefois, en même temps, IEstimator<TTransformer> sont souvent formés en pipelines avec de nombreux objets. Nous pouvons donc avoir besoin de créer une chaîne d’estimateurs via EstimatorChain<TLastTransformer> laquelle l’estimateur pour lequel nous voulons obtenir le transformateur est enterré quelque part dans cette chaîne. Pour ce scénario, nous pouvons par le biais de cette méthode attacher un délégué qui sera appelé une fois l’ajustement appelé.

S’applique à

Voir aussi