TextCatalog.ProduceHashedWordBags Metodo

Definizione

Overload

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Creare un WordHashBagEstimatoroggetto , che esegue il mapping delle più colonne specificate in inputColumnNames a un vettore di conteggi di n-grammi hash in una nuova colonna denominata outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Creare un WordHashBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi di n-grammi hash in una nuova colonna denominata outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Creare un WordHashBagEstimatoroggetto , che esegue il mapping delle più colonne specificate in inputColumnNames a un vettore di conteggi di n-grammi hash in una nuova colonna denominata outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametri

catalog
TransformsCatalog.TextTransforms

Catalogo della trasformazione.

outputColumnName
String

Nome della colonna risultante dalla trasformazione di inputColumnNames. Il tipo di dati di questa colonna sarà vettore di dimensioni note di Single.

inputColumnNames
String[]

Nomi delle più colonne da cui eseguire i dati. Questo strumento di stima opera sul vettore di testo.

numberOfBits
Int32

Numero di bit in cui eseguire l'hash. Deve essere compreso tra 1 e 30, inclusivo.

ngramLength
Int32

Lunghezza Ngram.

skipLength
Int32

Numero massimo di token da ignorare quando si costruisce un n-gram.

useAllLengths
Boolean

Se includere tutte le lunghezze n-gram fino a ngramLength o solo ngramLength.

seed
UInt32

Hashing di inizializzazione.

useOrderedHashing
Boolean

Se la posizione di ogni colonna di origine deve essere inclusa nell'hash (quando sono presenti più colonne di origine).

maximumNumberOfInverts
Int32

Durante l'hashing vengono creati mapping tra i valori originali e i valori hash prodotti. La rappresentazione testuale dei valori originali viene archiviata nei nomi degli slot delle annotazioni per la nuova colonna. L'hashing, ad esempio, può eseguire il mapping di molti valori iniziali a uno. maximumNumberOfInverts specifica il limite superiore del numero di valori di input distinti mappati a un hash che deve essere mantenuto. 0 non mantiene valori di input. -1 mantiene il mapping di tutti i valori di input a ogni hash.

Restituisce

Commenti

WordHashBagEstimator è diverso da NgramHashingEstimator in quanto il precedente tokenzza il testo internamente e quest'ultimo accetta testo tokenizzato come input.

Si applica a

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Creare un WordHashBagEstimatoroggetto , che esegue il mapping della colonna specificata in inputColumnName a un vettore di conteggi di n-grammi hash in una nuova colonna denominata outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametri

catalog
TransformsCatalog.TextTransforms

Catalogo della trasformazione.

outputColumnName
String

Nome della colonna risultante dalla trasformazione di inputColumnName. Il tipo di dati di questa colonna sarà vettore di dimensioni note di Single.

inputColumnName
String

Nome della colonna da cui eseguire i dati. Questo strumento di stima opera sul vettore di testo.

numberOfBits
Int32

Numero di bit in cui eseguire l'hash. Deve essere compreso tra 1 e 30, inclusivo.

ngramLength
Int32

Lunghezza Ngram.

skipLength
Int32

Numero massimo di token da ignorare quando si costruisce un n-gram.

useAllLengths
Boolean

Se includere tutte le lunghezze n-gram fino a ngramLength o solo ngramLength.

seed
UInt32

Hashing di inizializzazione.

useOrderedHashing
Boolean

Se la posizione di ogni colonna di origine deve essere inclusa nell'hash (quando sono presenti più colonne di origine).

maximumNumberOfInverts
Int32

Durante l'hashing vengono creati mapping tra i valori originali e i valori hash prodotti. La rappresentazione testuale dei valori originali viene archiviata nei nomi degli slot delle annotazioni per la nuova colonna. L'hashing, ad esempio, può eseguire il mapping di molti valori iniziali a uno. maximumNumberOfInverts specifica il limite superiore del numero di valori di input distinti mappati a un hash che deve essere mantenuto. 0 non mantiene valori di input. -1 mantiene il mapping di tutti i valori di input a ogni hash.

Restituisce

Commenti

WordHashBagEstimator è diverso da NgramHashingEstimator in quanto il precedente tokenzza il testo internamente e quest'ultimo accetta testo tokenizzato come input.

Si applica a