Compartilhar via


TextCatalog.ProduceHashedWordBags Método

Definição

Sobrecargas

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Crie um WordHashBagEstimator, que mapeia as várias colunas especificadas em inputColumnNames um vetor de contagens de n-grams de hash em uma nova coluna chamada outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Criar um WordHashBagEstimator, que mapeia a coluna especificada em inputColumnName um vetor de contagens de n-grams hashed em uma nova coluna chamada outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Crie um WordHashBagEstimator, que mapeia as várias colunas especificadas em inputColumnNames um vetor de contagens de n-grams de hash em uma nova coluna chamada outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parâmetros

catalog
TransformsCatalog.TextTransforms

O catálogo da transformação.

outputColumnName
String

Nome da coluna resultante da transformação de inputColumnNames. O tipo de dados desta coluna será um vetor de tamanho conhecido de Single.

inputColumnNames
String[]

Nomes das várias colunas de onde tirar os dados. Esse avaliador opera sobre o vetor de texto.

numberOfBits
Int32

Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30.

ngramLength
Int32

Comprimento de Ngram.

skipLength
Int32

Número máximo de tokens a serem ignoradas ao construir um n-gram.

useAllLengths
Boolean

Se deve incluir todos os comprimentos de n-gram até ngramLength ou apenas ngramLength.

seed
UInt32

Semente de hash.

useOrderedHashing
Boolean

Especifica se é preciso incluir a posição de cada coluna de origem no hash (quando há várias colunas de origem).

maximumNumberOfInverts
Int32

Durante o hash, criamos mapeamentos entre valores originais e os valores de hash produzidos. A representação de texto dos valores originais é armazenada nos nomes de slot das anotações da nova coluna. O hash, como tal, pode mapear muitos valores iniciais para um. maximumNumberOfInverts especifica o limite superior do número de valores de entrada distintos mapeados para um hash que deve ser retido. 0 não retém nenhum valor de entrada. -1 retém todos os valores de entrada mapeando para cada hash.

Retornos

Comentários

WordHashBagEstimator é diferente do NgramHashingEstimator que o primeiro tokeniza o texto internamente e o último usa texto tokenizado como entrada.

Aplica-se a

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Criar um WordHashBagEstimator, que mapeia a coluna especificada em inputColumnName um vetor de contagens de n-grams hashed em uma nova coluna chamada outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parâmetros

catalog
TransformsCatalog.TextTransforms

O catálogo da transformação.

outputColumnName
String

Nome da coluna resultante da transformação de inputColumnName. O tipo de dados desta coluna será um vetor de tamanho conhecido de Single.

inputColumnName
String

Nome da coluna da qual tirar os dados. Esse avaliador opera sobre o vetor de texto.

numberOfBits
Int32

Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30.

ngramLength
Int32

Comprimento de Ngram.

skipLength
Int32

Número máximo de tokens a serem ignoradas ao construir um n-gram.

useAllLengths
Boolean

Se deve incluir todos os comprimentos de n-gram até ngramLength ou apenas ngramLength.

seed
UInt32

Semente de hash.

useOrderedHashing
Boolean

Especifica se é preciso incluir a posição de cada coluna de origem no hash (quando há várias colunas de origem).

maximumNumberOfInverts
Int32

Durante o hash, criamos mapeamentos entre valores originais e os valores de hash produzidos. A representação de texto dos valores originais é armazenada nos nomes de slot das anotações da nova coluna. O hash, como tal, pode mapear muitos valores iniciais para um. maximumNumberOfInverts especifica o limite superior do número de valores de entrada distintos mapeados para um hash que deve ser retido. 0 não retém nenhum valor de entrada. -1 retém todos os valores de entrada mapeando para cada hash.

Retornos

Comentários

WordHashBagEstimator é diferente do NgramHashingEstimator que o primeiro tokeniza o texto internamente e o último usa texto tokenizado como entrada.

Aplica-se a