TextCatalog.ProduceHashedWordBags Método

Definición

Sobrecargas

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Cree un WordHashBagEstimatorobjeto , que asigna las varias columnas especificadas en inputColumnNames a un vector de recuentos de n-gramas con hash en una nueva columna denominada outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Cree un WordHashBagEstimatorobjeto , que asigna la columna especificada en inputColumnName a un vector de recuentos de n-gramas con hash en una nueva columna denominada outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Cree un WordHashBagEstimatorobjeto , que asigna las varias columnas especificadas en inputColumnNames a un vector de recuentos de n-gramas con hash en una nueva columna denominada outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parámetros

catalog
TransformsCatalog.TextTransforms

Catálogo de la transformación.

outputColumnName
String

Nombre de la columna resultante de la transformación de inputColumnNames. El tipo de datos de esta columna será un vector de tamaño conocido de Single.

inputColumnNames
String[]

Nombres de las varias columnas de las que se van a tomar los datos. Este estimador funciona sobre el vector de texto.

numberOfBits
Int32

Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive.

ngramLength
Int32

Longitud del ngrama.

skipLength
Int32

Número máximo de tokens que se omitirán al construir un n-grama.

useAllLengths
Boolean

Si se deben incluir todas las longitudes de n-gramas hasta ngramLength o solo ngramLength.

seed
UInt32

Inicialización de hash.

useOrderedHashing
Boolean

Determina si la posición de cada columna de origen debe incluirse en el hash (cuando hay varias columnas de origen).

maximumNumberOfInverts
Int32

Durante el hash, creamos asignaciones entre los valores originales y los valores hash generados. La representación de texto de los valores originales se almacena en los nombres de ranura de las anotaciones de la nueva columna. El hash, como tal, puede asignar muchos valores iniciales a uno. maximumNumberOfInverts especifica el límite superior del número de valores de entrada distintos asignación a un hash que se debe conservar. 0 no conserva ningún valor de entrada. -1 conserva todas las asignaciones de valores de entrada a cada hash.

Devoluciones

Comentarios

WordHashBagEstimator es diferente de NgramHashingEstimator en que el anterior tokeniza el texto internamente y el último toma texto tokenizado como entrada.

Se aplica a

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Cree un WordHashBagEstimatorobjeto , que asigna la columna especificada en inputColumnName a un vector de recuentos de n-gramas con hash en una nueva columna denominada outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parámetros

catalog
TransformsCatalog.TextTransforms

Catálogo de la transformación.

outputColumnName
String

Nombre de la columna resultante de la transformación de inputColumnName. El tipo de datos de esta columna será un vector de tamaño conocido de Single.

inputColumnName
String

Nombre de la columna de la que se van a tomar los datos. Este estimador funciona sobre el vector de texto.

numberOfBits
Int32

Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive.

ngramLength
Int32

Longitud del ngrama.

skipLength
Int32

Número máximo de tokens que se omitirán al construir un n-grama.

useAllLengths
Boolean

Si se deben incluir todas las longitudes de n-gramas hasta ngramLength o solo ngramLength.

seed
UInt32

Inicialización de hash.

useOrderedHashing
Boolean

Determina si la posición de cada columna de origen debe incluirse en el hash (cuando hay varias columnas de origen).

maximumNumberOfInverts
Int32

Durante el hash, creamos asignaciones entre los valores originales y los valores hash generados. La representación de texto de los valores originales se almacena en los nombres de ranura de las anotaciones de la nueva columna. El hash, como tal, puede asignar muchos valores iniciales a uno. maximumNumberOfInverts especifica el límite superior del número de valores de entrada distintos asignación a un hash que se debe conservar. 0 no conserva ningún valor de entrada. -1 conserva todas las asignaciones de valores de entrada a cada hash.

Devoluciones

Comentarios

WordHashBagEstimator es diferente de NgramHashingEstimator en que el anterior tokeniza el texto internamente y el último toma texto tokenizado como entrada.

Se aplica a