Share via


TextCatalog.ProduceHashedWordBags 方法

定义

重载

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

创建一个 WordHashBagEstimator,它将指定的 inputColumnNames 多个列映射到名为 outputColumnName 的新列中哈希 n 元语法计数的向量。

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Create a WordHashBagEstimator, which maps the column specified in inputColumnName to a vector of counts of hashed n-grams in a new column named outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

创建一个 WordHashBagEstimator,它将指定的 inputColumnNames 多个列映射到名为 outputColumnName 的新列中哈希 n 元语法计数的向量。

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

参数

catalog
TransformsCatalog.TextTransforms

转换的目录。

outputColumnName
String

由转换 inputColumnNames生成的列的名称。 此列的数据类型将是已知大小的向量 Single

inputColumnNames
String[]

要从中获取数据的多个列的名称。 此估算器对文本矢量进行操作。

numberOfBits
Int32

要哈希到的位数。 必须介于 1 和 30 之间(含限值)。

ngramLength
Int32

Ngram 长度。

skipLength
Int32

构造 n 元报时要跳过的最大令牌数。

useAllLengths
Boolean

是否包含所有 n 元语法长度,最大 ngramLength 或仅 ngramLength包含 。

seed
UInt32

哈希种子。

useOrderedHashing
Boolean

是否应将每个源列的位置包括在哈希中(当存在多个源列时)。

maximumNumberOfInverts
Int32

在哈希处理期间,我们在原始值和生成的哈希值之间构造映射。 原始值的文本表示形式存储在新列的批注的槽名称中。因此,哈希可以将许多初始值映射到一个值。 maximumNumberOfInverts 指定映射到应保留的哈希的非重复输入值数的上限。 0 不保留任何输入值。 -1 保留映射到每个哈希的所有输入值。

返回

注解

WordHashBagEstimatorNgramHashingEstimator 前者在内部标记文本不同,后者采用标记化文本作为输入。

适用于

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Create a WordHashBagEstimator, which maps the column specified in inputColumnName to a vector of counts of hashed n-grams in a new column named outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

参数

catalog
TransformsCatalog.TextTransforms

转换的目录。

outputColumnName
String

由转换 inputColumnName生成的列的名称。 此列的数据类型将是已知大小的向量 Single

inputColumnName
String

要从中获取数据的列的名称。 此估算器对文本矢量进行操作。

numberOfBits
Int32

要哈希到的位数。 必须介于 1 和 30 之间(含限值)。

ngramLength
Int32

Ngram 长度。

skipLength
Int32

构造 n 元报时要跳过的最大令牌数。

useAllLengths
Boolean

是否包含所有 n 元语法长度,最大 ngramLength 或仅 ngramLength包含 。

seed
UInt32

哈希种子。

useOrderedHashing
Boolean

是否应将每个源列的位置包括在哈希中(当存在多个源列时)。

maximumNumberOfInverts
Int32

在哈希处理期间,我们在原始值和生成的哈希值之间构造映射。 原始值的文本表示形式存储在新列的批注的槽名称中。 因此,哈希可以将许多初始值映射到一个值。 maximumNumberOfInverts 指定映射到应保留的哈希的非重复输入值数的上限。 0 不保留任何输入值。 -1 保留映射到每个哈希的所有输入值。

返回

注解

WordHashBagEstimatorNgramHashingEstimator 前者在内部标记文本不同,后者采用标记化文本作为输入。

适用于