TextCatalog.ProduceHashedNgrams 方法

参考

定义

命名空间:: Microsoft.ML

程序集:: Microsoft.ML.Transforms.dll

包:: Microsoft.ML v3.0.1

包:: Microsoft.ML v1.0.0

包:: Microsoft.ML v1.1.0

包:: Microsoft.ML v1.2.0

包:: Microsoft.ML v1.3.1

包:: Microsoft.ML v1.4.0

包:: Microsoft.ML v1.5.5

包:: Microsoft.ML v1.6.0

包:: Microsoft.ML v1.7.0

包:: Microsoft.ML v2.0.0

重要

一些信息与预发行产品相关，相应产品在发行之前可能会进行重大修改。对于此处提供的信息，Microsoft 不作任何明示或暗示的担保。

重载

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)	创建一个 NgramHashingEstimator，用于将数据从指定 `inputColumnName` 列复制到新列： `outputColumnName` 并生成哈希 n 元语法计数的向量。
ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)	创建一个 NgramHashingEstimator，它将数据从指定的 `inputColumnNames` 多个列提取到一个新列： `outputColumnName` 并生成哈希 n 元语法计数的向量。

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

创建一个 NgramHashingEstimator，用于将数据从指定 inputColumnName 列复制到新列： outputColumnName 并生成哈希 n 元语法计数的向量。

public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);

static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator

<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator

参数

catalog: TransformsCatalog.TextTransforms

转换的目录。

outputColumnName: String

由转换 inputColumnName生成的列的名称。此列的数据类型将为向量 Single。

inputColumnName: String

要从中复制数据的列的名称。此估算器对键类型的向量进行操作。

numberOfBits: Int32

要哈希到的位数。必须介于 1 和 30 之间（含限值）。

ngramLength: Int32

Ngram 长度。

skipLength: Int32

构造 n 元语法时要跳过的最大标记数。

useAllLengths: Boolean

是否包括所有 n 元语法长度， ngramLength 最大或仅 ngramLength包含。

seed: UInt32

哈希种子。

useOrderedHashing: Boolean

是否应将每个源列的位置包括在哈希中（当存在多个源列时）。

maximumNumberOfInverts: Int32

在哈希处理期间，我们在原始值和生成的哈希值之间构造映射。原始值的文本表示形式存储在新列的批注的槽名称中。因此，哈希可以将许多初始值映射到一个值。 maximumNumberOfInverts 指定映射到应保留的哈希的非重复输入值数的上限。 0 不保留任何输入值。 -1 保留映射到每个哈希的所有输入值。

rehashUnigrams: Boolean

是否重写 unigram。

NgramHashingEstimator

注解

NgramHashingEstimator不同于WordHashBagEstimator在内部标记文本时WordHashBagEstimator将标记化文本作为输入的方式NgramHashingEstimator。

适用于

ProduceHashedNgrams(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32, Boolean)

创建一个 NgramHashingEstimator，它将数据从指定的 inputColumnNames 多个列提取到一个新列： outputColumnName 并生成哈希 n 元语法计数的向量。

public static Microsoft.ML.Transforms.Text.NgramHashingEstimator ProduceHashedNgrams (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames = default, int numberOfBits = 16, int ngramLength = 2, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0, bool rehashUnigrams = false);

static member ProduceHashedNgrams : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int * bool -> Microsoft.ML.Transforms.Text.NgramHashingEstimator

<Extension()>
Public Function ProduceHashedNgrams (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnNames As String() = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 2, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0, Optional rehashUnigrams As Boolean = false) As NgramHashingEstimator

参数

catalog: TransformsCatalog.TextTransforms