Share via


WordTokenizingEstimator 类

定义

使用指定的分隔符标记输入文本。

public sealed class WordTokenizingEstimator : Microsoft.ML.Data.TrivialEstimator<Microsoft.ML.Transforms.Text.WordTokenizingTransformer>
type WordTokenizingEstimator = class
    inherit TrivialEstimator<WordTokenizingTransformer>
Public NotInheritable Class WordTokenizingEstimator
Inherits TrivialEstimator(Of WordTokenizingTransformer)
继承

注解

估算器特征

此估算器是否需要查看数据来训练其参数?
输入列数据类型 文本标量或矢量
输出列数据类型 文本的可变大小矢量
可导出到 ONNX

生成的 WordTokenizingTransformer 结果将创建一个新列,该列在输出列名称参数中指定,其中每个输入字符串映射到通过根据用户定义的分隔符拆分输入字符串获得的子字符串的向量。 空格字符是默认分隔符。

仅删除包含空格的空字符串和字符串。

有关使用示例的链接,请查看“另请参阅”部分。

方法

Fit(IDataView)

使用指定的分隔符标记输入文本。

(继承自 TrivialEstimator<TTransformer>)
GetOutputSchema(SchemaShape)

返回 SchemaShape 由转换器生成的架构。 用于管道中的架构传播和验证。

扩展方法

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

将“缓存检查点”追加到估算器链。 这将确保根据缓存的数据训练下游估算器。 在执行多个数据传递的训练器之前,拥有缓存检查点会很有帮助。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

给定估算器后,返回一个包装对象,该对象将调用委托一次 Fit(IDataView) 。 估算器通常必须返回有关适合的内容的信息,这就是为什么 Fit(IDataView) 该方法返回特定类型化对象的原因,而不仅仅是常规 ITransformer对象。 但是,同时, IEstimator<TTransformer> 通常形成为包含许多对象的管道,因此,我们可能需要通过 EstimatorChain<TLastTransformer> 估算器链生成一个估算器链,以便将转换器埋在此链中的某个位置。 对于该方案,我们可以通过此方法附加一个委托,该委托将在调用拟合后调用。

适用于

另请参阅