TokenizingByCharactersEstimator 类

定义

public sealed class TokenizingByCharactersEstimator : Microsoft.ML.Data.TrivialEstimator<Microsoft.ML.Transforms.Text.TokenizingByCharactersTransformer>
type TokenizingByCharactersEstimator = class
    inherit TrivialEstimator<TokenizingByCharactersTransformer>
Public NotInheritable Class TokenizingByCharactersEstimator
Inherits TrivialEstimator(Of TokenizingByCharactersTransformer)
继承
TokenizingByCharactersEstimator

注解

估算器特征

此估算器是否需要查看数据来训练其参数?
输入列数据类型 文本标量或矢量
输出列数据类型 类型的可变大小向量。
可导出到 ONNX

估算器通过使用滑动窗口将文本拆分为字符序列来标记字符。 在训练期间,估算器会生成一个键值对字典,其中包含遇到的字符序列。

TokenizingByCharactersTransformer估算器生成的结果会创建一个新列,该列在输出列名称参数中指定,其中包含输入中遇到的字符序列的键。

有关使用示例的链接,请查看“另请参阅”部分。

方法

Fit(IDataView)

IEstimator<TTransformer> for the TokenizingByCharactersTransformer.

(继承自 TrivialEstimator<TTransformer>)
GetOutputSchema(SchemaShape)

返回 SchemaShape 由转换器生成的架构。 用于管道中的架构传播和验证。

扩展方法

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

将“缓存检查点”追加到估算器链。 这将确保根据缓存的数据训练下游估算器。 在执行多个数据传递的训练器之前,拥有缓存检查点会很有帮助。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

给定估算器后,返回一个包装对象,该对象将调用委托一次 Fit(IDataView) 。 估算器通常必须返回有关适合的内容的信息,这就是为什么 Fit(IDataView) 该方法返回特定类型化对象的原因,而不仅仅是常规 ITransformer对象。 但是,同时, IEstimator<TTransformer> 通常形成为包含许多对象的管道,因此,我们可能需要通过 EstimatorChain<TLastTransformer> 估算器链生成一个估算器链,以便将转换器埋在此链中的某个位置。 对于该方案,我们可以通过此方法附加一个委托,该委托将在调用拟合后调用。

适用于

另请参阅