TextFeaturizingEstimator 类

定义

将文本文档集合转换为数字特征向量的估算器。 特征向量是基于) 提供的选项规范化的单词和/或字符 n 元语法 (计数。

public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
    interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
继承
TextFeaturizingEstimator
实现

注解

估算器特征

此估算器是否需要查看数据来训练其参数? 是的。
输入列数据类型 text
输出列数据类型 Single 的向量
可导出到 ONNX

此估算器为用户提供用于执行以下操作的一站式解决方案:

默认情况下,特征由 (单词/字符) n-gram/skip-gram 组成,特征数等于通过分析数据找到的词汇大小。 若要输出包含生成的标记的其他列,请使用 OutputTokensColumnName。 还可以通过选择要保留在 中 TextFeaturizingEstimator.Options的最大 n 元语法数来指定特征数,其中估算器可以进一步优化。

有关使用示例的链接,请查看“另请参阅”部分。

方法

Fit(IDataView)

训练并返回 ITransformer

GetOutputSchema(SchemaShape)

返回 SchemaShape 转换器将生成的架构的 。 用于管道中的架构传播和验证。

扩展方法

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

将“缓存检查点”追加到估算器链。 这将确保针对缓存的数据训练下游估算器。 在接受多个数据传递的训练程序之前设置缓存检查点会很有帮助。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

给定估算器后,返回一个包装对象,该对象在调用 后 Fit(IDataView) 将调用委托。 对于估算器来说,返回有关适合对象的信息通常很重要,这就是方法返回特定类型对象(而不仅仅是常规 ITransformer)的原因Fit(IDataView)。 但是,同时, IEstimator<TTransformer> 通常形成为包含许多对象的管道,因此我们可能需要通过 EstimatorChain<TLastTransformer> 构建估算器链,其中要获取转换器的估算器埋在此链中的某个位置。 对于这种情况,我们可以通过此方法附加一个委托,该委托将在调用 fit 后调用。

适用于

另请参阅