Share via


WordEmbeddingEstimator 类

定义

文本特征化器,它使用预先训练的嵌入模型将文本标记的向量转换为数值向量。

public sealed class WordEmbeddingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.WordEmbeddingTransformer>
type WordEmbeddingEstimator = class
    interface IEstimator<WordEmbeddingTransformer>
Public NotInheritable Class WordEmbeddingEstimator
Implements IEstimator(Of WordEmbeddingTransformer)
继承
WordEmbeddingEstimator
实现

注解

估算器特征

此估算器是否需要查看数据来训练其参数?
输入列数据类型 文本向量
输出列数据类型 已知大小的矢量 Single
可导出到 ONNX

生成 WordEmbeddingTransformer 一个新列,该列在输出列名称参数中指定,其中每个输入向量映射到一个数值向量,其大小为 3 * 的嵌入模型。 请注意,这与输入向量的大小无关。

例如,使用 GloVe50D(它本身为 50 维),输出列是大小为 150 的向量。 前三分之一的槽包含与输入向量中的每个字符串对应的嵌入项中的最小值。 第二个三分之一包含嵌入的平均值。 最后三分之一的槽包含所遇到的嵌入的最大值。 min/max 为单词嵌入空间中的单词提供边界超矩形。 这可以帮助较长的短语,其中许多单词的平均值淹没了有用的信号。

用户可以指定自定义预先训练的嵌入模型或可用的预训练模型之一。 可用选项包括 各种版本的 GloVe 模型FastTextSSWE

有关使用示例的链接,请查看“另请参阅”部分。

方法

Fit(IDataView)

火车并返回一个 WordEmbeddingTransformer

GetOutputSchema(SchemaShape)

返回 SchemaShape 由转换器生成的架构。 用于管道中的架构传播和验证。

扩展方法

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

将“缓存检查点”追加到估算器链。 这将确保针对缓存的数据训练下游估算器。 在执行多个数据传递的训练器之前,拥有缓存检查点会很有帮助。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

给定估算器后,返回将调用委托的 Fit(IDataView) 包装对象。 估算器通常必须返回有关拟合情况的信息,这就是为什么 Fit(IDataView) 该方法返回特定类型化对象的原因,而不仅仅是常规 ITransformer对象。 但是,同时, IEstimator<TTransformer> 通常形成为包含许多对象的管道,因此,我们可能需要通过 EstimatorChain<TLastTransformer> 估算器链生成一系列估算器,以便我们要获取转换器的估算器被埋在此链中的某个位置。 对于这种情况,我们可以通过此方法附加调用一次将调用的委托。

适用于

另请参阅