Share via


WordEmbeddingEstimator 類別

定義

文字特徵化工具,它會使用預先定型的內嵌模型,將文字標記的向量轉換成數值向量。

public sealed class WordEmbeddingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.WordEmbeddingTransformer>
type WordEmbeddingEstimator = class
    interface IEstimator<WordEmbeddingTransformer>
Public NotInheritable Class WordEmbeddingEstimator
Implements IEstimator(Of WordEmbeddingTransformer)
繼承
WordEmbeddingEstimator
實作

備註

估算器特性

此估算器是否需要查看資料來定型其參數?
輸入資料行資料類型 文字向量
輸出資料行資料類型 的已知大小向量 Single
可匯出至 ONNX

會產生 WordEmbeddingTransformer 名為 的新資料行,如輸出資料行名稱參數中所指定,其中每個輸入向量都會對應至數值向量,其大小為 3 * 的內嵌模型。 請注意,這與輸入向量的大小無關。

例如,使用 GloVe50D 本身為 50 維度時,輸出資料行是大小為 150 的向量。 第一個位置的第一個第三個位置包含對應至輸入向量中每個字串之內嵌的最小值。 第二個第二個包含內嵌的平均值。 最後三個位置包含所遇到內嵌的最大值。 min/max 會為文字內嵌空間中的單字提供周框超矩形。 這可協助較長的片語,其中許多單字的平均值會掉掉有用的訊號。

使用者可以指定自訂預先定型的內嵌模型或其中一個可用的預先定型模型。 可用的選項是 各種 GloVe 模型FastTextSSWE版本。

如需使用範例的連結,請參閱另請參閱一節。

方法

Fit(IDataView)

定型並傳 WordEmbeddingTransformer 回 。

GetOutputSchema(SchemaShape)

SchemaShape 回架構的 ,該架構將由轉換器產生。 用於管線中的架構傳播和驗證。

擴充方法

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

將「快取檢查點」附加至估算器鏈結。 這可確保下游估算器會針對快取的資料定型。 在接受多個資料通過的定型器之前,先有快取檢查點會很有説明。

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

指定估算器時,傳回包裝物件,一旦 Fit(IDataView) 呼叫委派即可。 估算器通常務必傳回符合專案的相關資訊,這就是 Fit(IDataView) 方法傳回特定型別物件的原因,而不是只傳回一般 ITransformer 。 不過,同時, IEstimator<TTransformer> 通常會形成具有許多物件的管線,因此我們可能需要透過建置估算器的鏈結,而我們想要取得轉換器的估算器 EstimatorChain<TLastTransformer> 會在此鏈結的某處放置。 在該案例中,我們可以透過這個方法附加呼叫一次會呼叫的委派。

適用於

另請參閱