TextFeaturizingEstimator 類別
定義
重要
部分資訊涉及發行前產品,在發行之前可能會有大幅修改。 Microsoft 對此處提供的資訊,不做任何明確或隱含的瑕疵擔保。
將文字檔的集合轉換成數值特徵向量的估算器。 特徵向量是根據提供的選項,將單字和/或字元 n-gram (的標準化計數) 。
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- 繼承
-
TextFeaturizingEstimator
- 實作
備註
估算器特性
此估算器是否需要查看資料來定型其參數? | 是的 |
輸入資料行資料類型 | text |
輸出資料行資料類型 | Single 的向量 |
可匯出至 ONNX | No |
此估算器可為使用者提供一次性解決方案來執行下列動作:
- 語言偵測
- Token 化
- 文字正規化
- 預先定義和自訂停用字詞移除
- [Word型或字元型 Ngram 擷取和 SkipGram 擷取 (透過進階選項) ] https://en.wikipedia.org/wiki/N-gram ()
- TF、IDF 或 TF-IDF
- [L-p 向量正規化] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
根據預設,特徵是由 (字/字元) n-gram/skip-gram 所組成,特徵數目會等於分析資料所找到的詞彙大小。 若要輸出產生權杖的其他資料行,請使用 OutputTokensColumnName。 您也可以選取要保留在 中的 TextFeaturizingEstimator.Options n-gram 數目上限來指定特徵數目,其中估算器可以進一步微調。
如需使用範例的連結,請參閱另請參閱一節。
方法
Fit(IDataView) |
定型並傳 ITransformer 回 。 |
GetOutputSchema(SchemaShape) |
傳 SchemaShape 回由轉換器產生之架構的 。 用於管線中的架構傳播和驗證。 |
擴充方法
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
將「快取檢查點」附加至估算器鏈結。 這可確保下游估算器會針對快取的資料定型。 在接受多個資料通過的定型器之前,擁有快取檢查點會很有説明。 |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
假設有估算器,傳回包裝物件,一旦 Fit(IDataView) 呼叫委派即可。 估算器通常必須傳回符合專案的相關資訊,這就是方法 Fit(IDataView) 傳回特定型別物件的原因,而不只是一般 ITransformer 。 不過,同時 IEstimator<TTransformer> ,通常會形成具有許多物件的管線,因此我們可能需要透過 EstimatorChain<TLastTransformer> 建置估算器的鏈結,而我們想要取得轉換器的估算器會在此鏈結的某處被隱藏。 在該案例中,我們可以透過此方法附加呼叫一次將會呼叫的委派。 |