CountVectorizer 類別
定義
重要
部分資訊涉及發行前產品,在發行之前可能會有大幅修改。 Microsoft 對此處提供的資訊,不做任何明確或隱含的瑕疵擔保。
public class CountVectorizer : Microsoft.Spark.ML.Feature.FeatureBase<Microsoft.Spark.ML.Feature.CountVectorizer>
type CountVectorizer = class
inherit FeatureBase<CountVectorizer>
Public Class CountVectorizer
Inherits FeatureBase(Of CountVectorizer)
- 繼承
建構函式
CountVectorizer() |
CountVectorizer建立 不含任何參數的 。 |
CountVectorizer(String) |
建立具有 UID 的 , CountVectorizer 用來提供唯一識別碼 CountVectorizer 。 |
方法
Clear(Param) |
清除先前為此 Microsoft.Spark.ML.Feature.Param 設定的任何值。 此值會重設為預設值。 (繼承來源 FeatureBase<T>) |
ExplainParam(Param) |
傳回特定 Microsoft.Spark.ML.Feature.Param 運作方式的描述,而且目前已設定。 (繼承來源 FeatureBase<T>) |
ExplainParams() |
傳回套用至此物件之所有 Microsoft.Spark.ML.Feature.Param 工作方式的描述,以及其目前設定方式。 (繼承來源 FeatureBase<T>) |
Fit(DataFrame) |
將模型放入輸入資料。 |
GetBinary() |
取得二進位切換以控制輸出向量值。 如果為 True,則套用 minTF 篩選後的所有非零計數都會 (,) 設為 1。 這適用于模型化二進位事件而非整數計數的離散機率模型。 預設值:false |
GetInputCol() |
取得 應該從 讀取的資料行 CountVectorizer ,並將其轉換成貯體。 這由 SetInputCol 設定。 |
GetMaxDF() |
取得詞彙可能包含在詞彙中的不同檔數目上限。 出現的字詞將會忽略超過臨界值。 如果這是大於或等於 1 的整數,這會指定字詞可能顯示的檔數目上限;如果這是 [0,1) 中的雙精度浮點數,則這會指定字詞可能顯示的最大分數。 |
GetMinDF() |
取得字詞必須包含在詞彙中的最小不同檔數目。 如果這是大於或等於 1 的整數,這會指定字詞必須出現在的檔數目;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔的分數。 |
GetMinTF() |
取得篩選準則,以忽略檔中的罕見字組。 針對每份檔,會忽略頻率/計數小於指定臨界值的條款。 如果這是大於或等於 1 的整數,則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔權杖計數) 的分數 (。 請注意,參數只會用於 CountVectorizerModel 的轉換,且不會影響調整。 |
GetOutputCol() |
取得在 DataFrame 中建立的新資料行 CountVectorizer 名稱。 |
GetParam(String) |
擷 Microsoft.Spark.ML.Feature.Param 取 ,以便用來在 物件上設定 的值 Microsoft.Spark.ML.Feature.Param 。 (繼承來源 FeatureBase<T>) |
GetVocabSize() |
取得詞彙的大小上限。 CountVectorizer 將會建置一個詞彙,只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。 |
Load(String) |
CountVectorizer載入先前使用 Save 儲存的 。 |
Save(String) |
儲存 物件,以便稍後使用 Load 載入它。 請注意,這些物件可以透過在 Scala 中載入或儲存來與 Scala 共用。 (繼承來源 FeatureBase<T>) |
Set(Param, Object) |
設定特定 Microsoft.Spark.ML.Feature.Param 的值。 (繼承來源 FeatureBase<T>) |
SetBinary(Boolean) |
設定二進位切換以控制輸出向量值。 如果為 True,則套用 minTF 篩選後的所有非零計數都會 (,) 設為 1。 這適用于模型化二進位事件而非整數計數的離散機率模型。 預設值:false |
SetInputCol(String) |
設定 應該讀取的資料行 CountVectorizer 。 |
SetMaxDF(Double) |
設定詞彙可能包含在詞彙中的不同檔數目上限。 出現的字詞將會忽略超過臨界值。 如果這是大於或等於 1 的整數,這會指定字詞可能顯示的檔數目上限;如果這是 [0,1) 中的雙精度浮點數,則這會指定字詞可能顯示的最大分數。 |
SetMinDF(Double) |
設定字詞必須包含在詞彙中的不同檔數目下限。 如果這是大於或等於 1 的整數,這會指定字詞必須出現在的檔數目;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔的分數。 |
SetMinTF(Double) |
設定篩選以忽略檔中的罕見字組。 針對每份檔,會忽略頻率/計數小於指定臨界值的條款。 如果這是大於或等於 1 的整數,則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔權杖計數) 的分數 (。 請注意,參數只會用於 CountVectorizerModel 的轉換,且不會影響調整。 |
SetOutputCol(String) |
設定在 DataFrame 中建立的新資料行 CountVectorizer 名稱。 |
SetVocabSize(Int32) |
設定詞彙的大小上限。 CountVectorizer 將會建置一個詞彙,只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。 |
ToString() |
傳回 JVM toString 值,而不是 .NET ToString 預設值 (繼承來源 FeatureBase<T>) |
Uid() |
用來建立物件的 UID。 如果在建立物件時未傳入任何 UID,則會在建立物件時建立隨機 UID。 (繼承來源 FeatureBase<T>) |