CountVectorizer 類別

定義

public class CountVectorizer : Microsoft.Spark.ML.Feature.FeatureBase<Microsoft.Spark.ML.Feature.CountVectorizer>
type CountVectorizer = class
    inherit FeatureBase<CountVectorizer>
Public Class CountVectorizer
Inherits FeatureBase(Of CountVectorizer)
繼承

建構函式

CountVectorizer()

CountVectorizer建立 不含任何參數的 。

CountVectorizer(String)

建立具有 UID 的 , CountVectorizer 用來提供唯一識別碼 CountVectorizer

方法

Clear(Param)

清除先前為此 Microsoft.Spark.ML.Feature.Param 設定的任何值。 此值會重設為預設值。

(繼承來源 FeatureBase<T>)
ExplainParam(Param)

傳回特定 Microsoft.Spark.ML.Feature.Param 運作方式的描述,而且目前已設定。

(繼承來源 FeatureBase<T>)
ExplainParams()

傳回套用至此物件之所有 Microsoft.Spark.ML.Feature.Param 工作方式的描述,以及其目前設定方式。

(繼承來源 FeatureBase<T>)
Fit(DataFrame)

將模型放入輸入資料。

GetBinary()

取得二進位切換以控制輸出向量值。 如果為 True,則套用 minTF 篩選後的所有非零計數都會 (,) 設為 1。 這適用于模型化二進位事件而非整數計數的離散機率模型。 預設值:false

GetInputCol()

取得 應該從 讀取的資料行 CountVectorizer ,並將其轉換成貯體。 這由 SetInputCol 設定。

GetMaxDF()

取得詞彙可能包含在詞彙中的不同檔數目上限。 出現的字詞將會忽略超過臨界值。 如果這是大於或等於 1 的整數,這會指定字詞可能顯示的檔數目上限;如果這是 [0,1) 中的雙精度浮點數,則這會指定字詞可能顯示的最大分數。

GetMinDF()

取得字詞必須包含在詞彙中的最小不同檔數目。 如果這是大於或等於 1 的整數,這會指定字詞必須出現在的檔數目;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔的分數。

GetMinTF()

取得篩選準則,以忽略檔中的罕見字組。 針對每份檔,會忽略頻率/計數小於指定臨界值的條款。 如果這是大於或等於 1 的整數,則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔權杖計數) 的分數 (。

請注意,參數只會用於 CountVectorizerModel 的轉換,且不會影響調整。

GetOutputCol()

取得在 DataFrame 中建立的新資料行 CountVectorizer 名稱。

GetParam(String)

Microsoft.Spark.ML.Feature.Param 取 ,以便用來在 物件上設定 的值 Microsoft.Spark.ML.Feature.Param

(繼承來源 FeatureBase<T>)
GetVocabSize()

取得詞彙的大小上限。 CountVectorizer 將會建置一個詞彙,只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。

Load(String)

CountVectorizer載入先前使用 Save 儲存的 。

Save(String)

儲存 物件,以便稍後使用 Load 載入它。 請注意,這些物件可以透過在 Scala 中載入或儲存來與 Scala 共用。

(繼承來源 FeatureBase<T>)
Set(Param, Object)

設定特定 Microsoft.Spark.ML.Feature.Param 的值。

(繼承來源 FeatureBase<T>)
SetBinary(Boolean)

設定二進位切換以控制輸出向量值。 如果為 True,則套用 minTF 篩選後的所有非零計數都會 (,) 設為 1。 這適用于模型化二進位事件而非整數計數的離散機率模型。 預設值:false

SetInputCol(String)

設定 應該讀取的資料行 CountVectorizer

SetMaxDF(Double)

設定詞彙可能包含在詞彙中的不同檔數目上限。 出現的字詞將會忽略超過臨界值。 如果這是大於或等於 1 的整數,這會指定字詞可能顯示的檔數目上限;如果這是 [0,1) 中的雙精度浮點數,則這會指定字詞可能顯示的最大分數。

SetMinDF(Double)

設定字詞必須包含在詞彙中的不同檔數目下限。 如果這是大於或等於 1 的整數,這會指定字詞必須出現在的檔數目;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔的分數。

SetMinTF(Double)

設定篩選以忽略檔中的罕見字組。 針對每份檔,會忽略頻率/計數小於指定臨界值的條款。 如果這是大於或等於 1 的整數,則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0,1) 中的雙精度浮點數,則這會指定檔權杖計數) 的分數 (。

請注意,參數只會用於 CountVectorizerModel 的轉換,且不會影響調整。

SetOutputCol(String)

設定在 DataFrame 中建立的新資料行 CountVectorizer 名稱。

SetVocabSize(Int32)

設定詞彙的大小上限。 CountVectorizer 將會建置一個詞彙,只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。

ToString()

傳回 JVM toString 值,而不是 .NET ToString 預設值

(繼承來源 FeatureBase<T>)
Uid()

用來建立物件的 UID。 如果在建立物件時未傳入任何 UID,則會在建立物件時建立隨機 UID。

(繼承來源 FeatureBase<T>)

適用於