CountVectorizer 類別

參考

定義

命名空間:: Microsoft.Spark.ML.Feature

組件:: Microsoft.Spark.dll

套件:: Microsoft.Spark v1.0.0

重要

部分資訊涉及發行前產品，在發行之前可能會有大幅修改。 Microsoft 對此處提供的資訊，不做任何明確或隱含的瑕疵擔保。

public class CountVectorizer : Microsoft.Spark.ML.Feature.FeatureBase<Microsoft.Spark.ML.Feature.CountVectorizer>

type CountVectorizer = class
    inherit FeatureBase<CountVectorizer>

Public Class CountVectorizer
Inherits FeatureBase(Of CountVectorizer)

繼承: Object

FeatureBase<CountVectorizer>
CountVectorizer

建構函式

CountVectorizer()	CountVectorizer建立不含任何參數的。
CountVectorizer(String)	建立具有 UID 的， CountVectorizer 用來提供唯一識別碼 CountVectorizer 。

方法

Clear(Param)	清除先前為此 Microsoft.Spark.ML.Feature.Param 設定的任何值。此值會重設為預設值。 (繼承來源 FeatureBase<T>)
ExplainParam(Param)	傳回特定 Microsoft.Spark.ML.Feature.Param 運作方式的描述，而且目前已設定。 (繼承來源 FeatureBase<T>)
ExplainParams()	傳回套用至此物件之所有 Microsoft.Spark.ML.Feature.Param 工作方式的描述，以及其目前設定方式。 (繼承來源 FeatureBase<T>)
Fit(DataFrame)	將模型放入輸入資料。
GetBinary()	取得二進位切換以控制輸出向量值。如果為 True，則套用 minTF 篩選後的所有非零計數都會 (，) 設為 1。這適用于模型化二進位事件而非整數計數的離散機率模型。預設值：false
GetInputCol()	取得應該從讀取的資料行 CountVectorizer ，並將其轉換成貯體。這由 SetInputCol 設定。
GetMaxDF()	取得詞彙可能包含在詞彙中的不同檔數目上限。出現的字詞將會忽略超過臨界值。如果這是大於或等於 1 的整數，這會指定字詞可能顯示的檔數目上限;如果這是 [0，1) 中的雙精度浮點數，則這會指定字詞可能顯示的最大分數。
GetMinDF()	取得字詞必須包含在詞彙中的最小不同檔數目。如果這是大於或等於 1 的整數，這會指定字詞必須出現在的檔數目;如果這是 [0，1) 中的雙精度浮點數，則這會指定檔的分數。
GetMinTF()	取得篩選準則，以忽略檔中的罕見字組。針對每份檔，會忽略頻率/計數小於指定臨界值的條款。如果這是大於或等於 1 的整數，則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0，1) 中的雙精度浮點數，則這會指定檔權杖計數) 的分數 (。請注意，參數只會用於 CountVectorizerModel 的轉換，且不會影響調整。
GetOutputCol()	取得在 DataFrame 中建立的新資料行 CountVectorizer 名稱。
GetParam(String)	擷 Microsoft.Spark.ML.Feature.Param 取，以便用來在物件上設定的值 Microsoft.Spark.ML.Feature.Param 。 (繼承來源 FeatureBase<T>)
GetVocabSize()	取得詞彙的大小上限。 CountVectorizer 將會建置一個詞彙，只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。
Load(String)	CountVectorizer載入先前使用 Save 儲存的。
Save(String)	儲存物件，以便稍後使用 Load 載入它。請注意，這些物件可以透過在 Scala 中載入或儲存來與 Scala 共用。 (繼承來源 FeatureBase<T>)
Set(Param, Object)	設定特定 Microsoft.Spark.ML.Feature.Param 的值。 (繼承來源 FeatureBase<T>)
SetBinary(Boolean)	設定二進位切換以控制輸出向量值。如果為 True，則套用 minTF 篩選後的所有非零計數都會 (，) 設為 1。這適用于模型化二進位事件而非整數計數的離散機率模型。預設值：false
SetInputCol(String)	設定應該讀取的資料行 CountVectorizer 。
SetMaxDF(Double)	設定詞彙可能包含在詞彙中的不同檔數目上限。出現的字詞將會忽略超過臨界值。如果這是大於或等於 1 的整數，這會指定字詞可能顯示的檔數目上限;如果這是 [0，1) 中的雙精度浮點數，則這會指定字詞可能顯示的最大分數。
SetMinDF(Double)	設定字詞必須包含在詞彙中的不同檔數目下限。如果這是大於或等於 1 的整數，這會指定字詞必須出現在的檔數目;如果這是 [0，1) 中的雙精度浮點數，則這會指定檔的分數。
SetMinTF(Double)	設定篩選以忽略檔中的罕見字組。針對每份檔，會忽略頻率/計數小於指定臨界值的條款。如果這是大於或等於 1 的整數，則這會指定字詞必須出現在檔中) 的計數 (次;如果這是 [0，1) 中的雙精度浮點數，則這會指定檔權杖計數) 的分數 (。請注意，參數只會用於 CountVectorizerModel 的轉換，且不會影響調整。
SetOutputCol(String)	設定在 DataFrame 中建立的新資料行 CountVectorizer 名稱。
SetVocabSize(Int32)	設定詞彙的大小上限。 CountVectorizer 將會建置一個詞彙，只考慮依字詞頻率排序的字詞在主體上排名的前幾個vocabSize 詞彙。
ToString()	傳回 JVM toString 值，而不是 .NET ToString 預設值 (繼承來源 FeatureBase<T>)
Uid()	用來建立物件的 UID。如果在建立物件時未傳入任何 UID，則會在建立物件時建立隨機 UID。 (繼承來源 FeatureBase<T>)

適用於

共用方式為

CountVectorizer 類別

定義

建構函式

方法

適用於

其他資源