다음을 통해 공유


IDF 클래스

정의

IDF(역 문서 빈도). 표준 수식이 사용됩니다. idf = log((m + 1) / (d(t) + 1)), 여기서 m은 총 문서 수이고 d(t)는 용어 t를 포함하는 문서 수입니다.

이 구현은 최소 수의 문서에 표시되지 않는 용어 필터링을 지원합니다(minDocFreq 변수에 의해 제어됨). 최소 minDocFreq 문서에 없는 용어의 경우 IDF는 0으로 발견되어 TF-IDFs 0입니다.

public class IDF : Microsoft.Spark.ML.Feature.FeatureBase<Microsoft.Spark.ML.Feature.IDF>
type IDF = class
    inherit FeatureBase<IDF>
Public Class IDF
Inherits FeatureBase(Of IDF)
상속

생성자

IDF()

매개 변수 없이 을 만듭니다.IDF

IDF(String)

IDF 고유 ID를 제공하는 데 사용되는 UID를 IDF 사용하여 을 만듭니다.

메서드

Clear(Param)

Microsoft.Spark.ML.Feature.Param에 대해 이전에 설정된 값을 지웁니다. 값이 기본값으로 다시 설정됩니다.

(다음에서 상속됨 FeatureBase<T>)
ExplainParam(Param)

특정 Microsoft.Spark.ML.Feature.Param 작동 방식과 현재 설정된 방식에 대한 설명을 반환합니다.

(다음에서 상속됨 FeatureBase<T>)
ExplainParams()

이 개체에 적용되는 모든 Microsoft.Spark.ML.Feature.Param의 작동 방식과 현재 설정된 방식에 대한 설명을 반환합니다.

(다음에서 상속됨 FeatureBase<T>)
Fit(DataFrame)

모델을 입력 데이터에 맞습니다.

GetInputCol()

에서 읽어야 하는 IDF 열을 가져옵니다.

GetMinDocFreq()

필터링을 위해 용어가 표시되어야 하는 최소 문서

GetOutputCol()

IDF DataFrame에 새 열을 만듭니다. 이 열은 새 열의 이름입니다.

GetParam(String)

개체에서 Microsoft.Spark.ML.Feature.ParamMicrosoft.Spark.ML.Feature.Param 값을 설정하는 데 사용할 수 있도록 를 검색합니다.

(다음에서 상속됨 FeatureBase<T>)
Load(String)

저장을 IDF 사용하여 이전에 저장한 를 로드합니다.

Save(String)

나중에 Load를 사용하여 로드할 수 있도록 개체를 저장합니다. 이러한 개체는 Scala에서 로드 또는 저장을 통해 Scala와 공유할 수 있습니다.

(다음에서 상속됨 FeatureBase<T>)
Set(Param, Object)

특정 Microsoft.Spark.ML.Feature.Param의 값을 설정합니다.

(다음에서 상속됨 FeatureBase<T>)
SetInputCol(String)

에서 읽어야 하는 IDF 열을 설정합니다.

SetMinDocFreq(Int32)

필터링을 위해 용어가 표시되어야 하는 최소 문서

SetOutputCol(String)

IDF DataFrame에 새 열을 만듭니다. 이 열은 새 열의 이름입니다.

ToString()

.NET ToString 기본값이 아닌 JVM toString 값을 반환합니다.

(다음에서 상속됨 FeatureBase<T>)
Uid()

개체를 만드는 데 사용된 UID입니다. 개체를 만들 때 UID가 전달되지 않으면 개체를 만들 때 임의의 UID가 만들어집니다.

(다음에서 상속됨 FeatureBase<T>)

적용 대상