Microsoft.Spark.ML.Feature 네임스페이스
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
클래스
Bucketizer |
Bucketizer 는 연속 기능의 열을 기능 버킷의 열에 매핑합니다. Bucketizer 는 inputCols 매개 변수를 설정하여 한 번에 여러 열을 매핑할 수 있습니다. inputCol 및 inputCols 매개 변수가 모두 설정되면 예외가 throw됩니다. splits 매개 변수는 단일 열 사용에만 사용되며 splitsArray는 여러 열에 사용됩니다. |
CountVectorizer | |
CountVectorizerModel | |
FeatureBase<T> |
FeatureBase는 모든 ML.Feature 개체 간에 코드를 공유하는 것입니다. Scala 코드가 모든 개체에서 구현하는 몇 가지 인터페이스가 있습니다. 이렇게 하면 추가 개체를 더 빠르게 작성하는 데 도움이 됩니다. |
FeatureHasher | |
HashingTF |
는 HashingTF 해싱 트릭을 사용하여 용어의 순서를 해당 용어 빈도에 매핑합니다. 현재 오스틴 Appleby의 MurmurHash 3 알고리즘(MurmurHash3_x86_32)을 사용하여 개체라는 용어의 해시 코드 값을 계산합니다. 간단한 모듈로는 해시 함수를 열 인덱스로 변환하는 데 사용되므로 numFeatures 매개 변수로 2의 전원을 사용하는 것이 좋습니다. 그렇지 않으면 기능이 열에 균등하게 매핑되지 않습니다. |
IDF |
IDF(역 문서 빈도). 표준 수식이 사용됩니다. idf = log((m + 1) / (d(t) + 1)), 여기서 m은 총 문서 수이고 d(t)는 용어 t를 포함하는 문서 수입니다. 이 구현은 최소 수의 문서에 표시되지 않는 용어 필터링을 지원합니다(minDocFreq 변수에 의해 제어됨). 최소 minDocFreq 문서에 없는 용어의 경우 IDF는 0으로 발견되어 TF-IDFs 0입니다. |
IDFModel |
IDFModel 입력 문자열을 소문자로 변환한 다음 공백으로 분할하는 입니다. |
Tokenizer |
Tokenizer 입력 문자열을 소문자로 변환한 다음 공백으로 분할하는 입니다. |
Word2Vec | |
Word2VecModel |
인터페이스
Identifiable |