categorical: Machine Learning 범주 데이터 변환

모델을 학습시키기 전에 데이터에서 수행할 수 있는 범주 변환입니다.

사용

  categorical(vars, outputKind = "ind", maxNumTerms = 1e+06, terms = "",
    ...)

인수

vars

변환할 문자 벡터 또는 변수 이름 목록입니다. 명명된 경우 이름은 만들 새 변수의 이름을 나타냅니다.

outputKind

출력 종류를 지정하는 문자열입니다.

  • "ind": 표시기 벡터를 출력합니다. 입력 열은 범주의 벡터이며 출력에는 입력 열의 슬롯당 하나의 표시기 벡터가 포함됩니다.
  • "bag": 다중 집합 벡터를 출력합니다. 입력 열이 범주의 벡터인 경우 출력에 하나의 벡터가 포함됩니다. 여기서 각 슬롯의 값은 입력 벡터의 범주 발생 횟수입니다. 입력 열에 단일 범주가 포함된 경우 표시기 벡터와 백 벡터가 동일합니다.
  • "key": 인덱스를 출력합니다. 출력은 범주의 정수 ID(1과 사전의 범주 수 사이)입니다.
    기본값은 "ind"입니다.

maxNumTerms

사전에 포함할 최대 범주 수를 지정하는 정수입니다. 기본값은 1000000입니다.

terms

용어 또는 범주의 선택적 문자 벡터입니다.

...

컴퓨팅 엔진으로 전송된 추가 인수입니다.

세부 정보

categorical 변환은 텍스트 열에서 작동하는 데이터 세트를 통과하여 범주 사전을 작성합니다. 각 행에 대해 입력 열에 나타나는 전체 텍스트 문자열이 범주로 정의됩니다. 범주 변환의 출력은 표시기 벡터입니다. 이 벡터의 각 슬롯은 사전의 범주에 해당하므로 길이는 작성된 사전의 크기입니다. 범주 변환은 하나 이상의 열에 적용할 수 있습니다. 이 경우 적용되는 각 열에 대해 별도의 사전을 작성합니다.

categorical은 현재 요소 데이터를 처리하는 데 지원되지 않습니다.

변환을 정의하는 maml 개체입니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxFastTrees, rxFastForest, rxNeuralNet, rxOneClassSvm, rxLogisticRegression.


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)


 # Use a categorical transform: the entire string is treated as a category
 outModel1 <- rxLogisticRegression(like~reviewCat, data = trainReviews, 
     mlTransforms = list(categorical(vars = c(reviewCat = "review"))))
 # Note that 'I hate it' and 'I love it' (the only strings appearing more than once)
 # have non-zero weights
 summary(outModel1)

 # Use the model to score
 scoreOutDF1 <- rxPredict(outModel1, data = testReviews, 
     extraVarsToWrite = "review")
 scoreOutDF1