categoricalHash: 기계 학습 범주 해시 데이터 변환

아티클
05/23/2023

모델을 학습시키기 전에 데이터에서 수행할 수 있는 범주 해시 변환입니다.

사용

  categoricalHash(vars, hashBits = 16, seed = 314489979, ordered = TRUE,
    invertHash = 0, outputKind = "Bag", ...)

인수

`vars`

변환할 문자 벡터 또는 변수 이름 목록입니다. 명명된 경우 이름은 만들 새 변수의 이름을 나타냅니다.

`hashBits`

해시할 비트 수를 지정하는 정수입니다. 1에서 30(포함) 사이여야 합니다. 기본값은 16입니다.

`seed`

해시 시드를 지정하는 정수입니다. 기본값은 314489979입니다.

`ordered`

TRUE이면 해시에 각 용어의 위치가 포함됩니다. 그렇지 않으면 FALSE입니다. 기본값은 TRUE입니다.

`invertHash`

슬롯 이름을 생성하는 데 사용할 수 있는 키 수에 대한 제한을 지정하는 정수입니다. 0은 해시 반전이 없음을 의미하고, -1은 제한이 없음을 의미합니다. 값이 0이면 성능이 향상되지만 의미 있는 계수 이름을 얻으려면 0이 아닌 값이 필요합니다. 기본값은 0입니다.

`outputKind`

출력 종류를 지정하는 문자열입니다.

"ind": 표시기 벡터를 출력합니다. 입력 열은 범주의 벡터이며 출력에는 입력 열의 슬롯당 하나의 표시기 벡터가 포함됩니다.
"bag": 다중 집합 벡터를 출력합니다. 입력 열이 범주의 벡터인 경우 출력에 하나의 벡터가 포함됩니다. 여기서 각 슬롯의 값은 입력 벡터의 범주 발생 횟수입니다. 입력 열에 단일 범주가 포함된 경우 표시기 벡터와 백 벡터가 동일합니다.
"key": 인덱스를 출력합니다. 출력은 범주의 정수 ID(1과 사전의 범주 수 사이)입니다.
기본값은 "Bag"입니다.

`...`

컴퓨팅 엔진으로 전송된 추가 인수입니다.

세부 정보

categoricalHash는 값을 해시하고 해시를 백의 인덱스로 사용하여 범주 값을 표시기 배열로 변환합니다. 입력 열이 벡터이면 단일 표시기 백이 반환됩니다.

categoricalHash는 현재 요소 데이터 처리를 지원하지 않습니다.

값

변환을 정의하는 maml 개체입니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxFastTrees, rxFastForest, rxNeuralNet, rxOneClassSvm, rxLogisticRegression.

예


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)


 # Use a categorical hash transform
 outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, 
     mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"))))
 # Weights are similar to categorical
 summary(outModel2)

 # Use the model to score
 scoreOutDF2 <- rxPredict(outModel2, data = testReviews, 
     extraVarsToWrite = "review")
 scoreOutDF2

다음을 통해 공유