rxPredict.mlModel: Microsoft R Machine Learning 모델을 사용하여 점수 매기기

RevoScaleR 데이터 원본에서 학습된 Microsoft R Machine Learning 모델을 사용하여 데이터 프레임 또는 RevoScaleR 데이터 원본에서 인스턴스별 점수 매기기 결과를 보고합니다.

사용

 ## S3 method for class `mlModel':
rxPredict  (modelObject, data, outData = NULL,
    writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
    overwrite = FALSE, dataThreads = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

인수

modelObject

MicrosoftML 모델에서 반환된 모델 정보 개체입니다. 예를 들어 rxFastTrees 또는 rxLogisticRegression에서 반환된 개체입니다.

data

RevoScaleR 데이터 원본 개체, 데이터 프레임 또는 .xdf 파일의 경로입니다.

outData

예측을 저장할 출력 텍스트 또는 xdf 파일 이름이거나 쓰기 기능이 있는 RxDataSource입니다. NULL이면 데이터 프레임이 반환됩니다. 기본값은 NULL입니다.

writeModelVars

TRUE이면 모델의 변수가 점수 매기기 변수뿐만 아니라 출력 데이터 세트에 기록됩니다. 모델에서 입력 데이터 세트의 변수가 변환되면 변환된 변수도 포함됩니다. 기본값은 FALSE입니다.

extraVarsToWrite

outData에 포함할 입력 데이터에서 추가 변수 이름의 문자 벡터 또는 NULL입니다. writeModelVarsTRUE이면 모델 변수도 포함됩니다. 기본값은 NULL입니다.

suffix

생성된 점수 매기기 변수에 추가할 접미사를 지정하는 문자열이거나 접미사가 없을 경우 NULL입니다. 기본값은 NULL입니다.

overwrite

TRUE이면 기존 outData를 덮어쓰고, FALSE이면 기존 outData를 덮어쓰지 않습니다. 기본값은 FALSE입니다.

dataThreads

데이터 파이프라인에서 원하는 병렬 처리 수준을 지정하는 정수입니다. NULL이면 사용되는 스레드 수가 내부적으로 결정됩니다. 기본값은 NULL입니다.

blocksPerRead

데이터 원본에서 읽은 데이터의 각 청크에 대해 읽을 블록 수를 지정합니다.

reportProgress

행 처리 진행률에 대한 보고 수준을 지정하는 정수 값입니다.

  • 0: 진행률을 보고하지 않습니다.
  • 1: 처리된 행 수가 출력되고 업데이트됩니다.
  • 2: 처리된 행 및 타이밍이 보고됩니다.
  • 3: 처리된 행 및 모든 타이밍이 보고됩니다.
    기본값은 1입니다.

verbose

원하는 출력의 양을 지정하는 정수 값입니다. 0이면 계산 중에 자세한 정보가 출력되지 않습니다. 1에서 4 사이의 정수 값은 더 많은 양의 정보를 제공합니다. 기본값은 1입니다.

computeContext

유효한 RxComputeContext로 지정되었으며 계산이 실행되는 컨텍스트를 설정합니다. 현재 로컬 및 RxInSqlServer 컴퓨팅 컨텍스트가 지원됩니다.

...

Microsoft 컴퓨팅 엔진에 직접 전달할 추가 인수입니다.

세부 정보

이진 분류자의 세 변수인 PredictedLabel, Score, Probability에 대한 점수 매기기, oneClassSvm 및 회귀 분류자에 대한 점수, 다중 클래스 분류자에 대한 PredictedLabel과 앞에 Score가 붙은 각 범주에 대한 변수 같은 항목이 기본적으로 출력에 보고됩니다.

생성된 출력 데이터를 나타내는 데이터 프레임 또는 RxDataSource 개체입니다. 기본적으로 점수 매기기 이진 분류자의 출력에는 PredictedLabel, Score, Probability의 세 변수가 포함되고, rxOneClassSvm 및 회귀에는 하나의 Score 변수가 포함되며, 다중 클래스 분류자에는 PredictedLabel과 앞에 Score가 붙은 각 범주에 대한 변수가 포함됩니다. suffix가 제공되면 이러한 출력 변수 이름의 끝에 추가됩니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.



 # Estimate a logistic regression model
 infert1 <- infert
 infert1$isCase <- (infert1$case == 1)
 myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
                        data = infert1)

 # Create an xdf file with per-instance results using rxPredict
 xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
 scoreDS <- rxPredict(myModelInfo, data = infert1,
     outData = xdfOut, overwrite = TRUE,
     extraVarsToWrite = c("isCase", "Probability"))

 # Summarize results with an ROC curve
 rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)

 # Use the built-in data set 'airquality' to create test and train data
 DF <- airquality[!is.na(airquality$Ozone), ]  
 DF$Ozone <- as.numeric(DF$Ozone)
 set.seed(12)
 randomSplit <- rnorm(nrow(DF))
 trainAir <- DF[randomSplit >= 0,]
 testAir <- DF[randomSplit < 0,]
 airFormula <- Ozone ~ Solar.R + Wind + Temp

 # Regression Fast Tree for train data
 fastTreeReg <- rxFastTrees(airFormula, type = "regression", 
     data = trainAir)  

 # Put score and model variables in data frame, including the model variables
 # Add the suffix "Pred" to the new variable
 fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir, 
     writeModelVars = TRUE, suffix = "Pred")

 rxGetVarInfo(fastTreeScoreDF)

 # Clean-up
 file.remove(xdfOut)