rxPredict.mlModel: Microsoft R Machine Learning 모델을 사용하여 점수 매기기

아티클
05/23/2023

RevoScaleR 데이터 원본에서 학습된 Microsoft R Machine Learning 모델을 사용하여 데이터 프레임 또는 RevoScaleR 데이터 원본에서 인스턴스별 점수 매기기 결과를 보고합니다.

사용

 ## S3 method for class `mlModel':
rxPredict  (modelObject, data, outData = NULL,
    writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
    overwrite = FALSE, dataThreads = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

인수

`modelObject`

MicrosoftML 모델에서 반환된 모델 정보 개체입니다. 예를 들어 rxFastTrees 또는 rxLogisticRegression에서 반환된 개체입니다.

`data`

RevoScaleR 데이터 원본 개체, 데이터 프레임 또는 .xdf 파일의 경로입니다.

`outData`

예측을 저장할 출력 텍스트 또는 xdf 파일 이름이거나 쓰기 기능이 있는 RxDataSource입니다. NULL이면 데이터 프레임이 반환됩니다. 기본값은 NULL입니다.

`writeModelVars`

TRUE이면 모델의 변수가 점수 매기기 변수뿐만 아니라 출력 데이터 세트에 기록됩니다. 모델에서 입력 데이터 세트의 변수가 변환되면 변환된 변수도 포함됩니다. 기본값은 FALSE입니다.

`extraVarsToWrite`

outData에 포함할 입력 데이터에서 추가 변수 이름의 문자 벡터 또는 NULL입니다. writeModelVars가 TRUE이면 모델 변수도 포함됩니다. 기본값은 NULL입니다.

`suffix`

생성된 점수 매기기 변수에 추가할 접미사를 지정하는 문자열이거나 접미사가 없을 경우 NULL입니다. 기본값은 NULL입니다.

`overwrite`

TRUE이면 기존 outData를 덮어쓰고, FALSE이면 기존 outData를 덮어쓰지 않습니다. 기본값은 FALSE입니다.

`dataThreads`

데이터 파이프라인에서 원하는 병렬 처리 수준을 지정하는 정수입니다. NULL이면 사용되는 스레드 수가 내부적으로 결정됩니다. 기본값은 NULL입니다.

`blocksPerRead`

데이터 원본에서 읽은 데이터의 각 청크에 대해 읽을 블록 수를 지정합니다.

`reportProgress`

행 처리 진행률에 대한 보고 수준을 지정하는 정수 값입니다.

0: 진행률을 보고하지 않습니다.
1: 처리된 행 수가 출력되고 업데이트됩니다.
2: 처리된 행 및 타이밍이 보고됩니다.
3: 처리된 행 및 모든 타이밍이 보고됩니다.
기본값은 1입니다.

`verbose`

원하는 출력의 양을 지정하는 정수 값입니다. 0이면 계산 중에 자세한 정보가 출력되지 않습니다. 1에서 4 사이의 정수 값은 더 많은 양의 정보를 제공합니다. 기본값은 1입니다.

`computeContext`

유효한 RxComputeContext로 지정되었으며 계산이 실행되는 컨텍스트를 설정합니다. 현재 로컬 및 RxInSqlServer 컴퓨팅 컨텍스트가 지원됩니다.

`...`

Microsoft 컴퓨팅 엔진에 직접 전달할 추가 인수입니다.

세부 정보

이진 분류자의 세 변수인 PredictedLabel, Score, Probability에 대한 점수 매기기, oneClassSvm 및 회귀 분류자에 대한 점수, 다중 클래스 분류자에 대한 PredictedLabel과 앞에 Score가 붙은 각 범주에 대한 변수 같은 항목이 기본적으로 출력에 보고됩니다.

값

생성된 출력 데이터를 나타내는 데이터 프레임 또는 RxDataSource 개체입니다. 기본적으로 점수 매기기 이진 분류자의 출력에는 PredictedLabel, Score, Probability의 세 변수가 포함되고, rxOneClassSvm 및 회귀에는 하나의 Score 변수가 포함되며, 다중 클래스 분류자에는 PredictedLabel과 앞에 Score가 붙은 각 범주에 대한 변수가 포함됩니다. suffix가 제공되면 이러한 출력 변수 이름의 끝에 추가됩니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.

예



 # Estimate a logistic regression model
 infert1 <- infert
 infert1$isCase <- (infert1$case == 1)
 myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
                        data = infert1)

 # Create an xdf file with per-instance results using rxPredict
 xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
 scoreDS <- rxPredict(myModelInfo, data = infert1,
     outData = xdfOut, overwrite = TRUE,
     extraVarsToWrite = c("isCase", "Probability"))

 # Summarize results with an ROC curve
 rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)

 # Use the built-in data set 'airquality' to create test and train data
 DF <- airquality[!is.na(airquality$Ozone), ]  
 DF$Ozone <- as.numeric(DF$Ozone)
 set.seed(12)
 randomSplit <- rnorm(nrow(DF))
 trainAir <- DF[randomSplit >= 0,]
 testAir <- DF[randomSplit < 0,]
 airFormula <- Ozone ~ Solar.R + Wind + Temp

 # Regression Fast Tree for train data
 fastTreeReg <- rxFastTrees(airFormula, type = "regression", 
     data = trainAir)  

 # Put score and model variables in data frame, including the model variables
 # Add the suffix "Pred" to the new variable
 fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir, 
     writeModelVars = TRUE, suffix = "Pred")

 rxGetVarInfo(fastTreeScoreDF)

 # Clean-up
 file.remove(xdfOut)

다음을 통해 공유