다음을 통해 공유


rxFeaturize: RevoScaleR 데이터 원본의 데이터 변환

입력 데이터 세트의 데이터를 출력 데이터 세트로 변환합니다.

사용

  rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
    randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
    mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
    transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
    transformPackages = NULL, transformEnvir = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

인수

data

RevoScaleR 데이터 원본 개체, 데이터 프레임 또는 .xdf 파일의 경로입니다.

outData

변환된 데이터를 저장할 텍스트 또는 xdf 파일 이름이나 쓰기 기능이 있는 RxDataSource를 출력합니다. NULL이면 데이터 프레임이 반환됩니다. 기본값은 NULL입니다.

overwrite

TRUE이면 기존 outData를 덮어쓰고, FALSE이면 기존 outData를 덮어쓰지 않습니다. 기본값은 /codeFALSE입니다.

dataThreads

데이터 파이프라인에서 원하는 병렬 처리 수준을 지정하는 정수입니다. NULL이면 사용되는 스레드 수가 내부적으로 결정됩니다. 기본값은 NULL입니다.

randomSeed

임의의 시드를 지정합니다. 기본값은 NULL입니다.

maxSlots

벡터 값 열에 대해 반환할 최대 슬롯입니다(모두 반환하려면 <=0).

mlTransforms

학습 전에 데이터에서 수행할 MicrosoftML 변환 목록을 지정하거나 수행할 변환이 없는 경우 NULL을 지정합니다. 지원되는 변환에 관해서는 featurizeText, categorical, categoricalHash를 참조하세요. 이러한 변환은 지정된 R 변환 후에 수행됩니다. 기본값은 NULL입니다.

mlTransformVars

mlTransforms에 사용할 변수 이름의 문자 벡터를 지정하거나 사용할 변수가 없는 경우 NULL을 지정합니다. 기본값은 NULL입니다.

rowSelection

데이터 세트의 논리 변수 이름(따옴표) 또는 데이터 세트의 변수를 사용하는 논리 식으로 모델에서 사용할 데이터 세트의 행(관찰)을 지정합니다. 예를 들어, rowSelection = "old"old 변수의 값이 TRUE인 관찰만 사용합니다. rowSelection = (age > 20) & (age < 65) & (log(income) > 10)age 변수의 값이 20에서 65 사이이고 income 변수의 log 값이 10보다 큰 관찰만 사용합니다. 행 선택은 데이터 변환을 처리한 후 수행됩니다(인수 transforms 또는 transformFunc 참조). 모든 식과 마찬가지로 expression 함수를 사용하여 함수 호출 외부에서 rowSelection을 정의할 수 있습니다.

transforms

변수 변환의 첫 번째 반올림을 나타내는 list(name = expression, ``...) 양식의 식입니다. 모든 식과 마찬가지로 expression 함수를 사용하여 함수 호출 외부에서 transforms(또는 rowSelection)를 정의할 수 있습니다. 기본값은 NULL입니다.

transformObjects

transforms, transformsFunc, rowSelection에서 참조할 수 있는 개체를 포함하는 명명된 목록입니다. 기본값은 NULL입니다.

transformFunc

변수 변환 함수입니다. 자세한 내용은 rxTransform을 참조하세요. 기본값은 NULL입니다.

transformVars

변환 함수에 필요한 입력 데이터 세트 변수의 문자 벡터입니다. 자세한 내용은 rxTransform을 참조하세요. 기본값은 NULL입니다.

transformPackages

사용 가능하게 하고 변수 변환 함수에서 사용하도록 미리 로드할 추가 R 패키지(rxGetOption("transformPackages")에 지정된 패키지 외부)를 지정하는 문자 벡터입니다. 예를 들어, transformstransformFunc 인수를 통해 RevoScaleR 함수에 명시적으로 정의되거나 formula 또는 rowSelection 인수를 통해 암시적으로 정의됩니다. transformPackages 인수는 NULL일 수도 있으며, 이는 rxGetOption("transformPackages") 외부의 패키지가 미리 로드되지 않음을 나타냅니다. 기본값은 NULL입니다.

transformEnvir

내부적으로 개발되어 변수 데이터 변환에 사용되는 모든 환경의 부모 역할을 하는 사용자 정의 환경입니다. transformEnvir = NULL인 경우 부모 baseenv()가 있는 새 “해시” 환경이 대신 사용됩니다. 기본값은 NULL입니다.

blocksPerRead

데이터 원본에서 읽은 데이터의 각 청크에 대해 읽을 블록 수를 지정합니다.

reportProgress

행 처리 진행률에 대한 보고 수준을 지정하는 정수 값입니다.

  • 0: 진행률을 보고하지 않습니다.
  • 1: 처리된 행 수가 출력되고 업데이트됩니다.
  • 2: 처리된 행 및 타이밍이 보고됩니다.
  • 3: 처리된 행 및 모든 타이밍이 보고됩니다.
    기본값은 1입니다.

verbose

원하는 출력의 양을 지정하는 정수 값입니다. 0이면 계산 중에 자세한 정보가 출력되지 않습니다. 1에서 4 사이의 정수 값은 더 많은 양의 정보를 제공합니다. 기본값은 1입니다.

computeContext

유효한 RxComputeContext로 지정되었으며 계산이 실행되는 컨텍스트를 설정합니다. 현재 로컬 및 RxInSqlServer 컴퓨팅 컨텍스트가 지원됩니다.

...

Microsoft 컴퓨팅 엔진에 직접 전달할 추가 인수입니다.

생성된 출력 데이터를 나타내는 데이터 프레임 또는 RxDataSource 개체입니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxDataStep, rxImport, rxTransform.


 # rxFeaturize basically allows you to access data from the MicrosoftML transforms
 # In this example we'll look at getting the output of the categorical transform

 # Create the data
 categoricalData <- data.frame(
   placesVisited = c(
     "London",
     "Brunei",
     "London",
     "Paris",
     "Seria"
   ),
   stringsAsFactors = FALSE
 )

 # Invoke the categorical transform
 categorized <- rxFeaturize(
   data = categoricalData,
   mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
 )

 # Now let's look at the data
 categorized