rxFeaturize: RevoScaleR 데이터 원본의 데이터 변환

아티클
05/23/2023

입력 데이터 세트의 데이터를 출력 데이터 세트로 변환합니다.

사용

  rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
    randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
    mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
    transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
    transformPackages = NULL, transformEnvir = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

인수

`data`

RevoScaleR 데이터 원본 개체, 데이터 프레임 또는 .xdf 파일의 경로입니다.

`outData`

변환된 데이터를 저장할 텍스트 또는 xdf 파일 이름이나 쓰기 기능이 있는 RxDataSource를 출력합니다. NULL이면 데이터 프레임이 반환됩니다. 기본값은 NULL입니다.

`overwrite`

TRUE이면 기존 outData를 덮어쓰고, FALSE이면 기존 outData를 덮어쓰지 않습니다. 기본값은 /codeFALSE입니다.

`dataThreads`

데이터 파이프라인에서 원하는 병렬 처리 수준을 지정하는 정수입니다. NULL이면 사용되는 스레드 수가 내부적으로 결정됩니다. 기본값은 NULL입니다.

`randomSeed`

임의의 시드를 지정합니다. 기본값은 NULL입니다.

`maxSlots`

벡터 값 열에 대해 반환할 최대 슬롯입니다(모두 반환하려면 <=0).

`mlTransforms`

학습 전에 데이터에서 수행할 MicrosoftML 변환 목록을 지정하거나 수행할 변환이 없는 경우 NULL을 지정합니다. 지원되는 변환에 관해서는 featurizeText, categorical, categoricalHash를 참조하세요. 이러한 변환은 지정된 R 변환 후에 수행됩니다. 기본값은 NULL입니다.

`mlTransformVars`

mlTransforms에 사용할 변수 이름의 문자 벡터를 지정하거나 사용할 변수가 없는 경우 NULL을 지정합니다. 기본값은 NULL입니다.

`rowSelection`

데이터 세트의 논리 변수 이름(따옴표) 또는 데이터 세트의 변수를 사용하는 논리 식으로 모델에서 사용할 데이터 세트의 행(관찰)을 지정합니다. 예를 들어, rowSelection = "old"는 old 변수의 값이 TRUE인 관찰만 사용합니다. rowSelection = (age > 20) & (age < 65) & (log(income) > 10)은 age 변수의 값이 20에서 65 사이이고 income 변수의 log 값이 10보다 큰 관찰만 사용합니다. 행 선택은 데이터 변환을 처리한 후 수행됩니다(인수 transforms 또는 transformFunc 참조). 모든 식과 마찬가지로 expression 함수를 사용하여 함수 호출 외부에서 rowSelection을 정의할 수 있습니다.

`transforms`

변수 변환의 첫 번째 반올림을 나타내는 list(name = expression, ``...) 양식의 식입니다. 모든 식과 마찬가지로 expression 함수를 사용하여 함수 호출 외부에서 transforms(또는 rowSelection)를 정의할 수 있습니다. 기본값은 NULL입니다.

`transformObjects`

transforms, transformsFunc, rowSelection에서 참조할 수 있는 개체를 포함하는 명명된 목록입니다. 기본값은 NULL입니다.

`transformFunc`

변수 변환 함수입니다. 자세한 내용은 rxTransform을 참조하세요. 기본값은 NULL입니다.

`transformVars`

변환 함수에 필요한 입력 데이터 세트 변수의 문자 벡터입니다. 자세한 내용은 rxTransform을 참조하세요. 기본값은 NULL입니다.

`transformPackages`

사용 가능하게 하고 변수 변환 함수에서 사용하도록 미리 로드할 추가 R 패키지(rxGetOption("transformPackages")에 지정된 패키지 외부)를 지정하는 문자 벡터입니다. 예를 들어, transforms 및 transformFunc 인수를 통해 RevoScaleR 함수에 명시적으로 정의되거나 formula 또는 rowSelection 인수를 통해 암시적으로 정의됩니다. transformPackages 인수는 NULL일 수도 있으며, 이는 rxGetOption("transformPackages") 외부의 패키지가 미리 로드되지 않음을 나타냅니다. 기본값은 NULL입니다.

`transformEnvir`

내부적으로 개발되어 변수 데이터 변환에 사용되는 모든 환경의 부모 역할을 하는 사용자 정의 환경입니다. transformEnvir = NULL인 경우 부모 baseenv()가 있는 새 “해시” 환경이 대신 사용됩니다. 기본값은 NULL입니다.

`blocksPerRead`

데이터 원본에서 읽은 데이터의 각 청크에 대해 읽을 블록 수를 지정합니다.

`reportProgress`

행 처리 진행률에 대한 보고 수준을 지정하는 정수 값입니다.

0: 진행률을 보고하지 않습니다.
1: 처리된 행 수가 출력되고 업데이트됩니다.
2: 처리된 행 및 타이밍이 보고됩니다.
3: 처리된 행 및 모든 타이밍이 보고됩니다.
기본값은 1입니다.

`verbose`

원하는 출력의 양을 지정하는 정수 값입니다. 0이면 계산 중에 자세한 정보가 출력되지 않습니다. 1에서 4 사이의 정수 값은 더 많은 양의 정보를 제공합니다. 기본값은 1입니다.

`computeContext`

유효한 RxComputeContext로 지정되었으며 계산이 실행되는 컨텍스트를 설정합니다. 현재 로컬 및 RxInSqlServer 컴퓨팅 컨텍스트가 지원됩니다.

`...`

Microsoft 컴퓨팅 엔진에 직접 전달할 추가 인수입니다.

값

생성된 출력 데이터를 나타내는 데이터 프레임 또는 RxDataSource 개체입니다.

작성자

Microsoft Corporation Microsoft Technical Support

추가 정보

rxDataStep, rxImport, rxTransform.

예


 # rxFeaturize basically allows you to access data from the MicrosoftML transforms
 # In this example we'll look at getting the output of the categorical transform

 # Create the data
 categoricalData <- data.frame(
   placesVisited = c(
     "London",
     "Brunei",
     "London",
     "Paris",
     "Seria"
   ),
   stringsAsFactors = FALSE
 )

 # Invoke the categorical transform
 categorized <- rxFeaturize(
   data = categoricalData,
   mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
 )

 # Now let's look at the data
 categorized

다음을 통해 공유