rxFeaturize: Datentransformation für RevoScaleR-Datenquellen

Artikel
05/23/2023

Wandelt Daten von einem Eingabedataset in ein Ausgabedataset um.

Verwendung

  rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
    randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
    mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
    transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
    transformPackages = NULL, transformEnvir = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

Argumente

`data`

Ein RevoScaleR-Datenquellenobjekt, ein Datenrahmen oder der Pfad zu einer .xdf-Datei.

`outData`

Ausgabetext oder Name der XDF-Datei oder RxDataSource mit Schreibfunktionen zum Speichern transformierter Daten. Falls NULL, wird ein Datenrahmen zurückgegeben. Standardwert: NULL.

`overwrite`

Falls TRUE, wird ein vorhandenes outData-Element überschrieben. Falls FALSE, wird ein vorhandenes outData-Element nicht überschrieben. Der Standardwert ist „/codeFALSE“.

`dataThreads`

Eine ganze Zahl, die den gewünschten Grad von Parallelität in der Datenpipeline angibt. Falls NULL, wird die Anzahl der verwendeten Threads intern bestimmt. Standardwert: NULL.

`randomSeed`

Gibt den zufälligen Ausgangswert an. Der Standardwert ist NULL.

`maxSlots`

Maximale Anzahl von Slots, die für Vektorwertspalten zurückgegeben werden sollen (<=0, um alle zurückzugeben).

`mlTransforms`

Gibt eine Liste von MicrosoftML-Transformationen an, die vor dem Training für die Daten erfolgen sollen, oder NULL, wenn keine Transformationen erfolgen sollen. Für unterstützte Transformationen siehe featurizeText, categorical und categoricalHash. Diese Transformationen werden nach allen angegebenen R-Transformationen ausgeführt. Der Standardwert ist NULL.

`mlTransformVars`

Gibt einen Zeichenvektor von Variablennamen an, die in mlTransforms verwendet werden sollen, oder NULL, wenn keine verwendet werden sollen. Standardwert: NULL.

`rowSelection`

Gibt die Zeilen (Beobachtungen) aus dem Dataset an, die vom Modell verwendet werden sollen, mit dem Namen einer logischen Variablen aus dem Dataset (in Anführungszeichen) oder mit einem logischen Ausdruck unter Verwendung von Variablen im Dataset. rowSelection = "old" verwendet z. B. nur Beobachtungen, bei denen TRUE der Wert der Variablen old ist. rowSelection = (age > 20) & (age < 65) & (log(income) > 10) verwendet nur Beobachtungen, bei denen der Wert der Variablen age zwischen 20 und 65 liegt und der Wert von log der Variablen income größer als 10 ist. Die Zeilenauswahl erfolgt nach der Verarbeitung von Datentransformationen (siehe die Argumente transforms oder transformFunc). Wie bei allen Ausdrücken kann rowSelection außerhalb des Funktionsaufrufs mit der expression-Funktion definiert werden.

`transforms`

Ein Ausdruck der Form list(name = expression, ``...), der die erste Runde der Variablentransformationen darstellt. Wie bei allen Ausdrücken kann transforms (oder rowSelection) außerhalb des Funktionsaufrufs mit der expression-Funktion definiert werden. Standardwert: NULL.

`transformObjects`

Eine benannte Liste, die Objekte enthält, auf die mit transforms, transformsFunc und rowSelection verwiesen werden kann. Standardwert: NULL.

`transformFunc`

Die Variablentransformationsfunktionen. Weitere Informationen finden Sie unter „rxTransform“. Standardwert: NULL.

`transformVars`

Ein Zeichenvektor von Eingabedatasetvariablen, die für die Transformationsfunktion erforderlich sind. Weitere Informationen finden Sie unter „rxTransform“. Standardwert: NULL.

`transformPackages`

Ein Zeichenvektor, der zusätzliche R-Pakete (außerhalb der in rxGetOption("transformPackages") angegebenen) angibt, die für die Verwendung in Variablentransformationsfunktionen verfügbar gemacht und im Voraus geladen werden sollen. Zum Beispiel solche, die explizit in RevoScaleR-Funktionen über ihre Argumente transforms und transformFunc definiert sind oder solche, die implizit über ihre Argumente formula oder rowSelection definiert sind. Das Argument transformPackages kann auch NULL lauten, was angibt, dass keine Pakete außerhalb von rxGetOption("transformPackages") im Voraus geladen werden. Standardwert: NULL.

`transformEnvir`

Eine benutzerdefinierte Umgebung, die als übergeordnete Umgebung für alle intern entwickelten Umgebungen dient und für die Transformation von Variablendaten verwendet wird. Falls transformEnvir = NULL, wird stattdessen eine neue „hash“-Umgebung mit der übergeordneten baseenv() verwendet. Der Standardwert ist NULL.

`blocksPerRead`

Gibt die Anzahl der Blöcke an, die für jeden Datenblock gelesen werden, der aus der Datenquelle gelesen wird.

`reportProgress`

Ein ganzzahliger Wert, der die Berichtsebene für den Status der Zeilenverarbeitung angibt:

0: Es wird kein Status gemeldet.
1: Die Anzahl der verarbeiteten Zeilen wird ausgegeben und aktualisiert.
2: Verarbeitete Zeilen und Zeitsteuerungen werden gemeldet.
3: Verarbeitete Zeilen und alle Zeitsteuerungen werden gemeldet.
Der Standardwert ist 1.

`verbose`

Ein ganzzahliger Wert, der die gewünschte Ausgabemenge angibt. Falls 0, erfolgt während der Berechnungen keine ausführliche Ausgabe. Ganzzahlige Werte von 1 bis 4 liefern zunehmend mehr Informationen. Standardwert: 1.

`computeContext`

Legt den Kontext fest, in dem Berechnungen erfolgen, angegeben mit einer gültigen Angabe für RxComputeContext. Derzeit werden lokale und RxInSqlServer-Computekontexte unterstützt.

`...`

Zusätzliche Argumente, die direkt an die Microsoft-Compute-Engine übergeben werden sollen.

Wert

Ein Datenrahmen oder ein RxDataSource-Objekt, das die erstellten Ausgabedaten darstellt.

Autor(en)

Microsoft Corporation Microsoft Technical Support

Weitere Informationen

rxDataStep, rxImport, rxTransform.

Beispiele


 # rxFeaturize basically allows you to access data from the MicrosoftML transforms
 # In this example we'll look at getting the output of the categorical transform

 # Create the data
 categoricalData <- data.frame(
   placesVisited = c(
     "London",
     "Brunei",
     "London",
     "Paris",
     "Seria"
   ),
   stringsAsFactors = FALSE
 )

 # Invoke the categorical transform
 categorized <- rxFeaturize(
   data = categoricalData,
   mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
 )

 # Now let's look at the data
 categorized

Share via