microsoftml.rx_fast_trees: Boosted Trees
Verwendung
microsoftml.rx_fast_trees(formula: str,
data: [revoscalepy.datasource.RxDataSource.RxDataSource,
pandas.core.frame.DataFrame], method: ['binary',
'regression'] = 'binary', num_trees: int = 100,
num_leaves: int = 20, learning_rate: float = 0.2,
min_split: int = 10, example_fraction: float = 0.7,
feature_fraction: float = 1, split_fraction: float = 1,
num_bins: int = 255, first_use_penalty: float = 0,
gain_conf_level: float = 0, unbalanced_sets: bool = False,
train_threads: int = 8, random_seed: int = None,
ml_transforms: list = None, ml_transform_vars: list = None,
row_selection: str = None, transforms: dict = None,
transform_objects: dict = None, transform_function: str = None,
transform_variables: list = None,
transform_packages: list = None,
transform_environment: dict = None, blocks_per_read: int = None,
report_progress: int = None, verbose: int = 1,
ensemble: microsoftml.modules.ensemble.EnsembleControl = None,
compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None)
BESCHREIBUNG
Machine Learning: Fast Tree
Details
rx_fast_trees ist eine Implementierung von FastRank. FastRank ist eine effiziente Implementierung des Gradient Boosting-Algorithmus MART. Gradient Boosting ist ein Machine Learning-Verfahren für Regressionsprobleme. Dabei wird jeder Regressionsbaum schrittweise aufgebaut, wobei eine vordefinierte Verlustfunktion verwendet wird, um den Fehler für jeden Schritt zu messen und ihn im nächsten Schritt zu korrigieren. Daher ist dieses Vorhersagemodell tatsächlich ein Ensemble schwächerer Vorhersagemodelle. Bei Regressionsproblemen dient Verstärkung dazu, eine Reihe solcher Bäume schrittweise zu erstellen. Anschließend wird der optimale Baum mithilfe einer beliebig differenzierbaren Verlustfunktion ausgewählt.
MART lernt ein Ensemble von Regressionsbäumen, d. h. einen Entscheidungsbaum mit skalaren Werten in seinen Blättern. Ein Entscheidungs- (bzw. Regressionsbaum) ist ein binäres baumartiges Flussdiagramm, bei dem an jedem inneren Knoten auf Grundlage eines der Featurewerte aus der Eingabe entschieden wird, mit welchem der beiden untergeordneten Knoten es weitergeht. Bei jedem Blattknoten wird ein Wert zurückgegeben. Bei den inneren Knoten basiert die Entscheidung auf dem Test "x <= v"
, wobei x
der Wert des Merkmals in der Eingabestichprobe und v
einer der möglichen Werte dieses Merkmals ist. Die Funktionen, die mit einer Regressionsstruktur erstellt werden können, sind alle stückweise Konstantenfunktionen.
Ein Ensemble von Bäumen wird erstellt, indem bei jedem Schritt ein Regressionsbaum berechnet wird, der eine Annäherung des Gradienten der Verlustfunktion erzeugt. Anschließend wird er zusammen mit Koeffizienten, die den Verlust des neuen Baums minimieren, dem vorherigen Baum hinzugefügt. Die von MART für eine bestimmte Instanz erzeugte Ausgabe des Ensembles ist die Summe der Ausgaben aller Bäume.
Bei einem binären Klassifizierungsproblem wird die Ausgabe mithilfe einer Art Kalibrierung in Wahrscheinlichkeit konvertiert.
Bei einem Regressionsproblem entspricht die Ausgabe dem vorhergesagten Wert der Funktion.
Bei einem Rangfolgeproblem sind die Instanzen nach dem Ausgabewert des Ensembles geordnet.
Wenn method
auf "regression"
festgelegt ist, wird eine Regressionsversion von FastTree verwendet. Bei Festlegung auf "ranking"
wird eine Rangfolgeversion von FastTree verwendet. Im Rangfolgefall müssen die Instanzen nach der Ausgabe des Strukturensembles sortiert werden. Der einzige Unterschied bei diesen Versionen sind die Kalibrierungseinstellungen, die nur zur Klassifizierung benötigt werden.
Argumente
Formel
Die Formel, wie in „revoscalepy.rx_formula“ beschrieben.
Interaktionsterme und F()
werden derzeit in microsoftml nicht unterstützt.
data
Ein Datenquellenobjekt oder eine Zeichenfolge, die eine .xdf-Datei oder ein Datenrahmenobjekt angibt.
Methode
Eine Zeichenfolge, die den Fast Tree-Typ angibt: "binary"
für die standardmäßige binäre Fast Tree-Klassifizierung oder "regression"
für Fast Tree-Regression.
num_trees
Gibt die Gesamtzahl der Entscheidungsbäume an, die im Ensemble erstellt werden sollen. Wenn Sie mehr Entscheidungsbäume erstellen, erhalten Sie möglicherweise eine bessere Abdeckung, wobei sich die Trainingszeit jedoch verlängert. Der Standardwert ist 100.
num_leaves
Die maximale Anzahl von Blättern (Endknoten) an, die in einem Baum erstellt werden können. Höhere Werte können zwar den Baum vergrößern und die Genauigkeit verbessern, bergen aber das Risiko einer Überanpassung und erfordern längere Trainingszeiten. Der Standardwert lautet 20.
learning_rate
Bestimmt die Größe des Schritts in Richtung des Gradienten in jedem Schritt des Lernprozesses. Dieser Wert bestimmt, wie schnell oder langsam das Lernmodul zur optimalen Lösung konvergiert. Ist die Schrittgröße zu groß, wird die optimale Lösung u. U. verfehlt. Wenn die Schrittweite zu klein ist, dauert es länger, bis das Training zur besten Lösung konvergiert.
min_split
Mindestanzahl von Trainingsinstanzen an, die für die Erstellung eines Blatts erforderlich sind. Das heißt, die minimale Anzahl von Dokumenten, die in einem Blatt eines Regressionsbaums aus den Daten mit untergeordneten Stichproben zulässig sind. Eine „Aufteilung“ bedeutet, dass Features auf jeder Ebene des Baums (Knotens) zufällig aufgeteilt werden. Der Standardwert ist 10. Nur die Anzahl der Instanzen wird gezählt, auch wenn Instanzen gewichtet sind.
example_fraction
Der Anteil zufällig gewählter Instanzen, die für jeden Baum verwendet werden sollen. Der Standardwert ist 0,7.
feature_fraction
Der Anteil zufällig gewählter Features, die für jeden Baum verwendet werden sollen. Der Standardwert ist 1.
split_fraction
Der Anteil zufällig gewählter Features, die für jede Aufteilung verwendet werden sollen. Der Standardwert ist 1.
num_bins
Maximale Anzahl unterschiedlicher Werte (Bins) pro Feature. Wenn das Feature weniger Werte als die angegebene Anzahl hat, wird jeder Wert in einem eigenen Bin abgelegt. Wenn weitere Werte vorhanden sind, erstellt der Algorithmus numBins
Bins.
first_use_penalty
Das Feature verwendet zuerst den Strafkoeffizienten. Dabei handelt es sich um eine Form der Regularisierung, bei der die Verwendung eines neuen Features bei der Erstellung des Baums mit einem Strafterm versehen wird. Erhöhen Sie diesen Wert, um Bäume zu erstellen, die nicht viele Features verwenden. Der Standardwert ist 0.
gain_conf_level
Konfidenzanforderung für die Baumanpassung (muss im Bereich [0,1] liegen). Der Standardwert ist 0.
unbalanced_sets
Falls True
, werden für unausgewogene Datasets optimierte Ableitungen verwendet. Gilt nur, wenn type
gleich "binary"
ist.
Der Standardwert ist False
.
train_threads
Die Anzahl der Threads zum Trainieren des Modells. Der Standardwert ist 8.
random_seed
Gibt den zufälligen Ausgangswert an. Der Standardwert ist None.
ml_transforms
Gibt eine Liste von MicrosoftML-Transformationen an, die vor dem Training für die Daten erfolgen sollen, oder None, wenn keine Transformationen erfolgen sollen. Unter featurize_text
, categorical
und categorical_hash
finden Sie unterstützte Transformationen.
Diese Transformationen werden nach allen angegebenen Python-Transformationen ausgeführt.
Der Standardwert ist None.
ml_transform_vars
Gibt einen Zeichenvektor von Variablennamen an, die in ml_transforms
verwendet werden sollen, oder None, wenn keine verwendet werden sollen.
Der Standardwert ist None.
row_selection
Nicht unterstützt. Gibt die Zeilen (Beobachtungen) aus dem Dataset an, die vom Modell verwendet werden sollen, mit dem Namen einer logischen Variablen aus dem Dataset (in Anführungszeichen) oder mit einem logischen Ausdruck unter Verwendung von Variablen im Dataset. Beispiel:
row_selection = "old"
verwendet nur Beobachtungen, bei denenTrue
der Wert der Variablenold
ist.row_selection = (age > 20) & (age < 65) & (log(income) > 10)
verwendet nur Beobachtungen, bei denen der Wert der Variablenage
zwischen 20 und 65 liegt und der Wert vonlog
der Variablenincome
größer als 10 ist.
Die Zeilenauswahl erfolgt nach der Verarbeitung von Datentransformationen (siehe die Argumente transforms
oder transform_function
). Wie bei allen Ausdrücken kann row_selection
außerhalb des Funktionsaufrufs mit der Funktion expression
definiert werden.
Transformationen
Nicht unterstützt. Ein Ausdruck der Form, die die erste Runde der Variablentransformationen darstellt. Wie bei allen Ausdrücken kann transforms
(oder row_selection
) außerhalb des Funktionsaufrufs mit der Funktion expression
definiert werden.
transform_objects
Nicht unterstützt. Eine benannte Liste, die Objekte enthält, auf die mit transforms
, transform_function
und row_selection
verwiesen werden kann.
transform_function
Die Variablentransformationsfunktionen.
transform_variables
Ein Zeichenvektor von Eingabedatasetvariablen, die für die Transformationsfunktion erforderlich sind.
transform_packages
Nicht unterstützt. Ein Zeichenvektor, der zusätzliche Python-Pakete (außerhalb der in RxOptions.get_option("transform_packages")
angegebenen) angibt, die für die Verwendung in Variablentransformationsfunktionen verfügbar gemacht und im Voraus geladen werden sollen.
Zum Beispiel solche, die explizit in revoscalepy-Funktionen über ihre Argumente transforms
und transform_function
definiert sind oder solche, die implizit über ihre Argumente formula
oder row_selection
definiert sind. Das Argument transform_packages
kann auch None lauten, was angibt, dass keine Pakete außerhalb von RxOptions.get_option("transform_packages")
im Voraus geladen werden.
transform_environment
Nicht unterstützt. Eine benutzerdefinierte Umgebung, die als übergeordnete Umgebung für alle intern entwickelten Umgebungen dient und für die Transformation von Variablendaten verwendet wird.
Falls transform_environment = None
, wird stattdessen eine neue „hash“-Umgebung mit der übergeordneten „revoscalepy.baseenv“ verwendet.
blocks_per_read
Gibt die Anzahl der Blöcke an, die für jeden Datenblock gelesen werden, der aus der Datenquelle gelesen wird.
report_progress
Ein ganzzahliger Wert, der die Berichtsebene für den Status der Zeilenverarbeitung angibt:
0
: Es wird kein Status gemeldet.1
: Die Anzahl der verarbeiteten Zeilen wird ausgegeben und aktualisiert.2
: Verarbeitete Zeilen und Zeitsteuerungen werden gemeldet.3
: Verarbeitete Zeilen und alle Zeitsteuerungen werden gemeldet.
Ausführlich
Ein ganzzahliger Wert, der die gewünschte Ausgabemenge angibt.
Falls 0
, erfolgt während der Berechnungen keine ausführliche Ausgabe. Ganzzahlige Werte von 1
bis 4
liefern zunehmend mehr Informationen.
compute_context
Legt den Kontext fest, in dem Berechnungen erfolgen, angegeben mit einer gültigen Angabe für revoscalepy.RxComputeContext. Derzeit werden lokale und revoscalepy.RxInSqlServer-Computekontexte unterstützt.
ensemble
Steuerungsparameter für die Bildung von Ensembles.
Gibt zurück
Ein FastTrees
-Objekt mit dem trainierten Modell.
Hinweis
Dieser Algorithmus ist ein Multithread-Algorithmus, der immer versucht, das gesamte Dataset in den Arbeitsspeicher zu laden.
Siehe auch
Referenzen
Wikipedia: Gradient Boosting (Gradient Tree Boosting)
Greedy Function Approximation: A Gradient Boosting Machine
Beispiel für binäre Klassifizierung
'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset
infert = get_dataset("infert")
import sklearn
if sklearn.__version__ < "0.18":
from sklearn.cross_validation import train_test_split
else:
from sklearn.model_selection import train_test_split
infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)
trees_model = rx_fast_trees(
formula=" isCase ~ age + parity + education + spontaneous + induced ",
data=data_train)
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(trees_model, data=data_test,
extra_vars_to_write=["isCase", "Score"])
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))
Ausgabe:
Not adding a normalizer.
Making per-feature arrays
Changing data from row-wise to column-wise
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Processed 186 instances
Binning and forming Feature objects
Reserved memory for tree learner: 7020 bytes
Starting to train ...
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0949161
Elapsed time: 00:00:00.0112103
Beginning processing data.
Rows Read: 62, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0230457
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds
isCase PredictedLabel Score Probability
0 False False -4.722279 0.131369
1 False False -11.550012 0.009757
2 False False -7.312314 0.050935
3 True True 3.889991 0.825778
4 False False -6.361800 0.072782
Regressionsbeispiel
'''
Regression.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset
airquality = get_dataset("airquality")
import sklearn
if sklearn.__version__ < "0.18":
from sklearn.cross_validation import train_test_split
else:
from sklearn.model_selection import train_test_split
airquality = airquality.as_df()
######################################################################
# Estimate a regression fast forest
# Use the built-in data set 'airquality' to create test and train data
df = airquality[airquality.Ozone.notnull()]
df["Ozone"] = df.Ozone.astype(float)
data_train, data_test, y_train, y_test = train_test_split(df, df.Ozone)
airFormula = " Ozone ~ Solar_R + Wind + Temp "
# Regression Fast Forest for train data
ff_reg = rx_fast_trees(airFormula, method="regression", data=data_train)
# Put score and model variables in data frame
score_df = rx_predict(ff_reg, data=data_test, write_model_vars=True)
print(score_df.head())
# Plot actual versus predicted values with smoothed line
# Supported in the next version.
# rx_line_plot(" Score ~ Ozone ", type=["p", "smooth"], data=score_df)
Ausgabe:
'unbalanced_sets' ignored for method 'regression'
Not adding a normalizer.
Making per-feature arrays
Changing data from row-wise to column-wise
Beginning processing data.
Rows Read: 87, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Warning: Skipped 4 instances with missing features during training
Processed 83 instances
Binning and forming Feature objects
Reserved memory for tree learner: 21528 bytes
Starting to train ...
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0512720
Elapsed time: 00:00:00.0094435
Beginning processing data.
Rows Read: 29, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0229873
Finished writing 29 rows.
Writing completed.
Solar_R Wind Temp Score
0 115.0 7.4 76.0 26.003876
1 307.0 12.0 66.0 18.057747
2 230.0 10.9 75.0 10.896211
3 259.0 9.7 73.0 13.726607
4 92.0 15.5 84.0 37.972855