microsoftml.rx_fast_trees: ブーストツリー

Usage

microsoftml.rx_fast_trees(formula: str,
    data: [revoscalepy.datasource.RxDataSource.RxDataSource,
    pandas.core.frame.DataFrame], method: ['binary',
    'regression'] = 'binary', num_trees: int = 100,
    num_leaves: int = 20, learning_rate: float = 0.2,
    min_split: int = 10, example_fraction: float = 0.7,
    feature_fraction: float = 1, split_fraction: float = 1,
    num_bins: int = 255, first_use_penalty: float = 0,
    gain_conf_level: float = 0, unbalanced_sets: bool = False,
    train_threads: int = 8, random_seed: int = None,
    ml_transforms: list = None, ml_transform_vars: list = None,
    row_selection: str = None, transforms: dict = None,
    transform_objects: dict = None, transform_function: str = None,
    transform_variables: list = None,
    transform_packages: list = None,
    transform_environment: dict = None, blocks_per_read: int = None,
    report_progress: int = None, verbose: int = 1,
    ensemble: microsoftml.modules.ensemble.EnsembleControl = None,
    compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None)

Description

Machine Learning の高速ツリー

詳細

rx_fast_treesは FastRank の実装です。 FastRank は、MART 勾配ブースティングアルゴリズムの効率的な実装です。勾配ブースティングは、回帰問題の機械学習手法です。各回帰ツリーを段階的に構築し、定義済みの損失関数を使用して各ステップのエラーを測定し、次のステップで修正します。したがって、この予測モデルは、実際には弱い予測モデルのアンサンブルです。回帰問題では、ブーストによって一連のツリーが段階的に構築され、任意の異なる損失関数を使用して最適なツリーが選択されます。

MART は回帰ツリーのアンサンブルを学習します。これは、葉にスカラー値を含むデシジョンツリーです。デシジョン (回帰) ツリーは、バイナリツリーに似たフローチャートです。各内部ノードでは、入力の特徴値の 1 つに基づいて、2 つの子ノードのうちどれを続行するかを決定します。各リーフノードで、値が返されます。内部ノードでは、決定はテスト "x <= v"に基づいて行われます。ここで、 x は入力サンプル内のフィーチャの値であり、 v はこのフィーチャの使用可能な値の 1 つです。回帰ツリーによって生成できる関数は、すべて段階的な定数関数です。

ツリーのアンサンブルは、各ステップで、損失関数の勾配を近似する回帰ツリーを計算し、新しいツリーの損失を最小限に抑える係数を持つ前のツリーに追加することによって生成されます。特定のインスタンスで MART によって生成されるアンサンブルの出力は、ツリー出力の合計です。

二項分類の問題が発生した場合、出力は何らかの形式の調整を使用して確率に変換されます。
回帰の問題が発生した場合、出力は関数の予測値です。
ランク付けの問題が発生した場合、インスタンスはアンサンブルの出力値で並べ替えられます。

methodが "regression" に設定されている場合は、回帰バージョンの FastTree が使用されます。 "ranking"に設定すると、FastTree のランク付けバージョンが使用されます。ランク付けの場合、インスタンスはツリーアンサンブルの出力順に並べ替える必要があります。これらのバージョンの設定の唯一の違いは、分類にのみ必要な調整設定です。

論争

数式

revoscalepy.rx_formulaに記載されている数式。相互作用の用語と F() は、 microsoftml では現在サポートされていません。

データ

.xdf ファイルまたはデータフレームオブジェクトを指定するデータソースオブジェクトまたは文字列。

メソッド

高速ツリーの種類を指定する文字列: 既定の高速ツリー二項分類の "binary" 、または高速ツリー回帰の "regression" 。

num_trees

アンサンブルで作成するデシジョンツリーの合計数を指定します。より多くのデシジョンツリーを作成することで、より適切なカバレッジを得ることができますが、トレーニング時間は長くなります。既定値は 100 です。

num_leaves

任意のツリーに作成できるリーフ (ターミナルノード) の最大数。値を大きくすると、ツリーのサイズが大きくなり、精度が向上する可能性がありますが、オーバーフィットするリスクがあり、トレーニング時間が長くなる可能性があります。既定値は 20 です。

学習率

学習プロセスの各ステップでグラデーションの方向に実行されるステップのサイズを決定します。これにより、学習者が最適なソリューションに収束する速度または速度が決まります。ステップサイズが大きすぎる場合は、最適なソリューションをオーバーシュートする可能性があります。ステップサイズが小さすぎると、最適なソリューションに収束するためにトレーニングに時間がかかります。

min_split

リーフを形成するために必要なトレーニングインスタンスの最小数。つまり、サブサンプリングされたデータから、回帰ツリーのリーフで許可されるドキュメントの最小数です。 "分割" とは、ツリー (ノード) の各レベルの特徴がランダムに分割されることを意味します。既定値は 10 です。インスタンスが重み付けされている場合でも、インスタンスの数のみがカウントされます。

example_fraction

各ツリーに使用するランダムに選択されたインスタンスの割合。既定値は 0.7 です。

feature_fraction

各ツリーに使用するランダムに選択された特徴の割合。既定値は 1 です。

split_fraction

各分割で使用するランダムに選択された特徴の割合。既定値は 1 です。

num_bins

機能ごとの個別の値 (ビン) の最大数。フィーチャーの値が示された数より少ない場合、各値は独自のビンに配置されます。値が多い場合は、アルゴリズムによってビン numBins 作成されます。

first_use_penalty

この特徴は、最初にペナルティ係数を使用します。これは正則化の一種であり、ツリーの作成時に新しい機能を使用するとペナルティが発生します。この値を大きくすると、多くの機能を使用しないツリーが作成されます。既定値は 0 です。

gain_conf_level

ツリーフィッティングゲイン信頼要件(範囲[0,1)である必要があります)。既定値は 0 です。

unbalanced_sets

True場合は、不均衡なセット用に最適化された派生物が使用されます。 type "binary"と等しい場合にのみ適用されます。既定値は False です。

train_threads

トレーニングで使用するスレッドの数。既定値は 8 です。

random_seed

ランダムシードを指定します。既定値はなしです。

ml_transforms

トレーニング前にデータに対して実行する MicrosoftML 変換の一覧を指定します。変換を実行しない場合は None を指定します。サポートされている変換については、「 featurize_text、 categorical、および categorical_hash」を参照してください。これらの変換は、指定した Python 変換の後に実行されます。既定値はなしです。

ml_transform_vars

ml_transformsで使用する変数名の文字ベクトルを指定します。使用しない場合は None を指定します。既定値はなしです。

row_selection

サポートされていません。モデルで使用されるデータセットの行 (観測値) を、データセットの論理変数の名前 (引用符で囲む) またはデータセット内の変数を使用する論理式で指定します。例えば次が挙げられます。

row_selection = "old" では、変数 old の値が Trueされた観測値のみが使用されます。
row_selection = (age > 20) & (age < 65) & (log(income) > 10)は、age変数の値が 20 から 65 の範囲で、income変数のlogの値が 10 より大きい観測値のみを使用します。

行の選択は、データ変換を処理した後に実行されます (引数 transforms または transform_functionを参照)。すべての式と同様に、 row_selection は、 expression 関数を使用して関数呼び出しの外部で定義できます。

変換

サポートされていません。変数変換の最初のラウンドを表すフォームの式。すべての式と同様に、 transforms (または row_selection) は、 expression 関数を使用して関数呼び出しの外部で定義できます。

transform_objects

サポートされていません。 transforms、transform_function、およびrow_selectionで参照できるオブジェクトを含む名前付きリスト。

transform_function

変数変換関数。

transform_variables

変換関数に必要な入力データセット変数の文字ベクトル。

transform_packages

サポートされていません。変数変換関数で使用するために使用可能にし、事前に読み込む追加の Python パッケージ ( RxOptions.get_option("transform_packages")で指定されているものの外部) を指定する文字ベクトル。たとえば、transforms引数とtransform_function引数を使用して revoscalepy 関数で明示的に定義されたものや、formulaまたはrow_selection引数を使用して暗黙的に定義されたものなどです。 transform_packages引数には None を指定することもできます。これは、RxOptions.get_option("transform_packages")外部のパッケージがプリロードされていないことを示します。

transform_environment

サポートされていません。内部で開発され、変数データ変換に使用されるすべての環境の親として機能するユーザー定義環境。 transform_environment = None場合は、代わりに親 revoscalepy.baseenv を持つ新しい "ハッシュ" 環境が使用されます。

blocks_per_read

データソースから読み取られたデータのチャンクごとに読み取るブロックの数を指定します。

report_progress

行処理の進行状況に関するレポートのレベルを指定する整数値。

0: 進行状況は報告されません。
1: 処理された行の数が印刷され、更新されます。
2: 処理された行とタイミングが報告されます。
3: 処理された行とすべてのタイミングが報告されます。

詳細

必要な出力量を指定する整数値。 0場合、計算中に詳細な出力は出力されません。 1から4までの整数値により、情報の量が増えます。

compute_context

有効な revoscalepy で指定された、計算が実行されるコンテキストを設定します。RxComputeContext。現在、ローカルと revoscalepy。RxInSqlServer コンピューティングコンテキストがサポートされています。

アンサンブル

エンレンブリングの制御パラメーター。

返品ポリシー

トレーニング済みモデルを持つ FastTrees オブジェクト。

注

このアルゴリズムはマルチスレッドであり、常にデータセット全体をメモリに読み込もうとします。

こちらも参照ください

rx_fast_forest、rx_predict

References

Wikipedia: 勾配ブースティング (グラデーションツリーブースティング)

最長一致関数の近似: 勾配ブースティングマシン。

二項分類の例

'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

infert = get_dataset("infert")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)

trees_model = rx_fast_trees(
    formula=" isCase ~ age + parity + education + spontaneous + induced ",
    data=data_train)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(trees_model, data=data_test,
                     extra_vars_to_write=["isCase", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))

アウトプット：

Not adding a normalizer.
Making per-feature arrays
Changing data from row-wise to column-wise
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Processed 186 instances
Binning and forming Feature objects
Reserved memory for tree learner: 7020 bytes
Starting to train ...
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0949161
Elapsed time: 00:00:00.0112103
Beginning processing data.
Rows Read: 62, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0230457
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds 
  isCase PredictedLabel      Score  Probability
0  False          False  -4.722279     0.131369
1  False          False -11.550012     0.009757
2  False          False  -7.312314     0.050935
3   True           True   3.889991     0.825778
4  False          False  -6.361800     0.072782

回帰の例

'''
Regression.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

airquality = get_dataset("airquality")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

airquality = airquality.as_df()


######################################################################
# Estimate a regression fast forest
# Use the built-in data set 'airquality' to create test and train data

df = airquality[airquality.Ozone.notnull()]
df["Ozone"] = df.Ozone.astype(float)

data_train, data_test, y_train, y_test = train_test_split(df, df.Ozone)

airFormula = " Ozone ~ Solar_R + Wind + Temp "

# Regression Fast Forest for train data
ff_reg = rx_fast_trees(airFormula, method="regression", data=data_train)

# Put score and model variables in data frame
score_df = rx_predict(ff_reg, data=data_test, write_model_vars=True)
print(score_df.head())

# Plot actual versus predicted values with smoothed line
# Supported in the next version.
# rx_line_plot(" Score ~ Ozone ", type=["p", "smooth"], data=score_df)