microsoftml.rx_logistic_regression: ロジスティック回帰

Usage

microsoftml.rx_logistic_regression(formula: str,
    data: [revoscalepy.datasource.RxDataSource.RxDataSource,
    pandas.core.frame.DataFrame], method: ['binary',
    'multiClass'] = 'binary', l2_weight: float = 1,
    l1_weight: float = 1, opt_tol: float = 1e-07,
    memory_size: int = 20, init_wts_diameter: float = 0,
    max_iterations: int = 2147483647,
    show_training_stats: bool = False, sgd_init_tol: float = 0,
    train_threads: int = None, dense_optimizer: bool = False,
    normalize: ['No', 'Warn', 'Auto', 'Yes'] = 'Auto',
    ml_transforms: list = None, ml_transform_vars: list = None,
    row_selection: str = None, transforms: dict = None,
    transform_objects: dict = None, transform_function: str = None,
    transform_variables: list = None,
    transform_packages: list = None,
    transform_environment: dict = None, blocks_per_read: int = None,
    report_progress: int = None, verbose: int = 1,
    ensemble: microsoftml.modules.ensemble.EnsembleControl = None,
    compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None)

Description

Machine Learning ロジスティック回帰

詳細

ロジスティック回帰は、カテゴリ依存変数の値を、ロジスティック分布があると見なされる 1 つ以上の独立変数との関係から予測するために使用される分類方法です。従属変数に使用可能な値が 2 つしかない場合 (成功/失敗)、ロジスティック回帰は 2 項です。従属変数に 2 つ以上の可能な値 (血液型の診断テスト結果) がある場合、ロジスティック回帰は多項式です。

rx_logistic_regressionに使用される最適化手法は、制限付きメモリ Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) です。 L-BFGS アルゴリズムと通常の BFGS アルゴリズムの両方で、準ニュートン法を使用して、Newton のメソッドでステップを計算するために使用される数式で計算負荷の高いヘシアン行列を推定します。ただし、L-BFGS 近似では、次のステップの方向を計算するために限られた量のメモリのみが使用されるため、多数の変数の問題に特に適しています。 memory_size パラメーターは、次のステップの計算で使用するために格納する過去の位置とグラデーションの数を指定します。

この学習者は、L1 (なげなわ) と L2 (リッジ) 正則化の線形組み合わせであるエラスティックネット正則化を使用できます。正則化は、データを補完する情報を提供し、極端な係数値でモデルを罰することでオーバーフィットを防ぐ制約を課すことで、不適切な問題をより引き起こしやすい方法です。これにより、バイアス分散のトレードオフで最適な複雑さを選択することで、学習したモデルの一般化を向上させることができます。正則化は、係数値に関連付けられているペナルティを仮説の誤差に追加することによって機能します。極端な係数値を持つ正確なモデルは、より多くの罰を受けますが、より保守的な値を持つより正確でないモデルは、より少なく罰されます。 L1およびL2正則化は、特定の点で補完的である異なる効果および使用を有する。

l1_weight: 高次元データを操作する場合は、スパースモデルに適用できます。これは、0 に対して比較的重要ではない、関連する小さな重み付けフィーチャをプルします。
l2_weight: スパースではないデータに適しています。これは、0 に向かって大きな重みを引っ張ります。

正則化にリッジペナルティを追加すると、なげなわの制限の一部が克服されます。予測変数の数がサンプルサイズより大きい場合など、予測精度を向上させることができます。 x = l1_weight y = l2_weight場合、ax + by = cは正則化項の線形スパンを定義します。 x と y の既定値はどちらも 1。積極的な正則化は、モデルから重要な変数を除外することで予測能力に悪影響を与える可能性があります。したがって、ロジスティック回帰モデルのパフォーマンスには、正則化パラメーターに最適な値を選択することが重要です。

論争

数式

revoscalepy.rx_formula相互作用の用語と F() で説明されている数式は、 microsoftml では現在サポートされていません。

データ

.xdf ファイルまたはデータフレームオブジェクトを指定するデータソースオブジェクトまたは文字列。

メソッド

ロジスティック回帰の種類を指定する文字列: 既定の二項分類ロジスティック回帰の "binary" 、または多項ロジスティック回帰の "multiClass" 。

l2_weight

L2 正則化の重み。その値は 0 以上である必要があり、既定値は 1 に設定されます。

l1_weight

L1 正則化の重み。その値は 0 以上である必要があり、既定値は 1 に設定されます。

opt_tol

オプティマイザーの収束のしきい値。反復間の改善がしきい値より小さい場合、アルゴリズムは停止し、現在のモデルを返します。値が小さいほど遅くなりますが、精度は高くなります。既定値は 1e-07 です。

memory_size

L-BFGS のメモリサイズ。次のステップの計算に格納する過去の位置とグラデーションの数を指定します。この最適化パラメーターは、次の手順の大きさと方向の計算に使用されるメモリの量を制限します。指定するメモリが少ない場合、トレーニングはより速くなりますが、精度は低くなります。 1以上である必要があり、既定値は20。

max_iterations

イテレーションの最大数を設定します。このステップ数の後、アルゴリズムは収束条件を満たしていない場合でも停止します。

show_training_stats

トレーニングデータとトレーニング済みモデルの統計情報を表示する True を指定します。それ以外の場合は False。既定値は False です。モデル統計の詳細については、 summary.ml_model()を参照してください。

sgd_init_tol

確率的勾配降下法 (SGD) を使用して初期パラメーターを検索するには、0 より大きい数値に設定します。 0 以外の値セットは、SGD が収束を決定するために使用する許容値を指定します。既定値は、SGD が使用されないことを指定 0 です。

init_wts_diameter

初期ウェイトの値の描画元の範囲を指定する初期ウェイト直径を設定します。これらの重みは、この範囲内からランダムに初期化されます。たとえば、直径が dに指定されている場合、重みは -d/2 と d/2の間で均一に分散されます。既定値は 0 で、すべての重みが 0に初期化されることを指定します。

train_threads

モデルのトレーニングに使用するスレッドの数。これは、マシン上のコア数に設定する必要があります。 L-BFGS マルチスレッドは、データセットをメモリに読み込もうとすることに注意してください。メモリ不足の問題が発生した場合は、 train_threads を 1 に設定してマルチスレッドをオフにします。 None の場合、使用するスレッドの数は内部的に決定されます。既定値はなしです。

dense_optimizer

True場合は、内部最適化ベクトルを強制的に密度化します。 False場合は、ロジスティック回帰オプティマイザーが適切に検出されたスパースまたは高密度の内部状態を使用できるようにします。 denseOptimizerをTrueに設定するには、内部オプティマイザーが密な内部状態を使用する必要があります。これは、一部の大規模な問題でガベージコレクターの負荷を軽減するのに役立ちます。

正規化

使用する自動正規化の種類を指定します。

"Auto": 正規化が必要な場合は、自動的に実行されます。これが既定の選択肢です。
"No": 正規化は実行されません。
"Yes": 正規化が実行されます。
"Warn": 正規化が必要な場合は、警告メッセージが表示されますが、正規化は実行されません。

正規化では、さまざまなデータ範囲が標準スケールに再スケーリングされます。特徴量スケーリングは、データポイント間の距離が比例することを保証し、勾配降下などのさまざまな最適化方法がはるかに高速に収束できるようにします。正規化を実行する場合は、 MaxMin ノーマライザーが使用されます。間隔 [a, b] で値を正規化します。ここで、 -1 <= a <= 0 と 0 <= b <= 1 と b - a = 1。このノーマライザーは、ゼロをゼロにマッピングすることで、スパーリティを維持します。

ml_transforms

トレーニング前にデータに対して実行する MicrosoftML 変換の一覧を指定します。変換を実行しない場合は None を指定します。サポートされている変換については、「 featurize_text、 categorical、および categorical_hash」を参照してください。これらの変換は、指定した Python 変換の後に実行されます。既定値はなしです。

ml_transform_vars

ml_transformsで使用する変数名の文字ベクトルを指定します。使用しない場合は None を指定します。既定値はなしです。

row_selection

サポートされていません。モデルで使用されるデータセットの行 (観測値) を、データセットの論理変数の名前 (引用符で囲む) またはデータセット内の変数を使用する論理式で指定します。例えば次が挙げられます。

row_selection = "old" では、変数 old の値が Trueされた観測値のみが使用されます。
row_selection = (age > 20) & (age < 65) & (log(income) > 10)は、age変数の値が 20 から 65 の範囲で、income変数のlogの値が 10 より大きい観測値のみを使用します。

行の選択は、データ変換を処理した後に実行されます (引数 transforms または transform_functionを参照)。すべての式と同様に、 row_selection は、 expression 関数を使用して関数呼び出しの外部で定義できます。

変換

サポートされていません。変数変換の最初のラウンドを表すフォームの式。すべての式と同様に、 transforms (または row_selection) は、 expression 関数を使用して関数呼び出しの外部で定義できます。

transform_objects

サポートされていません。 transforms、transform_function、およびrow_selectionで参照できるオブジェクトを含む名前付きリスト。

transform_function

変数変換関数。

transform_variables

変換関数に必要な入力データセット変数の文字ベクトル。

transform_packages

サポートされていません。変数変換関数で使用するために使用可能にし、事前に読み込む追加の Python パッケージ ( RxOptions.get_option("transform_packages")で指定されているものの外部) を指定する文字ベクトル。たとえば、transforms引数とtransform_function引数を使用して revoscalepy 関数で明示的に定義されたものや、formulaまたはrow_selection引数を使用して暗黙的に定義されたものなどです。 transform_packages引数には None を指定することもできます。これは、RxOptions.get_option("transform_packages")外部のパッケージがプリロードされていないことを示します。

transform_environment

サポートされていません。内部で開発され、変数データ変換に使用されるすべての環境の親として機能するユーザー定義環境。 transform_environment = None場合は、代わりに親 revoscalepy.baseenv を持つ新しい "ハッシュ" 環境が使用されます。

blocks_per_read

データソースから読み取られたデータのチャンクごとに読み取るブロックの数を指定します。

report_progress

行処理の進行状況に関するレポートのレベルを指定する整数値。

0: 進行状況は報告されません。
1: 処理された行の数が印刷され、更新されます。
2: 処理された行とタイミングが報告されます。
3: 処理された行とすべてのタイミングが報告されます。

詳細

必要な出力量を指定する整数値。 0場合、計算中に詳細な出力は出力されません。 1から4までの整数値により、情報の量が増えます。

compute_context

有効な revoscalepy で指定された、計算が実行されるコンテキストを設定します。RxComputeContext。現在、ローカルと revoscalepy。RxInSqlServer コンピューティングコンテキストがサポートされています。

アンサンブル

エンレンブリングの制御パラメーター。

返品ポリシー

トレーニング済みモデルを持つ LogisticRegression オブジェクト。

注

このアルゴリズムは、 train_threads > 1 (マルチスレッド) 時にデータセット全体をメモリに読み込もうとします。

こちらも参照ください

rx_predict

References

ウィキペディア: L-BFGS

Wikipedia: ロジスティック回帰

L1-Regularized Log-Linear モデルのスケーラブルなトレーニング

テストの実行 - 機械学習の L1 および L2 の正則化

二項分類の例

'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_logistic_regression, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

infert = get_dataset("infert")


import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)

model = rx_logistic_regression(
    formula=" isCase ~ age + parity + education + spontaneous + induced ",
    data=data_train)

print(model.coef_)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(model, data=data_test,
                     extra_vars_to_write=["isCase", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))

アウトプット：

Automatically adding a MinMax normalization transform, use 'norm=Warn' or 'norm=No' to turn this behavior off.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
LBFGS multi-threading will attempt to load dataset into memory. In case of out-of-memory issues, turn off multi-threading by setting trainThreads to 1.
Beginning optimization
num vars: 6
improvement criterion: Mean Improvement
L1 regularization selected 5 of 6 weights.
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0646405
Elapsed time: 00:00:00.0083991
OrderedDict([('(Bias)', -1.2366217374801636), ('spontaneous', 1.9391206502914429), ('induced', 0.7497404217720032), ('parity', -0.31517016887664795), ('age', -3.162723260174971e-06)])
Beginning processing data.
Rows Read: 62, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0287290
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds 
  isCase PredictedLabel     Score  Probability
0  False          False -1.341681     0.207234
1   True           True  0.597440     0.645070
2  False           True  0.544912     0.632954
3  False          False -1.289152     0.215996
4  False          False -1.019339     0.265156

MultiClass 分類の例

'''
MultiClass Classification
'''
import numpy
import pandas
from microsoftml import rx_logistic_regression, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

iris = get_dataset("iris")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

irisdf = iris.as_df()
irisdf["Species"] = irisdf["Species"].astype("category")
data_train, data_test, y_train, y_test = train_test_split(irisdf, irisdf.Species)

model = rx_logistic_regression(
    formula="  Species ~ Sepal_Length + Sepal_Width + Petal_Length + Petal_Width ",
    method="multiClass",
    data=data_train)

print(model.coef_)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(model, data=data_test,
                     extra_vars_to_write=["Species", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))