rxLogisticRegression: ロジスティック回帰

Machine Learning ロジスティック回帰

使用方法

  rxLogisticRegression(formula = NULL, data, type = c("binary", "multiClass"),
    l2Weight = 1, l1Weight = 1, optTol = 1e-07, memorySize = 20,
    initWtsScale = 0, maxIterations = 2147483647, showTrainingStats = FALSE,
    sgdInitTol = 0, trainThreads = NULL, denseOptimizer = FALSE,
    normalize = "auto", mlTransforms = NULL, mlTransformVars = NULL,
    rowSelection = NULL, transforms = NULL, transformObjects = NULL,
    transformFunc = NULL, transformVars = NULL, transformPackages = NULL,
    transformEnvir = NULL, blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"),
    ensemble = ensembleControl(), ...)

引数

`formula`

rxFormula で記述されている式。現在、相互作用項と F() は MicrosoftML ではサポートされていません。

`data`

.xdf ファイルまたはデータフレームオブジェクトを指定するデータソースオブジェクトまたは文字列。

`type`

ロジスティック回帰の種類を指定する文字列。既定の二項分類ロジスティック回帰の場合は "binary"、多項ロジスティック回帰の場合は "multi"。

`l2Weight`

L2 正則化の重み。値は 0 以上である必要があり、既定値は 1 に設定されています。

`l1Weight`

L1 正則化の重み。値は 0 以上である必要があり、既定値は 1 に設定されています。

`optTol`

オプティマイザーの収束のしきい値。イテレーション間の改善がしきい値を下回った場合に、アルゴリズムが終了して現在のモデルが返されます。値が小さいほど低速ですが、精度は高くなります。既定値は 1e-07 です。

`memorySize`

L-BFGS のメモリサイズ。次のステップの計算用に保存する過去の位置と傾きの数を指定します。この最適化パラメーターによって、次のステップの規模と方向の計算に使用されるメモリ量が制限されます。指定するメモリ量を小さくすると、トレーニングにかかる時間は短縮されますが、正確さが低下します。 1 以上である必要があり、既定値は 20 です。

`initWtsScale`

初期重みの値の範囲を指定する初期の重みの直径を設定します。これらの重みは、この範囲内からランダムに初期化されます。たとえば、直径が d に指定されている場合、重みは -d/2 と d/2 の間で一様に分布します。既定値は 0 で、すべての重みが 0 に初期化されることを指定します。

`maxIterations`

イテレーションの最大数を設定します。この数のステップを実行すると、収束条件を満たしていなくてもアルゴリズムは停止します。

`showTrainingStats`

トレーニングデータの統計とトレーニング済みモデルを表示する場合は TRUE、それ以外の場合は FALSE を指定します。既定値は FALSE です。モデルの統計の詳細については、「summary.mlModel」を参照してください。

`sgdInitTol`

確率的勾配降下法 (SGD) を使用して初期パラメーターを検索する場合は、0 より大きい数値に設定します。 0 以外の値を設定すると、収束を決定するために SGD で使用される許容範囲が指定されます。既定値は 0 であり、SGD を使用しないことを指定します。

`trainThreads`

モデルのトレーニングに使用するスレッドの数。これは、コンピューターのコア数に設定する必要があります。 L-BFGS マルチスレッドでは、データセットをメモリに読み込もうとすることに注意してください。メモリ不足の問題が発生した場合は、trainThreads を 1 に設定してマルチスレッド処理をオフにします。 NULL が指定された場合、使用するスレッドの数は内部的に決定されます。既定値は NULL です。

`denseOptimizer`

TRUE の場合、内部最適化ベクターを強制的に高密度化します。 FALSE の場合、ロジスティック回帰オプティマイザーで適切と見なされたスパースまたは高密度の内部状態を使用できるようにします。 denseOptimizer を TRUE に設定するには、内部オプティマイザーで高密度の内部状態を使用する必要があります。これにより、大きな問題が発生した場合に、ガベージコレクターの負荷を軽減することができます。

`normalize`

使用される自動正規化の種類を指定します。

"auto": 正規化が必要な場合は、自動的に実行されます。既定値です。
"no": 正規化は実行されません。
"yes": 正規化が実行されます。
"warn": 正規化が必要な場合は警告メッセージが表示されますが、正規化は実行されません。
正規化では、異なるデータ範囲が標準スケールに再スケーリングされます。特徴のスケーリングにより、データポイント間の距離が比例し、勾配降下などのさまざまな最適化方法がはるかに高速に収束するようになります。正規化が実行される場合は、MaxMin ノーマライザーが使用されます。区間 [a, b] で値を正規化します。ただし、-1 <= a <= 0 かつ 0 <= b <= 1 かつ b - a = 1 です。このノーマライザーでは、0 から 0 にマッピングすることで、低密度を維持します。

`mlTransforms`

トレーニング前にデータに対して実行する MicrosoftML 変換のリストを指定します。変換を実行しない場合は NULL を指定します。サポートされている変換については、featurizeText、categorical、categoricalHash に関する記事を参照してください。これらの変換は、指定された R 変換の後に実行されます。既定値は NULL です。

`mlTransformVars`

mlTransforms で使用する変数名の文字ベクトルを指定します。変数を使用しない場合は NULL を指定します。既定値は NULL です。

`rowSelection`

モデルで使用されるデータセットの行 (観測値) を、データセットの論理変数の名前 (引用符で囲む) またはデータセット内の変数を使用する論理式で指定します。たとえば、rowSelection = "old" の場合は、変数 old の値が TRUE である観測値のみを使用します。 rowSelection = (age > 20) & (age < 65) & (log(income) > 10) の場合は、変数 age の値が 20 から 65 の間で、変数 income の log の値が 10 を超える観測値のみを使用します。行の選択は、データ変換を処理した後に実行されます (引数 transforms または transformFunc を参照してください)。すべての式と同様に、rowSelection は、expression 関数を使用して関数呼び出しの外部で定義できます。

`transforms`

変数変換の最初のラウンドを表す、list(name = expression, ``...) という形式の式。すべての式と同様に、transforms (または rowSelection) は、expression 関数を使用して関数呼び出しの外部で定義できます。

`transformObjects`

transforms、transformsFunc、rowSelection で参照できるオブジェクトを含む名前付きリスト。

`transformFunc`

変数変換関数。詳細については、「rxTransform」を参照してください。

`transformVars`

変換関数に必要な入力データセット変数の文字ベクトル。詳細については、「rxTransform」を参照してください。

`transformPackages`

変数変換関数で使用するために事前に読み込まれる追加の R パッケージ (rxGetOption("transformPackages") で指定されているもの以外) を指定する文字ベクトル。たとえば、transforms および transformFunc 引数を使用して RevoScaleR 関数で明示的に定義されているものや、formula または rowSelection 引数を使用して暗黙的に定義されているものなどです。引数 transformPackages には NULL を指定することもできます。これは、rxGetOption("transformPackages") 以外のパッケージを事前に読み込まないことを示します。

`transformEnvir`

内部で開発され、変数データ変換に使用される、すべての環境の親として機能するユーザー定義環境。 transformEnvir = NULL の場合は、baseenv() を親とする新しい "ハッシュ" 環境が代わりに使用されます。

`blocksPerRead`

データソースから読み取るデータのチャンクごとに、読み取るブロックの数を指定します。

`reportProgress`

行処理の進行状況に関するレポートのレベルを指定する整数値。

0: 進行状況はレポートされません。
1: 処理された行の数が出力され、更新されます。
2: 処理された行とタイミングがレポートされます。
3: 処理された行とすべてのタイミングがレポートされます。

`verbose`

必要な出力の量を指定する整数値。 0 の場合、計算中に詳細は出力されません。 1 から 4 の整数値を指定すると、情報の量が増えます。

`computeContext`

有効な RxComputeContext で指定されている、計算が実行されるコンテキストを設定します。現在は、ローカルと RxInSqlServer コンピューティングコンテキストがサポートされています。

`ensemble`

アンサンブルの制御パラメーター。

`...`

Microsoft コンピューティングエンジンに直接渡される追加の引数。

説明

ロジスティック回帰は、ロジスティック分布を持つと見なされる 1 つ以上の独立変数とのリレーションシップから、カテゴリ従属変数の値を予測するために使用される分類方法です。従属変数に有効な値が 2 つしかない場合 (成功/失敗)、ロジスティック回帰は二項です。従属変数に 3 つ以上の値が含まれている場合 (血液型診断テストの結果)、ロジスティック回帰は多項です。

rxLogisticRegression で使用される最適化手法は、限定メモリ Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) です。 L-BFGS アルゴリズムと通常の BFGS アルゴリズムでは、どちらも準ニュートン法を使用して、ステップを計算するためにニュートン法で使用される式の中で計算量の多いヘッセ行列を推定します。ただし、L-BFGS 近似では、限られた量のメモリのみを使用して次のステップ方向を計算します。これにより、多数の変数に関する問題に特に適しています。 memorySize パラメーターでは、次のステップの計算で使用するために保存する過去の位置と傾きの数を指定します。

この学習器では、L1 (なげなわ) と L2 (ねじ山) の正則化の線形組み合わせであるエラスティックネット型の正則化を使用できます。正則化とは、データを補完するための情報を提供する制約を課すことで、不適切に表現された問題を扱いやすく表示でき、極端な係数の値を備えるモデルにペナルティを与えることでオーバーフィットを防止する手法です。これにより、バイアスと変位のトレードオフに最適な複雑さを選択して、学習したモデルの一般化を向上させることができます。正則化は、仮説の誤りに対し、係数値に関連付けられているペナルティを加算することによって機能します。極端な係数の値を持った正確なモデルにはより大きなペナルティが与えられる一方、相対的に値が控えめで正確でないモデルに与えられるペナルティは小さくなります。 L1 と L2 の正則化には、特定の点で補完的に使用されるさまざまな効果と用途があります。

l1Weight: 高次元のデータを扱う際に、疎なモデルに適用できます。比較的重要ではない特徴に関連する小さな重みを 0 に引き寄せます。

l2Weight: スパースでないデータに適しています。大きな重みを 0 に引き寄せます。

ねじ山のペナルティを正則化に追加すると、いくらかのなげなわの
制限が解消されます。たとえば予測子の数がサンプルサイズを超える場合などに、予測精度を向上させることができます。 x = l1Weight かつ y = l2Weight である場合、正則化項の線形包が ax + by = c で定義されます。 x と y の既定値は両方とも 1 です。積極的な正則化では、モデルから重要な変数を除外することで予測能力に悪影響を与える可能性があります。そのため、ロジスティック回帰モデルのパフォーマンスを向上させるために、正則化パラメーターに最適な値を選択することが重要です。

値

rxLogisticRegression: トレーニング済みモデルが格納されている rxLogisticRegression オブジェクト。

LogisticReg: ロジスティック回帰トレーナーに対する maml クラスの学習器仕様オブジェクト。

メモ

このアルゴリズムでは、trainThreads > 1 (マルチスレッド) の場合、データセット全体をメモリに読み込もうとします。

作成者

Microsoft Corporation Microsoft Technical Support

リファレンス

Wikipedia: L-BFGS

regression

Training of L1-Regularized Log-Linear Models

and L2 Regularization for Machine Learning

こちらもご覧ください

rxFastTrees、rxFastForest、rxFastLinear、rxNeuralNet、rxOneClassSvm、featurizeText、categorical、categoricalHash、rxPredict.mlModel。

使用例


 # Estimate a logistic regression model
 logitModel <- rxLogisticRegression(isCase ~ age + parity + education + spontaneous + induced,
                   transforms = list(isCase = case == 1),
                   data = infert)
 # Print a summary of the model
 summary(logitModel)

 # Score to a data frame
 scoreDF <- rxPredict(logitModel, data = infert, 
     extraVarsToWrite = "isCase")

 # Compute and plot the Radio Operator Curve and AUC
 roc1 <- rxRoc(actualVarName = "isCase", predVarNames = "Probability", data = scoreDF) 
 plot(roc1)
 rxAuc(roc1)

 #######################################################################################
 # Multi-class logistic regression  
 testObs <- rnorm(nrow(iris)) > 0
 testIris <- iris[testObs,]
 trainIris <- iris[!testObs,]
 multiLogit <- rxLogisticRegression(
     formula = Species~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width,
     type = "multiClass", data = trainIris)

 # Score the model
 scoreMultiDF <- rxPredict(multiLogit, data = testIris, 
     extraVarsToWrite = "Species")    
 # Print the first rows of the data frame with scores
 head(scoreMultiDF)
 # Look at confusion matrix
 table(scoreMultiDF$Species, scoreMultiDF$PredictedLabel)

 # Look at the observations with incorrect predictions
 badPrediction = scoreMultiDF$Species != scoreMultiDF$PredictedLabel
 scoreMultiDF[badPrediction,]

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-01-02

rxLogisticRegression: ロジスティック回帰

使用方法

引数

formula

data

type

l2Weight

l1Weight

optTol

memorySize

initWtsScale

maxIterations

showTrainingStats

sgdInitTol

trainThreads

denseOptimizer

normalize

mlTransforms

mlTransformVars

rowSelection

transforms

transformObjects

transformFunc

transformVars

transformPackages

transformEnvir

blocksPerRead

reportProgress

verbose

computeContext

ensemble

...

説明

値

メモ

作成者