Microsoft ロジスティック回帰アルゴリズムは、 HIDDEN_NODE_RATIO パラメーターが 0 に設定されている Microsoft ニューラル ネットワーク アルゴリズムのバリエーションです。 この設定により、隠れ層を含まないニューラル ネットワーク モデルが作成されるため、ロジスティック回帰に相当します。
Microsoft ロジスティック回帰アルゴリズムの実装
予測可能列に含まれる状態は 2 つだけですが、入力列を予測可能列に特定の状態が含まれる確率に関連付けて、回帰分析を実行する必要があるとします。 次の図は、予測可能な列の状態に 1 と 0 を割り当て、列に特定の状態が含まれる確率を計算し、入力変数に対して線形回帰を実行した場合に得る結果を示しています。
x 軸には、入力列の値が含まれています。 y 軸には、予測可能な列が一方の状態になる確率が含まれます。 この問題は、線形回帰では、列の最大値と最小値であっても、列が 0 から 1 の間に制限されないことです。 この問題を解決する方法は、ロジスティック回帰を実行することです。 ロジスティック回帰分析では、直線を作成する代わりに、最大制約と最小制約を含む "S" 形状の曲線が作成されます。 たとえば、次の図は、前の例で使用したのと同じデータに対してロジスティック回帰を実行した場合に得る結果を示しています。
曲線が 1 以上 0 未満になることはありません。 ロジスティック回帰を使用して、予測可能列の状態を決定する際に重要な入力列を記述できます。
特徴選択
特徴選択は、分析を改善し、処理負荷を軽減するために、すべての Analysis Services データ マイニング アルゴリズムによって自動的に使用されます。 ロジスティック回帰モデルの特徴選択に使用される方法は、属性のデータ型によって異なります。 ロジスティック回帰は Microsoft ニューラル ネットワーク アルゴリズムに基づいているため、ニューラル ネットワークに適用される特徴選択方法のサブセットを使用します。 詳細については、「 機能の選択 (データ マイニング)」を参照してください。
スコア付け入力
ニューラル ネットワーク モデルまたはロジスティック回帰モデルのコンテキストでのスコア付けとは、データに存在する値を同じスケールを使用する値のセットに変換するプロセスを意味し、したがって相互に比較できます。 たとえば、Income の入力の範囲が 0 から 100,000 であるのに対し、[子の数] の入力は 0 から 5 の範囲だとします。 この変換プロセスを使用すると、値の違いに関係なく、各入力の重要度を スコア付けしたり比較したりできます。
トレーニング セットに表示される状態ごとに、モデルによって入力が生成されます。 不連続または分離された入力の場合、不足状態がトレーニング セットに少なくとも 1 回出現する場合は、不足状態を表す追加の入力が作成されます。 連続入力の場合は、最大で 2 つの入力ノードが作成されます。トレーニング データに存在する場合は欠損値用に 1 つ、既存の値または null 以外のすべての値に対して 1 つの入力が作成されます。 各入力は、z スコア正規化メソッド (x - μ)/StdDev を使用して数値形式にスケーリングされます。
z スコアの正規化中に、平均 (μ) と標準偏差がトレーニング セット全体にわたって取得されます。
連続値
値が存在する: (X - μ)/σ // X はエンコードされる実際の値です)
値が存在しない: - μ/σ // 負の mu をシグマで除算)
不連続値
μ = p - (状態の以前の確率)
StdDev = sqrt(p(1-p))
値が存在します: (1 - μ)/σ(1からμを引いて、それをσで割る)
値が存在しない: (- μ)/σ// 負の mu をシグマで除算)
ロジスティック回帰係数について
ロジスティック回帰を実行するための統計文献にはさまざまな方法がありますが、すべての方法の重要な部分は、モデルの適合を評価することです。 確率比と共変量パターンの中で、さまざまな適合度の統計が提案されています。 モデルの適合度を測定する方法については、このトピックでは説明しません。ただし、モデル内の係数の値を取得し、それらを使用して独自の適合度を設計できます。
注
ロジスティック回帰モデルの一部として作成される係数は、オッズ比を表すのではなく、そのように解釈しないでください。
モデル グラフ内の各ノードの係数は、そのノードへの入力の加重合計を表します。 ロジスティック回帰モデルでは、非表示レイヤーは空です。したがって、出力ノードに格納される係数のセットは 1 つだけです。 次のクエリを使用して、係数の値を取得できます。
SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23
出力値ごとに、このクエリは係数と、関連する入力ノードを指す ID を返します。 また、出力の値と切片を含む行も返します。 各入力 X には独自の係数 (Ci) がありますが、入れ子になったテーブルには、次の式に従って計算される "free" 係数 (Co) も含まれています。
F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0
アクティブ化: exp(F(X)) / (1 + exp(F(X)) )
詳細については、「 ロジスティック回帰モデルクエリの例」を参照してください。
ロジスティック回帰アルゴリズムのカスタマイズ
Microsoft ロジスティック回帰アルゴリズムでは、結果として得られるマイニング モデルの動作、パフォーマンス、精度に影響を与えるいくつかのパラメーターがサポートされています。 入力として使用される列にモデリング フラグを設定することで、モデルの動作を変更することもできます。
アルゴリズム パラメーターの設定
次の表では、Microsoft ロジスティック回帰アルゴリズムで使用できるパラメーターについて説明します。
HOLDOUT_PERCENTAGE ホールドアウト エラーの計算に使用されるトレーニング データ内のケースの割合を指定します。 HOLDOUT_PERCENTAGEは、マイニング モデルのトレーニング中に停止条件の一部として使用されます。
既定値は 30 です。
HOLDOUT_SEED ホールドアウト データをランダムに決定するときに擬似ランダム ジェネレーターのシード処理に使用する数値を指定します。 HOLDOUT_SEEDが 0 に設定されている場合、アルゴリズムはマイニング モデルの名前に基づいてシードを生成し、再処理中にモデルのコンテンツが同じままであることを保証します。
既定値は 0 です。
MAXIMUM_INPUT_ATTRIBUTES 特徴選択を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。 機能の選択をオフにするには、この値を 0 に設定します。
既定値は 255 です。
MAXIMUM_OUTPUT_ATTRIBUTES 特徴選択を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。 機能の選択をオフにするには、この値を 0 に設定します。
既定値は 255 です。
MAXIMUM_STATES アルゴリズムがサポートする属性状態の最大数を指定します。 属性に含まれる状態の数が状態の最大数を超える場合、アルゴリズムは属性の最も一般的な状態を使用し、残りの状態を無視します。
既定値は、100 です。
SAMPLE_SIZE モデルのトレーニングに使用するケースの数を指定します。 アルゴリズム プロバイダーは、この数またはHOLDOUT_PERCENTAGE パラメーターで指定された保留率に含まれていないケースの合計数のうち、どちらか小さい方の値を使用します。
つまり、HOLDOUT_PERCENTAGEが 30 に設定されている場合、アルゴリズムでは、このパラメーターの値、またはケースの合計数の 70% に等しい値のいずれか小さい方が使用されます。
既定値は 10000 です。
モデルフラグ
次のモデリング フラグは、Microsoft ロジスティック回帰アルゴリズムで使用するためにサポートされています。
NOT NULL 列に null を含めることができないことを示します。 モデルのトレーニング中に Analysis Services で null が検出された場合、エラーが発生します。
マイニング構造列に適用されます。
MODEL_EXISTENCE_ONLY列は、 Missing と Existingの 2 つの状態を持つものとして扱われることを意味します。 null は欠損値です。
マイニング モデル列に適用されます。
要求事項
ロジスティック回帰モデルには、キー列、入力列、および予測可能な列が少なくとも 1 つ含まれている必要があります。
入力列と予測可能列
Microsoft ロジスティック回帰アルゴリズムでは、次の表に示す特定の入力列コンテンツ タイプ、予測可能な列コンテンツ タイプ、モデリング フラグがサポートされています。 マイニング モデルで使用する場合のコンテンツ タイプの意味の詳細については、「 コンテンツ タイプ (データ マイニング)」を参照してください。
| コラム | コンテンツの種類 |
|---|---|
| 入力属性 | 連続、離散、離散化、キー、テーブル |
| 予測可能な属性 | 連続、離散、離散化 |
こちらもご覧ください
Microsoft ロジスティック回帰アルゴリズム線形回帰モデル クエリの例ロジスティック回帰モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)Microsoft ニューラル ネットワーク アルゴリズム