Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス

適用対象: SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

データマイニングは SQL Server 2017 Analysis Services で非推奨となり、現在は SQL Server 2022 Analysis Services で廃止されました。非推奨および廃止された機能については、ドキュメントは更新されません。詳細については、「 Analysis Services の下位互換性」を参照してください。

Microsoft ロジスティック回帰アルゴリズムは、 HIDDEN_NODE_RATIO パラメーターが 0 に設定されている Microsoft ニューラルネットワークアルゴリズムのバリエーションです。この設定により、隠れ層を含まないニューラルネットワークモデルが作成されるため、ロジスティック回帰に相当します。

Microsoft ロジスティック回帰アルゴリズムの実装

予測可能列に含まれる状態は 2 つだけですが、入力列を予測可能列に特定の状態が含まれる確率に関連付けて、回帰分析を実行する必要があるとします。次の図は、予測可能な列の状態に 1 と 0 を割り当て、列に特定の状態が含まれる確率を計算し、入力変数に対して線形回帰を実行した場合に得る結果を示しています。

線形回帰を使用して不十分にモデル化されたデータ

x 軸には、入力列の値が含まれています。 y 軸には、予測可能な列が一方の状態になる確率が含まれます。この問題は、線形回帰では、列の最大値と最小値であっても、列が 0 から 1 の間に制限されないことです。この問題を解決する方法は、ロジスティック回帰を実行することです。ロジスティック回帰分析では、直線を作成する代わりに、最大制約と最小制約を含む "S" 形状の曲線が作成されます。たとえば、次の図は、前の例で使用したのと同じデータに対してロジスティック回帰を実行した場合に得る結果を示しています。

ロジスティック回帰を使用してモデル化されたデータロジスティック回帰

曲線が 1 以上 0 未満になることはありません。ロジスティック回帰を使用して、予測可能列の状態を決定する際に重要な入力列を記述できます。

特徴選択

特徴選択は、分析を改善し、処理負荷を軽減するために、すべての Analysis Services データマイニングアルゴリズムによって自動的に使用されます。ロジスティック回帰モデルの特徴選択に使用される方法は、属性のデータ型によって異なります。ロジスティック回帰は Microsoft ニューラルネットワークアルゴリズムに基づいているため、ニューラルネットワークに適用される特徴選択方法のサブセットを使用します。詳細については、「機能の選択 (データマイニング)」を参照してください。

スコア付け入力

ニューラルネットワークモデルまたはロジスティック回帰モデルのコンテキストでのスコア付けとは、データに存在する値を同じスケールを使用する値のセットに変換するプロセスを意味し、したがって相互に比較できます。たとえば、Income の入力の範囲が 0 から 100,000 であるのに対し、[子の数] の入力は 0 から 5 の範囲だとします。この変換プロセスでは、値の違いに関係なく、各入力の重要度を比較できます。

トレーニングセットに表示される状態ごとに、モデルによって入力が生成されます。不連続または分離された入力の場合、不足状態がトレーニングセットに少なくとも 1 回出現する場合は、不足状態を表す追加の入力が作成されます。連続入力の場合は、最大で 2 つの入力ノードが作成されます。トレーニングデータに存在する場合は欠損値用に 1 つ、既存の値または null 以外のすべての値に対して 1 つの入力が作成されます。各入力は、z スコア正規化方法 ( (x - μ)\StdDev) を使用して数値形式にスケーリングされます。

z スコアの正規化中に、平均 (μ) と標準偏差がトレーニングセット全体にわたって取得されます。

連続値

値が存在する: (X - μ)/σ (X はエンコードされる実際の値)

値が存在しない: - μ/σ (負の mu を σ で除算)

不連続値

μ = p (状態の以前の確率)

StdDev = sqrt(p\(1-p))

値が存在する: \(1 - μ)/σ (1 - μ をシグマで除算)

値が存在しない: (- μ)/σ (負の mu を σ で除算)

ロジスティック回帰係数について

ロジスティック回帰を実行するための統計文献にはさまざまな方法がありますが、すべての方法の重要な部分は、モデルの適合を評価することです。確率比と共変量パターンの中で、さまざまな適合度の統計が提案されています。モデルの適合度を測定する方法については、このトピックでは説明しません。ただし、モデル内の係数の値を取得し、それらを使用して独自の適合度を設計できます。

注

ロジスティック回帰モデルの一部として作成される係数は、オッズ比を表すのではなく、そのように解釈しないでください。

モデルグラフ内の各ノードの係数は、そのノードへの入力の加重合計を表します。ロジスティック回帰モデルでは、非表示レイヤーは空です。したがって、出力ノードに格納される係数のセットは 1 つだけです。次のクエリを使用して、係数の値を取得できます。

SELECT FLATTENED [NODE_UNIQUE NAME],  
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE  
FROM NODE_DISTRIBUTION) AS t  
FROM <model name>.CONTENT  
WHERE NODE_TYPE = 23

出力値ごとに、このクエリは係数と、関連する入力ノードを指す ID を返します。また、出力の値と切片を含む行も返します。各入力 X には独自の係数 (Ci) がありますが、入れ子になったテーブルには、次の式に従って計算される "free" 係数 (Co) も含まれています。

F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0

活性化： exp(F(X)) / (1 + exp(F(X)) )

詳細については、「ロジスティック回帰モデルクエリの例」を参照してください。

ロジスティック回帰アルゴリズムのカスタマイズ

Microsoft ロジスティック回帰アルゴリズムでは、結果として得られるマイニングモデルの動作、パフォーマンス、精度に影響を与えるいくつかのパラメーターがサポートされています。入力として使用される列にモデリングフラグを設定することで、モデルの動作を変更することもできます。

アルゴリズムパラメーターの設定

次の表では、Microsoft ロジスティック回帰アルゴリズムで使用できるパラメーターについて説明します。

HOLDOUT_PERCENTAGE
ホールドアウトエラーの計算に使用されるトレーニングデータ内のケースの割合を指定します。 HOLDOUT_PERCENTAGEは、マイニングモデルのトレーニング中に停止条件の一部として使用されます。

既定値は 30 です。

HOLDOUT_SEED
ホールドアウトデータをランダムに決定するときに擬似ランダムジェネレーターのシード処理に使用する数値を指定します。 HOLDOUT_SEEDが 0 に設定されている場合、アルゴリズムはマイニングモデルの名前に基づいてシードを生成し、再処理中にモデルのコンテンツが同じままであることを保証します。

既定値は 0 です。

MAXIMUM_INPUT_ATTRIBUTES
アルゴリズムが機能選択を呼び出す前に処理できる入力属性の数を定義します。機能の選択をオフにするには、この値を 0 に設定します。

既定値は 255 です。

最大出力属性
アルゴリズムが機能選択を呼び出す前に処理できる出力属性の数を定義します。機能の選択をオフにするには、この値を 0 に設定します。

既定値は 255 です。

MAXIMUM_STATES
アルゴリズムがサポートする属性状態の最大数を指定します。属性に含まれる状態の数が状態の最大数を超える場合、アルゴリズムは属性の最も一般的な状態を使用し、残りの状態を無視します。

既定値は、100 です。

SAMPLE_SIZE
モデルのトレーニングに使用するケースの数を指定します。アルゴリズムプロバイダーは、この数またはHOLDOUT_PERCENTAGE パラメーターで指定された保留率に含まれていないケースの合計数のうち、どちらか小さい方の値を使用します。

つまり、HOLDOUT_PERCENTAGEが 30 に設定されている場合、アルゴリズムでは、このパラメーターの値、またはケースの合計数の 70% に等しい値のいずれか小さい方が使用されます。

既定値は 10000 です。

モデリングフラグ

次のモデリングフラグは、Microsoft ロジスティック回帰アルゴリズムで使用するためにサポートされています。

非NULL
列に null を含めることができないことを示します。モデルのトレーニング中に Analysis Services で null が検出された場合、エラーが発生します。

マイニング構造列に適用されます。

MODEL_EXISTENCE_ONLY
列は、2 つの状態 ( Missing と Existing) として扱われることを意味します。 null は欠損値です。

マイニングモデル列に適用されます。

Requirements

ロジスティック回帰モデルには、キー列、入力列、および予測可能な列が少なくとも 1 つ含まれている必要があります。

入力列と予測可能列

Microsoft ロジスティック回帰アルゴリズムでは、次の表に示す特定の入力列コンテンツタイプ、予測可能な列コンテンツタイプ、モデリングフラグがサポートされています。マイニングモデルで使用する場合のコンテンツタイプの意味の詳細については、「コンテンツタイプ (データマイニング)」を参照してください。

コラム	コンテンツの種類
入力属性	連続的、離散的、離散化、キー、テーブル
予測可能な属性	連続、離散、離散化

こちらもご覧ください

Microsoft ロジスティック回帰アルゴリズム
 線形回帰モデルクエリの例
 ロジスティック回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)
Microsoft ニューラルネットワークアルゴリズム

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-03