Microsoft Naive Bayes アルゴリズムテクニカルリファレンス

Microsoft Naive Bayes アルゴリズムは、予測モデリングで使用するために Microsoft SQL Server Analysis Services によって提供される分類アルゴリズムです。アルゴリズムは、入力列と予測可能列の間の条件付き確率を計算し、列が独立していることを前提としています。この独立の前提は、Naive Bayes という名前につながります。

Microsoft Naive Bayes アルゴリズムの実装

このアルゴリズムは、他の Microsoft アルゴリズムよりも計算量が少ないため、入力列と予測可能な列の間のリレーションシップを検出するマイニングモデルをすばやく生成する場合に便利です。このアルゴリズムでは、入力属性値と出力属性値の各ペアが考慮されます。

ベイズ定理の数学的特性の説明は、このドキュメントの範囲外です。詳細については、「ラーニングベイジアンネットワーク: 知識と統計データの組み合わせ」というタイトルの Microsoft Research の論文を参照してください。

すべてのモデルの確率が潜在的な欠損値を考慮するように調整される方法の詳細については、「欠損値 (Analysis Services - データマイニング)」を参照してください。

特徴選択

Microsoft Naive Bayes アルゴリズムは、モデルの構築時に考慮される値の数を制限するために、自動機能選択を実行します。詳細については、「機能の選択 (データマイニング)」を参照してください。

アルゴリズム	分析方法	コメント
ナイーブ・ベイズ	シャノンのエントロピーベイジアンと K2 Prior ベイジアン・ディリッチレット（一様な事前分布、デフォルト）	Naive Bayes は、不連続属性または分離属性のみを受け入れます。したがって、興味深さのスコアを使用することはできません。

このアルゴリズムは、処理時間を最小限に抑え、最も重要な属性を効率的に選択するように設計されています。ただし、次のようにパラメーターを設定することで、アルゴリズムで使用されるデータを制御できます。

入力として使用される値を制限するには、MAXIMUM_INPUT_ATTRIBUTESの値を小さくします。
モデルによって分析される属性の数を制限するには、MAXIMUM_OUTPUT_ATTRIBUTESの値を小さくします。
1 つの属性で考慮できる値の数を制限するには、MINIMUM_STATESの値を小さくします。

Naive Bayes アルゴリズムのカスタマイズ

Microsoft Naive Bayes アルゴリズムでは、結果として得られるマイニングモデルの動作、パフォーマンス、精度に影響を与えるいくつかのパラメーターがサポートされています。また、モデル列にモデリングフラグを設定してデータの処理方法を制御したり、マイニング構造にフラグを設定して欠損値や null の処理方法を指定したりすることもできます。

アルゴリズムパラメーターの設定

Microsoft Naive Bayes アルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスと精度に影響を与えるいくつかのパラメーターがサポートされています。次の表では、各パラメーターについて説明します。

入力属性の最大値
アルゴリズムが機能選択を呼び出す前に処理できる入力属性の最大数を指定します。この値を 0 に設定すると、入力属性の機能の選択が無効になります。

既定値は 255 です。

MAXIMUM_OUTPUT_ATTRIBUTES
アルゴリズムが機能選択を呼び出す前に処理できる出力属性の最大数を指定します。この値を 0 に設定すると、出力属性の機能の選択が無効になります。

既定値は 255 です。

最小依存確率
入力属性と出力属性の間の依存関係の最小確率を指定します。この値は、アルゴリズムによって生成されるコンテンツのサイズを制限するために使用されます。このプロパティは 0 から 1 に設定できます。値を大きくすると、モデルのコンテンツ内の属性の数が減ります。

既定値は 0.5 です。

MAXIMUM_STATES
アルゴリズムがサポートする属性状態の最大数を指定します。属性に含まれる状態の数が状態の最大数を超える場合、アルゴリズムでは属性の最も一般的な状態が使用され、残りの状態は欠落として扱われます。

既定値は、100 です。

モデルフラグ

Microsoft デシジョンツリーアルゴリズムでは、次のモデリングフラグがサポートされています。マイニング構造またはマイニングモデルを作成するときは、モデリングフラグを定義して、分析中に各列の値を処理する方法を指定します。詳細については、「モデリングフラグ (データマイニング)」を参照してください。

モデリングフラッグ	説明
モデル存在のみ	列は、欠落している状態と存在している状態の2つの可能性があるものとして扱われることを意味します。 null は欠損値です。マイニングモデル列に適用されます。
NULLなし	列に null を含めることができないことを示します。モデルのトレーニング中に Analysis Services で null が検出された場合、エラーが発生します。マイニング構造列に適用されます。

要求事項

Naive Bayes ツリーモデルには、キー列、少なくとも 1 つの予測可能な属性、および少なくとも 1 つの入力属性が含まれている必要があります。連続する属性はありません。データに連続する数値データが含まれている場合は、無視または分離されます。

入力列と予測可能列

Microsoft Naive Bayes アルゴリズムでは、次の表に示す特定の入力列と予測可能な列がサポートされています。マイニングモデルで使用する場合のコンテンツタイプの意味の詳細については、「コンテンツタイプ (データマイニング)」を参照してください。

コラム	コンテンツの種類
入力属性	循環、不連続、分離、キー、テーブル、および順序付け
予測可能な属性	循環、不連続、分離、テーブル、および順序付け

注

循環コンテンツタイプと順序付けコンテンツタイプはサポートされていますが、アルゴリズムでは個別の値として扱われ、特別な処理は実行されません。

こちらもご覧ください

Microsoft Naive Bayes アルゴリズム
 Naive Bayes モデルクエリの例
 ナイーブベイズモデルの分析モデル内容（Analysis Services - データマイニング）

Last updated on 2017-06-13