分類マトリックス (Analysis Services - データ マイニング)
データ マイニング デザイナの [マイニング精度チャート] タブの [分類マトリックス] タブには、[入力の選択] タブで指定した各モデルのマトリックスが表示されます。このチャートを見ると、モデルの予測が正しかった頻度がすぐにわかります。このチャートは、混同行列とも呼ばれます。
各マトリックスの行はモデルの予測値を表し、列は実際の値を表します。分類マトリックスは、すべてのケースを、予測値が実際の値と一致したかどうか、および予測値が正しかったかどうかによってカテゴリに分類して作成されます。これらのカテゴリは、偽陽性、真陽性、偽陰性、および真陰性と呼ばれる場合もあります。各カテゴリのすべてのケースがカウントされ、合計がマトリックスに表示されます。
ここでは、分類マトリックスを作成する方法と、その結果を解釈する方法について説明します。
注 |
---|
分類マトリックスは、不連続の予測可能な属性でのみ使用できます。 |
シナリオ
「基本的なデータ マイニング チュートリアル」で作成したモデルを例に考えてみましょう。ターゲット メーリング キャンペーンの作成に使用される TM_DecisionTree モデルを使用すると、自転車を購入する可能性が最も高いのはどの顧客かを予測することができます。顧客が自転車を購入しそうな場合は、[Bike Buyer] 列の値が 1 になります。購入しそうにない場合は、[Bike Buyer] 列の値が 0 になります。
このモデルの予測が有効かどうかを評価するには、[Bike Buyer] の値が既にわかっているデータセットに対してモデルをテストします。通常は、モデルのトレーニングに使用するマイニング構造を作成したときに確保しておいたテスト データセットを使用します。そのデータには既に実際の結果が含まれているので、予期された値をモデルが予測した回数をすばやく調べることができます。
分類マトリックスについて
次の表は、TM_DecisionTree モデルの分類マトリックスを作成した場合の結果を示しています。この例では、予測可能な属性が取りうる値は 0 と 1 の 2 つしかないので、モデルが正しく予測する頻度を非常に簡単に調べることができます。
予測された値 |
0 (実際の値) |
1 (実際の値) |
---|---|---|
0 |
362 |
144 |
1 |
121 |
373 |
値 362 を含む最初の結果セルは、値 0 に対する真陽性の数を表します。値 0 は顧客が自転車を購入しなかったことを表すため、この統計から、モデルが 362 のケースで、自転車を購入しない顧客について正しい値を予測したことがわかります。
その下の、値 121 を含むセルは、偽陽性の数 (実際には自転車を購入しなかった顧客について購入するとモデルが予測した回数) を表します。
値 144 を含むセルは、値 1 に対する偽陽性の数を表します。値 1 は顧客が自転車を購入したことを表すため、この統計から、モデルが 144 のケースで、実際には自転車を購入した顧客について購入しないと予測したことがわかります。
最後の、値 373 を含むセルは、対象の値 1 に対する真陽性の数を表します。つまり、モデルが 373 のケースで、自転車を購入する顧客を正しく予測したことになります。
対角線上にあるセルの値を合計すると、モデルの全体的な精度を調べることができます。一方の対角線からは正しい予測の合計数が、もう一方の対角線からは間違った予測の合計数がわかります。
複数の予測可能な値の使用
[Bike Buyer] のケースは、取りうる値が 2 つしかないため、特に解釈が簡単です。予測可能な属性が取りうる値が複数ある場合、分類マトリックスでは、取りうる値が増えるたびに実際の値の列が追加され、予測された各値が一致した数がカウントされます。次の表は、3 つの値 (0、1、2) を取る別のモデルの結果を示しています。
予測された値 |
0 (実際の値) |
1 (実際の値) |
2 (実際の値) |
---|---|---|---|
0 |
111 |
3 |
5 |
1 |
2 |
123 |
17 |
2 |
19 |
0 |
20 |
列が増えたためにレポートが複雑に見えますが、この追加の詳細が、間違った予測のコストを評価する際に非常に役立つ場合もあります。対角線上のセルの合計を計算したり、さまざまな行の組み合わせの結果を比較したりする際には、[分類マトリックス] タブの [コピー] ボタンをクリックして、レポートを Excel に貼り付けることができます。また、SQL Server 2005 と SQL Server 2008 の両方をサポートする Excel 用データ マイニング クライアントなどのクライアントを使用して、回数と割合の両方を含む分類レポートを直接 Excel で作成することもできます。詳細については、「SQL Server データ マイニング」を参照してください。
分類マトリックスの作成
分類マトリックスを作成する場合は、次の基本的な手順を実行します。
データ マイニング デザイナの [マイニング精度チャート] で、[入力の選択] タブをクリックします。
[入力の選択] タブで、評価するモデルを選択します。
予測可能な属性を指定し、必要に応じて予測可能な値を指定します。
評価に使用するデータセットを選択します。
[分類マトリックス] タブをクリックすると、分類マトリックス形式のレポートが自動的に生成されます。
すべてのグラフの種類に当てはまる詳しい手順については、「マイニング モデルの精度チャートを作成する方法」を参照してください。
「基本的なデータ マイニング チュートリアル」には、Targeted Mailing モデルのリフト チャートの作成方法に関するチュートリアルも含まれています。詳細については、「リフト チャートを使用した精度テスト (基本的なデータ マイニング チュートリアル)」を参照してください。