データマイニングモデルの検証

2008-12-15

データマイニングデザイナの [マイニング精度チャート] タブを使用すると、マイニング構造内のマイニングモデルの精度を検証し、予測能力を比較できます。これは、使用する適切なアルゴリズムを選択する場合や、個々のアルゴリズム内のパラメータ調整方法を選択する場合に役立ちます。

検証は、データマイニングプロセスにおける重要な手順です。実際のデータに対するマイニングモデルの性能を、運用環境に配置する前に理解することは重要です。大規模なデータマイニングプロセス内でモデルの検証がどのように位置付けられているかについては、「データマイニングの概念」を参照してください。

検証ツール

[マイニング精度チャート] タブには、マイニングモデルの検証に使用できる次のツールが用意されています。

リフトチャート
分類マトリックス

リフトチャート

リフトチャートは、データセットに存在する予測可能列の既知の値に対して、テストデータセットから得た予測クエリの結果をプロットすることによって作成します。次の図は、この種のチャート例を示しています。

ターゲット母集合と全体母集合のリフトチャート

このチャートには、マイニングモデルの結果を表す線の他に、2 本の線が表示されています。1 本は理想的なモデルによって生成された、常に正しい完璧な予測を含む結果を表し、もう 1 本はランダムに予測した結果を表します。モデルの結果は、理想的なモデルとランダムな予測の間に位置します。ランダムな線よりも向上しているものはリフトと呼ばれます。モデルのリフトが大きいほど、効果的なモデルとなります。

連続した予測可能属性から作成されたリフトチャートには、線の代わりに散布図が表示されます。

リフトチャートを実装するには、次のものが必要です。

1 つ以上のトレーニング済みのマイニングモデル
予測可能列の値を含む入力データセット
入力データとマイニングモデルの構造間のマッピング

詳細情報 : 「[マイニング精度チャート] タブについて」、「列マッピング (リフトチャート)」、「リフトチャート」

トップに戻る

分類マトリックス

[分類マトリックス] タブでは、構造内のマイニングモデルによってどのぐらい正確に予測が作成されるかを確認する別の手段が提供されています。分類マトリックスは、テストデータセット内に存在する実際の値とマイニングモデルによって予測される値の比較として作成されます。分類マトリックスは、モデルによって値が正しく予測された頻度だけでなく、モデルによって最も頻繁に誤って予測された値も示されるので、非常に便利なツールです。

たとえば、スーパーの顧客が使用するメンバーカードの種類を予測するために作成したモデルを検討します。カードには、ブロンズ、シルバー、およびゴールドの 3 種類があります。次の表は、メンバーカード値がわかっているテストデータベースでメンバーカード値を予測するモデルの分類マトリックスを示しています。

	ブロンズ	シルバー	ゴールド
ブロンズ	実際	ブロンズのエラー	ブロンズのエラー
シルバー	シルバーのエラー	実際	シルバーのエラー
ゴールド	ゴールドのエラー	ゴールドのエラー	実際

マトリックスの左上から右下に斜めに配置されている値は、テストデータセット内に実際に存在する値の正しい数を示します。マトリックスの列は、テストデータセットで予測された項目を表します。行は、テストデータセット内に存在する属性の実際の状態を表します。

たとえば、ブロンズのカードを所持する顧客がマイニングモデルによってどのように予測されたかを見てみましょう。ブロンズの列とブロンズの行の交差部分の値は、テストデータベース内のブロンズのカードを所持する顧客の実際の数を表します。シルバーの列とブロンズの行の交差部分の値は、実際はブロンズであるにもかかわらずシルバーと誤って予測されたケースの数を表します。ブロンズとして誤って予測された値の数は、ブロンズの列とシルバーの行が交差する部分と、ブロンズの列とゴールドの行が交差する部分の合計になります。他の種類のカードに対しても同じ分析ができます。

詳細情報 : 「[マイニング精度チャート] タブについて」、「列マッピング (リフトチャート)」、「分類マトリックス」

トップに戻る

参照

次の方法で共有

データ マイニング モデルの検証

検証ツール

リフト チャート

分類マトリックス

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

データマイニングモデルの検証

リフトチャート