データ マイニング モデルの検証
データ マイニング デザイナの [マイニング精度チャート] タブを使用すると、マイニング構造内のマイニング モデルの精度を検証し、予測能力を比較できます。これは、使用する適切なアルゴリズムを選択する場合や、個々のアルゴリズム内のパラメータ調整方法を選択する場合に役立ちます。
検証は、データ マイニング プロセスにおける重要な手順です。実際のデータに対するマイニング モデルの性能を、運用環境に配置する前に理解することは重要です。大規模なデータ マイニング プロセス内でモデルの検証がどのように位置付けられているかについては、「データ マイニングの概念」を参照してください。
検証ツール
[マイニング精度チャート] タブには、マイニング モデルの検証に使用できる次のツールが用意されています。
- リフト チャート
- 分類マトリックス
リフト チャート
リフト チャートは、データセットに存在する予測可能列の既知の値に対して、テスト データセットから得た予測クエリの結果をプロットすることによって作成します。次の図は、この種のチャート例を示しています。
このチャートには、マイニング モデルの結果を表す線の他に、2 本の線が表示されています。1 本は理想的なモデルによって生成された、常に正しい完璧な予測を含む結果を表し、もう 1 本はランダムに予測した結果を表します。モデルの結果は、理想的なモデルとランダムな予測の間に位置します。ランダムな線よりも向上しているものはリフトと呼ばれます。モデルのリフトが大きいほど、効果的なモデルとなります。
連続した予測可能属性から作成されたリフト チャートには、線の代わりに散布図が表示されます。
リフト チャートを実装するには、次のものが必要です。
- 1 つ以上のトレーニング済みのマイニング モデル
- 予測可能列の値を含む入力データセット
- 入力データとマイニング モデルの構造間のマッピング
詳細情報 : 「[マイニング精度チャート] タブについて」、「列マッピング (リフト チャート)」、「リフト チャート」
トップに戻る
分類マトリックス
[分類マトリックス] タブでは、構造内のマイニング モデルによってどのぐらい正確に予測が作成されるかを確認する別の手段が提供されています。分類マトリックスは、テスト データセット内に存在する実際の値とマイニング モデルによって予測される値の比較として作成されます。分類マトリックスは、モデルによって値が正しく予測された頻度だけでなく、モデルによって最も頻繁に誤って予測された値も示されるので、非常に便利なツールです。
たとえば、スーパーの顧客が使用するメンバー カードの種類を予測するために作成したモデルを検討します。カードには、ブロンズ、シルバー、およびゴールドの 3 種類があります。次の表は、メンバー カード値がわかっているテスト データベースでメンバー カード値を予測するモデルの分類マトリックスを示しています。
ブロンズ | シルバー | ゴールド | |
---|---|---|---|
ブロンズ |
実際 |
ブロンズのエラー |
ブロンズのエラー |
シルバー |
シルバーのエラー |
実際 |
シルバーのエラー |
ゴールド |
ゴールドのエラー |
ゴールドのエラー |
実際 |
マトリックスの左上から右下に斜めに配置されている値は、テスト データセット内に実際に存在する値の正しい数を示します。マトリックスの列は、テスト データセットで予測された項目を表します。行は、テスト データセット内に存在する属性の実際の状態を表します。
たとえば、ブロンズのカードを所持する顧客がマイニング モデルによってどのように予測されたかを見てみましょう。ブロンズの列とブロンズの行の交差部分の値は、テスト データベース内のブロンズのカードを所持する顧客の実際の数を表します。シルバーの列とブロンズの行の交差部分の値は、実際はブロンズであるにもかかわらずシルバーと誤って予測されたケースの数を表します。ブロンズとして誤って予測された値の数は、ブロンズの列とシルバーの行が交差する部分と、ブロンズの列とゴールドの行が交差する部分の合計になります。他の種類のカードに対しても同じ分析ができます。
詳細情報 : 「[マイニング精度チャート] タブについて」、「列マッピング (リフト チャート)」、「分類マトリックス」
トップに戻る
参照
概念
データ マイニング ツールの使用
データ マイニングの概念
データ マイニングの操作