データ マイニング リボンの [精度グラフ] ボタン
精度チャートを使用すると、新しいデータ セットにモデルを適用し、モデルのパフォーマンスを評価できます。 このウィザードによって作成される精度グラフは リフト チャートです。これは、データ マイニング モデルの精度を測定するために頻繁に使用されるグラフの一種です。 この種類の精度グラフには、ランダムな予測と比較して、指定されたデータ マイニング モデルを使用して得られた改善点と、予測の 100% が正確な理想的なケースがグラフィカルに表示されます。 1 つのグラフ内で複数のモデルを比較できます。
例
Adventure Works Cycles のマーケティング部門が、対象を絞ったメーリング キャンペーンを作成する場合を考えてみましょう。 過去のキャンペーンでは、10% の応答率が一般的であることがわかっています。 データベースのテーブルに 10,000 人の潜在的な顧客が格納されているリストがあります。 一般的な応答率に基づいて、1,000 人の顧客が応答することを期待できます。
ただし、広告を 5,000 人の顧客にのみメールで送信できるため、マーケティング部門はマイニング モデルを使用して、応答する可能性が最も高い 5,000 人の顧客をターゲットにしています。
会社が 5,000 人の顧客をランダムに選択した場合、通常、対象となるユーザーの 10% のみが応答するため、肯定的な回答は 500 件しか受け取りません。 このシナリオは、リフト チャート内のランダムな線が表すものです。
ただし、マーケティング部門がマイニング モデルを使用してメーリングをターゲットにし、モデルが完璧な場合は、モデルによって推奨される 1,000 人の潜在顧客に広告を郵送することで、1,000 件の回答を受け取る可能性があります。 このシナリオは、リフト チャートの理想的な線で表されます。
精度チャート ウィザードの使用
精度チャートを作成するには、既存のデータ マイニング構造を参照する必要があります。 同じものを予測する限り、その構造に基づく複数のモデルの精度を測定できます。
使用可能な構造体がわからない場合は、サーバーを参照できます。 詳細については、「 Excel でのモデルの参照 (SQL Server データ マイニング アドイン)」を参照してください。
精度チャートを作成するには
[ データ マイニング クライアント ] リボンをクリックします。
[ 精度と検証 ] グループで、[ 精度グラフ] をクリックします。
[ 構造またはモデルの選択 ] ダイアログ ボックスで、評価するモデルを選択します。 [次へ] をクリックします。
注
テストするデータと密接に一致するモデルを選択する必要があります。
[ 予測する列と予測する値の指定 ] ダイアログ ボックスで、予測する列と、必要に応じてターゲット値を選択します。 [次へ] をクリックします。
たとえば、上記の例では、顧客の応答をモデル化する列を選択し、ターゲット値を "おそらく購入する" と指定します。
注
連続値を予測することはできません。 ただし、値を個別の範囲に分離することで、列を分離できます。 データ マイニング モデルを作成する前に、これを行う必要があります。
[ ソース データの選択 ] ダイアログ ボックスで、予測を作成するためにモデルを通過するデータのソースを指定します。
モデルに格納されているテスト データではなく、データの外部ソースを使用している場合は、[ リレーションシップの指定 ] ダイアログ ボックスで、新しいソース データの列をデータ マイニング モデルで使用される列にマップします。
列名が似ている場合は、ウィザードによって自動的にマップされます。 入力データの一部の列は分析とは無関係で無視できますが、データ マイニング モデルで入力を処理するために必要な列もあります。 このような列には、トランザクション ID、ターゲット値、または予測に使用される列が含まれる場合があります。 必要な列をマップできない場合、ウィザードによって警告メッセージが表示されます。
[完了] をクリックします。
ウィザードでは、リフト チャートと基になるデータを含むレポートが作成されます。
要求事項
不連続値を予測する場合は、予測するターゲット値を選択する必要があります。 たとえば、データが応答 "はい: 購入" を 1 に、応答 "No: Do Not Buy" を 2 に分類する場合、予測値として 1 または 2 を指定する必要があります。 ただし、値の範囲を予測する場合は、一度に 2 つの値のみを比較できます。 たとえば、5 を超えるスコアを予測する場合は、ソース データのラベルを変更し、結果を 5 より大きいセットと 5 未満のセットの 2 つのセットに分割する新しいモデルを作成する必要があります。 その後、これら 2 つのグループの精度を比較できます。
精度の理解
2 種類のグラフを作成できます。1 つは予測可能な列の状態を指定し、1 つは状態を指定しないグラフです。
予測可能列の状態を指定した場合、グラフの x 軸は、予測の比較に使用されるテスト データセットの割合を表します。 グラフの y 軸は、指定された状態と予測される値の割合を表します。
予測可能な列の状態を指定しない場合、グラフには、考えられるすべての予測に対するモデルの精度が表示されます。
リフト チャートのしくみと、ランダムで理想的な予測線に基づいて精度を計算する方法の詳細については、SQL Server オンライン ブックの「リフト チャート」を参照してください。