精度グラフ (SQL Server データマイニングアドイン)

データマイニングリボンの [精度グラフ] ボタン

精度チャートを使用すると、新しいデータセットにモデルを適用し、モデルのパフォーマンスを評価できます。このウィザードによって作成される精度グラフは リフトチャートです。これは、データマイニングモデルの精度を測定するために頻繁に使用されるグラフの一種です。この種類の精度グラフには、ランダムな予測と比較して、指定されたデータマイニングモデルを使用して得られた改善点と、予測の 100% が正確な理想的なケースがグラフィカルに表示されます。 1 つのグラフ内で複数のモデルを比較できます。

例

Adventure Works Cycles のマーケティング部門が、対象を絞ったメーリングキャンペーンを作成する場合を考えてみましょう。過去のキャンペーンでは、10% の応答率が一般的であることがわかっています。データベースのテーブルに 10,000 人の潜在的な顧客が格納されているリストがあります。一般的な応答率に基づいて、1,000 人の顧客が応答することを期待できます。

ただし、広告を 5,000 人の顧客にのみメールで送信できるため、マーケティング部門はマイニングモデルを使用して、応答する可能性が最も高い 5,000 人の顧客をターゲットにしています。

会社が 5,000 人の顧客をランダムに選択した場合、通常、対象となるユーザーの 10% のみが応答するため、肯定的な回答は 500 件しか受け取りません。このシナリオは、リフトチャート内のランダムな線が表すものです。

ただし、マーケティング部門がマイニングモデルを使用してメーリングをターゲットにし、モデルが完璧な場合は、モデルによって推奨される 1,000 人の潜在顧客に広告を郵送することで、1,000 件の回答を受け取る可能性があります。このシナリオは、リフトチャートの理想的な線で表されます。

精度チャートウィザードの使用

精度チャートを作成するには、既存のデータマイニング構造を参照する必要があります。同じものを予測する限り、その構造に基づく複数のモデルの精度を測定できます。

使用可能な構造体がわからない場合は、サーバーを参照できます。詳細については、「 Excel でのモデルの参照 (SQL Server データマイニングアドイン)」を参照してください。

精度チャートを作成するには

[ データマイニングクライアント ] リボンをクリックします。
[ 精度と検証 ] グループで、[ 精度グラフ] をクリックします。
[ 構造またはモデルの選択 ] ダイアログボックスで、評価するモデルを選択します。 [次へ] をクリックします。

注

テストするデータと密接に一致するモデルを選択する必要があります。
[ 予測する列と予測する値の指定 ] ダイアログボックスで、予測する列と、必要に応じてターゲット値を選択します。 [次へ] をクリックします。

たとえば、上記の例では、顧客の応答をモデル化する列を選択し、ターゲット値を "おそらく購入する" と指定します。

注

連続値を予測することはできません。ただし、値を個別の範囲に分離することで、列を分離できます。データマイニングモデルを作成する前に、これを行う必要があります。
[ ソースデータの選択 ] ダイアログボックスで、予測を作成するためにモデルを通過するデータのソースを指定します。
モデルに格納されているテストデータではなく、データの外部ソースを使用している場合は、[ リレーションシップの指定 ] ダイアログボックスで、新しいソースデータの列をデータマイニングモデルで使用される列にマップします。

列名が似ている場合は、ウィザードによって自動的にマップされます。入力データの一部の列は分析とは無関係で無視できますが、データマイニングモデルで入力を処理するために必要な列もあります。このような列には、トランザクション ID、ターゲット値、または予測に使用される列が含まれる場合があります。必要な列をマップできない場合、ウィザードによって警告メッセージが表示されます。
[完了] をクリックします。

ウィザードでは、リフトチャートと基になるデータを含むレポートが作成されます。

要求事項

不連続値を予測する場合は、予測するターゲット値を選択する必要があります。たとえば、データが応答 "はい: 購入" を 1 に、応答 "No: Do Not Buy" を 2 に分類する場合、予測値として 1 または 2 を指定する必要があります。ただし、値の範囲を予測する場合は、一度に 2 つの値のみを比較できます。たとえば、5 を超えるスコアを予測する場合は、ソースデータのラベルを変更し、結果を 5 より大きいセットと 5 未満のセットの 2 つのセットに分割する新しいモデルを作成する必要があります。その後、これら 2 つのグループの精度を比較できます。

精度の理解

2 種類のグラフを作成できます。1 つは予測可能な列の状態を指定し、1 つは状態を指定しないグラフです。

予測可能列の状態を指定した場合、グラフの x 軸は、予測の比較に使用されるテストデータセットの割合を表します。グラフの y 軸は、指定された状態と予測される値の割合を表します。

予測可能な列の状態を指定しない場合、グラフには、考えられるすべての予測に対するモデルの精度が表示されます。

リフトチャートのしくみと、ランダムで理想的な予測線に基づいて精度を計算する方法の詳細については、SQL Server オンラインブックの「リフトチャート」を参照してください。

こちらもご覧ください

モデルの検証と予測のためのモデルの使用 (Excel 用データマイニングアドイン)

Last updated on 2017-06-13