データ マイニング デザイナーの [ マイニング精度グラフ ] タブでは、各モデルが予測を行う程度を計算し、各モデルの結果を他のモデルの結果と直接比較できます。 この比較方法は 、リフト チャートと呼ばれます。 通常、マイニング モデルの予測精度は、リフトまたは分類の精度によって測定されます。 このチュートリアルでは、リフト チャートのみを使用します。
このトピックでは、次のタスクを実行します。
入力データの選択
マイニング モデルの精度をテストする最初の手順は、テストに使用するデータ ソースを選択することです。 テスト データに対してモデルのパフォーマンスをテストし、それらを外部データと共に使用します。
データ セットを選択するには
SQL Server Data Tools (SSDT) のデータ マイニング デザイナーの [ マイニング精度グラフ ] タブに切り替え、[ 入力の選択 ] タブを選択します。
[ 精度グラフに使用するデータ セットの選択 ] グループ ボックスで、[ マイニング構造のテスト ケースを使用] を選択します。 これは、マイニング構造の作成時に確保したテスト データです。
その他のオプションの詳細については、「 精度グラフの種類の選択」および「グラフ オプションの設定」を参照してください。
精度チャートパラメータの設定
精度チャートを作成するには、次の 3 つを定義する必要があります。
精度チャートに含める必要があるモデルはどれですか?
どの予測可能な属性を測定しますか? 一部のモデルには複数のターゲットがある場合がありますが、各グラフで一度に測定できる結果は 1 つだけです。
精度グラフで列を 予測可能な列名 として使用するには、列の使用の種類が
PredictまたはPredict Onlyである必要があります。 また、ターゲット列のコンテンツ タイプは、DiscreteまたはDiscretizedである必要があります。 つまり、リフト チャートを使用して連続する数値出力に対して精度を測定することはできません。モデルの一般的な精度、または特定の値を予測する際の精度を測定しますか ([Bike Buyer] = 'Yes' など)
リフト チャートを生成するには
データ マイニング デザイナーの [ 入力の選択 ] タブの [ リフト チャートに表示する予測可能なマイニング モデル列の選択] で、[ 予測列と値の同期] チェック ボックスをオンにします。
[ 予測可能な列名] 列で、モデルごとに Bike Buyer が選択されていることを確認します。
[ 表示 ] 列で、各モデルを選択します。
既定では、マイニング構造内のすべてのモデルが選択されます。 モデルを含めないようにすることもできますが、このチュートリアルでは、すべてのモデルを選択したままにします。
[ 予測値 ] 列で 1 を選択します。 同じ予測可能列を持つ各モデルに対して、同じ値が自動的に入力されます。
[ リフト チャート ] タブを選択します。
タブをクリックすると、予測クエリが実行されてテスト データの予測が取得され、結果が既知の値と比較されます。 結果がグラフにプロットされます。
[ 値の予測] オプションを使用して特定のターゲット結果を指定した場合、リフト チャートにはランダムな推測の結果と理想的なモデルの結果がプロットされます。
モデルがデータを一切使用せずに予測を行った場合の精度を示すランダム推測線は、つまり2つの結果が50%対50%で分かれることを示します。 リフト チャートを使用すると、ランダムな推測と比較して、モデルのパフォーマンスがどれだけ優れているかを視覚化できます。
理想的なモデル線は、精度の上限を表します。 モデルが常に正確に予測される場合に実現できる最大の利点が表示されます。
作成したマイニング モデルは、通常、これら 2 つの極値の間に存在します。 ランダムな推測による改善は 、リフトと見なされます。
凡例を使用して、理想モデルとランダム推測モデルを表す色付きの線を見つけます。
TM_Decision_Treeモデルは、クラスタリング モデルと Naive Bayes モデルの両方を上回る最大のリフトを提供します。
このレッスンで作成したリフト チャートと同様のリフト チャートの詳細については、「 リフト チャート (Analysis Services - データ マイニング)」を参照してください。
このレッスンの次の作業
フィルター処理されたモデルのテスト (基本的なデータ マイニング チュートリアル)
こちらもご覧ください
リフト チャート (Analysis Services - データ マイニング)
リフト チャート タブ (マイニング精度グラフ ビュー)