ニューラルネットワーク構造とモデルの作成 (中間データマイニングチュートリアル)

データマイニングモデルを作成するには、まずデータマイニングウィザードを使用して、新しいデータソースビューに基づいて新しいマイニング構造を作成する必要があります。このタスクでは、ウィザードを使用してマイニング構造を作成すると同時に、Microsoft ニューラルネットワークアルゴリズムに基づく関連するマイニングモデルを作成します。

ニューラルネットワークは非常に柔軟であり、入力と出力の多くの組み合わせを分析できるため、最適な結果を得るには、データを処理するいくつかの方法を試す必要があります。たとえば、サービス品質の数値ターゲットを ビン分割またはグループ化して、特定のビジネス要件をターゲットにする方法をカスタマイズできます。これを行うには、別の方法で数値データをグループ化する新しい列をマイニング構造に追加し、新しい列を使用するモデルを作成します。これらのマイニングモデルを使用して、いくつかの探索を行います。

最後に、ビジネスの質問に最も大きな影響を与える要因をニューラルネットワークモデルから学習したら、予測とスコアリング用に別のモデルを構築します。ニューラルネットワークモデルに基づくが、特定の入力に基づいてソリューションを検索するために最適化された Microsoft ロジスティック回帰アルゴリズムを使用します。

手順

既定のマイニング構造とモデルを作成する

分離を使用して予測可能列をビン分割する

列をコピーし、別のモデルの分離方法を変更する

モデルを比較できるように、予測可能列のエイリアスを作成する

すべてのモデルを処理する

既定のコールセンター構造を作成する

SQL Server Data Tools (SSDT) のソリューションエクスプローラーで、[ マイニング構造 ] を右クリックし、[ 新しいマイニング構造] を選択します。
[ データマイニングウィザードへようこそ ] ページで、[ 次へ] をクリックします。
[ 定義方法の選択] ページで、[ 既存のリレーショナルデータベースまたはデータウェアハウスから ] が選択されていることを確認し、[ 次へ] をクリックします。
[ データマイニング構造の作成 ] ページで、[ マイニングモデルを使用してマイニング構造を作成 する] オプションが選択されていることを確認します。
[ どのデータマイニング手法を使用しますか?] オプションのドロップダウンリストをクリックし、[ Microsoft ニューラルネットワーク] を選択します。

ロジスティック回帰モデルはニューラルネットワークに基づいているため、同じ構造を再利用し、新しいマイニングモデルを追加できます。
[次へ] をクリックします。

[ データソースビューの選択] ページが表示されます。
[ 使用可能なデータソースビュー] で Call Centerを選択し、[ 次へ] をクリックします。
[テーブルの種類の指定] ページで、FactCallCenter テーブルの横にある [ケース] チェックボックスをオンにします。 DimDate には何も選択しないでください。 [次へ] をクリックします。
[トレーニングデータの指定] ページで、FactCallCenterID 列の横にあるキーを選択します。
[ Predict ] チェックボックスと [ 入力] チェックボックスをオンにします。

次の表に示すように、キー、入力、 Predict のチェックボックスをオンにします。

テーブル/列	キー/インプット/予測
AutomaticResponses	インプット
1件あたりの平均時間	入力/予測
通話	インプット
日付キー	使用しない
DayOfWeek	インプット
FactCallCenterID	鍵
提起された問題	インプット
LevelOneOperators	入力/予測
レベルツーオペレーターズ	インプット
詻	入力/予測
サービスグレード	入力/予測
シフト	インプット
合計オペレーター数	使用しない
賃金タイプ	インプット

複数の予測可能な列が選択されていることに注意してください。ニューラルネットワークアルゴリズムの長所の 1 つは、入力属性と出力属性のすべての可能な組み合わせを分析できることです。大規模なデータセットでは、処理時間が指数関数的に増加する可能性があるため、これを行いたくありません。

[ 列のコンテンツとデータ型の指定 ] ページで、次の表に示すように、グリッドに列、コンテンツタイプ、およびデータ型が含まれていることを確認し、[ 次へ] をクリックします。

列	コンテンツタイプ	データ型
AutomaticResponses	継続的	長い
1件あたりの平均時間	継続的	長い
通話	継続的	長い
DayOfWeek	ディスクリート	テキスト
ファクトコールセンターID	鍵	長い
提起された問題	継続的	長い
LevelOneOperators	継続的	長い
レベルツーオペレーターズ	継続的	長い
詻	継続的	長い
サービスグレード	継続的	ダブル
シフト	ディスクリート	テキスト
賃金タイプ	ディスクリート	テキスト

[ テストセットの作成 ] ページで、[テスト用の データの割合] オプションのテキストボックスをオフにします。 [次へ] をクリックします。
[ ウィザードの完了 ] ページで、[ マイニング構造名] に「 Call Center」と入力します。
[マイニングモデル名] に「Call Center Default NN」と入力し、[完了] をクリックします。

ニューラルネットワークモデルを使用してデータをドリルスルーできないため、[ ドリルスルーを許可する ] ボックスは無効になっています。
ソリューションエクスプローラーで、先ほど作成したデータマイニング構造の名前を右クリックし、[ プロセス] を選択します。

離散化を使用してターゲット列をビニングする

既定では、予測可能な数値属性を持つニューラルネットワークモデルを作成すると、Microsoft ニューラルネットワークアルゴリズムによって属性が連続する数値として扱われます。たとえば、ServiceGrade 属性は、理論的には 0.00 (すべての呼び出しに応答) から 1.00 (すべての呼び出し元がハングアップ) までの範囲の数値です。このデータセットでは、値には次の分布があります。

サービスグレード値の分布

その結果、モデルを処理すると、出力が予想とは異なる方法でグループ化される可能性があります。たとえば、クラスタリングを使用して最適な値グループを識別する場合、アルゴリズムは ServiceGrade の値を次のような範囲に分割します。0.0748051948 - 0.09716216215。このグループ化は数学的に正確ですが、このような範囲はビジネスユーザーにとって意味がない可能性があります。

この手順では、結果をより直感的にするために、数値を異なる方法でグループ化し、数値データ列のコピーを作成します。

分離のしくみ

Analysis Services には、数値データをビン分割または処理するためのさまざまな方法が用意されています。次の表は、出力属性 ServiceGrade が 3 つの異なる方法で処理された場合の結果の違いを示しています。

連続する数値として扱います。
アルゴリズムを使用すると、クラスタリングを使用して値の最適な配置を特定できます。
Equal Areas 方法で数値をグループ化するよう指定します。

既定のモデル (連続)

価値	サポート
行方不明	0
0.09875	120

クラスタリングによるビン分割

価値	サポート
< 0.0748051948	34
0.0748051948 - 0.09716216215	二十七
0.09716216215 - 0.13297297295	39
0.13297297295 - 0.167499999975	10
>= 0.167499999975	10

等しい領域に分割する

価値	サポート
< 0.07	26
0.07 - 0.00	22
0.09 - 0.11	36
>= 0.12	36

注

これらの統計は、すべてのデータが処理された後で、モデルの限界統計ノードから取得できます。限界統計ノードの詳細については、「ニューラルネットワークモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

この表の VALUE 列には、ServiceGrade の数値がどのように処理されたかが示されています。 [サポート] 列には、その値を持っていたケースの数、またはその範囲内に落ちたケースの数が表示されます。

連続番号を使用する (既定値)

既定の方法を使用した場合、アルゴリズムは 120 個の個別の値 (平均値は 0.09875) の結果を計算します。欠損値の数を確認することもできます。
クラスタリングによるビンの分類

Microsoft クラスタリングアルゴリズムでオプションの値のグループ化を決定すると、アルゴリズムは ServiceGrade の値を 5 つの範囲にグループ化します。サポート列からわかるように、各範囲のケースの数は均等に分散されません。
等しい領域によるビン分割

この方法を選択すると、アルゴリズムによって値が等しいサイズのバケットに強制されます。これにより、各範囲の上限と下限が変更されます。バケットの数は指定できますが、どのバケットにも 2 つの値を含めないようにする必要があります。

ビン分割オプションの詳細については、「分離メソッド (データマイニング)」を参照してください。

または、数値を使用するのではなく、サービスグレードを定義済みのターゲット範囲 ( Best (ServiceGrade <= 0.05)、 Acceptable (0.10 > ServiceGrade > 0.05)、 Poor (ServiceGrade >= 0.10) に分類する別の派生列を追加することもできます。

列のコピーを作成し、分離メソッドを変更する

ターゲット属性 ServiceGrade を含むマイニング列のコピーを作成し、数値のグループ化方法を変更します。マイニング構造内の任意の列の複数のコピー (予測可能な属性を含む) を作成できます。

このチュートリアルでは、分離の Equal Areas メソッドを使用し、4 つのバケットを指定します。この方法によって得られたグループ化は、ビジネスユーザーにとって関心のあるターゲット値にかなり近くなります。

マイニング構造で列のカスタマイズされたコピーを作成するには

ソリューションエクスプローラーで、先ほど作成したマイニング構造をダブルクリックします。
[マイニング構造] タブで、[ マイニング構造列の追加] をクリックします。
[ 列の選択 ] ダイアログボックスで、[ソース] 列の一覧から [ServiceGrade] を選択し、[OK] をクリック します。

マイニング構造列の一覧に新しい列が追加されます。既定では、新しいマイニング列の名前は既存の列と同じで、数値の後置が付けられます (例: ServiceGrade 1)。この列の名前をよりわかりやすいものに変更できます。

分離方法も指定します。
ServiceGrade 1 を右クリックし、[ プロパティ] を選択します。
[ プロパティ ]ウィンドウで、[名前] プロパティを探し、名前を [サービスグレードビンド] に変更します。
関連するすべてのマイニングモデル列の名前に同じ変更を加えるかどうかを確認するダイアログボックスが表示されます。 [いいえ] をクリックします。
[ プロパティ ] ウィンドウで、[ データ型 ] セクションを見つけて、必要に応じて展開します。
プロパティ Content の値を Continuous から Discretized に変更します。

次のプロパティを使用できるようになりました。次の表に示すように、プロパティの値を変更します。

プロパティ既定値新しい値

DiscretizationMethod Continuous EqualAreas

DiscretizationBucketCount 値なし 4

注

DiscretizationBucketCountの既定値は実際には 0 です。つまり、アルゴリズムによって最適なバケット数が自動的に決定されます。したがって、このプロパティの値を既定値にリセットする場合は、「0」と入力します。
データマイニングデザイナーで、[ マイニングモデル ] タブをクリックします。

マイニング構造列のコピーを追加すると、コピーの使用フラグが自動的に Ignoreに設定されます。通常、列のコピーをマイニング構造に追加する場合、元の列と一緒に分析に使用しない方がよいです。そうしないと、アルゴリズムにより両方の列間に強い相関関係が見つかり、他の関係性が隠れる可能性があります。

プロパティ	既定値	新しい値
`DiscretizationMethod`	`Continuous`	`EqualAreas`
`DiscretizationBucketCount`	値なし	4

マイニング構造に新しいマイニングモデルを追加する

ターゲット属性の新しいグループ化を作成したら、分離された列を使用する新しいマイニングモデルを追加する必要があります。完了すると、CallCenter マイニング構造には次の 2 つのマイニングモデルがあります。

マイニングモデルのコールセンターの既定の NN は、ServiceGrade 値を連続範囲として処理します。
同じサイズの 4 つのバケットに分散された ServiceGrade 列の値をターゲットの結果として使用する新しいマイニングモデルである Call Center Binned NN を作成します。

新しい分離列に基づいてマイニングモデルを追加するには

ソリューションエクスプローラーで、先ほど作成したマイニング構造を右クリックし、[ 開く] を選択します。
[ マイニングモデル ] タブをクリックします。
[ 関連するマイニングモデルの作成] をクリックします。
[ 新しいマイニングモデル ] ダイアログボックスで、[ モデル名] に「 Call Center Binned NN」と入力します。 [ アルゴリズム名 ] ドロップダウンリストで、[ Microsoft ニューラルネットワーク] を選択します。
新しいマイニングモデルに含まれる列の一覧で ServiceGrade を見つけ、使用状況を Predict から Ignore に変更します。
同様に、ServiceGrade Binned を見つけて、使用状況を Ignore から Predict に変更します。

ターゲット列のエイリアスを作成する

通常、異なる予測可能な属性を使用するマイニングモデルを比較することはできません。ただし、マイニングモデル列のエイリアスを作成することはできます。つまり、マイニングモデル内の列 ServiceGrade Binned の名前を変更して、元の列と同じ名前にすることができます。その後、データの分離が異なる場合でも、精度グラフでこれら 2 つのモデルを直接比較できます。

マイニングモデルでマイニング構造列のエイリアスを追加するには

[ マイニングモデル ] タブの [ 構造] で、[ServiceGrade Binned] を選択します。

[プロパティ] ウィンドウには、オブジェクトの ScalarMiningStructure 列のプロパティが表示されることに注意してください。
マイニングモデルの [ServiceGrade Binned NN] 列の下にある、ServiceGrade Binned 列に対応するセルをクリックしてください。

[プロパティ] ウィンドウにオブジェクト MiningModelColumn のプロパティが表示されます。
Name プロパティを見つけて、値を ServiceGrade に変更します。

Description プロパティを探し、「Temporary column alias」と入力します。

[プロパティ] ウィンドウには、次の情報が含まれている必要があります。

プロパティ	価値
説明	一時列の別名
身分証明書	サービスグレード分類済み
モデリングフラグ
名前	サービスグレード
SourceColumn ID	サービスグレード 1
使用方法	予言する

[ マイニングモデル ] タブの任意の場所をクリックします。

グリッドが更新され、列の使用法の横に新しい一時列のエイリアス ( ServiceGrade) が表示されます。マイニング構造と 2 つのマイニングモデルを含むグリッドは、次のようになります。

構造	コールセンターのデフォルトNN	コールセンターの分類 NN
	Microsoft ニューラルネットワーク	Microsoft ニューラルネットワーク
AutomaticResponses	インプット	インプット
1件あたりの平均時間	予言する	予言する
通話	インプット	インプット
DayOfWeek	インプット	インプット
FactCallCenterID	鍵	鍵
提起された問題	インプット	インプット
LevelOneOperators	インプット	インプット
レベルツーオペレーターズ	インプット	インプット
詻	インプット	インプット
ServceGrade Binned	不問に付す	Predict (ServiceGrade)
サービスグレード	予言する	不問に付す
シフト	インプット	インプット
合計演算子	インプット	インプット
賃金タイプ	インプット	インプット

すべてのモデルを処理する

最後に、作成したモデルを簡単に比較できるように、既定のモデルと区分化されたモデルの両方にシードパラメーターを設定します。シード値を設定すると、各モデルが同じポイントからデータの処理を開始することが保証されます。

注

シードパラメーターに数値を指定しない場合、SQL Server Analysis Services はモデルの名前に基づいてシードを生成します。モデルの名前は常に異なるため、データが同じ順序で処理されるようにシード値を設定する必要があります。

シードを指定してモデルを処理するには

[ マイニングモデル ] タブで、Call Center - LR という名前のモデルの列を右クリックし、[ アルゴリズムパラメーターの設定] を選択します。
HOLDOUT_SEED パラメーターの行で、[ 値] の下にある空のセルをクリックし、「 1」と入力します。 OK をクリックします。構造に関連付けられている各モデルに対して、この手順を繰り返します。

注

すべての関連モデルに同じシードを使用する限り、シードとして選択する値は関係ありません。
[ マイニングモデル ] メニューの [ マイニング構造の処理] と [すべてのモデル] を選択します。更新されたデータマイニングプロジェクトをサーバーに配置するには、[ はい ] をクリックします。
[ マイニングモデルの処理 ] ダイアログボックスで、[ 実行] をクリックします。
[閉じる] をクリックして [プロセスの進行状況] ダイアログボックスを閉じ、[プロセスマイニングモデル] ダイアログボックスでもう一度 [閉じる] をクリックします。

2 つの関連するマイニングモデルを作成したら、データを探索してデータ内のリレーションシップを検出します。

このレッスンの次の作業

コールセンターモデルの探索 (中間データマイニングチュートリアル)

こちらもご覧ください

マイニング構造 (Analysis Services - データマイニング)

Last updated on 2017-12-29

次の方法で共有

ニューラル ネットワーク構造とモデルの作成 (中間データ マイニング チュートリアル)

既定のコール センター構造を作成する

離散化を使用してターゲット列をビニングする

分離のしくみ

列のコピーを作成し、分離メソッドを変更する

マイニング構造で列のカスタマイズされたコピーを作成するには

マイニング構造に新しいマイニング モデルを追加する

新しい分離列に基づいてマイニング モデルを追加するには

ターゲット列のエイリアスを作成する

マイニング モデルでマイニング構造列のエイリアスを追加するには

すべてのモデルを処理する

シードを指定してモデルを処理するには

このレッスンの次の作業

こちらもご覧ください

その他のリソース

ニューラルネットワーク構造とモデルの作成 (中間データマイニングチュートリアル)

既定のコールセンター構造を作成する

マイニング構造に新しいマイニングモデルを追加する

新しい分離列に基づいてマイニングモデルを追加するには

マイニングモデルでマイニング構造列のエイリアスを追加するには