Create a Relational Mining Structure

[アーティクル]
12/23/2023

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データマイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。非推奨および停止された機能については、ドキュメントの更新は行われません。詳細については、「Analysis Services 下位互換性」を参照してください。

ほとんどのデータマイニングモデルは、リレーショナルデータソースに基づいています。リレーショナルデータマイニングモデルを作成する利点は、キューブの作成という複雑な作業をせずに、アドホックデータをまとめ、モデルをトレーニングおよび更新できることです。

リレーショナルマイニング構造では、さまざまなソースからデータを取得できます。生データは、データソースビューの一部として定義可能であれば、テーブル、ファイル、またはリレーショナルデータベースシステムに格納できます。たとえば、データが Excel、SQL Server データウェアハウスデータベース、または SQL Server レポートデータベースにある場合、あるいは OLE DB プロバイダーまたは ODBC プロバイダー経由でアクセスする外部ソースにある場合は、リレーショナルマイニング構造を使用する必要があります。

ここでは、データマイニングウィザードを使用して、リレーショナルマイニング構造を作成する方法の概要について説明します。

必要条件

リレーショナルマイニング構造を作成するプロセス

要件

最初に、既存のデータソースが必要です。データソースがまだ存在しない場合は、データソースデザイナーを使用して、データソースを設定できます。詳細については、「データソースの作成 (SSAS 多次元)」を参照してください。

次に、データソースビューウィザードを使用して、必要なデータを 1 つのデータソースビューにまとめます。データソースビューでデータを選択、変換、フィルター選択、または管理する方法の詳細については、「多次元モデルのデータソースビュー」をご覧ください。

プロセスの概要

ソリューションエクスプローラーで [マイニング構造] ノードを右クリックし、 [新しいマイニング構造の追加]を選択して、データマイニングウィザードを起動します。ウィザードでは、次の手順に従って新しいリレーショナルマイニングモデルの構造を作成します。

[定義方法の選択]: データソースの種類を選択し、 [リレーショナルデータベースまたはデータウェアハウスを使用する]を選択します。
[データマイニング構造の作成]: 構造のみを作成するか、構造と共にマイニングモデルも作成するかを決定します。

さらに、初期モデルに適切なアルゴリズムを選択します。特定のタスクに最適なアルゴリズムのガイダンスについては、「データマイニングアルゴリズム (Analysis Services - データマイニング)」を参照してください。
[データソースビューの選択]: モデルのトレーニングで使用するデータソースビューを選択します。データソースビューには、テストに使用するデータや関連のないデータを含めることもできます。構造およびモデルで実際に使用するデータを選択します。また、後でデータにフィルターを適用することもできます。
[テーブルの種類の指定]: 分析に使用するケースを含むテーブルを選択します。一部のデータセット (特にマーケットバスケットモデルの作成に使用されるデータセット) では、入れ子になったテーブルとして使用する関連テーブルを含めることもできます。

一意のレコードを識別する方法をアルゴリズムで認識できるように、各テーブルにキーを指定する必要があります。入れ子になったテーブルを追加した場合は、関連レコードも指定します。

詳細については、「マイニング構造列」をご覧ください。
[トレーニングデータの指定]: このページでは、 ケーステーブルを選択します。ケーステーブルは、分析するうえで最も重要なデータを含むテーブルです。

一部のデータセット (特にマーケットバスケットモデルの作成に使用されるデータセット) では、関連テーブルを含めることもできます。その入れ子になったテーブル内の値は、メインテーブル内の 1 つの行 (またはケース) に関連付けられている複数の値として処理されます。
[列のコンテンツおよびデータ型の指定]: 構造で使用する列ごとに、 データ型 と コンテンツの種類の両方を選択する必要があります。

ウィザードは、使用可能なデータ型を自動的に検出しますが、ウィザードで推奨されるデータ型を使用する必要はありません。たとえば、データに数値が含まれる場合でも、カテゴリデータを表していることがあります。キーとして指定した列には、その特定のモデルの種類に適したデータ型が自動的に割り当てられます。詳細については、「マイニングモデルの列とデータ型 (データマイニング)」を参照してください。

モデルで使用するそれぞれの列に対して選択した コンテンツの種類 により、アルゴリズムにおけるデータの処理方法が決まります。

たとえば、連続値を使用する代わりに、数値を分離できます。また、アルゴリズムによって、列に最適なコンテンツの種類を自動的に検出することもできます。詳細については、「コンテンツタイプ (データマイニング)」を参照してください。
[テストセットの作成]: このページでは、モデルのテスト用に使用するデータの量を指定します。データで複数のモデルがサポートされている場合は、同じデータに対してすべてのモデルをテストできるように予約データセットを作成することをお勧めします。

詳細については、「テストと検証 (データマイニング)」を参照してください。
[ウィザードの完了]: このページでは、新しいマイニング構造と関連マイニングモデルに名前を付け、構造とモデルを保存します。

モデルの種類によっては、いくつかの重要なオプションを設定することもできます。たとえば、構造のドリルスルーを有効にできます。

この段階で、マイニング構造とそのモデルは単なるメタデータです。結果を得るには、これらの両方を処理する必要があります。

リレーショナルデータの選択方法

リレーショナルマイニング構造は、OLE DB データソースで使用可能なすべてのデータに基づいて作成できます。ソースデータが複数のテーブルに格納されている場合は、データソースビューを使用して、必要なテーブルと列を 1 か所にまとめることができます。

たとえば、テーブルに一対多リレーションシップが含まれている場合、分析する顧客ごとに複数の購入レコードがあります。両方のテーブルを追加し、ケーステーブルとして 1 つのテーブルを使用し、リレーションシップの多くの側のデータを入れ子になったテーブルとしてリンクできます。

マイニング構造のデータは、既存のデータソースビューから取得されます。データソースビュー内のデータを必要に応じて変更し、基になるリレーショナルデータに存在しないリレーションシップや派生列を追加できます。また、データソースビュー内に名前付き計算または集計を作成することもできます。これらの機能は、データソースでデータの配置を制御できない場合や、データマイニングモデルに対してデータの異なる集計をテストする場合に非常に便利です。

使用可能なすべてのデータを使用する必要はありません。マイニング構造に含める列を選択できます。その構造に基づいているすべてのモデルでそれらの列を使用できます。また、特定のモデルの特定の列に Ignore というフラグを設定することもできます。データマイニングモデルのユーザーがマイニングモデルの結果からドリルダウンして、マイニングモデル自体に含まれていなかった追加のマイニング構造列を確認できるようにすることができます。

コンテンツの種類とデータ型を指定する方法

データ型は、SQL Server などのアプリケーションインターフェイスで指定するデータ型とほぼ同じで、日付/時刻、さまざまなサイズの数値、ブール値、テキスト、およびその他の不連続なデータがあります。

一方、コンテンツの種類はデータマイニングにとって重要で、分析の結果に影響を与えます。コンテンツの種類により、アルゴリズムにおけるデータの処理方法 (数値を連続して処理するかビン分割するか、有効な値がいくつあるか、各値が重複していないか、値がキーの場合、キーの種類は何ですか。日付/時刻値、シーケンス、またはその他の種類のキーを示していますか?

選択するデータ型によって、コンテンツの種類の選択が制限される場合があります。たとえば、数値でない値は分離できません。目的のコンテンツの種類が表示されない場合は、 [戻る] をクリックしてデータ型のページに戻り、別のデータ型を選択します。

コンテンツの種類を間違えてもあまり気にする必要はありません。新しいモデルを作成し、そのモデル内のコンテンツの種類を変更するのは非常に簡単です。ただし、新しいコンテンツの種類がマイニング構造のデータ型セットでサポートされている必要があります。また、テスト目的や、別のアルゴリズムの要件に合わせる目的で、さまざまなコンテンツの種類を使用して複数のモデルを作成することも非常に一般的です。

たとえば、データに Income 列が含まれている場合、Microsoft デシジョンツリーアルゴリズムを使用して 2 つの異なるモデルを作成し、それぞれの列を連続する数値と不連続な範囲のどちらかとして構成できます。ただし、Microsoft Naïve Bayes アルゴリズムを使用してモデルを追加すると、列は分離された値のみに強制的に変更されます。これは、そのアルゴリズムでは連続する数値がサポートされていないためです。

データをトレーニングセットとテストセットに分割する理由と方法

ウィザードの終了間際では、データをトレーニングセットとテストセットのどちらにパーティション分割するかを決定する必要があります。データのランダムにサンプリングされた部分をテスト用に準備するこの機能により、一貫したテストデータのセットが新しいマイニング構造に関連するすべてのマイニングモデルで使用できるようになるため、非常に便利です。

警告

このオプションは、すべてのモデルの種類で使用できるわけではありません。たとえば、予測モデルを作成する場合、時系列アルゴリズムではデータにギャップが存在しない必要があるため、ホールドアウトを使用することはできません。予約データセットをサポートするモデルの種類の一覧については、「トレーニングデータセットとテストデータセット」をご覧ください。

この予約データセットを作成するには、テストに使用するデータの割合を指定します。残りのすべてのデータはトレーニングに使用されます。必要に応じて、テストに使用するケースの最大数を設定することや、ランダム選択プロセスの開始時に使用するシード値を設定することができます。

予約テストセットの定義はマイニング構造と一緒に格納されます。これにより、構造に基づいて新しいモデルを作成するときに、このテストデータセットを使用してモデルの精度を評価できるようになります。マイニング構造のキャッシュを削除すると、トレーニングおよびテストに使用したケースに関する情報も削除されます。

ドリルスルーを有効にする理由と方法

ウィザードのほぼ最後に、 ドリルスルーを有効にするオプションがあります。このオプションを見逃すのは簡単ですが、重要なオプションです。ドリルスルーを使用すると、マイニングモデルにクエリを実行することにより、マイニング構造内のソースデータを表示できます。

なぜこれが役に立つのでしょうか。たとえば、クラスターモデルの結果を表示し、特定のクラスターに配置された顧客を確認する必要がある場合、ドリルスルーを使用すると、連絡先情報などの詳細を表示できます。

警告

ドリルスルーを使用するには、マイニング構造の作成時にドリルスルーを有効にする必要があります。モデルのドリルスルーはモデルのプロパティを設定することで後から有効にできますが、マイニング構造のこのオプションは最初に設定する必要があります。詳細については、「ドリルスルークエリ (データマイニング)」を参照してください。

参照

Data Mining Designer
データマイニングウィザード (Analysis Services - データマイニング)
マイニングモデルのプロパティ
 マイニング構造と構造列のプロパティ
 マイニング構造のタスクと操作方法

次の方法で共有

Create a Relational Mining Structure

要件

プロセスの概要

リレーショナルデータの選択方法

コンテンツの種類とデータ型を指定する方法

データをトレーニングセットとテストセットに分割する理由と方法

ドリルスルーを有効にする理由と方法

参照

フィードバック

フィードバック

その他のリソース

次の方法で共有

Create a Relational Mining Structure

要件

プロセスの概要

リレーショナル データの選択方法

コンテンツの種類とデータ型を指定する方法

データをトレーニング セットとテスト セットに分割する理由と方法

ドリルスルーを有効にする理由と方法

参照

フィードバック

フィードバック

その他のリソース

リレーショナルデータの選択方法

データをトレーニングセットとテストセットに分割する理由と方法