データ マイニング アルゴリズム (Analysis Services - データ マイニング)
データ マイニング アルゴリズムは、データ マイニング モデルを作成するメカニズムです。モデルを作成するために、データ マイニング アルゴリズムは、まず一連のデータを分析し、特定のパターンおよび傾向を探します。この分析の結果は、マイニング モデルのパラメータを定義するために使用されます。これらのパラメータはデータセット全体に適用され、実用的なパターンおよび詳細な統計情報が抽出されます。
アルゴリズムによって作成されるマイニング モデルは、次のようにさまざまな形式を取ります。
トランザクションで製品をグループ化する方法を説明するルールのセット
特定の顧客が製品を購入するかどうかを予測するデシジョン ツリー
売上を予想する数学的モデル
データセット内のケースの関係を説明するクラスタのセット
MicrosoftSQL ServerAnalysis Services には、データ マイニング ソリューションで使用できるいくつかのアルゴリズムが用意されています。これらのアルゴリズムは、データ マイニングに使用できるすべてのアルゴリズムのサブセットです。また、OLE DB for Data Mining 仕様に準拠したサード パーティのアルゴリズムを使用することもできます。サード パーティのアルゴリズムの詳細については、「プラグイン アルゴリズム」を参照してください。
データ マイニング アルゴリズムの種類
Analysis Services には、次の種類のアルゴリズムが含まれます。
分類アルゴリズムは、データセット内の他の属性に基づいて、1 つまたは複数の離散変数を予測します。分類アルゴリズムの例としては、Microsoft デシジョン ツリー アルゴリズムがあります。
回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの 1 つまたは複数の連続変数を予測します。回帰アルゴリズムの例としては、Microsoft タイム シリーズ アルゴリズムがあります。
分割アルゴリズムは、データを類似したプロパティを持つアイテムのグループまたはクラスタに分割します。分割アルゴリズムの例としては、Microsoft クラスタリング アルゴリズムがあります。
アソシエーション アルゴリズムは、データセット内の異なる属性間の相関関係を検出します。この種類のアルゴリズムの最も一般的な使用例は、マーケット バスケット分析で使用するアソシエーション ルールの作成です。アソシエーション アルゴリズムの例としては、Microsoft アソシエーション アルゴリズムがあります。
シーケンス分析アルゴリズムは、Web パス フローなど、データ内の頻度の高いシーケンスまたはエピソードを要約します。シーケンス分析アルゴリズムの例としては、Microsoft シーケンス クラスタ アルゴリズムがあります。
アルゴリズムの適用
特定のビジネス タスクに使用する最適なアルゴリズムを選択するのが困難な場合があります。異なるアルゴリズムを使用して同じビジネス タスクを実行できる一方、各アルゴリズムによって異なる結果が生成されたり、一部のアルゴリズムでは複数の種類の結果が生成されたりする場合があります。たとえば、Microsoft デシジョン ツリー アルゴリズムは、予測だけでなく、データセット内の列の数を減らす方法としても使用できます。これは、デシジョン ツリーが、最終的なマイニング モデルに影響を与えない列を識別できるためです。
また、アルゴリズムを別々に使用する必要はありません。つまり、単一のデータ マイニング ソリューションで、いくつかのアルゴリズムを使用してデータを調べ、その後に別のアルゴリズムでそのデータに基づいて特定の結果を予測することができます。たとえば、パターンを認識するクラスタリング アルゴリズムを使用して、データをある程度均一性のあるグループに分割し、その結果を使用してより精度の高いデシジョン ツリー モデルを作成できます。1 つのソリューション内で複数のアルゴリズムを使用して、個別のタスクを実行することもできます。たとえば、回帰ツリー アルゴリズムを使用して財務予測情報を取得し、ルール ベース アルゴリズムを使用してマーケット バスケット分析を実行する場合などです。
マイニング モデルでは、値の予測、データの要約の生成、隠れた相関関係の検出を行うことができます。データ マイニング ソリューションで使用するアルゴリズムの選択の参考として、特定のタスクに推奨されるアルゴリズムを次の表に示します。
タスク |
使用する Microsoft アルゴリズム |
---|---|
不連続属性の予測。 たとえば、ターゲット メーリング キャンペーンの受け取り人が製品を購入するかどうかを予測します。 |
|
連続属性の予測。 たとえば、来年の売上を予測します。 |
|
シーケンスの予測。 たとえば、企業の Web サイトのクリックストリーム分析を実行します。 |
|
トランザクション内の共通アイテムのグループの検出。 たとえば、マーケット バスケット分析を使用して顧客に他の商品の購入を勧めます。 |
|
類似アイテムのグループの検出。 たとえば、属性間のリレーションシップをよりわかりやすくするために人口統計情報データをグループに分割します。 |
各モデルによって異なる種類の結果が返されるため、Analysis Services ではアルゴリズムごとに個別のビューアが用意されています。Analysis Services でマイニング モデルを参照すると、そのモデルに適したビューアを使用してデータ マイニング デザイナの [マイニング モデル ビューア] タブにモデルが表示されます。詳細については、「データ マイニング モデルの表示」を参照してください。
アルゴリズムの詳細
次の表に、各アルゴリズムで使用できる情報の種類へのリンクを示します。
基本的なアルゴリズムの説明 アルゴリズムの内容や機能について、そのアルゴリズムが有用なビジネス シナリオと共に基本的な説明を行います。
テクニカル リファレンス アルゴリズムの動作を制御したり、モデルの結果をカスタマイズしたりできるパラメータを一覧表示します。アルゴリズムの実装、パフォーマンスのヒント、およびデータの要件に関する詳しい技術的な説明が含まれています。
モデルのクエリ 使用できるクエリの例がモデルの種類ごとに紹介されています。モデルのクエリを実行すると、モデルのパターンの詳細を調べたり、それらのパターンに基づいて予測を行うことができます。
マイニング モデル コンテンツ モデルの種類ごとに情報が共通の構造にどのように格納されるか、およびその情報を解釈する方法について説明します。モデルを作成できたら、BI Development Studio に用意されているビューアを使用してモデルを調べたり、DMX を使用して、直接モデル コンテンツから情報を取得するクエリを記述したりすることができます。