データ マイニング アルゴリズム (Analysis Services - データ マイニング)
データ マイニング アルゴリズムは、データからデータ マイニング モデルを作成するヒューリスティクスと計算のセットです。 モデルを作成するために、データ マイニング アルゴリズムは、まず提供されたデータを分析し、特定の種類のパターンまたは傾向を探します。 この分析の結果は、マイニング モデルを作成するための最適化されたパラメーターを定義するために使用されます。 これらのパラメーターはデータセット全体に適用され、実用的なパターンおよび詳細な統計情報が抽出されます。
アルゴリズムによってデータから作成されるマイニング モデルは、次のようにさまざまな形式を取ります。
データセット内のケースの関係を説明するクラスターのセット
結果を予測し、基準を変更するとその結果がどのように影響を受けるのかを示すデシジョン ツリー
売上を予想する数学的モデル
複数の製品を 1 つのトランザクションにグループ化する方法、およびそれらの製品がまとめて購入される確率を示すルールのセット
Microsoft SQL Server Analysis Services には、データ マイニング ソリューションで使用できるいくつかのアルゴリズムが用意されています。 これらのアルゴリズムは、データ マイニングで使用される最も人気のある方法論のうちのいくつかを実装したものです。 どの Microsoft データ マイニング アルゴリズムも、カスタマイズ可能であり、用意されている API または SQL Server Integration Services のデータ マイニング コンポーネントを使用して十分にプログラムできます。
また、OLE DB for Data Mining 仕様に準拠するサードパーティ製アルゴリズムを使用することも、またはサービスとして登録してから SQL Server データ マイニング フレームワーク内で使用できるカスタム アルゴリズムを開発することもできます。
適切なアルゴリズムの選択
特定の分析タスクに使用する最適なアルゴリズムを選択するのが困難な場合があります。 異なるアルゴリズムを使用して同じビジネス タスクを実行できる一方、各アルゴリズムによって異なる結果が生成されたり、一部のアルゴリズムでは複数の種類の結果が生成されたりする場合があります。 たとえば、Microsoft デシジョン ツリー アルゴリズムは、予測だけでなく、データセット内の列の数を減らす方法としても使用できます。これは、デシジョン ツリーが、最終的なマイニング モデルに影響を与えない列を識別できるためです。
種類別アルゴリズムの選択
Analysis Services には、次の種類のアルゴリズムが含まれます。
分類アルゴリズムは、データセット内の他の属性に基づいて、1 つまたは複数の離散変数を予測します。
回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの 1 つまたは複数の連続変数を予測します。
分割アルゴリズムは、データを類似したプロパティを持つアイテムのグループまたはクラスターに分割します。
アソシエーション アルゴリズムは、データセット内の異なる属性間の相関関係を検出します。 この種類のアルゴリズムの最も一般的な使用例は、マーケット バスケット分析で使用するアソシエーション ルールの作成です。
シーケンス分析アルゴリズムは、Web パス フローなど、データ内の頻度の高いシーケンスまたはエピソードを要約します。
ただし、ソリューションが複数ある中で、1 つのアルゴリズムに限定される必要はありません。 経験豊富なアナリストであれば、ある 1 つのアルゴリズムを使用して最も効果的な入力 (つまり変数) を判断し、次に別のアルゴリズムを適用してそのデータに基づいて特定の結果を予測するものです。 SQL Server データ マイニングでは、1 つのマイニング構造上に複数のモデルを構築できます。そのため、1 つのデータ マイニング ソリューション内でクラスタリング アルゴリズム、デシジョン ツリー モデル、および Naïve Bayes モデルを使用して、データに関するさまざまなビューを得ることができます。 また、1 つのソリューション内で複数のアルゴリズムを使用して、個別のタスクを実行することもできます。たとえば、回帰を使用して財務予測を取得したり、ニューラル ネットワーク アルゴリズムを使用して売上に影響を及ぼす因子を分析したりできます。
タスク別アルゴリズムの選択
特定のタスクで使用するアルゴリズムの選択の参考として、各アルゴリズムが長年使用されてきたタスクを次の表に示します。
タスクの例 |
使用する Microsoft アルゴリズム |
---|---|
不連続属性の予測
|
|
連続属性の予測
|
|
シーケンスの予測
|
|
トランザクション内の共通アイテムのグループの検出
|
|
類似アイテムのグループの検出
|
関連コンテンツ
Analysis Services に用意されている各データ マイニング アルゴリズムの学習用リソースのリンクを次の表に示します。
関連タスク
トピック |
説明 |
---|---|
あるデータ マイニング モデルで使用されるアルゴリズムを判断します。 |
|
カスタム プラグイン アルゴリズムを作成します。 |
|
アルゴリズム固有のビューアーを使用して、モデルを調査します。 |
|
汎用のテーブル フォーマットを使用して、モデルのコンテンツを表示します。 |
|
データをセットアップし、アルゴリズムを使用してモデルを作成する方法について学びます。 |