データ マイニング アルゴリズムは、データからデータ マイニング モデルを作成するヒューリスティックと計算のセットです。 モデルを作成するために、アルゴリズムは最初に指定したデータを分析し、特定の種類のパターンまたは傾向を探します。 このアルゴリズムでは、この分析の結果を使用して、マイニング モデルを作成するための最適なパラメーターを定義します。 これらのパラメーターは、アクション可能なパターンと詳細な統計を抽出するために、データ セット全体に適用されます。
アルゴリズムによってデータから作成されるマイニング モデルは、次のようなさまざまな形式をとることができます。
データセット内のケースの関連付け方法を記述するクラスターのセット。
結果を予測し、さまざまな条件がその結果に与える影響を説明するデシジョン ツリー。
売上を予測する数学モデル。
トランザクションで製品をグループ化する方法と、製品が一緒に購入される確率を示す一連のルール。
Microsoft SQL Server Analysis Services には、データ マイニング ソリューションで使用するための複数のアルゴリズムが用意されています。 これらのアルゴリズムは、データ マイニングで使用される最も一般的な手法の実装です。 Microsoft データ マイニング アルゴリズムはすべてカスタマイズでき、提供されている API を使用するか、SQL Server Integration Services のデータ マイニング コンポーネントを使用して完全にプログラミングできます。
また、OLE DB for Data Mining 仕様に準拠するサードパーティのアルゴリズムを使用したり、サービスとして登録して SQL Server データ マイニング フレームワーク内で使用できるカスタム アルゴリズムを開発することもできます。
適切なアルゴリズムの選択
特定の分析タスクに使用する最適なアルゴリズムを選択することは難しい場合があります。 異なるアルゴリズムを使用して同じビジネス タスクを実行できますが、各アルゴリズムは異なる結果を生成し、一部のアルゴリズムでは複数の種類の結果を生成できます。 たとえば、予測だけでなく、データセット内の列の数を減らす方法としても Microsoft デシジョン ツリー アルゴリズムを使用できます。デシジョン ツリーでは、最終的なマイニング モデルに影響しない列を識別できるためです。
種類別のアルゴリズムの選択
Analysis Services には、次のアルゴリズムの種類が含まれています。
分類アルゴリズムは、 データセット内の他の属性に基づいて、1 つ以上の不連続変数を予測します。
回帰アルゴリズムは、 データセット内の他の属性に基づいて、利益や損失などの 1 つ以上の連続変数を予測します。
セグメント化アルゴリズムは、類似の プロパティを持つ項目のグループ (クラスター) にデータを分割します。
関連付けアルゴリズムは、 データセット内の異なる属性間の相関関係を見つけます。 この種のアルゴリズムの最も一般的な用途は、市場バスケット分析で使用できるアソシエーション ルールを作成することです。
シーケンス分析アルゴリズムは、 Web パス フローなどのデータ内の頻繁なシーケンスまたはエピソードを要約します。
ただし、ソリューションで 1 つのアルゴリズムに制限する必要がある理由はありません。 経験豊富なアナリストは、1 つのアルゴリズムを使用して最も効果的な入力 (つまり変数) を決定し、そのデータに基づいて特定の結果を予測するために別のアルゴリズムを適用することがあります。 SQL Server データ マイニングを使用すると、1 つのマイニング構造上に複数のモデルを構築できるため、1 つのデータ マイニング ソリューション内でクラスタリング アルゴリズム、デシジョン ツリー モデル、ナイーブ ベイズ モデルを使用して、データのさまざまなビューを取得できます。 また、1 つのソリューション内で複数のアルゴリズムを使用して個別のタスクを実行することもできます。たとえば、回帰を使用して財務予測を取得し、ニューラル ネットワーク アルゴリズムを使用して売上に影響を与える要因の分析を実行できます。
タスクによるアルゴリズムの選択
特定のタスクで使用するアルゴリズムを選択するために、次の表に、各アルゴリズムが従来使用されているタスクの種類に関する推奨事項を示します。
| タスクの例 | 使用する Microsoft アルゴリズム |
|---|---|
|
不連続属性の予測 見込み客リストの顧客に、有望または不適格な見込み客としてフラグを設定します。 今後 6 か月以内にサーバーが失敗する確率を計算します。 患者の結果を分類し、関連する要因を調べる。 |
Microsoft デシジョン ツリー アルゴリズム Microsoft Naive Bayes アルゴリズム Microsoft クラスタリング アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム |
|
連続属性の予測 来年の売上を予測します。 過去の履歴と季節の傾向を示したサイト訪問者を予測します。 人口統計に基づいてリスク スコアを生成します。 |
Microsoft デシジョン ツリー アルゴリズム Microsoft タイム シリーズ アルゴリズム Microsoft 線形回帰アルゴリズム |
|
シーケンスの予測 会社の Web サイトのクリックストリーム分析を実行します。 サーバー障害につながる要因を分析します。 外来訪問中の一連のアクティビティをキャプチャして分析し、一般的なアクティビティに関するベスト プラクティスを策定します。 |
Microsoft シーケンス クラスタリング アルゴリズム |
|
トランザクション内の共通項目のグループの検索 マーケット バスケット分析を使用して、製品の配置を決定します。 購入のために顧客に追加の製品を提案します。 訪問者からイベントまでのアンケート データを分析し、関連するアクティビティまたはブースを見つけて、将来のアクティビティを計画します。 |
Microsoft アソシエーション アルゴリズム Microsoft デシジョン ツリー アルゴリズム |
|
類似項目のグループの検索 人口統計や行動などの属性に基づいて、患者リスク プロファイル グループを作成します。 ユーザーをブラウズおよび購買パターンから分析します。 同様の使用特性を持つサーバーを特定します。 |
Microsoft クラスタリング アルゴリズム Microsoft シーケンス クラスタリング アルゴリズム |
関連コンテンツ
次の表は、Analysis Services で提供される各データ マイニング アルゴリズムの学習リソースへのリンクを示しています。
関連タスク
| トピック | 説明 |
|---|---|
| データ マイニング モデルで使用されるアルゴリズムを決定する | マイニング モデルの作成に使用するパラメーターのクエリを実行する |
| カスタム Plug-In アルゴリズムを作成する | プラグイン アルゴリズム |
| アルゴリズム固有のビューアーを使用してモデルを探索する | データ マイニング モデル ビューアー |
| 汎用テーブル形式を使用してモデルのコンテンツを表示する | Microsoft 汎用コンテンツ ツリー ビューアーを使用してモデルを参照する |
| データを設定し、アルゴリズムを使用してモデルを作成する方法について説明します |
マイニング構造 (Analysis Services - データ マイニング) マイニング モデル (Analysis Services - データ マイニング) |