データマイニングアルゴリズム (Analysis Services - データマイニング)

[アーティクル]
07/30/2013

データマイニングアルゴリズムは、データからデータマイニングモデルを作成するヒューリスティクスと計算のセットです。モデルを作成するために、データマイニングアルゴリズムは、まず提供されたデータを分析し、特定の種類のパターンまたは傾向を探します。この分析の結果は、マイニングモデルを作成するための最適化されたパラメーターを定義するために使用されます。これらのパラメーターはデータセット全体に適用され、実用的なパターンおよび詳細な統計情報が抽出されます。

アルゴリズムによってデータから作成されるマイニングモデルは、次のようにさまざまな形式を取ります。

データセット内のケースの関係を説明するクラスターのセット
結果を予測し、基準を変更するとその結果がどのように影響を受けるのかを示すデシジョンツリー
売上を予想する数学的モデル
複数の製品を 1 つのトランザクションにグループ化する方法、およびそれらの製品がまとめて購入される確率を示すルールのセット

Microsoft SQL Server Analysis Services には、データマイニングソリューションで使用できるいくつかのアルゴリズムが用意されています。これらのアルゴリズムは、データマイニングで使用される最も人気のある方法論のうちのいくつかを実装したものです。どの Microsoft データマイニングアルゴリズムも、カスタマイズ可能であり、用意されている API または SQL Server Integration Services のデータマイニングコンポーネントを使用して十分にプログラムできます。

また、OLE DB for Data Mining 仕様に準拠するサードパーティ製アルゴリズムを使用することも、またはサービスとして登録してから SQL Server データマイニングフレームワーク内で使用できるカスタムアルゴリズムを開発することもできます。

適切なアルゴリズムの選択

特定の分析タスクに使用する最適なアルゴリズムを選択するのが困難な場合があります。異なるアルゴリズムを使用して同じビジネスタスクを実行できる一方、各アルゴリズムによって異なる結果が生成されたり、一部のアルゴリズムでは複数の種類の結果が生成されたりする場合があります。たとえば、Microsoft デシジョンツリーアルゴリズムは、予測だけでなく、データセット内の列の数を減らす方法としても使用できます。これは、デシジョンツリーが、最終的なマイニングモデルに影響を与えない列を識別できるためです。

種類別アルゴリズムの選択

Analysis Services には、次の種類のアルゴリズムが含まれます。

分類アルゴリズムは、データセット内の他の属性に基づいて、1 つまたは複数の離散変数を予測します。
回帰アルゴリズムは、データセット内の他の属性に基づいて、利益や損失などの 1 つまたは複数の連続変数を予測します。
分割アルゴリズムは、データを類似したプロパティを持つアイテムのグループまたはクラスターに分割します。
アソシエーションアルゴリズムは、データセット内の異なる属性間の相関関係を検出します。この種類のアルゴリズムの最も一般的な使用例は、マーケットバスケット分析で使用するアソシエーションルールの作成です。
シーケンス分析アルゴリズムは、Web パスフローなど、データ内の頻度の高いシーケンスまたはエピソードを要約します。

ただし、ソリューションが複数ある中で、1 つのアルゴリズムに限定される必要はありません。経験豊富なアナリストであれば、ある 1 つのアルゴリズムを使用して最も効果的な入力 (つまり変数) を判断し、次に別のアルゴリズムを適用してそのデータに基づいて特定の結果を予測するものです。 SQL Server データマイニングでは、1 つのマイニング構造上に複数のモデルを構築できます。そのため、1 つのデータマイニングソリューション内でクラスタリングアルゴリズム、デシジョンツリーモデル、および Naïve Bayes モデルを使用して、データに関するさまざまなビューを得ることができます。また、1 つのソリューション内で複数のアルゴリズムを使用して、個別のタスクを実行することもできます。たとえば、回帰を使用して財務予測を取得したり、ニューラルネットワークアルゴリズムを使用して売上に影響を及ぼす因子を分析したりできます。

タスク別アルゴリズムの選択

特定のタスクで使用するアルゴリズムの選択の参考として、各アルゴリズムが長年使用されてきたタスクを次の表に示します。

タスクの例	使用する Microsoft アルゴリズム
不連続属性の予測見込み客リスト内の顧客について、見込みがあるかないかをフラグで示します。あるサーバーに半年以内に障害が発生する確率を計算します。患者の転帰を分類し、関連因子を探ります。	Microsoft デシジョンツリーアルゴリズム Microsoft Naive Bayes アルゴリズム Microsoft クラスタリングアルゴリズム Microsoft ニューラルネットワークアルゴリズム
連続属性の予測翌年の売上を予測します。過去の歴史的、季節的傾向を考慮に入れて、来場者を予測します。人口統計を考慮に入れて、リスクスコアを生成します。	Microsoft デシジョンツリーアルゴリズム Microsoft タイムシリーズアルゴリズム Microsoft 線形回帰アルゴリズム
シーケンスの予測ある企業の Web サイトのクリックストリーム分析を実行します。サーバーの障害につながる要因を分析します。外来患者の来院中の一連の行動を把握し分析して、共通する行動に関するベストプラクティスを組み立てます。	Microsoft シーケンスクラスターアルゴリズム
トランザクション内の共通アイテムのグループの検出マーケットバスケット分析を使用して、製品の配置を決定します。ある顧客に追加購入を勧める製品を提案します。ある 1 件のイベントへの来場者の調査データを分析して、相関関係のある行動またはブースを特定し、今後の活動計画を立てます。	Microsoft アソシエーションアルゴリズム Microsoft デシジョンツリーアルゴリズム
類似アイテムのグループの検出人口統計や行動などの属性に基づいて、患者リスクプロファイルグループを作成します。ユーザーを閲覧パターンと購買パターンで分析します。同じような使用状況特性を持つサーバーを特定します。	Microsoft クラスタリングアルゴリズム Microsoft シーケンスクラスターアルゴリズム

不連続属性の予測

見込み客リスト内の顧客について、見込みがあるかないかをフラグで示します。
あるサーバーに半年以内に障害が発生する確率を計算します。
患者の転帰を分類し、関連因子を探ります。

Microsoft デシジョンツリーアルゴリズム

Microsoft Naive Bayes アルゴリズム

Microsoft クラスタリングアルゴリズム

Microsoft ニューラルネットワークアルゴリズム

連続属性の予測

翌年の売上を予測します。
過去の歴史的、季節的傾向を考慮に入れて、来場者を予測します。
人口統計を考慮に入れて、リスクスコアを生成します。

Microsoft デシジョンツリーアルゴリズム

Microsoft タイムシリーズアルゴリズム

Microsoft 線形回帰アルゴリズム

シーケンスの予測

ある企業の Web サイトのクリックストリーム分析を実行します。
サーバーの障害につながる要因を分析します。
外来患者の来院中の一連の行動を把握し分析して、共通する行動に関するベストプラクティスを組み立てます。

Microsoft シーケンスクラスターアルゴリズム

トランザクション内の共通アイテムのグループの検出

マーケットバスケット分析を使用して、製品の配置を決定します。
ある顧客に追加購入を勧める製品を提案します。
ある 1 件のイベントへの来場者の調査データを分析して、相関関係のある行動またはブースを特定し、今後の活動計画を立てます。

Microsoft アソシエーションアルゴリズム

Microsoft デシジョンツリーアルゴリズム

類似アイテムのグループの検出

人口統計や行動などの属性に基づいて、患者リスクプロファイルグループを作成します。
ユーザーを閲覧パターンと購買パターンで分析します。
同じような使用状況特性を持つサーバーを特定します。

Microsoft クラスタリングアルゴリズム

Microsoft シーケンスクラスターアルゴリズム

関連コンテンツ

Analysis Services に用意されている各データマイニングアルゴリズムの学習用リソースのリンクを次の表に示します。

基本的なアルゴリズムの説明	アルゴリズムが行うことと機能のしくみについて説明し、そのアルゴリズムが役に立つ可能性のあるビジネスシナリオの概要を説明します。
	Microsoft アソシエーションアルゴリズム Microsoft クラスタリングアルゴリズム Microsoft デシジョンツリーアルゴリズム Microsoft 線形回帰アルゴリズム Microsoft ロジスティック回帰アルゴリズム Microsoft Naive Bayes アルゴリズム Microsoft ニューラルネットワークアルゴリズム Microsoft シーケンスクラスターアルゴリズム Microsoft タイムシリーズアルゴリズム
テクニカルリファレンス	アルゴリズムの実装について、必要に応じて学術的参考文献を示しながら、技術的詳細を説明します。アルゴリズムの動作を制御したり、モデルの結果をカスタマイズしたりするために設定できるパラメーターを列挙します。データ要件について説明し、可能であればパフォーマンスのヒントを提供します。
	Microsoft アソシエーションアルゴリズムテクニカルリファレンス Microsoft クラスタリングアルゴリズムテクニカルリファレンス Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス Microsoft 線形回帰アルゴリズムテクニカルリファレンス Microsoft ロジスティック回帰アルゴリズムテクニカルリファレンス Microsoft Naive Bayes アルゴリズムテクニカルリファレンス Microsoft ニューラルネットワークアルゴリズムテクニカルリファレンス Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
モデルコンテンツ	各種類のデータマイニングモデル内で情報がどのように構造化されるのか、および各ノードに格納された情報を解釈する方法について説明します。
	アソシエーションモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) クラスターモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) デシジョンツリーモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) 線形回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) ロジスティック回帰モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) Naive Bayes モデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) ニューラルネットワークモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) シーケンスクラスターモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング) タイムシリーズモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)
データマイニングクエリ	各モデルの種類で使用できる複数のクエリを紹介します。たとえば、モデル内のパターンをさらに理解できるようにするコンテンツクエリや、それらのパターンに基づいて予測できるよう支援する予測クエリなどがあります。
	結合モデルのクエリ例クラスタリングモデルのクエリ例デシジョンツリーモデルのクエリ例線形回帰モデルのクエリ例ロジスティック回帰モデルのクエリ例 Naive Bayes モデルのクエリ例ニューラルネットワークモデルのクエリ例シーケンスクラスターモデルのクエリの例タイムシリーズモデルのクエリ例

トピック	説明
あるデータマイニングモデルで使用されるアルゴリズムを判断します。	マイニングモデルの作成に使用されたパラメーターのクエリ
カスタムプラグインアルゴリズムを作成します。	プラグインアルゴリズム
アルゴリズム固有のビューアーを使用して、モデルを調査します。	データマイニングモデルビューアー
汎用のテーブルフォーマットを使用して、モデルのコンテンツを表示します。	Microsoft 汎用コンテンツツリービューアーを使用したモデルの参照
データをセットアップし、アルゴリズムを使用してモデルを作成する方法について学びます。	マイニング構造 (Analysis Services - データマイニング) マイニングモデル (Analysis Services - データマイニング)

次の方法で共有

データマイニングアルゴリズム (Analysis Services - データマイニング)

適切なアルゴリズムの選択

種類別アルゴリズムの選択

タスク別アルゴリズムの選択

関連コンテンツ

関連タスク

関連項目

概念

その他のリソース

次の方法で共有

データ マイニング アルゴリズム (Analysis Services - データ マイニング)

適切なアルゴリズムの選択

種類別アルゴリズムの選択

タスク別アルゴリズムの選択

関連コンテンツ

関連タスク

関連項目

概念

その他のリソース

データマイニングアルゴリズム (Analysis Services - データマイニング)