データ マイニングは、データ内の意味のあるパターンを検出するプロセスです。 データ マイニングは、従来の BI を通じてデータを探索および理解するプロセスを自然に補完します。 マシン アルゴリズムは、非常に大量のデータを処理し、それ以外の場合は非表示になるパターンと傾向を検出できます。
データ マイニングを行うには、特定の質問に関連するデータ ("顧客は誰ですか?" や "購入した製品" など) を収集し、アルゴリズムを適用してデータ内の統計的相関関係を見つけます。 分析によって検出されたパターンと傾向は、マイニング モデルとして格納されます。 その後、次のようなビジネス シナリオで、新しいデータにマイニング モデルを適用できます。
過去の傾向を使用して、次の四半期、在庫要件、または顧客満足度の売上を予測します。
現在の顧客に関する知識を適用して、新しい顧客をプロファイルし、新しい製品や機会を推奨します。
過去のイベント間の相関関係を見つけて、サーバーの障害やダウンタイムを予測します。
顧客が一緒に購入する製品を分析し、その情報を使用してバンドルを推奨するか、製品の配置を計画します。
選択する分析方法は、目標によって異なります。 データ マイニング アドインでは、次の種類の分析がサポートされています。
教師あり学習と教師なし学習
クラスタリング (セグメント化)
ベイジアンとニューラル ネットワークを使用した因子分析
時系列分析
アソシエーション分析、推奨事項、買い物かご分析
バイナリアウトカムのスコア付け
Linear regression (線形回帰)
さらに、アドインはデータ準備フェーズ (データの選択、探索、データ クレンジング) を支援します。
目標を定義する
始める前に、実際に答えたい質問について少し時間を取って検討してください。 それ自体の探索は明らかですが、新しいデータに結果を適用する場合は、モデルが生成すると予想される内容と、モデルが目標を達成したかどうかを測定する方法を明確に記述できる必要があります。
たとえば、"新しい顧客を見つける" という目標ではなく、"製品を購入する可能性が高い顧客の人口統計を少なくとも 65%の確率で特定する" など、より具体的なものに目的を明確にします。
データセットには、トレーニングと予測に使用できる "result" 属性が少なくとも 1 つ含まれている必要があります。 このような属性がない場合は、トレーニング データに手動でラベルを付けるか、他の列を使用して結果のプロキシを作成できます。
たとえば、"最適な見込み客" を予測する場合は、データ マイニングが提供する例から学習できるように、既存の顧客にラベルを付けるために、事前にいくつかのビジネス ルールを適用する必要があります。
時間の経過と共に変化する値を使用していて、将来の傾向を予測する場合は、必要な結果の粒度を検討してください。 月、日、または年単位の予測が必要ですか? 予測するのと同じ単位を使用してデータを分析する必要があります。
循環パターンでは、毎日のデータで良好な結果が得られない場合は、異なるタイム スライスを試すか、週の日、月、または休日を使用してみてください。
ウィザードを起動してデータ内の新しい相関関係を見つける前に、もう 1 つデータを確認し、データセットに存在する可能性がある既存のリレーションシップの種類を検討します。 交絡変数はありますか? 重複またはプロキシはありますか?
モデルの成功を評価するメトリックは何ですか? モデルが「十分に良い」ことをどのように知っていますか?
データ マイニング モデルから予測を行うか、単に興味深いパターンと関連付けを探しますか?
データの探索とモデルの探索
おそらく、あなたは既にデータとドメインを十分に理解しています。 そうする場合でも、モデリングを念頭に置いてデータをプロファイリングする時間を取る必要があります。
値の分布を表示し、欠損値やプレースホルダーなどの潜在的な問題を特定するには、1 分かかります。
他の方法では分析できないほど大規模または複雑なデータ セットに対してデータ マイニングを実行する場合は、サンプリングまたはデータの削減を検討してください。
データはどのように分散されますか?
列はどのように関連しているか、複数のテーブルがある場合、テーブルはどのように関連していますか?
値が不足していますか? 変換または前処理が必要な値はありますか?
データは、主にテキスト、主に数字、またはミックスですか?
対象となる結果の分析をサポートするのに十分なデータがありますか? 製品間の関連付けを分析する場合は、さらに多くのデータが必要になる場合があります。 バイナリの結果を予測する場合は、データセットのバランスが取れていると仮定して、はるかに少ない値で取得できます。
モデルが完成したら、少し時間をかけて結果を確認し、データを修正したり、より良い結果を得る方法を特定したりします。 最初のモデルがすべての回答を提供することは非常にまれです。 通常、データ マイニングは反復的なプロセスです。
さまざまな方法でデータをビン分割したり、新しい列を追加したりするときは、 ドキュメント モデル ウィザードを使用して、各モデルのメタデータと結果のスナップショットをキャプチャすることを忘れないでください。 レコードを持つことで、探索の進行状況を追跡しやすくなります。
モデルを検証する
各ウィザードまたはツールを実行すると、アルゴリズムはデータの内容を分析し、統計的に有効なパターンが存在するかどうかを判断します。 アルゴリズムで有効なパターンが見つからない場合は、エラー メッセージが表示されます。 ただし、モデルが正常に作成された場合でも、モデルをテストして、想定を検証するかどうかを確認する必要があります。 精度チャート (SQL Server データ マイニング アドイン) やクロス検証 (SQL Server データ マイニング アドイン) などのツールを使用して、モデル品質の統計的尺度を生成できます。
最初のモデルの結果を評価するときは、次のような質問を自分に問い合わせてください。
どのようなパターンが見つかりましたか? 確率とサポート値は何ですか?
傾向に関する推測は正しいのか、それとも驚くべき相関関係がありましたか?
十分なデータを収集しましたか? データをビン分割すると、より明確なパターンが生成されますか?
データ セットはバランスが取れていますか? クロス検証では、データの代表性をテストできます。
Excel 用データ マイニング クライアント (SQL Server データ マイニング アドイン)
探索と絞り込み
モデルが有効と思われる場合は、予測、推奨事項、分析情報の派生、またはビジネス戦略の計画にモデルを使用できます。
Data Mining Client for Excel のデータ マイニング ブラウザーを使用して、モデルを探索して操作します。
Excel を使用して結果を並べ替え、フィルター処理します。
Visio を使用してプレゼンテーションを作成し、データ内のリレーションシップを強調表示します。
多くの場合、分析の最初の結果は、分析を改善する方法を見るか、新しいより良いデータを取得する必要があることを認識することです。 Excel 用データ マイニング アドインを使用して作成したモデルは Analysis Service のインスタンスに保存できるため、新しいデータでモデルを更新し、成功したモデルを調整して再利用し続けるのは比較的簡単です。
データ マイニング モデルの重要な用途は、予測と推奨事項を作成することです。 Excel 用データ マイニング アドインには、分析情報を実用的な結果に変換するための複雑な予測クエリを簡単に生成できるツールが含まれています。 これらのツールはすべて Excel と完全に統合されています。
モデルの表示 (Office 用データ マイニング アドイン)
モデルの検証と予測のためのモデルの使用 (Excel 用データ マイニング アドイン)
こちらもご覧ください
Office 用データ マイニング Add-Ins に含まれるもの
テクニカル リファレンス (Excel 用データ マイニング アドイン)